Diagrama de caixa: diferenças entre revisões

Conteúdo apagado Conteúdo adicionado

Em linha

Edição atual tal como às 14h09min de 22 de março de 2023

Em estatística descritiva, diagrama de caixa, diagrama de extremos e quartis, boxplot ou box plot é uma ferramenta gráfica para representar a variação de dados observados de uma variável numérica por meio de quartis (ver figura 1, onde o eixo horizontal representa a variável). O box plot tem uma reta (whisker ou fio de bigode) que estende–se verticalmente ou horizontalmente a partir da caixa, indicando a variabilidade fora do quartil superior e do quartil inferior.^[1] Os valores atípicos ou outliers (valores discrepantes) podem ser plotados como pontos individuais.^[2] O diagrama de caixa não é paramétrico, apresentando a variação em amostras de uma população estatística sem fazer qualquer suposição da distribuição estatística subjacente.^[3] Os espaços entre as diferentes partes da caixa indicam o grau de dispersão, a obliquidade nos dados e os outliers.^[4] O box plot também permite estimar visualmente vários $L-$ estimadores como amplitude interquartil, midhinge, range, mid-range, e trimean.^[5] Em resumo, o diagrama identifica onde estão localizados 50% dos valores mais prováveis, a mediana e os valores extremos.^[6]

Figura 2.Diagrama de caixa dos dados do experimento de Michelson–Morley

Essa ferramenta é usada frequentemente para analisar e comparar a variação de uma variável entre diferentes grupos de dados. Ver como exemplo a figura 2 onde o eixo vertical representa a variável e o eixo horizontal representa o fator de interesse.^[6]

História

Na história da civilização, as imagens sempre foram fundamentais para contar histórias e compartilhar ideias. Na matemática, os primeiros casos de uso de imagem para representar números datam de antes de 300 AC na Grécia Antiga. Mais tarde, os matemáticos desenvolveram o uso de gráficos para ajudar em cálculos mais complexos. Depois de mais de 100 anos desde A Geometria, publicado por René Descartes em 1637, em que o filósofo e matemático francês introduziu o sistema de coordenadas cartesianas, cientistas e matemáticos passaram a usar gráficos para informar e educar com a criação de diferentes tipos de gráficos (gráfico de linha, gráfico de barras e gráfico de pizza) e infográficos. Um dos primeiros registros de uso de gráficos na educação vem do matemático Joseph Priestley (1733 – 1804), que usou gráficos semelhantes ao diagrama de Gantt para ajudar a lecionar história na Warrington Academy. Enquanto que um dos primeiros registros de uso de gráficos na informação vem da enfermeira Florence Nightingale (1820 – 1910), que utilizou gráficos polares para mostrar o número de mortes dentro do exercito britânico.^[7]

No decorrer do século XX, a visualização de dados aprimorou–se, sobretudo com a revolução digital que permitiu levar informações gráficas para um público cada vez maior. Em 1969, o matemático John W. Tukey (1915 –2000) popularizou o boxplot.^[8] Tukey é pioneiro no processo de análise exploratória de dados, tendo desenvolvido várias técnicas para melhorar a visibilidade e a compreensão dos dados, incluindo o diagrama ramo e folha, o five number summary e o próprio boxplot.^[9] Entretanto, embora a criação do boxplot seja atribuída à Tukey, o manual gráfico do pacote estatístico Stata sugere que o diagrama de extremos tenha sido usado pelo menos desde o trabalho The Analysis of Rainfall Probability: A Graphical Method and its Application to European Data, publicado por P. R. Crowe em 1933.^[10] Utilizado em várias ciências quantitativas, o modelo pode ser considerado um gráfico estatístico padrão, aparecendo em grande parte dos textos estatísticos introdutórios. Os boxplots tinham vários precursores sob diferentes nomes como o gráfico rangebars e os diagramas de dispersão na geografia e na climatologia.^[8]

“

O grande valor de uma imagem é quando ela nos obriga a notar o que nunca esperávamos ver.^[7]

”

— John W. Tukey

Construção de um diagrama de caixa

A construção do diagrama inclui os seguintes procedimentos (representando os valores de variável no eixo vertical como nas figuras 2 e 3 por exemplo):

Calcular a mediana e os quartis (o quartil inferior, primeiro quartil $Q_{1}$ , corresponde a 25% das menores medidas e o quartil superior, terceiro quartil $Q_{3}$ , corresponde a 75% das menores medidas). Por exemplo, em $\{-2,1,2,3,4,5,6\}$ , a mediana é elemento $\{3\}$ , o quartil inferior é o segundo elemento $\{1\}$ e o quartil superior é o sexto elemento $\{5\}$ .
Plotar um gráfico, no qual localiza–se a mediana em uma caixa (a base da caixa representa o quartil inferior e o topo da caixa representa o quartil superior lembrando que a variação de variável corresponde a eixo vertical). Portanto, a caixa representa 50% de todos os valores observados, concentrados na tendência central dos valores, eliminando 25% dos menores valores e 25% dos maiores valores (75% - 25% = 50%). A altura da caixa é amplitude interquartil $AIQ$ . No exemplo anterior a amplitude interquartil (distância entre os quartis) que determina a altura da caixa é $5-1=4$ .^[6]
O mesmo diagrama com fio de bigodes com máximo $1,5AIQ$
Traçar os fios de bigodes ou whisker (os segmentos de reta vertical). Os limites dos fio de bigodes podem representar vários valores alternativos:
1. O mínimo e o máximo de todos os dados (figura 3);^[11] observe que neste caso pela definição não há valores discrepantes. Os fios de bigodes neste caso são: um segmento de reta vertical que liga o topo da caixa ao maior valor observado e outro segmento de reta que liga a base da caixa ao menor valor observado.
2. Os limites de fio de bigode é comumente definidos através de limite inferior ( $LI$ ) e limite superior ( $LS$ ) de acordo com as seguintes representações matemáticas: $LI=Q_{1}-c\cdot AIQ$ e $LS=Q_{3}+c\cdot AIQ$ , em que $AIQ$ é a amplitude interquartil e $c$ é uma constante que pertence aos números reais $\mathbb {R} \,$ e pode assumir qualquer valor..^[12] Geralmente utiliza–se $c=1,5$ , porque o valor é capaz de captar mais de 99% dos dados embaixo da curva normal para acima e para abaixo do limites superior
  Figura 4. Boxplot e função densidade de probabilidade de uma população normal $N(0,1\sigma ^{2})$
  e do limite inferior.^[13] Assim, os limites de fio de bigode são o valor mais baixo dentro da amplitude interquartil de 1,5 do menor quartil (ou valor mais baixo dentro de valores maiores de que $LI$ ) o ponto mais alto dentro da amplitude interquartil de 1,5 do maior quartil (ou valor mais alto dentro de valores menores de que $LS$ ). Qualquer dado não incluso entre os fio de bigodes deve ser plotado como um outlier com um ponto. Embora pouco usual, um outlier também pode ser representado como um círculo pequeno ou uma estrela (alguns diagramas de caixa também incluem outro caractere para representar a média dos dados).^[14] A identificação de outliers é um dos primeiros passos para análise de dados multivariados.^[15] Por exemplo, em $\{1,1,2,3,4,5,10\}$ , o último elemento $\{10\}$ é um outlier. Geralmente, esses tipos de diagrama são chamados de boxplot de Tukey (figura 4).^[14]^[16] Por exemplo, seja o conjunto de dados $\{-2,1,2,3,4,5,6\}$ , em que a amplitude interquartil é igual a 4. O primeiro quartil ou quartil inferior é $\{1\}$ . Então, o limite inferior é $LI=1-1,5\cdot 4=-5$ . Entre $-5$ e $-2$ , o maior valor é $-2$ . Portanto, o fio de bigode inferior é $-2$ . O terceiro quartil ou quartil superior é $\{5\}$ . Então, o limite superior é $LS=5+1,5\cdot 4=11$ . Entre $11$ e $6$ , o menor valor é $6$ . Portanto, o fio de bigode superior é $6$ ^[12] Não tem valores discrepantes.

O diagrama é uma forma rápida de examinar um ou mais conjuntos de dados graficamente. Embora pareça mais primitivo que o histograma ou a estimativa de densidade kernel, o boxplot apresenta vantagens sobre esses por prover mais dados além da mediana e/ou a média.^[17] A escolha do número e da largura das barras pode influenciar muito na aparência do histograma^[18] e da estimativa de densidade kernel,^[19] o que não acontece com o boxplot. De fato, a largura do diagrama de extremos pode até ser usada como uma medida de informação dos dados, representando em alguma proporção o tamanho do conjunto de dados.^[20] Uma comparação (figura 4) entre o gráfico e uma função densidade de probabilidade (histograma teórico) mostra explicitamente a quantidade de informações que essa ferramenta possui.

Exemplos práticos

Aquecimento global

Pesquisadores têm estudado a temperatura da atmosfera terrestre com a finalidade de evidenciar uma mudança climática que pode alterar as atuais condições de vida no planeta.^[21] Seja uma amostra de uma pesquisa realizada com veículos leves emissores de $CO_{2}$ . A amostra compara três (gassol 22, AEHC e GNV), de modo a entender qual deles libera maior quantidade de $CO_{2}$ . Em outras palavras, qual deles mais contribui para o aquecimento global.^[22]

O box plot acima indica que o GNV possui 75% da emissão de $CO_{2}$ (abaixo de200 g/km). Isto significa que o GNV é o combustível que menos contribui para o aumento da temperatura da Terra. Esta informação pode ser utilizada para ajudar a combater o aquecimento global de diferentes maneiras como por meio da alteração das fórmulas do 22 e do AEHC.^[23]

População dos estados

Em 2016, o Instituto Brasileiro de Geografia e Estatística (IBGE) contabilizou a população dos estados brasileiros.^[24]^[25]

O box plot acima mostra a importância do cuidado com os outliers em análise de dados. A população de São Paulo é maior que a população dos demais estados brasileiros e isso não é um erro. Isto significa que nem sempre o outlier corresponde a um erro de arredondamento ou a um erro de observação.^[25]

Variações

Figura 6. Quatro boxplots, com e sem entalhes e largura variável

Desde que o matemático John W. Tukey introduziu este tipo de representação visual de dados em 1969, variações do boxplot tradicional têm sido descritas. Duas das mais comuns são os boxplots com largura variável e os boxplots entalhados (figura 6).

Diagrama de caixa com largura variável

Os boxplots com largura variável (variable width box plots) ilustram o tamanho de cada grupo, cujos dados estão sendo plotados tornando a largura da caixa proporcional ao tamanho do grupo. Uma convenção popular é tornar a largura da caixa proporcional à raiz quadrada do tamanho do grupo.^[11]

Diagrama de caixa entalhado

Os boxplots entalhados (notched box plots) aplicam um entalhe ou um estreitamento da caixa em torno da mediana. Os diagramas de caixa entalhados são úteis para oferecer um guia aproximado para a significância da diferença entre medianas. Se o entalhe de duas caixa não se sobrepuserem, isto oferece evidência de uma diferença estatisticamente significante entre as medianas. A largura dos entalhes é proporcional à amplitude interquartil da amostra e inversamente proporcional à raiz quadrada do tamanho da amostra. Entretanto, há incerteza sobre o multiplicador mais apropriados (isto pode variar dependendo da similaridade das variâncias das amostras).^[11]

Uma convenção é usar $\pm {\frac {1.58IQR}{\sqrt {n}}}$ .^[16]

Diagrama de caixa ajustado

Os boxplots ajustados (variable width notched box plots) são destinados às distribuições distorcidas, baseando—se na estatística medcouple de distorção. Para um valor medcouple de MC, os comprimentos dos fio de bigodes superiores e inferiores são respectivamente definidos por:

${\begin{matrix}1.5IQR\cdot e^{3MC},&1.5IQR\cdot e^{-4MC}{\text{ se }}MC\geq 0\\1.5IQR\cdot e^{4MC},&1.5IQR\cdot e^{-3MC}{\text{ se }}MC\leq 0\end{matrix}}$ ^[26]

Observa–se que para distribuições simétricas, o medcouple será 0. Isto reduz o bloxplot de Tukey como igual comprimento dos fio de bigodes, de amplitude interquartil de 1,5 para ambos os fio de bigodes.^[26]

Comparação de diferentes conjuntos

Com o diagrama de extremos, é possível visualizar se existe ou não existe equivalência em conjuntos de dados. A figura 7 mostra que de fato não se trata de um único conjunto, mas de dois grupos A e B distintos. Esta evidência é destacada caso os dados experimentais sejam plotados, em dot plot ou em gráficos de pontos, em conjunto com os diagramas de caixa.^[27]

Por exemplo, ao analisar uma variável quantitativa como a renda (salário) de trabalhadores que pode ser expressa (plotada) em dot plot ou box plot, é notado um único gráfico. No entanto, trabalhadores são compostos por gêneros, sendo possível diferenciar entre dois grupos (gêneros) que são homem e mulher. Portanto, ao analisar o diagrama Renda de trabalhadores, se observa dois diagramas de caixa diferentes tratando a mesma variável quantitativa: renda.^[28]

Referências

↑ Ross, Sheldon (2004). Introduction to Probability and Statistics ofr Engineers and Scientists 3ª ed. [S.l.]: Elsevier. p. 27. 624 páginas
↑ Mann, Prem S. (2010). Introductory Statistics 7ª ed. [S.l.]: Wiley. p. 115 — 117. 625 páginas
↑ Navidi, William (2010). «1. Sampling and Descriptive Statistics». Statistics for Engineers and Scientists 3ª ed. [S.l.]: McGraw—Hill Science / Engineering / Math
↑ The Open University (2013). «1.1.3 Comparing Data Sets Using Boxplots». Interpreting Data: Boxplots and Tables. [S.l.: s.n.]
↑ Rubin, Allen (2013). Statistics for Evidence-Based Practice and Evaluation 3ª ed. [S.l.]: Cengage Learning. p. 67 — 68. 349 páginas
↑ ^a ^b ^c Devore, Jay L. (2006). Estatística e Probabilidade para Engenharia e Ciências. [S.l.]: Cengage Learning. p. 35 — 38. 692 páginas
↑ ^a ^b Redmond, Stephen. «7. Visualizing Data». Mastering QlikView. [S.l.: s.n.]
↑ ^a ^b Cox, Nicholas J. (2009). «Speaking Stata: Creating and Varying Box Plots» (PDF). The Stata Journal. 9 (3): 478 – 496
↑ Jacobs, Jay; Rudis, Bob (2014). Data–Driven Security: Analysis, Visualization and Dashboards. [S.l.]: Wiley. p. 18. 331 páginas
↑ Dietz, Thomas; Kalof, Linda (2009). Introduction to Social Statistics: The Logic of Statistical Reasoning. [S.l.]: Wiley–Blackwell. p. 133. 568 páginas
↑ ^a ^b ^c MCGILL, Robert; TUKEY, John W.; LARSEN, Wayne A. Variations of box plots. The American Statistician, v. 32, n. 1, p. 12-16, 1978.
↑ ^a ^b Lauretto, Marcelo de Souza. «Estatística descritiva básica: Medidas de dispersão» (PDF). Escola de Artes, Ciência e Humanidades - USP. p. 9. Consultado em 7 de fevereiro de 2017
↑ Bussab, Wilton de O.; Morettin, Wilton de O. (2012). Estatística Básica. São Paulo: Saraiva. p. 50. 548 páginas
↑ ^a ^b FRIGGE, Michael; HOAGLIN, David C.; IGLEWICZ, Boris. Some implementations of the boxplot. The American Statistician, v. 43, n. 1, p. 50-54, 1989.
↑ Ferreira, Márcia M. C. «Quimiometria» (PDF). Universidade Estadual de Campinas (UNICAMP). Consultado em 8 de junho de 2017
↑ ^a ^b «Box Plot Statistics». Consultado em 8 de junho de 2017
↑ Robbins, Naomi (10 de janeiro de 2012). «Comparing Distributions with Box Plots». Forbes. Consultado em 14 de junho de 2017
↑ «Histograms, seção Choosing the correct bin width». Laerd Statistics. Consultado em 14 de junho de 2017
↑ Duong, Tarn (4 de maio de 2001). «An introduction to kernel density estimation» (PDF). Weatherburn Lecture Series para o departamento de Matemática e Estatística da University of Western Australia. Consultado em 14 de junho de 2017
↑ Altman, Naomi; Krzywinski, Martin (30 de janeiro de 2014). «Points of Significance: Visualizing samples with box plots». Nature Methods. 11: 119-120. doi:10.1038/nmeth.2813. Consultado em 14 de junho de 2017
↑ Borsari, Vanderlei (2009). «Caracterização das emissões de gases do efeito estufa por veículos automotores leves do Estado de São Paulo». p. 41 - 42. Arquivado do [file:///C:/Users/Maria%20Jose/Downloads/VanderleiBorsari%20(1).pdf original] Verifique valor |url= (ajuda) (PDF) em 12 de agosto de 2013
↑ Borsari, Vanderlei (2009). «Caracterização da emissão de gases de efeito estufa por veículos automotores leves no Estado de São Paulo». p. 9. Arquivado do [file:///C:/Users/Maria%20Jose/Downloads/VanderleiBorsari%20(1).pdf original] Verifique valor |url= (ajuda) (PDF) em 12 de agosto de 2013
↑ Borsari, Vanderlei (2009). «Caracterização das emissões de gases de efeito estufa por veículos automotores leves no Estado de São Paulo». p. 128. Arquivado do [file:///C:/Users/Maria%20Jose/Downloads/VanderleiBorsari%20(1).pdf original] Verifique valor |url= (ajuda) (PDF) em 12 de agosto de 2013
↑ «ESTIMATIVAS DA POPULAÇÃO RESIDENTE NO BRASIL E UNIDADES DA FEDERAÇÃO COM DATA DE REFERÊNCIA EM 1 DE JULHO DE 2016» (PDF). IBGE. 14 de junho de 2017. p. 1. Consultado em 21 de junho de 2017
↑ ^a ^b Bussab, Wilton de O.; Morettin, Pedro A. (2010). Estatística Básica. São Paulo: Saraiva. 49 páginas
↑ ^a ^b HUBERT, Mia; VANDERVIEREN, Ellen. An adjusted boxplot for skewed distributions. Computational statistics & data analysis, v. 52, n. 12, p. 5186-5201, 2008.
↑ «How to Compare Data Sets». Stak Trek. Consultado em 14 de junho de 2017
↑ Santos, Renato Vale; Ribeiro, Eduardo Pontual. «Diferenciais de Rendimentos entre Homens e Mulheres no Brasil revisitado: explorando o "Teto de Vidro"» (PDF). Centro de Economia Internacional. Consultado em 19 de junho de 2017

Leituras adicionais

BENJAMINI, Yoav. Opening the Box of a Boxplot. The American Statistician, v. 42, n. 4, p. 257-262, 1988.
ROUSSEEUW, Peter J.; RUTS, Ida; TUKEY, John W. The bagplot: a bivariate boxplot. The American Statistician, v. 53, n. 4, p. 382-387, 1999.
TUKEY, John W. Exploratory data analysis. 1977.

Ligações externas

[1] Ross, Sheldon (2004). Introduction to Probability and Statistics ofr Engineers and Scientists 3ª ed. [S.l.]: Elsevier. p. 27. 624 páginas

[2] Mann, Prem S. (2010). Introductory Statistics 7ª ed. [S.l.]: Wiley. p. 115 — 117. 625 páginas

[3] Navidi, William (2010). «1. Sampling and Descriptive Statistics». Statistics for Engineers and Scientists 3ª ed. [S.l.]: McGraw—Hill Science / Engineering / Math

[4] The Open University (2013). «1.1.3 Comparing Data Sets Using Boxplots». Interpreting Data: Boxplots and Tables. [S.l.: s.n.]

[5] Rubin, Allen (2013). Statistics for Evidence-Based Practice and Evaluation 3ª ed. [S.l.]: Cengage Learning. p. 67 — 68. 349 páginas

[:1-6] Devore, Jay L. (2006). Estatística e Probabilidade para Engenharia e Ciências. [S.l.]: Cengage Learning. p. 35 — 38. 692 páginas

[ReferenceA-7] Redmond, Stephen. «7. Visualizing Data». Mastering QlikView. [S.l.: s.n.]

[:0-8] Cox, Nicholas J. (2009). «Speaking Stata: Creating and Varying Box Plots» (PDF). The Stata Journal. 9 (3): 478 – 496

[9] Jacobs, Jay; Rudis, Bob (2014). Data–Driven Security: Analysis, Visualization and Dashboards. [S.l.]: Wiley. p. 18. 331 páginas

[10] Dietz, Thomas; Kalof, Linda (2009). Introduction to Social Statistics: The Logic of Statistical Reasoning. [S.l.]: Wiley–Blackwell. p. 133. 568 páginas

[:3-11] MCGILL, Robert; TUKEY, John W.; LARSEN, Wayne A. Variations of box plots. The American Statistician, v. 32, n. 1, p. 12-16, 1978.

[:4-12] Lauretto, Marcelo de Souza. «Estatística descritiva básica: Medidas de dispersão» (PDF). Escola de Artes, Ciência e Humanidades - USP. p. 9. Consultado em 7 de fevereiro de 2017

[:7-13] Bussab, Wilton de O.; Morettin, Wilton de O. (2012). Estatística Básica. São Paulo: Saraiva. p. 50. 548 páginas

[:2-14] FRIGGE, Michael; HOAGLIN, David C.; IGLEWICZ, Boris. Some implementations of the boxplot. The American Statistician, v. 43, n. 1, p. 50-54, 1989.

[15] Ferreira, Márcia M. C. «Quimiometria» (PDF). Universidade Estadual de Campinas (UNICAMP). Consultado em 8 de junho de 2017

[:5-16] «Box Plot Statistics». Consultado em 8 de junho de 2017

[17] Robbins, Naomi (10 de janeiro de 2012). «Comparing Distributions with Box Plots». Forbes. Consultado em 14 de junho de 2017

[18] «Histograms, seção Choosing the correct bin width». Laerd Statistics. Consultado em 14 de junho de 2017

[19] Duong, Tarn (4 de maio de 2001). «An introduction to kernel density estimation» (PDF). Weatherburn Lecture Series para o departamento de Matemática e Estatística da University of Western Australia. Consultado em 14 de junho de 2017

[20] Altman, Naomi; Krzywinski, Martin (30 de janeiro de 2014). «Points of Significance: Visualizing samples with box plots». Nature Methods. 11: 119-120. doi:10.1038/nmeth.2813. Consultado em 14 de junho de 2017

[21] Borsari, Vanderlei (2009). «Caracterização das emissões de gases do efeito estufa por veículos automotores leves do Estado de São Paulo». p. 41 - 42. Arquivado do [file:///C:/Users/Maria%20Jose/Downloads/VanderleiBorsari%20(1).pdf original] Verifique valor |url= (ajuda) (PDF) em 12 de agosto de 2013

[22] Borsari, Vanderlei (2009). «Caracterização da emissão de gases de efeito estufa por veículos automotores leves no Estado de São Paulo». p. 9. Arquivado do [file:///C:/Users/Maria%20Jose/Downloads/VanderleiBorsari%20(1).pdf original] Verifique valor |url= (ajuda) (PDF) em 12 de agosto de 2013

[23] Borsari, Vanderlei (2009). «Caracterização das emissões de gases de efeito estufa por veículos automotores leves no Estado de São Paulo». p. 128. Arquivado do [file:///C:/Users/Maria%20Jose/Downloads/VanderleiBorsari%20(1).pdf original] Verifique valor |url= (ajuda) (PDF) em 12 de agosto de 2013

[24] «ESTIMATIVAS DA POPULAÇÃO RESIDENTE NO BRASIL E UNIDADES DA FEDERAÇÃO COM DATA DE REFERÊNCIA EM 1 DE JULHO DE 2016» (PDF). IBGE. 14 de junho de 2017. p. 1. Consultado em 21 de junho de 2017

[:8-25] Bussab, Wilton de O.; Morettin, Pedro A. (2010). Estatística Básica. São Paulo: Saraiva. 49 páginas

[:6-26] HUBERT, Mia; VANDERVIEREN, Ellen. An adjusted boxplot for skewed distributions. Computational statistics & data analysis, v. 52, n. 12, p. 5186-5201, 2008.

[27] «How to Compare Data Sets». Stak Trek. Consultado em 14 de junho de 2017

[28] Santos, Renato Vale; Ribeiro, Eduardo Pontual. «Diferenciais de Rendimentos entre Homens e Mulheres no Brasil revisitado: explorando o "Teto de Vidro"» (PDF). Centro de Economia Internacional. Consultado em 19 de junho de 2017

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

@@ Linha 1: / Linha 1: @@
+[[Imagem:Elements of a boxplot pt.svg|miniaturadaimagem|right|400px|Figura 1. Elementos de um box plot]]Em [[estatística descritiva]], '''diagrama de caixa''', '''diagrama de extremos e quartis,''' '''''boxplot''''' ou '''''box plot''''' é uma ferramenta gráfica para representar a variação de dados observados de uma variável numérica por meio de [[Quartil|quartis]] (ver figura 1, onde o eixo horizontal representa a variável). O box plot tem uma reta (''whisker'' ou fio de bigode) que estende–se verticalmente ou horizontalmente a partir da caixa, indicando a variabilidade fora do quartil superior e do quartil inferior.<ref>{{citar livro|título=Introduction to Probability and Statistics ofr Engineers and Scientists|ultimo=Ross|primeiro=Sheldon|editora=Elsevier|ano=2004|edicao=3ª|local=|página=27|total-páginas=624|acessodata=}}</ref> Os valores atípicos ou ''[[outlier]]s'' (valores discrepantes) podem ser plotados como pontos individuais.<ref>{{citar livro|título=Introductory Statistics|ultimo=Mann|primeiro=Prem S.|editora=Wiley|ano=2010|edicao=7ª|local=|página=115 — 117|total-páginas=625|acessodata=}}</ref> O diagrama de caixa não é paramétrico, apresentando a variação em amostras de uma população estatística sem fazer qualquer suposição da [[Distribuição de probabilidade|distribuição estatística]] subjacente.<ref>{{citar livro|título=Statistics for Engineers and Scientists|ultimo=Navidi|primeiro=William|editora=McGraw—Hill Science / Engineering / Math|ano=2010|edicao=3ª|local=|capitulo=1. Sampling and Descriptive Statistics|acessodata=}}</ref> Os espaços entre as diferentes partes da caixa indicam o [[Dispersão estatística|grau de dispersão]], a [[obliquidade]] nos dados e os ''outliers''.<ref>{{citar livro|título=Interpreting Data: Boxplots and Tables|ultimo=The Open University|editora=|ano=2013|local=|capitulo=1.1.3 Comparing Data Sets Using Boxplots|acessodata=}}</ref> O box plot também permite estimar visualmente vários <math>L-</math>estimadores como [[amplitude interquartil]], '''midhinge''', '''range''', '''mid-range''', e '''trimean'''.<ref>{{citar livro|título=Statistics for Evidence-Based Practice and Evaluation|ultimo=Rubin|primeiro=Allen|editora=Cengage Learning|ano=2013|edicao=3ª|local=|página=67 — 68|total-páginas=349|acessodata=}}</ref> Em resumo, o diagrama identifica onde estão localizados 50% dos valores mais prováveis, a mediana e os valores extremos.<ref name=":1" />[[Ficheiro:Michelsonmorley-boxplot.svg|miniaturadaimagem|300x300px|Figura 2.Diagrama de caixa dos dados do experimento de Michelson–Morley]]Essa ferramenta é usada frequentemente para analisar e comparar a variação de uma variável entre diferentes grupos de dados. Ver como exemplo a figura 2 onde o eixo vertical representa a variável e o eixo horizontal representa o fator de interesse.<ref name=":1">{{citar livro|título=Estatística e Probabilidade para Engenharia e Ciências|ultimo=Devore|primeiro=Jay L.|editora=Cengage Learning|ano=2006|local=|página=35 — 38|total-páginas=692|acessodata=}}</ref>
-Em [[estatística descritiva]], '''diagrama de caixa''', ou '''''boxplot''''', '''''box plot''''', é um gráfico no qual o:<ref name="itl.nist.gov">[http://www.itl.nist.gov/div898/handbook/eda/section3/boxplot.htm  / National Institute of Standards and Technology "1.3.3.7 Box Plot "], e-book web</ref>
-* eixo vertical representa a variável a ser analisada;
-* eixo horizontal um fator de interesse.
-[[File:Diagrama de caixa7.png|thumb|Diagrama de caixa. Valores observados à esquerda com diagrama à direita mostrando quartis, 1%,99%, mediana e Whistles.]]
-O diagrama de caixa é uma ferramenta para localizar e analisar a variação de uma variável dentre diferentes grupos de dados.
+== História ==
-O diagrama de caixa procura obter as seguintes informações:
-* Calcular a [[mediana]] e os quartis ( o [[quartil]] inferior contém 25% ( 1/4) das menores medidas e o quartil superior contém 75 ( 3/4) de todas as medidas);
-* Plotar um símbolo onde se localiza a mediana e uma caixa, daí o nome de diagrama de caixas, onde a base representa o quartil inferior ( 25% ou 1/4) dos menores valores), e o topo da caixa o quartil superior (75% ou 3/4) dos valores observados. A caixa portanto representa 50% de todos os os valores observados ,concentrados na tendência central dos valores,  eliminando os 25% menores valores e 25% maiores valores ( 75% - 25% = 50%);
-*Um segmento de reta vertical conecta o topo da caixa ao maior valor observado e outro segmento conecta a base da caixa ao menor valor observado, este segmento denomina-se [[Whisker]], ou fio de bigode.
+Na história da civilização, as imagens sempre foram fundamentais para contar histórias e compartilhar ideias. Na matemática, os primeiros casos de uso de imagem para representar números datam de antes de 300 AC na Grécia Antiga. Mais tarde, os matemáticos desenvolveram o uso de gráficos para ajudar em cálculos mais complexos. Depois de mais de 100 anos desde ''A Geometria'', publicado por René Descartes em 1637, em que o filósofo e matemático francês introduziu o sistema de coordenadas cartesianas, cientistas e matemáticos passaram a usar gráficos para informar e educar com a criação de diferentes tipos de gráficos (gráfico de linha, gráfico de barras e gráfico de pizza) e infográficos. Um dos primeiros registros de uso de gráficos na educação vem do matemático Joseph Priestley (1733 – 1804), que usou gráficos semelhantes ao diagrama de Gantt para ajudar a lecionar história na Warrington Academy. Enquanto que um dos primeiros registros de uso de gráficos na informação vem da [[Enfermagem|enfermeira]] Florence Nightingale (1820 – 1910), que utilizou gráficos polares para mostrar o número de mortes dentro do exercito britânico.<ref name="ReferenceA">{{citar livro|título=Mastering QlikView|ultimo=Redmond|primeiro=Stephen|editora=|local=|capitulo=7. Visualizing Data|acessodata=}}</ref>
-Em resumo, o diagrama de caixa identifica onde estão localizados 50% dos valores mais prováveis, a mediana e os valores extremos.
+No decorrer do século XX, a visualização de dados aprimorou–se, sobretudo com a revolução digital que permitiu levar informações gráficas para um público cada vez maior. Em 1969, o matemático John W. Tukey (1915 –2000) popularizou o boxplot.<ref name=":0">{{citar periódico|ultimo=Cox|primeiro=Nicholas J.|data=2009|titulo=Speaking Stata: Creating and Varying Box Plots|jornal=The Stata Journal|volume=9|numero=3|paginas=478 – 496|url=http://ageconsearch.tind.io//bitstream/143004/2/sjart_gr0039.pdf}}</ref> Tukey é pioneiro no processo de análise exploratória de dados, tendo desenvolvido várias técnicas para melhorar a visibilidade e a compreensão dos dados, incluindo o ''diagrama ramo e folha'', o ''five number summary'' e o próprio ''boxplot''.<ref>{{citar livro|título=Data–Driven Security: Analysis, Visualization and Dashboards|ultimo=Jacobs|primeiro=Jay|ultimo2=Rudis|primeiro2=Bob|editora=Wiley|ano=2014|local=|página=18|total-páginas=331|acessodata=}}</ref> Entretanto, embora a criação do boxplot seja atribuída à Tukey, o manual gráfico do pacote estatístico Stata sugere que o diagrama de extremos tenha sido usado pelo menos desde o trabalho ''The Analysis of Rainfall Probability: A Graphical Method and its Application to European Data'', publicado por P. R. Crowe em 1933.<ref>{{citar livro|título=Introduction to Social Statistics: The Logic of Statistical Reasoning|ultimo=Dietz|primeiro=Thomas|ultimo2=Kalof|primeiro2=Linda|editora=Wiley–Blackwell|ano=2009|local=|página=133|total-páginas=568|acessodata=}}</ref> Utilizado em várias ciências quantitativas, o modelo pode ser considerado um gráfico estatístico padrão, aparecendo em grande parte dos textos estatísticos introdutórios. Os boxplots tinham vários precursores sob diferentes nomes como o gráfico rangebars e os diagramas de dispersão na geografia e na climatologia.<ref name=":0" />
-== Mediana ==
-Após a ordenação dos valores a [[Mediana]] é o valor que divide a metade inferior da metade superior da amostra.<br />
-Exemplo: Do conjunto {-2,1,2,3,4,5,6}, o quarto elemento {3} divide o subjconjunto dos maiores valores dos menores.<br />
-Caso o número de valores seja para, a mediana será a média aritmética simples entre os dois valores centrais,<br />
-:Exemplo: Do conjunto {1,1,2,3,4,5,5,6} , os valores centrais são {3} e {4} , logo a mediana é (3+4)/2), ou {3,5}<br />
-O Diagrama de Caixa é método robusto de estatística  pois é menos influenciado pelos valores atípicos ou outliers.<ref name="métodos robusto"> BRAGA, L. P. V. Compreendendo Probabilidade e Estatística, pg. 98.   E-PAPERS,   ISBN 9788576502821.</ref>    <br />
-Exemplo: Do conjunto {1,1,2,3,4,5,10}, o último elemento {10} é um valor atípico, ou outlier, porém a mediana não é alterada, {3}.
+{{Cquote|O grande valor de uma imagem é quando ela nos obriga a notar o que nunca esperávamos ver.<ref name="ReferenceA">{{citar livro|título=Mastering QlikView|ultimo=Redmond|primeiro=Stephen|editora=|local=|capitulo=7. Visualizing Data|acessodata=}}</ref>|autor=John W. Tukey}}
-== Quartis e Região Interquartis ==
+== Construção de um diagrama de caixa ==
-Para calcular a altura da caixa é necessário antes estimar o quartil inferior, onde estão localizados 1/4, ou 25%, dos menores valores, e o quartil superior, onde estão localizados 3/4 ou 75% dos menores valores.<br />
+[[Ficheiro:Box-Plot_mit_Min-Max_Abstand.png|miniaturadaimagem|Figura 3. Diagrama de extremos com ''fio de bigodes'' do mínimo ao máximo]]
-O quartil inferior é a mediana do conjunto que representa 50% dos menores valores,<br />
-:Exemplo: Do conjunto {-2,1,2,3,4,5,6}
-O quartil inferior é o segundo elemento, {1} e o quartil superior é o sexto elemento {5}.<br />
-A distância interquartil, ou a altura da caixa é : altura = 5-1 = 4.
+A construção do diagrama inclui os seguintes procedimentos (representando os valores de variável no eixo vertical como nas figuras 2 e 3 por exemplo):
-== Estimativa do Whisker ou fio de bigode ==
+* Calcular a [[mediana (estatística)|mediana]] e os quartis (o [[quartil]] inferior, primeiro quartil <math>Q_1</math>, corresponde a 25% das menores medidas e o quartil superior, terceiro quartil <math>Q_3</math>, corresponde a 75% das menores medidas). Por exemplo, em <math>\{-2,1,2,3,4,5,6\}</math>, a mediana é elemento <math>\{3\}</math>, o quartil inferior é o segundo elemento <math>\{1\}</math> e o quartil superior é o sexto elemento <math>\{5\}</math>.
-Tanto a altura da caixa como o tamanho do Whisker fornecem informações sobre a dispersão dos dados.
+* Plotar um gráfico, no qual localiza–se a mediana em uma caixa (a base da caixa representa o quartil inferior e o topo da caixa representa o quartil superior lembrando que a variação de variável corresponde a eixo vertical). Portanto, a caixa representa 50% de todos os valores observados, concentrados na tendência central dos valores, eliminando 25% dos menores valores e 25% dos maiores valores (75% - 25% = 50%). A altura da caixa é amplitude interquartil <math> AIQ </math>. No exemplo anterior a amplitude interquartil (distância entre os quartis) que determina a altura da caixa é <math>5 - 1 = 4</math>.<ref name=":1" />[[Ficheiro:Box-Plot_mit_Interquartilsabstand.png|miniaturadaimagem|O mesmo diagrama com ''fio de bigodes'' com máximo <math>1,5AIQ</math>]]
-Para estimativa do valor mínimo do whisker, toma-se o maior valor entre<br />
+* Traçar ''os fios de bigodes'' ou ''whisker'' (os segmentos de reta vertical)''.'' Os limites dos ''fio de bigodes'' podem representar vários valores alternativos:
-[[File:Diagrama de caixa2.png|thumb|Diagrama de Caixa, indicando a mediana, os quartis e os whiskers.]]
+*# O mínimo e o máximo de todos os dados (figura 3);<ref name=":3">MCGILL, Robert; TUKEY, John W.; LARSEN, Wayne A. [http://amstat.tandfonline.com/doi/abs/10.1080/00031305.1978.10479236 Variations of box plots.] '''The American Statistician''', v. 32, n. 1, p. 12-16, 1978.</ref> observe que neste caso pela definição não há valores discrepantes. Os fios de bigodes neste caso são: um segmento de reta vertical que liga o topo da caixa ao maior valor observado e outro segmento de reta que liga a base da caixa ao menor valor observado.
-(a) o menor valor das medidas.<br />
+*# Os limites de ''fio de bigode'' é comumente definidos através de limite inferior (<math> LI </math>) e limite superior (<math> LS </math>) de acordo com as seguintes representações matemáticas: <math> LI = Q_1 - c \cdot AIQ </math> e <math> LS = Q_3 + c \cdot AIQ </math>,  em que <math> AIQ </math> é a amplitude interquartil e <math>c</math> é uma constante que pertence aos números reais <math>\mathbb{R}\,</math>e pode assumir qualquer valor..<ref name=":4">{{citar web|url=http://www.each.usp.br/lauretto/ACH0021_2015/aula06.pdf|titulo=Estatística descritiva básica: Medidas de dispersão|data=|acessodata=07-02-2017|publicado=Escola de Artes, Ciência e Humanidades - USP|ultimo=Lauretto|primeiro=Marcelo de Souza|pagina=9}}</ref>  Geralmente utiliza–se <math>c = 1,5</math>, porque o valor é capaz de captar mais de 99% dos dados embaixo da curva normal para acima e para abaixo do limites superior [[Ficheiro:Boxplot_vs_PDF.svg|miniaturadaimagem|Figura 4. Boxplot e função densidade de probabilidade de uma população normal <math>N(0,1\sigma^2)</math>]]e do limite inferior.<ref name=":7">{{citar livro|ultimo=Bussab|primeiro=Wilton de O.|ultimo2=Morettin|primeiro2=Wilton de O.|editora=Saraiva|ano=2012|local=São Paulo|páginas=548|acessodata=|titulo=Estatística Básica|pagina=50}}</ref> Assim, os limites de ''fio de bigode'' são o valor mais baixo dentro da amplitude interquartil de 1,5 do menor quartil (ou valor mais baixo dentro de valores maiores de que <math>LI</math>) o ponto mais alto dentro da amplitude interquartil de 1,5  do maior quartil (ou valor mais alto dentro de valores menores de que <math>LS</math>). Qualquer dado não incluso entre os ''fio de bigodes'' deve ser plotado como um ''outlier'' com um ponto. Embora pouco usual, um ''outlier'' também pode ser representado como um círculo pequeno ou uma estrela (alguns diagramas de caixa também incluem outro caractere para representar a média dos dados).<ref name=":2">FRIGGE, Michael; HOAGLIN, David C.; IGLEWICZ, Boris. [http://www.tandfonline.com/doi/abs/10.1080/00031305.1989.10475612 Some implementations of the boxplot]. '''The American Statistician''', v. 43, n. 1, p. 50-54, 1989.</ref> A identificação de ''outliers'' é um dos primeiros passos para [[análise de dados]] multivariados.<ref>{{citar web|url=http://lqta.iqm.unicamp.br/portugues/downloads/Introducao.pdf|titulo=Quimiometria|data=|acessodata=08-06-2017|publicado=Universidade Estadual de Campinas (UNICAMP)|ultimo=Ferreira|primeiro=Márcia M. C.}}</ref> Por exemplo, em <math>\{1,1,2,3,4,5,10\}</math>, o último elemento <math>\{10\}</math> é um ''outlier.'' Geralmente, esses tipos de diagrama são chamados de ''boxplot de Tukey'' (figura 4).<ref name=":2" /><ref name=":5" /> Por exemplo, seja o conjunto de dados <math>\{-2,1,2,3,4,5,6\}</math>, em que a amplitude interquartil é igual a 4. O primeiro quartil ou quartil inferior é <math>\{1\}</math>. Então, o limite inferior é <math> LI = 1 - 1,5 \cdot 4 = -5 </math>. Entre <math> -5 </math> e <math> -2 </math>, o maior valor é <math> -2 </math>. Portanto, o ''fio de bigode'' inferior é <math> -2 </math>. O terceiro quartil ou quartil superior é <math>\{5\}</math>. Então, o limite superior é <math> LS = 5 + 1,5 \cdot 4 = 11 </math>. Entre <math> 11 </math> e <math> 6 </math>, o menor valor é <math> 6 </math>. Portanto, o ''fio de bigode'' superior é <math> 6 </math><ref name=":4" /> Não tem valores discrepantes.
-(b) o valor quartil inferior -1.5 x altura da caixa.<br />
+O diagrama é uma forma rápida de examinar um ou mais conjuntos de dados graficamente. Embora pareça mais primitivo que o [[histograma]] ou a [[estimativa de densidade kernel]], o boxplot apresenta vantagens sobre esses por prover mais dados além da mediana e/ou a média.<ref>{{citar periódico|ultimo=Robbins|primeiro=Naomi|data=10 de janeiro de 2012|titulo=Comparing Distributions with Box Plots|url=https://www.forbes.com/sites/naomirobbins/2012/01/10/comparing-distributions-with-box-plots/#1757b7a32c2c|periodico=Forbes|acessodata=14 de junho de 2017}}</ref> A escolha do número e da largura das barras pode influenciar muito na aparência do histograma<ref>{{citar web|url=https://statistics.laerd.com/statistical-guides/understanding-histograms.php|titulo=Histograms, seção Choosing the correct bin width|acessodata=14 de junho de 2017|publicado=Laerd Statistics}}</ref> e da estimativa de densidade kernel,<ref>{{citar web|url=http://www.mvstat.net/tduong/research/seminars/seminar-2001-05.pdf|titulo=An introduction to kernel density estimation|data=4 de maio de 2001|acessodata=14 de junho de 2017|publicado=Weatherburn Lecture Series para o departamento de Matemática e Estatística da University of Western Australia|ultimo=Duong|primeiro=Tarn}}</ref> o que não acontece com o boxplot. De fato, a largura do diagrama de extremos pode até ser usada como uma medida de informação dos dados, representando em alguma proporção o tamanho do conjunto de dados.<ref>{{citar periódico|ultimo2=Krzywinski|primeiro2=Martin|data=30 de janeiro de 2014|titulo=Points of Significance: Visualizing samples with box plots|volume=11|paginas=119-120|doi=10.1038/nmeth.2813|url=https://www.nature.com/nmeth/journal/v11/n2/full/nmeth.2813.html|ultimo1=Altman|primeiro1=Naomi|acessodata=14 de junho de 2017|periodico=Nature Methods}}</ref> Uma comparação (figura 4) entre o gráfico e uma função densidade de probabilidade (histograma teórico) mostra explicitamente a quantidade de informações que essa ferramenta possui.
-:Exemplo: Do conjunto {-2,1,2,3,4,5,6}.<br />
-(a)menor valor = -2.<br />
-(b)quartil inferior  igual a 1 e 1,5 x altura = 1,5*4 = 6, logo a estimativa será de 1-6 = -5<br />
-Entre os valores {-2} e {-5}, o maior valor é {-2}, logo este será o whisker inferior.
-Para a estimativa do valor máximo do whisker, toma-se o menor valor entre <br />
-(a) o maior valor das medidas<br />
-(b) o valor do quartil superior mais 1,5 x altura <br />
-:Exemplo , do mesmo conjunto,
-(a) maior valor = 6.
-(b) quartil superior igual a 5 e 1,5 x altura = 6, logo a estimativa é : 11.<br />
-Entre os valores {6} e {11}, o menor valor é igual a 6, logo o whisker superior é 6.
+== Exemplos práticos ==
-== Outliers ou valores atípicos ==
+[[Ficheiro:Diagrama_de_caixa2.png|miniaturadaimagem|Figura 5. Boxplot, indicando a mediana, os quartis e os ''fio de bigodes'']]
-[[File:Diagrama de caixa com outliers and whisker.png|thumb|Diagrama de caixa é uma ferramenta útil para detectar outliers. Fora da faixa de valores delimitadas por whiskers, o valor atípico, outlier, é identificado]]
+=== Aquecimento global ===
-Diagrama de caixa é uma ferramenta para detecção de outiliers, ou dados muito diferente do conjunto capaz de levar o pesquisador a cogitar em sua eliminação.
+Pesquisadores têm estudado a temperatura da atmosfera terrestre com a finalidade de evidenciar uma mudança climática que pode alterar as atuais condições de vida no planeta.<ref>{{citar web|url=file:///C:/Users/Maria%20Jose/Downloads/VanderleiBorsari%20(1).pdf|titulo=Caracterização das emissões de gases do efeito estufa por veículos automotores leves do Estado de São Paulo|data=|acessodata=|publicado=|ultimo=Borsari|primeiro=Vanderlei|ano=2009|pagina=41 - 42|arquivourl=https://web.archive.org/web/20130812155911/http://c/|arquivodata=2013-08-12|urlmorta=yes}}</ref> Seja uma amostra de uma pesquisa realizada com veículos leves emissores de <math>CO_2</math>. A amostra compara três (gassol 22, AEHC e GNV), de modo a entender qual deles libera maior quantidade de <math>CO_2</math>. Em outras palavras, qual deles mais contribui para o [[aquecimento global]].<ref>{{citar web|url=file:///C:/Users/Maria%20Jose/Downloads/VanderleiBorsari%20(1).pdf|titulo=Caracterização da emissão de gases de efeito estufa por veículos automotores leves no Estado de São Paulo|data=|acessodata=|publicado=|ultimo=Borsari|primeiro=Vanderlei|ano=2009|pagina=9|arquivourl=https://web.archive.org/web/20130812155911/http://c/|arquivodata=2013-08-12|urlmorta=yes}}</ref>
-:Exemplo: Do conjunto {-1,0,1,2,3,4,5,6,12}.<br />
-O último elemento {12}, parece ser um valor muito diferente dos demais valores. O gráfico ao lado mostra como identificar um outlier.
-A identificação de outliers é o primeiro passo utilizado em [[análise de dados multivariados]].
+[[Ficheiro:Diagrama de caixa - Poluentes.svg|semmoldura|360x360px]]
-== Comparando diferentes conjuntos ==
-Com Diagrama de Caixa é possível visualizar se em conjuntos de dados existe ou não equivalência. Os mesmos exemplos mostrados no gráfico 1, mostram que de fato não se trata de um único conjunto, porém de dois sistemas distintos. A evidência fica em realce caso os dados experimentais sejam plotados , em dot plot ou gráficos de pontos, em conjunto com os diagramas de caixa.
-[[File:Diagrama de caixa de diferentes grupos.png|thumb|Diagramas de caixa podem identificar diferenças entre grupos. Dados de dois grupos distintos foram mesclados e os diagramas de caixas dos 3 conjuntos mostram como os dados pertencem a grupos distintos.]]
+O box plot acima indica que o GNV possui 75% da emissão de <math>CO_2</math> (abaixo de200 g/km). Isto significa que o GNV é o combustível que menos contribui para o aumento da temperatura da Terra. Esta informação pode ser utilizada para ajudar a combater o aquecimento global de diferentes maneiras como por meio da alteração das fórmulas do 22 e do AEHC.<ref>{{citar web|url=file:///C:/Users/Maria%20Jose/Downloads/VanderleiBorsari%20(1).pdf|titulo=Caracterização das emissões de gases de efeito estufa por veículos automotores leves no Estado de São Paulo|data=|acessodata=|publicado=|ultimo=Borsari|primeiro=Vanderlei|ano=2009|pagina=128|arquivourl=https://web.archive.org/web/20130812155911/http://c/|arquivodata=2013-08-12|urlmorta=yes}}</ref>
+=== População dos estados ===
-{{referências}}
+Em 2016, o Instituto Brasileiro de Geografia e Estatística (IBGE) contabilizou a população dos estados brasileiros.<ref>{{citar web|url=ftp://ftp.ibge.gov.br/Estimativas_de_Populacao/Estimativas_2016/estimativa_dou_2016_20160913.pdf|titulo=ESTIMATIVAS DA POPULAÇÃO RESIDENTE NO BRASIL E UNIDADES DA FEDERAÇÃO COM DATA DE REFERÊNCIA EM 1 DE JULHO DE 2016|data=14-06-2017|acessodata=21-06-2017|publicado=IBGE|ultimo=|primeiro=|pagina=1}}</ref><ref name=":8">{{citar livro|título=Estatística Básica|ultimo=Bussab|primeiro=Wilton de O.|ultimo2=Morettin|primeiro2=Pedro A.|editora=Saraiva|ano=2010|local=São Paulo|páginas=49|}}</ref>
+[[Ficheiro:Diagrama de caixa - População.svg|semmoldura|289x289px]]
-[[Categoria:Estatística]]
+O box plot acima mostra a importância do cuidado com os ''outliers'' em análise de dados. A população de São Paulo é maior que a população dos demais estados brasileiros e isso não é um erro. Isto significa que nem sempre o ''outlier'' corresponde a um erro de arredondamento ou a um erro de observação.<ref name=":8" />
+== Variações  ==
+[[Ficheiro:Fourboxplots.svg|miniaturadaimagem|Figura 6. Quatro boxplots, com e sem entalhes e largura variável]]Desde que o matemático [[John Tukey|John W. Tukey]] introduziu este tipo de representação visual de dados em 1969, variações do boxplot tradicional têm sido descritas. Duas das mais comuns são os boxplots com largura variável e os boxplots entalhados (figura 6).
+=== Diagrama de caixa com largura variável ===
+Os boxplots com largura variável (''variable width box plots)'' ilustram o tamanho de cada grupo, cujos dados estão sendo plotados tornando a largura da caixa proporcional ao tamanho do grupo. Uma convenção popular é tornar a largura da caixa proporcional à raiz quadrada do tamanho do grupo.<ref name=":3" />
+=== Diagrama de caixa entalhado ===
+Os boxplots entalhados (''notched box plots)'' aplicam um entalhe ou um estreitamento da caixa em torno da mediana. Os diagramas de caixa entalhados são úteis para oferecer um guia aproximado para a significância da diferença entre medianas. Se o entalhe de duas caixa não se sobrepuserem, isto oferece evidência de uma diferença estatisticamente significante entre as medianas. A largura dos entalhes é proporcional à amplitude interquartil da amostra e inversamente proporcional à raiz quadrada do tamanho da amostra. Entretanto, há incerteza sobre o multiplicador mais apropriados (isto pode variar dependendo da similaridade das variâncias das amostras).<ref name=":3" />
+Uma convenção é usar <math alt="&plusmn;1.58*IQR/sqrt(n)">\pm \frac{1.58 IQR}{\sqrt{n}}</math>.<ref name=":5">{{citar web|url=http://stat.ethz.ch/R-manual/R-devel/library/grDevices/html/boxplot.stats.html|titulo=Box Plot Statistics|data=|acessodata=08-06-2017|publicado=|ultimo=|primeiro=}}</ref>
+=== Diagrama de caixa ajustado ===
+Os boxplots ajustados (''variable width notched box plots)'' são destinados às distribuições distorcidas, baseando—se na estatística ''medcouple'' de distorção. Para um valor ''medcouple'' de MC, os comprimentos dos ''fio de bigodes'' superiores e inferiores são respectivamente definidos por:
+<math>\begin{matrix}
+.5 IQR \cdot e^{3 MC}, &  1.5 IQR \cdot e^{-4 MC} \text{ se } MC \geq 0 \\
+.5 IQR \cdot e^{4 MC}, & 1.5 IQR \cdot e^{-3 MC} \text{ se } MC \leq 0
+\end{matrix}
+</math><ref name=":6">HUBERT, Mia; VANDERVIEREN, Ellen. [http://www.sciencedirect.com/science/article/pii/S0167947307004434 An adjusted boxplot for skewed distributions.] '''Computational statistics & data analysis''', v. 52, n. 12, p. 5186-5201, 2008.</ref>
+Observa–se que para distribuições simétricas, o ''medcouple'' será 0. Isto reduz o bloxplot de Tukey como igual comprimento dos ''fio de bigodes'', de amplitude interquartil de 1,5 para ambos os ''fio de bigodes''.<ref name=":6" />
+== Comparação de diferentes conjuntos ==
+[[Ficheiro:Diagrama_de_caixa_de_diferentes_grupos.png|miniaturadaimagem|Figura 7. Os digramas podem identificar diferenças entre grupos. Os dados de dois grupos distintos foram mesclados e os gráficos dos três conjuntos mostram como os dados pertencem a grupos distintos]]
+Com o diagrama de extremos, é possível visualizar se existe ou não existe equivalência em conjuntos de dados. A figura 7 mostra que de fato não se trata de um único conjunto, mas de dois grupos A e B distintos. Esta evidência é destacada caso os dados experimentais sejam plotados, em dot plot ou em gráficos de pontos, em conjunto com os diagramas de caixa.<ref>{{citar web|url=http://stattrek.com/statistics/charts/compare-data-sets.aspx?Tutorial=AP|titulo=How to Compare Data Sets|data=|acessodata=14 de junho de 2017|publicado=Stak Trek|ultimo=|primeiro=}}</ref>
+Por exemplo, ao analisar uma variável quantitativa como a renda (salário) de trabalhadores que pode ser expressa (plotada) em dot plot ou box plot, é notado um único gráfico. No entanto, trabalhadores são compostos por gêneros, sendo possível diferenciar entre dois grupos (gêneros) que são homem e mulher. Portanto, ao analisar o diagrama Renda de trabalhadores, se observa dois diagramas de caixa diferentes tratando a mesma variável quantitativa: renda.<ref>{{citar web|url=http://www.cepe.ecn.br/seminarioiv/download/vale.pdf|titulo=Diferenciais de Rendimentos entre Homens e Mulheres no Brasil revisitado: explorando o “Teto de Vidro”|data=|acessodata=19-06-2017|publicado=Centro de Economia Internacional|ultimo=Santos|primeiro=Renato Vale|ultimo2=Ribeiro|primeiro2=Eduardo Pontual}}</ref>
+[[Ficheiro:Diagrama de caixa renda.svg|nenhum|miniaturadaimagem|500x500px|Box plot sobre os rendimentos-hora de homens e mulheres. As linhas tracejadas à esquerda representam o percentil 10 e as linhas tracejadas à direita representam o percentil 90. As barras brancas representam a mediana das observações e os x's brancos representam a média]]
+{{Referências}}
+== Leituras adicionais ==
+* BENJAMINI, Yoav. Opening the Box of a Boxplot. '''The American Statistician''', v. 42, n. 4, p.&nbsp;257-262, 1988.
+* ROUSSEEUW, Peter J.; RUTS, Ida; TUKEY, John W. The bagplot: a bivariate boxplot. '''The American Statistician''', v. 53, n. 4, p.&nbsp;382-387, 1999.
+* TUKEY, John W. Exploratory data analysis. 1977.
+== Ligações externas ==
+* [http://alfresco.ubm-us.net/alfresco_images/pharma/2014/08/22/bfe4d68d-737c-4474-8479-92256592f567/article-152912.pdf Visual Presentation of Data by Means of Box Plots]
+* [https://www.r-statistics.com/2011/03/beeswarm-boxplot-and-plotting-it-with-r/ Beeswarm Boxplot (and plotting it with R)]
+* [https://web.archive.org/web/20171001193540/http://boxplot.bio.ed.ac.uk/ BoxPlotR: A Web-Tool for Generation of Box Plots]
+{{Portal3|Probabilidade e Estatística}}
+{{Controlo de autoridade}}
+[[Categoria:Diagramas estatísticos]]