Saltar para o conteúdo

Diagrama de caixa: diferenças entre revisões

Origem: Wikipédia, a enciclopédia livre.
Conteúdo apagado Conteúdo adicionado
Abrito1953 (discussão | contribs)
Abrito1953 (discussão | contribs)
Linha 1: Linha 1:
{{multitag|rec}}
Em [[estatística descritiva]], '''diagrama de caixa''', ou '''''boxplot''''', '''''box plot''''', é um gráfico no qual o:<ref name="itl.nist.gov">[http://www.itl.nist.gov/div898/handbook/eda/section3/boxplot.htm / National Institute of Standards and Technology "1.3.3.7 Box Plot "], e-book web</ref>
Em [[estatística descritiva]], '''diagrama de caixa''', ou '''''boxplot''''', '''''box plot''''', é um gráfico no qual o:<ref name="itl.nist.gov">[http://www.itl.nist.gov/div898/handbook/eda/section3/boxplot.htm / National Institute of Standards and Technology "1.3.3.7 Box Plot "], e-book web</ref>
* eixo vertical representa a variável a ser analisada;
* eixo vertical representa a variável a ser analisada;
Linha 12: Linha 11:


Em resumo, o diagrama de caixa identifica onde estão localizados 50% dos valores mais prováveis, a mediana e os valores extremos.
Em resumo, o diagrama de caixa identifica onde estão localizados 50% dos valores mais prováveis, a mediana e os valores extremos.

== Mediana ==
Após a ordenação dos valores a [[Mediana]] é o valor que divide a metade inferior da metade superior da amostra.<br />
Exemplo: Do conjunto {-2,1,2,3,4,5,6}, o quarto elemento {3} divide o subjconjunto dos maiores valores dos menores.<br />
Caso o número de valores seja para, a mediana será a média aritmética simples entre os dois valores centrais,<br />
:Exemplo: Do conjunto {1,1,2,3,4,5,5,6} , os valores centrais são {3} e {4} , logo a mediana é (3+4)/2), ou {3,5}<br />
O Diagrama de Caixa é método robusto de estatística pois é menos influenciado pelos valores atípicos ou outliers.<ref name="métodos robusto"> BRAGA, L. P. V. Compreendendo Probabilidade e Estatística, pg. 98. E-PAPERS, ISBN 9788576502821.</ref> <br />
Exemplo: Do conjunto {1,1,2,3,4,5,10}, o último elemento {10} é um valor atípico, ou outlier, porém a mediana não é alterada, {3}.

== Quartis e Região Interquartis ==

Para calcular a altura da caixa é necessário antes estimar o quartil inferior, onde estão localizados 1/4, ou 25%, dos menores valores, e o quartil superior, onde estão localizados 3/4 ou 75% dos menores valores.<br />
O quartil inferior é a mediana do conjunto que representa 50% dos menores valores,<br />
:Exemplo: Do conjunto {-2,1,2,3,4,5,6}
O quartil inferior é o segundo elemento, {1} e o quartil superior é o sexto elemento {5}.<br />
A distância interquartil, ou a altura da caixa é : altura = 5-1 = 4.

== Estimativa do Whisker ou fio de bigode ==
Tanto a altura da caixa como o tamanho do Whisker fornecem informações sobre a dispersão dos dados.
Para estimativa do valor mínimo do whisker, toma-se o maior valor entre<br />
[[File:Diagrama de caixa2.png|thumb|Diagrama de Caixa, indicando a mediana, os quartis e os whiskers.]]
(a) o menor valor das medidas.<br />
(b) o valor quartil inferior -1.5 x altura da caixa.<br />
:Exemplo: Do conjunto {-2,1,2,3,4,5,6}.<br />
(a)menor valor = -2.<br />
(b)quartil inferior igual a 1 e 1,5 x altura = 1,5*4 = 6, logo a estimativa será de 1-6 = -5<br />
Entre os valores {-2} e {-5}, o maior valor é {-2}, logo este será o whisker inferior.
Para a estimativa do valor máximo do whisker, toma-se o menor valor entre <br />
(a) o maior valor das medidas<br />
(b) o valor do quartil superior mais 1,5 x altura <br />
:Exemplo , do mesmo conjunto,
(a) maior valor = 6.
(b) quartil superior igual a 5 e 1,5 x altura = 6, logo a estimativa é : 11.<br />
Entre os valores {6} e {11}, o menor valor é igual a 6, logo o whisker superior é 6.

== Outliers ou valores atípicos ==
[[File:Diagrama de caixa com outliers and whisker.png|thumb|Diagrama de caixa é uma ferramenta útil para detectar outliers. Fora da faixa de valores delimitadas por whiskers, o valor atípico, outlier, é identificado]]
Diagrama de caixa é uma ferramenta para detecção de outiliers, ou dados muito diferente do conjunto capaz de levar o pesquisador a cogitar em sua eliminação.
:Exemplo: Do conjunto {-1,0,1,2,3,4,5,6,12}.<br />
O último elemento {12}, parece ser um valor muito diferente dos demais valores. O gráfico ao lado mostra como identificar um outlier.
A identificação de outliers é o primeiro passo utilizado em [[análise de dados multivariados]].

== Comparando diferentes conjuntos ==
Com Diagrama de Caixa é possível visualizar se em conjuntos de dados existe ou não equivalência. Os mesmos exemplos mostrados no gráfico 1, mostram que de fato não se trata de um único conjunto, porém de dois sistemas distintos. A evidência fica em realce caso os dados experimentais sejam plotados , em dot plot ou gráficos de pontos, em conjunto com os diagramas de caixa.
[[File:Diagrama de caixa de diferentes grupos.png|thumb|Diagramas de caixa podem identificar diferenças entre grupos. Dados de dois grupos distintos foram mesclados e os diagramas de caixas dos 3 conjuntos mostram como os dados pertencem a grupos distintos.]]



{{referências}}
{{referências}}

Revisão das 22h22min de 18 de março de 2013

Em estatística descritiva, diagrama de caixa, ou boxplot, box plot, é um gráfico no qual o:[1]

  • eixo vertical representa a variável a ser analisada;
  • eixo horizontal um fator de interesse.
Diagrama de caixa

O diagrama de caixa é uma ferramenta para localizar e analisar a variação de uma variável dentre diferentes grupos de dados.

O diagrama de caixa procura obter as seguintes informações:

  • Calcular a mediana e os quartis ( o quartil inferior contém 25% ( 1/4) das menores medidas e o quartil superior contém 75 ( 3/4) de todas as medidas);
  • Plotar um símbolo onde se localiza a mediana e uma caixa, daí o nome de diagrama de caixas, onde a base representa o quartil inferior ( 25% ou 1/4) dos menores valores), e o topo da caixa o quartil superior (75% ou 3/4) dos valores observados. A caixa portanto representa 50% de todos os os valores observados ,concentrados na tendência central dos valores, eliminando os 25% menores valores e 25% maiores valores ( 75% - 25% = 50%);
  • Um segmento de reta vertical conecta o topo da caixa ao maior valor observado e outro segmento conecta a base da caixa ao menor valor observado, este segmento denomina-se Whisker, ou fio de bigode.

Em resumo, o diagrama de caixa identifica onde estão localizados 50% dos valores mais prováveis, a mediana e os valores extremos.

Mediana

Após a ordenação dos valores a Mediana é o valor que divide a metade inferior da metade superior da amostra.
Exemplo: Do conjunto {-2,1,2,3,4,5,6}, o quarto elemento {3} divide o subjconjunto dos maiores valores dos menores.
Caso o número de valores seja para, a mediana será a média aritmética simples entre os dois valores centrais,

Exemplo: Do conjunto {1,1,2,3,4,5,5,6} , os valores centrais são {3} e {4} , logo a mediana é (3+4)/2), ou {3,5}

O Diagrama de Caixa é método robusto de estatística pois é menos influenciado pelos valores atípicos ou outliers.[2]
Exemplo: Do conjunto {1,1,2,3,4,5,10}, o último elemento {10} é um valor atípico, ou outlier, porém a mediana não é alterada, {3}.

Quartis e Região Interquartis

Para calcular a altura da caixa é necessário antes estimar o quartil inferior, onde estão localizados 1/4, ou 25%, dos menores valores, e o quartil superior, onde estão localizados 3/4 ou 75% dos menores valores.
O quartil inferior é a mediana do conjunto que representa 50% dos menores valores,

Exemplo: Do conjunto {-2,1,2,3,4,5,6}

O quartil inferior é o segundo elemento, {1} e o quartil superior é o sexto elemento {5}.
A distância interquartil, ou a altura da caixa é : altura = 5-1 = 4.

Estimativa do Whisker ou fio de bigode

Tanto a altura da caixa como o tamanho do Whisker fornecem informações sobre a dispersão dos dados. Para estimativa do valor mínimo do whisker, toma-se o maior valor entre

Diagrama de Caixa, indicando a mediana, os quartis e os whiskers.

(a) o menor valor das medidas.
(b) o valor quartil inferior -1.5 x altura da caixa.

Exemplo: Do conjunto {-2,1,2,3,4,5,6}.

(a)menor valor = -2.
(b)quartil inferior igual a 1 e 1,5 x altura = 1,5*4 = 6, logo a estimativa será de 1-6 = -5
Entre os valores {-2} e {-5}, o maior valor é {-2}, logo este será o whisker inferior. Para a estimativa do valor máximo do whisker, toma-se o menor valor entre
(a) o maior valor das medidas
(b) o valor do quartil superior mais 1,5 x altura

Exemplo , do mesmo conjunto,

(a) maior valor = 6. (b) quartil superior igual a 5 e 1,5 x altura = 6, logo a estimativa é : 11.
Entre os valores {6} e {11}, o menor valor é igual a 6, logo o whisker superior é 6.

Outliers ou valores atípicos

Diagrama de caixa é uma ferramenta útil para detectar outliers. Fora da faixa de valores delimitadas por whiskers, o valor atípico, outlier, é identificado

Diagrama de caixa é uma ferramenta para detecção de outiliers, ou dados muito diferente do conjunto capaz de levar o pesquisador a cogitar em sua eliminação.

Exemplo: Do conjunto {-1,0,1,2,3,4,5,6,12}.

O último elemento {12}, parece ser um valor muito diferente dos demais valores. O gráfico ao lado mostra como identificar um outlier. A identificação de outliers é o primeiro passo utilizado em análise de dados multivariados.

Comparando diferentes conjuntos

Com Diagrama de Caixa é possível visualizar se em conjuntos de dados existe ou não equivalência. Os mesmos exemplos mostrados no gráfico 1, mostram que de fato não se trata de um único conjunto, porém de dois sistemas distintos. A evidência fica em realce caso os dados experimentais sejam plotados , em dot plot ou gráficos de pontos, em conjunto com os diagramas de caixa.

Diagramas de caixa podem identificar diferenças entre grupos. Dados de dois grupos distintos foram mesclados e os diagramas de caixas dos 3 conjuntos mostram como os dados pertencem a grupos distintos.


Referências

  1. / National Institute of Standards and Technology "1.3.3.7 Box Plot ", e-book web
  2. BRAGA, L. P. V. Compreendendo Probabilidade e Estatística, pg. 98. E-PAPERS, ISBN 9788576502821.