29
Estatística Básica Renato Dourado Maia Instituto de Ciências Agrárias Universidade Federal de Minas Gerais Introdução à Análise Exploratória de Dados

Introdução à Análise Exploratória de Dados · 2014-08-13 · O conjunto de informações disponíveis, após a ... Trecho do discurso de Steve Jobs para os formandos de Stanford

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Estatística Básica

Renato Dourado Maia

Instituto de Ciências Agrárias

Universidade Federal de Minas Gerais

Introdução à Análise Exploratória de Dados

Renato Dourado Maia – Estatística Básica

Organização de Dados Hoje, serão discutidos alguns procedimentos que

podem ser utilizados para organizar e descrever um conjunto de dados, seja em uma população ou em uma amostra.

Poderá ser percebido como os conceitos relacio-nados à Teoria das Probabilidades aparecem na-turalmente...

13/08/2014 2/29

Renato Dourado Maia – Estatística Básica

Organização de Dados A questão inicial é:

Dado um conjunto de dados, como “tratar” os valores, numéricos ou não, a fim de se extrair informações a res-peito de uma ou mais características de interesse?

BASICAMENTE, SERÃO UTILIZADAS TABELAS DE FREQUÊNCIAS E GRÁFICOS, SENDO QUE A NATUREZA DOS DADOS DEVE

SER SEMPRE CONSIDERADA.

13/08/2014 3/29

Renato Dourado Maia – Estatística Básica

Exemplo Suponha que um questionário foi aplicado aos a-

lunos do primeiro ano de uma escola, fornecen-do as seguintes informações:

Id: identificação do aluno. Turma: turma em que o aluno foi alocado (A ou B). Sexo: F se feminino, M se masculino. Idade: idade em anos. Alt: altura em metros. Peso: peso em quilogramas. Filhos: número de filhos na família. Fuma: hábito de fumar (sim ou não).

13/08/2014 4/29

Renato Dourado Maia – Estatística Básica

Exemplo

Toler: tolerância ao cigarro: (I) indiferente, (P) incomoda pouco e (M) incomoda muito.

Exerc: horas, por semana, de atividade física. Cine: número de vezes, por semana, em que vai ao ci-

nema. OpCine: opinião a respeito das salas de cinema da cida-

de: (B) regular e boa e (M) muito boa.

TV: horas gastas assistindo TV, por semana. OpTV: opinião a respeito da qualidade da programação

na TV: (R) ruim, (M) média, (B) boa e (N) não sabe.

13/08/2014 5/29

Renato Dourado Maia – Estatística Básica

Organização de Dados O conjunto de informações disponíveis, após a

tabulação do questionário ou pesquisa de campo, é denominado tabela de dados brutos, e contém os dados da maneira que foram coletados inicial-mente. Vejamos a tabela em formato texto, e em formato planilha eletrônica...

Fonte do Exemplo: Noções de Probabilidade e Estatística / Marcos

Nascimento Magalhães, Antônio Carlos Pedroso de Lima – 6 ed. rev. – São Paulo: Editora da Universidade de São Paulo, 2005.

Site com arquivos de dados e outras informações:

http://www.ime.usp.br/~noproest

13/08/2014 6/29

Renato Dourado Maia – Estatística Básica

Classificação de Variáveis

VARIÁVEL

QUALITATIVA QUANTITATIVA

NOMINAL ORDINAL DISCRETA CONTÍNUA

13/08/2014 7/29

Renato Dourado Maia – Estatística Básica

Tabela de Dados Brutos A tabela de dados brutos contém muita informa-

ção, mas normalmente não é prática para res-pondermos às questões de interesse:

Da tabela não conseguimos de imediato, por exemplo, dizer se os alunos se incomodam muito ou pouco com os fumantes...

Uma alternativa interessante é construir, para ca-da variável, uma tabela com as informações re-sumidas. Essa tabela será denominada tabela de frequência, e contará os valores das variáveis e suas frequências absoluta e relativa.

13/08/2014 8/29

Renato Dourado Maia – Estatística Básica

Tabela de Frequência Para variáveis cujos valores possuem ordenação

natural (qualitativas ordinais e quantitativas em geral), faz sentido a inclusão de uma coluna con-tendo as frequências acumuladas, para que se possam estabelecer pontos de corte com uma de-terminada frequência nos valores da variável...

Tomemos como exemplo a variável Idade...

13/08/2014 9/29

Renato Dourado Maia – Estatística Básica

Tabela de Frequência

Idade 17 9 0,18 0,18 18 22 0,44 0,62 19 7 0,14 0,76 20 4 0,08 0,84 21 3 0,06 0,90 22 0 0 0,90 23 2 0,04 0,94 24 1 0,02 0,96 25 2 0,04 1,00

Total 1

in if

50n =

Tabela de Frequência para a Variável Idade acf

90% dos alunos têm idade até 21 anos.

ii

nfn

=

inFrequência (Absoluta)

acf

Frequência Relativa

Frequência Acumulada

N O T A Ç Ã O

13/08/2014 10/29

Renato Dourado Maia – Estatística Básica

Tabela de Frequência A variável peso é quantitativa contínua e assim,

teoricamente, seus valores podem ser qualquer número real num certo intervalo.

Não é viável construir a tabela de frequência tal como fizemos nos casos anteriores!

A solução é utilizar classes ou faixas de valores:

Não há regra formal quanto ao total de faixas, mas nor-malmente são utilizadas de 5 a 8, de mesma amplitude, sendo que amplitudes diferentes são interessantes para os extremos.

13/08/2014 11/29

Renato Dourado Maia – Estatística Básica

Tabela de Frequência

Peso 40,0|--50,0 8 0,16 0,16 50,0|--60,0 22 0,44 0,60 60,0|--70,0 8 0,16 0,76 70,0|--80,0 6 0,12 0,88 80,0|--90,0 5 0,10 0,98 90,0|--100,0 1 0,02 1,00

Total 50 1

in if

Tabela de Frequência para a Variável Peso

acf

13/08/2014 12/29

Renato Dourado Maia – Estatística Básica

Tabela de Frequência Quando uma variável é por natureza discreta,

mas o conjunto de possíveis valores é muito grande, o caminho adequado é tratá-la como contínua e utilizar faixas.

Um exemplo desse caso é a variável TV, que as-sume valores inteiros entre 0 e 30.

13/08/2014 13/29

Renato Dourado Maia – Estatística Básica

Tabela de Frequência

TV 0|--6 14 0,28 0,28 6|--12 17 0,34 0,62 12|--18 11 0,22 0,84 18|--24 4 0,08 0,92 24|--36 4 0,08 1,00

Total 50 1

in if

Tabela de Frequência para a Variável TV

acf

13/08/2014 14/29

Renato Dourado Maia – Estatística Básica

Gráficos A organização dos dados em tabelas de frequên-

cia proporciona um meio eficaz de estudo do comportamento de características de interesse.

Em muitas vezes, a informação contida nas tabe-las pode ser mais facilmente visualizada por meio de gráficos.

Consideraremos três tipos básicos de gráficos: disco, pizza ou diagrama circular, barras e histo-grama.

13/08/2014 15/29

Renato Dourado Maia – Estatística Básica

Diagrama Circular

Adapta-se muito bem às variáveis qualitativas!

38%

42%

20%

Diagrama Circular para a Variável Toler

M

P

I38%

20%

42%

13/08/2014 16/29

Renato Dourado Maia – Estatística Básica

Gráfico de Barras

Interessante para variáveis discretas ou qualitativas ordinais!

17 18 19 20 21 22 23 24 250

5

10

15

20

25

Idade

Freq

uênc

ia

Gráfico de Barras para a Variável Idade

9

22

7

43

02

12

13/08/2014 17/29

Renato Dourado Maia – Estatística Básica

Histograma

45 55 65 75 85 950

0.005

0.01

0.015

0.02

0.025

0.03

0.035

0.04

0.045

0.05

Peso

Den

sida

de d

e Fr

equê

ncia

Histograma para a Variável Peso

16%

44%

16%

12%10%

2%

Adapta-se muito bem às variáveis contínuas! 13/08/2014 18/29

Renato Dourado Maia – Estatística Básica

Histograma Por que utilizar a densidade de frequência, e não

a frequência absoluta?

Para evitar distorções, quando da utilização de amplitu-des diferentes para as faixas, e em função da relação entre o histograma e a função densidade de probabilida-de, que estudaremos posteriormente.

“You can’t connect the dots looking forward; you can only connect them looking backwards. So you have to trust that the dots will

somehow connect in your future”.

Trecho do discurso de Steve Jobs para os formandos de Stanford em 12/06/2005

Para Refletir:

13/08/2014 19/29

Renato Dourado Maia – Estatística Básica

Quartis Primeiro Quartil:

Das observações ordenadas, 25% estão abaixo do valor do primeiro quartil.

Segundo Quartil (mediana):

Das observações ordenadas, 50% estão abaixo do valor do primeiro quartil.

Terceiro Quartil:

Das observações ordenadas, 75% estão abaixo do valor do primeiro quartil.

13/08/2014 20/29

Renato Dourado Maia – Estatística Básica

Histograma e o 1º Quartil

45 55 65 75 85 950

0.005

0.01

0.015

0.02

0.025

0.03

0.035

0.04

0.045

0.05

Peso

Den

sida

de d

e Fr

equê

ncia

Histograma para a Variável Peso

16%

44%

16%

12%10%

2%

9%

1Q

1

1

50 60 500,09 0,44

52,05

Q

Q kg

− −=

⇓=

13/08/2014 21/29

Renato Dourado Maia – Estatística Básica

Histograma e o 2º Quartil (Mediana)

45 55 65 75 85 950

0.005

0.01

0.015

0.02

0.025

0.03

0.035

0.04

0.045

0.05

Peso

Den

sida

de d

e Fr

equê

ncia

Histograma para a Variável Peso

16%

44%

16%

12%10%

2%

34%

2 obsQ md=

50 60 500,34 0,44

57,73

obs

obs

md

md kg

− −=

⇓=

13/08/2014 22/29

Renato Dourado Maia – Estatística Básica

Histograma e o 3º Quartil Seguindo o mesmo procedimento realizado para

o cálculo da mediana e do primeiro quartil, em-contra-se o valor de 69,38 kg para o terceiro quartil.

Ao se utilizar o histograma para calcular os quar-tis, assume-se que as observações da variável em cada faixa são homogeneamente distribuídas. Apesar da suposição de homogeneidade não ser sempre verificada, ela é bastante razoável em muitas situações, e pode ser uma boa aproxima-ção da realidade.

13/08/2014 23/29

Renato Dourado Maia – Estatística Básica

Quartis Para o cálculo de quartis e medianas utilizando a

tabela de dados brutos, é necessário ordenar as observações e escolher os valores que dividem os dados nas proporções desejadas.

Eventualmente, será necessário tomar médias de valores vizinhos.

No caso de tabelas de frequências, os dados já estão ordenados, e o procedimento é similar.

13/08/2014 24/29

Renato Dourado Maia – Estatística Básica

Quartis e Box-Plot Uma representação gráfica interessante que en-

volve os quartis é o box-plot ou gráfico de caixa.

Vamos analisar o box-plot da variável Peso, cujos quartis já calculamos...

13/08/2014 25/29

Renato Dourado Maia – Estatística Básica

Histograma e o 3º Quartil

45

50

55

60

65

70

75

80

85

90

95

Pes

oBox-plot para a Variável Peso

Valor Mínimo (não discrepante)

1º Quartil

Mediana

3º Quartil

Valor Máximo (não discrepante)

Valor Discrepante (Ponto Exterior)

Intervalo que corresponde aos

50% valores centrais

13/08/2014 26/29

Renato Dourado Maia – Estatística Básica

Histograma e o 3º Quartil 3 1 ( )DEQ ou IQR Q Q= − Distância entre Quartis (Iterquartile Range)

ou abaixo de Observações acima de 3 (1,5)Q DEQ+ ⋅ 1 (1,5)Q DEQ− ⋅

Pontos exteriores ou valores atípicos (outliers), representados, comumente, por asteriscos.

Há diferentes convenções para a construção de box-plots, principalmente no que se refere à representação dos pontos

exteriores: mild outlier, representado por uma circunferência, extreme outlier, representado por um círculo. Ao interpretar um

box-plot, é importante conhecer a convenção utilizada!

13/08/2014 27/29

Renato Dourado Maia – Estatística Básica

Histograma e o 3º Quartil

F M

45

50

55

60

65

70

75

80

85

90

95

Pes

o

Sexo

Box-plots da Variável Peso para Cada Sexo

Interpretações?

13/08/2014 28/29

Renato Dourado Maia – Estatística Básica

Cenas do Próximo Capítulo... Comentamos, no início do curso, que o desenvol-

vimento de ferramentas computacionais foi de extrema importância para a difusão e utilização de métodos estatísticos.

Na próxima aula, discutiremos um pouco sobre ferramentas computacionais e brincaremos um pouco com um software chamado R. Para os mais curiosos, mais informações podem ser obtidas no link apresentado a seguir:

http://www.r-project.org/

13/08/2014 29/29