Estatística descritiva básica: Medidas de associação .Estatística Descritiva. Universidade Federal

  • View
    213

  • Download
    0

Embed Size (px)

Text of Estatística descritiva básica: Medidas de associação .Estatística Descritiva. Universidade...

  • Estatstica descritiva bsica: Medidas de associao

    ACH2021 Tratamento e

    Anlise de Dados e Informaes

    Marcelo de Souza Lauretto

    marcelolauretto@usp.br

    www.each.usp.br/lauretto

  • Referncias

    Bergamaschi, D.P.; Souza, J.M.P.; Hinnig, P.F. Apostila curso HEP103 Bioestatstica Aplicada Nutrio. Faculdade de Sade Pblica da Universidade de So Paulo, 2010. Disponvel em: http://www.fsp.usp.br/hep103/

    L. D. A. Ferreira, M. D. Oliveira, A. M. O. Sant'anna. Apostila 1: Estatstica Descritiva. Universidade Federal da Bahia, Instituto de Matemtica, 2002. Disponvel em: http://www.est.ufba.br/mat027/mat027apostila1.pdf

    S. Shimakura. Associao, correlao e regresso: Slides da disciplina CE701 Bioestatstica Avanada I. Departamento de Estatstica da UFPR. Disponvel em: http://leg.ufpr.br/~silvia/CE701/node71.html

    http://www.fsp.usp.br/hep103/http://www.fsp.usp.br/hep103/http://www.fsp.usp.br/hep103/http://www.est.ufba.br/mat027/mat027apostila1.pdfhttp://www.est.ufba.br/mat027/mat027apostila1.pdfhttp://leg.ufpr.br/~silvia/CE701/node71.htmlhttp://leg.ufpr.br/~silvia/CE701/node71.html

  • Introduo

    Medidas de associao buscam fornecer informaes sobre a relao entre duas variveis e sua tendncia de variar juntas ao invs de independentemente.

    Para clculo das medidas de associao, necessrio que as duas variveis sejam medidas sobre os mesmos elementos (indivduos) da amostra. Medidas pareadas.

    Distino entre associao e causalidade: duas variveis podem estar associadas mas uma no ser necessariamente a causa da outra. Na anlise de correlao comum investigar se mudanas na

    magnitude de uma varivel so acompanhadas de mudanas na magnitude da outra, sem significar que uma varivel causa a outra.

  • Tpicos desta aula:

    Grficos (ou diagramas) de disperso para variveis quantitativas

    Medidas de associao para variveis quantitativas: Coeficiente de correlao linear de Pearson (ou coeficiente de

    correlao linear)

    Regresso linear simples

    Coeficiente de correlao de postos de Spearman

    Medidas de associao para variveis qualitativas: Coeficiente de Yule (variveis binrias)

  • Grficos (ou diagramas) de disperso

    Para variveis quantitativas, altamente recomendvel elaborar o grfico de disperso antes da anlise numrica dos dados.

    construdo com conjuntos de pontos formados por pares de valores 1, 1 , 2, 2 , ..., , , onde , representa os valores das variveis e medidas sobre o indivduo .

    Para que serve o grfico de disperso? Pode indicar correlao positiva, negativa ou inexistncia de

    correlao.

    Tambm pode identificar a existncia de valores discrepantes.

  • Grficos (ou diagramas) de disperso

    Exemplo: X: coeficiente de mortalidade por cncer gstrico

    Y: consumo mdio de sal

    Correlao positiva

  • Grficos (ou diagramas) de disperso

    Exemplo: X: Esperana de vida ao nascer

    Y: Coeficiente de mortalidade infantil (por 1000 nascidos vivos)

    Correlao negativa

  • Grficos (ou diagramas) de disperso

    Exemplo: X: Coeficiente de mortalidade por cncer de colo de tero

    Y: Consumo de sal

    Correlao inexistente

  • Associao entre variveis quantitativas

    Considere a tabela abaixo, que fornece o sexo, idade e percentual de gordura corporal (%) para 18 adultos com idades entre 23 e 61 anos. possvel perceber associao entre o percentual de gordura e a idade?

    Tabela 1

    Sexo Idade % Gordura Sexo Idade % Gordura

    F 23 27.9 F 57 30.3

    F 39 31.4 F 58 33.0

    F 41 25.9 F 58 33.8

    F 49 25.2 F 60 41.1

    F 50 31.1 F 61 34.5

    F 53 34.7 M 23 9.5

    F 53 42.0 M 27 7.8

    F 54 29.1 M 27 17.8

    F 56 32.5 M 45 27.4

    Fonte: Hand DJ et al. A handbook of small data sets. Chapman&Hall, 1994.

  • O que o diagrama de disperso dos dados sugere?

  • Coeficiente de correlao linear de Pearson

    O coeficiente de correlao linear de Pearson (ou simplesmente coeficiente de correlao de Pearson) mede o grau de associao entre duas variveis quantitativas X e Y.

    Definio:

    =

    onde: a covarincia entre X e Y (disperso conjunta)

    o desvio padro de X (disperso de X)

    o desvio padro de Y (disperso de Y).

    Covarincia: o valor mdio do produto dos desvios de X e Y, em relao s suas respectivas mdias.

    =

    1

    (1)

  • Lembrando que

    = 2

    1 , =

    2

    1

    podemos reescrever a equao (1) para r:

    =

    2 2

    Propriedades:

    1 +1;

    = 1 ou = +1 quando os dados observados caem precisamente em uma reta, ou seja, quando = + para algum b qualquer e algum a 0. (ver prximos slides).

    no possui dimenso, ou seja, no depende da unidade de medida das variveis X e Y.

  • Exemplos de grficos de disperso e respectivos coeficientes de correlao linear

    Nesses grficos, denota a correlao,

  • Retornando ao exemplo da Tabela 1:

  • Retornando ao exemplo da Tabela 1:

  • Retornando ao exemplo da Tabela 1:

  • Retornando ao exemplo da Tabela 1:

  • Regresso Linear Simples

    O coeficiente de correlao entre X e Y no indica qual o efeito da variao de X sobre a variao em Y.

    Uma possvel forma de obter essa informao atravs de regresso linear simples.

    Em regresso linear, admitindo-se Y como funo linear de X, ajusta-se a melhor reta ao conjunto de dados.

  • Equao de reta: = +

    onde:

    = valor ajustado (valor mdio predito de Y), dado ;

    = valor escolhido de X;

    =

    ;

    b denominado coeficiente angular (slope, em ingls); indica em quantas unidades Y muda para cada unidade de mudana em X;

    = b

    a denominado intercepto; indica o valor predito de Y quando X=0;

  • Retornando ao exemplo da Tabela 1, considerando-se o grupo como um todo:

    =

    = 0,79

    9,14

    13,22= 0,548;

    = b = 28,61 0,548 46,33 = 3,22

    Equao ajustada: % gordura = 3,22 + 0,55

  • Retornando ao exemplo da Tabela 1, considerando-se o grupo como um todo:

    Equao ajustada: % gordura = 3,22 + 0,55

    Para idade = 30,% = 19,7;

    para idade = 30,% = 30,7.

  • Coeficiente de correlao de postos de Spearman

    O coeficiente de correlao de postos de Spearman um mtodo no paramtrico que usa somente os postos (posies relativas) dos valores.

    Este coeficiente definido como o coeficiente de correlao de Pearson entre os postos (posies) dos valores (e no nos valores originais).

    Uma aproximao para o coeficiente de correlao de Spearman dada por:

    = 1 6 2

    (2 1)

    onde:

    = (posto de dentre os valores de ) (posto de dentre os valores de ).

  • No exemplo da Tabela 1: clculo do coeficiente de correlao de Spearman sobre as mulheres:

    = 1 6 2

    2 1

    = 1 6 186.0

    14 195

    = 0,591

    Sexo Idade %Gordura Posto Idade

    Posto %Gordura d d2

    F 23 27.9 1 3 -2.0 4.0 F 39 31.4 2 7 -5.0 25.0 F 41 25.9 3 2 1.0 1.0 F 49 25.2 4 1 3.0 9.0 F 50 31.1 5 6 -1.0 1.0 F 53 34.7 6.5 12 -5.5 30.3 F 53 42.0 6.5 14 -7.5 56.3 F 54 29.1 8 4 4.0 16.0 F 56 32.5 9 8 1.0 1.0 F 57 30.3 10 5 5.0 25.0 F 58 33.0 11.5 9 2.0 4.0 F 58 33.8 11.5 10 2.0 4.0 F 60 41.1 13 13 0.0 0.0 F 61 34.5 14 11 3.0 9.0 n=14 n2=196 Total: 186.0

  • Observao: quando ocorrem valores repetidos, o posto corresponde mdia das posies relativas dos elementos.

    Ex:

    X posio relativa

    Posto

    21 1 1.0

    23 2 3.0

    23 3 3.0

    23 4 3.0

    25 5 5.0

    27 6 6.0

    30 7 8.5

    30 8 8.5

    30 9 8.5

    30 10 8.5

    31 11 11.0

  • O coeficiente de correlao de postos de Spearman usualmente mais adequado do que o de Pearson quando:

    1. uma das variveis (ou ambas) categrica ordenada.

    2. os dados no formam um aglomerado comportado, mas apresentam alguns pontos distantes dos demais (figura abaixo);

    "Spearman 500x325" por Maque - Obra do prprio. Licenciado sob CC BY-SA 3.0, via Wikimedia Commons - http://commons.wikimedia.org/wiki/File:Spearman_500x325.png#/media/File:Spearman_500x325.png

  • O coeficiente de correlao de postos de Spearman usualmente mais adequado do que o de Pearson quando:

    3. quando o grfico de disperso sugere uma relao crescente ou decrescente entre X e Y em um formato de curva (figura abaixo);

    "Spearman fig4" by Skbkekas - Own work. Licensed under CC BY-SA 3.0 via Wikimedia Commons - http://commons.wikimedia.org/wiki/File:Spearman_fig4.svg#/media/File:Spearman_fig4.svg

  • Outros exemplos:

    "Spearman fig1" by Skbkekas - Own workThis graphic was created with matplotlib.. Licensed under CC BY-SA 3.0 via Wikimedia Commons - http://commons.wikimedia.org/wiki/File:Spearman_fig1.svg#/media/File:Spearman_fig1.svg

  • Outros exemplos:

    "Spearman fig3" by Skbkekas - Own workThis graphic was created with matplotlib.. Licensed under CC BY-SA 3.0 via Wikimedia Commons - http://commons.wikimedia.org/wiki/File:Spearman_fig3.svg#/media/File:Spearman_fig3.svg

  • Coeficiente de Yule para variveis qualitativas binrias

    frequente a situao em que o pesquisador est avaliando duas variveis qualitativas (categricas ou ordinais), e deseja verificar se h ou no alguma associao entre elas.

    Nesta disciplina, estudaremos o coeficiente de Yule, voltado para variveis binrias - ou seja, variveis qualitativas com apenas duas categorias mutuamente exclusivas