Bioestatistica

Pontifícia Universidade Católica de Goiás

Departamento de Biomedicina

Bioestatística

Goiânia

2015

Bioestatística

Goiânia

20155

Trabalho referente a avaliação da

disciplina Bioestatística - regime de

acompanhamento. Departamento de

Biomedicina, Graduação em

Biomedicina.

Sumário

Introdução........................................................................................... 04

1. Medidas de Tendência...................................................................... 05

2. Medidas de Dispersão........................................................................ 06

3. Correlação e Regressão Linear.......................................................... 07

4. Referências Bibliográficas................................................................. 11

6

Introdução

A estatística tem como objetivo principal o auxílio na tomada de

decisões nas situações de incerteza baseados em um conjunto de dados

quantitativos. É uma ferramenta também utilizada na atualidade para

responder questões biológicas, como, por exemplo, fundamentar os estudos

relacionados aos fatores que aumentam o risco de infarto do miocárdio.

É importante ressaltar que o planejamento em estatística auxilia na

escolha das situações experimentais e da quantidade de indivíduos

necessários a serem examinados. Também, trabalha na organização,

classificação e descrição de informações em tabelas, gráficos e outros

recursos visuais para estabelecer hipóteses e elaborar conclusões.

A Estatística é dividida em Estatística Descritiva e Inferência

Estatística. A Descritiva relaciona-se com as tabelas de freqüência, gráficos,

medidas de posição (média, desvio padrão, medianas, quartis, etc.). A

inferência Estatística está diretamente ligada a amostragem,

estimação/intervalo de confiança, teses de hipóteses.

Também, estatística descritiva procura sintetizar e representar de

uma forma compreensível a informação contida num conjunto de dados.

Devido à elevada quantidade de dados existentes neste estudo, este

procedimento é indispensável e materializa-se pelo cálculo de medidas que

representem a informação neles contida.

Nesse sentido, observa-se que a Bioestatística é o conjunto de

conceitos e métodos científicos usados no tratamento da variabilidade das

ciências médicas e biológicas, bem como, constitui-se pela aplicação da

estatística aos fenômenos biológicos. A Bioestatística também fornece

métodos que estabelecem faixas de confianças no sentido de dar ênfase

crescente ao papel dos métodos quantitativos na prática biomédica

tornando-se necessário o conhecimento dessa disciplina como requisito

básico para o exercício da profissão de biomédico.

É importante relatar que os métodos estatísticos são essenciais no

estudo de situações em que as variáveis de importância estão sujeitas a

flutuações casuais. No caso da Biomedicina, por exemplo, para o estudo de

4

situações clínicas é necessário aderir a métodos capazes de abordar a

variabilidade que surge, de maneira apropriada. Nota-se, portanto, que os

resultados podem valer-se da experiência de eventos anteriores,

experimentados e popularizados através de livros e artigos.

Desse modo, em um estudo sobre as noções básicas de

bioestatística deve-se propor uma analise sobre a importância das

informações obtidas nos métodos científicos, para melhor avaliação e

alcance dos objetivos.

1. Medidas de Tendência Central

São medidas que objetivam representar o ponto central de equilíbrio

de uma distribuição de dados. Essas medidas representam

quantitativamente os dados, sendo as mais utilizadas em análise:

Média

Representa o ponto de equilíbrio de um conjunto de dados. É uma medida que, por

uniformizar os dados, não representa bem os conjuntos que revelam tendências

extremas, uma vez que a mesma será grandemente influenciada pelos valores

discrepantes. Contudo, esta é a medida de posição mais conhecida e de maior

emprego, sendo facilmente calculada. Auxilia na comparação de conjuntos

semelhantes e depende de todos os valores do conjunto de dados.

Propriedades da Média:

1 - A soma algébrica dos desvios tomados em relação a média é nula;

2 - Somando-se ou subtraindo-se uma constante k, a todos os valores de uma

variável, a média do conjunto fica aumentada ou diminuída dessa constante.

3 - Multiplicando-se ou dividindo-se todos os valores de uma variável por uma

constante k, a média do conjunto fica multiplicada ou dividida por essa constante.

Moda

5

A Moda (Mo) é o valor que ocorre com maior freqüência em uma série de dados. Existem séries de dados em que nenhum valor aparece mais vezes que outros. Neste caso não apresenta moda. São séries amodais.

Em outros casos, pode aparecer dois ou mais valores de concentração. Diz-se então, que a série tem duas ou mais modas – bimodal, trimodal ou multimodal.

Quando os dados se apresentam agrupados em tabelas de freqüências é necessário utilizar a expressão de “Czuber” (a mais precisa). Outras modas são: Pearson e King.

Mediana (Md)

Valor de um conjunto de dados, acima e abaixo do qual se concentram 50% dos

valores. Se o número de dados for par, a mediana é o valor médio dos dois termos

mais próximos da posição central. Ou seja, a mediana (Md) de um conjunto de

valores ordenados segundo uma ordem de grandeza, é o valor situado de tal forma

no conjunto que o separa em dois subconjuntos de mesmo número de elementos

(é o valor que está no meio!).

Quando o conjunto de observações tem um número ímpar de valores, não são

agrupados em classes, então a mediana é dada pela expressão: Md = XP.

Quando o conjunto de observações tem um numero par de valores, não-agrupados

em classes, então a mediana será, a média aritimetica dos dois números que

ocuparem o meio da série.

2. Medidas de dispersão:

São medidas estatísticas que indicam o grau de dispersão, ou

variabilidade do conjunto de observações pesquisados, em relação a uma

medida de tendência central. por exemplo, ¹ x:

Uma única medida não é suficiente única medida não é suficiente para descrever

de modo satisfatório um conjunto de observações. Por exemplo, dois conjuntos de

dados podem ter a mesma média aritmética e, no entanto, a dispersão de um pode

ser muito maior que a dispersão do outro.

As principais medidas de dispersão: amplitude total (AT), variância (¾2 ou s2),

desvio-padrão (¾ ou s) e coeficiente de variação (CV).

6

Amplitude Total (AT)– Diferença entre o valor máximo e o valor mínimo dos

dados. É a forma mais elementar de caracterizar a variabilidade dos dados, razão

pela qual também não a efetua de modo muito correto pois recorre só aos valores

extremos e não a todos os valores dos dados que constituem a amostra.

Desvio Padrão (DP) – É uma medida da dispersão de uma amostra em torno da

sua média sendo dado pela expressão:

Variância – calculada a partir dos quadrados dos desvios, sua unidade é quadrada

em relação à variável estudada, o que, sob o ponto de vista prático é um

inconveniente. Por isso mesmo, imaginou-se uma nova medida que tem utilidade e

interpretação prática.

Coeficiente de variação (CV)

É a medida que fornece o grau de dispersão, ou variabilidade dos valores do

conjunto de observações em torno da média. Ela é calculada somando os

quadrados dos desvios em relação à média.

Permite comparar a distribuição através da relação entre o desvio padrão e a

média. Expresso em percentagem é dado por:

3. Correlação e Regressão Linear

Ao se estudar uma variável o interesse eram as medidas de tendência central,

dispersão, assimetria, etc. Com duas ou mais variáveis além destas medidas

individuais também é de interesse conhecer se elas tem algum relacionamento

entre si, isto é, se valores altos (baixos) de uma das variáveis implicam em valores

altos (ou baixos) da outra variável.

Por exemplo, pode-se verificar se existe associação entre a taxa de desemprego e

a taxa de criminalidade em uma grande cidade, entre verba investida em

propaganda e retorno nas vendas, etc. A associação entre duas variáveis poder ser 7

σ=√ ( xi− x̄ )2

n−1

Cv=σx̄×100

de dois tipos: correlacional e experimental. Numa relação experimental os valores

de uma das variáveis são controlados pela atribuição ao acaso do objeto sendo

estudado e observando o que acontece com os valores da outra variável. Por

exemplo, pode-se atribuir dosagens casuais de uma certa droga e observar a

resposta do organismo; pode-se atribuir níveis de fertilizante ao acaso e observar

as diferenças na produção de uma determinada cultura.

No relacionamento correlacional, por outro lado, não se tem nenhum controle sobre

as variáveis sendo estudadas. Elas são observadas como ocorrem no ambiente

natural, sem nenhuma interferência, isto é, as duas variáveis são aleatórias. Assim

a diferença entre as duas situações é que na experimental nós atribuímos valores

ao acaso de uma forma não tendenciosa e na outra a atribuição é feita pela

natureza.

COEFICIENTE DE CORRELAÇÃO

Apesar do diagrama de dispersão nos fornecer uma idéia do tipo e extensão do

relacionamento entre duas variáveis X e Y, seria altamente desejável ter um

número que medisse esta relação. Esta medida existe e é denominada de

coeficiente de correlação. Quando se está trabalhando com amostras o coeficiente

de correlação é indicado pela letra r que é, por sua vez, uma estimativa do

coeficiente de correlação populacional: ρ (rho).

O coeficiente de correlação pode variar de –1,00 a + 1,00, com um coeficiente de

+1, indicando uma correlação linear positiva perfeita. Neste caso, as duas variáveis

serão exatamente iguais em termos de escores padronizados z, isto é, um

elemento apresentando um escore padronizado de 1,5 em uma das variáveis vai

apresentar o mesmo escore padronizado na outra variável.

Um coeficiente de correlação de –1, indica correlação linear perfeita negativa, com

os escores padronizados exatamente iguais em valores absolutos, diferindo apenas

no sinal. Uma correlação de +1 ou –1 é raramente observado. O mais comum é

que o coeficiente fique situado no intervalo entre estes dois valores. Um coeficiente

de correlação “0”, significa que não existe um relacionamento linear entre as duas

variáveis.

8

PROPRIEDADES

A correlação nunca pode ser maior do que 1 ou menor do que menos 1.

Uma correlação próxima a zero indica que as duas variáveis não estão

relacionadas.

Uma correlação positiva indica que as duas variáveis movem juntas, e a relação

é forte quanto mais a correlação se aproxima 1.

Uma correlação negativa indica que as duas variáveis movem-se em direções

opostas,

A relação fica mais forte quanto mais próxima a correlação de -1.

Duas variáveis que estão perfeitamente correlacionadas positivamente (r=1)

movem-se essencialmente em perfeita proporção na mesma direção,

Dois conjuntos que estão perfeitamente correlacionados negativamente movem-

se em perfeita proporção em direções opostas.

A relação entre as variáveis é evidenciada pela formação de um padrão no

diagrama de Dispersão

TIPOS DE CORRELAÇÃO

A correlação entre 02 variáveis pode ser:

1. Correlação Positiva : O aumento de uma variável corresponde, ao aumento da outra.2. Correlação Negativa: O aumento de uma variável corresponde a diminuição da outra.3. Correlação Linear: Quando é possível ajustar uma reta, ode ser forte (quanto mais próximas da reta) ou fraca (quanto mais próximas da reta).4. Correlação não-linear: Quando não é possível ajustar uma reta.REGRESSÃO

Uma vez constatado que existe correlação linear entre duas variáveis, pode-se

tentar prever o comportamento de uma delas em função da variação da outra. Para

tanto será suposto que existem apenas duas variáveis. A variável X (denominada

variável controlada, explicativa ou independente) com valores observados X1,

X2, ..., Xn e a variável Y (denominada variável dependente ou explicada) com

valores Y1, Y2, ..., Yn.

Os valores de Y são aleatórios, pois eles dependem não apenas de X, mas

também de outras variáveis que não estão sendo representadas no modelo.

9

Estas variáveis são consideradas no modelo através de um termo aleatório

denominado “erro”. A variável X pode ser aleatória ou então controlada. Desta

forma pode-se considerar que o modelo para o relacionamento linear entre as

variáveis X e Y seja representado por uma equação do tipo: Y = α + βX + U, onde

“U” é o termo erro, isto é, “U” representa as outras influências na variável Y além da

exercida pela variável “X”.

ESTIMATIVA DOS PARÂMETROS DE REGRESSÃO

Se fosse conhecido toda a população de valores (Xi, Yi) então seria possível

determinar os valores exatos dos parâmetros α, β e σ2 . Como, em geral, se

trabalha com amostras se faz necessário, então, estimar estes parâmetros com

base nos valores da amostra. Existem alguns métodos para ajustar uma linha entre

as variáveis X e Y o mais utilizado é o denominado método dos mínimos quadrados

(MMQ). A reta obtida através deste método, não é necessariamente, o “melhor”

ajustamento possível, mas possui muitas propriedades estatísticas que são

desejáveis.

EQUAÇÃO DE REGRESSÃOA regressão linear que é um modelo adequado quando encontramos disposições

dos pontos conforme os da figura abaixo:

Caso como os estas figura não seriam bem descritos pela equação linear.

Descrevemos a equação linear através da fórmula y = a + bx. Chamamos a de

interceptor - y (valor de y para o qual x = 0) e b o coeficiente angular da reta.

Os diferentes valores observados representados pela figura abaixo serão ajustados

através da técnica dos mínimos quadrados que permitem ajustar a melhor reta para

o conjunto de pontos dados.

10

4. Referências Bibliográficas

ARANGO, H.G.. Bioestatística: Teórica e computacional. Guanabara Koogan

S.A. RJ, 2001.

CALLEGARI-JACQUES, S. M. Bioestatística: Princípios e Aplicações. Ed.

Artmed. RS, 2003.

DOWNING, D e CLARK, J. Estatística aplicada. 2a Ed. Saraiva. SP, 2002.

GAUVREAU, K. e PAGANO. Princípios de Bioestatística. 2a Ed. Thonson, 2004.

RODRIGUES, P. C.. Bioestatística. EdUFF, RJ, 2002.

TOLEDO, Geraldo Luciano; OVALLE, IvoIzidoro. Estatística Básica. 2º Edição. São Paulo: Atlas, 1995.

11

Documents

Bioestatistica