Upload
phungdieu
View
216
Download
0
Embed Size (px)
Citation preview
Instalando o Ambiente Estatístico R
“Googar” R e ir ao “site”
Ir em “Download – CRAN”, Brasil – primeira opção(UFPR)
Clicar em “Downlod R for Windows”
Clicar em “Install R for the first time”
Clicar em “Download R xxx for Windows”
Executar “R xxx win.exe”
Aceitar os termos de uso
Exemplo
• Um cientista quer saber se há diferença entre as temperaturas do ar no cerrado e na floresta do Parque Estadual da Serra Azul.
Comandos no R>dados<-read.table("temperatura.txt",h=T) -enter-
>dados -enter-área temp1 temp2 temp3 temp4 temp5
1 Cerrado 37.0 35.0 37.5 33.5 34.5
2 Cerrado 36.0 36.0 35.0 35.0 36.0
3 Cerrado 36.0 36.0 35.0 34.0 34.0
4 Cerrado 38.0 38.0 34.0 33.0 31.0
5 Cerrado 35.0 35.0 34.0 34.0 34.0
6 Cerrado 36.5 36.5 35.5 34.5 34.0
7 Cerrado 36.5 36.0 35.0 34.0 33.0
8 Cerrado 34.0 33.0 33.0 32.5 32.0
9 Cerrado 35.0 35.0 33.5 31.5 32.0
10 Cerrado 34.5 35.0 34.5 34.5 34.5
11 Floresta 31.0 31.0 31.0 30.0 28.0
12 Floresta 35.0 35.0 32.5 31.0 29.0
13 Floresta 33.0 33.0 31.0 30.0 28.5
14 Floresta 34.0 32.5 32.0 31.0 29.5
15 Floresta 34.0 32.0 31.5 30.0 29.0
16 Floresta 34.0 33.5 33.0 30.5 30.0
17 Floresta 33.0 32.0 31.0 30.0 29.5
18 Floresta 34.0 32.0 31.0 29.0 28.0
19 Floresta 30.5 29.5 29.0 28.0 27.5
20 Floresta 33.0 32.0 31.0 30.0 29.0
> dados<-read.table(“temperatura.txt", h=T)
O comando read.table vai ler os dados no arquivo “temperatura.txt” e encaminhá-los para o objeto dados. A opção h=T ou header=TRUE indica que a primeira linha do arquivo contém os nomes das variáveis.
O R procura os arquivos para importação na pasta padrão do Windows, que é Meus Documentos. Obs.: todo texto no R vem entre aspas. Por exemplo, nome de arquivo: “temperatura.txt”.
> dados
Digite dados na linha de comando para verificar o que o objeto dados contém.
Roteiro do teste t independente
1 - Pergunta
2 - Estrutura de dados
3 - Estatística Descritiva
4 - Estabelecer as Hipóteses e o nível de significância
5 - Estatística t Calculada e o valor de p associado5.1 - Pergunta
5.2 - Estrutura de dados
5.3 - Estatística Descritiva
5.4 - Estabelecer as Hipóteses e o nível de significância
5.5 - Estatística F Calculada o valor de p associado
5.6 - Comparar p com α e concluir
6 - Comparar p com α e concluir
Tese F
Test
e T
2 – Estruturas dos Dados• Y=f(x)
• Temperatura = f(ambiente)
quantitativa qualitativa (2 categorias)
cerrado ou floresta
2 amostras independentes de temperaturas
Cerrado Floresta
32
34
36
38
Ambiente
Tem
petu
ra (ºC
)
Figura 1. Temperatura do ar nos ambientes cerrado e floresta às 16:15.
Gráfico de Caixa
>boxplot(temp1~área,data=dados,xlab="Amb
iente",ylab="Tempetura (°C)")
O comando boxplot desenha gráficos de caixa (ver Sônia Vieira, 2006, Introdução à Bioestatística para interpretação)
tempe1~área equivale à temp1=f(área), ou seja, a temperatura é uma função da área, ambiente. O eixo Y é temperatura e o eixo X é o ambiente.
data=dados significa que minha variável está no objeto dados.
xlab: título do eixo X
ylab: título do eixo Y
3 – Estatística Descritiva da Amostra:
• Temperatura às 16:15 (“temp.1”)
Média�̅cerrado= 35,9°C �̅floresta= 33,2°C
Desvio padrãoscerrado= 1,23°C sfloresta= 1,42°C
Variâncias2
cerrado= 1,50°C2
s2floresta= 2,00°C2
Estatística Descritiva no R
• Temperatura do ar (às 16:15h) – coluna “temp1”
> tapply(dados$temp1,dados$área,mean)
Cerrado Floresta
35.85 33.15
> tapply(dados$temp1,dados$área,sd)
Cerrado Floresta
1.225878 1.415195
> tapply(dados$temp1,dados$área,var)
Cerrado Floresta
1.502778 2.002778
> tapply(dados$temp1,dados$área,mean)
tapply calcula a média das temperaturas (dados$temp1) agrupadas
segundo os ambientes (dados$áreas).
dados$temp1: o símbolo $ separa a variável temp1 do objeto dados.
Esta codificação indica que a variável temp1 se encontra no objeto
dados.
mean: a estatística a ser calculada é a média
Outras estatísticas:
sd: a estatística a ser calculada é o desvio padrão
var: a estatística a ser calculada é a variância
4 – Hipóteses e α:
• ��: μ���� = μ������
• os ambientes apresentam temperaturas médias do ar iguais
• ��:• os ambientes apresentam temperaturas médias do ar
diferentes
• α= 0,05 ou 5% (nível de significância)
5 – Estatística t calculada
• Há duas formas de calcular o valor de t a partir
das amostras:
1. Uma para quando as variâncias populacionais
são iguais (σ2cerrado= σ2
floresta)
2. Outra para quando as variâncias populacionais
são diferentes (σ2cerrado≠ σ2
floresta)
• Então há a necessidade de se determinar se
as variâncias populacionais são iguais ou não
através do teste F
Teste F
• 5.1 - Pergunta
As variâncias populacionais são iguais?
• 5.2 - Estrutura de dadosY=f(x)
Temperatura= f(ambiente)
• 5.3 - Estatística Descritiva:• S2
cerrado = 1,50°C²
• S2loresta = 2,00°C²
• 5.4 - Hipóteses e nível de significância:
H0: σ2
cerrado= σ2floresta
H�: σ2
cerrado≠σ2floresta
α = 0,05
Teste F
• 5.5 F = 0,75
grau de liberdade numerador (n-1) = (10-1)= 9 grau de liberdade denominador (n’-1) = (10-1) = 9
O valor de p associado ao F calculado:
p = 0,6757
• 5.7 – Comparar p com α:Se o p for menor que o α, rejeito H�Se o p for maior que o α, aceito H�
Como p>α (p>0,05), então aceita-se H0
• 5.8 – Conclusão:
Concluo que as variâncias do Cerrado (1,50°C2) e da Floresta (2,00°C2) não diferem significativamente (p>0,05). Então devo utilizar o teste t para variâncias iguais.
Teste F para Comparação de
Variâncias no programa R> var.test(temp1~área,data=dados)
F test to compare two variances
data: temp1 by área
F = 0.7503, num df = 9, denom df = 9, p-value = 0.6757
alternative hypothesis: true ratio of variances is notequal to 1
95 percent confidence interval:
0.1863755 3.0208916
sample estimates:
ratio of variances
0.7503467
> var.test(temp1~área,data=dados)
var.test: Calcula o valor da estatística F e o valor p
associado da função temp1~área a partir das variáveis
contidas no objeto dados (data=dados)
Estatística t e valor de p no programa R
> t.test(temp1~área,data=dados,var.equal=TRUE,
alternative="two.sided")
Two Sample t-test
data: temp1 by área
t = 4.5602, df = 18, p-value = 0.0002426
alternative hypothesis: true difference in means isnot equal to 0
95 percent confidence interval:
1.456092 3.943908
sample estimates:
mean in group Cerrado mean in group Floresta
35.85 33.15
> t.test(temp1~área,data=dados,var.equal=TRUE,
alternative="two.sided")
t.test: Calcula o teste t para amostras independentes da função .
data=dados: As variáveis estão contidas no objeto dados.
var.equal=TRUE: as variâncias populacionais são iguais.
var.equal=FALSE: as variâncias populacionais são diferentes.
alternative="two.sided": na hipótese alternativa há duas forma da
desigualdade ocorrer (��� < ����� ou ��� > �����)
6 – Comparar p com α e concluir
• p=0,0002426 e α = 0,05
– Se o p for menor que o α, rejeito H�– Se o p for maior que o α, aceito H�
• p <α
• Rejeito H�: μ����=μ������
e Aceito H�: μ����≠μ������(μ����>μ������)
6 – Comparar p com α e concluir
• Rejeito H0
• Concluo que, às 16:15, a média da temperatura do ar no cerrado (35,9 ±1,23°C, média ± desvio padrão) é significativamente maior do que a média da temperatura do ar na Floresta (33,2 ±1,42°C) (p<0,05).