Upload
duongliem
View
220
Download
0
Embed Size (px)
Citation preview
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ire
Introdução à Estatística Espacial
Prof. Flávio Henrique M de A Freire
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
O objeto:
• Sobre estatística espacial entende-se como a área da estatística que estuda os fenômenos ao longo do espaço.
• A estatística espacial tem aplicação nas mais diversas áreas:
• Epidemiologia
• Estudos de violência
• Agronomia
• Demografia
• Geologia
Objeto de estudo
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
• Eventos pontuais
Tipos de dados espaciais
Mortalidade por causas externas em Porto Alegre, 1996
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
• Dados de áreas
Tipos de dados espaciais
Imigrantes na RMN.
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
• Dados de Superfície
Tipos de dados espaciais
Teor de argila no solo.
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Dados espaciais x Dados não espaciais
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
• Eventos pontuais. Exemplo
Mortalidade por causas externas em Porto Alegre, 1996
Análise de Dados de Pontos
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ire
• Latitude de um ponto: Distância em graus, minutos e segundos de arco, doEquador ao ponto; medida ao longo do meridiano do ponto. Varia de 0o a 90o (norte ou sul)
• Longitude de um ponto: Distância em graus, minutos e segundos de arco, do meridiano que passa pelo ponto ao meridiano de origem (por convenção, Greenwich). Varia 0o a 180o (leste e oeste)
Fonte: tutorial do Curso de Introdução ao Geoprocessamento - INPE
Introdução à Estatística Espacial
Análise de Dados de Pontos
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Pontos
Nr Lat Long_ LatGMS LongGMS Data Hora Satelite Municipio Vegetacao Precip DiassemChuva1 -20,258 -47,703 S 20 15 30.00 O 47 42 12.00 20050801 002221 NOAA-14 Buritizal NaoFloresta 2,6 22 -20,590 -47,678 S 20 35 24.00 O 47 40 42.00 20050801 002221 NOAA-14 São José da Bela NaoFloresta 0 303 -20,933 -48,410 S 20 55 60.00 O 48 24 36.00 20050801 002221 NOAA-14 Bebedouro NaoFloresta 0 304 -20,935 -48,418 S 20 56 6.00 O 48 25 6.00 20050801 002221 NOAA-14 Bebedouro NaoFloresta 0 305 -21,405 -47,753 S 21 24 18.00 O 47 45 12.00 20050801 002221 NOAA-14 Cravinhos NaoFloresta 0 306 -21,407 -47,762 S 21 24 24.00 O 47 45 42.00 20050801 002221 NOAA-14 Cravinhos NaoFloresta 0 307 -21,408 -47,770 S 21 24 30.00 O 47 46 12.00 20050801 002221 NOAA-14 Cravinhos NaoFloresta 0 308 -21,498 -49,278 S 21 29 54.00 O 49 16 42.00 20050801 002221 NOAA-14 Novo Horizonte EstacionalSemide 0 309 -21,500 -49,287 S 21 30 0.00 O 49 17 12.00 20050801 002221 NOAA-14 Novo Horizonte EstacionalSemide 0 30
10 -21,933 -46,968 S 21 55 60.00 O 46 58 6.00 20050801 002221 NOAA-14 Vargem Grande do NaoFloresta 0 3011 -22,110 -48,648 S 22 6 36.00 O 48 38 54.00 20050801 002221 NOAA-14 Bariri EstacionalSemide 0 4012 -22,118 -48,637 S 22 7 6.00 O 48 38 12.00 20050801 002221 NOAA-14 Bocaina EstacionalSemide 0 4013 -22,120 -48,645 S 22 7 12.00 O 48 38 42.00 20050801 002221 NOAA-14 Bariri EstacionalSemide 0 4014 -22,122 -48,653 S 22 7 18.00 O 48 39 12.00 20050801 002221 NOAA-14 Bariri EstacionalSemide 0 4015 -22,425 -52,437 S 22 25 30.00 O 52 26 12.00 20050801 002221 NOAA-14 Teodoro Sampaio EstacionalSemide 0 3016 -22,427 -52,445 S 22 25 36.00 O 52 26 42.00 20050801 002221 NOAA-14 Teodoro Sampaio EstacionalSemide 0 3017 -22,437 -52,443 S 22 26 12.00 O 52 26 36.00 20050801 002221 NOAA-14 Teodoro Sampaio EstacionalSemide 0 3018 -22,438 -52,452 S 22 26 18.00 O 52 27 6.00 20050801 002221 NOAA-14 Teodoro Sampaio EstacionalSemide 0 3019 -22,448 -52,448 S 22 26 54.00 O 52 26 54.00 20050801 002221 NOAA-14 Teodoro Sampaio EstacionalSemide 0 3020 -22,448 -52,457 S 22 26 54.00 O 52 27 24.00 20050801 002221 NOAA-14 Teodoro Sampaio EstacionalSemide 0 3021 -22,495 -50,658 S 22 29 42.00 O 50 39 30.00 20050801 002221 NOAA-14 Paraguaçu Paulis NaoFloresta 0 3022 -22,497 -50,667 S 22 29 48.00 O 50 40 0.00 20050801 002221 NOAA-14 Paraguaçu Paulis NaoFloresta 0 3023 -22,498 -50,675 S 22 29 54.00 O 50 40 30.00 20050801 002221 NOAA-14 Paraguaçu Paulis NaoFloresta 0 3024 -22,507 -50,665 S 22 30 24.00 O 50 39 54.00 20050801 002221 NOAA-14 Paraguaçu Paulis NaoFloresta 0 3025 -22,712 -48,723 S 22 42 42.00 O 48 43 24.00 20050801 002221 NOAA-14 Lençóis Paulista NaoFloresta 0 30
Exemplo de formato base de dados pontuais
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Pontos
• Eventos pontuais. Exemplo: Focos de Incêndio mapeados no Estado de São Paulo
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
• Eventos pontuais. Exemplo: Homicídios ocorridos em 2002 na cidade de São Paulo
Análise de Dados de Pontos
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
“Estatisticamente, processos pontuais são definidos como um conjunto de pontos irregularmente distribuídos no terreno cuja localização foi gerada por mecanismo estocástico.”
Análise de Dados de Pontos
Numa análise de processos pontuais estamos interessados em dois efeitos:de primeira e segunda ordem.
Primeira ordem: Número esperado de eventos por unidade de área du, em torno do evento u – Chamado de intensidade.
Segunda ordem: podem ser denominados de efeito locais, ou de pequena escala, e medem a dependência espacial dos eventos entre unidades de área.
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Pontos – Estimação de IntensidadeQuando estudamos processos pontuais, temos os eventos distribuídos no espaço, de modo que é possível estimar o número esperado de eventos por unidade de área, os seja, estimar a intensidade. Estas estimativas são calculadas através de interpolações por diversos métodos.
Kriging Superfície de tendência
Modelos locais de regressão Estimador Kernel
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Pontos – Estimação de Intensidade
Uma análise exploratória de um processo pontual começa pela estimação da intensidade de ocorrências do processo em toda a região em estudo. Com isso, gera-se uma superfície cujo valor é proporcional à intensidade de eventos por unidade de área.
Estimador Kernel
O estimador Kernel é um interpolador, que possibilita a estimação da intensidade do evento em toda a área, mesmo nas regiões onde o processo não tenha gerado nenhuma ocorrência real.
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Pontos – Estimação de Intensidade
Estimador KernelPortanto, suponha que u1, u2,..., un são localizações de n eventos observados em uma região A e que u represente uma localização genérica cujo valor queremos estimar. O estimador de intensidade é calculado considerando os m eventos (u1, u2,..., um-1) contidos num raio de tamanho t em torno de u e da distância d entre a posição e a i-ésima amostra, a partir de funções cuja a forma geral é:
( ) ( ) ( ) τu;ud,τ
u;udKτ1uλ i
n
1i
i2τ ≤⎟
⎠⎞
⎜⎝⎛= ∑
=
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Pontos – Estimação de IntensidadeEstimador Kernel
O estimador Kernel depende de dois parâmetros, o raio de influência t, e a função K de estimação com propriedades de suavização do fenômeno.
O raio t: define a vizinhança do ponto a ser interpolado e controla o grau de alisamento da superfície.
A função K: existem várias funções de interpolação K, que diferem na maneira como atribui pesos para os pontos dentro do raio t, que serão usados para a estimação da intensidade na área ui.
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Pontos – Estimação de Intensidade
Estimador Kernel – Função de estimação K
Kernel Gaussiano ou normal: ( ) ⎟⎟⎠
⎞⎜⎜⎝
⎛−
=2
2
2τh
e2ππ1hk
Kernel Quártico: ( ) ( )22h1π3hk −=
Kernel Triangular: ( ) ( )h1hk −=
Kernel Exponencial Negativo: he2π1K(h) −=
Kernel Uniforme: 21K(h) =
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Pontos – Estimação de Intensidade
Estimador Kernel – Função de estimação K
Diferenças entre as funções de Kernel: A distribuição normal pesa os pontos dentro do círculo de forma que pontos mais próximos são pesados mais intensamente comparados aos mais afastados. A distribuição uniforme pesa todos os pontos dentro do círculo igualmente. A função quártica pesa pontos próximos mais do que pontos distantes, mas o decrescimento égradual. A função triangular pesa pontos próximos mais do que pontos distantes dentro do círculo, mas o decrescimento é mais rápido. A função exponencial negativa pesa pontos próximos muito mais intensamente do que pontos distantes.
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Pontos – Estimação de Intensidade
Exemplo: Suponha uma área com a seguinte distribuição de eventos pontuais.
zv
k
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Pontos – Estimação de Intensidade
Exercício 1: baseado no padrão de pontos do exemplo anterior vamos calcular a densidade (ou intensidade, ou número esperado de pontos) através do estimador de Kernel para as localizações v, z e k.
Use a função do Kernel quártico e raio igual a 3.
Para v, os cálculos e resultados são o seguinte:
( ) ( )22h1π3hk −=( ) ( ) ,
τu;udK
τ1uλ
n
1i
i2τ ∑
=⎟⎠⎞
⎜⎝⎛=
( ) ( ) ( )∑∑== ⎟
⎟⎠
⎞⎜⎜⎝
⎛⎟⎠⎞
⎜⎝⎛−=⎟
⎠⎞
⎜⎝⎛=
5
1i
22i
2
5
1i
i2τ τ
v;ud1π3
τ1
τv;udK
π3
τ1uλ
Lembre que:
Então:
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Pontos – Estimação de Intensidade
v1
2
3 4
5
Distâncias hipotéticas para o exercíciod(v;1)=0,5
d(v;2)=1
d(v;3)=1,5
d(v;4)=2
d(v;5)=1,8
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Pontos – Estimação de Intensidade
( ) ( )∑= ⎟
⎟⎠
⎞⎜⎜⎝
⎛⎟⎠⎞
⎜⎝⎛−=
5
1i
22i
2τ 3v;ud1
3,143
31uλ
Exercício:
( )⎥⎥
⎦
⎤
⎢⎢
⎣
⎡
⎟⎟⎠
⎞⎜⎜⎝
⎛⎟⎠⎞
⎜⎝⎛−+⎟
⎟⎠
⎞⎜⎜⎝
⎛⎟⎠⎞
⎜⎝⎛−+⎟
⎟⎠
⎞⎜⎜⎝
⎛⎟⎠⎞
⎜⎝⎛−+⎟
⎟⎠
⎞⎜⎜⎝
⎛⎟⎠⎞
⎜⎝⎛−+⎟
⎟⎠
⎞⎜⎜⎝
⎛⎟⎠⎞
⎜⎝⎛−=
2222222222
τ 31,81
321
31,51
311
30,51.106157,0uλ
( ) 320179,0)016081,3(.)106157,0(uλ τ ==
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Pontos – Estimação de Intensidade
z
5 1
23
4
6 7
8910
Distâncias hipotéticas para o exercíciod(z;1)=0,5
d(z;2)=0,8
d(z;3)=0,7
d(z;4)=0,5
d(z;5)=1,8
d(z;6)=0,6
d(z;7)=1,8
d(z;8)=2,7
d(z;9)=1,3
d(z;10)=2,5
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Pontos – Estimação de Intensidade
Distâncias hipotéticas para o exercíciod(k;1)=2,8
d(k;2)=2,7
d(k;3)=1,5
k
1 3
2
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Pontos – Estimação de Intensidade
Exercício 2: Refaça o exercício anterior usando o KernelTriangular.
Quais diferenças você encontrou? Porquê?
Exercício 3: Refaça o exercício 1, com Kernel Quártico, assumindo que o raio é 5.
Quais diferenças você encontrou? Porquê?
Exercício 4: De posse da base de dados que utilizamos do município de São Paulo do tutorial do terraview, faça um mapa de Kernel para o tema homicídios 2002. Teste várias funções kernelque o terraview oferece.
Exercício 5: Crie uma função no R para calcular o estimador de Kernel, usando o kernel quártico. Faça o mesmo para o kerneltriangular. Execute esta função com os dados deste nosso exemplo.
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Pontos – Estimação de Intensidade
O raio adaptável do TerraView:
O terraview tem a opção de adaptar o raio do círculo de vizinhança de modo que numa área com elevada concentração de pontos o raio é pequeno, mas nas áreas onde a concentração dos pontos émenor, então o raio será maior. O que o software faz é encontrar uma estimativa inicial da intensidade do processo. (u)λ~
Esta estimativa inicial é obtida com um raio fixo:
R0,68nτ 0,2-0 =
n é o no de eventos
R é a área da região
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Pontos – Estimação de Intensidade
Com isso, calcula-se a média geométrica das estimativas iniciais: )(uλ~ i
onde ui (i=1, 2, ...,n) são as localizações dos n eventos observados. Finalmente os raios adaptativos são da forma:
⎟⎟⎠
⎞⎜⎜⎝
⎛=
)(uλ~λ~
τ)τ(ui
g0i
É a média geométrica
Desta forma, a função de intensidade de Kernel com raio adaptativo do terraview fica da seguinte forma:
( ) ( ) ( )iin
1i ii
i2τ uτu),d(u,
)τ(uu;udK
)(uτ1uλ ≤⎟⎟
⎠
⎞⎜⎜⎝
⎛= ∑
=
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Pontos – Razão de Kernel
Em situações onde a população está distribuída no espaço de forma heterogênea, o mapa do estimador de densidade de Kernelde um determinado fenômeno, como uma doença por exemplo, pode não refletir da melhor forma a distribuição espacial do risco, podendo indicar de forma errônea as áreas de maior risco. Neste caso, recomenda-se estimar a densidade da população para o centróide de cada célula da grade regular, também através do estimador kernel, criando-se a superfície “de população em risco”que deve ser usada no denominador da equação:
populaçãop/aKernelporestimadaDensidadeeventosp/osKernelporestimadaDensidade
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Pontos – Razão de Kernel
Os dados de contingente populacional estão disponíveis como um dado de área, seja montante da população por município, setor censitário, distritos, entre outros. O estimador de Kernel utilizado para este dados de área, estima a intensidade do evento para o centróide da célula de interesse, usando como atributo de ponderação a população dos centróides das áreas (polígonos) dentro de um certo raio de distância do centróide da célula.
( ) ,Yτs-sK
τ1sλ i
n
1i
i2τ ∑
=⎟⎠⎞
⎜⎝⎛= onde
s – é o centro da célula a ser estimada;
si – local do ponto (coincide com o centróide das áreas (ex: munic) dentro do raio t;
Yi – contagem populacional da área i.
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Pontos – Razão de Kernel
Para o numerador da fórmula do estimador da Razão de Kernel, utiliza-se a estimativa de densidade (intensidade) do evento para cada centróide (s) de célula da grade onde foi realizada a estimativa de população
( ) ,τs-sK
τ1sλ
n
1i
i2τ ∑
=⎟⎠⎞
⎜⎝⎛= onde
s – é o centro da célula a ser estimada;
si – local do ponto i dentro do raio t
Obs: Neste caso, da estimação ser feita para o centróide da célula de uma grade regular, podemos entender o estimador de intensidade de Kernel como a probabilidade de encontrar um evento nesta área (da célula), ponderada pela distância dos eventos observados.
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Pontos – Razão de Kernel
Ilustração: Estimação para a população (denominador)
s
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Pontos – Razão de Kernel
Ilustração: Estimação para os eventos (numerador)
s s1
s2s3s4
s5
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Pontos – Vizinho mais Próximo
• O método do vizinho mais próximo estima a função de distribuição cumulativa (G(h)) baseado nas distâncias entre eventos em umaregião de análise.
• Pode ser estimado empiricamente por:
onde:– h distância de entrada
– hi distância mínima entre eventos
– n número de eventos
• A plotagem dos resultados de em relação as distâncias, pode ser utilizado como um método exploratório para verificar se existe evidênciade interação entre os eventos.
( )n
hh#(h)G i ≤=
)(ˆ hG
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Pontos – Vizinho mais Próximo
0
1
0
1
0h
Análise exploratória de padrões de distribuição de pontos
)(ˆ hG
)(ˆ hG
h
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Pontos – Vizinho mais Próximo
Exemplo com TerraView e R
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Pontos – Vizinho mais Próximo
Exemplo com TerraView e R
-35.28 -35.24 -35.20
-5.8
5-5
.80
-5.7
5
pcagua.natal$Long
pcag
ua.n
atal
$Lat
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Pontos – Vizinho mais Próximo
Exemplo com TerraView e R
-35.28 -35.24 -35.20-5
.85
-5.8
0-5
.75
pcagua.natal$Long
pcag
ua.n
atal
$Lat
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Pontos – Vizinho mais Próximo
x1 x2
y2
y1
-35.28 -35.24 -35.20
-5.8
5-5
.80
-5.7
5
pcagua.natal$Long
pcag
ua.n
atal
$Lat
Exemplo com TerraView e R
( ) ( )2212
2121 ),( yyxxeeD −+−=
Distância do evento 1 ao evento 2
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Pontos – Vizinho mais Próximo
Exemplo com TerraView e R – Os dados: Poços de água da CAERN em Natal
Sul - Rota ANº ENDEREÇO SISTEMA LATITUDE LONGITUDE
1 E. E. Nestor Lima, R. São José, Lagoa Nova 05.81180° 035.21214°2 E. E. Joaquim Torres, R. dos Potiguares, Lagoa Nova 05.82172° 035.22600°3 E. E. Regulo Tinoco, R. Lima e Silva, Lagoa Nova 05.82381° 035.21390°4 Cemitério Nova Descoberta – Rua da Saudade – Nova Descoberta R – 5(LN I)+ R – 3
(JIQUI + DUNAS) 05.82218º 035.20239º5 Clínica Santa Maria – Rua Américo Soares Vanderlei – Capim
MacioSIST. PIRANGI
05.86031º 035.20436º6 Escola Estadual Castro Alves – Av. Xavier da Silveira – Nova
DescobertaR – 5(LN II)+ R – 3 (JIQUI + DUNAS) 05.82467º 035.19746º
7 Escola Estadual Maia Neto – Rua Paraná – Neópolis SIST. NOVO CAMPO 05.85801º 035.20740º8 Escola Estadual Ferreira Itajubá – Rua Roraima – Neópolis SIST. NOVO CAMPO 05.85510º 035.21043º9 Escola Municipal Carlos Belo Moreno – Rua Rio dos Índios – Jiqui SIST. NOVO CAMPO
05.86340º 035.20709º10 Escola Estadual Berilo Wanderley – Rua Governador Valadares -
JIquiSIST. PIRANGI
05.86924º 035.20645º11 Escola Municipal Josefa Botelho – Rua Manoel Congo – Ponta
NegraSIST. PONTA NEGRA
05.89072º 035.16948º12 Escritório CAERN – Rua Praia da Penha – Ponta Negra SIST. PONTA NEGRA 05.87841º 035.18252º13 E. E. João Fernandes Machado, R. Praia de Muriú, Ponta Negra SIST. PONTA NEGRA 05.87266° 035.18955°14 E. E. Antônio Pinto de Medeiros, Satélite SIST. SATÉLITE 05.85595° 035.24034°15
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Pontos – Vizinho mais Próximo
vizprox.fct = function(mat,h){# mat deve ser uma matriz com n linhas e 2 colunas (long e lat de cada um dos n pon# h é um vetor com as distâncias de entrada para as quais se quer calc G(h)
d=as.matrix(dist(mat))n=dim(mat)[1]G=matrix(0,n,length(h))for (j in 1:length(h)){
for (i in 1:n){dtemp=(d[i,])[-i]viz=min(dtemp)
if (viz<=h[j]) {G[i,j]=1}}
}viz.total=apply(G,2,sum)G.h=viz.total/n
result=list(“G(h)”=G.h)result}
Exemplo com TerraView e R
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ire
A significância do resultado da análise exploratória, do padrão de distribuição de pontos, utilizando o método vizinho mais próximo pode seravaliada através de um modelo teórico denominado Aleatoriedade Espacial Completa ( “Complete Spatial Randomness - CSR” ).
Na realidade o que se faz é comparar a distribuição dos eventos observadoscom o que se esperaria na hipótese CSR.
Esta metodologia consiste em se criar envelopes de simulação para a distribuição CSR, afim de verificar a significância dos desvios.
Na hipótese de CSR, a função de distribuição G(h) seria dada por um processo de Poisson, como segue (Bailey e Gatrell, 1995):
Introdução à Estatística Espacial
Análise de Dados de Pontos – Vizinho mais Próximo
0he1G(h)2λπh ≥−= −
Teste de Significância
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Pontos – Vizinho mais PróximoTeste de Significância
, i =1, 2, ..., m são funções de distribuição empíricas, estimadas apartir de m simulações independentes dos n eventos, na hipóteseCSR (n eventos independentes e uniformemente distribuídos).
A estimação simulada para a distribuição G(w) assumindo-se CSR écalculada como (Bailey e Gatrell, 1995):
onde:m
hGhG
m
ii∑
== 1)(ˆ
)(
)(ˆ hGi
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Pontos – Vizinho mais PróximoTeste de Significância
Para calcular a condição de aleatoriedade, calcula-se os envelopes de simulação superior e inferior, definidos como segue (Bailey e Gatrell, 1995):
Envelope superior
Envelope inferior
{ } mihGmaxhU i ...,,1,)(ˆ)( ==
{ } mihGminhL i ...,,1,)(ˆ)( ==
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Pontos – Vizinho mais PróximoTeste de Significância
Outra opção é calcular o envelope de 95% de confiança:
Envelope superior - é dado pelo percentil 97,5 das funções Gi(h) simuladas.
Envelope inferior - é dado pelo percentil 2,5 das funções Gi(h) simuladas.
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Pontos – Vizinho mais PróximoTeste de Significância
A plotagem x , com adição dos envelopes, permite medir a significância dos desvios relativo a aleatoriedade.
)(hG )(hG)(ˆ hG )(ˆ hG
)(ˆ hG )(ˆ hG
)(hG )(hG
Se a condição de CSR for válida para os dados observados, a plotagem
x deve ser praticamente linear com um ângulo de 45o)(ˆ hG )(ˆ hG )(hG )(hG
Envelope Inferior
Envelope Superior
Estimado
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Pontos – Vizinho mais PróximoTeste de Significância
Se o dado apresenta tendências para agrupamento, os traçados no gráfico estarão acima da linha de 45o.
)(ˆ hG )(ˆ hG
)(hG )(hG
Por outro lado, se o dado apresenta padrões de regularidade os traçados ficarão abaixo da linha de 45o.
)(ˆ hG )(ˆ hG
)(hG )(hG
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Pontos – Vizinho mais PróximoTeste de SignificânciaSimulação Independente dos n eventos – no R
> x=runif(dim(pcagua.natal)[1],min(pcagua.natal$Long),max(pcagua.natal$Long))
> y=runif(dim(pcagua.natal)[1],min(pcagua.natal$Lat),max(pcagua.natal$Lat))
-35.28 -35.24 -35.20
-5.8
5-5
.80
-5.7
5
x
y
Esta foi só uma simulação. Gere m simulações para cada distância h.
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Pontos – Vizinho mais Próximo
Exercício:
1. Importe os dados de poços d’água da CAERN no município de Natal para oterraview, assim como a malha digital dos bairros de Natal.
2. Faça uma análise exploratória destes pontos, usando o mapa de Kernel3. Calcule a distribuição acumulada G(h) do vizinho mais próximo e faça um
gráfico dela contra as distâncias. Analise4. Construa os envelopes de confiança e faça um gráfico da distribuição
acumulada estimada contra a simulada. Analise os resultados (para issoserá preciso construir uma função no R).
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Pontos – Função K
O método do Vizinho mais próximo fornece uma primeira visão da distribuição espacial dos pontos. Contudo, este método peca por considerar apenas distâncias pequenas. A função K é uma alternativa ao método do vizinho mais próximo, pois é mais sensível à distâncias maiores.
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ire
• λK(h) = E [#(eventos a distância h de um evento arbitrário)]
λ = no eventos/A
A = área
A
λ denominado de intensidadeou
Lembrando que:# eventos = 7
# eventos = 3
h
h
Introdução à Estatística Espacial
Análise de Dados de Pontos – Função K
Fonte: Este slide foi elaborado pela Divisão de Processamento de Imagem do INPE
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ire
• Necessitamos agora, definir um estimador para a função k
• λK(h) = E [#(eventos a distância h de um evento arbitrário)]
• λK(h) = , onde: dij é a distância entre os eventos i e j.Ih(dij)= 1 se dij <=h, 0 se dij > h.λA = n = # eventos em A.
• Resultando
• O estimador de lambda , então:
∑∑= =
=n
1i
n
1jijh2 )(dI
Aλ1(h)K
∑∑= =
n
1i
n
1jijh )(dI
λA1
Anλ= ∑∑
= ==
n
1i
n
1jijh2 )(dI
nA(h)K
Introdução à Estatística Espacial
Análise de Dados de Pontos – Função K
Fonte: Este slide foi elaborado pela Divisão de Processamento de Imagem do INPE
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ire
• Uma idéia gráfica do que está embutido na notação do estimador da função K
∑∑= =
=n
1i
n
1jijh2 )(dI
nA(h)K
A
h=5
h=5
h=5# eventos=7
# eventos=7
# eventos=3
Fonte: Este slide foi elaborado pela Divisão de Processamento de Imagem do INPE
Introdução à Estatística EspacialAnálise de Dados de Pontos – Função K
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Pontos – Função KA Função K, portanto, com a correção do efeito de borda, pode ser estimada
a partir de:
( )∑ ∑= ≠
=n
1i
n
jj,i ij
ijh2 w
dI
nAK(h)
Onde: A é a área da região; n é o no de eventos observados; Ih(dij) é uma função indicadora igual a 1 quando (dij)<=h e 0 em caso contrário; e wij é a proporção da circunferência do círculo centrado no evento i que está dentro da região.
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ire
• Para um processo aleatório o # esperado de eventos a uma distância hde UM evento escolhido aleatoriamente é:
Processo aleatório hh
hh
h
h Área=
Tipo de Processo K(h)
Randômico = πh2
Ordenação regular < πh2
Agregação espacial > πh2
Fonte: Este slide foi elaborado pela Divisão de Processamento de Imagem do INPE
Introdução à Estatística EspacialAnálise de Dados de Pontos – Função K
2λπhλK(h) =
2πh
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ire
• Uma vez obtido, este pode ser plotado e examinado.
• O gráfico da função K não é tão intuitivo quanto a do gráfico do vizinho mais próximo. Portanto utiliza-se uma função auxiliar L, para facilitar ainterpretação.
• O estimador da função L é:
(h)K
hhKhL −=π
)(ˆ)(ˆ
Tipo de Processo L(h) K(h)
Randômico = 0 = πh2
Ordenação regular < 0 < πh2
Agregação espacial > 0 > πh2
Fonte: Este slide foi elaborado pela Divisão de Processamento de Imagem do INPE
Introdução à Estatística EspacialAnálise de Dados de Pontos – Função K
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ire
• Interpretação da plotagem de hπ(h)K(h)L −=
)(ˆ hL )(ˆ hL
h
0
• extremos negativos: mais regularidade
• extremos positivos: mais agrupamento
• em torno de zero aleatório
Fonte: Este slide foi elaborado pela Divisão de Processamento de Imagem do INPE
Introdução à Estatística EspacialAnálise de Dados de Pontos – Função K
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ire
• Uma abordagem similar a do vizinho mais próximo pode ser feita para seestimar a significância dos desvios da distribuição em relação a aleato-riedade (CSR).
• Idéia realizar simulações CSR sobre a região R e computar os envelopessuperior e inferior.
• O envelope superior é definido como (Baley e Gratel, 1995):
• O envelope inferor é definido como (Baley e Gratel, 1995):
{ } m...,1,i,(h)Lmax)Superior(h i ==
{ } m...,1,i,(h)Lmin)Inferior(h i ==
)(ˆ hL
Fonte: Este slide foi elaborado pela Divisão de Processamento de Imagem do INPE
Introdução à Estatística EspacialAnálise de Dados de Pontos – Função K
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ire
• Análise do gráfico com os envelopes Upper(h) e Lower(h).)(ˆ hL
1.0 1.0 --
0.5 0.5 --
1.5 1.5 --
0.0 0.0 --
--0.5 0.5 --
--1.0 1.0 --
--1.5 1.5 --
hh
Superior(Superior(hh))
Inferior(Inferior(hh))
)(ˆ hL )(ˆ hL
)(ˆ hL )(ˆ hL
aleataleatóóriorio
Introdução à Estatística EspacialAnálise de Dados de Pontos – Função K
Fonte: Este slide foi elaborado pela Divisão de Processamento de Imagem do INPE
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Área
Em várias situações práticas não dispomos da localização geográfica dos eventos (pontos). Nestes casos, os dados estão disponíveis de maneira aglomerada para uma certa unidade de área, como um bairro, distrito, setor censitário, município, etc.
Uma forma de visualizar esses dados é através de mapas coloridos, chamados MAPAS TEMÁTICOS. Esses dados, em geral, são contagem, como o número de óbitos, a quantidade de crimes ou o número de pessoas idosas por cada área. Além disso, é frequente trabalhos que envolvem dados resultantes de duas contagens, como por exemplo taxas de mortalidade, que tem o número de óbitos no numerador e número de pessoas expostas no denominador.
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Ex: Índice de Exclusão social dos bairros do município de São Paulo
Análise de Dados de Área
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Área
Esses mapas são muito úteis para uma análise exploratória. Contudo, podemos ir além. Quando observamos um mapa, podemos estar interessados em saber se sua configuração apresenta um padrão aleatório ou não. Podemos, ainda, querer saber se existe um padrão de espacial bem definido, por exemplo, mostrando agrupamento de áreas. Podemos, querer saber ainda um pouco mais, como por exemplo, na investigação do fator que causa este padrão espacial detectado.
Para abordar essas questões, é necessário usar técnicas analíticas.
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Área
ANÁLISE DE DADOS DE ÁREA:• Visualização de dados•Matrizes de proximidade espacial (vizinhança)•Média móvel•Correlação espacial
•Índice global de autocorrelação espacial•Análise gráfica para autocorrelação espacial•Índices locais de autocorrelação espacial
•Estimação de taxas com suavização espacial (Bayes empírico)•Estimação de intensidade (zonas quentes)•Conglomerados espaciais (Skater)
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Área: matriz de proximidade espacial (vizinhança)
Uma das ferramentas de análise exploratória de dados de área é a medição da auto-correlação espacial. Para isso, é importante definir previamente o critério de vizinhança.
Def: Dado um conjunto de n áreas (A1,..., An), construímos a matriz W(1)(nxn),
de vizinhança de primeira ordem, onde cada um dos elementos wijrepresenta uma medida de proximidade entre Ai e Aj. Dentre os vários critérios de vizinhança, listamos alguns a seguir:
1. wij=1 se o centróide de Ai está a certa distância de Aj. 0 em caso contrário;
2. wij=1 se Ai faz fronteira com Aj. 0 em caso contrário;3. Wij=lij/li, onde lij é o comprimento da fronteira entre Ai e Aj e li é o
perímetro de Ai.
OBS:Muitas vezes se utiliza a matriz de vizinhança normalizada, com os valores wij em números relativos somando 1 na linha.
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Exemplo de Matriz de Proximidade normalizada
Análise de Dados de Área: matriz de proximidade espacial (vizinhança)
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Área: Média móvel
Uma forma útil para analisar padrões espaciais é calcular as médias móveis do atributo z:
áreasn...,3,2,1,jonde,w
zwµ n
1jij
n
1jjij
i ==∑
∑
=
=
Este estimador fornece uma visão geral da tendência espacial.
OBS1: A fórmula acima é usada para o caso de usarmos a matriz de vizinhança não normalizada. Caso a matriz de vizinhança esteja normalizada, naturalmente a fórmula para a média móvel se reduz a:
áreasn...,3,2,1,jonde,zwµn
1jjiji == ∑
=
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Exemplo de Média Móvel
Análise de Dados de Área: Média móvel
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Área: Auto-correlação EspacialQuando analisamos dados de área, estamos trabalhando com somas,
agregados de eventos de uma certa região. Nesse sentido, algumasquestões surgem como inquietações: será que se uma área tem alto número de certo atributo, uma área vizinha à esta também terá valor alto para este atributo? Ou, ao contrário, numa área com alto valor para certo atributo, será que seus vizinhos terão valores baixos para este mesmo atributo?.
Para responder questões como estas, calculamos a correlação espacial. A correlação, em estatística, é uma medida que indica quanto uma variável (atributo) varia em função de um outro atributo. Essa correlação pode ser direta, inversa ou nula.
O coeficiente de correlação de Pearson é dado por:
( ) ( )
n
yy.
n
xx
n
)y(y)x(x
ssy)cov(x,r
n
1i
2i
n
1i
2i
in
1ii
yxyx,
∑∑
∑
==
=
−−
−−
==
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Área: Auto-correlação Espacial
A Auto-correlação espacial é a correlação de uma certa variável (atributo) znuma área i com os valores dessa mesma variável em áreas vizinhas. Daío prefixo AUTO.
( )∑
∑
=
≠
−
−−= n
1i
2i
jn
jiiij
zz
)z(z)z(zI
w
O Índice de Moran é um coeficiente muito útil para medir a correlação espacial. Ele mede a relação do desvio padronizado de uma variável Z numa área i com o desvio padronizado das áreas vizinhas para a mesma variável Z. Numa matriz de vizinhança normalizada o índice de Moran édado por:
Índice de Moran
0 ausência de correlação esp1 correlação esp direta
-1 correlação esp inversa
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Área: Auto-correlação Espacial
O Índice de Moran varia, da mesma forma que o coeficiente de correlação linear, de -1 a 1. Neste sentido, calculado o Índice, como saber se o valor encontrado é significativo ou não?
Uma opção é usar uma pseudo-significância usando uma distribuição através de permutação dos atributos ao longo das áreas.
Significância Estatística do Índice de Moran
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Exemplo de Pseudo-distribuição para o Índice de Moran
Análise de Dados de Área: Auto-correlação EspacialSignificância Estatística do Índice de Moran
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Área: Auto-correlação Espacial
Um outro coeficiente de correlação espacial utilizado é o Índice de Geary.
Este índice difere do teste I de Moran por utilizar a diferença entre os pares de áreas, enquanto no de Moran utiliza-se a diferença entre cada ponto e a média global.
Índice de Geary:
( )
∑ ∑∑
∑∑
= ==
= =−−
= n
1i
n
1i
2i
n
1jij
n
1i
n
1j
2jiij
zw
)z(zw1nC
Existem outros coeficientes de correlação espacial que podem ser usados.
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Área: Auto-correlação Espacial
Um gráfico muito útil para analisar o resultado de um coeficiente de correlação espacial, como o índice de Moran por exemplo, é o CORRELOGRAMA, que consiste num diagrama entre as distâncias utilizadas para a vizinhança e o respectivo Coeficiente de auto-correlação espacial para cada distância.
Análise gráfica: CORRELOGRAMA
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Área: Auto-correlação EspacialAnálise gráfica: CORRELOGRAMA
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Área: Auto-correlação Espacial
Outro gráfico muito útil na análise da auto-correlação espacial para dados de área é o VARIOGRAMA, que consiste na demonstração gráfica da relação entre as distâncias entre as áreas em estudo e a média dos desvios do atributo Z entre as áreas (dz).
Análise gráfica: VARIOGRAMA
( )∑∑= =
−=n
1i
n
1j
2jiijz zzwd Para matriz de vizinhança
normalizada
( )
∑∑
∑∑
= =
= =−
= n
1i
n
1jij
n
1i
n
1j
2jiij
zw
zzwd
Para matriz de vizinhança não normalizada
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Área: Auto-correlação EspacialAnálise gráfica: VARIOGRAMA
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Diagrama de Espalhamento de MoranAnálise de Dados de Área: Auto-correlação Espacial
Este gráfico é um diagrama de dispersão entre os valores padronizados dos atributos (variáveis) z e a média dos vizinhos (também padronizados).
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Diagrama de Espalhamento de MoranAnálise de Dados de Área: Auto-correlação Espacial
Exemplo para o Índice de exclusão/inclusão social dos bairros de São Paulo
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Área: Auto-correlação EspacialIndicadores Locais de Associação Espacial (LISA): Índice de MoranLocal
O Índice de Moran Global, visto anteriormente, fornece uma visão da estrutura espacial geral, que é útili para caracterizar a área como um todo. Contdo, quando se trabalha com grande número de áreas é possível encontrar diferentes regimes de associação espacial. Assim, para tornar possível estudar com mais detalhes esses padrões espaciais locais, é que existem os indicadores locais de associação espacial, como o Índice de MoranLocal.
( )∑
∑
=
== n
1j
2*1
n
1j
*jij
*i
iz
zwzI
onde:
z
i*i s
zzz −=
Desvio padrão de z
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Área: Auto-correlação EspacialIndicadores Locais de Associação Espacial (LISA): Índice de MoranLocal
Exemplo para o Índice de exclusão/inclusão social dos bairros de São Paulo
Pro
f. Fl
ávio
Hen
rique
M d
e A
Fre
ireIntrodução à Estatística Espacial
Análise de Dados de Área: Auto-correlação EspacialFunção G e G* para dados de área
São índices úteis para medir a auto-correlação local. Pela fórmula observa-se que estes índices, na verdade, significam uma proporção da soma dos valores do atributo z entre os vizinhos da área i e o total do somatório do atributo z em todas as áreas.
∑
∑
=
== n
1jj
n
1jiij
iz
zwG
Não considera a área i
∑
∑
=
== n
1jj
n
1jiij
*i
z
zwG
Considera a área i. Uma solução é a diagonal da matriz de vizinhança receber valor 1
OBS: Para wij de matriz de vizinhança não-normalizada