Introdução à Estatística Espacial · espaço, de modo que é possível estimar o número esperado de eventos por unidade de área, os seja, estimar a intensidade. Estas estimativas

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre

ire

Introdução à Estatística Espacial

Prof. Flávio Henrique M de A Freire

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre

ireIntrodução à Estatística Espacial

O objeto:

• Sobre estatística espacial entende-se como a área da estatística que estuda os fenômenos ao longo do espaço.

• A estatística espacial tem aplicação nas mais diversas áreas:

• Epidemiologia

• Estudos de violência

• Agronomia

• Demografia

• Geologia

Objeto de estudo

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre

ireAlguns Exemplos

População residente na RM de Natal22

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre

ireAlguns Exemplos

Proporção de Imigrantes na RM de Natal

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre


• Eventos pontuais

Tipos de dados espaciais

Mortalidade por causas externas em Porto Alegre, 1996

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre


• Dados de áreas


Imigrantes na RMN.

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre


• Dados de Superfície


Teor de argila no solo.

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre


Dados espaciais x Dados não espaciais

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre


• Eventos pontuais. Exemplo

Mortalidade por causas externas em Porto Alegre, 1996

Análise de Dados de Pontos

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre

ire

• Latitude de um ponto: Distância em graus, minutos e segundos de arco, doEquador ao ponto; medida ao longo do meridiano do ponto. Varia de 0o a 90o (norte ou sul)

• Longitude de um ponto: Distância em graus, minutos e segundos de arco, do meridiano que passa pelo ponto ao meridiano de origem (por convenção, Greenwich). Varia 0o a 180o (leste e oeste)

Fonte: tutorial do Curso de Introdução ao Geoprocessamento - INPE



Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre



Nr Lat Long_ LatGMS LongGMS Data Hora Satelite Municipio Vegetacao Precip DiassemChuva1 -20,258 -47,703 S 20 15 30.00 O 47 42 12.00 20050801 002221 NOAA-14 Buritizal NaoFloresta 2,6 22 -20,590 -47,678 S 20 35 24.00 O 47 40 42.00 20050801 002221 NOAA-14 São José da Bela NaoFloresta 0 303 -20,933 -48,410 S 20 55 60.00 O 48 24 36.00 20050801 002221 NOAA-14 Bebedouro NaoFloresta 0 304 -20,935 -48,418 S 20 56 6.00 O 48 25 6.00 20050801 002221 NOAA-14 Bebedouro NaoFloresta 0 305 -21,405 -47,753 S 21 24 18.00 O 47 45 12.00 20050801 002221 NOAA-14 Cravinhos NaoFloresta 0 306 -21,407 -47,762 S 21 24 24.00 O 47 45 42.00 20050801 002221 NOAA-14 Cravinhos NaoFloresta 0 307 -21,408 -47,770 S 21 24 30.00 O 47 46 12.00 20050801 002221 NOAA-14 Cravinhos NaoFloresta 0 308 -21,498 -49,278 S 21 29 54.00 O 49 16 42.00 20050801 002221 NOAA-14 Novo Horizonte EstacionalSemide 0 309 -21,500 -49,287 S 21 30 0.00 O 49 17 12.00 20050801 002221 NOAA-14 Novo Horizonte EstacionalSemide 0 30

10 -21,933 -46,968 S 21 55 60.00 O 46 58 6.00 20050801 002221 NOAA-14 Vargem Grande do NaoFloresta 0 3011 -22,110 -48,648 S 22 6 36.00 O 48 38 54.00 20050801 002221 NOAA-14 Bariri EstacionalSemide 0 4012 -22,118 -48,637 S 22 7 6.00 O 48 38 12.00 20050801 002221 NOAA-14 Bocaina EstacionalSemide 0 4013 -22,120 -48,645 S 22 7 12.00 O 48 38 42.00 20050801 002221 NOAA-14 Bariri EstacionalSemide 0 4014 -22,122 -48,653 S 22 7 18.00 O 48 39 12.00 20050801 002221 NOAA-14 Bariri EstacionalSemide 0 4015 -22,425 -52,437 S 22 25 30.00 O 52 26 12.00 20050801 002221 NOAA-14 Teodoro Sampaio EstacionalSemide 0 3016 -22,427 -52,445 S 22 25 36.00 O 52 26 42.00 20050801 002221 NOAA-14 Teodoro Sampaio EstacionalSemide 0 3017 -22,437 -52,443 S 22 26 12.00 O 52 26 36.00 20050801 002221 NOAA-14 Teodoro Sampaio EstacionalSemide 0 3018 -22,438 -52,452 S 22 26 18.00 O 52 27 6.00 20050801 002221 NOAA-14 Teodoro Sampaio EstacionalSemide 0 3019 -22,448 -52,448 S 22 26 54.00 O 52 26 54.00 20050801 002221 NOAA-14 Teodoro Sampaio EstacionalSemide 0 3020 -22,448 -52,457 S 22 26 54.00 O 52 27 24.00 20050801 002221 NOAA-14 Teodoro Sampaio EstacionalSemide 0 3021 -22,495 -50,658 S 22 29 42.00 O 50 39 30.00 20050801 002221 NOAA-14 Paraguaçu Paulis NaoFloresta 0 3022 -22,497 -50,667 S 22 29 48.00 O 50 40 0.00 20050801 002221 NOAA-14 Paraguaçu Paulis NaoFloresta 0 3023 -22,498 -50,675 S 22 29 54.00 O 50 40 30.00 20050801 002221 NOAA-14 Paraguaçu Paulis NaoFloresta 0 3024 -22,507 -50,665 S 22 30 24.00 O 50 39 54.00 20050801 002221 NOAA-14 Paraguaçu Paulis NaoFloresta 0 3025 -22,712 -48,723 S 22 42 42.00 O 48 43 24.00 20050801 002221 NOAA-14 Lençóis Paulista NaoFloresta 0 30

Exemplo de formato base de dados pontuais

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre



• Eventos pontuais. Exemplo: Focos de Incêndio mapeados no Estado de São Paulo

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre


• Eventos pontuais. Exemplo: Homicídios ocorridos em 2002 na cidade de São Paulo


Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre


“Estatisticamente, processos pontuais são definidos como um conjunto de pontos irregularmente distribuídos no terreno cuja localização foi gerada por mecanismo estocástico.”


Numa análise de processos pontuais estamos interessados em dois efeitos:de primeira e segunda ordem.

Primeira ordem: Número esperado de eventos por unidade de área du, em torno do evento u – Chamado de intensidade.

Segunda ordem: podem ser denominados de efeito locais, ou de pequena escala, e medem a dependência espacial dos eventos entre unidades de área.

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre


Análise de Dados de Pontos – Estimação de IntensidadeQuando estudamos processos pontuais, temos os eventos distribuídos no espaço, de modo que é possível estimar o número esperado de eventos por unidade de área, os seja, estimar a intensidade. Estas estimativas são calculadas através de interpolações por diversos métodos.

Kriging Superfície de tendência

Modelos locais de regressão Estimador Kernel

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre


Análise de Dados de Pontos – Estimação de Intensidade

Uma análise exploratória de um processo pontual começa pela estimação da intensidade de ocorrências do processo em toda a região em estudo. Com isso, gera-se uma superfície cujo valor é proporcional à intensidade de eventos por unidade de área.

Estimador Kernel

O estimador Kernel é um interpolador, que possibilita a estimação da intensidade do evento em toda a área, mesmo nas regiões onde o processo não tenha gerado nenhuma ocorrência real.

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre



Estimador KernelPortanto, suponha que u1, u2,..., un são localizações de n eventos observados em uma região A e que u represente uma localização genérica cujo valor queremos estimar. O estimador de intensidade é calculado considerando os m eventos (u1, u2,..., um-1) contidos num raio de tamanho t em torno de u e da distância d entre a posição e a i-ésima amostra, a partir de funções cuja a forma geral é:

( ) ( ) ( ) τu;ud,τ

u;udKτ1uλ i

n

1i

i2τ ≤⎟

⎠⎞

⎜⎝⎛= ∑

=

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre


Análise de Dados de Pontos – Estimação de IntensidadeEstimador Kernel

O estimador Kernel depende de dois parâmetros, o raio de influência t, e a função K de estimação com propriedades de suavização do fenômeno.

O raio t: define a vizinhança do ponto a ser interpolado e controla o grau de alisamento da superfície.

A função K: existem várias funções de interpolação K, que diferem na maneira como atribui pesos para os pontos dentro do raio t, que serão usados para a estimação da intensidade na área ui.

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre



Estimador Kernel – Função de estimação K

Kernel Gaussiano ou normal: ( ) ⎟⎟⎠

⎞⎜⎜⎝

⎛−

=2

2

2τh

e2ππ1hk

Kernel Quártico: ( ) ( )22h1π3hk −=

Kernel Triangular: ( ) ( )h1hk −=

Kernel Exponencial Negativo: he2π1K(h) −=

Kernel Uniforme: 21K(h) =

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre



Estimador Kernel – Função de estimação K

Diferenças entre as funções de Kernel: A distribuição normal pesa os pontos dentro do círculo de forma que pontos mais próximos são pesados mais intensamente comparados aos mais afastados. A distribuição uniforme pesa todos os pontos dentro do círculo igualmente. A função quártica pesa pontos próximos mais do que pontos distantes, mas o decrescimento égradual. A função triangular pesa pontos próximos mais do que pontos distantes dentro do círculo, mas o decrescimento é mais rápido. A função exponencial negativa pesa pontos próximos muito mais intensamente do que pontos distantes.

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre



Exemplo: Suponha uma área com a seguinte distribuição de eventos pontuais.

zv

k

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre



Exercício 1: baseado no padrão de pontos do exemplo anterior vamos calcular a densidade (ou intensidade, ou número esperado de pontos) através do estimador de Kernel para as localizações v, z e k.

Use a função do Kernel quártico e raio igual a 3.

Para v, os cálculos e resultados são o seguinte:

( ) ( )22h1π3hk −=( ) ( ) ,

τu;udK

τ1uλ

n

1i

i2τ ∑

=⎟⎠⎞

⎜⎝⎛=

( ) ( ) ( )∑∑== ⎟

⎟⎠

⎞⎜⎜⎝

⎛⎟⎠⎞

⎜⎝⎛−=⎟

⎠⎞

⎜⎝⎛=

5

1i

22i

2

5

1i

i2τ τ

v;ud1π3

τ1

τv;udK

π3

τ1uλ

Lembre que:

Então:

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre



v1

2

3 4

5

Distâncias hipotéticas para o exercíciod(v;1)=0,5

d(v;2)=1

d(v;3)=1,5

d(v;4)=2

d(v;5)=1,8

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre



( ) ( )∑= ⎟

⎟⎠

⎞⎜⎜⎝

⎛⎟⎠⎞

⎜⎝⎛−=

5

1i

22i

2τ 3v;ud1

3,143

31uλ

Exercício:

( )⎥⎥

⎦

⎤

⎢⎢

⎣

⎡

⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎠⎞

⎜⎝⎛−+⎟

⎟⎠

⎞⎜⎜⎝

⎛⎟⎠⎞

⎜⎝⎛−+⎟

⎟⎠

⎞⎜⎜⎝

⎛⎟⎠⎞

⎜⎝⎛−+⎟

⎟⎠

⎞⎜⎜⎝

⎛⎟⎠⎞

⎜⎝⎛−+⎟

⎟⎠

⎞⎜⎜⎝

⎛⎟⎠⎞

⎜⎝⎛−=

2222222222

τ 31,81

321

31,51

311

30,51.106157,0uλ

( ) 320179,0)016081,3(.)106157,0(uλ τ ==

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre



z

5 1

23

4

6 7

8910

Distâncias hipotéticas para o exercíciod(z;1)=0,5

d(z;2)=0,8

d(z;3)=0,7

d(z;4)=0,5

d(z;5)=1,8

d(z;6)=0,6

d(z;7)=1,8

d(z;8)=2,7

d(z;9)=1,3

d(z;10)=2,5

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre



Distâncias hipotéticas para o exercíciod(k;1)=2,8

d(k;2)=2,7

d(k;3)=1,5

k

1 3

2

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre



Exercício 2: Refaça o exercício anterior usando o KernelTriangular.

Quais diferenças você encontrou? Porquê?

Exercício 3: Refaça o exercício 1, com Kernel Quártico, assumindo que o raio é 5.

Quais diferenças você encontrou? Porquê?

Exercício 4: De posse da base de dados que utilizamos do município de São Paulo do tutorial do terraview, faça um mapa de Kernel para o tema homicídios 2002. Teste várias funções kernelque o terraview oferece.

Exercício 5: Crie uma função no R para calcular o estimador de Kernel, usando o kernel quártico. Faça o mesmo para o kerneltriangular. Execute esta função com os dados deste nosso exemplo.

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre



O raio adaptável do TerraView:

O terraview tem a opção de adaptar o raio do círculo de vizinhança de modo que numa área com elevada concentração de pontos o raio é pequeno, mas nas áreas onde a concentração dos pontos émenor, então o raio será maior. O que o software faz é encontrar uma estimativa inicial da intensidade do processo. (u)λ~

Esta estimativa inicial é obtida com um raio fixo:

R0,68nτ 0,2-0 =

n é o no de eventos

R é a área da região

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre



Com isso, calcula-se a média geométrica das estimativas iniciais: )(uλ~ i

onde ui (i=1, 2, ...,n) são as localizações dos n eventos observados. Finalmente os raios adaptativos são da forma:

⎟⎟⎠

⎞⎜⎜⎝

⎛=

)(uλ~λ~

τ)τ(ui

g0i

É a média geométrica

Desta forma, a função de intensidade de Kernel com raio adaptativo do terraview fica da seguinte forma:

( ) ( ) ( )iin

1i ii

i2τ uτu),d(u,

)τ(uu;udK

)(uτ1uλ ≤⎟⎟

⎠

⎞⎜⎜⎝

⎛= ∑

=

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre


Análise de Dados de Pontos – Razão de Kernel

Em situações onde a população está distribuída no espaço de forma heterogênea, o mapa do estimador de densidade de Kernelde um determinado fenômeno, como uma doença por exemplo, pode não refletir da melhor forma a distribuição espacial do risco, podendo indicar de forma errônea as áreas de maior risco. Neste caso, recomenda-se estimar a densidade da população para o centróide de cada célula da grade regular, também através do estimador kernel, criando-se a superfície “de população em risco”que deve ser usada no denominador da equação:

populaçãop/aKernelporestimadaDensidadeeventosp/osKernelporestimadaDensidade

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre



Os dados de contingente populacional estão disponíveis como um dado de área, seja montante da população por município, setor censitário, distritos, entre outros. O estimador de Kernel utilizado para este dados de área, estima a intensidade do evento para o centróide da célula de interesse, usando como atributo de ponderação a população dos centróides das áreas (polígonos) dentro de um certo raio de distância do centróide da célula.

( ) ,Yτs-sK

τ1sλ i

n

1i

i2τ ∑

=⎟⎠⎞

⎜⎝⎛= onde

s – é o centro da célula a ser estimada;

si – local do ponto (coincide com o centróide das áreas (ex: munic) dentro do raio t;

Yi – contagem populacional da área i.

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre



Para o numerador da fórmula do estimador da Razão de Kernel, utiliza-se a estimativa de densidade (intensidade) do evento para cada centróide (s) de célula da grade onde foi realizada a estimativa de população

( ) ,τs-sK

τ1sλ

n

1i

i2τ ∑

=⎟⎠⎞

⎜⎝⎛= onde

s – é o centro da célula a ser estimada;

si – local do ponto i dentro do raio t

Obs: Neste caso, da estimação ser feita para o centróide da célula de uma grade regular, podemos entender o estimador de intensidade de Kernel como a probabilidade de encontrar um evento nesta área (da célula), ponderada pela distância dos eventos observados.

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre



Ilustração: Estimação para a população (denominador)

s

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre



Ilustração: Estimação para os eventos (numerador)

s s1

s2s3s4

s5

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre


Análise de Dados de Pontos – Vizinho mais Próximo

• O método do vizinho mais próximo estima a função de distribuição cumulativa (G(h)) baseado nas distâncias entre eventos em umaregião de análise.

• Pode ser estimado empiricamente por:

onde:– h distância de entrada

– hi distância mínima entre eventos

– n número de eventos

• A plotagem dos resultados de em relação as distâncias, pode ser utilizado como um método exploratório para verificar se existe evidênciade interação entre os eventos.

( )n

hh#(h)G i ≤=

)(ˆ hG

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre



0

1

0

1

0h

Análise exploratória de padrões de distribuição de pontos

)(ˆ hG

)(ˆ hG

h

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre



Exemplo com TerraView e R

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre




-35.28 -35.24 -35.20

-5.8

5-5

.80

-5.7

5

pcagua.natal$Long

pcag

ua.n

atal

$Lat

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre




-35.28 -35.24 -35.20-5

.85

-5.8

0-5

.75

pcagua.natal$Long

pcag

ua.n

atal

$Lat

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre



x1 x2

y2

y1

-35.28 -35.24 -35.20

-5.8

5-5

.80

-5.7

5

pcagua.natal$Long

pcag

ua.n

atal

$Lat


( ) ( )2212

2121 ),( yyxxeeD −+−=

Distância do evento 1 ao evento 2

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre



Exemplo com TerraView e R – Os dados: Poços de água da CAERN em Natal

Sul - Rota ANº ENDEREÇO SISTEMA LATITUDE LONGITUDE

1 E. E. Nestor Lima, R. São José, Lagoa Nova 05.81180° 035.21214°2 E. E. Joaquim Torres, R. dos Potiguares, Lagoa Nova 05.82172° 035.22600°3 E. E. Regulo Tinoco, R. Lima e Silva, Lagoa Nova 05.82381° 035.21390°4 Cemitério Nova Descoberta – Rua da Saudade – Nova Descoberta R – 5(LN I)+ R – 3

(JIQUI + DUNAS) 05.82218º 035.20239º5 Clínica Santa Maria – Rua Américo Soares Vanderlei – Capim

MacioSIST. PIRANGI

05.86031º 035.20436º6 Escola Estadual Castro Alves – Av. Xavier da Silveira – Nova

DescobertaR – 5(LN II)+ R – 3 (JIQUI + DUNAS) 05.82467º 035.19746º

7 Escola Estadual Maia Neto – Rua Paraná – Neópolis SIST. NOVO CAMPO 05.85801º 035.20740º8 Escola Estadual Ferreira Itajubá – Rua Roraima – Neópolis SIST. NOVO CAMPO 05.85510º 035.21043º9 Escola Municipal Carlos Belo Moreno – Rua Rio dos Índios – Jiqui SIST. NOVO CAMPO

05.86340º 035.20709º10 Escola Estadual Berilo Wanderley – Rua Governador Valadares -

JIquiSIST. PIRANGI

05.86924º 035.20645º11 Escola Municipal Josefa Botelho – Rua Manoel Congo – Ponta

NegraSIST. PONTA NEGRA

05.89072º 035.16948º12 Escritório CAERN – Rua Praia da Penha – Ponta Negra SIST. PONTA NEGRA 05.87841º 035.18252º13 E. E. João Fernandes Machado, R. Praia de Muriú, Ponta Negra SIST. PONTA NEGRA 05.87266° 035.18955°14 E. E. Antônio Pinto de Medeiros, Satélite SIST. SATÉLITE 05.85595° 035.24034°15

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre



vizprox.fct = function(mat,h){# mat deve ser uma matriz com n linhas e 2 colunas (long e lat de cada um dos n pon# h é um vetor com as distâncias de entrada para as quais se quer calc G(h)

d=as.matrix(dist(mat))n=dim(mat)[1]G=matrix(0,n,length(h))for (j in 1:length(h)){

for (i in 1:n){dtemp=(d[i,])[-i]viz=min(dtemp)

if (viz<=h[j]) {G[i,j]=1}}

}viz.total=apply(G,2,sum)G.h=viz.total/n

result=list(“G(h)”=G.h)result}


Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre

ire

A significância do resultado da análise exploratória, do padrão de distribuição de pontos, utilizando o método vizinho mais próximo pode seravaliada através de um modelo teórico denominado Aleatoriedade Espacial Completa ( “Complete Spatial Randomness - CSR” ).

Na realidade o que se faz é comparar a distribuição dos eventos observadoscom o que se esperaria na hipótese CSR.

Esta metodologia consiste em se criar envelopes de simulação para a distribuição CSR, afim de verificar a significância dos desvios.

Na hipótese de CSR, a função de distribuição G(h) seria dada por um processo de Poisson, como segue (Bailey e Gatrell, 1995):



0he1G(h)2λπh ≥−= −

Teste de Significância

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre


Análise de Dados de Pontos – Vizinho mais PróximoTeste de Significância

, i =1, 2, ..., m são funções de distribuição empíricas, estimadas apartir de m simulações independentes dos n eventos, na hipóteseCSR (n eventos independentes e uniformemente distribuídos).

A estimação simulada para a distribuição G(w) assumindo-se CSR écalculada como (Bailey e Gatrell, 1995):

onde:m

hGhG

m

ii∑

== 1)(ˆ

)(

)(ˆ hGi

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre



Para calcular a condição de aleatoriedade, calcula-se os envelopes de simulação superior e inferior, definidos como segue (Bailey e Gatrell, 1995):

Envelope superior

Envelope inferior

{ } mihGmaxhU i ...,,1,)(ˆ)( ==

{ } mihGminhL i ...,,1,)(ˆ)( ==

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre



Outra opção é calcular o envelope de 95% de confiança:

Envelope superior - é dado pelo percentil 97,5 das funções Gi(h) simuladas.

Envelope inferior - é dado pelo percentil 2,5 das funções Gi(h) simuladas.

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre



A plotagem x , com adição dos envelopes, permite medir a significância dos desvios relativo a aleatoriedade.

)(hG )(hG)(ˆ hG )(ˆ hG

)(ˆ hG )(ˆ hG

)(hG )(hG

Se a condição de CSR for válida para os dados observados, a plotagem

x deve ser praticamente linear com um ângulo de 45o)(ˆ hG )(ˆ hG )(hG )(hG

Envelope Inferior

Envelope Superior

Estimado

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre



Se o dado apresenta tendências para agrupamento, os traçados no gráfico estarão acima da linha de 45o.

)(ˆ hG )(ˆ hG

)(hG )(hG

Por outro lado, se o dado apresenta padrões de regularidade os traçados ficarão abaixo da linha de 45o.

)(ˆ hG )(ˆ hG

)(hG )(hG

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre


Análise de Dados de Pontos – Vizinho mais PróximoTeste de SignificânciaSimulação Independente dos n eventos – no R

> x=runif(dim(pcagua.natal)[1],min(pcagua.natal$Long),max(pcagua.natal$Long))

> y=runif(dim(pcagua.natal)[1],min(pcagua.natal$Lat),max(pcagua.natal$Lat))

-35.28 -35.24 -35.20

-5.8

5-5

.80

-5.7

5

x

y

Esta foi só uma simulação. Gere m simulações para cada distância h.

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre



Exercício:

1. Importe os dados de poços d’água da CAERN no município de Natal para oterraview, assim como a malha digital dos bairros de Natal.

2. Faça uma análise exploratória destes pontos, usando o mapa de Kernel3. Calcule a distribuição acumulada G(h) do vizinho mais próximo e faça um

gráfico dela contra as distâncias. Analise4. Construa os envelopes de confiança e faça um gráfico da distribuição

acumulada estimada contra a simulada. Analise os resultados (para issoserá preciso construir uma função no R).

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre


Análise de Dados de Pontos – Função K

O método do Vizinho mais próximo fornece uma primeira visão da distribuição espacial dos pontos. Contudo, este método peca por considerar apenas distâncias pequenas. A função K é uma alternativa ao método do vizinho mais próximo, pois é mais sensível à distâncias maiores.

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre

ire

• λK(h) = E [#(eventos a distância h de um evento arbitrário)]

λ = no eventos/A

A = área

A

λ denominado de intensidadeou

Lembrando que:# eventos = 7

# eventos = 3

h

h



Fonte: Este slide foi elaborado pela Divisão de Processamento de Imagem do INPE

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre

ire

• Necessitamos agora, definir um estimador para a função k

• λK(h) = E [#(eventos a distância h de um evento arbitrário)]

• λK(h) = , onde: dij é a distância entre os eventos i e j.Ih(dij)= 1 se dij <=h, 0 se dij > h.λA = n = # eventos em A.

• Resultando

• O estimador de lambda , então:

∑∑= =

=n

1i

n

1jijh2 )(dI

Aλ1(h)K

∑∑= =

n

1i

n

1jijh )(dI

λA1

Anλ= ∑∑

= ==

n

1i

n

1jijh2 )(dI

nA(h)K




Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre

ire

• Uma idéia gráfica do que está embutido na notação do estimador da função K

∑∑= =

=n

1i

n

1jijh2 )(dI

nA(h)K

A

h=5

h=5

h=5# eventos=7

# eventos=7

# eventos=3


Introdução à Estatística EspacialAnálise de Dados de Pontos – Função K

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre


Análise de Dados de Pontos – Função KA Função K, portanto, com a correção do efeito de borda, pode ser estimada

a partir de:

( )∑ ∑= ≠

=n

1i

n

jj,i ij

ijh2 w

dI

nAK(h)

Onde: A é a área da região; n é o no de eventos observados; Ih(dij) é uma função indicadora igual a 1 quando (dij)<=h e 0 em caso contrário; e wij é a proporção da circunferência do círculo centrado no evento i que está dentro da região.

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre

ire

• Para um processo aleatório o # esperado de eventos a uma distância hde UM evento escolhido aleatoriamente é:

Processo aleatório hh

hh

h

h Área=

Tipo de Processo K(h)

Randômico = πh2

Ordenação regular < πh2

Agregação espacial > πh2



2λπhλK(h) =

2πh

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre

ire

• Uma vez obtido, este pode ser plotado e examinado.

• O gráfico da função K não é tão intuitivo quanto a do gráfico do vizinho mais próximo. Portanto utiliza-se uma função auxiliar L, para facilitar ainterpretação.

• O estimador da função L é:

(h)K

hhKhL −=π

)(ˆ)(ˆ

Tipo de Processo L(h) K(h)

Randômico = 0 = πh2

Ordenação regular < 0 < πh2

Agregação espacial > 0 > πh2



Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre

ire

• Interpretação da plotagem de hπ(h)K(h)L −=

)(ˆ hL )(ˆ hL

h

0

• extremos negativos: mais regularidade

• extremos positivos: mais agrupamento

• em torno de zero aleatório



Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre

ire

• Uma abordagem similar a do vizinho mais próximo pode ser feita para seestimar a significância dos desvios da distribuição em relação a aleato-riedade (CSR).

• Idéia realizar simulações CSR sobre a região R e computar os envelopessuperior e inferior.

• O envelope superior é definido como (Baley e Gratel, 1995):

• O envelope inferor é definido como (Baley e Gratel, 1995):

{ } m...,1,i,(h)Lmax)Superior(h i ==

{ } m...,1,i,(h)Lmin)Inferior(h i ==

)(ˆ hL



Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre

ire

• Análise do gráfico com os envelopes Upper(h) e Lower(h).)(ˆ hL

1.0 1.0 --

0.5 0.5 --

1.5 1.5 --

0.0 0.0 --

--0.5 0.5 --

--1.0 1.0 --

--1.5 1.5 --

hh

Superior(Superior(hh))

Inferior(Inferior(hh))

)(ˆ hL )(ˆ hL

)(ˆ hL )(ˆ hL

aleataleatóóriorio



Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre


Análise de Dados de Área

Em várias situações práticas não dispomos da localização geográfica dos eventos (pontos). Nestes casos, os dados estão disponíveis de maneira aglomerada para uma certa unidade de área, como um bairro, distrito, setor censitário, município, etc.

Uma forma de visualizar esses dados é através de mapas coloridos, chamados MAPAS TEMÁTICOS. Esses dados, em geral, são contagem, como o número de óbitos, a quantidade de crimes ou o número de pessoas idosas por cada área. Além disso, é frequente trabalhos que envolvem dados resultantes de duas contagens, como por exemplo taxas de mortalidade, que tem o número de óbitos no numerador e número de pessoas expostas no denominador.

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre


Ex: Índice de Exclusão social dos bairros do município de São Paulo


Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre



Esses mapas são muito úteis para uma análise exploratória. Contudo, podemos ir além. Quando observamos um mapa, podemos estar interessados em saber se sua configuração apresenta um padrão aleatório ou não. Podemos, ainda, querer saber se existe um padrão de espacial bem definido, por exemplo, mostrando agrupamento de áreas. Podemos, querer saber ainda um pouco mais, como por exemplo, na investigação do fator que causa este padrão espacial detectado.

Para abordar essas questões, é necessário usar técnicas analíticas.

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre



ANÁLISE DE DADOS DE ÁREA:• Visualização de dados•Matrizes de proximidade espacial (vizinhança)•Média móvel•Correlação espacial

•Índice global de autocorrelação espacial•Análise gráfica para autocorrelação espacial•Índices locais de autocorrelação espacial

•Estimação de taxas com suavização espacial (Bayes empírico)•Estimação de intensidade (zonas quentes)•Conglomerados espaciais (Skater)

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre


Análise de Dados de Área: matriz de proximidade espacial (vizinhança)

Uma das ferramentas de análise exploratória de dados de área é a medição da auto-correlação espacial. Para isso, é importante definir previamente o critério de vizinhança.

Def: Dado um conjunto de n áreas (A1,..., An), construímos a matriz W(1)(nxn),

de vizinhança de primeira ordem, onde cada um dos elementos wijrepresenta uma medida de proximidade entre Ai e Aj. Dentre os vários critérios de vizinhança, listamos alguns a seguir:

1. wij=1 se o centróide de Ai está a certa distância de Aj. 0 em caso contrário;

2. wij=1 se Ai faz fronteira com Aj. 0 em caso contrário;3. Wij=lij/li, onde lij é o comprimento da fronteira entre Ai e Aj e li é o

perímetro de Ai.

OBS:Muitas vezes se utiliza a matriz de vizinhança normalizada, com os valores wij em números relativos somando 1 na linha.

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre


Exemplo de Matriz de Proximidade normalizada

Análise de Dados de Área: matriz de proximidade espacial (vizinhança)

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre


Análise de Dados de Área: Média móvel

Uma forma útil para analisar padrões espaciais é calcular as médias móveis do atributo z:

áreasn...,3,2,1,jonde,w

zwµ n

1jij

n

1jjij

i ==∑

∑

=

=

Este estimador fornece uma visão geral da tendência espacial.

OBS1: A fórmula acima é usada para o caso de usarmos a matriz de vizinhança não normalizada. Caso a matriz de vizinhança esteja normalizada, naturalmente a fórmula para a média móvel se reduz a:

áreasn...,3,2,1,jonde,zwµn

1jjiji == ∑

=

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre


Exemplo de Média Móvel

Análise de Dados de Área: Média móvel

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre


Análise de Dados de Área: Auto-correlação EspacialQuando analisamos dados de área, estamos trabalhando com somas,

agregados de eventos de uma certa região. Nesse sentido, algumasquestões surgem como inquietações: será que se uma área tem alto número de certo atributo, uma área vizinha à esta também terá valor alto para este atributo? Ou, ao contrário, numa área com alto valor para certo atributo, será que seus vizinhos terão valores baixos para este mesmo atributo?.

Para responder questões como estas, calculamos a correlação espacial. A correlação, em estatística, é uma medida que indica quanto uma variável (atributo) varia em função de um outro atributo. Essa correlação pode ser direta, inversa ou nula.

O coeficiente de correlação de Pearson é dado por:

( ) ( )

n

yy.

n

xx

n

)y(y)x(x

ssy)cov(x,r

n

1i

2i

n

1i

2i

in

1ii

yxyx,

∑∑

∑

==

=

−−

−−

==

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre


Análise de Dados de Área: Auto-correlação Espacial

A Auto-correlação espacial é a correlação de uma certa variável (atributo) znuma área i com os valores dessa mesma variável em áreas vizinhas. Daío prefixo AUTO.

( )∑

∑

=

≠

−

−−= n

1i

2i

jn

jiiij

zz

)z(z)z(zI

w

O Índice de Moran é um coeficiente muito útil para medir a correlação espacial. Ele mede a relação do desvio padronizado de uma variável Z numa área i com o desvio padronizado das áreas vizinhas para a mesma variável Z. Numa matriz de vizinhança normalizada o índice de Moran édado por:

Índice de Moran

0 ausência de correlação esp1 correlação esp direta

-1 correlação esp inversa

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre



O Índice de Moran varia, da mesma forma que o coeficiente de correlação linear, de -1 a 1. Neste sentido, calculado o Índice, como saber se o valor encontrado é significativo ou não?

Uma opção é usar uma pseudo-significância usando uma distribuição através de permutação dos atributos ao longo das áreas.

Significância Estatística do Índice de Moran

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre


Exemplo de Pseudo-distribuição para o Índice de Moran

Análise de Dados de Área: Auto-correlação EspacialSignificância Estatística do Índice de Moran

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre



Um outro coeficiente de correlação espacial utilizado é o Índice de Geary.

Este índice difere do teste I de Moran por utilizar a diferença entre os pares de áreas, enquanto no de Moran utiliza-se a diferença entre cada ponto e a média global.

Índice de Geary:

( )

∑ ∑∑

∑∑

= ==

= =−−

= n

1i

n

1i

2i

n

1jij

n

1i

n

1j

2jiij

zw

)z(zw1nC

Existem outros coeficientes de correlação espacial que podem ser usados.

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre



Um gráfico muito útil para analisar o resultado de um coeficiente de correlação espacial, como o índice de Moran por exemplo, é o CORRELOGRAMA, que consiste num diagrama entre as distâncias utilizadas para a vizinhança e o respectivo Coeficiente de auto-correlação espacial para cada distância.

Análise gráfica: CORRELOGRAMA

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre


Análise de Dados de Área: Auto-correlação EspacialAnálise gráfica: CORRELOGRAMA

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre



Outro gráfico muito útil na análise da auto-correlação espacial para dados de área é o VARIOGRAMA, que consiste na demonstração gráfica da relação entre as distâncias entre as áreas em estudo e a média dos desvios do atributo Z entre as áreas (dz).

Análise gráfica: VARIOGRAMA

( )∑∑= =

−=n

1i

n

1j

2jiijz zzwd Para matriz de vizinhança

normalizada

( )

∑∑

∑∑

= =

= =−

= n

1i

n

1jij

n

1i

n

1j

2jiij

zw

zzwd

Para matriz de vizinhança não normalizada

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre


Análise de Dados de Área: Auto-correlação EspacialAnálise gráfica: VARIOGRAMA

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre


Diagrama de Espalhamento de MoranAnálise de Dados de Área: Auto-correlação Espacial

Este gráfico é um diagrama de dispersão entre os valores padronizados dos atributos (variáveis) z e a média dos vizinhos (também padronizados).

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre


Diagrama de Espalhamento de MoranAnálise de Dados de Área: Auto-correlação Espacial

Exemplo para o Índice de exclusão/inclusão social dos bairros de São Paulo

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre


Análise de Dados de Área: Auto-correlação EspacialIndicadores Locais de Associação Espacial (LISA): Índice de MoranLocal

O Índice de Moran Global, visto anteriormente, fornece uma visão da estrutura espacial geral, que é útili para caracterizar a área como um todo. Contdo, quando se trabalha com grande número de áreas é possível encontrar diferentes regimes de associação espacial. Assim, para tornar possível estudar com mais detalhes esses padrões espaciais locais, é que existem os indicadores locais de associação espacial, como o Índice de MoranLocal.

( )∑

∑

=

== n

1j

2*1

n

1j

*jij

*i

iz

zwzI

onde:

z

i*i s

zzz −=

Desvio padrão de z

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre


Análise de Dados de Área: Auto-correlação EspacialIndicadores Locais de Associação Espacial (LISA): Índice de MoranLocal

Exemplo para o Índice de exclusão/inclusão social dos bairros de São Paulo

Pro

f. Fl

ávio

Hen

rique

M d

e A

Fre


Análise de Dados de Área: Auto-correlação EspacialFunção G e G* para dados de área

São índices úteis para medir a auto-correlação local. Pela fórmula observa-se que estes índices, na verdade, significam uma proporção da soma dos valores do atributo z entre os vizinhos da área i e o total do somatório do atributo z em todas as áreas.

∑

∑

=

== n

1jj

n

1jiij

iz

zwG

Não considera a área i

∑

∑

=

== n

1jj

n

1jiij

*i

z

zwG

Considera a área i. Uma solução é a diagonal da matriz de vizinhança receber valor 1

OBS: Para wij de matriz de vizinhança não-normalizada

Documents

Introdução à Estatística Espacial · espaço, de modo que é possível estimar o número esperado de eventos por unidade de área, os seja, estimar a intensidade. Estas estimativas