Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
Avaliação de Algoritmos de ç gModelos de Distribuição de
Espécies para Predição de Risco de Eclosão de Mosquitos Aedes de Eclosão de Mosquitos Aedes
spp.spp.
Líliam César de Castro Medeiros
CCST CCST
Objetivo:
Avaliar o desempenho de l i d M d l dalgoritmos de Modelos de
Distribuição de Espécies,
para classificar altas densidades de criadouros de mosquitos Aedes em uma escala fina node mosquitos Aedes em uma escala fina no arquipélago das Bermudas
Identificar covariáveis ambientais que t ib lt lê i dcontribuem para a alta prevalência de
mosquitos nesta escala
O Arquipélago das Bermudas
Possui: Área < 54 km2Área < 54 kmClima subtropical
Invernos suavesVerões quentes e úmidos
Os Mosquitos Aedes
Por serem importantes vetores de arboviroses humanas, a determinação precisa de áreas que são propensas a
produzir altas densidades de mosquitosé crítica para o desenvolvimento de
t té i d iti ã t lestratégias de mitigação e controle
Os Mosquitos Aedes
Informações sobre presença e densidade de espécies
A amostragem por ovitrampas permite a captação de ovos a partir de pequenos criadouros e têm sido usados com frequência para monitorar populações de Aedes
Os dados de amostragem são usados como estimadores de presença decomo estimadores de presença, de atividade ou de tamanho de populaçõesnas vizinhanças das armadilhas
Fontes de Erros inibição da oviposição pela presença de componentes químicas na água
l ã d h bit tseleção de habitateventos de oviposição múltipla nas ovitrampas
Modelos de Distribuição de Espécies(SDMs – Especies Distribution Models)
Também conhecidos como environmental niche modelling,
(SDMs – Especies Distribution Models)
Também conhecidos como environmental niche modelling, ecological niche modelling, fundamental niche modelling, ou simplesmente niche modelling
Frequentemente utilizados para produzir mapas de predição de riscosproduzir mapas de predição de riscos em escalas grosseiras (continentais, nacionais, estaduais ou di t it i )distritais)
Figura:http://web.unbc.ca/~johnsoch/Dr_Chris_Johnson_UNBC_Res_Proj.htm
Slide de: Silvana Amaral, Cristina Bestetti Costa, Fábio Iwashita, Arimatéa Ximenes, Dalton M. Valeriano
Modelagem de Distribuição de Espécies
Podem usar dados de
presençapresença/ausência dados quantitativosdados quantitativos
Bermuda’s Islands, 2006-2007
Desafio para a aplicação de SDMs!!!
Variáveis bioclimáticas não podem ser usadasdevido à falta de variabilidade na regiãodevido à falta de variabilidade na região
Área < 54 km2
Pixels < 100m
Bermuda’s Islands, 2006-2007
Pontos positivos: a presença de um extensivo programa semanala presença de um extensivo programa semanal de monitoramento de ovitrampas
a quase exclusiva presença de uma única espécie de mosquitos nos criadouros,
d lbo Aedes albopictus, com ocasional presença de Aedes aegyptide Aedes aegypti
a disponibilidade dos registros de presençade mosquitos por 2 anos consecutivos, nos quais a populaçãoparece permanecer constante, o que permite que áreas de l ifi ã j d j t d d dclassificação sejam comparadas com o conjunto de dados
como uma medida de robustez dos algoritmos
Bermuda’s Islands, 2006-2007
Aplicados e avaliados 5 Modelos de Distribuição de Espéciesde Espécies
BioclimBioclimDomainGARPGARPMaxEntRegressão LogísticaRegressão Logística
BioClim
Modelo bioclimático que compara a atual distribuição de uma espécie com uma quantidade de variáveis climáticas,
d i d l (hi b ) d ãproduzindo um envelope (hipercubo) que descreve a atuação das variáveis climáticas na variação de uma espécieOs parâmetros do envelope climático podem ser usados para p p p pestimar mudanças potenciais na distribuição, subordinadas aos vários cenários de mudanças climáticas
Figura: Elith & Leathwick, 2009
Domain
Usa uma medida de similaridade calculada ponto-a-ponto para atribuir valores de classificaçãoatribuir valores de classificação para as localidades candidatas, com base no recorte mais similar do espaço ambientaldo espaço ambiental
A todas as localidades candidatasA todas as localidades candidatas são associados valores de similaridade, e thresholds ou intervalos de contorno, definidos ,pelo usuário, que determinam as áreas mapeadas
(Carpenter et al., 1993)
GARP - Genetic Algorithm for Rule-Set Prediction
Algoritmos genéticos:
Implementados como uma simulação de computador em queImplementados como uma simulação de computador em que uma população de representações abstratas de solução é selecionada em busca de soluções melhoresA evolução é realizada por meio de gerações e geralmente seA evolução é realizada por meio de gerações e geralmente se inicia a partir de um conjunto de soluções criado aleatoriamente
A cada geração, a adaptação de cada solução na população é avaliada, alguns indivíduos são selecionados para a próxima geração e recombinados oupróxima geração, e recombinados oumutados para formar uma nova populaçãoA nova população então é utilizada comoA nova população então é utilizada como entrada para a próxima iteração do algoritmo
GARP - Genetic Algorithm for Rule-Set Prediction
Um modelo GARP é um conjunto aleatório de regrasUm modelo GARP é um conjunto aleatório de regras matemáticas as quais podem ser lidas como condições ambientais limitantes
Cada regra é considerada como um gene
O conjunto de genes é combinado inicialmente de maneira aleatória para gerar muitos modelos possíveis para descrever o potencial de ocorrência das espécieso potencial de ocorrência das espécies
(Wikipédia; Stockwell & Peters, 1999)
MaxEnt
Na teoria da informação, a entropiarefere-se à incerteza de uma distribuiçãorefere se à incerteza de uma distribuição de probabilidade
Informalmente: quanto mais “espalhada” a distribuição deInformalmente: quanto mais espalhada a distribuição de probabilidade, maior incerteza ela irá refletir
medida de entropiamedida de entropia
Assim, maximizar a entropia significa determinar a distribuição com maior grau de similaridade entre suasdistribuição com maior grau de similaridade entre suas probabilidades, ou que seja mais parecida com a uniforme e diferindo dela apenas devido às restrições
(Mattos & Veiga, 2002; Kapur & Kesavan, 1992; Shannon, 1948)
MaxEnt: Problema de Otimização
Maximizar a entropia(dist. discretas)
Ocorrências das espécies
Regras associadas às variáveis ambientais
MaxEnt encontra a distribuição de probabilidade de máxima entropia que se ajusta com os dados de presença fornecidos,
(Mattos & Veiga, 2002; Shannon, 1948; Phillips et al., 2004, 2006)
entropia que se ajusta com os dados de presença fornecidos, com base nos dados ambientais
Regressão Logística
Análise da relação entre a probabilidade do sucesso da variável resposta e as variáveis explicativasp p
http://statmaster.sdu.dk/courses/st111
Objetivo:
Avaliar o desempenho de l i d M d l dalgoritmos de Modelos de
Distribuição de Espécies,
para classificar altas densidades de criadouros de mosquitos Aedes em uma escala fina node mosquitos Aedes em uma escala fina no arquipélago das Bermudas
Identificar covariáveis ambientais que t ib lt lê i dcontribuem para a alta prevalência de
mosquitos nesta escala
Seleção das Variáveis Ambientais
Com base na disponibilidade e expectativa dos fatores influenciadores na população de mosquitos:
distância para edificaçõesdistância para estradasd id d d l ã hdensidade da população humana
elevação acúmulo de águainclinação acesso da equipe de limpeza a locais íngremes
distância
t Aspectopara a costa Aspecto
Variáveis que Não Foram Selecionadas
Canopy densityCanopy density
EvapotranspiraçãoEvapotranspiração
Condições de mic o climaCondições de micro-clima
Ab dâ i d i i tAbundância de recipientes descartados
Dados de Ovos Aedes (2006-2007)
292 ovitrampas - semanaisValores de prevalência (frequência de ovitrampasValores de prevalência (frequência de ovitrampas positivas) mostraram-se estáveis e não foram encontradas diferenças sigificativas
Classificação de ovitrampas: positivas para altas densidades se apresentaram valores acima da média p
dados de presença = positivas p/ altas densidades de mosquitos f d t t d ≥ 6= os ovos foram detectados em ≥ 6 semanas
em cada ano
dados de ausência = negativas p/ altas densidades de mosquitos = caso contrário
Calibragem Validaçãoç
Conjuntos de treinamento com 75% das observações
Conjuntos de testes consistindo de 25% dos dadosdos dados
O processo foi realizado in DIVA-GIS Versão 5.2.0.2O processo foi realizado in DIVA GIS Versão 5.2.0.2
30 ti õ 30 subamostras de treinamento/testes30 repetições 30 subamostras de treinamento/testes para cada conjunto de dados
Padronização: saídas reescalonadas para 0-1, dividindo cada pixel pelo valor máximo dos pixels
Metodologia de Análise de Desempenho
Segundo a área abaixo da curva ROC (AUC), usando a ferramenta online JLABROC4 (WWW.jrocfit.org)( j g)A AUC pode variar de 0 a 1: completa discordância variando até perfeita concordância Diferenças entre valores de AUC obtidas de cada subamostra com cada algoritmo foram testadas pelo ANOVA Um subsequente procedimento de diferenças honestamenteUm subsequente procedimento de diferenças honestamente significantes Tukey-Kramer (HSD) foi utilizado para avaliar diferenças entre paresOs valores de AUC obtidos do conjunto de dados de 2007Os valores de AUC obtidos do conjunto de dados de 2007 falharam no teste de normalidade goodness-of-fit (Shapiro-Wilk test) e foram transformados (y ’ = -1/y) para encontrar
l d dnormalidade
perfeita concordância
Desempenho dos Modelos
AU
C
Bioclim Domain GARP LogReg MaxEnt
completa discordância
Bioclim Domain GARP LogReg MaxEnt
Desempenho dos Modelos
Desempenho dos Modelos
Usando ambos os conjuntos de dados completos, a qualidade de ajuste para cada dos 2 melhores modelos indica j pdesempenhos aceitáveis para cada conjunto de dados
Checagem de Robustez dos Algoritmos
Uma correlação espacial entre as predições de classificações para 2006 e 2007 para cada subamostra e cada algoritmo p p gfoi executada usando IDRISI (REGRESS Module)A estatística obtida falhou no teste qualidade de ajuste de normalidade (Shapiro-Wilk test) e nenhuma transformaçãonormalidade (Shapiro-Wilk test) e nenhuma transformação satisfatória de normalidade foi encontradaPara comparações aos pares, procedimentos bootstrap foram utilizados para produzirem 95% de intervalos de confiança após 10.000 réplicas usando S-plus Versão 8.0.4Intervalos de confiança não sobrepostos foram consideradosIntervalos de confiança não sobrepostos foram considerados estatisticamente diferentesA menos especificado o contrário, análises estatísticas foram executadas usando JMP Versão 7 0executadas usando JMP Versão 7.0
Robustez dos Modelos Alta robustez: consistente coma alta correlação espacial entrea alta correlação espacial entre o risco predito para os 2 anos
consecutivos
Importância das Variáveis R ã L í ti M E tpara Regressão Logística e MaxEnt
Importância das Variáveis R ã L í tipara Regressão Logística
20072006 2007
Importância das Variáveis para MaxEnt
Cálculos de contribuições das variáveis em MaxEnt são sensíveis a correlações entre variáveis
Se 2 variáveis são importantes, MaxEnt atribuirá uma grande
2007
p , gcontribuição para uma delas e uma baixa contribuição para a outra
2006 2007
Importância Individual de Cada Variável para MaxEnt
Interaçõescomcomoutras variáveis
Obtenção de Mapas de Classificação de RiRiscos
Foram utilizados os conjuntos de dados completos para ambos os anos e os valores de AUC como indicadores deambos os anos e os valores de AUC como indicadores de qualidade de ajuste para os 2 modelos que tiveram o desempenho melhor, de acordo com o critério AUC descrito
Foi comparado o desempenho global dos algoritmos baseados nos mapas de classificação de riscos e AUCsp ç
Avaliação dos Mapas de Risco para MaxEnt e Regressão Logísticapara MaxEnt e Regressão Logística
Regressão Logística MaxEnt
2006
2007
Concordância em algumas áreas de baixo risco: aeroporto, uma grande reserva natural e as ilhas pequenas. Essas áreas dividem características como proximidade à costa, pequena elevação, pequena inclinação, pequena população e pequena prevalência de características relacionadas aos humanos, como estradas e edificações
Regressão Logística MaxEnt
2006
2007
Obrigada pela paciência!!!Obrigada pela paciência!!!