4
Jorge Gorricha¹, Victor Lobo² [email protected] [email protected] ¹ Marinha ² Escola Naval, Marinha Introdução Clustering com o SelfOrganizing Map (SOM) 2D A visualização do SOM 3 D Aplicação prática do SOM 3D Dados Procedimentos adoptados Discussão dos resultados Conclusões A análise de determinados fenómenos requer uma perspectiva geoespacial (como por exemplo, alguns estudos relacionados com a saúde: mortalidade, incidência de determinadas doenças, etc) Pesquisa de padrões e de eventuais relações espaciais existentes, sem hipóteses definidas a priori A visualização como abordagem de Clustering e descoberta de conhecimento Redes neuronais de treino não supervisionado como ferramentas de visualização de dados georreferenciados (SOM 2D por motivos de facilidade de visualização) O SOM 2D é uma projecção não linear dos dados para uma superfície bidimensional (opera uma redução de dimensionalidade existindo por este motivo forte probabilidade de alguns dos clusters ficarem indiferenciados) Neste trabalho é apresentada uma abordagem de Clustering em dados georreferenciados com recurso ao SOM 3D O Self-Organizing Map: Rede neuronal de aprendizagem não supervisionada Conjunto de iterações que aproximam os nós da rede das observações (ou padrões de treino), mantendo a topologia regular da rede No fim, cada observação é representada, ou mapeada para um dos nós da rede (Best Match Unit) Opera simultaneamente um processo de projecção vectorial e quantização vectorial – especialmente adequado para tarefas de clustering via visualização Para a generalidade dos dados, a utilização do SOM em tarefas de clustering via visualização é efectuada com base em projecções bidimensionais operadas a partir da utilização combinada do SOM 2D (Umatrix) Para dados georreferenciados, uma das alternativas consiste em atribuir cores diferenciadas às diversas unidades da rede segundo um determinado critério (no caso, a semelhança), colorindo de seguida o mapa geográfico em conformidade com o espaço de output da rede

NOVA Information Management School - Introdução Clustering … · 2009-11-18 · anising Maps: applications in geographic information science. Chichester, England, John Wiley &

  • Upload
    others

  • View
    9

  • Download
    0

Embed Size (px)

Citation preview

Page 1: NOVA Information Management School - Introdução Clustering … · 2009-11-18 · anising Maps: applications in geographic information science. Chichester, England, John Wiley &

Jorge Gorricha¹, Victor Lobo²[email protected] [email protected]¹ Marinha² Escola Naval, Marinha

IntroduçãoClustering com o Self‐Organizing Map (SOM) 2D A visualização do SOM 3 DAplicação prática do SOM 3DDadosProcedimentos adoptadosDiscussão dos resultados

Conclusões

A análise de determinados fenómenos requer uma perspectiva geo‐espacial (como por exemplo, alguns estudos relacionados com a saúde:  mortalidade, incidência de determinadas doenças, etc)

Pesquisa de padrões e de eventuais relações espaciais existentes, sem hipóteses definidas a priori

A visualização como abordagem de Clustering e descoberta de conhecimento

Redes neuronais de treino não supervisionado como ferramentas de visualização de dados georreferenciados (SOM 2D por motivos de facilidade de visualização) 

O SOM 2D é uma projecção não linear dos dados para uma superfície bidimensional (opera uma redução de dimensionalidade existindo por este motivo forte probabilidade de alguns dos clusters ficarem indiferenciados)

Neste trabalho é apresentada uma abordagem de Clusteringem dados georreferenciados com recurso ao SOM 3D

O Self-Organizing Map:

Rede neuronal de aprendizagem não supervisionada

Conjunto de iterações que aproximam os nós da rede das observações (ou padrões de treino), mantendo a topologia regular da rede

No fim, cada observação é representada, ou mapeada para um dos nós da rede (Best Match Unit)

Opera simultaneamente um processo de projecção vectorial e quantização vectorial – especialmente adequado para tarefas de clustering via visualização

Para a generalidade dos dados, a utilização do SOM em tarefas de clustering via visualização é efectuada com base em projecções bidimensionais operadas a partir da utilização combinada do SOM 2D (U‐matrix)

Para dados georreferenciados, uma das alternativas consiste em atribuir cores diferenciadas às diversas unidades da rede segundo um determinado critério (no caso, a semelhança), colorindo de seguida o mapa geográfico em conformidade com o espaço de output da rede

Page 2: NOVA Information Management School - Introdução Clustering … · 2009-11-18 · anising Maps: applications in geographic information science. Chichester, England, John Wiley &

Exemplo de Clustering em dados georreferenciados utilizando um SOM 2D com nove unidades (3 x 3) treinado sobreum quadro de dados referente às principais causas de morte na Europa

A cor serve simultaneamente de legenda para identificar a BMU de cada elemento georreferenciado e também para análise numa perspectiva geo‐espacialFonte dos dados: EUROSTAT

Projecção das unidades da rede, isto é, do espaço de output do SOM 3D, num espaço tridimensional definido por três eixos ortogonais onde se associam as três cores primárias RGB

A cor atribuída a cada unidade da rede é resultante da normalização do tipo min‐max das coordenadas das unidades da rede para valores dentro do intervalo do espectro considerado (valores RGB)

Por fim, cada elemento geográfico  será representado cartograficamente com a cor atribuída à unidade da rede que o representa (BMU)

Quadro de dados artificiais composto por 225 zonas  no oceano georreferenciadas. Cada zona é representada por cinco dimensões que correspondem ao valor pescado de cada espécie no oceano.

Desenhado para ter 8 áreas distintas e homogéneas

Inclui quatro zonas de distorção espacial

Para o efeito foram considerados SOM’s com 64 unidades, com topologia rectangular, definidos da seguinte forma:SOM 3D (4 x 4 x 4)SOM 2D: (8 x 8)

Qualidade dos modelosPara poder comparar os dois métodos, foram avaliados 100 modelos de cada um dos SOM’s, tendo a opção de escolha recaído sobre os dois modelos de cada topologia com menor erro de quantização

Como se pode constatar, a análise do mapa apenas permite identificar, com rigor, um máximo de seis zonas homogéneas, de um total de oito zonas existentes e, três das quatro zonas de distorção incluídas no quadro de dados

A zona (4,12) não está evidenciada apesar de apresentar características diferentes das zonas mais próximas

Page 3: NOVA Information Management School - Introdução Clustering … · 2009-11-18 · anising Maps: applications in geographic information science. Chichester, England, John Wiley &

U‐matrix:Uma visualização do SOM 2Dque permite identificar os oito clusters existentes nos dados

Não será no entanto, porventura, uma abordagem ideal sob uma perspectiva geo‐espacial

Não permite identificar as zonas de distorção 

U‐matrix de SOM 2D com 64 unidades

Todas as zonas estão  identificadas

Existem zonas com elevado grau de indeterminação

As zona  de distorção espacial estão correctamente evidenciadas

Abordagem adaptada à visualização de zonas semelhantes numa perspectiva geo‐espacial

A inclusão de uma nova dimensão na análise permite explorar zonas do espaço que com apenas duas dimensões ficam ocultas

Mesmo com a inclusão de uma nova dimensão na análise existem zonas cuja visualização apresenta elevado grau de indeterminação

Como trabalho futuro espera‐se introduzir elementos na visualização capazes de discriminar as zonas que apresentam um elevado grau de indeterminação, mesmo com a utilização do espaço de output do SOM 3D

BAÇÃO, F., LOBO, V. & PAINHO, M. (2004) Clustering census data: comparing the performance of Self-Organising Maps and K-means algorithms. KDNet Symposium: Knowledge - Based Services for the Public Sector. Bonn, German.

BAÇÃO, F., LOBO, V. & PAINHO, M. (2005) The self-organizing map, the Geo-SOM, and relevant variants for geosciences. Computers & Geosciences, 31, 155-163.

BAÇÃO, F., LOBO, V. & PAINHO, M. (2008) Applications of Different Self-Organizing Map Variants to Geographical Information Science Problems. IN SKUPIN, A. & AGARWAL, P. (Eds.) Self-Organising Maps: applications in geographic information science. Chichester, England, John Wiley & Sons.

CARD, S. K., MACKINLAY, J. D. & SHNEIDERMAN, B. (Eds.) (1999) Readings in Information Visualization: Using Vision to Think, San Francisco, Morgan Kaufmann Publishers.

FAYYAD, U. & STOLORZ, P. (1997) Data mining and KDD: Promise and challenges. Future Generation Computer Systems, 13, 99-115.

FLEXER, A. (2001) On the use of self-organizing maps for clustering and visualization. Intelligent Data Analysis, 5, 373-384.

KIVILUOTO, K. (1996) Topology preservation in self-organizing maps. Proceedings of IEEE International Conference on Neural Networks.

KOHONEN, T. (1990) The self-organizing map. Proceedings of the IEEE 78, 1464 -1480.

KOHONEN, T. (1998) The self-organizing map. Neurocomputing, 21 1-6.

KOHONEN, T. (2001) Self-organizing Maps, New York, Springer.

Page 4: NOVA Information Management School - Introdução Clustering … · 2009-11-18 · anising Maps: applications in geographic information science. Chichester, England, John Wiley &

KOUA, E. L. (2003) Using self-organizing maps for information visualization and knowledge discovery in complex geospatial datasets. 21st International Cartographic Renaissance (ICC). Durban, International Cartographic Association.

MILLER, H. J. & HAN, J. (2001) Overview of geographic data mining and knowledge discovery. IN MILLER, H. J. & HAN, J. (Eds.) Geographic Data Mining and Knowledge Discovery. London, Taylor & Francis.

OPENSHAW, S. (1995) Developing Automated and Smart Spatial Pattern Exploration Tools for Geographical Information Systems Applications. The Statistician, 44, 3-16.

SKUPIN, A. & AGARWAL, P. (2008) What is a Self-organizing Map? IN AGARWAL, P. & SKUPIN, A. (Eds.) Self-Organising Maps: applications in geographic information science. Chichester, England, John Wiley & Sons.

ULTSCH, A. (2003) Maps for the Visualization of high-dimensional Data Spaces. Proceedings Workshop on Self-Organizing Maps. Kyushu, Japan.

ULTSCH, A. & SIEMON, H. P. (1990a) Kohonen's self organizing feature maps for exploratory data analysis. Proceedings of International Neural Network Conference (INNC'90). Paris, Kluwer.

ULTSCH, A. & SIEMON, H. P. (1990b) Kohonen's self organizing feature maps for exploratory data analysis. Proceedings of International Neural Network Conference. Paris, Kluwer Academic Press.

VESANTO, J. (1999) SOM−Based Data Visualization Methods. Intelligent Data Analysis, 3, 111-126.

VESANTO, J., HIMBERG, J., ALHONIEMI, E. & PARHANKANGAS, J. (2000) SOM Toolbox for Matlab 5. Espoo, Finland, Helsinki Universitu of Techology.