1

Click here to load reader

Descubra o tesouro escondido nos dados usando análise de ... · volumes de dados, o chamado Big Data. O principal objetivo dessas técnicas é prover insights e detectar padrões

Embed Size (px)

Citation preview

Page 1: Descubra o tesouro escondido nos dados usando análise de ... · volumes de dados, o chamado Big Data. O principal objetivo dessas técnicas é prover insights e detectar padrões

Ana Paula Appel e Marisa Affonso Vasconcelos são pesquisadoras da IBM Research Brasil na área de mineração de dados. O Mini Paper Series é uma publicação quinzenal do TLC-BR e para assinar e receber eletronicamente as futuras edições, envie um e-mail para [email protected].

Descubra o tesouro escondido nos dados usando análise de grafos Ana Paula Appel e Marisa Affonso Vasconcelos

Mini Paper Series Ano 12

Janeiro, 2017 – No 278

N os últimos anos, tem-se observado uma crescente demanda

por técnicas e ferramentas para a análise de grandes

volumes de dados, o chamado Big Data. O principal

objetivo dessas técnicas é prover insights e detectar padrões e

correlações presentes nesses dados que auxiliem em processos de

tomada de decisão, que podem ser desde tornar uma campanha de

marketing mais efetiva até detecção de perdas devido a fraudes.

Dentre as técnicas que vêm mais se destacando na área de análise

de dados é a análise de redes complexas que permite

a modelagem não só de entidades, mas também do relacionamento

entre seus vários tipos. Exemplos de relacionamentos entre

entidades são encontrados em links que conectam páginas na web,

entre clientes através de suas transações financeiras e podem

modelar até relacionamento entre pessoas em redes sociais. Todos

esses tipos de relacionamentos podem ser

modelados como redes complexas,

particularmente como arestas de um grafo

que ligam entidades ou nós, que podem

representar pessoas, processos,

equipamentos, documentos, entre outros.

A teoria dos grafos surgiu em 1736 com o

primeiro artigo de Leonhard Euler, quando

ele solucionou o problema das sete pontes

de Königsberg usando grafos. O problema

consistia em determinar se era possível

passear pela cidade usando uma única vez

cada uma das sete pontes e retornando ao

ponto de partida. Outro estudo essencial na área de grafos foi o

experimento feito por Stanley Milgram, em 1967, que demonstrou

que a sociedade que vivemos é um tipo de rede small world, na

qual são necessários no máximo seis conexões de amizade para

que duas pessoas quaisquer estejam ligadas.

Somente em 1998, os pesquisadores Steven Strogatz e Duncan

Watts puderam generalizar esse fenômeno, propondo um método

para a construção desse tipo de rede e o identificando como

pertencente à classe de grafos aleatórios. No ano seguinte, os

pesquisadores Albert-László Barabási e Réka Albert identificaram

as chamadas redes sem escala (scale-free), que capturam

propriedades de redes do mundo real, como as de

telecomunicações, as de proteínas, as sociais, dentre outras.

Essa descoberta mostrou que as redes do mundo real são, em geral,

compostas por muitos nós com poucas conexões (grau baixo) e

poucos nós com muitas conexões (grau alto). Além disso, essas

redes também possuem processos de crescimento especiais, na

qual um nó pode ganhar novas conexões ao longo do tempo, e de

ligações preferenciais, na qual quanto mais conectado é um nó

maior é a probabilidade de ele receber novas conexões.

Atualmente, grafos são muito utilizados para modelagem de

estruturas de dados, sejam eles estruturados ou não, para

descoberta de algum tipo de padrão implícito. Nesse cenário,

existem três grandes áreas: a modelagem de redes do mundo real

por meio de dados empíricos, a análise da evolução temporal de

um grafo e o entendimento da dinâmica de como a informação se

propaga nessas redes.

Uma das aplicações da mineração de grafos é a modelagem de

dados de seguro saúde, mais especificamente dados de reembolso

de consultas médicas. Nesse cenário, os nós do grafo representam

médicos e a presença de uma aresta entre dois nós representa que

esses médicos possuem pacientes em comum, ou seja, se um

determinado paciente se consultou tanto com o médico A quanto

com o médico B (Figura). Essa abordagem permite entender o

fluxo de pacientes entre os médicos e

identificar quais são os médicos que são

indicados por outros médicos. Ou ainda,

qual o médico que, se desligado do plano

de saúde, poderá causar um grande impacto

tanto para os pacientes quanto à rede de

médicos disponível.

Outro exemplo de aplicação é na área

financeira para detecção de fraudes. Cada

nó representa uma pessoa física ou jurídica,

e a presença de uma aresta indica se houve

alguma transação financeira entre eles.

Transações novas entres dois nós nunca

antes conectados, mas que estão longe quanto ao número de

arestas na rede, pode indicar uma transação ilegal, como roubo ou

clonagem de cartão de crédito. Padrões suspeitos no grafo de

transações como ciclos (fraud ring detection) ou conluio de

entidades e criação de novas arestas em intervalos curtos de tempo,

também são alertas de possíveis fraudes. Existem diversos

métodos e sistemas que apontam a presença desses padrões em

grafos a fim de alertar as instituições sobre possíveis fraudes.

Essas são apenas algumas das aplicações de análise de grafos.

Novas análises, identificações de entidades influentes e

relacionamentos implícitos trazem novas visões sobre os dados

que não eram possíveis antes com análises tradicionais.

Para saber mais

http://www.datapine.com/blog/business-intelligence-trends-2016/

https://arxiv.org/pdf/cond-mat/0303516v1.pdf

http://snap.stanford.edu/