Click here to load reader
Upload
danglien
View
212
Download
0
Embed Size (px)
Citation preview
Ana Paula Appel e Marisa Affonso Vasconcelos são pesquisadoras da IBM Research Brasil na área de mineração de dados. O Mini Paper Series é uma publicação quinzenal do TLC-BR e para assinar e receber eletronicamente as futuras edições, envie um e-mail para [email protected].
Descubra o tesouro escondido nos dados usando análise de grafos Ana Paula Appel e Marisa Affonso Vasconcelos
Mini Paper Series Ano 12
Janeiro, 2017 – No 278
N os últimos anos, tem-se observado uma crescente demanda
por técnicas e ferramentas para a análise de grandes
volumes de dados, o chamado Big Data. O principal
objetivo dessas técnicas é prover insights e detectar padrões e
correlações presentes nesses dados que auxiliem em processos de
tomada de decisão, que podem ser desde tornar uma campanha de
marketing mais efetiva até detecção de perdas devido a fraudes.
Dentre as técnicas que vêm mais se destacando na área de análise
de dados é a análise de redes complexas que permite
a modelagem não só de entidades, mas também do relacionamento
entre seus vários tipos. Exemplos de relacionamentos entre
entidades são encontrados em links que conectam páginas na web,
entre clientes através de suas transações financeiras e podem
modelar até relacionamento entre pessoas em redes sociais. Todos
esses tipos de relacionamentos podem ser
modelados como redes complexas,
particularmente como arestas de um grafo
que ligam entidades ou nós, que podem
representar pessoas, processos,
equipamentos, documentos, entre outros.
A teoria dos grafos surgiu em 1736 com o
primeiro artigo de Leonhard Euler, quando
ele solucionou o problema das sete pontes
de Königsberg usando grafos. O problema
consistia em determinar se era possível
passear pela cidade usando uma única vez
cada uma das sete pontes e retornando ao
ponto de partida. Outro estudo essencial na área de grafos foi o
experimento feito por Stanley Milgram, em 1967, que demonstrou
que a sociedade que vivemos é um tipo de rede small world, na
qual são necessários no máximo seis conexões de amizade para
que duas pessoas quaisquer estejam ligadas.
Somente em 1998, os pesquisadores Steven Strogatz e Duncan
Watts puderam generalizar esse fenômeno, propondo um método
para a construção desse tipo de rede e o identificando como
pertencente à classe de grafos aleatórios. No ano seguinte, os
pesquisadores Albert-László Barabási e Réka Albert identificaram
as chamadas redes sem escala (scale-free), que capturam
propriedades de redes do mundo real, como as de
telecomunicações, as de proteínas, as sociais, dentre outras.
Essa descoberta mostrou que as redes do mundo real são, em geral,
compostas por muitos nós com poucas conexões (grau baixo) e
poucos nós com muitas conexões (grau alto). Além disso, essas
redes também possuem processos de crescimento especiais, na
qual um nó pode ganhar novas conexões ao longo do tempo, e de
ligações preferenciais, na qual quanto mais conectado é um nó
maior é a probabilidade de ele receber novas conexões.
Atualmente, grafos são muito utilizados para modelagem de
estruturas de dados, sejam eles estruturados ou não, para
descoberta de algum tipo de padrão implícito. Nesse cenário,
existem três grandes áreas: a modelagem de redes do mundo real
por meio de dados empíricos, a análise da evolução temporal de
um grafo e o entendimento da dinâmica de como a informação se
propaga nessas redes.
Uma das aplicações da mineração de grafos é a modelagem de
dados de seguro saúde, mais especificamente dados de reembolso
de consultas médicas. Nesse cenário, os nós do grafo representam
médicos e a presença de uma aresta entre dois nós representa que
esses médicos possuem pacientes em comum, ou seja, se um
determinado paciente se consultou tanto com o médico A quanto
com o médico B (Figura). Essa abordagem permite entender o
fluxo de pacientes entre os médicos e
identificar quais são os médicos que são
indicados por outros médicos. Ou ainda,
qual o médico que, se desligado do plano
de saúde, poderá causar um grande impacto
tanto para os pacientes quanto à rede de
médicos disponível.
Outro exemplo de aplicação é na área
financeira para detecção de fraudes. Cada
nó representa uma pessoa física ou jurídica,
e a presença de uma aresta indica se houve
alguma transação financeira entre eles.
Transações novas entres dois nós nunca
antes conectados, mas que estão longe quanto ao número de
arestas na rede, pode indicar uma transação ilegal, como roubo ou
clonagem de cartão de crédito. Padrões suspeitos no grafo de
transações como ciclos (fraud ring detection) ou conluio de
entidades e criação de novas arestas em intervalos curtos de tempo,
também são alertas de possíveis fraudes. Existem diversos
métodos e sistemas que apontam a presença desses padrões em
grafos a fim de alertar as instituições sobre possíveis fraudes.
Essas são apenas algumas das aplicações de análise de grafos.
Novas análises, identificações de entidades influentes e
relacionamentos implícitos trazem novas visões sobre os dados
que não eram possíveis antes com análises tradicionais.
Para saber mais
http://www.datapine.com/blog/business-intelligence-trends-2016/
https://arxiv.org/pdf/cond-mat/0303516v1.pdf
http://snap.stanford.edu/