Upload
doanhuong
View
214
Download
0
Embed Size (px)
Citation preview
Biologia de Sistemas (Systems Biology)
• Entender a biologia ao nıvel dos seus sistemas
• Analisar nao apenas componentes individuais, mas tambem as suas interaccoes e ocomportamento emergente
• Aprender algo a partir da topologia das redes de interaccao
Introducao a Redes
• O que e uma rede (ou grafo) ?
? Um conjunto de nos ou vertices (V) e das suas ligacoes ou arestas (E)? As ligacoes descrevem uma relacao entre os nos
• Um grafo pode modelar uma multitude de sistemas naturais ou artificiais
Exemplo de Redes
• Redes Sociais
? Amigos no Facebook
? Coautoria e/ou citacoes de artigos, envio de e-mails, confianca (ex: epini-ons.com), ...
Exemplo de Redes
• Redes com existencia fısica
? Rede de energia electrica
? Ligacoes aereas, estradas, computadores (ethernet), ...
Exemplo de Redes
• Redes de software
? Rede de dependencias entre modulos
? Estado de um programa, fluxo de informacao, ...
Exemplo de Redes
• Muitas outras redes
? Rede semantica
? Hiperligacoes entre paginas, resultados desportivos, ...
Redes biologicas
• Claro que tambem existem... redes biologicas!
• Intra-celulares
? Rede Metabolica? Redes de Interaccao entre proteınas (PPI)? Rede de Transcricao (transcriptional regulation)? Rede de Estrutura de Proteınas? ...
• Outras redes
? Rede Neurologica de Ligacoes Sinapticas? Rede de Funcoes Cerebrais? Rede de Cadeia Alimentar? Rede Filogenetica? ...
Rede Metabolica
• Nos: Enzimas, Produtos quımicos
• Ligacoes: Reaccoes Quımicas
• Descricao: O sistema de reaccoes quımicas interligadas que produz componentescomo amino-acidos, acucares ou lıpidos.
Rede de Interaccao entre Proteınas (PPI)
• Nos: Proteınas
• Ligacoes: Interaccoes (binds)
• Descricao: As interaccoes entre diferentes proteınas regulam uma serie de processosbiologicos (tais como a replicacao de ADN)
Rede de Transcricao(transcriptional regulation)
• Nos: Genes
• Ligacoes: Interaccoes
• Descricao: Expressao de genes (como uns influenciam os outros)
Rede Cerebrais (funcionais e estruturais)
• Nos: Regioes do cerebro (neuronios)
• Ligacoes: Correlacao na actividade (ligacao sinaptica)
• Descricao: Medem a actividade do cerebro
Cadeias Alimentares
• Nos: Especies
• Ligacoes: Quem e alimento de quem (relacoes predador-presa)
• Descricao: Descrevem a cadeia alimenatar de um determinado ecossistema
Pedro Ribeiro
Ciência das Redes (“Network Science”)
Por detrás de muitos sistemas complexosestá uma rede que define as interacções
entre os componentes
Para compreender estes sistemasprecisamos de compreender as redes!
Pedro Ribeiro
Porquê agora?● A “Network Science” tem emergido como uma
nova área de estudo– Origens na teoria de grafos e estudos sociológicos
Imagem: Adaptado de (Barabasi, 2015)
Pedro Ribeiro
Porquê agora?● Dois importantes factores que contribuem:
1) O aparecimento dos dados
• 436 nós – 2003(emails, Adamic-Adar, redes sociais)
• 43,553 nós – 2006(emails, Kossinets-Watts, co-autorias)
4.4 milhões nós – 2005(amizades, Liben-Nowell, PNAS)
• 800 milhões nós – 2011(Facebook, Backstrom et al.)
O tamanho importa!
• Rede de actores: 1998• World Wide Web: 1999• Rede de citações: 1998• Rede metabólica: 2000• Rede de proteínas: 2001
Pedro Ribeiro
Porquê agora?● Dois importantes factores que contribuem:
Image: Adaptado de (Newman, 2005)
Ex: “power laws”
Image: Adaptado de (Leskovec, 2015)
2) Universalidade das características das redes
• A arquitectura e topologia das redes de diferentes domínios exibe mais semelhanças do que aquilo que seria de esperar
Pedro Ribeiro
Terminologia de Redes
● Objectos: nós, vértices N● Interacções: ligações, arestas E● Sistema: rede, grafo G(N,E)
Pedro Ribeiro
Terminologia de Redes
● co-authoria
● actores
● amizades no Facebook
Não dirigida Dirigida
● hiperligações na web
● chamadas de telefone
● estradas
Pedro Ribeiro
Terminologia de Redes
● Exemplos:
– Peso (duração da chamada, distância da estrada, ...)
– Ranking (melhor amigo, segundo melhor, …)
– Tipo (amigo, familiar, colega, ...) [arestas coloridas]
Atributos de uma ligação
Atributos de um nó
● Exemplos
– Peso (idade, peso, ...)
– Tipo (nacionalidade, …) [nós coloridos]
Pedro Ribeiro
Propriedades de um Nó● Das ligações imediatas
– Grau de saídaquantas ligações directas têm início no nó
– Grau de entradaQuantas ligações vão ter ao nó
– Grau (de saída ou entrada)Número de ligações de entrada ou saída
Grau saída = 3
Grau entrada = 2
Grau = 5
Pedro Ribeiro
Redes Reais● As redes reais são muito esparsas!
Rede Dir/NãoDir Nós Ligações Grau Médio
Internet Não Dirigida 192,244 609,066 6.33
Páginas Web Dirigida 325,729 1,479,134 4.60
Rede Eléctrica Não Dirigida 4,941 6,594 2.67
Chamadas Telemóvel Dirigida 36,595 91,826 2.51
Email Dirigida 57,194 103,731 1.81
Colaboração Ciência Não Dirigida 23,133 93,439 8.08
Rede Atores Não Dirigida 702,388 29,397,908 83.71
Rede Citaçoes Dirigida 449,673 4,689,479 10.43
Metabolismo E. Coli Dirigida 1,039 5,082 5.58
Interação Proteínas Não Dirigida 2,018 2,930 2.90
Tabela: Adaptada de (Barabasi, 2015)
Pedro Ribeiro
Propriedades de um Nó● Métricas relacionados com o grau:
– Sequência de grausuma sequência ordenada (in,out) do grau de cada nó
● In-degree sequence: [4, 2, 1 , 1, 0]● Out-degree sequence: [3, 2, 2, 1, 0]● Degree sequence: [4, 3, 3, 3, 3]
– Distribuição de Grauscontagem da frequência de cada grau[normalmente “desenhada” como probabilidade → normalização]
0 1 2 3 4
0
0.5
1
1.5
2
2.5
In-degree Distribution
0 1 2 3 40
0.51
1.52
2.5
Out-degree Distribution
0 1 2 3 40
1
2
3
4
5
Degree Distribution
Pedro Ribeiro
Propriedades de um Nó● A distribuição dos graus não conta “tudo”
sobre a topologia da redes:
Pedro Ribeiro
Caminhos● Um caminho entre dois nós é uma sequência de
nós adjacentes e das duas respectivas arestas de ligação
● A distância entre dois nós (numa rede não pesada) é o número de arestas no caminho mais curto entre elas
● Diâmetro: distância máxima entre dois nós
Exemplo:- Distância de A a D é 3- Distância de A a E é 4- Distância de E a F é 2
Exemplo: para o grafo de cima o diâmetro é 4
Pedro Ribeiro
Caminhos● Qual é a distância média entre dois nós numa
rede?– Ser esparso implica distâncias grandes?
Frigyes Karinthy 1929
“Se escolheres uma pessoa de qualquer um dos1.5 biliões de habitantes do planeta, aposto
que, usando não mais do que cinco indivíduos,um deles um conhecido meu, consigo contactar
a pessoa que escolheste usando apenas alista de conhecidos de cada um”
1969 Stanley Milgram
● Escolhidas pessoas à sorte num estado● Pedido para enviarem cartas até um certo destinatário noutro estado:
– Se a pessoa conhecer o destinatário, enviar directamente para ele
– Se não conhecer enviar para alguém que achem mais provável conhecer
2003 Projecto “Small World”
● Mais 20.000 cadeias de emails para 18 pessoas de 13 países.
Mediana estimada
entre 5 e 7
Pedro Ribeiro
Como explicar isto?● Imaginem que uma pessoa tem em média 100
amigos– 0 intermediários: 100
– 1 intermediário: 100^2 = 10.000
– 2 intermediários: 100^3 = 1.000.000
– 3 intermediários: 100^4 = 100.000.000
– 4 intermediários: 100^5 = 10.000.000.000
– 5 intermediários: 100^6 = 1.000.000.000.000
● Na prática nem todos os amigos são novos, mas mesmo assim cresce muito rapidamente
O poder daexponenciação
Pedro Ribeiro
Mais Exemplos do “Mundo Pequeno”● Os seis graus de Kevin Bacon
– Quantas ligações para ligarKevin Bacon a qualquer outroactor, produtor, realizador, …
– “Jogo” inicado em 1994
Pedro Ribeiro
Mais Exemplos do “Mundo Pequeno”● Os seis graus de Kevin Bacon
Número de Kevin Bacon # de pessoas
0 1
1 3150
2 373876
3 1340703
4 340756
5 28820
6 3383
7 451
8 52
9 8
10 1
(nº médio: 3.009)
Pedro Ribeiro
Mais Exemplos do “Mundo Pequeno”● Os seis graus de Kevin Bacon
https://oracleofbacon.org/
Pedro Ribeiro
Mais Exemplos do “Mundo Pequeno”● Número de Erdös
– Artigos científicos e um matemático
http://wwwp.oakland.edu/enp/
Pedro Ribeiro
Algumas possíveis tarefas● Deteção de Comunidades
– Que grupos de nós estão relacionados?
– Nós com muitas ligações
“internas” e poucas para “fora”
– Muitas variações e algoritmos● Girvan-Newman● Modularidade● …Ex Aplicação: qual o grupo de proteínas
responsável por um dado processo biológico ?
Pedro Ribeiro
Algumas possíveis tarefas● Classificação/Ordenação de Nós
– Centralidade: quão importante é um nó?● “Betwenness”: percentagem de caminhos mínimos a
que o nó pertence● “Closeness”: distância média a todos os outros nós
Ex Aplicação: quais são os seres vivosessenciais num ecossistma?
Pedro Ribeiro
Algumas possíveis tarefas● Classificação/Ordenação de Nós
| Degree | Closeness | Betweeness+++Highest | D | F,G | H | | | | F,G | D,H | F,Gto | A,B | A,B | I | C,E,H | C,E | D | I | I | A,BLowest | J | J | C,D,J+++
Pedro Ribeiro
PageRank: um olhar sobre o algoritmo
1) Ranking de cada nó começa em 1/N2) Repetir o seguinte K vezes:
- Cada nó divide o seu ranking igualmente pelas suas ligações (arestas de saída)
Detalhe
Pedro Ribeiro
PageRank: um olhar sobre o algoritmo
Detalhe
# A B C D E F G H
0 1/8 1/8 1/8 1/8 1/8 1/8 1/8 1/8
1 1/2 1/16 1/16 1/16 1/16 1/16 1/16 1/8
2 3/16 1/4 1/4 1/32 1/32 1/32 1/32 1/16
Pedro Ribeiro
Algumas possíveis tarefas● Como se propaga a informação?
Ex Aplicação: como se espalha uma doença?
Pedro Ribeiro
Algumas possíveis tarefas● Previsão de novas arestas
Ex Aplicação: prever desenvolvimento de doença
Pedro Ribeiro
O que eu faço?● Deteção de padrões de subgrafos
– Caracterização e comparação de redes
– Algoritmos eficientes (ex: aproximação, paralelismo)
Pedro Ribeiro
O que eu faço?● Deteção de comunidades
– Formatos diferentes
● Análise Temporal– Eventos?
● Ranking
de nós– Ex: ténis
Pedro Ribeiro - An Exploratory Journey Into Network Analysis
Why Visualization?
“The greatest value of a picture is when it forces to notice what we never expected to see”
Pedro Ribeiro - An Exploratory Journey Into Network Analysis
Exploratory Data Analysis● Visualization alone is not enough
– Part of a larger process to extract insight
● Data process chain
Images: Ben Fry, 2004
Non-linear
Trial and Error!
Pedro Ribeiro - An Exploratory Journey Into Network Analysis
Exploring a Network● 1) See the network
– Draw using a certain layout, ...
● 2) Interact in real time
– Group, filter, compute metrics, ...
● 3) Build a visual language
– Size of nodes, thickness of edges,colors, ...
Pedro Ribeiro - An Exploratory Journey Into Network Analysis
Exploring Graphs● Today we are going to use Gephi
– Open-Source Network Analysis and Visualization Platform (written in Java)
Pedro Ribeiro - An Exploratory Journey Into Network Analysis
Why Gephi?● Because it has a large community
● Because it has history and will continue to have
– Started at 1998
– Version 0.9 recently launched
– Maintained by a consortium (long-term vision)
● Because it is extensible with plugins
– Gephi marketplace
● Because I am familiar with it! :)
● There are other options:
– The main concepts and ideas we will showcan be used on any other visualization tool
Pedro Ribeiro - An Exploratory Journey Into Network Analysis
Datasets for Today
● Co-Authorships in Network Science– http://www-personal.umich.edu/~mejn/netdata/netscience.zip
– Compiled by Mark Newman in May 2006
– Available in gml (Graph Modeling Language)
– 1,589 scientists, 2,742 collaborations
● Flights Data
– http://openflights.org/data.html
– Compiled by Open Flights website
– 3,440 airports, 67,663 routes from 531 airlines
Pedro Ribeiro - An Exploratory Journey Into Network Analysis
What to do?
● Load graph– Opening a network vs importing data
● Filter– Main operators, selecting, ranges, combining
● Compute metrics– Centralities, degrees, distances, communities
● Draw using a layout– Force Directed, Geographical, Circular, (polishing the results)
● Ranking– Color or size of the nodes and edges according to a metric
● Partition– Coloring according to a partition