Upload
internet
View
116
Download
0
Embed Size (px)
Citation preview
PROTEIN NETWORK BASED PREDICTION OF DOMAIN-
DOMAIN AND DOMAIN-PEPTIDE INTERACTIONS
Caio César Neves de Oliveira ccno
Mário Barbosa de Araújo Júnior mbaj
Motivação
Informações podem ser extraidas das redes de interação proteína-proteína
Falta detalhes dessas interações Esse conhecimento poderá ser uma
arma para o estudo de doenças e de produção de remédios
Interações da proteína
Interações domínio-domínioGerais
○ InteragemEspecíficas
○ Interagem ou não○ Dependem do contexto
Expressão dependende do cicloLocalização da célulaCaracterísticas específicas da sequência de
aminoácidos
Métodos para predizer interações
Métodos representativosAssociationMaximum Likelihood EstimationDomain Pair Exclusion AnalysisParsimonious ExplanationIntegrative approach
Association method
Detecta pares de domínios super-representados
Atribui Score de frequência para cada par Se Pi é observado freqüentemente no domínio i
na rede de interação e Pij é observado freqüentemente no par (i, j), temos o score
Score é 2 para completa interação (fusão), caso contrário é 0
Association method
Association method
Outra forma de calcular score É mais precisa por considerar mais fatores
N – número de arestas na rede de interação proteína-proteína#exk – número de experimentos distintos na rede que detecta interações da proteína k #ppairsk – número de contatos do potencial domínio na interação da proteína k#ppairskij - número de contatos do potencial domínio entre o par (i, j) na interação da proteína kPi – frequência do domínio i na rede de proteínas
Maximum Likelihood Estimaton (MLE) Para cada par de domínio, ele gera a
probabilidade de interação entre o domínio, Maximiza a probabilidade da rede de interação Permite levar em conta falso positivos e falso
negativo da informação Interações proteína-proteína e domínio-domínio
são tratadas como variáves aleatórias
Maximum Likelihood Estimaton (MLE)
Variáveis aleatóriasPAB
○ 1 – se A e B interagem○ 0 – caso contrário
Dij
○ 1 – se o domínio i e j interagem○ 0 – caso contrário
Assumindo que duas proteínas interagem sse pelo menos um dos potenciais pares de domínios interagem de fato
Maximum Likelihood Estimaton (MLE) Probabilidade de interação entre duas
proteínas A e B
λij = Pr(Dij = 1) – denota a probabilidade do domínio i interagir com jDij ϵ PAB - Conjunto de potencial domínio que entram em contato com o par de proteínas (A, B)
Maximum Likelihood Estimaton (MLE)
OAB descreve a observação do experimento de interação1 para interação observada0 para caso contrário
Denotandofp – false positivefn – false negative
Maximum Likelihood Estimaton (MLE) O objetivo do método MLE é estimar o
parâmetro λij para maximizar a função de probabilidade L, dada por
Maximum Likelihood Estimaton (MLE)
Num estudo feito por Deng e seus colegas eles estimaram que se fp = 2.5E-4 e fn = 0.80 os valores λij seria computado com a expectativa máxima, isso maximiza L. Em cada interação t, valores de λij^(t-1) é usado para computar Pr(OAB =1 | λ^(t-1))
Maximum Likelihood Estimaton (MLE)
E(Dij^(AB)) – probabilidade do domínio (i, j) executar a interação emtre (A, B)Nij – número de par de proteínas na rede que possui (i, j) como potencial par de domínios
Expectation Step:
Maximization Step:
Maximum Likelihood Estimaton (MLE)
Uma limitação do MLE é a dificudade em detectar interações de domínios específicosO algoritmo considera que existem muitos fn
Domain Pair Exclusion Analysis (DPEA) Este método utiliza MLE como subrotina Executa o MLE várias vezes Corrige o problema de domínios específicos de
MLE Bloqueia uma interação domínio-domínio por
vez e analiza o grau de redução da esperança E proteína-proteína
Supera o desempenho de Association e MLE
Domain Pair Exclusion Analysis (DPEA)
Parsimonious Explanation (PE)
Um problema de otimização de programação linear
Parsimonious Explanation (PE)
PW-ScoreFiltra predições (otimiza)São baseados nas seguites observações
○ Interações com muitas testemunhas são mais fáceis de estarem corretas do que as que possuem poucas
○ Interações domínio-domínio tem sua pontuação relacionada à frequência de ocorrências
Pw-score penaliza interações promíscuas e incentiva interações com muitas testemunhas
Método com excelentes resultados
Integrative approach
Abordagem diferenteInformações da interação da proteínaComposição do domínio da proteína
Método baseado nesses principiosIntegrative Bayesian (IB)
Integrative Bayesian (IB)
Espectativa de interação de pares de domínios são computado separadamenteLeveduraVermeMosca de fruta (drosófila)Humano
Scores obtidos utilizando MLEPr(Dij =1) como score
Integrative Bayesian (IB)
Os resultados obtidos pelas quatro redes são considerados quatro pedações independentes
Utiliza a base de dados Gene Ontology (GO) como base do algoritmoDesvantagem, pois dados novos sem estudos
prévious não podem ser utilizados nesse algoritmo
Nij – número de par de proteínas na rede que possui (i, j) como potenciais contatos domínios
Validação dos Métodos Sugeridos Pares de domínios não específicos versus
Pares de dominós específicos Testar para cada par de proteínas que
interagem o par de domínios que tem maior score e comparar com o iPFAM
Medida de performance: PPV = valor de predição positiva
Resultados
Métodos aplicados a 1780 proteínas que interagiram
Association MLE DPEA PE
PPV +- 11% +-11% 43% 75%
Guimarães e colegas
Descobrindo Rede Fosforilização
Motifs sozinhos são insuficientes para identificar as enzimas responsáveis pela fosforilização de locais correspondentes na célula
NetworKIN algoritmo para predição de redes de fosforilização
NetworKIN first stepExperimentalmente os locais de fosforilização são mapeados de acordo com a seqüência da proteína
Então é predito a família da proteína que provavelmente é responsável pela fosforilização naquele local
Rede Neural (PSSMs)
BLAST search
NetworKIN second step
Informações baseadas no contexto
STRING database
Schemes Scores são calibrados através do KEGG database
Resultando em todos probabilísticos scores para todas as evidencias
Associação com outros organismos através Bayesian Scoring Scheme e Floyd-Warshall enzima – substrato
80% do poder de predição vem da informação do contexto
Conclusão
Poucas pesquisas na área Muitos dados não analisado No caso de interações domínio-peptídeo
existe poucos bancos de dados para se fazer pesquisas
Referências
[1] Protein network based prediction of domain-domain and domain-peptide interactions, Katia Guimaraes and Tereza Przytycka.
Systematic discovery of new recognition peptides mediating protein interaction networks, Neduva and Linding
Duvidas?