39
1 Bioinformatika: iz Bioinformatika: iz statisti statisti čke čke perspektive perspektive Bojan Basrak Bojan Basrak PMF-Matematički odjel PMF-Matematički odjel Sveučilište u Zagrebu Sveučilište u Zagrebu

Bioinformatika: iz statisti čke perspektive

  • Upload
    chyna

  • View
    72

  • Download
    1

Embed Size (px)

DESCRIPTION

Bioinformatika: iz statisti čke perspektive. Bojan Basrak PMF-Matematički odjel Sveučilište u Zagrebu. Bioinformatika. Nezgrapna kovanica, nastala 1979. označava znanost koja se bavi primjenom računalnih i statističkih metoda u molekularnoj biologiji Stručnjaci raznih područja sudjeluju u - PowerPoint PPT Presentation

Citation preview

Page 1: Bioinformatika: iz statisti čke perspektive

1

Bioinformatika: iz Bioinformatika: iz statististatističke perspektivečke perspektive

Bioinformatika: iz Bioinformatika: iz statististatističke perspektivečke perspektive

Bojan BasrakBojan Basrak

PMF-Matematički odjelPMF-Matematički odjel

Sveučilište u ZagrebuSveučilište u Zagrebu

Page 2: Bioinformatika: iz statisti čke perspektive

2

BioinformatikaBioinformatikaBioinformatikaBioinformatika

• Nezgrapna kovanica, nastala 1979. označava Nezgrapna kovanica, nastala 1979. označava znanost koja se bavi znanost koja se bavi primjenom računalnih i primjenom računalnih i statističkih metoda u molekularnoj biologijistatističkih metoda u molekularnoj biologiji

• Stručnjaci raznih područja sudjeluju u Stručnjaci raznih područja sudjeluju u – izradi baza podataka (npr. human genome

project)– njihovoj analizi, odn. statističkoj i računalnoj

obradi

• Karakteristike: ogromne količine podataka, Karakteristike: ogromne količine podataka, ali i sve veći broj metoda, procedura za ali i sve veći broj metoda, procedura za njihovu obradu njihovu obradu

Page 3: Bioinformatika: iz statisti čke perspektive

3

Osnovne temeOsnovne temeOsnovne temeOsnovne teme

• Sequence analysisSequence analysis• Gene findingGene finding• Computational evolutionary biologyComputational evolutionary biology• Analysis of gene expressionAnalysis of gene expression• Analysis of regulationAnalysis of regulation• Prediction of protein structurePrediction of protein structure• Modeling Modeling of of biological systemsbiological systems

itd.itd.

Page 4: Bioinformatika: iz statisti čke perspektive

4

Osnove molekularne Osnove molekularne biologijebiologije

Osnove molekularne Osnove molekularne biologijebiologije

Živi organizmiSredišnja dogma mol. biologije

Biološki nizovi:

DNA - nizovi u alfabetu od 4 slova: A,C,G,T RNA - nizovi u alfabetu od 4 slova: A,C,G,U proteini - nizovi u alfabetu od 20 slova -

aminokiselina ARNDCEQGHILKMFPSTWYV

Page 5: Bioinformatika: iz statisti čke perspektive

5

TranskripcijaTranskripcijaTranskripcijaTranskripcija

Page 6: Bioinformatika: iz statisti čke perspektive

6

Evolucija nizovaEvolucija nizovaEvolucija nizovaEvolucija nizova

…ACGGTGCAGTTACCA…

…AC----CAGTCACCGTGTAA…

Mutation(mutacija)

Deletion (brisanje)

REARRANGEMENTSInversion

TranslocationDuplication

Insertion(ubacivanje)

Page 7: Bioinformatika: iz statisti čke perspektive

7

No, mi vidimo samo…No, mi vidimo samo…No, mi vidimo samo…No, mi vidimo samo…

nnekoliko više ili manje sličnih nizova, npr.ekoliko više ili manje sličnih nizova, npr.

GCGCATGGATTGAGCGAGCGCATGGATTGAGCGA

TGCGCCATTGATGACCATGCGCCATTGATGACCA

kkoji mogu (a ne moraju) dijeliti zajedničku oji mogu (a ne moraju) dijeliti zajedničku evolucijuevoluciju (a ne moraju biti ni iste (a ne moraju biti ni iste duljine)duljine). .

Page 8: Bioinformatika: iz statisti čke perspektive

8

Poravnanje (aPoravnanje (alignmentlignment))Poravnanje (aPoravnanje (alignmentlignment))

-GCGC-ATGGATTGAGCGA-GCGC-ATGGATTGAGCGA

TGCGCCATTGAT-GACC-ATGCGCCATTGAT-GACC-A

Tri skupine poravnatih slova:Tri skupine poravnatih slova:• pperfect matcheserfect matches• mmismatchesismatches• iinsertions / deletions (nsertions / deletions (indelindel))

Page 9: Bioinformatika: iz statisti čke perspektive

9

Poravnanje zapravo nizovePoravnanje zapravo nizovew: …ACGGTGCAGTTACCA…w’:…ACCAGTCACCGTGTAA…

v: …ACGGTGCAGTTACC-----A…v’: …AC----CAGTCACCGTGTAA…

preslika u dulje nizove s jednim dodatnim preslika u dulje nizove s jednim dodatnim znakom: “znakom: “--””

Formalna definicija je jasna (iako Formalna definicija je jasna (iako nezgrapna).nezgrapna).

Postavlja se pitanje odabira najboljeg Postavlja se pitanje odabira najboljeg alignmenta.alignmenta.

Za to nam je potrebna funkcija skora Za to nam je potrebna funkcija skora - - score functionscore function - na alfabetu proširenim - na alfabetu proširenim znakom “znakom “--”.”.

Page 10: Bioinformatika: iz statisti čke perspektive

10

Score functionScore functionScore functionScore function

Page 11: Bioinformatika: iz statisti čke perspektive

11

Bliskost nizovaBliskost nizova (kvaliteta poravnanja) (kvaliteta poravnanja) ukazuje na:ukazuje na:

• (djelomičnu) (djelomičnu) zajedničku evolucijuzajedničku evoluciju kod kod DNA nizovaDNA nizova

• zajedničku evoluciju ili što je zanimljivije zajedničku evoluciju ili što je zanimljivije istu funkcijuistu funkciju kod proteinskih nizova kod proteinskih nizova

Slično, jako sačuvani podnizovi (s malo Slično, jako sačuvani podnizovi (s malo mutacija) impliciraju mutacija) impliciraju

• funkcionalno značajnefunkcionalno značajne pozicije pozicije

Page 12: Bioinformatika: iz statisti čke perspektive

12

Vjerojatnosni model za Vjerojatnosni model za nizovenizove

Vjerojatnosni model za Vjerojatnosni model za nizovenizove

• Najjednostavnije je pretpostaviti da su Najjednostavnije je pretpostaviti da su generirani kao neki njd niz iz danog generirani kao neki njd niz iz danog alfabeta, npr.alfabeta, npr.

• Mada se ponekad koriste i složeniji Mada se ponekad koriste i složeniji modeli koju uključuju zavisnostmodeli koju uključuju zavisnost

Page 13: Bioinformatika: iz statisti čke perspektive

13

Vjerojatnosni modeli za Vjerojatnosni modeli za evolucijuevoluciju

Vjerojatnosni modeli za Vjerojatnosni modeli za evolucijuevoluciju

Važno je znati i koliko su vjerojatne pojedine mutacije Važno je znati i koliko su vjerojatne pojedine mutacije (nukleotida ili aminokiselina)(nukleotida ili aminokiselina)

a prirodno je pretpostaviti da vrijedi za stacionarne a prirodno je pretpostaviti da vrijedi za stacionarne vjerojatnosti vjerojatnosti qqyy

• Tipično se modelira Markovljevim procesima, zadanim Tipično se modelira Markovljevim procesima, zadanim matricama intenziteta.matricama intenziteta.

Page 14: Bioinformatika: iz statisti čke perspektive

14

Globalno poravnanjeGlobalno poravnanjeGlobalno poravnanjeGlobalno poravnanje

w1

wn

w1 ‘ wm

gdje maksimum tražimo po svimporavnanjima v,v’ originalnihnizova w,w’

Page 15: Bioinformatika: iz statisti čke perspektive

15

Iz Kingmanovog subaditivnog ergodskog teorema Iz Kingmanovog subaditivnog ergodskog teorema poznato je (Chvatal-Sankoff,1975), ako oba niza poznato je (Chvatal-Sankoff,1975), ako oba niza imaju duljinu imaju duljinu nn koja konvergira u beskonačno koja konvergira u beskonačno

• Konstanta Konstanta ninije poznata, čak je poznata, čak nni za binarne njd i za binarne njd nizove i najjednostavniju funkciju nizove i najjednostavniju funkciju s. s. Poznato jePoznato je tek tek

(longest common subsequence problem)(longest common subsequence problem)

Page 16: Bioinformatika: iz statisti čke perspektive

16

Lokalno poravnanjeLokalno poravnanjeLokalno poravnanjeLokalno poravnanje

w1

wn

w1 ‘ wm

gdje maksimum tražimo po svim podnizovima jednake duljine od originalnih nizova w,w’, koji završavaju na mjestu i,j

Page 17: Bioinformatika: iz statisti čke perspektive

17

Lokalno poravnanjeLokalno poravnanjeLokalno poravnanjeLokalno poravnanje

• Povezano s Erdos-Renyievim problemomPovezano s Erdos-Renyievim problemom• Chen-Steinovom metodom može se Chen-Steinovom metodom može se

pokazati da vrijedi aproksimativni zakon pokazati da vrijedi aproksimativni zakon razdiobe za optimalno lokalno poravnanjerazdiobe za optimalno lokalno poravnanje

• Uočite da je testna statistika zapravo Uočite da je testna statistika zapravo maksimum od nmaksimum od n x x nn lokalnih poravnanja, a lokalnih poravnanja, a teoretski rezultat vodi računa o tome da teoretski rezultat vodi računa o tome da smo zapravo izveli nsmo zapravo izveli n x x n testova i korigira n testova i korigira za za višestruko testiranjevišestruko testiranje

Page 18: Bioinformatika: iz statisti čke perspektive

18

Erdos-Renyiev problem – odrediti distribuciju najduljeg niza Erdos-Renyiev problem – odrediti distribuciju najduljeg niza uspjeha u Bernoullijevom njd nizuuspjeha u Bernoullijevom njd nizu

ekvivalentno je znati (za fiksni alignment!!) koliko je dug ekvivalentno je znati (za fiksni alignment!!) koliko je dug najdulji potpuno poravnati podniz. Ako je najdulji potpuno poravnati podniz. Ako je pp vjerojatnost vjerojatnost poravnanja, poznato je da poravnanja, poznato je da

Ima približno Gumbelovu razdiobuIma približno Gumbelovu razdiobu

Page 19: Bioinformatika: iz statisti čke perspektive

19

Primjer.Primjer. Ako pretpostavimo da su DNK nizovi realizacije Ako pretpostavimo da su DNK nizovi realizacije nizova nnizova njd jd slučajnih varijabli s uniformnom distribucijom i slučajnih varijabli s uniformnom distribucijom i njihova duljina je jednakanjihova duljina je jednaka n= n= 100 000, onda, ako je 100 000, onda, ako je najdulji primjećeni zajednički niz duljine 10, korištenjem najdulji primjećeni zajednički niz duljine 10, korištenjem prethodne formule dobivamo da je prethodne formule dobivamo da je

pp-vrijednost približno jednaka 0-vrijednost približno jednaka 0,,069, 069,

a ako je najdulji primjećeni zajednički segment duljine a ako je najdulji primjećeni zajednički segment duljine 12, pripadna 12, pripadna

pp-vrijednost iznosi-vrijednost iznosi približno 0približno 0,,0045. 0045.

Uočimo da je posljednjaUočimo da je posljednja p p-vrijednost manja od 0-vrijednost manja od 0,,05, što 05, što jeje uobičajena granica kod koje odbacujemo nulhipotezu uobičajena granica kod koje odbacujemo nulhipotezu (u ovom slučaju o nezavisnom podrijetlu nizova). (u ovom slučaju o nezavisnom podrijetlu nizova).

Page 20: Bioinformatika: iz statisti čke perspektive

20

Dodatne napomeneDodatne napomeneDodatne napomeneDodatne napomene

• Naći optimalno lokalno ili globalno Naći optimalno lokalno ili globalno poravnanje zahtjevan je algoritamski poravnanje zahtjevan je algoritamski problem (riješen je dinamičkim problem (riješen je dinamičkim programiranjem)programiranjem)– Needleman-Wunsch (globalno)– Smith-Waterman (lokalno)

• Postoji više načina na koji se penaliziraju Postoji više načina na koji se penaliziraju gapovigapovi u poravnanju, u poravnanju,– biološki relevantnim se smatra i afino

penaliziranje gapova.

Page 21: Bioinformatika: iz statisti čke perspektive

21

Specificity determining Specificity determining residuesresidues

Specificity determining Specificity determining residuesresidues

• Pretpostavimo da su nam proteini podijeljeni u Pretpostavimo da su nam proteini podijeljeni u dvije (funkcionalne) podgrupe, te da nam je dvije (funkcionalne) podgrupe, te da nam je dano njihovo višestruko poravnanjedano njihovo višestruko poravnanje

from M.Gelfand:Identification of specificity-determining positions inprotein alignments

Page 22: Bioinformatika: iz statisti čke perspektive

22

20 aminokiselina20 aminokiselina20 aminokiselina20 aminokiselinaAmino Acid  1-Letter Side chain polarity Side chain charge (pH 7.4)   Hydropathy index 

AlanineAlanine A nonpolar neutral 1.8

ArginineArginine R polar positive −4.5

AsparagineAsparagine N polar neutral −3.5

Aspartic acidAspartic acid D polar negative −3.5

CysteineCysteine C nonpolar neutral 2.5

GlutamicGlutamic acid acid E polar negative −3.5

GlutamineGlutamine Q polar neutral −3.5

GlycineGlycine G nonpolar neutral −0.4

HistidineHistidine H polar positive(10%) neutral(90%)

−3.2

IsoleucineIsoleucine I nonpolar neutral 4.5

LeucineLeucine L nonpolar neutral 3.8

LysineLysine K polar positive −3.9

MethionineMethionine M nonpolar neutral 1.9

PhenylalaniPhenylalaninnee F nonpolar neutral 2.8

ProlineProline P nonpolar neutral −1.6

SerineSerine S polar neutral −0.8

ThreonineThreonine T polar neutral −0.7

TryptophanTryptophan W nonpolar neutral −0.9

TyrosineTyrosine Y polar neutral −1.3

ValineValine V nonpolar neutral 4.2

Page 23: Bioinformatika: iz statisti čke perspektive

23

Struktura proteinaStruktura proteinaStruktura proteinaStruktura proteina

Primarna struktura: poznat nam je samo niz aminokiselina npr: …V H L T P E E K…

Sekundarna struktura: poznate su neki pravilni dijelovi: npr: alpha-helix, beta-sheets

Tercijarna struktura: poznat je trodimenzionalan položaj molekula

Page 24: Bioinformatika: iz statisti čke perspektive

24

Evolucijski model za Evolucijski model za aminokiselineaminokiseline

Evolucijski model za Evolucijski model za aminokiselineaminokiseline

• Kao što smo vidjeli evol. modeli se određuju Kao što smo vidjeli evol. modeli se određuju preko matrica prijelaznih vjerojatnosti -preko matrica prijelaznih vjerojatnosti -> da > da bismo ih uveli koristbismo ih uveli koristit ćemo it ćemo matrice substitucijematrice substitucije

• Matrice supstitucije kao što Matrice supstitucije kao što jeje BLOSUM ( BLOSUM (Blocks Blocks Substitution MatricesSubstitution Matrices - Henikoff and Henikoff - Henikoff and Henikoff, , 1992) također sadrže informacije o 1992) također sadrže informacije o vjerojatnosti pojedinih mutacija vjerojatnosti pojedinih mutacija

• Matrice sadrže tzv. Matrice sadrže tzv. log-oddslog-odds koji se koriste koji se koriste ujedno i za izvođenje skorova tj. score functionujedno i za izvođenje skorova tj. score function

Page 25: Bioinformatika: iz statisti čke perspektive

25

Log-oddsLog-odds

Gornji izraz se zapravo koristi u definicije fukcije Gornji izraz se zapravo koristi u definicije fukcije skora skora ss

Page 26: Bioinformatika: iz statisti čke perspektive

26

UočimoUočimo

Ovo nam daje sljedeću ideju za modelOvo nam daje sljedeću ideju za model

Page 27: Bioinformatika: iz statisti čke perspektive

27

Testne statistikeTestne statistikeTestne statistikeTestne statistike

KreKreććemoemo od poravnanja od poravnanja

Za dani stupac poravnanjaZa dani stupac poravnanja k k izračunamo testnu statistiku izračunamo testnu statistiku

Page 28: Bioinformatika: iz statisti čke perspektive

28

• Trebaju nam vjerojatnosti da pod HTrebaju nam vjerojatnosti da pod H0 0 na mjestu na mjestu k k vidimo ovako ekstremnu statistiku recimo vidimo ovako ekstremnu statistiku recimo uu, , tj.tj.

gdje je gdje je HH00: : kk nije SDR tj. specificity determining nije SDR tj. specificity determining residue (funkcionalno specifična pozicija).residue (funkcionalno specifična pozicija).

• To napravimo za sve stupce, pitanje je da li To napravimo za sve stupce, pitanje je da li neki stupci (i koji?) indiciraju posebno značajna neki stupci (i koji?) indiciraju posebno značajna i i funkcionalno specifična mjestafunkcionalno specifična mjesta u poravnanju. u poravnanju.

Page 29: Bioinformatika: iz statisti čke perspektive

29

• Prema poznatoj statističkoj teoriji Prema poznatoj statističkoj teoriji log-log-likelihood ratio likelihood ratio statistike poput ove koju statistike poput ove koju mi računamo imaju asimptotski chi-mi računamo imaju asimptotski chi-kvadrat razdiobu. (Kod nas uvjeti iza kvadrat razdiobu. (Kod nas uvjeti iza ovakvih teorijski rezultata nisu ovakvih teorijski rezultata nisu zadovoljeni)zadovoljeni)

• Mi simulacijama određujemo približnu Mi simulacijama određujemo približnu razdiobu za testnu statistiku pod nul-razdiobu za testnu statistiku pod nul-hipotezomhipotezom

• Tako određujemo približne Tako određujemo približne p-p-vrijednostivrijednosti

• No i dalje provodimo puno testova! No i dalje provodimo puno testova! Svaki nam daje svoju Svaki nam daje svoju p-p-vrijednostvrijednost

Page 30: Bioinformatika: iz statisti čke perspektive

30

Stoga pitanje moramo preformulirati:Stoga pitanje moramo preformulirati:

Koliko je vjerojatno da vidimo ovako Koliko je vjerojatno da vidimo ovako male p-vrijednosti ako vrijedi male p-vrijednosti ako vrijedi HH00: niti : niti jedan jedan kk nije SDR? nije SDR?

Tj. želimo znati:Tj. želimo znati:

Page 31: Bioinformatika: iz statisti čke perspektive

31

Uvijek možemo odrediti gornju granicu tzv. Uvijek možemo odrediti gornju granicu tzv. Bonferroni Bonferroni korekcijukorekciju

Stoga naše rezultate proglašavamo značajnim (i odbacujemo Stoga naše rezultate proglašavamo značajnim (i odbacujemo HH0 0 ) ako je) ako je

Kako su u stvarnosti susjedne pozicije pozitivno korelirane, Kako su u stvarnosti susjedne pozicije pozitivno korelirane, pa prema tome i testne statistike ovo je vrlo gruba ocjenapa prema tome i testne statistike ovo je vrlo gruba ocjena

Dovest će do konzervativnog testa, male jakosti.Dovest će do konzervativnog testa, male jakosti.

Page 32: Bioinformatika: iz statisti čke perspektive

32

Alternativni pristupi Alternativni pristupi višestrukom testiranju hipotezavišestrukom testiranju hipoteza

Alternativni pristupi Alternativni pristupi višestrukom testiranju hipotezavišestrukom testiranju hipoteza

• Permutation test• False discovery rate - FDRukoliko je izvedeno m testova

Page 33: Bioinformatika: iz statisti čke perspektive

33

Alternativni pristupi otkrivanju Alternativni pristupi otkrivanju SDR: SDR: Mutual information, Z-scores.Mutual information, Z-scores.

Alternativni pristupi otkrivanju Alternativni pristupi otkrivanju SDR: SDR: Mutual information, Z-scores.Mutual information, Z-scores.

• Between Group Analysis (BGA), Higgins, Wallace (2007.)

• Sequence Harmony (SH), Heringa, Feenstra, Pirovano, Krab (2007.)

• SDPpred, Rakhmaninova et al. (2004.)

Page 34: Bioinformatika: iz statisti čke perspektive

34

MIMI POTVRĐENOPOTVRĐENO SH SH SDP BGA

rank position LLR Yadav rank SH rank rank

1 212 361.86 + 3 0.07 + 1

2 73 276.58 + 12 0.13 - 5

3 105 265.46 + 4 0.09 - 14

4 82 258.63 + - - - -

5 264 257.43 + 15 0.15 - 6

6 209 252.87 + 6 0.11 - 2

7 71 243.82 + 1 0.03 - 9

8 210 225.07 + 9 0.12 - 13

9 221 224.41 - 14 0.14 - 16

10 234 210.49 - 7 0.11 - -

11 12 203.40 + - - - 24

12 86 196.85 - - - - -

13 224 190.29 - - - - 20

14 128 188.88 - 13 0.14 - 19

15 137 186.16 - 11 0.12 - 17

16 262 183.05 - 25 0.19 - -

17 265 180.88 - 21 0.17 - 4

Usporedba s objavljenim rezultatima u literaturi. Top 10 naših rangiranih pozicija su ujedno signifikantne čak i uz Bonferroni korekciju na nivou znač. 10%

Page 35: Bioinformatika: iz statisti čke perspektive

35

Sažetak predložene Sažetak predložene procedureprocedure

Sažetak predložene Sažetak predložene procedureprocedure

• SDR predstavljaju mjesta na proteinima koja (potencijalno) specificiraju njihovu funkciju

• Odrediti ih nije jednostavno. Moramo posebno voditi računa o višestrukom testiranju.

• Procedura je implementirana online: compbio.math.hr

• Nezavršen projekt: za sada radimo samo sa dvije grupe

Page 36: Bioinformatika: iz statisti čke perspektive

36

Protein clusteringProtein clusteringProtein clusteringProtein clustering

• Esencijalno isti vjerojatnosni model, Esencijalno isti vjerojatnosni model, iskoristili smo u izradi algoritma za iskoristili smo u izradi algoritma za klasteriranje neke familije proteina v.klasteriranje neke familije proteina v.

Goldstein et al (2009): Goldstein et al (2009): Clustering of Clustering of protein domains for functional and protein domains for functional and evolutionary studiesevolutionary studies, BMC Bioinformatics, BMC Bioinformatics

Page 37: Bioinformatika: iz statisti čke perspektive

37

Drugi primjeriDrugi primjeriDrugi primjeriDrugi primjeri

Višestruko testiranje hipoteza javlja se i uVišestruko testiranje hipoteza javlja se i u

• Mapiranju tzv QTLovaMapiranju tzv QTLova (odn. gena) (odn. gena)• Analizi DNA microarraysAnalizi DNA microarrays• Forenzičkoj DNA analiziForenzičkoj DNA analizi• Filogenetskoj analiziFilogenetskoj analizi• itd.itd.

Page 38: Bioinformatika: iz statisti čke perspektive

38

LiteraturaLiteraturaLiteraturaLiteratura

“Biological sequence analysis” by Durbin, Eddy, Krogh, Mitchinson

“Introduction to computational biology” by Waterman

Vidi također http://www.cs.tau.ac.il/~bchor/CG05/CG1-alignment.pps, http://ai.stanford.edu/~serafim/CS262_2005/Slides/CS262_2005_Lecture2.ppt ,

Wikipedia za dodatne informacije o biološkoj analizi nizova

Page 39: Bioinformatika: iz statisti čke perspektive

39

AcknowledgmentsAcknowledgmentsAcknowledgmentsAcknowledgments

P. Goldstein (PMF-MO)J. Žućko (PBF)I. Vujaklija (FER)D. Špoljarić (PBF)