30
2019.10.05. Bioinformatika 2 Bioinformatika 2 4 . előadás Prof. Poppe László BME Szerves Kémia és Technológia Tsz. Bioinformatika proteomika Előadás és gyakorlat

Bioinformatika 2 4. előadás · 2019. 10. 5. · 9 2019.10.05. Bioinformatika 2 PROSITE - Mintázatok Többszörös összerendezésekkel nyert olyan homológ régiók, melyek az

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Bioinformatika 2 4. előadás · 2019. 10. 5. · 9 2019.10.05. Bioinformatika 2 PROSITE - Mintázatok Többszörös összerendezésekkel nyert olyan homológ régiók, melyek az

2019.10.05. Bioinformatika 2

Bioinformatika 2 − 4. előadás

Prof. Poppe László

BME Szerves Kémia és Technológia Tsz.

Bioinformatika – proteomika

Előadás és gyakorlat

Page 2: Bioinformatika 2 4. előadás · 2019. 10. 5. · 9 2019.10.05. Bioinformatika 2 PROSITE - Mintázatok Többszörös összerendezésekkel nyert olyan homológ régiók, melyek az

2 Bioinformatika 22019.10.05.

Biológiai adatbázisok

Page 3: Bioinformatika 2 4. előadás · 2019. 10. 5. · 9 2019.10.05. Bioinformatika 2 PROSITE - Mintázatok Többszörös összerendezésekkel nyert olyan homológ régiók, melyek az

3 Bioinformatika 22019.10.05.

Másodlagos adatbázisok

A másodlagos szekvencia adatbázisok az elsődleges (azaz szekvenciákat tartalmazó)

adatbázisokból létrehozott szekvenciamintázat−adatbázisok.

Az elsődleges adatbázisok szekvenciáiból többszörös szekvencia összerendezések segítségével

felismerhetővé válnak a konzerválódott régiók, a motívumok.

A motívumok összessége az ujjlenyomat. Egy motívum alapján készíthető reguláris

kifejezés, vagy gyakorisági mátrix (ebből súlyozott gyakorisági mátrix képezhető).

Page 4: Bioinformatika 2 4. előadás · 2019. 10. 5. · 9 2019.10.05. Bioinformatika 2 PROSITE - Mintázatok Többszörös összerendezésekkel nyert olyan homológ régiók, melyek az

4 Bioinformatika 22019.10.05.

Származtatott adatbázisok

Származtatott

adatbázis

Elsődleges vagy

másodlagos forrása

Tartalma

PROSITE SwissProt Reguláris kifejezések

(mintázatok)

Profiles (PROSITE része) SwissProt Súlyozott mátrixok (profilolok)

PRINTS SwissProt + TrEMBL Összerendezett motívumok

(ujjlenyomatok)

Pfam SwissProt Rejtett Markov modellek (HMM−ek)

BLOCKS* PROSITE / PRINTS

(20 éves)

Összerendezett motívumok

(blokkok)

eMOTIF** BLOCKS / PRINTS

(20 éves)

"Fuzzy" reguláris kifejezések

(mintázatok)

* Szekunder adatbázisból származtatott harmadlagos adatbázis ** Eszközként letölthető

Page 5: Bioinformatika 2 4. előadás · 2019. 10. 5. · 9 2019.10.05. Bioinformatika 2 PROSITE - Mintázatok Többszörös összerendezésekkel nyert olyan homológ régiók, melyek az

5 Bioinformatika 22019.10.05.

Származtatott adatbázisok csoportosítása

Page 6: Bioinformatika 2 4. előadás · 2019. 10. 5. · 9 2019.10.05. Bioinformatika 2 PROSITE - Mintázatok Többszörös összerendezésekkel nyert olyan homológ régiók, melyek az

6 Bioinformatika 22019.10.05.

Alkalmazásuk paradigmája

Hasonló szekvencia

Paralógia

Ortológia

Hasonló szekvencia - Hasonló szerkezet - Hasonló funkció

Homológia

Hasonló szerkezet Hasonló funkció

+++/- +/-

{ +?

Bioinformatika alapfeladata: új szekvencia -> a fehérje funkciója, szerkezeti család, stb.

Keresőprogramok (FASTA, BLAST, PSI−BLAST, stb.) -> homológia felismerésére jók, de

fontosabb az ortológia felismerése (a homológ lehet az ortológ paralógja is, ez kevésbé

hasznosítható)

Másodlagos adatbázisok (többnyire azonos funkciójú fehérjék szekvenciáiból származnak) az

ortológia felismerését segítik.

Page 7: Bioinformatika 2 4. előadás · 2019. 10. 5. · 9 2019.10.05. Bioinformatika 2 PROSITE - Mintázatok Többszörös összerendezésekkel nyert olyan homológ régiók, melyek az

7 Bioinformatika 22019.10.05.

PROSITE – Reguláris kifejezések

ADLGAVFALCDRYFQ

SDVGPRSCFCERFYQ

ADLGRTQNRCDRYYQ

ADIGQPHSLCERYFQ

Négy protein összerendezése

[AS]−D−[IVL]−G−x4−{PG}−C−[DE]−R−[FY]2−Q

· Szabványos IUPAC egybetűs aminosav jelek

· Az egyes pozíciókat kötőjelek választják el· Egy aminosav−jel: teljesen konzerválódott pozíció (pl. −G−)

· Szögletes zárójel: a megadott aminosavak valamelyike (pl. [AS])

· Kapcsos zárójel: Bármelyik aminosav, kivéve a megadottakat (pl. {PG})

· x: Bármelyik aminosav

· Szám: ismétlődés. (pl. [FY]2, x4)

· x(2,4): x 2−szer, 3−szor vagy 4−szer.

https://prosite.expasy.org/

Page 8: Bioinformatika 2 4. előadás · 2019. 10. 5. · 9 2019.10.05. Bioinformatika 2 PROSITE - Mintázatok Többszörös összerendezésekkel nyert olyan homológ régiók, melyek az

8 Bioinformatika 22019.10.05.

H-x-[LIVM]-{P}-x(0,2)-G-x(4)-W

PROSITE – Reguláris kifejezések

Példa:

H-C-I-N--G-YFRA-W

A szekvencia megfelel

https://prosite.expasy.org/

Page 9: Bioinformatika 2 4. előadás · 2019. 10. 5. · 9 2019.10.05. Bioinformatika 2 PROSITE - Mintázatok Többszörös összerendezésekkel nyert olyan homológ régiók, melyek az

9 Bioinformatika 22019.10.05.

PROSITE - Mintázatok

Többszörös összerendezésekkel nyert olyan homológ régiók, melyek az adott fehérjecsalád

biológiai funkciója szempontjából fontosak, pl.:

Enzimek katalítikus helyei

Prosztetikus csoportok kötőhelyei (hem, piridoxál-foszfát, biotin, stb.)

Fémionok kötésében fontos aminosavak

Diszulfid-hidakat kialakító ciszteinek

Különböző molekulákat (ADP/ATP, GDP/GTP, kalcium, DNS, stb.) megkötő helyek

Más proteineket megkötő helyek

Egy motívumos adatbázis, a SwissProt összerendelések alapján, kézzel, szakértők által

kísérleti és irodalmi adatok alapján elkészítve.

A kifejezések jóságát gondosan ellenőrzik.

Alapos, megbízható dokumentáció.

https://prosite.expasy.org/

Page 10: Bioinformatika 2 4. előadás · 2019. 10. 5. · 9 2019.10.05. Bioinformatika 2 PROSITE - Mintázatok Többszörös összerendezésekkel nyert olyan homológ régiók, melyek az

10 Bioinformatika 22019.10.05.

PROSITE - Keresés

https://prosite.expasy.org/

Page 11: Bioinformatika 2 4. előadás · 2019. 10. 5. · 9 2019.10.05. Bioinformatika 2 PROSITE - Mintázatok Többszörös összerendezésekkel nyert olyan homológ régiók, melyek az

11 Bioinformatika 22019.10.05.

PROSITE – Mintázat állomány

https://prosite.expasy.org/

Page 12: Bioinformatika 2 4. előadás · 2019. 10. 5. · 9 2019.10.05. Bioinformatika 2 PROSITE - Mintázatok Többszörös összerendezésekkel nyert olyan homológ régiók, melyek az

12 Bioinformatika 22019.10.05.

PROSITE – Dokumentációs állomány

Page 13: Bioinformatika 2 4. előadás · 2019. 10. 5. · 9 2019.10.05. Bioinformatika 2 PROSITE - Mintázatok Többszörös összerendezésekkel nyert olyan homológ régiók, melyek az

13 Bioinformatika 22019.10.05.

PRINTS – „Ujjlenyomatok”

A PRINTS tartalma

A fehérjecsaládokra jellemző "ujjlenyomatok":

összerendezések hézagmentes, konzerválódott szakaszainak ("motívumok") halmazai

A PRINTS készítése

Kiinduló adatbázis: SWISSPROT+TrEMBL

Egy fehérjecsalád néhány szekvenciájával manuális többszörös összerendezést készítenek

Megállapítják a konzerválódott régiók helyét (főleg vizuálisan), ezek a motívumok

(kezdeti motívumhalmaz)

Mindegyik motívumból gyakorisági mátrixot származtatnak.

A gyakorisági mátrix segítségével keresést végeznek (SwissProt+TrEMBL); bármely

szekvencia illeszkedése a motívumhoz pontozható a gyakorisági mátrix segítségével

A legjobb találatokat hozzáveszik és hozzárendezik a kezdeti motívumhoz, újabb

gyakorisági mátrixot számítanak

Az eljárást iteratívan ismétlik, amíg már nem lehet több szekvenciát hozzávenni a

motívumhoz.

http://130.88.97.239/PRINTS/index.php

Page 14: Bioinformatika 2 4. előadás · 2019. 10. 5. · 9 2019.10.05. Bioinformatika 2 PROSITE - Mintázatok Többszörös összerendezésekkel nyert olyan homológ régiók, melyek az

14 Bioinformatika 22019.10.05.

Keresztreferenciák

Irodalmi hivatkozások

Dokumentáció (bőséges)

Az ujjlenyomat diagnosztikus erejét mutató statisztikai adatok

A valódi pozitív találatot adó fehérjék felsorolása

Kezdeti (iteráció előtti) motívumkészletek (pozícióval és az előző motívumtól

mért távolsággal)

Végső (iterációk utáni) motívumkészletek

PRINTS - Állományok

Az iterációk utáni motívumhalmaz diagnosztikus ereje nagyobb (jobban "diagnosztizálható"

vele egy új szekvenciának az adott fehérjecsaláddal való homológiája).

Több mint 1500 ujjlenyomatban 10000 feletti motívumot tartalmaz a PRINTS

PRINTS állományok

http://130.88.97.239/PRINTS/index.php

Page 15: Bioinformatika 2 4. előadás · 2019. 10. 5. · 9 2019.10.05. Bioinformatika 2 PROSITE - Mintázatok Többszörös összerendezésekkel nyert olyan homológ régiók, melyek az

15 Bioinformatika 22019.10.05.

PRINTS - Adatbázis

http://130.88.97.239/PRINTS/index.php

Page 16: Bioinformatika 2 4. előadás · 2019. 10. 5. · 9 2019.10.05. Bioinformatika 2 PROSITE - Mintázatok Többszörös összerendezésekkel nyert olyan homológ régiók, melyek az

16 Bioinformatika 22019.10.05.

BLOCKS állományok

Régebbi mátrix alapú megközelítés, SwissProt adatbázisból származtatva

BLOCKS – „Blokkok”

BLOCKS keresés (megszűnt, ma már fejlettebb módszerek elérhetőek)

Kulcsszó, leírás, stb. szerint

Egy szekvencia összehasonlítása a BLOCKS−szal (a súlyozott gyakorisági mátrix

segítségével): -> Egyező blokkokat mutatja, E értékkel.

A talált blokkok ún. logó−ja (aminosavgyakoriságok betűméretre konvertálva)

megjeleníthető, pl.:

Page 17: Bioinformatika 2 4. előadás · 2019. 10. 5. · 9 2019.10.05. Bioinformatika 2 PROSITE - Mintázatok Többszörös összerendezésekkel nyert olyan homológ régiók, melyek az

17 Bioinformatika 22019.10.05.

Profilok – Prosite, Pfam

A profilok összerendezett szekvenciákból származtatott, a teljes szekvenciát leíró matematikai

objektumok. Két fajtájuk van:

Súlymátrixok: súlyozott gyakorisági mátrixok (mint a BLOCKS−nál), kiegészítve

pozíciófüggő gap opening és gap extension penalty−kkel (azaz a mátrix soraiban 22 szám van:

20 aminosav és 2 gap penalty). A PROSITE−ban ilyennel írják le azokat a fehérjecsaládokat,

amelyekre nem találnak jó reguláris kifejezést.

Rejtett Markov−modellek (Hidden Markov Model, HMM): Olyan valószínűségi modell,

amely szekvenciákat "generál": tkp. lineáris lánc, amely egyezés (Match, M), beszúrás

(insertion, I) és törlés (deletion, D) állapotokból áll, az ezek átmeneteit jellemző

számadatokkal.

Page 18: Bioinformatika 2 4. előadás · 2019. 10. 5. · 9 2019.10.05. Bioinformatika 2 PROSITE - Mintázatok Többszörös összerendezésekkel nyert olyan homológ régiók, melyek az

18 Bioinformatika 22019.10.05.

A rejtett Markov−modell (angolul hidden Markov model, röviden HMM) egy algoritmus,

amely szekvenciákat generál. A gépnek véges sok állapota van, és ezek között lépked. Minden

egyes állapotában vagy minden egyes állapotváltáskor kibocsáthat egy szekvencia elemet (tehát

aminosavat vagy nukleotidot), ezekből áll össze a gép által generált szekvencia.

Hidden Markov−modellek (HMM)

Page 19: Bioinformatika 2 4. előadás · 2019. 10. 5. · 9 2019.10.05. Bioinformatika 2 PROSITE - Mintázatok Többszörös összerendezésekkel nyert olyan homológ régiók, melyek az

19 Bioinformatika 22019.10.05.

Hidden Markov−modellek (HMM)

A körök és a négyzetek a gép állapotait, az összekötő nyilak az egyes állapotok között

lehetséges átmeneteket reprezentálják. Az M és az I állapotok ún. "kibocsátó" állapotok, tehát

amikor a gép ezekben az állapotokban van, akkor kibocsát magából egy szekvenciaelemet

(aminosavat vagy nukleotidot). A D állapotok nem kibocsátó állapotok. Mindegyik M és I

állapothoz tartozik egy táblázat, amely megmondja, hogy az adott állapotban a 20 aminosav, ill.

a 4 nukleotid közül melyiket milyen valószínűséggel bocsátja ki a gép (tehát a táblázat 20 vagy

4 számot tartalmaz). A HMM−nek további paraméterei az egyes állapotok közötti átmenetek

valószínűségei, tehát az állapotdiagramon lévő, az egyes állapotokat összekötő nyilak

mindegyikéhez tartozik egy valószínűségérték. A HMM rendszerint annyi M, I és D állapotot

tartalmaz, amilyen hosszú szekvenciát tipikusan generál. A fenti ábrán látható HMM például 5

M állapotot tartalmaz, tehát amennyiben működése során nem megy át sem I, sem D állapoton,

akkor 5 aminosavból vagy nukleotidból álló szekvenciát generál.

Page 20: Bioinformatika 2 4. előadás · 2019. 10. 5. · 9 2019.10.05. Bioinformatika 2 PROSITE - Mintázatok Többszörös összerendezésekkel nyert olyan homológ régiók, melyek az

20 Bioinformatika 22019.10.05.

Hidden Markov−modellek (HMM)

Ha van egy rokon szekvenciákat tartalmazó szekvenciahalmazunk, akkor ennek az elemzésével,

az egyes pozíciókban található aminosavak gyakorisága és egyebek alapján definiálni lehet egy

olyan HMM−et, amely a kiinduló szekvenciahalmazhoz hasonló szekvenciákat generál. A HMM

felépítése, az állapotdiagram általában már eleve adott, a szekvenciahalmaz elemzésével pedig

meghatározhatjuk az M és az I állapotokban az egyes aminosavak, ill. nukleotidok

kibocsátásának valószínűségeit, valamint a gép egyes állapotai közötti átmenetek valószínűségeit.

A Pfam adatbázis ezeket a paramétereket (pontosabban a számítások megkönnyítése végett a

valószínűségek logaritmusát) tartalmazza minden egyes fehérjecsaládra.

Ha tehát a rokon szekvenciákat tartalmazó halmaz alapján definiáltunk egy HMM−et, akkor ezt a

bizonyos szekvenciacsaládot jól leíró modellhez jutunk, amely képes további, a kiinduló

szekvenciahalmazban lévő szekvenciákhoz hasonló szekvenciákat generálni. A szekvencia

analízisnél azonban a HMM−nek nem ez a képessége fontos, hanem az, hogy a HMM

segítségével meg lehet határozni egy új szekvenciáról, hogy azt milyen valószínűséggel

generálhatja az adott HMM. Ha ez nagy valószínűségérték, akkor a vizsgált, új szekvencia is

beletartozik abba a szekvenciacsaládba, amelyből a HMM megkonstruálása során kiindultunk.

Page 21: Bioinformatika 2 4. előadás · 2019. 10. 5. · 9 2019.10.05. Bioinformatika 2 PROSITE - Mintázatok Többszörös összerendezésekkel nyert olyan homológ régiók, melyek az

21 Bioinformatika 22019.10.05.

Profilok – Prosite, Pfam

PROSITE profilállomány

Alap paraméterek: különböző átmenetek (pl. MI: Match−Insertion) pontszámai

M: Match (egyezés) állapotok, paraméterekkel (súlymátrix elemei)

I: Inszerció állapotok, paraméterekkel

Pfam állományok

Leíró állomány: Családok leírásai (szekvenciák felsorolása)

HMM állomány: A HMM−et adja meg.

Pfam−A: Jól dokumentált családok,

Pfam−B: rosszul dokumentált, automatikusan generált családok.

Keresés profiladatbázisokban

Szekvencia összehasonlítása a profilokkal (különféle programok, szerverek)

Page 22: Bioinformatika 2 4. előadás · 2019. 10. 5. · 9 2019.10.05. Bioinformatika 2 PROSITE - Mintázatok Többszörös összerendezésekkel nyert olyan homológ régiók, melyek az

22 Bioinformatika 22019.10.05.

Integrált másodlagos adatbázis: INTERPRO

A legjobban dokumentált

másodlagos adatbázisok

(PROSITE, PRINTS)

integrálása egyéb

másodlagos adatbázisokkal

(Pfam, PRODOM, stb.).

Több ezer fehérjecsalád

Page 23: Bioinformatika 2 4. előadás · 2019. 10. 5. · 9 2019.10.05. Bioinformatika 2 PROSITE - Mintázatok Többszörös összerendezésekkel nyert olyan homológ régiók, melyek az

23 Bioinformatika 22019.10.05.

Integrált másodlagos adatbázis: INTERPRO

Page 24: Bioinformatika 2 4. előadás · 2019. 10. 5. · 9 2019.10.05. Bioinformatika 2 PROSITE - Mintázatok Többszörös összerendezésekkel nyert olyan homológ régiók, melyek az

24 Bioinformatika 22019.10.05.

Integrált másodlagos adatbázis: INTERPRO

Page 25: Bioinformatika 2 4. előadás · 2019. 10. 5. · 9 2019.10.05. Bioinformatika 2 PROSITE - Mintázatok Többszörös összerendezésekkel nyert olyan homológ régiók, melyek az

25 Bioinformatika 22019.10.05.

Integrált másodlagos adatbázis: INTERPRO

Page 26: Bioinformatika 2 4. előadás · 2019. 10. 5. · 9 2019.10.05. Bioinformatika 2 PROSITE - Mintázatok Többszörös összerendezésekkel nyert olyan homológ régiók, melyek az

26 2019.10.05.

Bioinformatics -

Proteomics

Integrált másodlagos adatbázis: INTERPRO

Page 27: Bioinformatika 2 4. előadás · 2019. 10. 5. · 9 2019.10.05. Bioinformatika 2 PROSITE - Mintázatok Többszörös összerendezésekkel nyert olyan homológ régiók, melyek az

27 Bioinformatika 22019.10.05.

Integrált biológiai adatbázis – NCBI

Page 28: Bioinformatika 2 4. előadás · 2019. 10. 5. · 9 2019.10.05. Bioinformatika 2 PROSITE - Mintázatok Többszörös összerendezésekkel nyert olyan homológ régiók, melyek az

28 Bioinformatika 22019.10.05.

Integrált biológiai adatbázis – NCBI

Page 29: Bioinformatika 2 4. előadás · 2019. 10. 5. · 9 2019.10.05. Bioinformatika 2 PROSITE - Mintázatok Többszörös összerendezésekkel nyert olyan homológ régiók, melyek az

29 Bioinformatika 22019.10.05.

Integrált biológiai adatbázis –

NCBI Structure

Page 30: Bioinformatika 2 4. előadás · 2019. 10. 5. · 9 2019.10.05. Bioinformatika 2 PROSITE - Mintázatok Többszörös összerendezésekkel nyert olyan homológ régiók, melyek az

30 Bioinformatika 22019.10.05.

Integrált biológiai adatbázis –

NCBI PubMed