Bioinformatika 2 4. előadás · 2019. 10. 5. · 9 2019.10.05. Bioinformatika 2 PROSITE -...

Preview:

Citation preview

2019.10.05. Bioinformatika 2

Bioinformatika 2 − 4. előadás

Prof. Poppe László

BME Szerves Kémia és Technológia Tsz.

Bioinformatika – proteomika

Előadás és gyakorlat

2 Bioinformatika 22019.10.05.

Biológiai adatbázisok

3 Bioinformatika 22019.10.05.

Másodlagos adatbázisok

A másodlagos szekvencia adatbázisok az elsődleges (azaz szekvenciákat tartalmazó)

adatbázisokból létrehozott szekvenciamintázat−adatbázisok.

Az elsődleges adatbázisok szekvenciáiból többszörös szekvencia összerendezések segítségével

felismerhetővé válnak a konzerválódott régiók, a motívumok.

A motívumok összessége az ujjlenyomat. Egy motívum alapján készíthető reguláris

kifejezés, vagy gyakorisági mátrix (ebből súlyozott gyakorisági mátrix képezhető).

4 Bioinformatika 22019.10.05.

Származtatott adatbázisok

Származtatott

adatbázis

Elsődleges vagy

másodlagos forrása

Tartalma

PROSITE SwissProt Reguláris kifejezések

(mintázatok)

Profiles (PROSITE része) SwissProt Súlyozott mátrixok (profilolok)

PRINTS SwissProt + TrEMBL Összerendezett motívumok

(ujjlenyomatok)

Pfam SwissProt Rejtett Markov modellek (HMM−ek)

BLOCKS* PROSITE / PRINTS

(20 éves)

Összerendezett motívumok

(blokkok)

eMOTIF** BLOCKS / PRINTS

(20 éves)

"Fuzzy" reguláris kifejezések

(mintázatok)

* Szekunder adatbázisból származtatott harmadlagos adatbázis ** Eszközként letölthető

5 Bioinformatika 22019.10.05.

Származtatott adatbázisok csoportosítása

6 Bioinformatika 22019.10.05.

Alkalmazásuk paradigmája

Hasonló szekvencia

Paralógia

Ortológia

Hasonló szekvencia - Hasonló szerkezet - Hasonló funkció

Homológia

Hasonló szerkezet Hasonló funkció

+++/- +/-

{ +?

Bioinformatika alapfeladata: új szekvencia -> a fehérje funkciója, szerkezeti család, stb.

Keresőprogramok (FASTA, BLAST, PSI−BLAST, stb.) -> homológia felismerésére jók, de

fontosabb az ortológia felismerése (a homológ lehet az ortológ paralógja is, ez kevésbé

hasznosítható)

Másodlagos adatbázisok (többnyire azonos funkciójú fehérjék szekvenciáiból származnak) az

ortológia felismerését segítik.

7 Bioinformatika 22019.10.05.

PROSITE – Reguláris kifejezések

ADLGAVFALCDRYFQ

SDVGPRSCFCERFYQ

ADLGRTQNRCDRYYQ

ADIGQPHSLCERYFQ

Négy protein összerendezése

[AS]−D−[IVL]−G−x4−{PG}−C−[DE]−R−[FY]2−Q

· Szabványos IUPAC egybetűs aminosav jelek

· Az egyes pozíciókat kötőjelek választják el· Egy aminosav−jel: teljesen konzerválódott pozíció (pl. −G−)

· Szögletes zárójel: a megadott aminosavak valamelyike (pl. [AS])

· Kapcsos zárójel: Bármelyik aminosav, kivéve a megadottakat (pl. {PG})

· x: Bármelyik aminosav

· Szám: ismétlődés. (pl. [FY]2, x4)

· x(2,4): x 2−szer, 3−szor vagy 4−szer.

https://prosite.expasy.org/

8 Bioinformatika 22019.10.05.

H-x-[LIVM]-{P}-x(0,2)-G-x(4)-W

PROSITE – Reguláris kifejezések

Példa:

H-C-I-N--G-YFRA-W

A szekvencia megfelel

https://prosite.expasy.org/

9 Bioinformatika 22019.10.05.

PROSITE - Mintázatok

Többszörös összerendezésekkel nyert olyan homológ régiók, melyek az adott fehérjecsalád

biológiai funkciója szempontjából fontosak, pl.:

Enzimek katalítikus helyei

Prosztetikus csoportok kötőhelyei (hem, piridoxál-foszfát, biotin, stb.)

Fémionok kötésében fontos aminosavak

Diszulfid-hidakat kialakító ciszteinek

Különböző molekulákat (ADP/ATP, GDP/GTP, kalcium, DNS, stb.) megkötő helyek

Más proteineket megkötő helyek

Egy motívumos adatbázis, a SwissProt összerendelések alapján, kézzel, szakértők által

kísérleti és irodalmi adatok alapján elkészítve.

A kifejezések jóságát gondosan ellenőrzik.

Alapos, megbízható dokumentáció.

https://prosite.expasy.org/

10 Bioinformatika 22019.10.05.

PROSITE - Keresés

https://prosite.expasy.org/

11 Bioinformatika 22019.10.05.

PROSITE – Mintázat állomány

https://prosite.expasy.org/

12 Bioinformatika 22019.10.05.

PROSITE – Dokumentációs állomány

13 Bioinformatika 22019.10.05.

PRINTS – „Ujjlenyomatok”

A PRINTS tartalma

A fehérjecsaládokra jellemző "ujjlenyomatok":

összerendezések hézagmentes, konzerválódott szakaszainak ("motívumok") halmazai

A PRINTS készítése

Kiinduló adatbázis: SWISSPROT+TrEMBL

Egy fehérjecsalád néhány szekvenciájával manuális többszörös összerendezést készítenek

Megállapítják a konzerválódott régiók helyét (főleg vizuálisan), ezek a motívumok

(kezdeti motívumhalmaz)

Mindegyik motívumból gyakorisági mátrixot származtatnak.

A gyakorisági mátrix segítségével keresést végeznek (SwissProt+TrEMBL); bármely

szekvencia illeszkedése a motívumhoz pontozható a gyakorisági mátrix segítségével

A legjobb találatokat hozzáveszik és hozzárendezik a kezdeti motívumhoz, újabb

gyakorisági mátrixot számítanak

Az eljárást iteratívan ismétlik, amíg már nem lehet több szekvenciát hozzávenni a

motívumhoz.

http://130.88.97.239/PRINTS/index.php

14 Bioinformatika 22019.10.05.

Keresztreferenciák

Irodalmi hivatkozások

Dokumentáció (bőséges)

Az ujjlenyomat diagnosztikus erejét mutató statisztikai adatok

A valódi pozitív találatot adó fehérjék felsorolása

Kezdeti (iteráció előtti) motívumkészletek (pozícióval és az előző motívumtól

mért távolsággal)

Végső (iterációk utáni) motívumkészletek

PRINTS - Állományok

Az iterációk utáni motívumhalmaz diagnosztikus ereje nagyobb (jobban "diagnosztizálható"

vele egy új szekvenciának az adott fehérjecsaláddal való homológiája).

Több mint 1500 ujjlenyomatban 10000 feletti motívumot tartalmaz a PRINTS

PRINTS állományok

http://130.88.97.239/PRINTS/index.php

15 Bioinformatika 22019.10.05.

PRINTS - Adatbázis

http://130.88.97.239/PRINTS/index.php

16 Bioinformatika 22019.10.05.

BLOCKS állományok

Régebbi mátrix alapú megközelítés, SwissProt adatbázisból származtatva

BLOCKS – „Blokkok”

BLOCKS keresés (megszűnt, ma már fejlettebb módszerek elérhetőek)

Kulcsszó, leírás, stb. szerint

Egy szekvencia összehasonlítása a BLOCKS−szal (a súlyozott gyakorisági mátrix

segítségével): -> Egyező blokkokat mutatja, E értékkel.

A talált blokkok ún. logó−ja (aminosavgyakoriságok betűméretre konvertálva)

megjeleníthető, pl.:

17 Bioinformatika 22019.10.05.

Profilok – Prosite, Pfam

A profilok összerendezett szekvenciákból származtatott, a teljes szekvenciát leíró matematikai

objektumok. Két fajtájuk van:

Súlymátrixok: súlyozott gyakorisági mátrixok (mint a BLOCKS−nál), kiegészítve

pozíciófüggő gap opening és gap extension penalty−kkel (azaz a mátrix soraiban 22 szám van:

20 aminosav és 2 gap penalty). A PROSITE−ban ilyennel írják le azokat a fehérjecsaládokat,

amelyekre nem találnak jó reguláris kifejezést.

Rejtett Markov−modellek (Hidden Markov Model, HMM): Olyan valószínűségi modell,

amely szekvenciákat "generál": tkp. lineáris lánc, amely egyezés (Match, M), beszúrás

(insertion, I) és törlés (deletion, D) állapotokból áll, az ezek átmeneteit jellemző

számadatokkal.

18 Bioinformatika 22019.10.05.

A rejtett Markov−modell (angolul hidden Markov model, röviden HMM) egy algoritmus,

amely szekvenciákat generál. A gépnek véges sok állapota van, és ezek között lépked. Minden

egyes állapotában vagy minden egyes állapotváltáskor kibocsáthat egy szekvencia elemet (tehát

aminosavat vagy nukleotidot), ezekből áll össze a gép által generált szekvencia.

Hidden Markov−modellek (HMM)

19 Bioinformatika 22019.10.05.

Hidden Markov−modellek (HMM)

A körök és a négyzetek a gép állapotait, az összekötő nyilak az egyes állapotok között

lehetséges átmeneteket reprezentálják. Az M és az I állapotok ún. "kibocsátó" állapotok, tehát

amikor a gép ezekben az állapotokban van, akkor kibocsát magából egy szekvenciaelemet

(aminosavat vagy nukleotidot). A D állapotok nem kibocsátó állapotok. Mindegyik M és I

állapothoz tartozik egy táblázat, amely megmondja, hogy az adott állapotban a 20 aminosav, ill.

a 4 nukleotid közül melyiket milyen valószínűséggel bocsátja ki a gép (tehát a táblázat 20 vagy

4 számot tartalmaz). A HMM−nek további paraméterei az egyes állapotok közötti átmenetek

valószínűségei, tehát az állapotdiagramon lévő, az egyes állapotokat összekötő nyilak

mindegyikéhez tartozik egy valószínűségérték. A HMM rendszerint annyi M, I és D állapotot

tartalmaz, amilyen hosszú szekvenciát tipikusan generál. A fenti ábrán látható HMM például 5

M állapotot tartalmaz, tehát amennyiben működése során nem megy át sem I, sem D állapoton,

akkor 5 aminosavból vagy nukleotidból álló szekvenciát generál.

20 Bioinformatika 22019.10.05.

Hidden Markov−modellek (HMM)

Ha van egy rokon szekvenciákat tartalmazó szekvenciahalmazunk, akkor ennek az elemzésével,

az egyes pozíciókban található aminosavak gyakorisága és egyebek alapján definiálni lehet egy

olyan HMM−et, amely a kiinduló szekvenciahalmazhoz hasonló szekvenciákat generál. A HMM

felépítése, az állapotdiagram általában már eleve adott, a szekvenciahalmaz elemzésével pedig

meghatározhatjuk az M és az I állapotokban az egyes aminosavak, ill. nukleotidok

kibocsátásának valószínűségeit, valamint a gép egyes állapotai közötti átmenetek valószínűségeit.

A Pfam adatbázis ezeket a paramétereket (pontosabban a számítások megkönnyítése végett a

valószínűségek logaritmusát) tartalmazza minden egyes fehérjecsaládra.

Ha tehát a rokon szekvenciákat tartalmazó halmaz alapján definiáltunk egy HMM−et, akkor ezt a

bizonyos szekvenciacsaládot jól leíró modellhez jutunk, amely képes további, a kiinduló

szekvenciahalmazban lévő szekvenciákhoz hasonló szekvenciákat generálni. A szekvencia

analízisnél azonban a HMM−nek nem ez a képessége fontos, hanem az, hogy a HMM

segítségével meg lehet határozni egy új szekvenciáról, hogy azt milyen valószínűséggel

generálhatja az adott HMM. Ha ez nagy valószínűségérték, akkor a vizsgált, új szekvencia is

beletartozik abba a szekvenciacsaládba, amelyből a HMM megkonstruálása során kiindultunk.

21 Bioinformatika 22019.10.05.

Profilok – Prosite, Pfam

PROSITE profilállomány

Alap paraméterek: különböző átmenetek (pl. MI: Match−Insertion) pontszámai

M: Match (egyezés) állapotok, paraméterekkel (súlymátrix elemei)

I: Inszerció állapotok, paraméterekkel

Pfam állományok

Leíró állomány: Családok leírásai (szekvenciák felsorolása)

HMM állomány: A HMM−et adja meg.

Pfam−A: Jól dokumentált családok,

Pfam−B: rosszul dokumentált, automatikusan generált családok.

Keresés profiladatbázisokban

Szekvencia összehasonlítása a profilokkal (különféle programok, szerverek)

22 Bioinformatika 22019.10.05.

Integrált másodlagos adatbázis: INTERPRO

A legjobban dokumentált

másodlagos adatbázisok

(PROSITE, PRINTS)

integrálása egyéb

másodlagos adatbázisokkal

(Pfam, PRODOM, stb.).

Több ezer fehérjecsalád

23 Bioinformatika 22019.10.05.

Integrált másodlagos adatbázis: INTERPRO

24 Bioinformatika 22019.10.05.

Integrált másodlagos adatbázis: INTERPRO

25 Bioinformatika 22019.10.05.

Integrált másodlagos adatbázis: INTERPRO

26 2019.10.05.

Bioinformatics -

Proteomics

Integrált másodlagos adatbázis: INTERPRO

27 Bioinformatika 22019.10.05.

Integrált biológiai adatbázis – NCBI

28 Bioinformatika 22019.10.05.

Integrált biológiai adatbázis – NCBI

29 Bioinformatika 22019.10.05.

Integrált biológiai adatbázis –

NCBI Structure

30 Bioinformatika 22019.10.05.

Integrált biológiai adatbázis –

NCBI PubMed