Upload
colin-neal
View
31
Download
0
Embed Size (px)
DESCRIPTION
Bioinformatikai módszerek a növénybiológiában. Sebestyén Endre Martonvásár, 2007 nov. 16. Mi a bioinformatika?. - PowerPoint PPT Presentation
Citation preview
Mi a bioinformatika? Bioinformatics and computational biology involve the use of
techniques including applied mathematics, informatics, statistics, computer science, artificial intelligence, chemistry, and biochemistry to solve biological problems usually on the molecular level.
It can also be defined as the science and technology of learning, managing, and processing biological information.
Major research efforts in the field include sequence alignment, gene finding, genome assembly, protein structure alignment, protein structure prediction, prediction of gene expression and protein-protein interactions, and the modeling of evolution.
Valójában egyre kevésbé tekinthető külön tudományágnak, ugyanolyan eszköz, mint a pipetta vagy PCR.
Adatok és adatbázisok Elsődleges adatbázisok
DNS (RNS) EMBL (http://www.ebi.ac.uk/embl/) GenBank (http://www.ncbi.nlm.nih.gov/Genbank/index.html) DDBJ (http://www.ddbj.nig.ac.jp/)
Térszerkezeti adatbázisok Másodlagos vagy származtatott adatbázisok
Fehérje adatbázisok Fehérjemotívum adatbázisok
Egyéb adatbázisok NAR adatbázis különszám
RetrOryza: a database of the rice LTR-retrotransposons SUBA: the Arabidopsis Subcellular Database AgBase: a unified resource for functional analysis in agriculture The TIGR Plant Transcript Assemblies database
2007 : 106 új, 68 frissítés, összesen 968 (http://www.oxfordjournals.org/nar/database/a/)
Genomprogramok (növények) Kész
Arabidopsis thaliana Medicago truncatula Oryza sativa Populus trichocarpa Vitis vinifera
Folyamatban Brachypodium distachyon Lotus japonicus Manihot esculenta Solanum lycopersicum Solanum tuberosum Sorghum bicolor Zea mays Ricinus communis Brassica oleracea Triticum aestivum Glycine max
Genomböngészők
Teljes genom(ok) szekvenciáját tartalmazza Szekvenciák vizualizálás, böngészése Nagy mennyiségű annotáció
Génpredikciók Fehérjék Expressziós adatok Összehasonlító elemzések Keresztreferenciák más adatbázisokhoz
Genomböngészők ENSEMBL (www.ensembl.org)
Növényekkel nem foglalkozik 33 különböző genom
UCSC (http://genome.ucsc.edu) 32 genom
AtENSEMBL (http://atensembl.arabidopsis.info) TIGR Rice database (http://www.tigr.org/tdb/e2k1/osa1/) TIGR Maize database (http://maize.tigr.org/)
Szekvenciaformátumok
FASTA, GCG, EMBL, GenBank Egyszerű szöveges fájlok A Word dokumentum NEM szekvenciaformátum
BLAST keresés
http://www.ncbi.nlm.nih.gov/blast/ Nukleotid vs. nukleotid Protein vs. protein Protein vs. lefordított
nukleotid Lefordított nukleotid vs.
protein Lefordított nukleotid vs.
lefordított nukleotid
BLAST keresés
Alapbeállítások nem mindig megfelelőek
A keresés eredménye nem biztos, hogy tökéletes
Viszont a szekvencia mindig biztosabb keresési módszer, mint egy azonosító vagy kulcsszó
Szekvenciaillesztés
Kettő vagy több szekvencia Az esetek nagyrészében nincs tökéletes megoldás
Nehéz számszerűen megmondani az illesztés “jóságát” Szekvencia méret/szám növekedésével exponenciálisan
nő a szükséges idő
Illesztés algoritmusa Globális (ClustalW) Lokális (Dialign)
Néha érdemes akár kézzel javítani
Transzkripciós faktor kötőhelyek
Ismert kötőhelyek Kísérletes adatok alapján Adatbázisok
TRANSFAC JASPAR PLACE PlantCARE
1300 - 1500 kötőhely Konszenzus szekvencia
vagy mátrix a jellemzésükre
2 3 4 5
A 16 352 3 354
C 46 0 10 0
G 18 2 2 5
T 309 35 374 30
Kötőhelyek keresése promóterekben
TRANSFAC kötőhely gyűjteménnyel való keresés eredménye
Sok, biológiailag nem feltétlenül releváns (fals pozitív) kötőhely ugyanazon a szekvencián
DoOP, Ortológ promóter adatbázis
Ortológ promóterek elemzése Evolúciósan konzervált motívumok definiálása A motívumok feltételezett kötőhelyek lehetnek Weboldal az adatok eléréséhez, további
elemzéséhez http://doop.abc.hu
Adatbáziskészítés folyamata
Arabidopsis genomannotáció
Konzerválódott régiók kinyerése
Szekvenciaillesztés (Dialign)
Első exon kinyerése minden génből
BLAST keresés összes növényi szekvenciában az exon alapján(NCBI adatbázis)
Promóter régiók kinyerése és csoportosítása(500, 1000, 3000 bp)
Promótercsoportok
Legalább 1 szekvencia az Arabidopsis promóter mellett 500 bp : 9140
26591 szekvencia 1000 bp : 6013
16703 szekvencia 3000 bp : 5765
15493 szekvencia
Fajok eloszlása a növényi adatbázisban
Nvˇnyi adatb‡zis (v 1.6, 500 bp), fajok
9140 Arabidopsis thaliana4962 Brassica rapa4579 Brassica oleracea1340 Populus trichocarpa1223 Ricinus communis1137 Vitis vinifera696 Medicago truncatula487 Lotus japonicus396 Brassica napus261 Oryza sativa244 Solanum lycopersicum198 Zea mays1928 Other
Motívumok a növényi adatbázisban
Konszenzus szekvencia 5 - 50 bp között 4 típus
Brassicacea Eudicotyledons Magnoliophyta Viridiplantae
Összesen 134120 egyedi motívum (500, 1000, 3000 bp)
DoOP keresőoldal
Keresési módok Szekvenciaazonosító Génazonosító Kulcsszavas leírások Faj Promóter szekvencia
Keresés eredménye
Promótercsoport azonosító
Leírás Konzervált motívumok
száma Fajcsoportok
Lehetőség van a szekvenciák letöltésére
Promótercsoport
Szekvenciák
Génannotáció
Szekvenciaillesztés
Keresztreferenciák
Konzerválódott régiók
Motívum
További keresési lehetőség adott motívummal
Hasonló szabályozással / expressziós mintázattal rendelkező gének?
http://doops.abc.hu http://doopsearch.abc.hu
További lehetőségek
Ismert kötőhelyek konzerváltságának vizsgálata (folyamatban)
Promóterben elfoglalt pozíció vizsgálata Transzkripciós szabályozás “in silico”
vizsgálata Mesterséges promóterek tervezése?
Az adatbázis folyamatos frissítése