Upload
hoangtuong
View
218
Download
2
Embed Size (px)
Citation preview
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
BIOLOGIE COMPUTAŢIONALĂ
MASTER: BIODIVERSITATE & BIOCONSERVARE
Sorana D. BOLBOACĂ
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
2 Despre …
Organizarea disciplinei:
Curs
Lucrări practice
Structura cursurilor …
La ce mă aştept …
La ce vă aşteptaţi …
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
3 Despre … disciplină
Denumire: Biologie computaţională
An de studiu: II
Semestrul: III
Număr credite: 8
28 ore curs & 28 ore laborator
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
4 Despre … curs
Orar …
Locaţie: H22
Cursuri:
http://sorana.academicdirect.ro
Students
Facultatea de Horticultura (USAMV Cluj-Napoca) - Master: Biodiversitate si Bioconservare
Contact:
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
Despre … activitatea didactică
Structura anului universitar 2013/2014
Semestrul I
30.09.2013-20.12.2013 - activitate didactică
21.12.2013-12.01.2013 - vacanţă
13.01.2014-24.01.2014 - activitate didactică
25.01.2014-16.02.2014 - sesiune de examene
5
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
6 Despre … verificare
Forma de verificare: Colocviu
Colocviu
= formă de control al cunoştinţelor dobândite de
studenţi, care constă în discuţii, lucrări de
laborator, lucrări practice
= discuţie pe o temă ştiinţifică
Tema de dezbatere …
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
7 Despre … acest curs
Sumarizarea modalităţii în care calculatoarele
sunt utilizate pentru a găsi soluţii la probleme
biologice
Învăţare supervizată de calculator
1. Noţiuni introductive …
2. Căutarea informaţiei de interes în literatura de
specialitate
3. …
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
8 La ce mă aştept …
Să aveţi cunoştinţe de bază în biologie şi matematică
şi … dorinţa de a învăţa lucruri noi
Cunoştinţe de utilizare a calculatorului: Microsoft Word,
Excel, PowerPoint
Cunoştinţe şi abilităţi de căutare a informaţiilor în baze de
date
Să fiţi activi la ore
Dacă aveţi nelămuriri … [email protected]
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
9 La ce vă puteţi aştepta …
Două secţiuni:
Biologie moleculară computaţională (analiză de secvenţe şi
structuri)
Biologie celulară computaţională (modelarea şi analiza
imaginilor)
Cursuri: prezentări şi demonstraţii
Răspuns la întrebări din cursurile anterioare
Alegerea temei de dezbatere
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
NOŢIUNI INTRODUCTIVE
BIOLOGIA COMPUTAŢIONALĂ
10
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
11 Biologia Computaţională … Definiţie
Aplicarea teoriilor biologice prin utilizarea modelelor
matematice, statistice, fizice şi a calculatorului în
analiza sistemelor complexe biologice
Simularea experimentelor biologice cu ajutorul
calculatorului (neurobiologia, prelucrarea imaginii,
etc.)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
12 Biologia Computaţională
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
13 Biologia Computaţională …
Biologia computaţională
Biologia moleculară computaţională
Biologia sistemelor
Genomică structurală
Proteomică
Genomică
Bioinformatică
Genomică & Bioinformatică & Biologie Computaţională
Inteligenţa artificială – Robotică
Baze de date – Teoria informaţiei
Teoria grafurilor – Algoritmi
Statistică - Probabilităţi
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
14 Bioinformatică: scopuri computaţionale
Învăţare şi Generalizare: identificare de modele în
secvenţe, structuri, interacţiuni, metabolism, etc. prin
studierea unor exemple bine studiate.
Predicţie: obţinerea de informaţii structurale sau funcţionale
a secvenţelor noi de gene (genom, proteine, etc.) din
modelele de generalizare
Organizare şi Integrare: dezvoltarea de abordări
sistematice şi genomice a interacţiunilor moleculare,
metabolice, semnale celulare, expresie de gene, …
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
15 Bioinformatică: scopuri computaţionale
Simulare: a modelelor de expresie genetică, reglare
genetică, interacţiune proteină-proteină, etc. …
Inginerie: crearea de organisme sau funcţii noi, a noi
metode de reglare genetică sau proteică
Terapie genică: gene cu ţintă specifică, mutaţii sau
recombinări RNAi pentru a schimba fenotipul bolii.
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
16 Biologia moleculară / Bioinformatică
Paradigma centrală:
Biologia moleculară:
DNA RNA Proteina Fenotip
Biologia moleculară a genei: James Watson
Bioinformatic:
Informaţia genetică Structura moleculară
Funcţia biochimică Fenotip
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
17 Bioinformatica
Provocări în înţelegerea informaţiei genetice:
Informaţia genetică este redundantă (surplus de informaţie
faţă de strictul necesar / abundenţă inutilă de informaţie)
Informaţia structurală este redundantă
Genele şi proteinele sunt metastabile
Metastabilitatea: concept al sistemelor complexe:
Genele au funcţii multiple
Genele sunt unidimensionale dar funcţia depinde de
structura tri-dimensională …
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
Biologia computaţională
Biologia computaţională se dezvoltă rapid prin îmbinarea
interdisciplinară a aplicării cunoştinţelor domeniului ştiinţei
calculatoarelor, statisticii şi matematicii aplicate în rezolvarea
problemelor biologice.
Bioinformatica: matematica aplicată, statistica şi teoria
probabilităţilor sunt utilizate în rezolvarea unor probleme de
biologie moleculară şi proteomică:
Genomul uman ← puterea de procesare a
calculatoarelor
1989 – start → 13 ani (2001)
3 bilioane de dolari americani
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
Biologia computaţională
Biofizica, biochimia şi biologia
structurală: ramură a biologiei
moleculare, biochimiei şi
biofizicii care se ocupă de
structura moleculară a
macromoleculelor - proteine,
acizi nucleici, carbohidraţi şi
lipide
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
Biologia computaţională
Modelarea şi vizualizarea sunt două componente esenţiale în
înţelegerea fenomenelor biologice. Modelarea este în relaţie cu
totalitatea tehnicilor şi metodelor de predicţie a structurilor
genetice şi/sau proteice.
Modelarea este frecvent folosită ca instrument:
De analiză a structurilor tridimensionale: ARN, interacţiunea
proteică.
De predicţie: modele de predicţie a interacţiunii proteină-ligant,
tehnici moderne de predicţie a proteinelor.
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
Biologia computaţională: Istoric
Matematicianul Charles Lutwidge Didgson (1832-1898)
cunoscut sub numele de Lewis Carrol (autorul cărţii Alice) este
cel ale cărui soluţii implementate în jocuri se regăsesc în
biologia computaţională.
Lewis Carrol a arătat că două cuvinte ('APE' şi 'MAN') pot fi
conectate printr-un lanţ (APE ARE ERE ERR EAR
MAR MAN), parsimonia în şirul de litere stând la baza
algoritmilor filogenetici utilizaţi în biologia computaţională.
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
Biologia computaţională şi Informatica
Există diferenţe culturale enorme între cercetătorii în ştiinţele vieţii şi cei în ştiinţele de calcul iar aceste diferenţe trebuie să-şi găsească numitorul comun când e vorba de biologia computaţională:
nimic nu e niciodată complet adevărat sau fals în ştiinţele vieţii pe când totul este fie adevărat fie fals în informatică şi matematică;
cercetătorii în ştiinţele vieţii încearcă să înţeleagă fenomenele naturale în timp ce informaticienii încearcă să construiască propria lor lume virtuală;
cercetătorii în ştiinţele vieţii sunt cei care colectează/produc date în timp ce informaticienii sunt cei care crează algoritmi;
cercetătorii în ştiinţele vieţii sunt obsedaţi în a descoperii primii ceva în timp ce informaticienii inventează ceva nu descoperă;
cercetătorii în ştiinţele vieţii sunt conştienţi de faptul că toate datele au erori - informaticienii nu
…
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
Biologia computaţională: descoperiri
1970: Primul algoritm de aliniere al secvenţelor
1969: Modele pentru selecţia liberă a evoluţiei moleculare
1967 & 1970: Substituţia preferenţială a reziduurilor de amino acizi în secvenţa proteică
1967: Studiile formale ale structurii primare a proteinelor
1969 & 1970: Preferinţele reziduurilor de aminoacizi în structura secundară
1967 & 1968: Reprezentarea helicoidală a secvenţelor de proteine
1969 & 1970: Utilizarea datelor moleculare în studii ale evoluţiei
1970: Originea vieţii
1970: Teoria evoluţiei duplicării genetice
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
Biologia computaţională
Dezvoltarea biologiei computaţionale poate fi prezentată
din prisma următoarelor problematici:
Managementul informaţiei biologice: baze de date pentru
stocarea (2004; 2010), căutare (2006; 2008; 2010) şi analiza
informaţiei (2004; 2006; 2009).
Analiza secvenţelor: algoritmul de aliniere al secvenţelor
Smith-Waterman (programare dinamică) (1981), algoritmi
de căutare în baze de date FASTA (1983; 1985), algoritmi
de analiză a secvenţelor profil (1987; 1988), identificarea
pattern-urilor (1984), alinierea secvenţelor multiple (2011),
identificarea secvenţelor motifs (2011), algoritm de
corectare a erorilor (2011), algoritmul intervalului de
potrivire (2010; 2011) etc.
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
Biologia computaţională
Dezvoltarea biologiei computaţionale poate fi prezentată
din prisma următoarelor problematici:
Baze de date dedicate: GenBank, EMBL Data Library,
Allie, FungalRV, OryzaPG-DB, GlycoFly, dbOGAP,
Protein Information Management System (PiMS), UniProt
Knowledgebase, etc.
Reţele de calculatore care asigură disponibilizarea
datelor/informaţiilor şi facilitează distribuirea: EMBNET,
BIONET, GraphCrunch 2, OryzaExpress, iMAT,
Asynchronous Inference of Regulatory Networks (AIRnet),
FuzzyART, BioExtract Server, GNCPro, SpotXplore,
Gene Expression Browser, MetPA, BioNetCAD,
GeneMANIA, NeuroML, geWorkbench,
myExperiment, MetExplore, etc.
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
Biologia computaţională
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
Evoluţia publicaţiilor în biologia computaţională
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
Noţiuni de bază în biologia computaţională
Informaţia genetică: informaţia codificată în materialul genetic cu care este înzestrat orice organism viu (unicelular sau pluricelular). Aceasta este stocată în structura macromoleculară a ADN-ului (acidul dezoxiribonucleic), la nivelul ADN-ului nuclear (rol principal în stocarea informaţiei genetice) şi a ADN-ului extracelular.
Genotipul: totalitatea informaţiei genetice dintr-un organism.
Genomul (nuclear, celular): întreaga material genetic dintr-un organism. Genomul uman are o lungime de ~ 3 bilioane de perechi de baze şi conţine toate informaţia necesară pentru a crea toate proteinele.
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
Noţiuni de bază în biologia computaţională
Codul genetic: Set de reguli prin care informaţia din materialul genetic (ADN, ARNm - acidul ribonucleic mesager) este transformată în proteine (secvenţe de aminoacizi) în celulele vii.
Codonul: secvenţa de trei nucleotide ale macromoleculei de acid dezoxiribonucleic care codifică un aminoacid specific.
Secvenţa ADN (acidul dezoxiribonucleic): este formată din înşiruirea a 4 baze, 2 purinice (A -= adenina şi G = guanina) şi 2 pirimidinice (C = citozina şi T = timina, U = uracilul - ARN - acidul ribonucleic). Fiecare bază se leagă de complementul său (A-T şi C-G) astfel încât fiecare secvenţă are o secvenţă complementară unică.
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
Noţiuni de bază în biologia computaţională
Proteinele sunt secvenţe de aminoacizi; orice proteină poate fi văzută ca o şir de aminoacizi.
Evoluţia apare datorită schimbărilor genomice care pot fi de tip mutaţie sau recombinare. Mutaţiile sunt evenimente rare (pot apărea la nivelul unei singure baze) care pot determina evenimente importante. Recombinarea este modalitatea prin care genomul a fost construit plecând de la informaţia genetică primită de la părinte/părinţi. Prin selecţia naturală în genom tind să se acumuleze schimbările favorabile.
Algoritmii trebuie să fie corecţi şi eficienţi. De interes sunt acei algoritmi care sunt capabili să identifice cea mai bună soluţie posibilă la o problemă complexă bine definită.
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
31 Vocabular controlat
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
32 Vocabular controlat – terminologie standardizată
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
Ontologia Plantelor 33
Ontologie = teoria existenţei
https://gw.innocentive.com/ar/c
hallenge/9221029
http://www.plantontology.org/
Ontologia Plantelor
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
Ontologia Plantelor 34
http://wwwmgs.bionet.nsc.ru/mgs/dbases/pgek/GlossaABC.html?ANTHER
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
Ontologia Plantelor
http://www.obofoundry.org/ 35
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
Ontologia Plantelor
http://koios.generationcp.org/ontology-lookup/
36
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
Plant-Associated Microbe Gene Ontology
http://pamgo.vbi.vt.edu/
http://www.geneontology.org/
Ontologia Patologiilor Asociate
Plantelor
37
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
SoyBase Soybean Ontologies
http://soybase.org/ontology.php:
Dezvoltare
Structură
Creştere
Trăsătură
38
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
Resurse informaţionale
Analiza genomului la iarbă
http://www.gramene.org/
39
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
Resurse informaţionale
http://www.arabidopsis.org/
http://www.arabidopsis.info/
Resurse Informaţionale Arabidopsis
40
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
Reţeaua genetică http://wwwmgs.bionet.nsc.ru/mgs/gnw/genenet/applet_genenet_viewer.shtml
41
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
Genomul uman 42
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
43 Comoara îngropată
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
Biologia computaţională
Algoritmul: o secvenţă de instrucţiuni care trebuie aplicate
pentru a putea găsi o soluţie la o problemă formulată
corect:
Identifică corect problema
Problema = o clasă de sarcini computaţionale
Evoluţie strict legată de evoluţia calculatorului:
Viteza CPU vs. memorie: determinarea structurii unei
proteine necesită multe calcule dar memorie limitată;
căutarea genomului necesită puţine calcule dar
capacitate de memorare mare.
44
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
Biologia computaţională
Baze de date:
> 1000 baze de date
biologice online (mărime,
calitate, conţinut, nivel de
interes)
National Center for
Biotechnology
Information: : 30 baze de
date
Jurnale:
Journal of Computational
Biology
PLoS Computational Biology
Journal of Bioinformatics and
Computational Biology
Genome Biology
Genome Research
Computational Biology and
Chemistry
Molecular Systems Biology
45
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
46 Resurse ...
NCBI: http://www.ncbi.nlm.nih.gov/sites/gquery
Resurse biologie moleculară computaţională:
http://molbio.info.nih.gov/
Jurnale:
PLoS Computational Biology (Iunie 2005)
Bioinformatics
International Society for Computational Biology
http://www.iscb.org/
European Bioinformatics Institute (EMBL-EBI):
http://www.ebi.ac.uk/
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
47 47
Resurse ...
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE
48
”We are swimming in a rapidly rising sea of data. . . how do we keep
from drowning?”
Roos (2001). Science. 291:1260
48
Bio Wiki