74
Basi di dati biologiche [email protected] Luana Rinaldi Seminario per il corso di Basi di Dati II martedì 11 maggio 2010

Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

  • Upload
    voduong

  • View
    215

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Basi di dati biologiche

[email protected]

Luana Rinaldi

Seminario per il corso di Basi di Dati II

martedì 11 maggio 2010

Page 2: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

AGENDA:

• Introduzione alla bioinformatica;

• Concetti Biologici;

• Banche dati biologiche;

• Collaborazioni tra banche dati;

• Ricerca in banche dati biologiche;

martedì 11 maggio 2010

Page 3: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Introduzione alla bioinformaticaBioinformatics is “the study of the information content and information flow in biological systems and processes”.[Michael Liebman in “Bioinformatics: An Editorial Perspective” ](http://www.netsci.org/Science/Bioinform/feature01.html)

martedì 11 maggio 2010

Page 4: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Nascita della bioinformatica

fine anni ’80 [Hwa Lim (http://www.dtrends.com/HAL.html)]:

“Bioinformatics”

Applicazione di tecniche informatiche nel dominio applicativo delle scienze della vita

Definizione: “Studio del contenuto informativo e del flusso di informazione nei sistemi e nei processi correlati alla biologia”

[Micheal Liebman in Bioinformatics: An Editoria Perspective” (http://www.netsci.org/Science/Bioinform/feature01.html)]

martedì 11 maggio 2010

Page 5: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Bioinformatica: definizione

“Bioinformatics”

La bioinformatica è il campo della scienza in cui la biologia e l’informatica si fondono in un’unica disciplina per facilitare nuove scoperte biologiche e

determinare nuovi paradigmi computazionali sul modello dei sistemi viventi

[NCBI: National Center for Biotechnology Information --- www.ncbi.nih.gov/Education]

martedì 11 maggio 2010

Page 6: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Bioinformatica: ambiti applicativi

• Sviluppo di regole e algoritmi per l’analisi delle sequenze di acidi nucleici e proteine;

• Simulazione di processi biologici: dall’interazione tra coppie di proteine ai pathways metabolici (biologia dei sistemi);

• fornire modelli statistici validi per l'interpretazione dei dati provenienti da esperimenti di biologia molecolare e biochimica al fine di identificare tendenze e leggi numeriche;

• generare nuovi modelli e strumenti matematici per l'analisi di sequenze di DNA, RNA e proteine la fine di creare un corpus di conoscenze relative alla frequenza di sequenze rilevanti;

• organizzare le conoscenze acquisite a livello globale su genoma e proteoma in basi di dati al fine di rendere tali dati accessibili a tutti, e ottimizzare gli algoritmi di ricerca dei dati stessi per migliorarne l'accessibilità;

martedì 11 maggio 2010

Page 7: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Analisi di Sequenze

• Sequenze --> proteine, geni, regioni regolative, rna, dna

• 1977: prima sequenza nucleotidica;

• 1983: 2000 sequenze in banca dati;

• Strumenti e metodi per l’analisi delle sequenze sono alla base di tutta la bioinformatica;

martedì 11 maggio 2010

Page 8: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Annotazione Funzionale

• Ricerca in banche dati;

• Motivi funzionali;

• Identificazione di domini;

martedì 11 maggio 2010

Page 9: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Analisi filogenetiche

• Ricostruzione della storia evolutiva di geni e organismi basandosi sulle caratteristiche osservate sulle sequenze geniche e proteiche;

martedì 11 maggio 2010

Page 10: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Bioinformatica Strutturale

• 1958 - John Kendrew: servendosi della cristallografia a raggi X, riesce a definire in modo completo la struttura atomica della Mioglobina di Capodoglio, dimostrando che la proteina presentava una disposizione degli atomi ben ordinata, necessaria a definirne la sua funzione;

[Premio Nobel per la chimica (1962)]

martedì 11 maggio 2010

Page 11: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Predizione Strutturale

• Ricostruzione della struttura 3D di una proteina a partire dalla sua sequenza primaria;

martedì 11 maggio 2010

Page 12: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

prot 2

programma di docking

prot 1

Simulazioni

• Drug Design;

• Protein Design;

• Docking;

prot 1

prot 2

prot 1

prot 2

sol.1

sol.2

sol.3

prot 1

prot 2

.

.

.

martedì 11 maggio 2010

Page 13: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

GenomicaStudio del genoma degli organismi viventi. In particolare si occupa della struttura, contenuto, funzione ed evoluzione del genoma.

martedì 11 maggio 2010

Page 14: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Genomica

• Sequenziamento del DNA

• Assemblaggio:

Ricostruzione del genoma da milioni di sequenze;

• Annotazione Genomica:

Identificazione di geni, trascritti e regioni reogolative;

martedì 11 maggio 2010

Page 15: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Genomica ComparataConfronto tra i genomi di diversi organismi, nella loro organizzazione e sequenza.

martedì 11 maggio 2010

Page 16: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

System Biology

• Studio dei processi biologici, a livello cellulare e molecolare, considerati come sistemi composti da molte parti interagenti;

• Processo:

• Raccolta dati;

• Modello matematico;

• Simulazione e previsione;

• Verifica sperimentale;

martedì 11 maggio 2010

Page 17: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Analisi di testiEstrazione automatica di informazione scientifica dalla letteratura esistente.

martedì 11 maggio 2010

Page 18: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

OntologieClassificazione e ordinamento della conoscenza biologica.

martedì 11 maggio 2010

Page 19: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Cenni Biologici

martedì 11 maggio 2010

Page 20: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Genoma e DNA

Tutte le informazioni contenute nel DNA di un organismo vivente costituiscono il suo Genoma, contenuto in ciascuna cellula dell’organismo stesso

•Il DNA è un polimero (catena) di 4 acidi nucleici semplici, detti nucleotidi;

•Ciascun nucleotide è costituito di tre parti: una molecola di base + uno zucchero + un gruppo fosforico;

•Le basi sono 4:

•A = Adenina

•G = Guanina

•C = Citosina

•T = Timina

martedì 11 maggio 2010

Page 21: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

DNA - Acido desossiribonucleico

Il DNA è costituito da due sequenze nucleotidiche che assumono la caratteristica forma a spirale, legate tra loro da legami ad idrogeno

La lunghezza del DNA viene misurata in termini di coppie di basi

[ Il DNA umano è lungo 3.3 miliardi di coppie di basi]

martedì 11 maggio 2010

Page 22: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

DNA - Acido desossiribonucleico

Tra le basi vale la legge di complementarietà di Watson-Crick:

•Adenina si lega solo con Timina: A-T•Guanina si lega solo con Citosina: C-G

Quindi una sequenza determina completamente la sequenza complementare: questo consente di generare copie identiche dell’informazione immagazzinata nel DNA;

La direzione di ciascuna sequenza è convenzionalmente da 5’ a 3’: quindi le due sequenze di DNA sono complementari e antiparallele;

martedì 11 maggio 2010

Page 23: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Proteine

Le proteine sono le componenti primarie degli esseri viventi.

Tutte le proteine, nonostante le loro enormi differenze, sono composte dagli stessi 20 componenti di base: gli amminoacidi.

Gli amminoacidi sono legati tra loro attraverso il legame peptidico;

La sequenza amminoacidica è codificata direttamente dal materiale genetico (DNA), attraverso un processo detto sintesi proteica;

martedì 11 maggio 2010

Page 24: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Proteine

La sequenza polipeptidica possiede diversi gruppi laterali che, interagendo tra loro o con l’acqua circostante, provocano il ripiegamento (folding) della proteina stessa, generando così la struttura secondaria e terziaria. A volte, la proteina può ripiegarsi ulteriormente, generando la struttura quaternaria.

La struttura tridimensionale di una proteina è una delle principali aree di ricerca, in quanto spesso la forma è correlata alla funzione;

martedì 11 maggio 2010

Page 25: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Codice Genetico

Il codice genetico è lo schema attraverso cui la cellula traduce una sequenza di codoni (o triplette di basi) di RNA in una sequenza di amminoacidi durante la sintesi proteica

martedì 11 maggio 2010

Page 26: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

RNA - Acido Ribo-nucleico

L’RNA è un polimero simile al DNA, da cui però differisce per alcuni aspetti:

• è costituito da un’unica catena nucleotidica;

• i suoi nucleotidi sono composti da uno zucchero di tipo ribosio;

• la base azotata uracile sostituisce la timina, pur mantenendo valida la complementarietà con l’adenina;

Coinvolto nei processi di traduzione e trascrizione del DNA e nella successiva sintesi proteica.

martedì 11 maggio 2010

Page 27: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Concetti biologici utili alla bioinformatica

• La sequenza di DNA può essere trattata come una stringa sull’alfabeto {A,C,G,T};

• La sequenza primaria di una proteina può essere trattata come una stringa sull’alfabeto {A, R, D, N, C, E, Q, G, H, I, L, K, M, F, P, S, T, W, Y, V};

• Il DNA è formato da:

•[Esoni] Regioni codificanti: ovvero contenenti geni, cioè istruzioni per creare proteine;

•[Introni] Regioni non codificanti: ovvero senza una funzione conosciuta;

• Due o più sequenze di DNA o proteine si dicono omologhe se provengono da un antenato comune. L’omologia può anche indicare una funzione comune nelle sequenze in esame;

martedì 11 maggio 2010

Page 28: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Banche dati biologiche

!"#$"%&"'%

martedì 11 maggio 2010

Page 29: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Nascita delle banche dati biologiche

• Inizio anni 70: nasce la tecnologia del DNA ricombinante, che permette di manipolare le sequenze nucleotidiche e di capire la struttura, la funzione e l’organizzazione del DNA;

• Fine anni 70: pubblicazione dei primi dati genomici, con le prime sequenze nucleotidiche codificanti liberamente accessibili attraverso i rudimenti della rete disponibili a quel tempo tra le varie università;

• 1965: Margareth Dayhoff compila un atlante di proteine omologhe, studiando le relazioni tra le sequenze primarie; viene reso pubblico in versione elettronica nel 1970 nella banca dati NBRF (National Biomedical Research Foundation);

• 1981 [Kurt Stueber]: nasce nel Laboratorio Europeo di Biologia Molecolare (EMBL) ad Heidelberg l’EMBL-datalibrary (519 entries con sequenze di DNA e RNA);

• 1982 [Walter Goad]: nasce una banca dati simile negli USA, che darà vita alla GenBank;

• 1986: nel National Institute of Genetics in Mishima (Giappone) nasce un mirror della GeneBank, la DDBJ;

• 2001: Il Consorzio Pubblico Internazionale e la Celera Genomics forniscono dati del genoma umano completo, aprendo la strada ai progetti di sequenziamento a tappeto;

martedì 11 maggio 2010

Page 30: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Organizzazione di un database biologico- L’oggetto principale è la ENTRY, un’unità riconoscibile grazie ad un identificatore univoco, che possiede una descrizione organizzata in campi standardizzati riconoscibili grazie agli HEADERS univoci nella banca dati.

- Ogni banca dati presenta 2 versioni delle entries:

Flat File: un file di testo semplice, formattato, non interattivo;

HTML (o XML): interattivo, di facile consultazione;

- Ogni banca dati ha dei suoi codici univoci di identificazione e definisce le sue entries secondo un rigido standard, imponendo a priori un certo numero di possibili campi contrassegnati da tag specifici, che permettono l’utilizzo di questi file da parte di programmi automatici per l’information retrieval.

- Sia i flat-file che le pagine XML sono ricchi di cross-references, ossia riferimenti che rimandano ad altre banche dati generiche o specializzate. Si ottiene così una serie di informazioni spesso ridondanti.

martedì 11 maggio 2010

Page 31: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Esempio di ENTRY (EMBL-data library) (1/4)

Ogni linea comincia con due caratteri che indicano il codice: questo codice è sempre seguito da 3 spazi bianchi. Le informazioni cominciano quindi dal carattere in posizione 6.

• ID: identificatore della entry; tipo di molecola; divisione tassonomica; lunghezza bp;

• AC: accession number (identifica univocamente il record);

• SV-DT: versione e data di creazione della entry;

• DE: descrizione della entry;

• OS-OC: nome della specie, classificazione tassonomica;

ID AJ223854; SV 1; linear; mRNA; STD; MUS; 949 BP.XXAC AJ223854;XXDT 02-MAY-1998 (Rel. 55, Created)DT 23-SEP-2008 (Rel. 97, Last updated, Version 3)XXDE Mus musculus telethonin complete cDNAXXKW telethonin.XXOS Mus musculus (house mouse)OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia;OC Eutheria; Euarchontoglires; Glires; Rodentia; Sciurognathi; Muroidea;OC Muridae; Murinae; Mus.XX

martedì 11 maggio 2010

Page 32: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Esempio di ENTRY (2/4)

• RN, RA, RT, RL: informazioni bibliografiche;

RN [1]RP 1-949RA Ievolella C.;RT ;RL Submitted (10-FEB-1998) to the EMBL/GenBank/DDBJ databases.RL Ievolella C., CRIBI Biotechnology Centre, Universita' di Padova, vialeRL G.Colombo 3, 35121, ITALY.XXRN [2]RX DOI; 10.1038/72822RX PUBMED; 10655062.RA Moreira E.S., Wiltshire T.J., Faulkner G., Nilforoushan A., Vainzof M.,RA Suzuki O.T., Valle G., Reeves R., Zatz M., Passos-Bueno M.R., Jenne D.E.;RT "Limb-girdle muscular dystrophy type 2G is caused by mutations in the geneRT encoding the sarcomeric protein telethonin";RL Nat. Genet. 24(2):163-166(2000).XXRN [3]RX DOI; 10.1016/S0014-5793(97)01108-3RX PUBMED; 9350988.RA Valle G., Faulkner G.P., Deantoni A., Pacchioni B., Pallavicini A.,RA Pandolfo D., Tiso N., Toppo S., Trevisan S., Lanfranchi G.;RT "Telethonin, a novel sarcomeric protein of heart and skeletal muscle";RL FEBS Lett. 415(2):163-168(1997).XXDR Ensembl-Gn; ENSMUSG00000007877; Mus_musculus.DR Ensembl-Tr; ENSMUST00000008021; Mus_musculus.

martedì 11 maggio 2010

Page 33: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Esempio di ENTRY (3/4)

• FT (Feature Table): Regioni o siti della sequenza considerati interessanti ed eventuale link (cross-referencing);

FH Key Location/QualifiersFHFT source 1..949FT /organism="Mus musculus"FT /mol_type="mRNA"FT /tissue_lib="Stratagene cDNA library Uni-ZAP tm XR Vector"FT /tissue_type="Diaphram muscle"FT /db_xref="taxon:10090"FT 5'UTR 1..36FT /experiment="experimental evidence, no additional detailsFT recorded"FT polyA_site 928FT CDS 37..540FT /codon_start=1FT /product="telethonin"FT /function="sarcomeric protein"FT /db_xref="GOA:O70548"FT /db_xref="InterPro:IPR015667"FT /db_xref="MGI:1330233"FT /db_xref="UniProtKB/Swiss-Prot:O70548"FT /experiment="experimental evidence, no additional detailsFT recorded"FT /protein_id="CAA11585.1"FT /translation="MATSELSCQVSEENQERREAFWAEWKDLTLSTRPEEGCSLHEEDTFT QRHETYHRQGQCQAVVQRSPWLVMRLGILGRGLQEYQLPYQRVLPLPIFTPTKVGASKEFT EREETPIQLRELLALETALGGQCVERQDVAEITKQLPPVVPVSKPGPLRRTLSRSMSQEFT AQRG"FT 3'UTR 541..949FT /experiment="experimental evidence, no additional detailsFT recorded"XX

martedì 11 maggio 2010

Page 34: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Esempio di ENTRY (4/4)

• SQ: sequenza nucleotidica

SQ Sequence 949 BP; 215 A; 250 C; 331 G; 153 T; 0 other; aggagcagga catagcagag ggagcaatca gaaatcatgg ccacttcaga gctgagctgc 60 caagtgtctg aggagaacca ggaacgcagg gaagccttct gggctgagtg gaaagacctg 120 actctgtcta cccggccgga agagggatgc tccttgcacg aggaggatac acagaggcat 180 gagacctacc accggcaggg acagtgtcag gcggtggtac agcgctcacc atggctggtg 240 atgcgcctgg gtatcctcgg ccgtgggcta caggaatacc agctgccgta ccagcgggtg 300 ctgcccctac ccatcttcac gcccaccaag gtgggggcct ccaaggagga gcgcgaggag 360 acccccatcc agcttcggga gctgctggcc ctggagacgg ccctgggcgg ccagtgcgtg 420 gagcgccagg acgtggctga gatcacaaag cagcttcccc ctgtggtgcc agtcagcaaa 480 cccgggcccc tgcgccgtac cctgtctcga tccatgtctc aggaagctca gagaggctga 540 gatggactgt gtgactcaga ctccactgtg tctgtctcag gctaggcact tcctggctag 600 gacaatggag gagagctgct ggcagtggct gctttgtagt ttgcccagag gtgggagcta 660 tgggaggagg gagcccgagg ccaggatgcc taggtgtcct gagtccccac agggaaggga 720 gcgaggatgg cgggcactag gagtggagag ctgagcaccc tcagccccag aagaagagac 780 aagagatcct ggtgagagga gaggcccctg ggaatggcct gctcgggaac agatggacta 840 ggagaaggat gtgcaacgct ctggaaagga gggggatgtg aagagggtgg aagtgggcag 900 gcccccagca ccctctggta gcactgcaat aaatgctcag ccatgttca 949//

[per la descizione completa delle etichette dei campi è possibile consultare:

http://www.ebi.ac.uk/embl/Documentation/User_manual/usrman.html#2]

martedì 11 maggio 2010

Page 35: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Tipi di banche dati di interesse biologico

• Le banche dati possono essere suddivise

• per tipo:

• PRIMARIE;

• DERIVATE;

• per tipo di informazioni contenute;

• sequenze nucleotidiche;

• sequenze proteiche;

• strutture;

• letteratura;

• ....

martedì 11 maggio 2010

Page 36: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Banche dati primarie

Memorizzano essenzialmente le sequenze e poche altre informazioni generiche correlate alla sequenza per identificarla dal punto di vista specie-funzione (es: laboratorio dove è avvenuto il sequenziamento, data, specie, descrizione...).

Le banche dati primarie sono:

• (1980) [EBI] EMBL datalibrary: Europa

• (1982) [NCBI] GenBank: USA

• (1986) DDBJ: Giappone

Le tre organizzazioni utilizzando DBMS e modalità di accesso diversi:

• NCBI: DBMS personalizzato, accesso tramite Entrez;

• EBI/DDBJ: DMBS SRS Oracle, accesso tramite SRS;

In tutti i casi, la struttura della base dati è nascosta agli utenti;

martedì 11 maggio 2010

Page 37: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Sistemi di interrogazione alle banche dati

Esistono dei sistemi integrati che permettono di interrogare, attraverso il Web, in modo semplice ed intuitivo le banche dati biologiche. I tre sistemi principali sono:

Le banche dati primarie sono:

• ENTREZ: Associato a GenBank;

• SRS: Associato a EMBL;

• DBGET: Associato a DDBJ;

martedì 11 maggio 2010

Page 38: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

EBI - European Bioinformatics Institute

Hinxton - Cambridge (UK) - http://www.ebi.ac.uk/embl/

ricerca con parole-chiave

ricerca con accession number

martedì 11 maggio 2010

Page 39: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

EBI - European Bioinformatics Institute

Hinxton - Cambridge (UK) - http://www.ebi.ac.uk/embl/

• European Molecular Biology Laboratory (EMBL) Nucleotide Sequence Database è una completa collezione di sequenze nucleotidiche primarie, mantenuta all’European Bioinformatics Institute (EBI).

• I dati sono sottomessi da centri di ricerca genomica, ricercatori individuali o autori attestati, e sono immediatamente disponibili alla comunità.

• I database sono su base Oracle e l’interazione con essi è fornita via web tramite il Sequence Retrieval System (SRS), motore di ricerca proprio dell’EBI per i database biologici.

EMBL

162.000.000 sequenze

martedì 11 maggio 2010

Page 40: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

SRS

• è un sistema aperto, che può essere installato su calcolatori differenti (server) e può integrare banche dati strutturate su altri server SRS o altre banche dati, previa strutturazione o indicizzazione nel sistema SRS

martedì 11 maggio 2010

Page 41: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

NCBI - National Center for Biotechnology Information

http://www.ncbi.nlm.nih.gov/genbank/index.html

M14752!

martedì 11 maggio 2010

Page 42: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

NCBI - National Center for Biotechnology Information

http://www.ncbi.nlm.nih.gov/genbank/index.html

• E' un database di sequenze genetiche dell'National Institute of Healt statunitense. E' quindi una collezione annotata di tutte le sequenze di DNA disponibili pubblicamente;

• Accesso ai dati attraverso ENTREZ: sistema di interrogazione delle diverse basi dati gestite dall’NCBI che costituisce quindi un hub completo per la ricerca di informazioni.

• Offre anche la possibilità di effettuare ricerche di tipo bibliografico e, soprattutto, di avere un collegamento diretto tra i vari database (sequenza-struttura-mappa genetica-articolo)

martedì 11 maggio 2010

Page 43: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

ENTREZ

• sistema disponibile via web per la ricerca e l’estrazione dei dati da banche dati di sequenze nucleotidiche, proteiche, dalla banca dati bibliografica MEDLINE, dalla banca dati delle malattie mendeliane OMIN, e da ogni banca dati sviluppata dall’NCBI;

• Sistema CHIUSO, e non è possibile ottenere il software che gestisce il sistema;

martedì 11 maggio 2010

Page 44: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

DDBJ - DNA Data Bank of Japan

http://www.ddbj.nig.ac.jp/

martedì 11 maggio 2010

Page 45: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

DDBJ - DNA Data Bank of Japan

http://www.ddbj.nig.ac.jp/

• DNA Data Bank of Japan (DDBJ) ha iniziato la sua attività nel 1984.

• E' utilizzata soprattutto dai ricercatori giapponesi, ma ovviamente è utilizzabile da tutti attraverso internet.

martedì 11 maggio 2010

Page 46: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Banche dati proteiche

Un secondo grande aggregato di banche dati è quello per le sequenze proteiche, le quali possono essere ottenute in seguito a:

• Determinazione diretta della sequenza proteica;

• Traduzione di sequenze nucleotidiche per le quali sia stata individuata o predetta la funzione di gene codificante la proteina;

• Studi di espressione genica;

• Cristallografia e determinazione delle strutture secondarie e terziarie;

martedì 11 maggio 2010

Page 47: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Banche dati proteiche • (1986) SWISS-PROT (Protein knoledgebase): banca dati di riferimento sviluppata a Ginevra. Contiene informazioni accuratamente annotate, spesso a mano.

• (1996) TrEMBL (Translated EMBL): risultato della traduzione automatica in amminoacidi di tutte le sequenze annotate nella banca dati EMBL come codificanti proteine; supplemento a SWISS-PROT;

• PIR (Protein Information Resource): soprattutto indirizzato a definire gli standard di annotazione, con ridondanza minima;

Insieme hanno formato il consorzio UNIPROT, repository centralizzato di tutte le sequenze proteiche

martedì 11 maggio 2010

Page 48: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Banche dati di strutture

•wwPDB (world wide Protein Data Bank): banca dati di riferimento per i dati strutturali 3D di proteine, comprendente le coordinate atomiche determinate attraverso analisi cristallografiche ai raggi X, analisi NMR ed altre tecniche.

Comprende anche una sezione dedicata alle strutture delle proteine determinate tramite metodi computazionali.

Creata dalla collaborazione di RCSB (USA), MSD-EBI (EBI), PDBj (Giappone)

•MMDB (Entrez’s Molecular Modelling Database):

•NDB: banca dati di strutture di acidi nucleidi, soli o assieme a proteine;

•CSD: banca dati di strutture di piccole molecole organiche e organometalliche

martedì 11 maggio 2010

Page 49: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Banche dati derivate

Le banche dati primarie contengono tutte le sequenze conosciute di tutti gli organismi, genomiche di mRNA, etc...

Per rendere la ricerca di informazioni organizzata sono state costruite delle banche dati derivate che raggruppano solo dati relativi a specifici argomenti.

Esempi:

• Database di sequenze genomiche: GDB (uomo), MGI (topo), SGD (lievito);

• Database di geni e trascritti: UniGene, LocusLink, dbEST, etc...

Esistono poi dei database integrati che raggruppano i dati provenienti da differenti database fornendo informazioni particolareggiate di argomenti specifici.

martedì 11 maggio 2010

Page 50: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Database ‘non ridondanti’

Nei database primari sono inserite tutte le sequenze conosciute ottenute sperimentalmente e/o ricostruite

La stessa regione genomica o lo stesso trascritto possono essere stati sequenziati più volte

RIDONDANZA

Per evitare questo problema sono stati creati dei database ‘semplificati’ senza ripetizione di informazioni. In particolare:

• RefSeq: sequenze genomiche, mRNA, proteine;

• UniGene: sequenze ottenute dal sequenziamento dei trascritti (mRNA)

• Gene: (sottoinsieme di RefSeq) sequenze geniche;

martedì 11 maggio 2010

Page 51: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Domini Proteici

Molte proteine, specialmente quelle di grandi dimensioni, sono formate da più parti funzionali organizzate in strutture tridimensionali distinte che vengono chiamate domini proteici.

Esempio:

alcuni fattori di trascrizione del DNA hanno due domini, uno in grado di legarsi con una particolare sequenza di DNA, l’altro in grado di attivare la trascrizione.

Proteine formate da più di un dominio si sono probabilmente evolute per fusione di geni che contenevano tali domini.

martedì 11 maggio 2010

Page 52: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Banche dati di domini proteici

Database contenenti domini funzionali delle proteine:

• PFAM: (http://pfam.sanger.ac.uk) Banca dati di famiglie di proteine accomunate da elementi strutturali e funzionali;

• PROSITE: (http://www.expasy.org/prosite) Annota patterns amminoacidici individuati in un set di sequenze proteiche attraverso analisi in silicio e studi sperimentali

• SMART: (http://smart.embl.de) Risorsa che raccoglie dati relativi a domini proteici e consente la ricerca di domini in nuove sequenze proteiche

• InterPro: (http://www.ebi.ac.uk/interpro) Raccoglie informazioni strutturali e funzionali relativi ad una proteina o ad una famiglia di proteine. Comprende PROSITE e PFAM

martedì 11 maggio 2010

Page 53: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Sottomissione di sequenze

Esistono più di 20 differenti tipi di formati per la sottomissione di sequenze ad una banca dati:

Esiste la necessità di avere quindi un sistema che possa effettuare la conversione da un formato all’altro...

martedì 11 maggio 2010

Page 54: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

ReadSeq: http://www.ebi.ac.uk/cgi-bin/

Software disponibile sul web che effettua la conversione di diversi formati di file sequenze

martedì 11 maggio 2010

Page 55: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Il formato FASTA

Spesso i programmi che effettuano analisi bioinformatiche sulle sequenze richiedono che esse vengano date come input in un formato particolare: FASTA Format;

FASTA è un formato per la descrizione di una sequenza ‘grezza’. Consiste essenzialmente in una parte iniziale di intestazione, di solito limitata ad una linea di testo, e da una o più linee che riportano una sequenza di DNA o di amminoacidi, usando l’alfabeto standard.

martedì 11 maggio 2010

Page 56: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Collaborazioni tra banche dati

!"#$%#&'

(($)'

*+$,'

-.$/'

./$'

*$/'

*#01"2'

3"0"#014'

565'

789:;77;<#7'8=>%0"7'

789:;77;<#7'8=>%0"7'

789:;77;<#7'8=>%0"7'

!"#$%&'($

!")$

martedì 11 maggio 2010

Page 57: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

The International Nucleotide Sequence Database Collaboration

• EMBL, GenBank e DDBJ collaborano dal 1982. Ogni database mantiene e processa nuovi dati e sequenze e informazioni biologiche ad esse correlate, sottomesse dagli scienziati e ricercatori delle loro regioni;

• Questi tre database si sincronizzano automaticamente tra loro ogni 24 ore. Il risultato di questa sincronizzazione è che ogni database contiene esattamente le stesse informazioni, ad eccezione delle sequenze sottomesse nell’ultima giornata;

martedì 11 maggio 2010

Page 58: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

The International Nucleotide Sequence Database Collaboration

• La sincronizzazione è organizzata secondo regole pubblicate e standardizzate dall’International Advisory Board.

• Le linee guida consistono nella definizione delle tabelle del database, che regolano quindi il contenuto e la sintassi di ogni nuova entry.

• Il formato delle linee guida è DDT.

• La sintassi è chiamata INSDSeq, e consiste principalmente nello stabilire le lettere accettate per la codifica delle sequenze nucleotidiche e amminoacidiche.

martedì 11 maggio 2010

Page 59: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Il problema della nomenclatura

• Non esiste uno standard di assegnazione dei nomi ai geni; uno stesso gene può avere diversi nomi, o uno stesso nome può individuare diversi geni;

• I geni possono essere catalogati in base agli organismi a cui appartengono, alla loro attivazione nel corso dello sviluppo di un organismo, alla funzione e alla struttura delle proteine codificate;

• Il problema della nomenclatura è stato risolto assegnando ad ogni nuova entry nella basi di dati un numero di serie, in modo da poter identificare ogni sequenza in modo univodo: ACCESSION NUMBER

martedì 11 maggio 2010

Page 60: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Ricerche in banche dati

martedì 11 maggio 2010

Page 61: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

L’importanza della similarità

• Due sequenze simili potrebbero derivare dalla stessa sequenza ancestrale, avere quindi la stessa struttura, o una funzione biologica simile

martedì 11 maggio 2010

Page 62: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

L’importanza della similarità

martedì 11 maggio 2010

Page 63: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Allineamento di sequenze

• Il passo base per la ricerca di similarità è l’allineamento di due o più sequenze;

• La similarità tra due o più sequenze si verifica effettuando prima un allineamento tra le sequenze in esame, e poi decidendo se le eventuali parti comuni sono più facilmente dovute al caso o ad una effettiva relazione tra loro;

• Esistono due tipi di allineamento:

• GLOBALE: si tenta di allineare il massimo numero di caratteri delle due sequenze, incluse le parti finali. Candidate ideali sono le sequenze di lunghezza simile;

• LOCALE: si tenta di allineare solo pezzi di sequenze molto simili. L’allineamento termina quando termina l’isola di forte match. Candidate ideali sono sequenze con lunghezze diverse, che presentano regioni fortemente conservate;

martedì 11 maggio 2010

Page 64: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Misure di similarità

Le mutazioni delle sequenze genetiche sono alla base dell’evoluzione. Esse sono dovute principalmente a:

• mutazioni in siti differenti di una sequenza occorrono in maniera indipendente;

• la rilevazione di mutazioni conservative è più probabile quando le due sequenze sono correlate e meno probabile quando l’allineamento è casuale;

• la lunghezza di un GAP (spazi inseriti per mantenere l’allineamento) non è correlata agli elementi allineati con il GAP stesso;

Il punteggio totale assegnato ad un allineamento è una somma di termini: un termine per ciascuna coppia di residui allineati, più un termine per ciascun GAP.

martedì 11 maggio 2010

Page 65: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Matrici BLOSUM

[1992 da S. Henikoff e J.G. Henikoff]

Introdotte per attribuire un punteggio alle sostituzioni nei confronti tra sequenze aminoacidiche.

martedì 11 maggio 2010

Page 66: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Algoritmi per l’allineamento

I principali metodi di allineamento a coppie sono:

• Algoritmi di Programmazione Dinamica:

• Needleman & Wunsh: (1970) allineamento globale

• SMith & Watermann: (1981) allineamento locale

• Tecniche euristiche:

• FASTA

• BLAST

martedì 11 maggio 2010

Page 67: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Algoritmi di Programmazione dinamica

- Algoritmo di Needlemann & Wunsch: è un algoritmo dinamico che permette di trovare l’allineamento globale ottimo. Calcola ricorsivamente l’allineamento ottimo per sottosequenze via via più lunghe.

Complessità computazionale:

Spazio: S(mn)

Tempo: O(mn)

-Algoritmo di Smith & Watermann: è una variante dell’algoritmo N-W che permette di trovare l’allineamento locale ottimo. Non ci sono punteggi negativi. L’opzione zero corrisponde all’iniziare un nuovo allineamento.

Complessità computazionale:

Spazio: S(mn)

Tempo: O(mn)

martedì 11 maggio 2010

Page 68: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Algoritmi euristici per l’allineamento

Gli algoritmi di programmazione dinamica trovano allineamenti ottimi, ma sono troppo lenti nei casi pratici, come ad esempio una ricerca su una banca dati.

Si utilizzano allora degli algoritmi euristici che migliorano le prestazioni a scapito della qualità della soluzione.

Due applicativi simili che usano queste tecniche sono FASTA e BLAST. Per entrambi è difficile valutare in modo preciso sia l’efficienza che l’affidabilità.

martedì 11 maggio 2010

Page 69: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

FAST-All (Lipman, Pearson 1985)

Consente di cercare una sequenza (detta query) in un database di sequenze (dette subject). Prevede tre fasi:

1-indicizzazione: la query viene divisa in parole di lunghezza prefissata e si memorizzano tutte le posizioni di inizio parola. Viene costruita una lookup-table.

2-ricerca: ogni volta che il programma trova una parola coincidente su entrambe le sequenze, viene memorizzata nella lookup-table (indice). Una volta terminata la lettura, vengono estratte le più lunghe e su di esse viene effettuato l’allineamento locale. Alla fine della fase viene compilata una graduatoria di similarità su questi allineamenti.

3-raffinamento: il programma tenta di migliorare l’allineamento congiungendo le best initial region con gap. Sulle sequenze che hanno ottenuto i migliori punteggi viene applicata una variante dell’algoritmo SW, che restringe l’analisi delle best initial region congiunte.

martedì 11 maggio 2010

Page 70: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

FAST-All (Lipman, Pearson 1985)

martedì 11 maggio 2010

Page 71: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

BLAST (Altshul 1990)

Basic local alligment search tool: ottimizzato per trovare allineamenti locali privi di gap. L’algoritmo prevede tre fasi:

1- leggendo la sequenza query viene formato un elenco di parole di lunghezza W. Per ognuna viene creata una lista di parole affini (W-mers): vengono considerati tutti i W-mers che superano una soglia T quando viene allineato con la parola della query;

2-vengono esaminate tutte le sequenze subject, per cercare la presenza di tutti i W-mers dell’elenco. Ogni corrispondenza trovata viene considerata come parte di un allineamento più esteso.

3- viene considerata la possibilità di estendere ogni hit in entrambe le direzioni, senza l’aggiunta di gap. Si ottiene quindi un allineamento locale detto HSP (High Scoring Segment Pair)

martedì 11 maggio 2010

Page 72: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

BLAST (Altshul 1990)

martedì 11 maggio 2010

Page 73: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

BLAST (Altshul 1990)

martedì 11 maggio 2010

Page 74: Basi di dati biologiche - torlone.dia.uniroma3.ittorlone.dia.uniroma3.it/bd2/bd-biologiche.pdf · Predizione Strutturale • Ricostruzione della struttura 3D di una proteina a partire

Basi di dati biologiche

[email protected]

Luana Rinaldi

Seminario per il corso di Basi di Dati II

martedì 11 maggio 2010