57
Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

Embed Size (px)

Citation preview

Page 1: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

BioinformaticaBanche dati biologiche

25-03-2011

Prof. Alfredo Ferro

Page 2: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

Organismi e sequenze biologiche Rappresentazione digitale dei dati biologici e

formati Banche dati generiche: NCBI, EMBL, DDBJ NCBI: Entrez, Nucleotide, Gene, Protein BLAST Pubmed

Banche dati biologicheBanche dati biologiche

25-03-20112 Bioinformatica: Banche dati biologiche

Page 3: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

Gli organismi viventi: classificazione Nelle scienze biologiche la classificazione è

un concetto che si riferisce alle modalità con le quali i biologi raggruppano e categorizzano gli organismi viventi.

La filogenesi è il processo evolutivo degli organismi viventi dalla loro comparsa sulla terra a oggi

La classificazione filogenetica è un sistema artificiale che consente di identificare i gruppi tassonomici degli organismi viventi sulla base dei loro rapporti evolutivi

25-03-20113 Bioinformatica: Banche dati biologiche

Page 4: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

Gli organismi viventi: classificazione La moderna classificazione scientifica è il

frutto della categorizzazione operata da Linneo e riletta secondo le teorie di Darwin

Col sistema linneano ogni organismo viene posizionato, mediante una scala gerarchica, in una serie di gruppi tassonomici, detti taxa (taxon al singolare). Le suddivisioni principali, dal più generico al più specifico, sono: Dominio, Regno, Phylum, Classe, Ordine, Famiglia, Genere e Specie.

25-03-20114 Bioinformatica: Banche dati biologiche

Page 5: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

Classificazione: esempi

Drosophila melanogaster

(moscerino della frutta)

Dominio Eukaryota

Regno Animalia

Phylum Arthropoda

Classe Insecta

Ordine Diptera

Famiglia Drosophilidae

Genere Drosophila

Specie melanogaster

Homo sapiens

Dominio Eukaryota

Regno Animalia

Phylum Chordata

Classe Mammalia

Ordine Primates

Famiglia Hominidae

Genere Homo

Specie sapiens

25-03-20115 Bioinformatica: Banche dati biologiche

Page 6: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

Organismi: nomenclatura La nomenclatura binomiale è una

convenzione standard utilizzata in biologia per conferire il nome ad una specie.

Il nome scientifico di una specie viene coniato dalla combinazione di due nomi: il nome del genere a cui appartiene la specie un epiteto che caratterizza e distingue quella

specie dalle altre appartenenti a quel genere. Il primo termine (nome generico) porta

sempre l' iniziale maiuscola, mentre il secondo termine (nome specifico) viene scritto in minuscolo; entrambi i nomi vanno inoltre scritti in corsivo

25-0320116 Bioinformatica: Banche dati biologiche

Page 7: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

Nomenclatura: esempi

25-0320117 Bioinformatica: Banche dati biologiche

Genere Specie Nome comune

Apis mellifera Ape

Arabidopsis thaliana Arabetta comune

Bombyx mori Baco da seta

Bos taurus Toro

Canis familiaris Cane domestico

Drosophila melanogaster Moscerino della frutta

Gallus gallus Gallo

Homo sapiens Uomo

Macaca mulatta Macaco

Mus musculus Topo

Ovis aries Pecora

Pan troglodytes Scimpanzè

Rattus norvegicus Ratto

Zea mays Mais

Page 8: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

I GeniI Geni Il gene è l’unità ereditaria e funzionale degli

organismi viventi; ad esso sono associate molteplici informazioni:

GeneGene

Sequenze omologhein altri genomi

AnalisiFilogenetica

Sequenza Localizzazionegenomica

Struttura

Proteina(Funzione)

25-0320118 Bioinformatica: Banche dati biologiche

Page 9: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

Le sequenze biologicheLe sequenze biologiche Le sequenze nucleotidiche vengono

rappresentate mediante stringhe su un alfabeto di 4 caratteri (A, C, G, T), nelle quali ciascun carattere rappresenta un singolo nucleotide.

Analogamente le sequenze proteiche (o aminoacidiche) vengono rappresentate mediante stringhe su un alfabeto di 20 caratteri, ciascuno dei quali rappresenta un singolo aminoacido.

25-0320119 Bioinformatica: Banche dati biologiche

Page 10: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

L’alfabeto di DNA e RNAL’alfabeto di DNA e RNA

DNA

A Adenina

C Citosina

G Guanina

T Timina

RNA

A Adenina

C Citosina

G Guanina

U Uracile

Page 11: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

L’alfabeto delle proteineL’alfabeto delle proteine

A Alanina C Cisteina D Acido Aspartico

E Acido Glutammico F Fenilalanina G Glicina

H Istidina I Isoleucina K Lisina

L Leucina M Metionina N Asparagina

P Prolina Q Glutammina R Arginina

S Serina T Treonina Y Tirosina

V Valina W Triptofano

Page 12: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

Lo Standard IUB/IUPACLo Standard IUB/IUPAC

Aminoacidi

A Alanina B Acido Aspartico o Asparagina C Cisteina

D Acido Aspartico E Acido Glutammico F Fenilalanina

G Glicina H Istidina I Isoleucina

K Lisina L Leucina M Metionina

N Asparagina P Prolina Q Glutammina

R Arginina S Serina T Treonina

U Selenocisteina V Valina W Triptofano

Y Tirosina Z Acido Glutammico o Glutammina X Qualsiasi (Any)

* Stop traduzione - Gap

Acidi Nucleici

A Adenina R G o A (Purine) B G T C

C Citosina Y T o C (Pirimidine) D G A T

G Guanina K G o T H A C T

T Timina M A o C V G C A

U Uracile W A o T N A C G T (Any)

- Gap

25-03-201112 Bioinformatica: Banche dati biologiche

Page 13: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

Organismi e sequenze biologiche Rappresentazione digitale dei dati biologici e

formati Banche dati generiche: NCBI, EMBL, DDBJ NCBI: Entrez, Nucleotide, Gene, Protein BLAST Pubmed

OutlineOutline

25-03-201113 Bioinformatica: Banche dati biologiche

Page 14: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

Lo sviluppo delle biotecnologie molecolari ha portato alla produzione di enormi quantità di dati biologici.

Le banche dati sono progettate come contenitori costruiti per immagazzinare dati in modo efficiente e razionale al fine di renderli facilmente accessibili a tutti gli utenti: ricercatori, medici, biologi, studenti, etc. . .

Il fine ultimo è quello di recuperare ed analizzare questi dati mediante gli appositi tool di cui ciascun database dispone.

MotivazioniMotivazioni

25-03-201114 Bioinformatica: Banche dati biologiche

Page 15: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

I Database BiologiciI Database Biologici

Numerose sono oggi le banche dati biologiche esistenti: Banche dati primarie (sequenze nucleotidiche e

aminoacidiche) Banche dati specializzate (domini e motivi proteici,

strutture proteiche, geni, trascrittoma, profili di espressione, pathways metaboliche, etc)

25-03-201115 Bioinformatica: Banche dati biologiche

Page 16: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

Organizzazione delle banche datiOrganizzazione delle banche dati

Le banche dati biologiche raccolgono informazioni e dati derivati da: Letteratura; Analisi di laboratorio (in vitro e in vivo); Analisi bioinformatiche (in silico).

Ogni banca dati è caratterizzata da un elemento biologico centrale che costituisce l’oggetto intorno al quale viene costruita la entry principale della banca dati.

25-03-201116 Bioinformatica: Banche dati biologiche

Page 17: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

Organizzazione delle banche dati (2)Organizzazione delle banche dati (2)

Ciascuna entry raccoglie quindi le informazioni che caratterizzano l’elemento centrale (attributi).

Molte banche dati biologiche sono fruibili da parte della comunità scientifica in formato flat-file, cioè file sequenziali nei quali ogni classe di informazione è riportata su una o più linee consecutive identificate da un particolare codice.

Tali file sono dunque semplici file di testo strutturati in modo tale da essere analizzabili mediante opportuni tool in grado di estrarre le informazioni di interesse.

25-03-201117 Bioinformatica: Banche dati biologiche

Page 18: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

Database e tool bionformaticiDatabase e tool bionformatici

La maggior parte delle banche dati mettono a disposizione dei tool bioinformatici per l’elaborazione di questi dati, tra i quali: Tool per lo screening di banche dati (BLAST, FASTA); Tool per l’allineamento multiplo di sequenze

(ClustalW, AntiClustAl, T-Coffee, ProbCons …); Tool per l’identificazione di esoni ed elementi

regolativi che caratterizzano un gene – Gene and Promoter Prediction (GenScan, Promoser, … );

25-03-201118 Bioinformatica: Banche dati biologiche

Page 19: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

Il problema della nomenclaturaIl problema della nomenclatura

Uno dei principali problemi legati alle banche dati biologiche è quello della nomenclatura.

Uno stesso gene può avere diversi nomi (Es. TRF2 è anche noto come TLP o TLF), o uno stesso nome può individuare diversi geni (Es. TRF sta per TBP Related Factor ma anche per Transferrina o ancora per Telomeric Repeat Binding Factor).

Occorre quindi un modo per individuare univocamente i geni e le proteine, e per gestire la grande quantità di informazioni ad essi legate: nelle banche dati primarie ogni elemento (gene, sequenza, etc) è individuato univocamente da un accession number.

25-03-201119 Bioinformatica: Banche dati biologiche

Page 20: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

Organismi e sequenze biologiche Rappresentazione digitale dei dati biologici e

formati Banche dati generiche: NCBI, EMBL, DDBJ NCBI: Entrez, Nucleotide, Gene, Protein BLAST Pubmed

OutlineOutline

25-03-201120 Bioinformatica: Banche dati biologiche

Page 21: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

Banche dati primarieBanche dati primarie

Le banche dati primarie contengono sequenze nucleotidiche (DNA e RNA) e aminoacidiche (proteine).

Esistono tre banche dati primarie: GenBank (NCBI – National Center for Biotechnology

Information). EMBL datalibrary (EMBL – European Molecular Biology

Laboratory). DDBJ (DNA Database of Japan)

Questi istituti cooperano tra loro al fine di condividere e rendere pubblicamente disponibili tutti i dati di cui dispongono e differiscono tra loro solamente per il formato con cui tali dati vengono rilasciati.

25-03-201121 Bioinformatica: Banche dati biologiche

Page 22: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

Organismi e sequenze biologiche Rappresentazione digitale dei dati biologici e

formati Banche dati generiche: NCBI, EMBL, DDBJ NCBI: Entrez, Nucleotide, Gene, Protein BLAST Pubmed

OutlineOutline

25-03-201122 Bioinformatica: Banche dati biologiche

Page 23: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

NCBINCBI

NCBI (National Center for Biotechnology Information) è l’istituto americano che ospita GenBank, una delle tre banche dati primarie di sequenze nucleotidiche (http://www.ncbi.nlm.nih.gov).

NCBI offre anche svariati strumenti per l’analisi di dati biologici tra cui BLAST, un tool che permette di effettuare ricerche per similarità nei database di sequenze.

25-03-201123 Bioinformatica: Banche dati biologiche

Page 24: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

I principali DB di NCBI Gene

Contiene dati inerenti i geni di tutte le specie caratterizzate, quali la struttura genica ed il contesto genomico, le ontologie, le interazioni con altri geni ed i link alle sequenze ed alla relative pubblicazioni scientifiche.

Nucleotide Contiene le sequenze nucleotidiche di tutte le specie

caratterizzate, siano esse codificanti o meno. Protein

Ha la stessa struttura di Nucleotide ma è relativo alle sequenze aminoacidiche.

Pubmed E’ il database delle pubblicazioni scientifiche di carattere

biologico e biomedico. Per ogni articolo è disponibile l’abstract. Pubmed Central contiene articoli completi scaricabili gratuitamente.

25-03-2011Bioinformatica: Banche dati biologiche24

Page 25: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

EntrezEntrez I vari database di NCBI sono accessibili mediante

un unico motore di ricerca che prende il nome di Entrez:

http://www.ncbi.nlm.nih.gov/Entrez/index.html

25-03-201125 Bioinformatica: Banche dati biologiche

Page 26: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

Esempio di ricerca: BAXEsempio di ricerca: BAX Ricerchiamo i dati relativi al gene BAX in Homo sapiens

utilizzando Entrez:

Page 27: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

Esempio: BAX – Database: GeneEsempio: BAX – Database: Gene

Page 28: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

Esempio: BAX su GeneEsempio: BAX su Gene Informazioni generali

La prima parte della pagina contiene il simbolo (BAX) ed il nome ufficiale del gene (BCL2-associated X protein).

Vengono specificati il tipo di gene (Protein coding – codificante per proteina), l’organismo (Homo sapiens) e la tassonomia (lineage).

Viene inoltre data una panoramica sulle funzioni principali del gene (summary).

25-03-201128 Bioinformatica: Banche dati biologiche

Page 29: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

Esempio: BAX su GeneEsempio: BAX su Gene Regioni genomiche, trascritti e prodotti

In questa sezione viene mostrato il grafico della struttura del gene.

Ogni riga rappresenta una variante di splicing (le varianti differiscono nel numero e nelle dimensioni degli esoni, indicati da rettangolini, gli introni sono rappresentati dalle linee sottili).

I rettangolini (esoni) possono essere rossi (codificanti) o blu (non codificanti: UTR).

A sinistra di ogni isoforma è presente il link alla sequenza nucleotidica dell’mRNA maturo relativo.

A destra di ogni isoforma è presenta il link alla sequenza della proteina corrispondente.

In alto è presente il link alla sequenza completa del gene (UTR, esoni ed introni).

E’ possibile cliccare sui singoli elementi della figura per ottenere la sequenza relativa.

25-03-201129 Bioinformatica: Banche dati biologiche

Page 30: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

Esempio: BAX su GeneEsempio: BAX su Gene Contesto genomico

Il grafico del contesto genomico mostra la regione genomica che contiene il gene ed i geni limitrofi.

Le frecce indicano il filamento (destra: senso, sinistra: antisenso). In questo caso BAX si trova sul filamento senso.

Interazioni con HIV ed altre proteine cellulari In una sezione successiva sono mostrate le interazioni della

proteina BAX con HIV. Segue la lista delle interazioni note di BAX con tutte le proteine

cellulari. Altre informazioni

Di seguito sono riportati i fenotipi patologici correlati a BAX (Colorectal cancer e T-cell acute lymphoblastic leukemia), i link alle pathway in cui BAX è coinvolto (Database KEGG) e le annotazioni ontologiche di BAX (Processi, funzioni e localizzazione cellulare).

25-03-201130 Bioinformatica (3): Banche dati biologiche

Page 31: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

Esempio: Gene TableEsempio: Gene Table Selezionando nella tendina in alto (Display) la voce Gene Table, si

ottiene la tabella numerica con le informazioni sulla struttura del gene.

25-03-201131 Bioinformatica (3): Banche dati biologiche

Page 32: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

Esempio: BAX su NucleotideEsempio: BAX su Nucleotide Cliccando sui link a sinistra delle isoforme, nella struttura

genica, si può ottenere direttamente la sequenza dell’mRNA (In formato Fasta) o la pagina di Genbank relativa a BAX (Database Nucleotide).

GenBank – Informazioni generali Tra le informazioni più rilevanti troviamo il LOCUS (NM_138764),

ovvero il codice identificativo univoco della sequenza, la lunghezza della sequenza (986 bp – base pairs) ed il tipo di sequenza (mRNA).

Segue la lista delle pubblicazioni relative a BAX. Vengono dati dettagli sulle regioni della sequenza

La sequenza codificante (CDS) è compresa tra 70 e 564. Ciò significa che le sequenze 5’ UTR e 3’UTR andranno rispettivamente da 1 a 69 e da 565 a 986.

In fondo alla pagina viene riportata la sequenza nucleotidica, alla quale si può accedere anche in formato FASTA cliccando sul link corrispondente nella stessa pagina, in alto.

25-03-201132 Bioinformatica (3): Banche dati biologiche

Page 33: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

Esempio: BAX su ProteinEsempio: BAX su Protein Cliccando sui link a destra delle isoforme, nella

struttura genica, si può ottenere direttamente la sequenza della proteina (In formato Fasta) o la pagina di GenPept relativa a BAX (Database Proteine).

GenPept – Informazioni generali Tra le informazioni più rilevanti troviamo il LOCUS

(NP_620119), ovvero il codice identificativo univoco della sequenza e la lunghezza della sequenza (164 aa – aminoacidi).

Segue la lista delle pubblicazioni relative a BAX. In fondo alla pagina viene riportata la sequenza

aminoacidica, alla quale si può accedere anche in formato FASTA cliccando sul link corrispondente nella stessa pagina, in alto.

25-03-201133 Bioinformatica (3): Banche dati biologiche

Page 34: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

Organismi e sequenze biologiche Rappresentazione digitale dei dati biologici e

formati Banche dati generiche: NCBI, EMBL, DDBJ NCBI: Entrez, Nucleotide, Gene, Protein BLAST Pubmed

OutlineOutline

25-03-201134 Bioinformatica: Banche dati biologiche

Page 35: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

Ricerca per similaritàRicerca per similarità Una delle operazioni più comuni ed utili su una

base di dati biologica è la ricerca di sequenze simili ad una sequenza data in input.

Il tool più popolare per questo tipo di ricerche è BLAST (Basic Local Alignment Search Tool).

BLAST esegue confronti fra coppie di sequenze alla ricerca di regioni di similarità, piuttosto che un allineamento globale tra le intere sequenze.

BLAST può eseguire migliaia di confronti fra sequenze in pochi minuti e in poco tempo è possibile confrontare una sequenza query con l’intero database per ricercare tutte le sequenze simili ad essa.

Page 36: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

Come funziona BLAST?Come funziona BLAST?

Ecco i passi dell’algoritmo di BLAST:

1. Si estraggono tutte le possibili word di m lettere dalla sequenza query (m=3 per le proteine, m=11 per il DNA).

2. Per ogni word della sequenza da esaminare viene costruita una lista di possibili words che, se confrontate con la sequenza in questione, hanno un punteggio superiore ad un valore-soglia T (compreso fra 11 e 15) calcolato di volta in volta in base alla composizione e alla lunghezza della sequenza in esame.

Page 37: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

Come funziona BLAST? (2)Come funziona BLAST? (2)3.3. Si confronta la lista di Si confronta la lista di wordswords con le sequenze contenute con le sequenze contenute

nel database alla ricerca di matches esatti:nel database alla ricerca di matches esatti:

4.4. Quando viene riscontrata una corrispondenza (Quando viene riscontrata una corrispondenza (hithit), essa ), essa viene estesa a monte e a valle per vedere se è possibile viene estesa a monte e a valle per vedere se è possibile definire un tratto di sequenza in grado di raggiungere un definire un tratto di sequenza in grado di raggiungere un punteggio superiore ad un punteggio superiore ad un valore-sogliavalore-soglia SS..

Page 38: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

Come funziona BLAST? (3)Come funziona BLAST? (3)

Page 39: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

NCBI BLASTNCBI BLAST L’implementazione più popolare dell’algoritmo BLAST

si trova sul sito dell’NCBI:

http://www.ncbi.nlm.nih.gov/BLAST

Sono disponibili numerosi tipi di BLAST; quelli su cui concentreremo la nostra attenzione sono:

BLASTN (Nucleotidi – Nucleotidi); BLASTP (Proteine - Proteine); TBLASTN (Translated BLAST Nucleotide); BL2SEQ (Blast 2 sequences).

Page 40: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

BLASTN: Esempio con BCL2BLASTN: Esempio con BCL2

Selezioniamo nucleotide blast

Inseriamo la sequenza (o scegliamo un file da uploadare)Scegliamo database e organismo

Scegliamo il programma giusto (blastn)

Page 41: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

BLASTN: Esempio BCL2 (2)BLASTN: Esempio BCL2 (2)E’ possibile utilizzare un filtro per mascherare segmenti a bassa complessità composizionale, ovvero il cui matching avrebbe scarso significato biologico.

E’ possibile utilizzare un filtro per mascherare segmenti a bassa complessità composizionale, ovvero il cui matching avrebbe scarso significato biologico.

E’ possibile cambiare la soglia di significanza statistica. Ogni match trovato ha un valore di significanza statistica, che indica quanto è statisticamente probabile che quel match sia casuale.

E’ possibile cambiare la soglia di significanza statistica. Ogni match trovato ha un valore di significanza statistica, che indica quanto è statisticamente probabile che quel match sia casuale.

E’ possibile variare la soglia così che matches con significanza maggiore della soglia impostata non vengano visualizzati. Abbassando la soglia avremo in output un minor numero di matches ma più significativi, avendo eliminato tutti quei matches che hanno un’alta probabilità di essere casuali.

Page 42: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

BLASTN: Esempio BCL2 (3)BLASTN: Esempio BCL2 (3)

E’ anche possibile cambiare la dimensione delle words della query che BLAST va a ricercare nel database. Il valore di default per le sequenze nucleotidiche è 11, per quelle proteiche 3.

E’ anche possibile cambiare la dimensione delle words della query che BLAST va a ricercare nel database. Il valore di default per le sequenze nucleotidiche è 11, per quelle proteiche 3.

Page 43: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

BLASTN: Esempio BCL2 (4)BLASTN: Esempio BCL2 (4)

Una volta settati i parametri, cliccando prima su BLAST e successivamente su FORMAT si ottiene il risultato della ricerca:Una volta settati i parametri, cliccando prima su BLAST e successivamente su FORMAT si ottiene il risultato della ricerca:

Page 44: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

BLASTN: Esempio BCL2 (5)BLASTN: Esempio BCL2 (5)BLAST fornisce in output la distribuzione dei matches trovati, assegnando a colori diversi i diversi scores: ovviamente uno score maggiore indica un match più significativo. Cliccando sulle barre colorate si ottiene l’allineamento corrispondente.

BLAST fornisce in output la distribuzione dei matches trovati, assegnando a colori diversi i diversi scores: ovviamente uno score maggiore indica un match più significativo. Cliccando sulle barre colorate si ottiene l’allineamento corrispondente.

Page 45: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

BLASTN: Esempio BCL2 (6)BLASTN: Esempio BCL2 (6)

L’allineamento migliore mostra un match del 100%: abbiamo ritrovato lo stesso BCL2 nel database.Abbiamo il link alla sequenza trovata ed alla pagina corrispondente in Gene.Un trattino indica il match dei caratteri delle due sequenze.

L’allineamento migliore mostra un match del 100%: abbiamo ritrovato lo stesso BCL2 nel database.Abbiamo il link alla sequenza trovata ed alla pagina corrispondente in Gene.Un trattino indica il match dei caratteri delle due sequenze.

Page 46: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

BLASTN: Esempio BCL2 (7)BLASTN: Esempio BCL2 (7) L’assenza del trattino invece indica un

mismatch:

Page 47: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

BLASTP, TBLASTN e BL2SEQBLASTP, TBLASTN e BL2SEQ• BLASTP è la versione di BLAST per le proteine. Funziona esattamente come la versione per le sequenze nucleotidiche.• BLASTP è la versione di BLAST per le proteine. Funziona esattamente come la versione per le sequenze nucleotidiche.

• TBLASTN confronta la proteina query con il database di sequenze nucleotidiche; per effettuare questo tipo di confronto le sequenze nucleotidiche nel database vengono dinamicamente tradotte in sequenze aminoacidiche secondo tutte le ORF (6) e queste vengono confrontate con la proteina query.

• TBLASTN confronta la proteina query con il database di sequenze nucleotidiche; per effettuare questo tipo di confronto le sequenze nucleotidiche nel database vengono dinamicamente tradotte in sequenze aminoacidiche secondo tutte le ORF (6) e queste vengono confrontate con la proteina query.

• I parametri sono essenzialmente gli stessi visti per BLASTN.• I parametri sono essenzialmente gli stessi visti per BLASTN.

• BLAST2SEQ effettua l’allineamento tra due sequenze utilizzando l’algoritmo di BLAST.• BLAST2SEQ effettua l’allineamento tra due sequenze utilizzando l’algoritmo di BLAST.

Page 48: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

Blast2SeqBlast2Seq Blast2Seq è un tool della famiglia BLAST che permette di

eseguire l’allineamento di una coppia di sequenze utilizzando l’algoritmo di allineamento locale di BLAST.

E’ importante sottolineare la differenza tra questo tipo di approccio e quello globale:

L’allineamento Pairwise Globale di coppie di sequenze mette in luce l’eventuale similarità globale tra le due sequenze.

L’allineamento Pairwise effettuato da Blast2Seq mette in luce le eventuali similarità locali tra le due sequenze. Due sequenze possono anche essere molto diverse nella loro interezza ma avere comunque delle regioni molto simili: a partire da tale similarità è spesso possibile formulare interessanti ipotesi sulla presenza di determinati motivi e quindi sulla funzione delle molecole analizzate.

Page 49: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

Blast2Seq: un esempioBlast2Seq: un esempio

Diamo in input la sequenza della proteina TBP dell’uomo e quella di TBP della Drosophila:

Page 50: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

Blast2Seq: un esempio (2)Blast2Seq: un esempio (2) Nella figura restituita

in output da Blast2Seq vengono messi in evidenza i segmenti allineati: in questo caso sono state allineate le parti C-terminali delle due sequenze, con identità pari all’89% (Il famoso “dominio a sella” mediante il quale TBP interagisce con il DNA e che risulta altamente conservato rispetto al resto della sequenza).

Page 51: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

Ricercare i seguenti geni, e le relative proteine, su NCBI o Ensembl e blastare le sequenze ottenute per cercare eventuali omologie all’interno della stessa specie (geni paraloghi) o in specie diverse (geni ortologhi):

• DIABLO in Drosophila melanogaster• MAGED2 in Homo sapiens• MAGED4 in Homo sapiens • P53 in Homo sapiens• P73 in Homo sapiens• BAX in Homo sapiens

Esercizi PropostiEsercizi Proposti

Page 52: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

Organismi e sequenze biologiche Rappresentazione digitale dei dati biologici e

formati Banche dati generiche: NCBI, EMBL, DDBJ NCBI: Entrez, Nucleotide, Gene, Protein BLAST Pubmed

OutlineOutline

25-03-201152 Bioinformatica: Banche dati biologiche

Page 53: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

PubMed PubMed e’ una banca dati che permette di ottenere

informazioni di tipo bibliografico nel campo della medicina e altre discipline di tipo biologico e naturalistico

Il database contiene i riferimenti bibliografici a partire dagli anni ’50 e viene aggiornato giornalmente

Gli articoli provengono da riviste scientifiche di tutto il mondo ma la maggior parte delle voci sono in lingua inglese o hanno almeno il riassunto in inglese

L’accesso al testo completo degli articoli può essere gratuito o a pagamento a seconda della casa editrice

PubMed è accessibile al seguente indirizzo: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?DB=pubmed

25-03-201153 Bioinformatica (3): Banche dati biologiche

Page 54: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

PubMed

25-03-201154 Bioinformatica (3): Banche dati biologiche

Page 55: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

Risultati di una ricerca in PubMed

Avviando una ricerca in PubMed viene mostrata una lista con i riferimenti bibliografici, in forma di semplici citazioni elencate in ordine cronologico di immissione nella banca dati con in testa i dati più recenti.

Accanto ad ogni citazione compare un’icona che segnala la presenza/assenza dell’abstract e/o del full text: foglietto vuoto: citazione priva di abstract; foglietto scritto: citazione con abstract; foglietto evidenziato in verde: citazione con link al sito dell’editore,

che offre gratuitamente il full text; foglietto evidenziato in arancio e verde: citazione con full text

disponibile nell'archivio centrale di PubMed.

25-03-201155 Bioinformatica (3): Banche dati biologiche

Page 56: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

Risultati di una ricerca in PubMed

25-03-201156 Bioinformatica (3): Banche dati biologiche

Page 57: Bioinformatica Banche dati biologiche 25-03-2011 Prof. Alfredo Ferro

L'uso dei limiti in PubMed

25-03-201157 Bioinformatica (3): Banche dati biologiche