Upload
gianmarco-radaelli
View
275
Download
13
Embed Size (px)
Citation preview
Genomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio- Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche e browsers - Confronti fra genomi- Variabilità genomica: banche dati mutazioni e SNP
Progetti di sequenziamento
Banche dati genomicheCromosoma n
ATCTACACTACTCTCTGGGGCTACA..........GCGTACTAGTTAGCTAGCTGATCGA| | | | | 1 10 20 143.456.710 143.456.720
Tipo Id Cromosoma
Inizio Fine Filamento
Gene AGS_23GH I 10012534 10018434 I
Gene FHD_34GH IV 10103466 10112347 II
Promotore
HHTRE_EE II 23423933 23424233 I
SNP A/G IX 34234723 - I
Esone GFDDD_22 II 267567545 267568667 II
Annotazioni
Visualizzazione annotazioni
10x
10 Kb
200 bp
1 Mb
200 Mb
Browser genomici
Individuazione geni
Metodi sperimentali
Metodi bioinformatici
Metodi Estrinseci
Metodi Intrinseci
Confronto più genomi
ATGCTACTACGGATAGTATAGATGA5’ 3’Promoter
Start codon
Struttura di un geneStop codon
Procarioti Eucariot
igene medio 30K =
5' UTR 750 bp +
6 esoni 150 bp +
5 introni 5000 bp +
3' UTR 450 bp
Metodi estrinseci
Uniprot
Allineamento
TrascritticDNA, EST
3' UTR5' UTRGenoma
Proteina
EST 3' UTR
cDNA 3' UTR5' UTR
Proteina Omologa
3' UTR5' UTRAltro Genoma
no 5', 3' e promotori
mancano esoni, diff.giunzioni
no promotori
manca regione 5'
Annotazione geni
Schemi di lettura
1'
2'
3'
senso
antisenso
6'
5'
4'
Schemi di lettura aperti
ATGTAA,TGA oTAG
ORF
Composizione di un genomaProcarioti Eucarioti
Dimensioni max 10M 10G
% Codificante 85% 1-3%
Geni con introni - 95%
Numero introni - 0-80
Lunghezza introni
- 3-100.00bp
Predizione 99% 50%
Metodi intrinseci- Individuazione di contenuto
- Individuazione di segnali
Contenuto regioni codificanti
Batterio shewanella
- Frequenze aminoacidiche- Frequenze dipeptidi- Preferenze per codoni diversi- Preferenza per G e C terminali in eucarioti superiori- Terza base tende ad essere la stessa
Frequenze esanucleotidi
InteroGenoma
RicercaEsanucleotide AAATGA
Sequenze codificanti
Sequenze nonCodificanti
1.01 Gb
10 Mb
1 Gb
10.000 Copie
500.000 Copie
Frequenza AAATGA = Copie/Totale Nucleotidi
fC0.1%
fN0.05%
Punteggio AAATGA= log (fC/fN) =
FrequenzaNon
Codificanti
+0.3
Frequenza
Codificanti
Punteggio di una posizioneRegione di 30 nucleotidi
ATGATGTAGATCTAAATGACTCTCTGGGACTAGTTAGCTAGCTGATCGAATGATGTCTCGT AAATGA = +0.3 AATGAC = +2.1 ATGACT = -0.1 TGACTC = +1.5 GACTCT = ... ........................ CTAGCT = +0.2 TAGCTG = +3.1
PUNTEGGIO POSIZIONE "A" = MEDIA DEGLI ESANUCLEOTIDI = +1.9
TCTAAATGACTCTCTGGGACTAGTTAGCTAGCTGATCGA punteggio "C" = +1.8
TCTAAATGACTCTCTGGGACTAGTTAGCTAGCTGATCGA punteggio "T" = +1.6
......
Ricerca regioni codificanti
+5
+4
+3
+2
+1
0
-1
-2
-3
-4
-5
Posizione
nella sequenza
Punteggio della posizione
Regione non codificante
Regione codificante
Regione non
codificante
? ?Regioni a punteggio
non significativo
Dove inizia e dove termina la regione codificante?
ATGTAGATCTAAATGACTCTCTGGGACTAGTTAGCTAGCTGATCGAATGATGTCTCGT
Esone Introne Esone
--gaggcatcag|GTttgtagac-----A-----tgtgtttcAG|tgcacccact--
--ccgccgctga|GTgagccgtg-----A-----tctattctAG|gacgcgcggg--
--tgtgaattag|GTaagaggtt-----A-----atatctacAG|atggagatca--
--ccatgaggag|GTgagtgcca-----A-----ttatttgcAG|gtatgagacg--
Sito donatore di splicing Sito accettore di splicing
Sito di ramificazione
99%
Siti di splicing
Segnali + contenuto
Introne
Esone
Introne
Fine esone Inizio esone
Regione non codificante
Regione codificante
Regione non codificante
Frame di lettura e esoniFine esone 1
...-ACT-TAA-ATG-ACT-CTGTGGGGATCGATCGAGCTAGA-ATA-GCT-GCT-GAT-...
Introne Inizio esone 2
...-ACT-TAA-ATG-ACT-CTA-ATA-GCT-GCT-GAT-...
Splicing
Rna Maturo
...-ACT-TAA-ATG-ACT-CTGTGGGGATCGATCGAGCTAGAC-ATA-GCT-GCT-GAT-...
...-ACT-TAA-ATG-ACT-CTAC-ATA-GCT-GCT-GAT-...Giunzione scorretta
Esone falso
...-AGA-ACT-CTGTC..CCAGAC-ATA-...-GCG-GAGTG....CTAGA-ATA-CTG-...
Esone 1 Introne 1 Esone 2 Introne 2 Esone 3
...-AGA-ACT-CTA-ATA-CTG-...Rna Maturo
Frame shift
Costruzione modello gene
Costruzione modello gene
Costruzione modello gene
Costruzione modello gene
Costruzione modello gene
Difficoltà- Numero di esoni: Distrofina 79 in 2.3 Mb- Lunghezza introni: Distrofina più di 100Kb più del 99% del gene - Esoni corti: Solo 3bp in Arabidopsis.- Vicini a estremità: 1bp dall'inizio codoni start e stop interrotti- Geni sovrapposti: in 3'-UTR , ma anche in introni.- mRna policistronici anche in Eucarioti.- Introni in regioni non codificanti 5' e 3' UTR- Splicing alternativo 35-60% geni umani ha più di un prodotto- Siti splicing non canonici- Siti multipli inizio trascrizione- Siti alternativi inizio traduzione ACG Arabidopsis, CUG uomo
Prestazioni attuali
Previsione +ricerca mirata sta diventando alternativaa sequenziamento cloni cDNA random.
MR = Esoni Reali
S CC CP = Esoni Predetti
Sensitività = C/R 78 %
Selettività = C/P 81 %
Mancati = M/R 9%
Sbagliati = S/P 5%
Esoni Mancati
Esoni Sbagliati Esoni Corretti
Intero gene:Arabidopsis 50%-66%Mammiferi 15-20%
Allineamentidi 2genomi
Uomo-topo40% conservatosolo2% codificante
Allineamento con un genoma annotato
Allineamenti di due genomi non annotati
- Distinzione coding/ non-codingRapporto mut. sinonime e non
sinonimeIndels con cambio di frameO indels che recuperano il frame perso
Introne Esone Introne
Allineamenti multipli
Ricerca promotori
- Analisi del contenuto- Analisi dei segnali- Allineamento di più genomi
Analisi del Contenuto
- Isole CpG 300-3000bp : (70% p. umani ne contiene)- Previsioni di ripiegabilità, stabilità e curvatura del DNA- Diverse fequenze di parole nucleotidiche
Analisi dei Segnali - TATA box a -30 dal TSS - Banche dati promotori eucariotici - Overpredizione di 1000 volte dei TFBS
Allineamento di genomiAllineamento geni ortologhi (no paraloghi)