Upload
hye
View
35
Download
0
Tags:
Embed Size (px)
DESCRIPTION
Τράπεζες δεδομένων, ταυτοποίηση & ανάλυση αλληλουχιών DNA με ηλεκτρονικό υπολογιστή ... μέσω διαδικτύου. - PowerPoint PPT Presentation
Citation preview
GCR_Oct-2006 1
Τράπεζες δεδομένων, ταυτοποίηση Τράπεζες δεδομένων, ταυτοποίηση & ανάλυση αλληλουχιών & ανάλυση αλληλουχιών DNA DNA με με ηλεκτρονικό υπολογιστήηλεκτρονικό υπολογιστή
...... μέσω διαδικτύουμέσω διαδικτύου
“Affordable biocomputing for everyone: using the Internet, freeware and open-source software. How to build your own complete working biocomputing platform with nothing more than a desktop computer and an Internet connection”
Mads Wichmann Matthiessen
Trends in Biochemical Sciences, ------September.19.2002------
GCR_Oct-2006 2
ΠεριεχόμεναΠεριεχόμενα
Ο ορισμός της Βιοπληροφορικής.
Βάσεις δεδομένων πρωτεϊνών και DNA, εξειδικευμένες βάσεις δεδομένων, μορφές και προβλήματα σχολιασμού (annotation).
Χρήση του Διαδικτύου για πρόσβαση και on line ανάλυση δεδομένων. Μηχανές αναζήτησης - εξόρρυξης δεδομένων, ειδικά προγράμματα ιστοτόπων.
GCR_Oct-2006
3
Ένας ορισμός της ΒιοπληροφορικήςΈνας ορισμός της Βιοπληροφορικής
NIH Biomedical Information Science and Technology Initiative Consortium agreement:
Bioinformatics: Research, development, or application of computational tools and approaches for expanding the use of biological, medical, behavioral or health data, including those to acquire, store, organize, archive, analyze, or visualize such data
Computational Biology: The development and application of data-analytical and theoretical methods, mathematical modeling and computational simulation techniques to the study of biological, behavioral, and social systems.
back
GCR_Oct-2006 4
ΠεριεχόμεναΠεριεχόμενα
Η έννοια της Βιοπληροφορικής, ορισμοί.
Βάσεις δεδομένων πρωτεϊνών και DNA, εξειδικευμένες βάσεις δεδομένων, μορφές και προβλήματα σχολιασμού (annotation).
Χρήση του Διαδικτύου για πρόσβαση και on line ανάλυση δεδομένων. Μηχανές αναζήτησης - εξόρρυξης δεδομένων, ειδικά προγράμματα ιστοτόπων.
GCR_Oct-2006
5
Τράπεζες δεδομένωνΤράπεζες δεδομένων
Οι επίσημες τράπεζες αλληλουχιών, με νομοθετικά κατοχυρωμένη την ελεύθερη και δημόσια πρόσβαση, είναι τρεις:
GenBank (NIH, ΗΠΑ) EMBL (Cambridge, Ηνωμένο Βασίλειο) DDBJ (Ιαπωνία)
Εκτός από αυτές υπάρχουν αρκετές άλλες, οι οποίες φιλοξενούνται σε δημόσιους ή ιδιωτικούς φορείς, π.χ. Παν/μια, Ερευνητικά Ιδρύματα, Εταιρείες, και κατά κανόνα αφορούν ειδικού τύπου δεδομένα.
GCR_Oct-2006
6
Τράπεζες δεδομένων Τράπεζες δεδομένων (συνέχεια)(συνέχεια)
Η νομική κατάσταση αυτών των τραπεζών επιτρέπει την κατοχύρωση όσων καταθέτουν αλληλουχίες, παρέχοντας για κάθε μια ένα μοναδικό αριθμό πρόσβασης (accession number, Acc#).
Η κατάθεση γίνεται σε μία από τις τρεις, αλλά οι διαχειριστές αναλαμβάνουν την ενημέρωση των άλλων. Το όνομα μιας αλληλουχίας διαφέρει από τράπεζα σε τράπεζα, όχι όμως ο αριθμός πρόσβασης (... οι Ιάπωνες... «NID» ή «ΝΙ»!).
Σε όλα τα έγκυρα διεθνή επιστημονικά περιοδικά ισχύει ως προϋπόθεση αποδοχής μιας εργασίας για δημοσίευση (που αφορά προσδιορισμό αλληλουχιών) η συνυποβολή των αντίστοιχων Acc#.
GCR_Oct-2006
7
Τράπεζες δεδομένων Τράπεζες δεδομένων (συνέχεια)(συνέχεια)
Στις επίσημες τράπεζες διατηρούνται δύο βασικές και αρκετές επιμέρους (ειδικές) τράπεζες αλληλουχιών.
Οι βασικές είναι (α) νουκλεοτιδικών, και (β) αμινοξικών αλληλουχιών.
Οι επιμέρους (ειδικές) τράπεζες περιέχουν δεδομένα που έτσι κι αλλιώς βρίσκονται (έχουν κατατεθεί) στις βασικές, αλλά διαφέρουν σε ένα ή και στα δύο από τα επόμενα στοιχεία:
Το είδος των αλληλουχιών (π.χ., αλληλουχίες μόνο από Drosophila, Human, C. elegans, υποκινητών, Alu families, κλπ)
Τη μορφή (format) και το σχολιασμό (annotation) των αλληλουχιών, που τις καθιστούν συμβατές προς αντίστοιχα ειδικά προγράμματα πρόσβασης (π.χ., ειδικός τρόπος γραφής αλληλουχιών tRNA, 2ταγείς δομές πρωτεϊνικών μορίων, κλπ).
GCR_Oct-2006
8
Μορφή γραφής Μορφή γραφής ((formatformat) ) αλληλουχιώναλληλουχιών
Υπάρχουν πολλές μορφές γραφής, ανάλογα με
Την τράπεζα καταχώρησης
Τα προγράμματα ανάλυσης
ΠΑΡΑΔΕΙΓΜΑΤΑ:
WWW READSEQ Conversion
1. IG/Stanford 10. Olsen
2. GenBank/GBGenBank/GB 11. Phylip3.2
3. NBRF 12. Phylip
4. EMBLEMBL 13. Plain/Raw
5. GCG 14. PIR/CODATA
6. DNAStrider 15. MSF
7. Fitch 16. PAUP/NEXUS
8. Pearson/FastaFasta 17. CLUSTALCLUSTAL
9. Zuker 18. MEGAMEGA
GCR_Oct-2006
9
FastaFasta ( (απλό, αλλά φτωχό σε πληροφορίες)απλό, αλλά φτωχό σε πληροφορίες)
>Όνομα (πρόσθετες πληροφορίες - σχόλια)
CAGCTACCGTCGCGTACGGCGATCGCGCATCGATCGCAGTACTCGTACAAAACGTTCCCCT
GCATTGGGGGGGTATATCG GATG GAT
CAGTCGGGTAGCG TCACG TAAG TCAG ATCG TAACGTTTCAGTCTGCTATCTGC
ACGTCGATCGCT
CGATC
C
AACGATCGA
ACCTAGGCCCTAAAAGCCCCAGCTATCTGCATTC
>.......... όνομα(10)+πληροφορίες = 256 χαρακτήρες σε μια γραμμή
GCR_Oct-2006 10
GenBankGenBank EMBLEMBL
Αυστηρή δομή κειμένου Πληροφοριών & Αλληλουχίας,
αλλά,
μεγιστοποίηση της δυνατότητας δομημένων πληροφοριώνLOCUS MIACDNA 14130 bp DNA circular INV 31-MAR-1998
DEFINITION A.coerulea complete mitochondrial genome.
ACCESSION X83390
NID g975668
KEYWORDS ATPase 6; ATPase 8; COI gene; COII gene; COIII gene; cytb gene;
lrRNA; ND1 gene; ND3 gene; ND4 gene; ND4L gene; ND5 gene; ND6 gene;
srRNA; tRNA-Ala; tRNA-Arg; tRNA-Asn; tRNA-Asp; tRNA-Cys; tRNA-Gln;
tRNA-Glu; tRNA-Gly; tRNA-His; tRNA-Ile; tRNA-Leu; tRNA-Lys;
tRNA-Met; tRNA-Phe; tRNA-Pro; tRNA-Ser; tRNA-Thr; tRNA-Trp;
tRNA-Tyr; tRNA-Val.
SOURCE Albinaria coerulea.
ORGANISM Mitochondrion Albinaria coerulea
Eukaryota; Metazoa; Mollusca; Gastropoda; Pulmonata;
Stylommatophora; Clausiliidae; Alopiinae; Albinaria.
REFERENCE 1 (bases 1 to 14130)
AUTHORS Hatzoglou,E., Rodakis,G.C. and Lecanidou,R.
TITLE Complete sequence and gene organization of the mitochondrial genome
of the land snail Albinaria coerulea
JOURNAL Genetics 140 (4), 1353-1366 (1995)
MEDLINE 96120351
REFERENCE 2 (bases 1 to 14130)
AUTHORS Rodakis,G.C.
TITLE Direct Submission
JOURNAL Submitted (12-DEC-1994) G.C. Rodakis, Univ.of Athens, Dep. of
Biochemistry, Cell and Mol. Biology and Genetics,
Panepistimiopolis, Athens 157 01, GREECE
FEATURES Location/Qualifiers
DEFINITION A.coerulea complete mitochondrial genome.
ACCESSION X83390
NID g975668
KEYWORDS ATPase 6; ATPase 8; COI gene; COII gene; COIII gene; cytb gene;
lrRNA; ND1 gene; ND3 gene; ND4 gene; ND4L gene; ND5 gene; ND6 gene;
srRNA; tRNA-Ala; tRNA-Arg; tRNA-Asn; tRNA-Asp; tRNA-Cys; tRNA-Gln;
tRNA-Glu; tRNA-Gly; tRNA-His; tRNA-Ile; tRNA-Leu; tRNA-Lys;
tRNA-Met; tRNA-Phe; tRNA-Pro; tRNA-Ser; tRNA-Thr; tRNA-Trp;
tRNA-Tyr; tRNA-Val.
SOURCE Albinaria coerulea.
ORGANISM Mitochondrion Albinaria coerulea
Eukaryota; Metazoa; Mollusca; Gastropoda; Pulmonata;
Stylommatophora; Clausiliidae; Alopiinae; Albinaria.
REFERENCE 1 (bases 1 to 14130)
AUTHORS Hatzoglou,E., Rodakis,G.C. and Lecanidou,R.
TITLE Complete sequence and gene organization of the mitochondrial genome
of the land snail Albinaria coerulea
JOURNAL Genetics 140 (4), 1353-1366 (1995)
MEDLINE 96120351
REFERENCE 2 (bases 1 to 14130)
AUTHORS Rodakis,G.C.
TITLE Direct Submission
JOURNAL Submitted (12-DEC-1994) G.C. Rodakis, Univ.of Athens, Dep. of
Biochemistry, Cell and Mol. Biology and Genetics,
Panepistimiopolis, Athens 157 01, GREECE
1 13 80...(10)... ...(8).. .
GCR_Oct-2006 11
FEATURES Location/Qualifiers
source 1..14130
/organism="Albinaria coerulea"
/mitochondrion
/db_xref="taxon:42349"
gene 11..1648
/gene="ND5"
CDS 11..1648
/gene="ND5"
/note="starting codon=ATT, termination codon=TAG"
/codon_start=1
/transl_table=5
/db_xref="PID:g975669"
/db_xref="SWISS-PROT:P48918"
/translation="MLLGVLCAIMGVIYMVLNMQNSSYLLMFNLFSTQSVNFNLALIC
DKVSTSFLVVVLLISSCVFLFANEYMSEDHYNIRFGWILISFVASMGILILSGSIFTL
LLGWDGLGLTSFALIAYYDNYNASSSAFLTLMTNRLGDVLIIATFSVILVTGLTVHFP
PYTLVWLSSILFTIASFTKSAQYPFSAWLPAAMAAPTPVSALVHSSTLVTAGIYLMIR
CFMVDGAPAEMYSLMGLVGSITCLLGGSVALFEYDLKKVIALSTLSQLGVMMYSLSLN
LPYLALLHLYGHAMFKAMLFLGAGLILMMSYGTQDLRLLGSLLYSSPIVISLLNISML
CLMGFPFVSSFYSKHLILEKMLDMNCNFFTSMMFMLGTLLTGMYSIRLMKFLCWGNNN
NKPSYCNMSWQSKMSMFPLAALAVLSGQLMSYLDSSYMTFSWSTNQYNLILWGVLFLS
IFFGIVMKFGNFYPTLMSSMMFLGPTSYNLLHYTKSLLIYMKRIDLSISEPNWVMSNL
MYSSSWRVMSLFNWLTNYMLVTWFLLVWLMIMSILMW"
gene 1642..2541
/gene="ND1"
CDS 1642..2541
/gene="ND1"
/note="starting codon=ATG, termination codon=TAA"
/codon_start=1
/transl_table=5
/db_xref="PID:g975670"
/db_xref="SWISS-PROT:P48897"
/translation="MVVFKSLLLNLCILLSVAFYTLLERKVLSSMQIRKGPNKVGLYG
GCR_Oct-2006 12
...
tRNA 3950..4016
/note="codon recognized: GAC"
/product="tRNA-Asp"
/anticodon=(pos:3981..3983,aa:Asp)
...
rRNA complement(6270..7028)
/product="srRNA"
...
rRNA 12428..13462
/product="lrRNA"
...
BASE COUNT 4628 a 1951 c 2196 g 5355 t
ORIGIN
1 ccgttttcct attttattag gtgttctatg tgctattata ggtgtaattt acatagtatt
61 aaatatacaa aattccagtt atcttttaat atttaattta ttttcaaccc aaagggttaa
121 ctttaactta gctttaattt gtgataaagt aagcacaagg tttttggtag tggtattact
181 aatttctagc tgtgtttttc tttttgctaa tgaatatata tctgaagatc attataacat
241 ccgttttggt tgaattttaa tcagatttgt agcatctatg ggaattctga ttttgagcgg
301 ttcaattttt actttgcttc taggttgaga tggcctcggg ttaacttcat ttgctttaat
361 tgcatactac gataattata atgcatcttc ctcagctttt ctgacgctaa taactaatcg
...
...
13141 aaagcaataa gtaattctta ttagattttt tgttggggca acaatatttc aaataataaa
13201 tatattaatg aaagtaataa gtcgattaaa taattataga aaaattacct aagggataac
13261 agcataattt tattaataag cttgtgacct cgatgttgga ctaggtacta ttaaggctaa
13921 tatgcgtgag gagcagtaat attaataaga ttaactatag aaacagacac ttttattatt
13981 ttaggatcaa atataatgta tactagagta aatattccaa taacaatttt aatttttctc
14041 tcaatttatc tattaattgt tttctttgca gtggtgaatt taatagtaaa cataacaagg
14101 attctcatag ttgaaagtag ccaagtttaa
//
GCR_Oct-2006 13
EMBLID MIACDNA standard; circular DNA; ORG; 14130 BP.
AC X83390;
NI g975668
DT 05-SEP-1995 (Rel. 45, Created)
DT 31-MAR-1998 (Rel. 55, Last updated, Version 6)
DE A.coerulea complete mitochondrial genome
KW ATPase 6; ATPase 8; COI gene; COII gene; COIII gene; cytb gene; lrRNA;
KW ND1 gene; ND3 gene; ND4 gene; ND4L gene; ND5 gene; ND6 gene; srRNA;
KW tRNA-Ala; tRNA-Arg; tRNA-Asn; tRNA-Asp; tRNA-Cys; tRNA-Gln; tRNA-Glu;
KW tRNA-Gly; tRNA-His; tRNA-Ile; tRNA-Leu; tRNA-Lys; tRNA-Met; tRNA-Phe;
KW tRNA-Pro; tRNA-Ser; tRNA-Thr; tRNA-Trp; tRNA-Tyr; tRNA-Val.
OS Albinaria coerulea
OC Eukaryota; Metazoa; Mollusca; Gastropoda; Pulmonata; Stylommatophora;
OC Clausiliidae; Alopiinae; Albinaria.
OG Mitochondrion
RN [1]
RX MEDLINE; 96120351.
RA Hatzoglou E., Rodakis G.C., Lecanidou R.;
RT "The complete sequence of the mitochondrial genome of the land snail
RT Albinaria coerulea.";
RL Genetics 140:1353-1366(1995).
RN [2]
RP 1-14130
RA Rodakis G.C.;
RT ;
RL Submitted (12-DEC-1994) to the EMBL/GenBank/DDBJ databases.
RL G.C. Rodakis, Univ.of Athens, Dep. of Biochemistry, Cell and Mol.
RL Biology and Genetics, Panepistimiopolis, Athens 157 01, GREECE
XX
DR SWISS-PROT; P48884; CYB_ALBCO.
GCR_Oct-2006 14
DR SWISS-PROT; P48884; CYB_ALBCO.
DR SWISS-PROT; P48887; COX1_ALBCO.
DR SWISS-PROT; P48889; COX2_ALBCO.
DR SWISS-PROT; P48891; COX3_ALBCO.
DR SWISS-PROT; P48893; ATP6_ALBCO.
DR SWISS-PROT; P48895; ATP8_ALBCO.
DR SWISS-PROT; P48897; NU1M_ALBCO.
DR SWISS-PROT; P48902; NU2M_ALBCO.
DR SWISS-PROT; P48907; NU3M_ALBCO.
DR SWISS-PROT; P48914; NU4M_ALBCO.
DR SWISS-PROT; P48918; NU5M_ALBCO.
DR SWISS-PROT; P48922; NU6M_ALBCO.
DR SWISS-PROT; P48928; NULM_ALBCO.
FH Key Location/Qualifiers
FT source 1. .14130
FT /organism="Albinaria coerulea"
FT /mitochondrion
FT CDS 11. .1648
FT /db_xref="PID:g975669"
FT /db_xref="SWISS-PROT:P48918"
FT /note="starting codon=ATT, termination codon=TAG"
FT /gene="ND5"
FT /translation="MLLGVLCAIMGVIYMVLNMQNSSYLLMFNLFSTQSVNFNLALICD
FT KVSTSFLVVVLLISSCVFLFANEYMSEDHYNIRFGWILISFVASMGILILSGSIFTLLL
FT GWDGLGLTSFALIAYYDNYNASSSAFLTLMTNRLGDVLIIATFSVILVTGLTVHFPPYT
FT LVWLSSILFTIASFTKSAQYPFSAWLPAAMAAPTPVSALVHSSTLVTAGIYLMIRCFMV
FT DGAPAEMYSLMGLVGSITCLLGGSVALFEYDLKKVIALSTLSQLGVMMYSLSLNLPYLA
FT LLHLYGHAMFKAMLFLGAGLILMMSYGTQDLRLLGSLLYSSPIVISLLNISMLCLMGFP
FT FVSSFYSKHLILEKMLDMNCNFFTSMMFMLGTLLTGMYSIRLMKFLCWGNNNNKPSYCN
FT MSWQSKMSMFPLAALAVLSGQLMSYLDSSYMTFSWSTNQYNLILWGVLFLSIFFGIVMK
FT FGNFYPTLMSSMMFLGPTSYNLLHYTKSLLIYMKRIDLSISEPNWVMSNLMYSSSWRVM
FT SLFNWLTNYMLVTWFLLVWLMIMSILMW"
FT CDS 1642. .2541
GCR_Oct-2006 15
FT CDS 1642. .2541
FT /db_xref="PID:g975670"
FT /db_xref="SWISS-PROT:P48897"
FT /note="starting codon=ATG, termination codon=TAA"
FT /gene="ND1"
FT /translation="MVVFKSLLLNLCILLSVAFYTLLERKVLSSMQIRKGPNKVGLYGI
FT IQPIADALKLFLKEFFIPVNSNSFMFMILPLLGLTLSLMLWAVFPSMWMFNFHSYLLML
FT FVALTGTFVYVIIFAGWSSNSKYSFLGGMRAAAQTISYEVSMLLLLFFAVLMYRTYSWY
FT EAGLSSPIGIIIFIIMFIWFASCLAETNRAPFDFAEGESELVSGFNIEYYGGMFALLFL
FT AEYSSILFMCMMSTVWFLYSDMIFIMTLLILLIAMAFLFARGVYPRHRYDLLMNLCWKS
FT FLPFSLCCICYSMLLWIV"
FT CDS 2549. .2846
.
FT CDS 2847. .3949
.
FT tRNA 3950. .4016
FT /anticodon=(pos:3981. .3983,aa:Asp)
FT /product="tRNA-Asp"
.
FT rRNA complement(6270. .7028)
.
FT rRNA 12428. .13462
FT /product="lrRNA"nnnnnnpppppnnnppppp
XX
SQ Sequence 14130 BP; 4628 A; 1951 C; 2196 G; 5355 T; 0 other;
CCGTTTTCCT ATTTTATTAG GTGTTCTATG TGCTATTATA GGTGTAATTT ACATAGTATT 60
AAATATACAA AATTCCAGTT ATCTTTTAAT ATTTAATTTA TTTTCAACCC AAAGGGTTAA 120
CTTTAACTTA GCTTTAATTT GTGATAAAGT AAGCACAAGG TTTTTGGTAG TGGTATTACT 180
AATTTCTAGC TGTGTTTTTC TTTTTGCTAA TGAATATATA TCTGAAGATC ATTATAACAT 240
...
ATAGCGGGCT TAATTTTTCC GGTATTTATG ATGCTGAAAG GAATCAATCC AATGAGCCTT 13740
TTATTAGCTC TTCTTACTTT AAGGTTATGT GCTGTTCTAT GATTAGGATC TTTTATGAGG 13800
TCTTGATATG CCTATATTTT ATTTATTGTC TATATTGGTG GAATCTT
GCR_Oct-2006
16
CLUSTALCLUSTAL (outfile - .aln (outfile - .aln))
CLUSTAL X (1.83) multiple sequence alignment
Human_D-loop TTCTTTCATGGGGAAGCAGATTTGGGTACCACCCAAGTATTGACTCACCCATCAACAACC 60
Pan TTCTTTCATGGGGAAGCAAATTTAGGTACCACCTAAGTACTGGCTCATTCATTA-CAACC 59
BlueWhale -----------------AAACATGTATATTGTACAA-TAACCGCAAAGCCACAG-----T 37
* * * ** ** ** * * **
Human_D-loop GCTATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCATAAATACT 120
Pan GCTATGTATTTCGTACATTACTGCCAGCCACCATGAATATCGTACAGTACCATAT-CACC 118
BlueWhale ACTATGTCCGTATTAAAAAATAATTA-TCTCATTACATATTGTTATGTACTTCGTGCATG 96
****** * ** * * * * * * **** ** **** *
Clustalx.exe
GCR_Oct-2006
17
MEGAMEGA (.meg (.meg))
#MEGA
!Title : All_Mon11.aln;
!Format
DataType=Nucleotide CodeTable=Invertebrate_Mitochondrial
NSeqs=19 NSites=5349
Identical=. Missing=? Indel=-;
!Domain=16Sb;#F_AY497292 GCTAATTTTG TACGAAAGGA CTTTTTCGCT AAAGCAATGC TTTGTCAC-A AATCTGTGGT TGCATAAATA ATAGTGTATA ACAGGTTGAT TAGCCTATAG GAAGGG--TT A
#ef.w22-F GCTAATTTTG TACGAAAGGA CTTTTTCGCT AAAGCAATGC TTTGTCAC-A AATCTGTGGT TGCATAAATA ATAGTGTATA ATAGGCTGAT TAGCCTATAG GAAGGG--TT A
#tf_w1-156 GCTAATTTTG TACGAAAGGA CTTTTTCGCT AAAGCAATGC TTTGTCAC-A AATCTGTGGT TGCATAAATA ATAGTGTATA ATAGGCTGAT TAGCCTATAG GAAGGG--TT A
#F_c26f GTTAATTTTG TACGAAAGGA CTTTTTTGCT AAAGTGATGC TTTGCGGTTA GACTCGTTAT TTCACAGAGA ATATTATATG GTAGGCTGAC TGACCTATAA AAAGGGGATT -
.
.
.
!Domain=VD1;#F_AY497292 CCTTTTATG- -TAAATGAGC ATATTGTTTG GTGATAGGTT GTTAAGTGTG GTAGATTTTA GAGAAGTCCT ATGTAGCTGG ---TTTAAAG CAGGCTTTTT AGTAAAAAAA GACCTGCT--
#ef.w22-F CCTTTTATG- -TAAATGAGC ATATTGTTTG GTGATAGGTT GTTAAGTGTG GTAGATTTTA GAGAAGTCCT ATGTAGCTGG ---TTTAAAG CAGGCTTTTT AGTAAAAAAA GACCTAC---
#tf_w1-156 CCTTTTATG- -TAAATGAGC ATATTGTTTG GTGATAGGTT GTTAAGTGTG GTAGATTTTA GAGAAGTCCT ATGTAGCTGG ---TTTAAAG CAGGCTTTTT AGTAAAAAAA GACCTACT--
#F_c26f CCTTTTGTGA GTAAATGACT ATTTTCATTA TCGAAATAAC TCTGCTTCTA TGAAACTTTG ATATAATTGA GCATTTTTTA ATATTTTGTA AATCGTTTTT AGAATCTGAG GAG-TG----
#M_AY363687 CCTTTTATG- -TAAGTGAG- ---------- -------GTT GGC-----TA CTAGACTTTA CAGGAATA-T ACGCAGATAG ---TTTCA-- ---CCTT--- -GAAAAAGA- GTG-------
back
All_six_200306.meg
GCR_Oct-2006 18
ΠεριεχόμεναΠεριεχόμενα
Η έννοια της Βιοπληροφορικής, ορισμοί.
Βάσεις δεδομένων πρωτεϊνών και DNA, εξειδικευμένες βάσεις δεδομένων, μορφές και προβλήματα σχολιασμού (annotation).
Χρήση του Διαδικτύου για πρόσβαση και on line ανάλυση δεδομένων. Μηχανές αναζήτησης - εξόρρυξης δεδομένων, ειδικά προγράμματα ιστοτόπων.
GCR_Oct-2006
19
Γιατί «ανάλυση αλληλουχιών» με Η/Υ, Γιατί «ανάλυση αλληλουχιών» με Η/Υ, και μάλιστα μέσω Διαδικτύου;και μάλιστα μέσω Διαδικτύου;
Αιτία: Ο ρυθμός συσσώρευσης «πρωτογενών» δεδομένων (δηλ. αλληλουχιών DNA) είναι κατά πολύ μεγαλύτερος από το ρυθμό ταυτοποίησής τους (δηλ. χαρακτηρισμού ή/και προσδιορισμού της λειτουργίας τους.
Επακόλουθο πρώτο: Ανάπτυξη ειδικών προγραμμάτων που εκμεταλλεύονται τη δύναμη των Η/Υ στη διαχείριση μεγάλου όγκου δεδομένων.
Επακόλουθο δεύτερο: Ο αριθμός των προγραμμάτων είναι πολύ μεγάλος και συνεχώς αυξάνεται, σε συνάρτηση με νέες προσεγγίσεις και δεδομένα, με συνέπεια την αδυναμία διατήρησης και ενημέρωσης ενός τοπικού Η/Υ.
GCR_Oct-2006
20
...άρα με το ...άρα με το internet internet λύσαμε το λύσαμε το πρόβλημά μας;πρόβλημά μας;
Απάντηση: ΟΧΙ!
Γιατί...:
Πρώτον: Δεν υφίσταται πάντα σύνδεση στο διαδίκτυο ή αργεί η μεταφορά των δεδομένων.
Δεύτερον: Περιορισμοί στους Η/Υ που μας φιλοξενούν, π.χ. δέχονται μικρότερο μήκος αλληλουχιών από αυτό που μπορεί να χειριστεί το συγκεκριμένο πρόγραμμα.
Τρίτον: Μερικά προγράμματα δεν «προσφέρονται» και μάλιστα δωρεάν.
GCR_Oct-2006
21
Ενδεικτική κατάταξη γενικών Ενδεικτική κατάταξη γενικών κατηγοριών ανάλυσηςκατηγοριών ανάλυσης
Αναζήτηση όμοιων (όχι αναγκαστικά ομόλογων ) αλληλουχιών σε τράπεζες δεδομένων (Search).
GCR_Oct-2006
22
Μερικές σημαντικές έννοιεςΜερικές σημαντικές έννοιες
Ομοιότητα (similarity)
Ομολογία (homology) και απόκλιση (divergence)
Ορθολογία (orthology)
Παραλογία (paralogy)
Αλλά και “inparalogs”, “outparalogs”
Αναλογία (analogy) και σύγκλιση (convergence)
GCR_Oct-2006 23
ATCGGCCACTTTCGCGATCA
ATAGGCCACTTTCGCGATCA
ATAGGCCACTTTCGCGATTA
ATAGGGCAGTTTCGCGATTA
ATAGGGCAGTTTTGCGATTA
ATAGGGCAGTTTCGCGATTA
ATAGGGCAGTCTCGCGATTA
ATCGGCCACTTTCGCGATCG
ATCGGCCACTTTCGTGATCG
ATCGGCCACGTTCGTGATCG
ATCGGCCACGTTCGCGATCG
ATCGGCCACCTTCGCGATCG
ACCGGCCACCTTCGCGATCG
ACCGGCCACCTTCGCGATCG| || || |||||||ATAGGGCAGTCTCGCGATTA
Προγονική αλληλουχία
Ομόλογες αλληλουχίες
ομολογίαομολογία = κοινή καταγωγή = κοινή καταγωγή
GCR_Oct-2006 24
ACCGGCCACCTTCGCGATCG
ATCGGCCACTTTCGCGATCA
ATAGGGCAGTCTCGCGATTA
Αλληλουχία στονπρογονικό οργανισμό
Ορθόλογες αλληλουχίες
Σημείο ΕΙΔΟΓΕΝΕΣΗΣ
Είδος Α Είδος Β
Ορθόλογα γονίδια:«ίδια γονίδια»
σε διαφορετικούςοργανισμούς
Τα Τα ορθόλογαορθόλογα γονίδια είναι προϊόντα ειδογένεσης γονίδια είναι προϊόντα ειδογένεσης
GCR_Oct-2006 25
ATCGGCCACTTTCGCGATCA
ATAGGGCAGTCTCGCGATTA ACCGGCCACCTTCGCGATCG
Παράλογες αλληλουχίες
ΓονιδιακόςΔΙΠΛΑΣΙΑΣΜΟΣ
Αντίγραφο Α Αντίγραφο Β
ΠαράλογαΠαράλογα γονίδια = προϊόντα διπλασιασμού γονίδια = προϊόντα διπλασιασμού
Αλληλουχία στονπρογονικό οργανισμό
GCR_Oct-2006 26
An evolutionary tale…
Duplication of A in worm
Duplication of A in human
Sonnhammer & Koonin (2002) TIGs 18 619-220
back
GCR_Oct-2006
27
Ενδεικτική κατάταξη γενικών Ενδεικτική κατάταξη γενικών κατηγοριών ανάλυσηςκατηγοριών ανάλυσης
Αναζήτηση όμοιων (όχι αναγκαστικά ομόλογων ) αλληλουχιών σε τράπεζες δεδομένων (Search).
Ανάλυση μεμονωμένων αλληλουχιών (επίπεδο πρωτοδιάταξης)
Πρόγνωση 2ταγούς – 3ταγούς δομής αμινοξικών αλληλουχιών (Predictions)
Στοίχιση (Alignment)
Φυλογενετική ανάλυση (Phylogeny)
GCR_Oct-2006
28
Πού αποσκοπεί η αναζήτηση όμοιων Πού αποσκοπεί η αναζήτηση όμοιων αλληλουχιώναλληλουχιών
Πρωταρχικά στην ταυτοποίηση μιας νέας αλληλουχίας.
Στη συγκρότηση ενός συνόλου συγγενών αλληλουχιών για παραπέρα εξελικτική ανάλυση ή και για κατασκευή «universal» εκκινητών PCR.
Στην πιστοποίηση της «ειδικότητας» μιας αλληλουχίας που πρόκειται να χρησιμοποιηθεί ως ανιχνευτής.
Σημείωση: Η κάθε μία από τις μεγάλες διεθνείς βάσεις δεδομένων διαθέτει on-line το αντίστοιχο πρόγραμμα αναζήτησης
GenBank: BLAST
EMBL: FASTA
GCR_Oct-2006
29
Η αναζήτηση όμοιων αλληλουχιών Η αναζήτηση όμοιων αλληλουχιών στην πράξη:στην πράξη:
1. Άνοιγμα ενός αρχείου που περιέχει την ή τις αλληλουχίες για εξέταση (συνήθως χρησιμοποιείται το Notepad των Windows και είναι πάντα διαθέσιμο στο taskbar).
2. Login στο «site» του υπολογιστή που φιλοξενεί το πρόγραμμα αναζήτησης και ενεργοποίηση του προγράμματος.
3. Τα «on line» προγράμματα εμφανίζουν ένα παράθυρο που συνήθως λέγεται «query line ή sequence» και σ’ αυτό γράφουμε την προς εξέταση αλληλουχία ή την μεταφέρουμε από το notepad με copy-paste.
4. Εκτελούμε το πρόγραμμα με τα default settings ή αφού προηγουμένως τα αλλάξουμε (advanced mode).
5. Βλέπουμε το αποτέλεσμα στην οθόνη και το τυπώνουμε ή το μεταφέρουμε σε δικό μας αρχείο πάλι με copy-paste.
GCR_Oct-2006 30
NCBI Home page
BLAST Search page
Αναλυτικότερα... Αναλυτικότερα... on lineon line...:...:
Στατιστικός έλεγχος του βαθμού ομοιότητας
Περιγραφή της «γενικής» ιδέας Στον πίνακα
Το on-line πρόγραμμα PRSS (PRDF)
GCR_Oct-2006 31
Ένας απλός κανόναςΈνας απλός κανόνας::
Πρακτικά, για να θεωρηθεί ότι η παρατηρούμενη ομοιότητα είναι στατιστικά σημαντική (in silico identification) πρέπει ο αρνητικός εκθέτης του «Ε» να είναι διψήφιος αριθμός.
Αν όχι, και αν πρόκειται για κωδική αλληλουχία, ελέγχουμε πάντα το βαθμό ομοιότητας σε επίπεδο αμινοξέων με χρήση του προγράμματος blastx (...όμως, το πρόβλημα δεν λύνεται για «low complexity sequences»).
ΠΡΟΣΟΧΗ: Η αναζήτηση με το FASTA (EMBL) διαφέρει ουσιαστικά στο ότι οι καλύτερες τιμές σκορ είναι θετικοί και όχι αρνητικοί αριθμοί. Και πάλι ισχύει ο διψήφιος εκθέτης
back
GCR_Oct-2006
32
Ενδεικτική κατάταξη γενικών Ενδεικτική κατάταξη γενικών κατηγοριών ανάλυσηςκατηγοριών ανάλυσης
Αναζήτηση όμοιων (όχι αναγκαστικά ομόλογων ) αλληλουχιών σε τράπεζες δεδομένων (Search).
Ανάλυση μεμονωμένων αλληλουχιών (επίπεδο πρωτοδιάταξης).
Πρόγνωση 2ταγούς – 3ταγούς δομής αμινοξικών αλληλουχιών (Predictions)
Στοίχιση (Alignment)
Φυλογενετική ανάλυση (Phylogeny)
GCR_Oct-2006 33
Ανάλυση μιας αλληλουχίας Ανάλυση μιας αλληλουχίας DNADNA
Αφορά πληθώρα ερωτημάτων ή ειδών ανάλυσης και πολύ απλά έως πολύ σύνθετα προγράμματα. Για παράδειγμα:
Απλές εργασίες, όπως: Μετάφραση σε ένα ή και στα 6 πιθανά πλαίσια ανάγνωσης Δημιουργία της συμπληρωματικής, ή της αντιστρόφως
συμπληρωματικής αλυσίδας Μετατροπή μορφής (format)
Εντοπισμός μοτίβων: Αλληλουχίες υποκινητών Παλίνδρομες ή επαναλαμβανόμενες αλληλουχίες Αλληλουχίες κατάλληλες για εκκινητές PCR
Πρόγνωση δευτεροταγών δομών DNA, RNA, tRNA
GCR_Oct-2006 34
Πού θα βρούμε τα προγράμματα;Πού θα βρούμε τα προγράμματα;
Σε πολλούς υπολογιστές Δημόσιων ή Ιδιωτικών Ιδρυμάτων υπάρχουν κατάλογοι με links (διευθύνσεις, URL) για άμεση πρόσβαση σε άλλους υπολογιστές, οι οποίοι επιτρέπουν τη δημόσια on line χρήση πολλών ειδικών προγραμμάτων ανάλυσης.
Την επιλογή την κάνει ο κάθε ερευνητής ανάλογα με τις ανάγκες του και ανάλογα με τα προγράμματα που συνήθως χρησιμοποιεί.
Ένας σχετικά πλούσιος κατάλογος URL για on line εφαρμογή ειδικών προγραμμάτων υπάρχει στην ιστοσελίδα:
ABIM Online analysis tools:
(http://www.up.univ-mrs.fr/~wabim/english/logligne.html)
back
GCR_Oct-2006
35
Ενδεικτική κατάταξη γενικών Ενδεικτική κατάταξη γενικών κατηγοριών ανάλυσηςκατηγοριών ανάλυσης
Αναζήτηση όμοιων (όχι αναγκαστικά ομόλογων ) αλληλουχιών σε τράπεζες δεδομένων (Search).
Ανάλυση μεμονωμένων αλληλουχιών (επίπεδο πρωτοδιάταξης).
Πρόγνωση 2ταγούς – 3ταγούς δομής αμινοξικών αλληλουχιών (Predictions)
Στοίχιση (Alignment)
Φυλογενετική ανάλυση (Phylogeny)
END
GCR_Oct-2006
36