36
GCR_Oct-2006 1 Τράπεζες δεδομένων, Τράπεζες δεδομένων, ταυτοποίηση & ανάλυση ταυτοποίηση & ανάλυση αλληλουχιών αλληλουχιών DNA DNA με με ηλεκτρονικό υπολογιστή ηλεκτρονικό υπολογιστή ... ... μέσω διαδικτύου μέσω διαδικτύου Affordable biocomputing for everyone: using the Internet, freeware and open-source software. How to build your own complete working biocomputing platform with nothing more than a desktop computer and an Internet connectionMads Wichmann Matthiessen Trends in Biochemical Sciences, ------ September.19.2002------

Περιεχόμενα

  • Upload
    hye

  • View
    35

  • Download
    0

Embed Size (px)

DESCRIPTION

Τράπεζες δεδομένων, ταυτοποίηση & ανάλυση αλληλουχιών DNA με ηλεκτρονικό υπολογιστή ... μέσω διαδικτύου. - PowerPoint PPT Presentation

Citation preview

Page 1: Περιεχόμενα

GCR_Oct-2006 1

Τράπεζες δεδομένων, ταυτοποίηση Τράπεζες δεδομένων, ταυτοποίηση & ανάλυση αλληλουχιών & ανάλυση αλληλουχιών DNA DNA με με ηλεκτρονικό υπολογιστήηλεκτρονικό υπολογιστή

...... μέσω διαδικτύουμέσω διαδικτύου

“Affordable biocomputing for everyone: using the Internet, freeware and open-source software. How to build your own complete working biocomputing platform with nothing more than a desktop computer and an Internet connection”

Mads Wichmann Matthiessen

Trends in Biochemical Sciences, ------September.19.2002------

Page 2: Περιεχόμενα

GCR_Oct-2006 2

ΠεριεχόμεναΠεριεχόμενα

Ο ορισμός της Βιοπληροφορικής.

Βάσεις δεδομένων πρωτεϊνών και DNA, εξειδικευμένες βάσεις δεδομένων, μορφές και προβλήματα σχολιασμού (annotation).

Χρήση του Διαδικτύου για πρόσβαση και on line ανάλυση δεδομένων. Μηχανές αναζήτησης - εξόρρυξης δεδομένων, ειδικά προγράμματα ιστοτόπων.

Page 3: Περιεχόμενα

GCR_Oct-2006

3

Ένας ορισμός της ΒιοπληροφορικήςΈνας ορισμός της Βιοπληροφορικής

NIH Biomedical Information Science and Technology Initiative Consortium agreement:

Bioinformatics: Research, development, or application of computational tools and approaches for expanding the use of biological, medical, behavioral or health data, including those to acquire, store, organize, archive, analyze, or visualize such data

Computational Biology: The development and application of data-analytical and theoretical methods, mathematical modeling and computational simulation techniques to the study of biological, behavioral, and social systems.

back

Page 4: Περιεχόμενα

GCR_Oct-2006 4

ΠεριεχόμεναΠεριεχόμενα

Η έννοια της Βιοπληροφορικής, ορισμοί.

Βάσεις δεδομένων πρωτεϊνών και DNA, εξειδικευμένες βάσεις δεδομένων, μορφές και προβλήματα σχολιασμού (annotation).

Χρήση του Διαδικτύου για πρόσβαση και on line ανάλυση δεδομένων. Μηχανές αναζήτησης - εξόρρυξης δεδομένων, ειδικά προγράμματα ιστοτόπων.

Page 5: Περιεχόμενα

GCR_Oct-2006

5

Τράπεζες δεδομένωνΤράπεζες δεδομένων

Οι επίσημες τράπεζες αλληλουχιών, με νομοθετικά κατοχυρωμένη την ελεύθερη και δημόσια πρόσβαση, είναι τρεις:

GenBank (NIH, ΗΠΑ) EMBL (Cambridge, Ηνωμένο Βασίλειο) DDBJ (Ιαπωνία)

Εκτός από αυτές υπάρχουν αρκετές άλλες, οι οποίες φιλοξενούνται σε δημόσιους ή ιδιωτικούς φορείς, π.χ. Παν/μια, Ερευνητικά Ιδρύματα, Εταιρείες, και κατά κανόνα αφορούν ειδικού τύπου δεδομένα.

Page 6: Περιεχόμενα

GCR_Oct-2006

6

Τράπεζες δεδομένων Τράπεζες δεδομένων (συνέχεια)(συνέχεια)

Η νομική κατάσταση αυτών των τραπεζών επιτρέπει την κατοχύρωση όσων καταθέτουν αλληλουχίες, παρέχοντας για κάθε μια ένα μοναδικό αριθμό πρόσβασης (accession number, Acc#).

Η κατάθεση γίνεται σε μία από τις τρεις, αλλά οι διαχειριστές αναλαμβάνουν την ενημέρωση των άλλων. Το όνομα μιας αλληλουχίας διαφέρει από τράπεζα σε τράπεζα, όχι όμως ο αριθμός πρόσβασης (... οι Ιάπωνες... «NID» ή «ΝΙ»!).

Σε όλα τα έγκυρα διεθνή επιστημονικά περιοδικά ισχύει ως προϋπόθεση αποδοχής μιας εργασίας για δημοσίευση (που αφορά προσδιορισμό αλληλουχιών) η συνυποβολή των αντίστοιχων Acc#.

Page 7: Περιεχόμενα

GCR_Oct-2006

7

Τράπεζες δεδομένων Τράπεζες δεδομένων (συνέχεια)(συνέχεια)

Στις επίσημες τράπεζες διατηρούνται δύο βασικές και αρκετές επιμέρους (ειδικές) τράπεζες αλληλουχιών.

Οι βασικές είναι (α) νουκλεοτιδικών, και (β) αμινοξικών αλληλουχιών.

Οι επιμέρους (ειδικές) τράπεζες περιέχουν δεδομένα που έτσι κι αλλιώς βρίσκονται (έχουν κατατεθεί) στις βασικές, αλλά διαφέρουν σε ένα ή και στα δύο από τα επόμενα στοιχεία:

Το είδος των αλληλουχιών (π.χ., αλληλουχίες μόνο από Drosophila, Human, C. elegans, υποκινητών, Alu families, κλπ)

Τη μορφή (format) και το σχολιασμό (annotation) των αλληλουχιών, που τις καθιστούν συμβατές προς αντίστοιχα ειδικά προγράμματα πρόσβασης (π.χ., ειδικός τρόπος γραφής αλληλουχιών tRNA, 2ταγείς δομές πρωτεϊνικών μορίων, κλπ).

Page 8: Περιεχόμενα

GCR_Oct-2006

8

Μορφή γραφής Μορφή γραφής ((formatformat) ) αλληλουχιώναλληλουχιών

Υπάρχουν πολλές μορφές γραφής, ανάλογα με

Την τράπεζα καταχώρησης

Τα προγράμματα ανάλυσης

ΠΑΡΑΔΕΙΓΜΑΤΑ:

WWW READSEQ Conversion

1. IG/Stanford 10. Olsen

2. GenBank/GBGenBank/GB 11. Phylip3.2

3. NBRF 12. Phylip

4. EMBLEMBL 13. Plain/Raw

5. GCG 14. PIR/CODATA

6. DNAStrider 15. MSF

7. Fitch 16. PAUP/NEXUS

8. Pearson/FastaFasta 17. CLUSTALCLUSTAL

9. Zuker 18. MEGAMEGA

Page 9: Περιεχόμενα

GCR_Oct-2006

9

FastaFasta ( (απλό, αλλά φτωχό σε πληροφορίες)απλό, αλλά φτωχό σε πληροφορίες)

>Όνομα (πρόσθετες πληροφορίες - σχόλια)

CAGCTACCGTCGCGTACGGCGATCGCGCATCGATCGCAGTACTCGTACAAAACGTTCCCCT

GCATTGGGGGGGTATATCG GATG GAT

CAGTCGGGTAGCG TCACG TAAG TCAG ATCG TAACGTTTCAGTCTGCTATCTGC

ACGTCGATCGCT

CGATC

C

AACGATCGA

ACCTAGGCCCTAAAAGCCCCAGCTATCTGCATTC

>.......... όνομα(10)+πληροφορίες = 256 χαρακτήρες σε μια γραμμή

Page 10: Περιεχόμενα

GCR_Oct-2006 10

GenBankGenBank EMBLEMBL

Αυστηρή δομή κειμένου Πληροφοριών & Αλληλουχίας,

αλλά,

μεγιστοποίηση της δυνατότητας δομημένων πληροφοριώνLOCUS MIACDNA 14130 bp DNA circular INV 31-MAR-1998

DEFINITION A.coerulea complete mitochondrial genome.

ACCESSION X83390

NID g975668

KEYWORDS ATPase 6; ATPase 8; COI gene; COII gene; COIII gene; cytb gene;

lrRNA; ND1 gene; ND3 gene; ND4 gene; ND4L gene; ND5 gene; ND6 gene;

srRNA; tRNA-Ala; tRNA-Arg; tRNA-Asn; tRNA-Asp; tRNA-Cys; tRNA-Gln;

tRNA-Glu; tRNA-Gly; tRNA-His; tRNA-Ile; tRNA-Leu; tRNA-Lys;

tRNA-Met; tRNA-Phe; tRNA-Pro; tRNA-Ser; tRNA-Thr; tRNA-Trp;

tRNA-Tyr; tRNA-Val.

SOURCE Albinaria coerulea.

ORGANISM Mitochondrion Albinaria coerulea

Eukaryota; Metazoa; Mollusca; Gastropoda; Pulmonata;

Stylommatophora; Clausiliidae; Alopiinae; Albinaria.

REFERENCE 1 (bases 1 to 14130)

AUTHORS Hatzoglou,E., Rodakis,G.C. and Lecanidou,R.

TITLE Complete sequence and gene organization of the mitochondrial genome

of the land snail Albinaria coerulea

JOURNAL Genetics 140 (4), 1353-1366 (1995)

MEDLINE 96120351

REFERENCE 2 (bases 1 to 14130)

AUTHORS Rodakis,G.C.

TITLE Direct Submission

JOURNAL Submitted (12-DEC-1994) G.C. Rodakis, Univ.of Athens, Dep. of

Biochemistry, Cell and Mol. Biology and Genetics,

Panepistimiopolis, Athens 157 01, GREECE

FEATURES Location/Qualifiers

DEFINITION A.coerulea complete mitochondrial genome.

ACCESSION X83390

NID g975668

KEYWORDS ATPase 6; ATPase 8; COI gene; COII gene; COIII gene; cytb gene;

lrRNA; ND1 gene; ND3 gene; ND4 gene; ND4L gene; ND5 gene; ND6 gene;

srRNA; tRNA-Ala; tRNA-Arg; tRNA-Asn; tRNA-Asp; tRNA-Cys; tRNA-Gln;

tRNA-Glu; tRNA-Gly; tRNA-His; tRNA-Ile; tRNA-Leu; tRNA-Lys;

tRNA-Met; tRNA-Phe; tRNA-Pro; tRNA-Ser; tRNA-Thr; tRNA-Trp;

tRNA-Tyr; tRNA-Val.

SOURCE Albinaria coerulea.

ORGANISM Mitochondrion Albinaria coerulea

Eukaryota; Metazoa; Mollusca; Gastropoda; Pulmonata;

Stylommatophora; Clausiliidae; Alopiinae; Albinaria.

REFERENCE 1 (bases 1 to 14130)

AUTHORS Hatzoglou,E., Rodakis,G.C. and Lecanidou,R.

TITLE Complete sequence and gene organization of the mitochondrial genome

of the land snail Albinaria coerulea

JOURNAL Genetics 140 (4), 1353-1366 (1995)

MEDLINE 96120351

REFERENCE 2 (bases 1 to 14130)

AUTHORS Rodakis,G.C.

TITLE Direct Submission

JOURNAL Submitted (12-DEC-1994) G.C. Rodakis, Univ.of Athens, Dep. of

Biochemistry, Cell and Mol. Biology and Genetics,

Panepistimiopolis, Athens 157 01, GREECE

1 13 80...(10)... ...(8).. .

Page 11: Περιεχόμενα

GCR_Oct-2006 11

FEATURES Location/Qualifiers

source 1..14130

/organism="Albinaria coerulea"

/mitochondrion

/db_xref="taxon:42349"

gene 11..1648

/gene="ND5"

CDS 11..1648

/gene="ND5"

/note="starting codon=ATT, termination codon=TAG"

/codon_start=1

/transl_table=5

/db_xref="PID:g975669"

/db_xref="SWISS-PROT:P48918"

/translation="MLLGVLCAIMGVIYMVLNMQNSSYLLMFNLFSTQSVNFNLALIC

DKVSTSFLVVVLLISSCVFLFANEYMSEDHYNIRFGWILISFVASMGILILSGSIFTL

LLGWDGLGLTSFALIAYYDNYNASSSAFLTLMTNRLGDVLIIATFSVILVTGLTVHFP

PYTLVWLSSILFTIASFTKSAQYPFSAWLPAAMAAPTPVSALVHSSTLVTAGIYLMIR

CFMVDGAPAEMYSLMGLVGSITCLLGGSVALFEYDLKKVIALSTLSQLGVMMYSLSLN

LPYLALLHLYGHAMFKAMLFLGAGLILMMSYGTQDLRLLGSLLYSSPIVISLLNISML

CLMGFPFVSSFYSKHLILEKMLDMNCNFFTSMMFMLGTLLTGMYSIRLMKFLCWGNNN

NKPSYCNMSWQSKMSMFPLAALAVLSGQLMSYLDSSYMTFSWSTNQYNLILWGVLFLS

IFFGIVMKFGNFYPTLMSSMMFLGPTSYNLLHYTKSLLIYMKRIDLSISEPNWVMSNL

MYSSSWRVMSLFNWLTNYMLVTWFLLVWLMIMSILMW"

gene 1642..2541

/gene="ND1"

CDS 1642..2541

/gene="ND1"

/note="starting codon=ATG, termination codon=TAA"

/codon_start=1

/transl_table=5

/db_xref="PID:g975670"

/db_xref="SWISS-PROT:P48897"

/translation="MVVFKSLLLNLCILLSVAFYTLLERKVLSSMQIRKGPNKVGLYG

Page 12: Περιεχόμενα

GCR_Oct-2006 12

...

tRNA 3950..4016

/note="codon recognized: GAC"

/product="tRNA-Asp"

/anticodon=(pos:3981..3983,aa:Asp)

...

rRNA complement(6270..7028)

/product="srRNA"

...

rRNA 12428..13462

/product="lrRNA"

...

BASE COUNT 4628 a 1951 c 2196 g 5355 t

ORIGIN

1 ccgttttcct attttattag gtgttctatg tgctattata ggtgtaattt acatagtatt

61 aaatatacaa aattccagtt atcttttaat atttaattta ttttcaaccc aaagggttaa

121 ctttaactta gctttaattt gtgataaagt aagcacaagg tttttggtag tggtattact

181 aatttctagc tgtgtttttc tttttgctaa tgaatatata tctgaagatc attataacat

241 ccgttttggt tgaattttaa tcagatttgt agcatctatg ggaattctga ttttgagcgg

301 ttcaattttt actttgcttc taggttgaga tggcctcggg ttaacttcat ttgctttaat

361 tgcatactac gataattata atgcatcttc ctcagctttt ctgacgctaa taactaatcg

...

...

13141 aaagcaataa gtaattctta ttagattttt tgttggggca acaatatttc aaataataaa

13201 tatattaatg aaagtaataa gtcgattaaa taattataga aaaattacct aagggataac

13261 agcataattt tattaataag cttgtgacct cgatgttgga ctaggtacta ttaaggctaa

13921 tatgcgtgag gagcagtaat attaataaga ttaactatag aaacagacac ttttattatt

13981 ttaggatcaa atataatgta tactagagta aatattccaa taacaatttt aatttttctc

14041 tcaatttatc tattaattgt tttctttgca gtggtgaatt taatagtaaa cataacaagg

14101 attctcatag ttgaaagtag ccaagtttaa

//

Page 13: Περιεχόμενα

GCR_Oct-2006 13

EMBLID MIACDNA standard; circular DNA; ORG; 14130 BP.

AC X83390;

NI g975668

DT 05-SEP-1995 (Rel. 45, Created)

DT 31-MAR-1998 (Rel. 55, Last updated, Version 6)

DE A.coerulea complete mitochondrial genome

KW ATPase 6; ATPase 8; COI gene; COII gene; COIII gene; cytb gene; lrRNA;

KW ND1 gene; ND3 gene; ND4 gene; ND4L gene; ND5 gene; ND6 gene; srRNA;

KW tRNA-Ala; tRNA-Arg; tRNA-Asn; tRNA-Asp; tRNA-Cys; tRNA-Gln; tRNA-Glu;

KW tRNA-Gly; tRNA-His; tRNA-Ile; tRNA-Leu; tRNA-Lys; tRNA-Met; tRNA-Phe;

KW tRNA-Pro; tRNA-Ser; tRNA-Thr; tRNA-Trp; tRNA-Tyr; tRNA-Val.

OS Albinaria coerulea

OC Eukaryota; Metazoa; Mollusca; Gastropoda; Pulmonata; Stylommatophora;

OC Clausiliidae; Alopiinae; Albinaria.

OG Mitochondrion

RN [1]

RX MEDLINE; 96120351.

RA Hatzoglou E., Rodakis G.C., Lecanidou R.;

RT "The complete sequence of the mitochondrial genome of the land snail

RT Albinaria coerulea.";

RL Genetics 140:1353-1366(1995).

RN [2]

RP 1-14130

RA Rodakis G.C.;

RT ;

RL Submitted (12-DEC-1994) to the EMBL/GenBank/DDBJ databases.

RL G.C. Rodakis, Univ.of Athens, Dep. of Biochemistry, Cell and Mol.

RL Biology and Genetics, Panepistimiopolis, Athens 157 01, GREECE

XX

DR SWISS-PROT; P48884; CYB_ALBCO.

Page 14: Περιεχόμενα

GCR_Oct-2006 14

DR SWISS-PROT; P48884; CYB_ALBCO.

DR SWISS-PROT; P48887; COX1_ALBCO.

DR SWISS-PROT; P48889; COX2_ALBCO.

DR SWISS-PROT; P48891; COX3_ALBCO.

DR SWISS-PROT; P48893; ATP6_ALBCO.

DR SWISS-PROT; P48895; ATP8_ALBCO.

DR SWISS-PROT; P48897; NU1M_ALBCO.

DR SWISS-PROT; P48902; NU2M_ALBCO.

DR SWISS-PROT; P48907; NU3M_ALBCO.

DR SWISS-PROT; P48914; NU4M_ALBCO.

DR SWISS-PROT; P48918; NU5M_ALBCO.

DR SWISS-PROT; P48922; NU6M_ALBCO.

DR SWISS-PROT; P48928; NULM_ALBCO.

FH Key Location/Qualifiers

FT source 1. .14130

FT /organism="Albinaria coerulea"

FT /mitochondrion

FT CDS 11. .1648

FT /db_xref="PID:g975669"

FT /db_xref="SWISS-PROT:P48918"

FT /note="starting codon=ATT, termination codon=TAG"

FT /gene="ND5"

FT /translation="MLLGVLCAIMGVIYMVLNMQNSSYLLMFNLFSTQSVNFNLALICD

FT KVSTSFLVVVLLISSCVFLFANEYMSEDHYNIRFGWILISFVASMGILILSGSIFTLLL

FT GWDGLGLTSFALIAYYDNYNASSSAFLTLMTNRLGDVLIIATFSVILVTGLTVHFPPYT

FT LVWLSSILFTIASFTKSAQYPFSAWLPAAMAAPTPVSALVHSSTLVTAGIYLMIRCFMV

FT DGAPAEMYSLMGLVGSITCLLGGSVALFEYDLKKVIALSTLSQLGVMMYSLSLNLPYLA

FT LLHLYGHAMFKAMLFLGAGLILMMSYGTQDLRLLGSLLYSSPIVISLLNISMLCLMGFP

FT FVSSFYSKHLILEKMLDMNCNFFTSMMFMLGTLLTGMYSIRLMKFLCWGNNNNKPSYCN

FT MSWQSKMSMFPLAALAVLSGQLMSYLDSSYMTFSWSTNQYNLILWGVLFLSIFFGIVMK

FT FGNFYPTLMSSMMFLGPTSYNLLHYTKSLLIYMKRIDLSISEPNWVMSNLMYSSSWRVM

FT SLFNWLTNYMLVTWFLLVWLMIMSILMW"

FT CDS 1642. .2541

Page 15: Περιεχόμενα

GCR_Oct-2006 15

FT CDS 1642. .2541

FT /db_xref="PID:g975670"

FT /db_xref="SWISS-PROT:P48897"

FT /note="starting codon=ATG, termination codon=TAA"

FT /gene="ND1"

FT /translation="MVVFKSLLLNLCILLSVAFYTLLERKVLSSMQIRKGPNKVGLYGI

FT IQPIADALKLFLKEFFIPVNSNSFMFMILPLLGLTLSLMLWAVFPSMWMFNFHSYLLML

FT FVALTGTFVYVIIFAGWSSNSKYSFLGGMRAAAQTISYEVSMLLLLFFAVLMYRTYSWY

FT EAGLSSPIGIIIFIIMFIWFASCLAETNRAPFDFAEGESELVSGFNIEYYGGMFALLFL

FT AEYSSILFMCMMSTVWFLYSDMIFIMTLLILLIAMAFLFARGVYPRHRYDLLMNLCWKS

FT FLPFSLCCICYSMLLWIV"

FT CDS 2549. .2846

.

FT CDS 2847. .3949

.

FT tRNA 3950. .4016

FT /anticodon=(pos:3981. .3983,aa:Asp)

FT /product="tRNA-Asp"

.

FT rRNA complement(6270. .7028)

.

FT rRNA 12428. .13462

FT /product="lrRNA"nnnnnnpppppnnnppppp

XX

SQ Sequence 14130 BP; 4628 A; 1951 C; 2196 G; 5355 T; 0 other;

CCGTTTTCCT ATTTTATTAG GTGTTCTATG TGCTATTATA GGTGTAATTT ACATAGTATT 60

AAATATACAA AATTCCAGTT ATCTTTTAAT ATTTAATTTA TTTTCAACCC AAAGGGTTAA 120

CTTTAACTTA GCTTTAATTT GTGATAAAGT AAGCACAAGG TTTTTGGTAG TGGTATTACT 180

AATTTCTAGC TGTGTTTTTC TTTTTGCTAA TGAATATATA TCTGAAGATC ATTATAACAT 240

...

ATAGCGGGCT TAATTTTTCC GGTATTTATG ATGCTGAAAG GAATCAATCC AATGAGCCTT 13740

TTATTAGCTC TTCTTACTTT AAGGTTATGT GCTGTTCTAT GATTAGGATC TTTTATGAGG 13800

TCTTGATATG CCTATATTTT ATTTATTGTC TATATTGGTG GAATCTT

Page 16: Περιεχόμενα

GCR_Oct-2006

16

CLUSTALCLUSTAL (outfile - .aln (outfile - .aln))

CLUSTAL X (1.83) multiple sequence alignment

Human_D-loop TTCTTTCATGGGGAAGCAGATTTGGGTACCACCCAAGTATTGACTCACCCATCAACAACC 60

Pan TTCTTTCATGGGGAAGCAAATTTAGGTACCACCTAAGTACTGGCTCATTCATTA-CAACC 59

BlueWhale -----------------AAACATGTATATTGTACAA-TAACCGCAAAGCCACAG-----T 37

* * * ** ** ** * * **

Human_D-loop GCTATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCATAAATACT 120

Pan GCTATGTATTTCGTACATTACTGCCAGCCACCATGAATATCGTACAGTACCATAT-CACC 118

BlueWhale ACTATGTCCGTATTAAAAAATAATTA-TCTCATTACATATTGTTATGTACTTCGTGCATG 96

****** * ** * * * * * * **** ** **** *

Clustalx.exe

Page 17: Περιεχόμενα

GCR_Oct-2006

17

MEGAMEGA (.meg (.meg))

#MEGA

!Title : All_Mon11.aln;

!Format

DataType=Nucleotide CodeTable=Invertebrate_Mitochondrial

NSeqs=19 NSites=5349

Identical=. Missing=? Indel=-;

!Domain=16Sb;#F_AY497292 GCTAATTTTG TACGAAAGGA CTTTTTCGCT AAAGCAATGC TTTGTCAC-A AATCTGTGGT TGCATAAATA ATAGTGTATA ACAGGTTGAT TAGCCTATAG GAAGGG--TT A

#ef.w22-F GCTAATTTTG TACGAAAGGA CTTTTTCGCT AAAGCAATGC TTTGTCAC-A AATCTGTGGT TGCATAAATA ATAGTGTATA ATAGGCTGAT TAGCCTATAG GAAGGG--TT A

#tf_w1-156 GCTAATTTTG TACGAAAGGA CTTTTTCGCT AAAGCAATGC TTTGTCAC-A AATCTGTGGT TGCATAAATA ATAGTGTATA ATAGGCTGAT TAGCCTATAG GAAGGG--TT A

#F_c26f GTTAATTTTG TACGAAAGGA CTTTTTTGCT AAAGTGATGC TTTGCGGTTA GACTCGTTAT TTCACAGAGA ATATTATATG GTAGGCTGAC TGACCTATAA AAAGGGGATT -

.

.

.

!Domain=VD1;#F_AY497292 CCTTTTATG- -TAAATGAGC ATATTGTTTG GTGATAGGTT GTTAAGTGTG GTAGATTTTA GAGAAGTCCT ATGTAGCTGG ---TTTAAAG CAGGCTTTTT AGTAAAAAAA GACCTGCT--

#ef.w22-F CCTTTTATG- -TAAATGAGC ATATTGTTTG GTGATAGGTT GTTAAGTGTG GTAGATTTTA GAGAAGTCCT ATGTAGCTGG ---TTTAAAG CAGGCTTTTT AGTAAAAAAA GACCTAC---

#tf_w1-156 CCTTTTATG- -TAAATGAGC ATATTGTTTG GTGATAGGTT GTTAAGTGTG GTAGATTTTA GAGAAGTCCT ATGTAGCTGG ---TTTAAAG CAGGCTTTTT AGTAAAAAAA GACCTACT--

#F_c26f CCTTTTGTGA GTAAATGACT ATTTTCATTA TCGAAATAAC TCTGCTTCTA TGAAACTTTG ATATAATTGA GCATTTTTTA ATATTTTGTA AATCGTTTTT AGAATCTGAG GAG-TG----

#M_AY363687 CCTTTTATG- -TAAGTGAG- ---------- -------GTT GGC-----TA CTAGACTTTA CAGGAATA-T ACGCAGATAG ---TTTCA-- ---CCTT--- -GAAAAAGA- GTG-------

back

All_six_200306.meg

Page 18: Περιεχόμενα

GCR_Oct-2006 18

ΠεριεχόμεναΠεριεχόμενα

Η έννοια της Βιοπληροφορικής, ορισμοί.

Βάσεις δεδομένων πρωτεϊνών και DNA, εξειδικευμένες βάσεις δεδομένων, μορφές και προβλήματα σχολιασμού (annotation).

Χρήση του Διαδικτύου για πρόσβαση και on line ανάλυση δεδομένων. Μηχανές αναζήτησης - εξόρρυξης δεδομένων, ειδικά προγράμματα ιστοτόπων.

Page 19: Περιεχόμενα

GCR_Oct-2006

19

Γιατί «ανάλυση αλληλουχιών» με Η/Υ, Γιατί «ανάλυση αλληλουχιών» με Η/Υ, και μάλιστα μέσω Διαδικτύου;και μάλιστα μέσω Διαδικτύου;

Αιτία: Ο ρυθμός συσσώρευσης «πρωτογενών» δεδομένων (δηλ. αλληλουχιών DNA) είναι κατά πολύ μεγαλύτερος από το ρυθμό ταυτοποίησής τους (δηλ. χαρακτηρισμού ή/και προσδιορισμού της λειτουργίας τους.

Επακόλουθο πρώτο: Ανάπτυξη ειδικών προγραμμάτων που εκμεταλλεύονται τη δύναμη των Η/Υ στη διαχείριση μεγάλου όγκου δεδομένων.

Επακόλουθο δεύτερο: Ο αριθμός των προγραμμάτων είναι πολύ μεγάλος και συνεχώς αυξάνεται, σε συνάρτηση με νέες προσεγγίσεις και δεδομένα, με συνέπεια την αδυναμία διατήρησης και ενημέρωσης ενός τοπικού Η/Υ.

Page 20: Περιεχόμενα

GCR_Oct-2006

20

...άρα με το ...άρα με το internet internet λύσαμε το λύσαμε το πρόβλημά μας;πρόβλημά μας;

Απάντηση: ΟΧΙ!

Γιατί...:

Πρώτον: Δεν υφίσταται πάντα σύνδεση στο διαδίκτυο ή αργεί η μεταφορά των δεδομένων.

Δεύτερον: Περιορισμοί στους Η/Υ που μας φιλοξενούν, π.χ. δέχονται μικρότερο μήκος αλληλουχιών από αυτό που μπορεί να χειριστεί το συγκεκριμένο πρόγραμμα.

Τρίτον: Μερικά προγράμματα δεν «προσφέρονται» και μάλιστα δωρεάν.

Page 21: Περιεχόμενα

GCR_Oct-2006

21

Ενδεικτική κατάταξη γενικών Ενδεικτική κατάταξη γενικών κατηγοριών ανάλυσηςκατηγοριών ανάλυσης

Αναζήτηση όμοιων (όχι αναγκαστικά ομόλογων ) αλληλουχιών σε τράπεζες δεδομένων (Search).

Page 22: Περιεχόμενα

GCR_Oct-2006

22

Μερικές σημαντικές έννοιεςΜερικές σημαντικές έννοιες

Ομοιότητα (similarity)

Ομολογία (homology) και απόκλιση (divergence)

Ορθολογία (orthology)

Παραλογία (paralogy)

Αλλά και “inparalogs”, “outparalogs”

Αναλογία (analogy) και σύγκλιση (convergence)

Page 23: Περιεχόμενα

GCR_Oct-2006 23

ATCGGCCACTTTCGCGATCA

ATAGGCCACTTTCGCGATCA

ATAGGCCACTTTCGCGATTA

ATAGGGCAGTTTCGCGATTA

ATAGGGCAGTTTTGCGATTA

ATAGGGCAGTTTCGCGATTA

ATAGGGCAGTCTCGCGATTA

ATCGGCCACTTTCGCGATCG

ATCGGCCACTTTCGTGATCG

ATCGGCCACGTTCGTGATCG

ATCGGCCACGTTCGCGATCG

ATCGGCCACCTTCGCGATCG

ACCGGCCACCTTCGCGATCG

ACCGGCCACCTTCGCGATCG| || || |||||||ATAGGGCAGTCTCGCGATTA

Προγονική αλληλουχία

Ομόλογες αλληλουχίες

ομολογίαομολογία = κοινή καταγωγή = κοινή καταγωγή

Page 24: Περιεχόμενα

GCR_Oct-2006 24

ACCGGCCACCTTCGCGATCG

ATCGGCCACTTTCGCGATCA

ATAGGGCAGTCTCGCGATTA

Αλληλουχία στονπρογονικό οργανισμό

Ορθόλογες αλληλουχίες

Σημείο ΕΙΔΟΓΕΝΕΣΗΣ

Είδος Α Είδος Β

Ορθόλογα γονίδια:«ίδια γονίδια»

σε διαφορετικούςοργανισμούς

Τα Τα ορθόλογαορθόλογα γονίδια είναι προϊόντα ειδογένεσης γονίδια είναι προϊόντα ειδογένεσης

Page 25: Περιεχόμενα

GCR_Oct-2006 25

ATCGGCCACTTTCGCGATCA

ATAGGGCAGTCTCGCGATTA ACCGGCCACCTTCGCGATCG

Παράλογες αλληλουχίες

ΓονιδιακόςΔΙΠΛΑΣΙΑΣΜΟΣ

Αντίγραφο Α Αντίγραφο Β

ΠαράλογαΠαράλογα γονίδια = προϊόντα διπλασιασμού γονίδια = προϊόντα διπλασιασμού

Αλληλουχία στονπρογονικό οργανισμό

Page 26: Περιεχόμενα

GCR_Oct-2006 26

An evolutionary tale…

Duplication of A in worm

Duplication of A in human

Sonnhammer & Koonin (2002) TIGs 18 619-220

back

Page 27: Περιεχόμενα

GCR_Oct-2006

27

Ενδεικτική κατάταξη γενικών Ενδεικτική κατάταξη γενικών κατηγοριών ανάλυσηςκατηγοριών ανάλυσης

Αναζήτηση όμοιων (όχι αναγκαστικά ομόλογων ) αλληλουχιών σε τράπεζες δεδομένων (Search).

Ανάλυση μεμονωμένων αλληλουχιών (επίπεδο πρωτοδιάταξης)

Πρόγνωση 2ταγούς – 3ταγούς δομής αμινοξικών αλληλουχιών (Predictions)

Στοίχιση (Alignment)

Φυλογενετική ανάλυση (Phylogeny)

Page 28: Περιεχόμενα

GCR_Oct-2006

28

Πού αποσκοπεί η αναζήτηση όμοιων Πού αποσκοπεί η αναζήτηση όμοιων αλληλουχιώναλληλουχιών

Πρωταρχικά στην ταυτοποίηση μιας νέας αλληλουχίας.

Στη συγκρότηση ενός συνόλου συγγενών αλληλουχιών για παραπέρα εξελικτική ανάλυση ή και για κατασκευή «universal» εκκινητών PCR.

Στην πιστοποίηση της «ειδικότητας» μιας αλληλουχίας που πρόκειται να χρησιμοποιηθεί ως ανιχνευτής.

Σημείωση: Η κάθε μία από τις μεγάλες διεθνείς βάσεις δεδομένων διαθέτει on-line το αντίστοιχο πρόγραμμα αναζήτησης

GenBank: BLAST

EMBL: FASTA

Page 29: Περιεχόμενα

GCR_Oct-2006

29

Η αναζήτηση όμοιων αλληλουχιών Η αναζήτηση όμοιων αλληλουχιών στην πράξη:στην πράξη:

1. Άνοιγμα ενός αρχείου που περιέχει την ή τις αλληλουχίες για εξέταση (συνήθως χρησιμοποιείται το Notepad των Windows και είναι πάντα διαθέσιμο στο taskbar).

2. Login στο «site» του υπολογιστή που φιλοξενεί το πρόγραμμα αναζήτησης και ενεργοποίηση του προγράμματος.

3. Τα «on line» προγράμματα εμφανίζουν ένα παράθυρο που συνήθως λέγεται «query line ή sequence» και σ’ αυτό γράφουμε την προς εξέταση αλληλουχία ή την μεταφέρουμε από το notepad με copy-paste.

4. Εκτελούμε το πρόγραμμα με τα default settings ή αφού προηγουμένως τα αλλάξουμε (advanced mode).

5. Βλέπουμε το αποτέλεσμα στην οθόνη και το τυπώνουμε ή το μεταφέρουμε σε δικό μας αρχείο πάλι με copy-paste.

Page 30: Περιεχόμενα

GCR_Oct-2006 30

NCBI Home page

BLAST Search page

Αναλυτικότερα... Αναλυτικότερα... on lineon line...:...:

Στατιστικός έλεγχος του βαθμού ομοιότητας

Περιγραφή της «γενικής» ιδέας Στον πίνακα

Το on-line πρόγραμμα PRSS (PRDF)

Page 31: Περιεχόμενα

GCR_Oct-2006 31

Ένας απλός κανόναςΈνας απλός κανόνας::

Πρακτικά, για να θεωρηθεί ότι η παρατηρούμενη ομοιότητα είναι στατιστικά σημαντική (in silico identification) πρέπει ο αρνητικός εκθέτης του «Ε» να είναι διψήφιος αριθμός.

Αν όχι, και αν πρόκειται για κωδική αλληλουχία, ελέγχουμε πάντα το βαθμό ομοιότητας σε επίπεδο αμινοξέων με χρήση του προγράμματος blastx (...όμως, το πρόβλημα δεν λύνεται για «low complexity sequences»).

ΠΡΟΣΟΧΗ: Η αναζήτηση με το FASTA (EMBL) διαφέρει ουσιαστικά στο ότι οι καλύτερες τιμές σκορ είναι θετικοί και όχι αρνητικοί αριθμοί. Και πάλι ισχύει ο διψήφιος εκθέτης

back

Page 32: Περιεχόμενα

GCR_Oct-2006

32

Ενδεικτική κατάταξη γενικών Ενδεικτική κατάταξη γενικών κατηγοριών ανάλυσηςκατηγοριών ανάλυσης

Αναζήτηση όμοιων (όχι αναγκαστικά ομόλογων ) αλληλουχιών σε τράπεζες δεδομένων (Search).

Ανάλυση μεμονωμένων αλληλουχιών (επίπεδο πρωτοδιάταξης).

Πρόγνωση 2ταγούς – 3ταγούς δομής αμινοξικών αλληλουχιών (Predictions)

Στοίχιση (Alignment)

Φυλογενετική ανάλυση (Phylogeny)

Page 33: Περιεχόμενα

GCR_Oct-2006 33

Ανάλυση μιας αλληλουχίας Ανάλυση μιας αλληλουχίας DNADNA

Αφορά πληθώρα ερωτημάτων ή ειδών ανάλυσης και πολύ απλά έως πολύ σύνθετα προγράμματα. Για παράδειγμα:

Απλές εργασίες, όπως: Μετάφραση σε ένα ή και στα 6 πιθανά πλαίσια ανάγνωσης Δημιουργία της συμπληρωματικής, ή της αντιστρόφως

συμπληρωματικής αλυσίδας Μετατροπή μορφής (format)

Εντοπισμός μοτίβων: Αλληλουχίες υποκινητών Παλίνδρομες ή επαναλαμβανόμενες αλληλουχίες Αλληλουχίες κατάλληλες για εκκινητές PCR

Πρόγνωση δευτεροταγών δομών DNA, RNA, tRNA

Page 34: Περιεχόμενα

GCR_Oct-2006 34

Πού θα βρούμε τα προγράμματα;Πού θα βρούμε τα προγράμματα;

Σε πολλούς υπολογιστές Δημόσιων ή Ιδιωτικών Ιδρυμάτων υπάρχουν κατάλογοι με links (διευθύνσεις, URL) για άμεση πρόσβαση σε άλλους υπολογιστές, οι οποίοι επιτρέπουν τη δημόσια on line χρήση πολλών ειδικών προγραμμάτων ανάλυσης.

Την επιλογή την κάνει ο κάθε ερευνητής ανάλογα με τις ανάγκες του και ανάλογα με τα προγράμματα που συνήθως χρησιμοποιεί.

Ένας σχετικά πλούσιος κατάλογος URL για on line εφαρμογή ειδικών προγραμμάτων υπάρχει στην ιστοσελίδα:

ABIM Online analysis tools:

(http://www.up.univ-mrs.fr/~wabim/english/logligne.html)

back

Page 35: Περιεχόμενα

GCR_Oct-2006

35

Ενδεικτική κατάταξη γενικών Ενδεικτική κατάταξη γενικών κατηγοριών ανάλυσηςκατηγοριών ανάλυσης

Αναζήτηση όμοιων (όχι αναγκαστικά ομόλογων ) αλληλουχιών σε τράπεζες δεδομένων (Search).

Ανάλυση μεμονωμένων αλληλουχιών (επίπεδο πρωτοδιάταξης).

Πρόγνωση 2ταγούς – 3ταγούς δομής αμινοξικών αλληλουχιών (Predictions)

Στοίχιση (Alignment)

Φυλογενετική ανάλυση (Phylogeny)

END

Page 36: Περιεχόμενα

GCR_Oct-2006

36