Upload
others
View
6
Download
0
Embed Size (px)
Citation preview
Εξελικτική Οικολογία - Διάλεξη 9
Φυλογενετικά Φυλογενετικά δέδέδέντραδέντρα
ΕισηγητήςΕισηγητήςΕπικ. Καθ. Πουλακάκης Νίκος[email protected]
Δημιουργία φυλογενετικού δέντρου
Τα βήματα που περιλαμβάνονται στη δημιουργία ενός δέντρου απόνουκλεοτιδικές αλληλουχίες είναι:
1) Προσδιορισμός της αλληλουχίας του DNA
2) Προσδιορισμός άλλων αλληλουχιών σχετικών με τις αλληλουχίες που2) Προσδιορισμός άλλων αλληλουχιών σχετικών με τις αλληλουχίες που εξετάζουμε και απόκτηση αυτών σε ηλεκτρονική μορφή (από world wide databases).
3) Ευθυγράμμιση των αλληλουχιών
4) Χρήση του αποτελέσματος της ευθυγράμμισης για τη δημιουργία ενός δέντρου
5) Εκτύπωση και πιθανά δημοσίευση των αποτελεσμάτων
Μετά το πρώτο βήμα, απαιτείται PC με σύνδεση στο Internet και μια ομάδα κατάλληλων υπολογιστικών προγραμμάτων
Βάσεις δεδομένων νουκλεοτιδικών αλληλουχιών
Οι βάσεις δεδομένων λειτουργούν ως χώρος αποθήκευσης και άντλησης πληροφορίας, ενώ έχουν και τη δυνατότητα αναζητήσεων και ανταλλαγής δεδομένων με άλλες βάσεις Ο αριθμός των διαθέσιμων αλληλουχιών αυξάνειδεδομένων με άλλες βάσεις. Ο αριθμός των διαθέσιμων αλληλουχιών αυξάνει ταχύτατα.
Έχουν γίνει παράλληλες προσπάθειες σε Ευρώπη, Αμερική και Ιαπωνία για τηδημιουργία βάσεων δεδομένων με όλες τις αλληλουχίες που δημοσιεύονται:
a) EMBL (European Molecular Biology Laboratory) database, maintained at EMBL-EBI
International Nucleotideb) GenBank (Genetic Sequence Data Bank) maintained at NCBI (National Center for Biotechnology Information)
International Nucleotide Sequence Database
Collaboration
c) DDBJ (DNA Data Bank of Japan) maintained at NIG/CIB
Τα περισσότερα περιοδικά σήμερα απαιτούν οι αλληλουχίες που
Βάσεις δεδομένων
Τα περισσότερα περιοδικά σήμερα απαιτούν οι αλληλουχίες πουπρόκειται να δημοσιευτούν να είναι κατατεθειμένες σε κάποια βάσηγενετικών δεδομένων.
• Απαιτούν την κατάθεση σε μια βάση, χωρίς να επηρεάζει το που θ δ θ ί ύ λ λλ λ ώθα δημοσιευθεί το σύνολο των αλληλουχιών
• Ανταλλαγή δεδομένων μεταξύ των βάσεων συμβαίνει καθημερινά
• Οι αλληλουχίες που κατατίθενται μπορεί να διατηρηθούν υπο φύλαξη μετά από σχετική αίτηση του ερευνητή για κάποιο εύλογοφύλαξη μετά από σχετική αίτηση του ερευνητή για κάποιο εύλογο χρονικό διάστημα
Η ποσότητα της πληροφορίας στις βάσεις αυξάνει με εκπληκτικό ρυθμό.
Βάσεις δεδομένωνη ης ηρ φ ρ ς ς β ς ξ μ η ρ μ
Για παράδειγμα, το 2008 είχαναποθηκευτεί κοντά στα 100 διςβάσεις νουκλεοτιδίων και 100εκατομμύρια αλληλουχίες.
Κάθε αλληλουχία στις βάσεις χαρακτηρίζεται από
Βάσεις δεδομένων
1) entry name, locus name oridentifier (ID): Κάθε αλληλουχίαέχει ένα και μοναδικό ID
2) accession number (AC): Κάθε2) accession number (AC): ΚάθεAC είναι μοναδικός στη βάση
3) version number: Προέρχεται απότο AC και είναι ο αριθμός τωνφορών ου η αλληλου ία έ ειφορών που η αλληλουχία έχειτροποποιηθεί.
ENTREZ Database: Είναι η πιο χρήσιμη βάση δεδομένων ειδικά για
Βάσεις δεδομένων
ENTREZ Database: Είναι η πιο χρήσιμη βάση δεδομένων ειδικά γιαφυλογενετικές αναλύσεις.
1) Παρέχει ολοκληρωμένη πρόσβαση σε νουκλεοτιδικές και πρωτεϊνικές αλληλουχίες1) Παρέχει ολοκληρωμένη πρόσβαση σε νουκλεοτιδικές και πρωτεϊνικές αλληλουχίες.
2) Διαθέτει μηχανές αναζήτησης για παρόμοιες αλληλουχίες, παράγοντας μια λίστα από
Η βάση Entrez αντλεί δεδομένα από:
σχετικές αλληλουχίες και τις αντίστοιχες βιβλιογραφικές τους αναφορές.
Η βάση Entrez αντλεί δεδομένα από:a) Nucleotide databases (GenBank, EMBL,
DDBJ, and PDB),b) Protein databases, ) St t d t bc) Structure databases,
d) Taxonomy databases, e) Genome databases, f) Expression databases, and ) p ,g) Literature databases (PubMed, OMIM,
Books, PubMed Central).
Ανάκτηση σχετικών αλληλουχιών μέσω του BLAST
Βάσεις δεδομένων
Ανάκτηση σχετικών αλληλουχιών μέσω του BLAST
Συνήθως έχουμε ήδη μια αλληλουχία (νουκλεοτιδική ή πρωτεϊνική) καιχρειάζεται να βρούμε άλλες σχετικές με αυτήν αλληλουχίες.
λλ λΜε τον όρο σχετικές εννοούμε αλληλουχίες που είναι όμοιες προς την υπόεξέταση αλληλουχία και θεωρούμε ότι μοιράζονται τον ίδιο κοινό πρόγονο.
Ο ευκολότερος τρόπος για την εύρεση σχετικών αλληλουχιών είναι με τηχρήση ενός προγράμματος που ψάχνει μέσα στις βάσεις γενετικών δεδομένων.
Η μηχανή αναζήτησης που θα χρησιμοποιήσουμε για το σκοπό αυτό άζ BLAST (B i L l Ali t S h T l)ονομάζεται BLAST (Basic Local Alignment Search Tool).
Η οικογένεια BLAST περιλαμβάνει διάφορα προγράμματα μεταξύ των οποίων
Βάσεις δεδομένων
είναι τα:
1) BLASTN, που συγκρίνει νουκλεοτιδικές αλληλουχίες
2) BLASTP, που συγκρίνει πρωτεϊνικές αλληλουχίες
BLASTN
Αποτέλεσμα έρευνας για μια αλληλουχίαBLASTN
Οι περισσότεροι χρήστες του BLAST είναι γνώστες της
BLASTN
Οι περισσότεροι χρήστες του BLAST είναι γνώστες τηςαποκαλούμενης «παραδοσιακής» αναφοράς BLAST. Η αναφοράαυτή αποτελείται από 3 κύριες ενότητες:(1) Η πρώτη (κορυφή σελίδας), η οποία περιέχει πληροφορίες για
την υποβαλλόμενη αλληλουχία, περιλαμβάνει τη βάσηδεδομένων που ελέχθηκε (Εικ. 1) και μια γραφική απεικόνισημ χ η ( ) μ γρ φ ή ητων αποτελεσμάτων (Εικ. 2)
1 21 2
Τύπος προγράμματος και έκδοση
Το άρθρο που περιγράφει τον BLAST
H κόκκινη γραμμή αντιπροσωπεύει την υποβαλλόμενηαλληλουχία. Οι αλληλουχίες της βάσης δεδομένωνεμφανίζονται ευθυγραμμισμένες ως προς αυτήν Απόεμφανίζονται ευθυγραμμισμένες ως προς αυτήν. Απόαυτές, οι πιο όμοιες εμφανίζονται πιο κοντά στηνυποβαλλόμενη.
Οι 3 πρώτες έχουν υψηλό score ομοιότητας ό(κόκκινες).
Οι επόμενες 12 έχουν μικρότερο score (μωβ) και οι οποίεςΟι επόμενες 12 έχουν μικρότερο score (μωβ) και οι οποίεςευθυγραμμίζονται με 2 περιοχές της υποβαλλόμενης, από τηθέση 3–60 και από τη θέση 220–500. Οι διαγραμμισμένες
έ δ ύ ό δύ έ ί ίδπεριοχές υποδεικνύουν ότι οι δύο περιοχές είναι της ίδιαςπρωτεΐνης, αλλά χωρίς ομοιότητα.
Οι υπόλοιπες γραμμές (πράσινες, μαύρες), υποδεικνύουν πολύ( )μικρό score (ομοιότητα).
Τοποθετώντας το κέρσορα πάνω σε κάθε γραμμή θα εμφανίζεται ηπρόταση καθορισμού για τη συγκεκριμένη αλληλουχία στορ η ρ μ γ η γ ρ μ η η χπαράθυρο πάνω από το γράφημα.
2. Η δεύτερη ενότητα περιλαμβάνει σε μία σειρά την περιγραφήBLASTN
για κάθε αλληλουχία που ταιριάζει με την υποβαλλόμενηαλληλουχία.
Κάθε γραμμή αποτελείται από 4 πεδία:
(α) Ο αριθμός gi, το όνομα της βάσης, ο σχετικός αριθμός εισόδου (Accessionnumber), και το όνομα της αλληλουχίας, τα οποία διαχωρίζονται από κάθετεςγραμμές,
(β) σύντομη περιγραφή της αλληλουχίας (συνήθως έχει στοιχεία για τονοργανισμό από τον οποίο προέρχεται η αλληλουχία, τον τύπο της αλληλουχίας(π χ mRNA ή DNA) τη λειτουργία της κ α(π.χ. mRNA ή DNA), τη λειτουργία της κ.α.,
(γ) το score της ευθυγράμμισης σε bits. Όσο πιο υψηλό είναι το score τόσο πιοψηλά στη λίστα είναι η αλληλουχία καιψη η η η χ
(δ) το E-value, που δίνει μια εκτίμηση της στατιστικής σημαντικότητας τουαποτελέσματος.
Η πρώτη γραμμή του αποτελέσματος μας λέει ότι(α) ο αριθμός gi είναι 116365, η βάση δεδομένων είναι η sp (SWISS-PROT,βάση για πρωτεΐνες με υψηλή ακρίβεια), ο αριθμός εισόδου είναι P26374, τοόνομα του τόπου RAE2_HUMAN, η γραμμή περιγραφής είναι Rab proteins, τοscore είναι 1216 και το E-value είναι 0.0. Οι πρώτες αλληλουχίες έχουν πολύ
λό E l ( 1) ί ί ΐ RAB ί λ ί GDP Οχαμηλό E-values (<1) και είναι είτε πρωτεΐνες RAB είτε αναστολείς GDP. Οιυπόλοιπες με μεγαλύτερο E-values, 0.5 και άνω, υποδεικνύουν ότι μπορεί ναέχουν ταιριάξει τυχαία.
3. Η τρίτη ενότητα περιλαμβάνει τις ευθυγραμμίσεις για κάθε
BLASTN
3. Η τρίτη ενότητα περιλαμβάνει τις ευθυγραμμίσεις για κάθεαλληλουχία της βάσης δεδομένων με την υποβαλλόμενηαλληλουχία.
Η ευθυγράμμιση έπεται της γραμμής που περιγράφει τηναλληλουχία.η χ
Ακολουθεί το bit score (the raw score is in parentheses) καιτο E-value.Η επόμενη σειρά περιέχει πληροφορίες σχετικά με τονΗ επόμενη σειρά περιέχει πληροφορίες σχετικά με τοναριθμό των στοιχείων (νουκλεοτίδια ή αμινοξέα) τηςστοίχισης (Identities) και, εάν υπάρχουν, ο αριθμός των
ώ ( ) ίκενών (gaps) στην στοίχιση.
Τέλος, εμφανίζεται η στοίχιση (alignment) με τηνυποβαλλόμενη αλληλουχία στην κορυφή και την αλληλουχίατης βάσης που ταιριάζει ως αντικείμενο (Sbjct) από κάτω. Οιαριθμοί δεξιά και αριστερά είναι οι αριθμοί των στοιχείων στηναλληλουχία (νουκλεοτίδια – αμινοξέα). Οι παύλεςα η ουχία (νου εοτίδια αμινοξέα). Οι παύ εςυποδεικνύουν προσθήκες ή ελλείψεις. Oι κάθετες γραμμέςμεταξύ των αλληλουχιών υποδεικνύουν ομοιότητα.
Ευθυγράμμιση αλληλουχιώνΕυθυγράμμιση αλληλουχιών
Ευθυγράμμιση αλληλουχιών
Στοίχιση αλληλουχιών, ένας ορισμός
H δ θέ λ δί ή ξέ δύH διευθέτηση των νουκλεοτιδίων ή των αμινοξέων δύοή περισσότερων αλληλουχιών σε γραμμές (συνήθως)κάθετες συμπεριλαμβάνοντας ελλείψεις και προσθήκεςκάθετες, συμπεριλαμβάνοντας ελλείψεις και προσθήκεςόπου είναι απαραίτητο έτσι ώστε όλες οι θέσεις ναθεωρούνται ομόλογες.ρ μ γ ς
Ευθυγράμμιση αλληλουχιών
H διευθέτηση δύο ή περισσότερων αλληλουχιών (νουκλεοτιδικών ήH διευθέτηση δύο ή περισσότερων αλληλουχιών (νουκλεοτιδικών ήπρωτεϊνικών) σε ένα πλέγμα (μήτρα)
Στοιχεία (νουκλεοτίδια, αμινοξέα) της ίδιας σειράς προέρχονται από το ίδιοχ ( , μ ξ ) ης ς ρ ς ρ ρχβιολογικό μακρομόριο (πρωτεΐνη ή νουκλεϊκό οξύ)Τα στοιχεία διευθετούνται με τη σειρά που εμφανίζονται στο μακρομόριο
Από το Ν στο C άκρο στις πρωτεΐνεςΑπό το 5’ στο 3’ στα νουκλεϊκά οξέα
Στοίχιση αλληλουχιών ανά ζεύγηΣτοίχιση αλληλουχιών ανά ζεύγη
Pairwise Alignment: Στοίχιση 2 αλληλουχιών
Στοίχιση πολλαπλών αλληλουχιών
Multiple Sequence Alignment (MSA): Στοίχιση 3+αλληλουχιώναλληλουχιών
Στοίχιση πολλαπλών αλληλουχιώνΣτοίχιση πολλαπλών αλληλουχιών
MSAs είναι ουσιαστικά ένα σύνολο από pairwise alignments
Σε ένα MSA των nαλληλουχιών γίνονται
n(n-1)/2
pairwise alignemnts
Ευθυγράμμιση αλληλουχιών
Κάθ λί λ βά έ ό ί [ ί έ ί ί έ όΚάθε κελί περιλαμβάνει ένα μόνο στοιχείο [είτε ένα στοιχείο είτε ένα κενό(gap)]
Τα στοιχεία της ίδιας στήλης είναιείτε δομικά ισοδύναμαείτε εξελικτικά ισοδύναμα (ομόλογα)
Κελί
Δομική ΙσοδυναμίαΔομική Ισοδυναμία
http://cl.sdsc.edu/ce/ce_align.html4HHB:A - HEMOGLOBIN (DEOXY)4HHB:B - HEMOGLOBIN (DEOXY)
Βακτηριακές τοξίνες και
http://cl.sdsc.edu/ce/ce_align.html4HHB A HEMOGLOBIN (DEOXY)4HHB:A - HEMOGLOBIN (DEOXY)4HHB:B - HEMOGLOBIN (DEOXY)
Βακτηριακές τοξίνες και
http://cl.sdsc.edu/ce/ce_align.html4HHB A HEMOGLOBIN (DEOXY)4HHB:A - HEMOGLOBIN (DEOXY)4HHB:B - HEMOGLOBIN (DEOXY)
Βακτηριακές τοξίνες και
Ευθυγράμμιση αλληλουχιώνΕξελικτική ισοδυναμία = ομολογίαΑ ό ίδ ήλ ί άθ ί θ έ ζ θ ίΑναφερόμενοι στην ίδια στήλη, η ιστορία κάθε στοιχείου θα πρέπει να αναζητηθείστο αντίστοιχο στοιχείο της προγονικής αλληλουχίας, όπου κάθε αλλαγή οφείλεταισε σημειακές αλλαγέςσε σημειακές αλλαγές
ΥποκατάστασηΠρογονική λλ λ ί
AGWYTIAGWYTI
AGWYTIAGWYTI AGWAGWWWTITI AGWYTIAGWYTI AGWYTIAGWYTIΥ-Wαλληλουχία
Δημίουργία 2 αντίγραφων
AGWYTIAGWYTI AGWYTIAGWYTI AAAAWYTIWYTI AAAAQQQQQQWYTIWYTIΥποκατάσταση
G-ΑΠροσθήκη
PPP
AGWYTIAGWYTI AGWAGWWWTITI AGWYTIAGWYTI AGAG------WYTIWYTI
Ευθυγράμμιση 1 2 3 4
AGWYTIAGWYTI AGWYTIAGWYTI AAAAWYTIWYTI AAAAQQQQQQWYTIWYTI
Ευθυγράμμιση αλληλουχιώνΠαράδειγμα
Ποιο από τα 3 αποτελέσματα ευθυγράμμισης είναι το σωστό;
√
Ευθυγράμμιση αλληλουχιών
Ανάλυση με διαφορετικά προγράμματαΑνάλυση με διαφορετικά προγράμματα
Όλ ί λάθοςΤα διαφορετικά προγράμματα δίνουν διαφορετικά αποτελέσματα!
Όλα είναι λάθος……επειδή τα μοντέλα εξελικτικών διαδικασιών που χρησιμοποιούν είναι πολύδιαφορετικά από αυτό που διαφοροποίησε τις αλληλουχίες στο συγκεκριμένοπαράδειγμα
√
Quiz: O αριθμός των προσθηκών
Π ί λά θ ό θή ύΠοιος είναι ο ελάχιστος αριθμός προσθήκων που απαιτούνται για την παραπάνω στοίχιση της αιμοσφαιρίνης;
Quiz: O αριθμός των προσθηκών
Π ί λά θ ό θ ώ ύ
Εάν όλες οι αλληλουχίες είχαν το ίδιο μήκος θα μπορούσαμε να εξηγήσουμε
Ποιος είναι ο ελάχιστος αριθμός προσθηκών που απαιτούνται για την παραπάνω στοίχιση της αιμοσφαιρίνης;
Εάν όλες οι αλληλουχίες είχαν το ίδιο μήκος, θα μπορούσαμε να εξηγήσουμε την ποικιλομορφία τους χωρίς καμία προσθήκη ή έλλειψη!
Εάν η στοίχιση περιέχει αλληλουχίες που έχουν όλες μήκος χ ή ψ τότεΕάν η στοίχιση περιέχει αλληλουχίες που έχουν όλες μήκος χ ή ψ, τότε μπορούμε να εξηγήσουμε την ποικιλομορφία τους με μία προσθήκη ή με μία έλλειψη!
Quiz: O αριθμός των προσθηκών
Π ί λά θ ό θ ώ ύ
Μπορούμε ΠΑΝΤΑ να εξηγούμε την παρατηρούμενη ποικιλομορφία στο
Ποιος είναι ο ελάχιστος αριθμός προσθηκών που απαιτούνται για την παραπάνω στοίχιση της αιμοσφαιρίνης;
Μπορούμε ΠΑΝΤΑ να εξηγούμε την παρατηρούμενη ποικιλομορφία στο μήκος των αλληλουχιών με:
0 ελλείψεις (η ποικιλομορφία στο μήκος οφείλεται σε προσθήκη)0 προσθήκες (η ποικιλομορφία στο μήκος οφείλεται σε έλλειψη)0 προσθήκες (η ποικιλομορφία στο μήκος οφείλεται σε έλλειψη)συνδυασμός ελλείψεων και προσθηκών
Quiz: O αριθμός των προσθηκών
Π ί λά θ ό θή ύΠοιος είναι ο ελάχιστος αριθμός προσθήκων που απαιτούνται για την παραπάνω στοίχιση της αιμοσφαιρίνης;
√
Ευθυγράμμιση αλληλουχιώνΔιαθέσιμα προγράμματα για pairwise alignment
Διαθέσιμα προγράμματα για mutliple alignment
Ευθυγράμμιση αλληλουχιών
Ένα ζεύγος αλληλουχιών μπορεί να ευθυγραμμιστεί γράφοντας την μίααλληλουχία κάτω από την άλλη με τέτοιο τρόπο ώστε να μεγιστοποιηθεί οαριθμός των νουκλεοτιδίων που ταιριάζουν βάζοντας κενά (gaps) στην μια ήαριθμός των νουκλεοτιδίων που ταιριάζουν, βάζοντας κενά (gaps) στην μια ήστην άλλη αλληλουχία όταν απαιτείται.
AF486227 TACGAAAACACCACCCAATCCTAAGAAAF486227 TACGAAAACACCACCCAATCCTAAGAAAF486228 TACGAAAACACGACCCAATCCTAAAAAAF486223 TACGAAAACACCACCCTATCCTAAAAA
Η ευθυγράμμιση γίνεται συνήθως με ειδικά υπολογιστικά πακέτα, που χρησιμοποιούν συγκεκριμένους αλγόριθμους. Οι περισσότεροι αλγόριθμοι αρχίζουν συγκρίνοντας την ομοιότητα των αλληλουχιών ανά ζεύγη, και ευθυγραμμίζοντας πρώτα τις δύο αλληλουχίες με τη μεγαλύτερη ομοιότητα. Οι άλλ λλ λ ί βά ά ό ίθ δ άάλλες αλληλουχίες, βάσει της σειράς ομοιότητας, προστίθενται σταδιακά.
Ευθυγράμμιση αλληλουχιών
Όταν σε μια ομάδα αλληλουχιών έχουν προστεθεί κάποια κενά, τότε το τελικόalignment συχνά βελτιώνεται από τον ίδιο τον ερευνητή με manual editing. Ηαπόκτηση μιας καλής ευθυγράμμισης είναι ίσως το πιο σημαντικό βήμα ώστεαπόκτηση μιας καλής ευθυγράμμισης είναι ίσως το πιο σημαντικό βήμα ώστενα εκτιμήσουμε ένα σωστό φυλογενετικό δέντρο.
AF486227 TACGAA--AACACCACC---CAATCCTAAGAA86 CG C CC CC C CC GAF486228 TACGAA--AACACGACCGGGCAATCCTAAAAAAF486223 TACGAATTAACACCACCGGGCTATCCTAAAAA
Είναι αναγκαίο να ορίσουμε τον αριθμό των gaps ώστε το τελικό αποτέλεσμα ναέχει βιολογική υπόσταση.
Για το λόγο αυτό χρησιμοποιείται ένα σύστημα σκοραρίσματος όπου ταταιριάσματα παίρνουν ένα θετικό βαθμό και τα κενά ένα αρνητικό, που είναιγνωστό ως gap penalty.
Η ευθυγράμμιση δύο αλληλουχιών δεν είναι δύσκολη υπόθεση και υπάρχουν
Ευθυγράμμιση αλληλουχιών
Η ευθυγράμμιση δύο αλληλουχιών δεν είναι δύσκολη υπόθεση και υπάρχουνπολυάριθμα προγράμματα για το σκοπό αυτό.
ΌΌμως…η ευθυγράμμιση πολλών αλληλουχιών είναι αρκετά πολύπλοκη υπόθεση καιδυστυχώς λίγα προγράμματα μπορούν να το πετύχουν.
ΠρόγραμμαClustalX είναι μια ανανεωμένη έκδοσηClustalX είναι μια ανανεωμένη έκδοση του ClustalW.
Για περισσότερες πληροφορίες υπάρχειΓια περισσότερες πληροφορίες υπάρχει on-line ClustalX help file στο δίκτυο:
www.biozentrum.unibas.ch/~biophit/clusptal/ClustalX_help.html
Δημιουργία αρχείο εισαγωγήςΕυθυγράμμιση αλληλουχιών
Το ClustalX, όπως και άλλα προγράμματα, απαιτούν τα δεδομένα (input file) ναείναι σε ειδική μορφή ώστε να μπορεί να αναγνωριστεί από το πρόγραμμα (i.e.,F f )Fasta format).
Το input file περιέχει όλες τιςαλληλουχίες που θέλουμε νααλληλουχίες που θέλουμε ναευθυγραμμίσουμε.
Το ClustalX αναγνωρίζειΤο ClustalX αναγνωρίζειδιάφορα formats για τιςαλληλουχίες, αλλά εμείς θαχρησιμοποιήσουμε το FASTA.χρη μ ή μ
1ο βήμα: Εισαγωγή των δεδομένων στο ClustalX
Ευθυγράμμιση αλληλουχιών
1ο βήμα: Εισαγωγή των δεδομένων στο ClustalX
Ευθυγράμμιση αλληλουχιών
2ο βή Κ θ ό έ θ ά
Ευθυγράμμιση αλληλουχιών
2ο βήμα: Καθορισμός των παραμέτρων ευθυγράμμισης
3ο βήμα: Καθορισμός μορφής αποτελεσμάτων
Ευθυγράμμιση αλληλουχιών
Τ Cl t lX ά θ ά 3 άδ
4ο Πραγματοποίηση ευθυγράμμισης Ευθυγράμμιση αλληλουχιών
Το ClustalX παράγει την ευθυγράμμιση σε 3 στάδια:
1) Ευθυγραμμίζει κάθε αλληλουχία με κάθε μία από τις υπόλοιπες σε μια σειράευθυγραμμίσεων ανά ζεύγηευθυγραμμίσεων ανά ζεύγη2) Χρησιμοποιεί αυτό το σύνολο των ανά ζεύγη ευθυγραμμίσεων και δημιουργείένα δέντρο οδηγό3) Χρησιμοποιεί το δέντρο οδηγό ώστε να παράγει την ευθυγράμμιση όλων των3) Χρησιμοποιεί το δέντρο οδηγό ώστε να παράγει την ευθυγράμμιση όλων τωναλληλουχιών (multiple alignments)
Φυλογενετική ανάλυση
Μετατροπή του αρχείου της ευθυγράμμισης σε format που ανοίγει τοπρόγραμμα MEGA
Φυλογενετική ανάλυση
Φυλογενετική ανάλυση
Φυλογενετική ανάλυση (MS Windows Version)
Υπάρχουν 4 κύριες κατηγορίες μεθόδων
1) Μέθοδοι Αποστάσεων (Distance methods: Neighbor-Joining),
2) Μέγιστης Φειδωλότητας (Maximum parsimony MP)2) Μέγιστης Φειδωλότητας (Maximum parsimony, MP),
3) Μέγιστης Πιθανότητας (Maximum likelihood, ML) και
4) Μπεϋζιανή Συμπερασματολογία, (Bayesian inference, BI)
Καμία μέθοδος δεν είναι η καλύτερη για όλες τις περιπτώσεις. Η μέθοδος που θα χρησιμοποιήσουμε εξαρτάται από το τι θέλουμε να μ ς χρη μ ή μ ξ ρ μμάθουμε και από το μέγεθος και την πολυπλοκότητα των δεδομένων.
Φυλογενετική ανάλυση
Τα προγράμματα που θα χρησιμοποιήσουμε είναι:
1) MEGA: Molecular Evolutionary Genetics Analysis
2) PAUP: Phylogenetic Analysis Using Parsimony (*and other methods)
(δεδομένα DNA και πρωτεΐνες).3) Modeltest: εύρεση του κατάλληλου μοντέλου4) Mr Bayes) y5) TreeView
Εκτίμηση γενετικών αποστάσεωνΕκτίμηση γενετικών αποστάσεων
Το ρώ ο βή α ην ανάλυ η ων ευθυγρα ι ένων αλληλουχιών είναι ηΤο πρώτο βήμα στην ανάλυση των ευθυγραμμισμένων αλληλουχιών είναι η εκτίμηση της γενετικής ή εξελικτικής απόστασης μεταξύ των αλληλουχιών
Είναι ένα μέτρο του πόσο διαφορετικές είναι οι αλληλουχίες και
εκφράζει τον αριθμό των εξελικτικών αλλαγών που έχουνεκφράζει τον αριθμό των εξελικτικών αλλαγών που έχουν συμβεί από τη στιγμή της απόκλισης τους
Η απλούστερη μέτρηση της εξελικτικής απόστασης είναι η απόσταση p
όπου nd ο αριθμός των παρατηρούμενων νουκλεοτιδικών διαφορών και n ο συνολικός αριθμός
λ δί ίτων νουκλεοτιδίων που συγκρίνονται.
ACTGAA
Εκτίμηση γενετικών Εκτίμηση γενετικών αποστάσεωναποστάσεων
Ωστόσο αυτή η μέτρηση υστερεί σε
ACGTAACή η μ ρη η ρ
πολλά σημεία, π.χ. εάν ο ρυθμόςυποκατάστασης είναι υψηλός,
ί έ ί
CGC
ACT
AC---A T
Απλή Υποκατάσταση
μπορεί να έχουμε υποεκτίμηση τηςπραγματικής γενετικής απόστασης(ομοπλασία: back mutation, parallel
GA---C---T---GAC---GGT---AAA---C---TC
GA A
G
A
C
∆ιαδοχικές Υποκαταστάσεις
C---A
T---A
A---T
Τυχαίες Υποκαταστάσεις
Παράλληλες Υποκαταστάσεις
Συγκλίνουσες Υποκαταστάσεις
mutation, multiple mutation).CGC
CGC---T---C Ανάστροφες Υποκαταστάσεις
Αλληλουχία 1 Αλληλουχία 2
ACTGGAGG
AATGAAAGG
AATCGC
GAATCGC
Εκτίμηση γενετικών αποστάσεωνΕκτίμηση γενετικών αποστάσεων
A T T G C G CC
A T T G C G C
T
CT
A
First:
Second: A T T G C G CC TA
esD
iffer
ence
Substitutions
Εφόσον υπάρχουν 4 τύποι νουκλεοτιδίων (Α Τ C και G) σε κάθε αλληλουχία
Εκτίμηση γενετικών αποστάσεωνΕκτίμηση γενετικών αποστάσεων
Εφόσον υπάρχουν 4 τύποι νουκλεοτιδίων (Α, Τ, C και G) σε κάθε αλληλουχία, υπάρχουν 16 διαφορετικοί τύποι νουκλεοτιδικών ζευγών μεταξύ δύο αλληλουχιών Χ και Ψ.
Νουκλεοτιδικό ζεύγοςΌμοια ΑΑ TT CC GG Total
Α G
F O1 O2 O3 O4 O
Ts AG GA TC CT Total ΜετάπτωσηΜετ τ ή
C T
F P1 P2 P3 P4 P
Tv AC AT GT GC Total Α, πουρίνεςΤ υ μ δί ς
G C
Μεταστροφή
F Q1 Q2 Q3 Q4
CA CG TA TG
Τ, , πυριμιδίνεςC
R = P/Q
F Q5 Q6 Q7 Q8 Q 0.5-2 στο nDNAεως 15mtDNA
Εκτίμηση γενετικών αποστάσεωνΕκτίμηση γενετικών αποστάσεων
Δεδομένου ότι η απόσταση p μπορεί να υποεκτιμήσει την πραγματική ποσότητατης εξελικτικής αλλαγής, έχει γίνει μια μεγάλη προσπάθεια ανεύρεσης μοντέλωνπου μετατρέπουν την παρατηρούμενη απόσταση σε πραγματική εξελικτικήμ ρ η ρ ηρ μ η η ρ γμ ή ξ ήαπόσταση.
Τα μοντέλα αυτά ονομάζονται μοντέλα εξέλιξης ή μέθοδοι διόρθωσης αποστάσεωνή μοντέλα νουκλεοτιδικής υποκατάστασης.
Το πρώτο μοντέλο που αναπτύχθηκε είναι των Jukes and Cantor (1969)(JC69) ί θ ί ό όλ λλ έ ξύ λ δί(JC69), το οποίο θεωρεί ότι όλες οι αλλαγές μεταξύ των νουκλεοτιδίωνμπορεί να συμβούν με ίση πιθανότητα
d = -3/4 ln (1 – 4/3p)
1. Η απλούστερη περίπτωση: Jukes-Cantor modelίση πιθανότητα αλλαγής κάθε νουκλεοτιδίου-- ίση πιθανότητα αλλαγής κάθε νουκλεοτιδίου
GA α
α α
TC
α α
TCα
2. Άλλα μοντέλα λαμβάνουν υπόψη τους τις συχνότητες μεταπτώσεων και μεταστροφώνμεταπτώσεων και μεταστροφών
Μετάπτωση(Transition): από R σε R
Y σε YGA
β
Y σε Y
Μεταστροφή(Transversion): από R σε Yα α ( )
Y σε R
όπου R = A,GTCY = C,Tβ
Tamura Nei’s Model
Εκτίμηση γενετικών αποστάσεωνΕκτίμηση γενετικών αποστάσεων
⎟⎟⎠
⎞⎜⎜⎝
⎛−−⎟⎟
⎠
⎞⎜⎜⎝
⎛−=
RGA
R
R
GA
gQ
ggPg
gggd e
221log2 1
Tamura-Nei s Model
⎟⎞
⎜⎛
⎟⎞
⎜⎛
⎟⎟⎠
⎞⎜⎜⎝
⎛−−⎟⎟
⎠
⎞⎜⎜⎝
⎛−
RCTYGA
YCT
Y
Y
CT
Qgggggg
gQ
ggPg
ggg
e
1l2
221log2 2
⎟⎟⎟⎟
⎠⎜⎜⎜⎜
⎝
−⎟⎟⎠
⎞⎜⎜⎝
⎛−−−
YRY
RCT
R
YGAYR
ggQ
gggg
gggggg e
21log2
General Reversible Model⎞⎛ ++− Τ)( ΤGCGC μcπμbπμαπcbαμ πππ
⎟⎟⎟⎟⎟⎞
⎜⎜⎜⎜⎜⎛
++−++−
++−
=Τ
Τ
Τ
)()(
)(
ΤCACA
ΤGGAA
ΤGCGC
μfπfjh μμjπμhπμeπμdπedg μμgπμcπμbπμαπcbα μ
Qπππ
ππππππ
⎟⎟⎠
⎜⎜⎝ ++− )( GCAGCA lki μμlπμkπμiπ πππ
Εκτίμηση γενετικών αποστάσεωνΕκτίμηση γενετικών αποστάσεων
MEGA 4Φυλογενετική ανάλυση
Φυλογενετική ανάλυση
ΜΕΘΟΔΟΣ ΣΥΝΔΕΣΗΣ ΓΕΙΤΟΝΩΝ (ΜΕΘΟΔΟΣ ΣΥΝΔΕΣΗΣ ΓΕΙΤΟΝΩΝ (NEIGHBOR JOINING)NEIGHBOR JOINING)
ΜΕΘΟΔΟΙ ΠΙΝΑΚΩΝ ΑΠΟΣΤΑΣΕΩΝΜΕΘΟΔΟΙ ΠΙΝΑΚΩΝ ΑΠΟΣΤΑΣΕΩΝ(( ))
To δένδρο που παράγεται είναι άρριζο και συνήθως απαιτεί μια εξωομάδα για να βρεθεί η ρίζα.
Η αρχή της μεθόδου στηρίζεται στην εύρεση των «γειτόνων» διαδοχικά ώστε να μειώνεται το συνολικό μήκος του δέντρου
Παράδειγμα: Έστω ο πίνακας αποστάσεων 5 OTUs (A–E)
OTUs A B C D E
A --- 0.08 0.19 0.70 0.65
B 0 17 0 75 0 70B --- 0.17 0.75 0.70
C --- 0.80 0.60
D --- 0 12D --- 0.12
E ---
Για κάθε OTU υπολογίζουμε τα μεγέθη
r : το άθροισμα των αποστάσεων της OTU i από όλες τις άλλες καιri: το άθροισμα των αποστάσεων της OTU i από όλες τις άλλες και
ri/(n-2) όπου n ο αριθμός των OTUs
OTUs A B C D E r r/n-2
A --- 0.08 0.19 0.70 0.65 1.62 0.54
B --- 0.17 0.75 0.70 1.70 0.57
C --- 0.80 0.60 1.76 0.59
D --- 0.12 2.37 0.79
E --- 2.07 0.69
Εν συνεχεία υπολογίζουμε τις τροποποιημένες αποστάσεις (Dij) ως εξής:
D d r /(n 2) r /(n 2) π χ D 0 08 0 54 0 57 1 03Dij = dij - ri/(n-2) - rj/(n-2), π.χ. DAB = 0.08-0.54-0.57=-1.03,
όποτε έχουμε
OTUs A B C D E r r/n-2
A --- 0.08 0.19 0.70 0.65 1.62 0.540.08 0. 9 0.70 0.65 .6 0.5
B -1,03 --- 0.17 0.75 0.70 1.70 0.57
C -0,94 -0,99 --- 0.80 0.60 1.76 0.59
D -0,63 -0,61 -0,58 --- 0.12 2.37 0.79
E -0,58 -0,56 -0,68 -1,36 --- 2.07 0.69
Η μικρότερη (πιο αρνητική) απόσταση υποδεικνύει τις δύο OTUs που ομαδοποιούνται πρώτες (D και Ε στο παράδειγμα), μέσω ενός
Η απόσταση των δύο OTUs από τον κόμβο υπολογίζεται ως εξής:
εσωτερικού «κόμβου 1» .
Η απόσταση των δύο OTUs από τον κόμβο υπολογίζεται ως εξής:di-node = dij/2 + [ri/(n-2) - rj/(n-2)]/2dj-node = dij/2 + [rj/(n-2) – ri/(n-2)]/2 δηλαδή
Απόσταση D – κόμβος 1 = 0,12/2 + (0,79-0,69)/2 = 0,11Απόσταση Ε – κόμβος 1 = 0,12/2 + (0,69-0,79)/2 = 0,01
Οπότε προκύπτειE0.01
D0.11
Καταρτίζεται νέος πίνακας αποστάσεων στον οποίο τα OTUs D και EΚαταρτίζεται νέος πίνακας αποστάσεων στον οποίο τα OTUs D και Eεμφανίζονται ως ένα σύνθετο OΤU, κόμβος-1 και ακολουθείται η ίδια διαδικασία. Οι νέες αποστάσεις των OTUs από τον κόμβο 1 υπολογίζονται από τη σχέση:
Dk-node(ij)=(dik+djk-dij)/2Π.χ. η απόσταση Α - κόμβος 1χ η η μβ ς
DA1=(0,70+0,65-0,12)/2=0,615OTUs A B C D E r r/n-2
A --- 0.08 0.19 0.70 0.65 1.62 0.54
B -1,03 --- 0.17 0.75 0.70 1.70 0.57
C -0,94 -0,99 --- 0.80 0.60 1.76 0.59
D -0,63 -0,61 -0,58 --- 0.12 2.37 0.79
E -0,58 -0,56 -0,68 -1,36 --- 2.07 0.69
Οπότε έχουμε
OTUs A B C Κόμβος 1 r r/n-2
A --- 0.08 0.19 0.615 0,885 0,4425
B 0 82 0 17 0 665 0 915 0 4575 B -0,82 --- 0.17 0.665 0,915 0,4575
C -0,7525 -0,7875 --- 0.64 1,00 0,50
Κόμβος 1 0 7875 0 7525 0 82 1 92 0 96 Κόμβος 1 -0,7875 -0,7525 -0,82 --- 1,92 0,96
Η μικρότερη αρνητική απόσταση είναι μεταξύ του C και του κόμβου 1.
Απόσταση C – κόμβος 2 = 0,64/2 + (0,50-0,96)/2 = 0,09
Απόσταση κόμβου 1 – κόμβος 2 = 0,64/2 + (0,96-0,50)/2 = 0,55
Οπότε έχουμε
C EC
2 1
0 11
0.01
0.55
0.09
D0.11
Καταρτίζεται νέος πίνακας αποστάσεων στον οποίο τα Καταρτίζεται νέος πίνακας αποστάσεων στον οποίο τα OTUs COTUs C καικαι κόμβος 1 κόμβος 1 ρ ζ ς ςρ ζ ς ς μβ ςμβ ςεμφανίζονται ως ένα σύνθετο εμφανίζονται ως ένα σύνθετο OOΤΤUU,, κόμβοςκόμβος--22 και ακολουθείται η ίδια και ακολουθείται η ίδια διαδικασίαδιαδικασία ..
OTUs A B Κόμ- 2 r r/n-2
A --- 0.08 0.0825 0,1625 0.1625
B -0,26 --- 0.0975 0,1775 0,1775
Κόμ-2 -0,26 -0,26 ----- 0.18 0,18
Επιλέγουμε το ζεύγος Α - Κόμβος 2.
Απόσταση Α – κόμβος 3 = 0,0825/2 + (0,1625-0,18)/2 = 0,0325
Απόσταση κόμβου 2 – κόμβος 3 = 0,0825/2 + (0,18-0,1625)/2 = 0,05
Οπότε έχουμε
ECA23
1
0.01
0 55
0.090.05
0.03
D
0.110.55
Τέλος φτιάχνεται ο νέος πίνακας αποστάσεων μεταξύ του τελευταίου taxon και του κόμβου 3.μβ
OTUs B Κόμβος 3
B --- 0,0475B 0,0475
Κόμβος 3 -----
ECA23 0.010.09
0 03
B
231
0.110.550.05
0.030.0475
D
0.11
Ανάλυση Σύνδεσης Γειτόνων στο MEGA
Ανάλυση Σύνδεσης Γειτόνων στο MEGA
Ανάλυση Σύνδεσης Γειτόνων στο MEGA
Ανάλυση Σύνδεσης Γειτόνων στο MEGA
Ανάλυση Σύνδεσης Γειτόνων στο MEGA
Μήκη Κλάδων – Branch lengths
Δέντρα χωρίς κλίμακα
Τα μήκη των κλάδων δεν παρέχουν καμία πληροφορία
Τα μήκη των κλάδων συνήθως επιλέγεται να ευθυγραμμίζονται με τα ονόματα των ΟΤUs
Δέντρα με κλίμακα
Τα μήκη των κλάδων αντιπροσωπεύουν ένα μέτρο των διαφορών/απόστασης τωνδιαφορών/απόστασης των OTUs που βρίσκονται στις άκρες των κλάδων
Δέντρα με κλίμακα
Τα μήκη των κλάδων λ ύ δ ίαποτελούν δείκτη της
απόστασης των OTUs
Τα δέντρα θα πρέπει να παρουσιάζονται με κλίμακα (scale bar)κλίμακα (scale bar)
Δέντρα με κλίμακα
Τα μήκη των κλάδων αποτελούν δείκτη της απόστασης των OTUs
Τα δέντρα θα πρέπει ναΤα δέντρα θα πρέπει να παρουσιάζονται με κλίμακα
Στα ορθογώνια δέντρα, οι ρ γ ρ ,γραμμές των κόμβων δεν είναι μήκη κλάδων. Το μήκος τους δεν υποδεικνύει απόσταση ΟΤUs.
Π.χ. η απόσταση μεταξύ των C και G είναι το άθροισμα της πράσινης και της γαλάζιας γραμμής, όχι και της κόκκινης.
Μετατροπή αρχείου σε nexus formatΦυλογενετική ανάλυση
Φυλογενετική ανάλυση
ΜΕΘΟΔΟΣ ΜΕΓΙΣΤΗΣ ΦΕΙΔΩΛΟΤΗΤΑΣΜΕΘΟΔΟΣ ΜΕΓΙΣΤΗΣ ΦΕΙΔΩΛΟΤΗΤΑΣ
Η μέθοδος αυτή χρησιμοποιεί το κριτήριο της φειδωλότητας.
Αρχή: το καλύτερο δέντρο είναι αυτό που απαιτεί τον μικρότερο αριθμό εξελικτικών βημάτων για την εξήγηση των διαφορών μεταξύ των μελετούμενων taxa
Νουκλεοτιδικές ΘέσειςΜοναδικά νουκλεοτίδια
Αμετάβλητες Μεταβλητές
Πληροφοριακές θέσεις
Πληροφοριακή θέση: θέση που ευνοεί κάποιο δέντρο έναντι των υπολοίπων. Όταν υπάρχουν 2τουλάχιστον καταστάσεις χαρακτήρων κάθε μια από τις οποίες αντιπροσωπεύεται σε τουλάχιστον 2 από τα taxa.
Για παράδειγμα έστω 4 υποθετικές αλληλουχίες
Νουκλεοτιδικές θέσεις
Αλληλουχία 1 2 3 4 5 6 7 8 9
1 A A G A G T G C A
2 A G C C G T G C T
3 A G A T A T C C A3 A G A T A T C C A
4 A G A G A T C C T
1o Βήμα: Εντοπισμός Πληροφοριακών θέσεων
Θέσεις 1, 6, 8 = αμετάβλητες
Θέσεις 2, 3, 4, 5, 7 και 9 =μεταβλητές. Ποιες όμως είναι πληροφοριακές;
Νουκλεοτιδικές θέσειςς ς
Αλληλουχία 1 2 3 4 5 6 7 8 9
1 A A G A G T G C A
2 A G C C G T G C T
3 A G A T A T C C A
4 A G A G A T C C T
Νουκλεοτιδικές θέσεις
Αλληλουχία 1 2 3 4 5 6 7 8 9
1 A A G A G T G C A
2 A G C C G T G C T
3 A G A T A T C C A3 A G A T A T C C A
4 A G A G A T C C T
2o Βήμα: Υπολογισμός των απαιτούμενων εξελικτικών αλλαγών για κάθε δένδροδένδρο
Για το δέντρο Ι τα εξελικτικά βήματα είναι 1+1+2
Για το δέντρο ΙΙ τα εξελικτικά βήματα είναι 2+2+1Για το δέντρο ΙΙ τα εξελικτικά βήματα είναι 2 2 1
Για το δέντρο ΙΙΙ τα εξελικτικά βήματα είναι 2+2+2
3o Βήμα: Άθροισμα του αριθμού των αλλαγών
Για το δέντρο Ι = 4
Για το δέντρο ΙΙ = 5
Για το δέντρο ΙΙΙ = 6
4o Βήμα: Επιλογή του πιο φειδωλού δέντρου
Δέντρο ΙΔέντρο Ι
Εύρεση των ιδεατών δέντρων
Αλγόριθμοι
Ακριβείς αλγόριθμοι Ευρετικοί αλγόριθμοι
Ακριβείς αλγόριθμοι
Exhaustive (<11 taxa)
Αποτίμηση όλων των δέντρων και εύρεση του πιο «καλού»
Branch and Bound (11<taxa<20)
Εγγυάται την εύρεση του καλύτερου δέντρου χωρίς να απαιτείται η αποτίμησηΕγγυάται την εύρεση του καλύτερου δέντρου, χωρίς να απαιτείται η αποτίμηση κάθε δέντρου
1 2
A
Exhaustive search
3
A
A1
Κατασκευάζει ένα τυχαίο δέντρο με όλες τις αλληλουχίες.
B 1 2
B1
4 1 2
B2
4 1 2
B3
4
η χ ς
Αρχίζει από ένα δέντρο με 3 taxa.
C 1 12 2
3
C31-D35
C21-D25
4 45 5
3 3
To 4ο taxon προστίθεται με την προσθήκη ενός νέου
C11 C12
C21 D25
1 24 5 1 24 5 1 24 5
η ρ ή η ςκλάδου στο μέσο κάθε προϋπάρχοντος κλάδου.
C13 C14 C15
D151-D157
Εκτιμά το παραγόμενο δέντρο, βάσει κάποιου κριτηρίου (π χ μήκος)κριτηρίου (π.χ. μήκος).
Πιθανά δέντραΗ διακλαδωτική σειρά του δένδρου (έρριζου ή άρριζου) καλείται τοπολογία.
για έρριζα δένδρα (n≥2): για άρριζα δένδρα (n≥3):
ή ρ ρ ( ρρ ζ ή ρρ ζ ) γ
( )( )!22
!322
−=
nN nR( )
( )!32!52
3
−=
nN nU( )!22 2 −− nnR ( )!32 3 −− nnU
Number of Number of rooted trees Number of unrooted trees OTUs (n) (ΝR) (NU)
2345
1315
105
113155
678910…15
105904
10,395135,135
2,027,02534,459,425
…213 458 046 676 875
15105904
10,395135,135
2,027,025…
7 905 853 580 62515…20
213,458,046,676,875…
8,200,794,532,637,891,559,375
7,905,853,580,625…
221,643,095,476,699,771,875
Branch and Bound searchΓια 3 taxa (A, B & C) υπάρχει ένα πιθανό δέντρο (A1).
Ο αλγόριθμος ξεκινάει φτιάχνοντας Το τέταρτο taxon (D) μπορεί να προστεθεί (branch) ως νέος κλάδος σε κάθε έναν από τους 3 εσωτερικούς κόμβους, δημιουργώντας 3 πιθανά δέντρα (B1 B2 & B3)
Ο α γόριθμος ξε ινάει φτιάχνονταςένα δέντρο με όλα τα taxa, το οποίο δεν είναι απαραίτητα και το βέλτιστο και στη συνέχεια δέντρα (B1, B2, & B3).
Ελέγχουμε τα παραγόμενα δέντρα. Το Β2 δημιουργεί ένα νέο όριο (bound) με μήκος 838.
συναρμολογεί ένα δέντρο προσθέτοντας ένα taxon κάθε φορά.
ημ ργ ρ ( ) μ μή ςΤα Β1, Β3 έχουν μεγαλύτερο μήκος (από το αρχικό τυχαίο δέντρο, 964) και απορρίπτονται και αυτά και τα παράγωγα αυτών δέντρα.
Α1
Β3
Το 5ο taxon (Ε) προστίθεται σε κάθε ένα από τους 5 εσωτερικούς κόμβους του δέντρου Β2 Ελέγχουμε τα νέα δέντρα Τα Γ1 Γ2 Γ3
Β1 Β2
Β2. Ελέγχουμε τα νέα δέντρα. Τα Γ1, Γ2, Γ3 έχουν μεγαλύτερο μήκος από το αρχικό και απορρίπτονται. Το Γ4 έχει το ίδιο, ενώ το Γ5 μικρότερο δημιουργώντας ένα νέο όριο (bound), ώστε αν υπήρχε και 6ο taxon να ξεκινούσαμε από αυτό, δημιουργώντας κάθε φορά ένα νέο όριο.
Branch and Bound searchΣτο πρώτο βήμα αποκλείονται το το πρώτο βήμα απο είονται το1/3 των πιθανών δέντρων, στο δεύτερο το ½ των υπόλοιπων πιθανών δέντρων με αποτέλεσμα να είναι αναγκαίο να εκτιμηθεί το 1/6 των πιθανών δέντρων.
δ θΥπό ιδανικές συνθήκες μόνο ένα δέντρο θα παραμείνει σε κάθε βήμα.
Η μέθοδος είναι υπολογιστικά εφικτή για αναλύσεις μέχρι 20 taxaπου έχουν ~8 2*1021που έχουν 8.2 10
Figure modified from Krane & Raymer 2004
Heuristic search – Ευρετική μέθοδος (>20 taxa)
Όταν ο αριθμός των πιθανών δέντρων είναι μεγάλος, τότε η εκτίμηση κάθε δέντρου, χρησιμοποιώντας ακριβείς μεθόδους είναι πρακτικά αδύνατη.
Η ευρετική μέθοδος (heuristic search) είναι ουσιαστικά ένας αλγόριθμος ρ ή μ ς ( ) ς γ ρ μ ςαναρρίχησης λόφου (hill climbing), όπου επιλέγεται ένα αρχικό δέντρο και στη συνέχεια γίνονται αναδιευθετήσεις επιζητώντας τη βελτίωση του δέντρου, βάσει του δεδομένου κριτηρίου επιλογήςδεδομένου κριτηρίου επιλογής.
Υπάρχουν πολυάριθμοι ευρετικοί αλγόριθμοι όπως
Ευρετικοί αλγόριθμοι
1) Stepwise addition (προσομοιάζει την Branch and Bound)
Αρχίζει με ένα δέντρο 3 αλληλουχιών
Π θέ έΠροσθέτει ένα taxon
Εκτιμά όλα τα δέντρα
Επιλέγει το δέντρο με το καλύτεροΕπιλέγει το δέντρο με το καλύτερο
score και προσθέτει νέο taxon
Μειονέκτημα: εάν το καλύτερο δέντρο σε ένα επίπεδο είναι το Α, αλλά τελικά το
Ευρετικοί αλγόριθμοι
καλύτερο δέντρο με όλα τα taxa προέρχεται από το Β του ίδιου επιπέδου, τότε το
καλύτερο δέντρο δεν θα βρεθεί.
Η τεχνική stepwise θα σκαρφαλώσει στη κορυφή ενός λόφου, αλλά ο λόφος αυτός
δεν είναι ο ψηλότεροςδεν είναι ο ψηλότερος.
2) Star Decomposition
Ευρετικοί αλγόριθμοι
2) Star Decomposition
O αλγόριθμος ξεκινάει με όλα τα taxa να συνδέονται σε δέντρο με μορφήνα συνδέονται σε δέντρο με μορφή άστρου (star topology, όλα τα taxa συνδέονται σε ένα εσωτερικό κόμβο).Στη συνέχεια εκτιμώνται όλα ταΣτη συνέχεια εκτιμώνται όλα τα δέντρα που δημιουργούνται με σύνδεση δύο ακραίων taxa (terminal nodes) σε μία ομάδα. Το δέντρο με τη ) μ μ ρ μ ηκαλύτερη τιμή (best score) διατηρείται για το επόμενο στάδιο. Σε κάθε βήμα, όταν δημιουργούμε μία νέα ομάδα, ο αριθμός των κλαδιών μειώνεται κατά ένα. Και αυτό συνεχίζεται μέχρι να έχουμε ένα διχοτομούμενο δέντρο.
Branch swapping (αναδιευθέτηση κλάδων)
Ευρετικοί αλγόριθμοι
Στοχεύει στη βελτίωση της αρχικής εκτίμησης πραγματοποιώντας προκαθορισμένες
διευθετήσεις στο δέντρο. Στην ουσία είναι τρόποι να «σπρώξεις» το δέντρο να
ξεκολλήσει από το τοπικό βέλτιστο και να οδηγηθεί στο συνολικό βέλτιστο.
Η μέθοδος αυτή περιλαμβάνει κόψιμο του δέντρου σε ένα ή περισσότερα σημεία
(subtrees) και συναρμολόγησή του με τέτοιο τρόπο ώστε να διαφέρει από το αρχικό
δέντρο.
Υ ά 3 ίδ ί δέ ( bt )Υπάρχουν 3 είδη μετακίνησης των υποδέντρων (subtrees)
NNI (nearest-neighbor interchange)
SPR (subtree pruning and regrafting)SPR (subtree pruning and regrafting)
TBR (tree bisection and recombination)
Branch swapping SPR TBR
Εσωτερικός
NNI
ρ ςκλάδος
Nearest Neighbor Interchange Sub-tree Pruning and Regrafting
Tree bisection and reconnection
Branch swapping
NNI
Εσωτερικός κλάδος
NNI
Εικόνα 1 Εικόνα 2 Εικόνα 3
Nearest Neighbor Interchange
Αρχικό δέντρο Ανταλλαγή 1 με 3
Ανταλλαγή 2 με 3
g g
Η απλούστερη μέθοδος, γνωστή ως ΝΝΙ, αλλάζει τη συνδεσιμότητα των 4 υποδέντρων του κύριου δέντρου. Κάθε εσωτερικός κλάδος ενός άριζου δέντρου (εικόνα 1) έχει 4 υποδέντρα που συνδέονται σε αυτόν (ένα υποδέντρο μπορεί να αποτελείται από 1 και μόνο κόμβο). Η ΝΝΙ αλλάζει τη θέση αυτών, παράγοντας νέα δέντρα. Υπάρχουν μόνο 2 αλλαγές που οδηγούν σε νέα δέντρα (εικόνες 2 και 3). Η διαδικασία συνεχίζει για κάθε εσωτερικό κλάδο έως ότου να μην γίνονται βελτιώσεις του αρχικού δέντρου βάσει του αρχικού κριτηρίου.
Ένα δέντρο με Ν>2 φύλλα (κόμβους) έχει Ν-3 εσωτερικούς κλάδους και έτσι η ΝΝΙ, που ελέγχει 2 δέντρα για κάθε εσωτερικό κλάδο, θα εξετάσει 2(Ν-3) νέα δέντρα.
Sub-tree Pruning and Regrafting («κλαδεύω και μπολιάζω»)
Εικόνα 1 Εικόνα 2 Εικόνα 3 Εικόνα 4 Εικόνα 5Εικόνα 1Αρχικό δέντρο
Εικόνα 2Μπόλιασμα του (1,2) στο κλαδί 6
Εικόνα 3Μπόλιασμα του (1,2) στο κλαδί 5
Εικόνα 4Μπόλιασμα του 3 στο κλαδί 4
Εικόνα 5Μπόλιασμα του (1,2) στο κλαδί 4
Η SSR είναι μια στρατηγική ελέγχου της τοπολογίας ενός δέντρου που προσπαθεί να βελτιώσει την αξία (πιθανότητα) ενός δέντρου μέσω της εξής διαδικασίας: 1. Επιλέγει το υποδέντρο του αρχικού δέντρου που θα κλαδέψει (pruning)1. Επιλέγει το υποδέντρο του αρχικού δέντρου που θα κλαδέψει (pruning)2. Αφαιρεί το υποδέντρο και το μπολιάζει σε άλλο σημείο του εναπομείναντος δέντρου,
δημιουργώντας ένα νέο δέντρο (π.χ. στην εικόνα 2 κλάδεμα του (1,2) και μπόλιασμα στο κλαδί που οδηγεί στο 6
3 δ δ ί ίζ άθ θ ό δέ άθ λ δί ί3. Η διαδικασία συνεχίζεται για κάθε πιθανό υποδέντρο και για κάθε κλαδί που μπορεί να το δεχτεί.
Tree bisection and reconnection (TBR) (Διχοτόμηση και επανασύνδεση)
Η μέθοδος Tree-Bisection-Reconnection (TBR) κόβει το δέντρο σε 2 κομμάτια (υποδέντρα) δέντρο σε 2 κομμάτια (υποδέντρα) και στη συνέχεια επανασυνδέει τα 2 υποδέντρα σε όλους τους πιθανούς κλάδους. Εάν βρεθεί ένα δέ ί λύ όδέντρο που είναι «καλύτερο» από το αρχικό, τότε αυτό διατηρείται και αρχίζει ένας νέος γύρος TBR. Όπως και στις ς ςπροηγούμενες περιπτώσεις δεν εγγυάται ότι θα βρει το βέλτιστο δέντρο, ωστόσο είναι πιο ισχυρή από τις SPR και NNI Α Αρχικό Δέντροαπό τις SPR και NNI. Α. Αρχικό Δέντρο
Β. Κόψιμο του κλάδου x και σύνδεση στον u.Άλλες πιθανές συνδέσεις: x στο z, x στο w, x στο vC. Κόψιμο του κλάδου y και σύνδεση του κλάδου r στον κλάδο v. Άλλες συνδέσεις: r στο w, r στο y΄, s στο v, s στο w, s στοy΄, y στο v, y στο w.
Η δ ί ό λ ύ δέ ί έ ό όβλ
Έλεγχος αξιοπιστίας
Η δημιουργία ενός φυλογενετικού δέντρου είναι ένα στατιστικό πρόβλημα και οκαθένας μπορεί να επιθυμήσει την εκτίμηση της αξιοπιστίας του.
Μετά τη δημιουργία ενός δέντρου μπορεί να αναδυθούν δύο ερωτήματα
1) Πό ξ ό ί δέ1) Πόσο αξιόπιστο είναι το δέντρο; και2) Είναι το δέντρο αυτό σημαντικά καλύτερο από κάποιο άλλο;
Η αξιοπιστία μετριέται ως η πιθανότητα τα μέλη ενός κλάδου να είναι πάντα μέλη αυτού του κλάδου.
b t t l iΟι ευρύτερα χρησιμοποιούμενες τεχνικές
για το σκοπό αυτό είναι οι
bootstrap analysis
j kk if l ijackknife analysis
Bootstrap analysisΈνας επιστήμονας που θέλει να ελέγξει την αξιοπιστία των αποτελεσμάτων του
Έλεγχος αξιοπιστίας
Ένας επιστήμονας που θέλει να ελέγξει την αξιοπιστία των αποτελεσμάτων τουεπαναλαμβάνει το πείραμα του με άλλα δεδομένα. Οι φυλογενετιστέςχρησιμοποιούν μια μέθοδο δειγματοληψίας που ονομάζεται bootstrapping η οποίαδημιουργεί ψεύτικα σύνολα δεδομένων μέσω των οποίων γίνεται εκτίμηση τηςαξιοπιστίας των δέντρων.
Η δ ί ό λ ύ δέ ί έ ό όβλ
Έλεγχος αξιοπιστίας
Η δημιουργία ενός φυλογενετικού δέντρου είναι ένα στατιστικό πρόβλημα και οκαθένας μπορεί να επιθυμήσει την εκτίμηση της αξιοπιστίας του.
Μετά τη δημιουργία ενός δέντρου μπορεί να αναδυθούν δύο ερωτήματα
1) Πό ξ ό ί δέ1) Πόσο αξιόπιστο είναι το δέντρο; και2) Είναι το δέντρο αυτό σημαντικά καλύτερο από κάποιο άλλο;
Η αξιοπιστία μετριέται ως η πιθανότητα τα μέλη ενός κλάδου να είναι πάντα μέλη αυτού του κλάδου.
b t t l iΟι ευρύτερα χρησιμοποιούμενες τεχνικές
για το σκοπό αυτό είναι οι
bootstrap analysis
j kk if l ijackknife analysis
Bootstrap analysisΈνας επιστήμονας που θέλει να ελέγξει την αξιοπιστία των αποτελεσμάτων του
Έλεγχος αξιοπιστίας
Ένας επιστήμονας που θέλει να ελέγξει την αξιοπιστία των αποτελεσμάτων τουεπαναλαμβάνει το πείραμα του με άλλα δεδομένα. Οι φυλογενετιστέςχρησιμοποιούν μια μέθοδο δειγματοληψίας που ονομάζεται bootstrapping η οποίαδημιουργεί ψεύτικα σύνολα δεδομένων μέσω των οποίων γίνεται εκτίμηση τηςαξιοπιστίας των δέντρων.
Οι μέθοδοι αξιοπιστίας των δέντρων δεν είναι ελεύθεροι λαθών
55% 45%
taxo
nA
taxonD
20 ή
2
20 χαρακτήρες6969
taxonB
taxo
nC
Οι μέθοδοι αξιοπιστίας των δέντρων δεν είναι ελεύθεροι λαθών
55% 45%
taxo
nA
taxonD
200 ή
20
200 χαρακτήρες 9292
taxonB
taxo
nC
Οι μέθοδοι αξιοπιστίας των δέντρων δεν είναι ελεύθεροι λαθών
55% 45%
taxo
nA
taxonD
2000 ή
200
2000 χαρακτήρες 100100
taxonB
taxo
nC
Πρακτική στο PAUP Φυλογένεση
Ορίζουμε outgroup
Ο ίζ θ δ λ ίΟρίζουμε μεθοδολογία
Πραγματοποιούμε ανάλυση
ΦυλογένεσηΠρακτική στο PAUP
Π.χ. Μέγιστη Φειδωλότητα
Εντολές
O t L tOutgroup Lacerta;
Set criterion=parsimony;
Hsearch addseq=random;Hsearch addseq=random;
Showhrees;
Savetrees file=Podarcis MP.tre;Savetrees file Podarcis_MP.tre;
Bootstrap nreps=100;
Savetrees from=1 to=1;
ΦυλογένεσηΕύρεση μοντέλου νουκλεοτιδικής υποκατάστασης
ModelTest 3.71) Τρέχουμε το αρχείο μας στο PAUP* (Podarcis.nxs).2) Ανοίγουμε το Modeltest command file (modelblockPAUPb10) και το
τρέχουμε (βρίσκεται στο φάκελο paupblock μέσα στο φάκελο τουModelTest)ModelTest)
3) Παίρνουμε το αρχείο “model.scores» (το αποτέλεσμα του βήματος 2), καιτο τοποθετούμε στο φάκελο του ModelTest (στο φάκελο με το όνομα binό β ί fil M d lT t) έ έόπου βρίσκεται το exe file του ModelTest) και το τρέχουμε μέσω τουmodeltest.exe, χρησιμοποιώντας το Command Prompt of Windows
4) Ανοίγουμε το Command Prompt (Start Run cmd)5) Το οδηγούμε στο φάκελο που περιέχει τα scores (bin)
π.χcd Program Files\Phylogeny\Modeltest3.7 folderg y g y
6) Γράφουμε την εντολή: modeltest3.7 –n896 –t18 < model.scores > mydata.modeltest
Based on these results the LRT suggests that the best fit model is:
Φυλογένεση
Model selected: TrN + G-lnL = 1754.5413
K = 6Base frequencies:
freqA = 0.2891freqC = 0.3084freqG = 0.1084f 0 29 1freqT = 0.2941
Substitution model:Rate matrixR(a) [A-C] = 1.0000(b) [ ] 10 1497R(b) [A-G] = 10.1497
R(c) [A-T] = 1.0000R(d) [C-G] = 1.0000R(e) [C-T] = 12.8767(f) [G ] 1 0000R(f) [G-T] = 1.0000
Among-site rate variationProportion of invariable sites = 0Variable sites (G)G di t ib ti h t 0 1869Gamma distribution shape parameter = 0.1869
ΦυλογένεσηΠ χ Σύνδεσης Γειτόνων (Neighbor Joining)Π.χ. Σύνδεσης Γειτόνων (Neighbor Joining)
Εντολές
Outgroup Lacerta;
Set criterion=distance;
Dset distance=“Your model from Modeltest”;
Nj;
Showhrees;
Savetrees file=Podarcis_NJ.tre;
Bootstrap nreps=100;
Savetrees from=1 to=1;
Μπεϋζιανή ΣυμπερασματολογίαB i I f
Φυλογένεση
Bayesian Inference
Η Bayesian Inference είναι μια στατιστική διεργασία στην οποία ενδείξεις ή παρατηρήσεις χρησιμοποιούνται για την αναθεώρηση ή εξαγωγή νέουπαρατηρήσεις χρησιμοποιούνται για την αναθεώρηση ή εξαγωγή νέου συμπεράσματος σχετικά με το τι είναι γνωστό υπό την προϋπόθεση ορισμένων παραμέτρων ή υποθέσεων
Ποια είναι η πιθανότητα η Σουηδία να κερδίσει το επόμενο παγκόσμιο πρωτάθλημα χόκεϋ επί πάγου;πρωτάθλημα χόκεϋ επί πάγου;
Σί Σ δί ί ί ό άδ ίζΣίγουρα η Σουηδία είναι μία από τις ομάδες που ανταγωνίζονται με επιτυχία στην διεκδίκηση των μεταλλίων!
Ας υποθέσουμε ότι οι ομάδες που έχουν κερδίσει μετάλλιο τα τελευταία 15 χρόνια έχουν ίση πιθανότητα να κερδίσουν και η πιθανότητα για ένα outsider είναι μηδέν!
Τότε η πιθανότητα να δί Σ δί ίκερδίσει η Σουηδία είναι
1:7 (ή 0,14)!
Μ ύ β ύΜπορούμε να βρούμε τη συχνότητα των Σουηδικών νικών στο παρελθόν (Δύο χρυσά ή 2:15=0.13 που είναι κοντά στην προηγούμενη εκτίμηση.
Η βή θ ό ί δύ λ θ ί ό όΗ ακριβής πιθανότητα είναι δύσκολο να εκτιμηθεί, όμως οι περισσότεροι συμφωνούν ότι θα είναι κοντά σε αυτήν την εκτίμηση (κάπως έτσι βγαίνουν και τα ποσοστά στο στοίχημα)!!!
Μπορείς να χρησιμοποιήσεις αυτή τη πληροφορία για να πάρεις λογικές αποφάσειςαποφάσεις.
Εάν κάποιος σου προσφέρει να ί έ Σ δίστοιχηματίσεις υπέρ της Σουηδίας
με πιθανότητα 1:10, τότε δεν θα ενδιαφερόσουν αφού απόδοση
ή ί λύ άτου στοιχήματος είναι πολύ κοντά στη δική σου εκτιμούμενενηπιθανότητα.
Αν η προσφορά είναι 1:100, τότε σίγουρα θα σας δελέαζε να στοιχηματίσετε.
Όσο η διαθέσιμη πληροφορία αλλάζει, είναι πιθανόν να αλλάξουν και οιΌσο η διαθέσιμη πληροφορία αλλάζει, είναι πιθανόν να αλλάξουν και οι εκτιμήσεις σου για τις πιθανότητες!
Ας υποθέσουμε ότι η Σουηδία φτάνει στον τελικό τουφτάνει στον τελικό του πρωταθλήματος.
Τώρα η πιθανότητα κατάκτησηςΤώρα, η πιθανότητα κατάκτησης του χρυσού μεταλλίου είναι 50:50.
Αν χάσει στα ημιτελικά, η πιθανότητα μηδενίζεται.
Αυτός ο συλλογιστικός τρόπος σχετικά με τις πιθανότητες και τηςΑυτός ο συλλογιστικός τρόπος σχετικά με τις πιθανότητες και της αναθεώρησης αυτών, βάσει των νέων δεδομένων που γίνονται διαθέσιμα, χρησιμοποιείται από τους περισσότερους ανθρώπους και βασίζεται στη λογικήλογική.
Bayesian InferenceΦυλογένεση
Ουσιαστικά αποτελεί και ένα παράδειγμα της Bayesian προσέγγισης στην επιστήμη. Η Bayesian Inference (BI) είναι μαθηματική τυποποίηση της διαδικασίας αποφάσεων που οι περισσότεροι από εμάς χρησιμοποιούμε χωρίς ναδιαδικασίας αποφάσεων που οι περισσότεροι από εμάς χρησιμοποιούμε χωρίς να το σκεφτόμαστε.
Bayesian InferenceΦυλογένεση
Η πρώτη μαθηματική τυποποίηση της BI αποδίδεται στον Thomas Bayes (1702-1761)
Th BThomas Bayes
Bayesian InferenceΦυλογένεση
Πρόβλημα πιθανοτήτων: Ένα δοχείο περιέχει 4 κόκκινες και 8 άσπρες μπάλες
Υ θέ ό λλέ ί 2 άλ ΒάΥποθέστε ότι συλλέγεται τυχαία 2 μπάλες. Βάσει του παρακάτω πιθανολογικού μοντέλου ας βρούμε τις πιθανότητες
Το μοντέλο του δοχείουμ χ
Bayesian InferenceΦυλογένεση
Α. Ποια είναι η πιθανότητα να έχεις τουλάχιστον 1 άσπρη μπάλα;Β. Ποια είναι η πιθανότητα οι μπάλες να έχουν το ίδιο χρώμα;Γ. Ποια είναι η πιθανότητα η δεύτερη μπάλα να είναι άσπρη;Δ. Ποια είναι η πιθανότητα η δεύτερη μπάλα να είναι άσπρη δεδομένου ότι οι μπάλες έχουν το ίδιο χρώμα;μ μ ς χ χρ μ ;
Το μοντέλο τουΤο μοντέλο του δοχείου
Bayesian InferenceΦυλογένεση
Α. Ποια είναι η πιθανότητα να έχεις τουλάχιστον 1 άσπρη μπάλα;
Πιθανότητα
Το μοντέλο του
10/11Το μοντέλο του
δοχείου
Bayesian InferenceΦυλογένεση
Β. Ποια είναι η πιθανότητα οι μπάλες να έχουν το ίδιο χρώμα;
Πιθανότητα
Το μοντέλο του
17/33Το μοντέλο του
δοχείου
Bayesian InferenceΦυλογένεση
Γ. Ποια είναι η πιθανότητα η δεύτερη μπάλα να είναι άσπρη;
Πιθανότητα
Το μοντέλο του
2/3Το μοντέλο του
δοχείου
Bayesian InferenceΦυλογένεση
Δ. Ποια είναι η πιθανότητα η δεύτερη μπάλα να είναι άσπρη δεδομένου ότι οι μπάλες έχουν το ίδιο χρώμα;
Εδώ ζό έ ύΕδώ χρειαζόμαστε ένα τύπο:
Ο αριθμητής: ποια είναι η πιθανότητα να είναι η δεύτερη άσπρη όταν και οι δύο έχουν το ίδιο χρώμα (άρα και η πρώτη άσπρη) = 14/33
Ο παρανομαστής: ποια είναι η πιθανότητα και
Το μοντέλο του
οι μπάλες να έχουν το ίδιο χρώμα = 17/33Άρα:
Το μοντέλο του δοχείου Πιθανότητα
14/17
Bayesian InferenceΦυλογένεση
Α. Ποια είναι η πιθανότητα να έχεις τουλάχιστον 1 άσπρη μπάλα;Β. Ποια είναι η πιθανότητα οι μπάλες να έχουν το ίδιο χρώμα;
10/1117/33
Γ. Ποια είναι η πιθανότητα η δεύτερη μπάλα να είναι άσπρη;Δ. Ποια είναι η πιθανότητα η δεύτερη μπάλα να είναι άσπρη δεδομένου ότι οι μπάλες έχουν το ίδιο χρώμα;
2/3
14/17μ μ ς χ χρ μ ;
Το μοντέλο τουΤο μοντέλο του δοχείου
Φυλογένεση
Μπεϋζιανή Φυλογενετική Συμπερασματολογία
Bayesian Phylogenetic InferenceBayesian Phylogenetic Inference
Πώς η Βayesian Inference εφαρμόζεται στη φυλογένεση;η φ γ η;
Διερεύνηση των σχέσεων μεταξύ 3 ειδών
Έστω ότι οι εξετάζουμε τις σχέσεις του ανθρώπου, του χιμπατζή και του γορίλα
Outgroup:γορίλα. Χρειαζόμαστε άλλο ένα τάξο(ουρακοτάγκος) για να ριζώσουμε το δέντρο.ρ
Τρία πιθανά δέντρα (τοπολογίες):Τρία πιθανά δέντρα (τοπολογίες):
A C
B
A B CModel
Πριν αρχίσει η ανάλυση, άζ ί δ έA B C
abili
ty 1.0
χρειάζεται να ορίσουμε τις δικές μας απόψεις (πιστεύω) σχετικά με τις σχέσεις αυτών!!
Prior distribution
prob
a
Όταν τα δεδομένα απουσιάζουν, τότε η πιο απλή λύση είναι να
Data (παρατηρήσειςπ.χ. DNA)
τότε η πιο απλή λύση είναι να αποδώσουμε ίδια πιθανότητα σε όλα τα πιθανά δέντρα.
Δ δ έ ό ί 3
Posterior distributionbabi
lity 1.0
Δεδομένου ότι είναι 3 τα δέντρα, η πιθανότητα για κάθε ένα είναι 1/3
Posterior distribution
prob
D Τα δεδομένα (Data)D Τα δεδομένα (Data)
Τάξα ΧαρακτήρεςΤάξα Χαρακτήρες
A ACG TTA TTA AAT TGT CCT CTT TTC AGA
B ACG TGT TTC GAT CGT CCT CTT TTC AGA
C ACG TGT TTA GAC CGA CCT CGG TTA AGG
D ACA GGA TTA GAT CGT CCG CTT TTC AGA
Μ έλ λ ί ή λάδΜοντέλο: τοπολογία και μήκος κλάδων
θ Παράμετροι
τοπολογία )(τA
vC
1vv
Μήκος κλάδων )( iv
B
3v
D
2v4v5v
(αναμενόμενη ποσότητα αλλαγής)B D
),( vτθ =
Bayes’ theorem
D = Dataθ = Model parameters
”Likelihood”
( ) ( | )f f Dθ θ
Posteriordistribution
Prior distribution ”Likelihood”
( ) ( | )( | )( ) ( | ) df f Df D
f f Dθ θθθ θ θ
=∫
Normalizing constant
Κατανομή της εκ των υστέρων πιθανότητας
)|( Xf θ
yro
babi
lity
ster
ior
pr
20% 48% 32%
tree 1 tree 2 tree 3θPo
s 20% 48% 32%
Parameter space
Μπεϋζιανή ΣυμπερασματολογίαΦυλογένεση
Ποια είναι η πιθανότητα η
αγαπημένη σας ομάδα να
νικήσει το παγκόσμιο
πρωτάθλημα χόκεϋ επί πάγου το ρ ημ χ γ
2010;
Νικήτές του Παγκόσμιου Πρωταθλήματος στο χόκεϋ επί πάγου
2000
Χρυσό Ασημένιο Χάλκινο Μετάλλια
2000
2001
20025
4
2003
20045
3
6
2005
20061
6
5
2007
2008 άλλοι
1
0
2009
4
Prior
4
Posterior 1
0
Posterior 2
in
Data 1
out
Data 2
6
5
0
5
0
5
out
in
out
won
5
3
5
0
0
0
in
out
out
out
1
6
1
0
0
0
in
out
out
out
other 1
( )f θ
other 0
1( | )f Dθ
other 0
2( | )f Dθ
other out other out
( )f θ 1 2( | )f D Dθ +
Μπεϋζιανή ΣυμπερασματολογίαΦυλογένεση
Όμως σε όλα σχεδόν τα φυλογενετικά προβλήματα είναι αδύνατο να εκτιμήσουμε αναλυτικά την κατανομή της εκ υστέρων πιθανότητας.
Το πρόβλημα αυτό είναι ιδιαίτερα αντιληπτό στη φυλογένεση εξαιτίας του τεράστιου αριθμού των πιθανών τοπολογιών ακόμα και για μικρό αριθμό τάξων.
για έρριζα δένδρα (n≥2): ( )!32
Number of
Number of rooted trees (Ν )
Number of unrooted trees (N )( )
( )!22!32
2 −−
= − nnN nR
of OTUs (n)
(ΝR) (NU)
23456
1315
105904
11315
105
για άρριζα δένδρα (n≥3): ( )!52 −
=nN
678910…15
90410,395135,135
2,027,02534,459,425
…213 458 046 676 875
105904
10,395135,135
2,027,025…
7 905 853 580 625
( )!32 3 −= − n
N nU 15…20
213,458,046,676,875…
8,200,794,532,637,891,559,375
7,905,853,580,625…
221,643,095,476,699,771,875
Μπεϋζιανή ΣυμπερασματολογίαΦυλογένεση
Ο χώρος κατανομής όλων των πιθανών δέντρων μπορεί να απεικονιστεί ως ένα τοπίο με λόφους (hilly landscape). Κοντινά σημεία στο τοπίο αυτό αντιπροσωπεύουν δέντρα με παρόμοια τοπολογία, ενώ το ύψος αντιπροσωπεύει την πιθανότητα του δέντρου στο συγκεκριμένο σημείο. Το ύψος και η θέση των λόφων στο τοπίο εξαρτάται από τα δεδομένα.
Συνεπώς η αναζήτηση του καλύτερου δέντρου δεν είναι εύκολη υπόθεσηεύκολη υπόθεση
Μπεϋζιανή ΣυμπερασματολογίαΦυλογένεση
Η λύση στο πρόβλημα αυτό βασίζεται στην εκτίμηση της εκ των υστέρων πιθανότητας μέσω της Markov Chain Monte Carlo ή MCMC.
Οι αλυσίδες του Markov έχουν την ιδιότητα ότι συγκλίνουν προς μια κατάσταση ισορροπίας ανεξάρτητα από το σημείο εκκίνησης.
Απαιτείται ο καθορισμός αυτών των αλυσίδων (ελεγκτές) που ξεκινούν από ένα ( γ ς) ξτυχαίο σημείο και συγκλίνουν προς το επιθυμητή εκ των υστέρων πιθανότητα.
Η κεντρική ιδέα είναι να κάνει μικρές τυχαίες κινήσεις μέσα στο τοπίο (αλλαγές κάποιας παραμέτρου) και να αποδέχεται ή
ί έ λλ έ ύνα απορρίπτει αυτές τις αλλαγές σύμφωνα με τις πιθανότητες
Ξ ά ό έ θ ί ίΞ ά ό έ θ ί ί
Markov chain Monte Carlo
Ξεκινάει από ένα αυθαίρετο σημείοΞεκινάει από ένα αυθαίρετο σημείοΚάνει μικρές τυχαίες κινήσειςΚάνει μικρές τυχαίες κινήσειςΕκτίμηση Εκτίμηση (r) (r) της νέας κατάστασης και σύγκριση με τη παλιάτης νέας κατάστασης και σύγκριση με τη παλιά::
r > 1r > 1 η νέα κατάσταση γίνεται αποδεκτή και αποτελεί το σημείοη νέα κατάσταση γίνεται αποδεκτή και αποτελεί το σημείοr > 1 r > 1 η νέα κατάσταση γίνεται αποδεκτή και αποτελεί το σημείο η νέα κατάσταση γίνεται αποδεκτή και αποτελεί το σημείο εκκίνηση για τον επόμενο κύκλο της εκκίνηση για τον επόμενο κύκλο της αλύσίδαςαλύσίδαςr < 1 r < 1 η νέα κατάσταση γίνεται αποδεκτή με πιθανότητα η νέα κατάσταση γίνεται αποδεκτή με πιθανότητα rr. . Εάν Εάν απορριφθεί , τότε η αλυσίδα μένα στη παλιά θέσηαπορριφθεί , τότε η αλυσίδα μένα στη παλιά θέση
Οδηγείται στο δεύτερο βήμαΟδηγείται στο δεύτερο βήμα 22
always accept
Οδηγείται στο δεύτερο βήμα Οδηγείται στο δεύτερο βήμα 22
Th ti f ti th2a
accept sometimes
The proportion of time the MCMC procedure samples from a particular parameter region is an estimate of that
i ’ t i b bilit
1
2b
2a
region’s posterior probability density
20 % 48 % 32 %
tree 1 tree 2 tree 3
Μπεϋζιανή Συμπερασματολογία Φυλογένεση
Πώς η λογική της Bayesian εφαρμόζεται στη φυλογένεση;
Για να αναθεωρήσουμε την αρχική άποψη (όλα ισοπίθανα), χρειαζόμαστε δεδομένα τα οποία συλλέγουμε (π.χ. ομόλογες λλ λ )
B CA1.01.0
αλληλουχίες DNA).
Αρχικά χρησιμοποιείται ο κανόνας του Bayesγια την εκτίμηση των εκ των υστέρων
1.01.0
για την εκτίμηση των εκ των υστέρων πιθανοτήτων, που είναι το αποτέλεσμα της ανάλυσης.
1.01.0
Η εκ των υστέρων πιθανότητα εκφράζει την πιθανότητα κάθε δέντρου δεδομένου α) της εκ των προτέρων γνώσης, β) ενός μοντέλου ρ ρ γ ης, β) ς μεξέλιξης και γ) των παρατηρούμενων δεδομένων Το καλύτερο
δέντρο
ΦυλογένεσηΦυλογένεσηΜπεϋζιανή Συμπερασματολογία
Ψάχνει το δέντρο (tree) που μεγιστοποιεί τη πιθανότητα ναπαρατηρήσουμε το δέντρο δεδομένου των δεδομένων (data) πουέχουμε στα χέρια μας (P(Tree|Data))
H ΜΣ βασίζεται στην εκ των υστέρων πιθανότητα ενός φυλογενετικούδέντρου, τ. Η εκ των υστέρων πιθανότητα ενός ith φυλογενετικού δέντρου, τi,βάσει ενός συγκεκριμένου συνόλου δεδομένων (ευθυγραμμισμένεςαλληλουχίες DNA) δίνε αι α ό η αθη α ική εξί ω η ου Ba es:αλληλουχίες DNA) δίνεται από τη μαθηματική εξίσωση του Bayes:
ό f( i|X) ί έ
∑ =
= )(
1)()|(
)()|()|( sB
jjfjXf
ifiXfXifττ
τττόπου f(τi|X) είναι η εκ των υστέρων πιθανότητα του ith φυλογενετικού δέντρου και ερμηνεύεται ως η πιθανότητα το τi να είναι το «αληθινό» δέντρο με βάση ταείναι το «αληθινό» δέντρο με βάση τα δεδομένα (αλληλουχίες) που μελετώνται.
ΦυλογένεσηΦυλογένεσηΜπεϋζιανή Συμπερασματολογία
Το πρόγραμμα Mrbayes είναι εξαιρετικά απλό στη χρήση τους, σχετικά γρήγορο και ικανό να αναλύει μεγάλα σύνολα δεδομένων.
MrBayes χρησιμοποιεί περιβάλλον εντολώνy χρη μ ρ β(command line interface) στο οποίογράφονται οι εντολές ώστε να ορίσουμε στοπρόγραμμα του τι να κάνει με τα δεδομένα
O αλγόριθμος Metropolis-Ηastings-Γreen
που του έχουμε δώσει.
γ ρ μ ς p g(MHG) είναι ένας MCMC αλγόριθμος που έχει χρησιμοποιηθεί με επιτυχία στην εκτίμηση των εκ των υστέρων πιθανοτήτων των δέντρων.
ΦυλογένεσηΦυλογένεσηΜπεϋζιανή Συμπερασματολογία
Όταν εκτελέσεις (τρέξεις) τα δεδομένα σου (execute data file):το πρόγραμμα αρχίζει με ένα δέντρο (είτε τυχαίο είτε ορισμένο από τον
χρήστη κατά τη διάρκεια της εκτέλεσης των δεδομένων),
εκτιμά το δέντρο βάσει του μοντέλου που έχει ορίσει ο χρήστης,
αλλάζει το δέντρο,
εκτιμά το νέο δέντρο και αν το καινούριο είναι καλύτερο από το παλιό τοεκτιμά το νέο δέντρο και αν το καινούριο είναι καλύτερο από το παλιό, τοαποδέχεται ως το σωστό δέντρο. Αυτή η διαδικασία συνιστά μία γενεά(generation).
Κάθε μερικές γενεές (όπως ορίζεται από τον χρήστη), το πρόγραμμα καταγράφεισε ένα αρχείο το τρέχον δέντρο και τη τιμή της πιθανότητας σε ένα αρχείο. Οχρήστης καθορίζει τον αριθμό των γενεών και τελικά το πρόγραμμα υπολογίζειένα συναινετικό δέντρο καταγράφοντας και τα μήκη των κλάδων σε έναξεχωριστό αρχείο.