Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Εξελικτική Οικολογία - Διάλεξη 9

Φυλογενετικά Φυλογενετικά δέδέδέντραδέντρα

ΕισηγητήςΕισηγητήςΕπικ. Καθ. Πουλακάκης Νίκος[email protected]

Δημιουργία φυλογενετικού δέντρου

Τα βήματα που περιλαμβάνονται στη δημιουργία ενός δέντρου απόνουκλεοτιδικές αλληλουχίες είναι:

1) Προσδιορισμός της αλληλουχίας του DNA

2) Προσδιορισμός άλλων αλληλουχιών σχετικών με τις αλληλουχίες που2) Προσδιορισμός άλλων αλληλουχιών σχετικών με τις αλληλουχίες που εξετάζουμε και απόκτηση αυτών σε ηλεκτρονική μορφή (από world wide databases).

3) Ευθυγράμμιση των αλληλουχιών

4) Χρήση του αποτελέσματος της ευθυγράμμισης για τη δημιουργία ενός δέντρου

5) Εκτύπωση και πιθανά δημοσίευση των αποτελεσμάτων

Μετά το πρώτο βήμα, απαιτείται PC με σύνδεση στο Internet και μια ομάδα κατάλληλων υπολογιστικών προγραμμάτων

Βάσεις δεδομένων νουκλεοτιδικών αλληλουχιών

Οι βάσεις δεδομένων λειτουργούν ως χώρος αποθήκευσης και άντλησης πληροφορίας, ενώ έχουν και τη δυνατότητα αναζητήσεων και ανταλλαγής δεδομένων με άλλες βάσεις Ο αριθμός των διαθέσιμων αλληλουχιών αυξάνειδεδομένων με άλλες βάσεις. Ο αριθμός των διαθέσιμων αλληλουχιών αυξάνει ταχύτατα.

Έχουν γίνει παράλληλες προσπάθειες σε Ευρώπη, Αμερική και Ιαπωνία για τηδημιουργία βάσεων δεδομένων με όλες τις αλληλουχίες που δημοσιεύονται:

a) EMBL (European Molecular Biology Laboratory) database, maintained at EMBL-EBI

International Nucleotideb) GenBank (Genetic Sequence Data Bank) maintained at NCBI (National Center for Biotechnology Information)

International Nucleotide Sequence Database

Collaboration

c) DDBJ (DNA Data Bank of Japan) maintained at NIG/CIB

Τα περισσότερα περιοδικά σήμερα απαιτούν οι αλληλουχίες που

Βάσεις δεδομένων

Τα περισσότερα περιοδικά σήμερα απαιτούν οι αλληλουχίες πουπρόκειται να δημοσιευτούν να είναι κατατεθειμένες σε κάποια βάσηγενετικών δεδομένων.

• Απαιτούν την κατάθεση σε μια βάση, χωρίς να επηρεάζει το που θ δ θ ί ύ λ λλ λ ώθα δημοσιευθεί το σύνολο των αλληλουχιών

• Ανταλλαγή δεδομένων μεταξύ των βάσεων συμβαίνει καθημερινά

• Οι αλληλουχίες που κατατίθενται μπορεί να διατηρηθούν υπο φύλαξη μετά από σχετική αίτηση του ερευνητή για κάποιο εύλογοφύλαξη μετά από σχετική αίτηση του ερευνητή για κάποιο εύλογο χρονικό διάστημα

Η ποσότητα της πληροφορίας στις βάσεις αυξάνει με εκπληκτικό ρυθμό.

Βάσεις δεδομένωνη ης ηρ φ ρ ς ς β ς ξ μ η ρ μ

Για παράδειγμα, το 2008 είχαναποθηκευτεί κοντά στα 100 διςβάσεις νουκλεοτιδίων και 100εκατομμύρια αλληλουχίες.

Κάθε αλληλουχία στις βάσεις χαρακτηρίζεται από


1) entry name, locus name oridentifier (ID): Κάθε αλληλουχίαέχει ένα και μοναδικό ID

2) accession number (AC): Κάθε2) accession number (AC): ΚάθεAC είναι μοναδικός στη βάση

3) version number: Προέρχεται απότο AC και είναι ο αριθμός τωνφορών ου η αλληλου ία έ ειφορών που η αλληλουχία έχειτροποποιηθεί.

ENTREZ Database: Είναι η πιο χρήσιμη βάση δεδομένων ειδικά για


ENTREZ Database: Είναι η πιο χρήσιμη βάση δεδομένων ειδικά γιαφυλογενετικές αναλύσεις.

1) Παρέχει ολοκληρωμένη πρόσβαση σε νουκλεοτιδικές και πρωτεϊνικές αλληλουχίες1) Παρέχει ολοκληρωμένη πρόσβαση σε νουκλεοτιδικές και πρωτεϊνικές αλληλουχίες.

2) Διαθέτει μηχανές αναζήτησης για παρόμοιες αλληλουχίες, παράγοντας μια λίστα από

Η βάση Entrez αντλεί δεδομένα από:

σχετικές αλληλουχίες και τις αντίστοιχες βιβλιογραφικές τους αναφορές.

Η βάση Entrez αντλεί δεδομένα από:a) Nucleotide databases (GenBank, EMBL,

DDBJ, and PDB),b) Protein databases, ) St t d t bc) Structure databases,

d) Taxonomy databases, e) Genome databases, f) Expression databases, and ) p ,g) Literature databases (PubMed, OMIM,

Books, PubMed Central).

Ανάκτηση σχετικών αλληλουχιών μέσω του BLAST


Ανάκτηση σχετικών αλληλουχιών μέσω του BLAST

Συνήθως έχουμε ήδη μια αλληλουχία (νουκλεοτιδική ή πρωτεϊνική) καιχρειάζεται να βρούμε άλλες σχετικές με αυτήν αλληλουχίες.

λλ λΜε τον όρο σχετικές εννοούμε αλληλουχίες που είναι όμοιες προς την υπόεξέταση αλληλουχία και θεωρούμε ότι μοιράζονται τον ίδιο κοινό πρόγονο.

Ο ευκολότερος τρόπος για την εύρεση σχετικών αλληλουχιών είναι με τηχρήση ενός προγράμματος που ψάχνει μέσα στις βάσεις γενετικών δεδομένων.

Η μηχανή αναζήτησης που θα χρησιμοποιήσουμε για το σκοπό αυτό άζ BLAST (B i L l Ali t S h T l)ονομάζεται BLAST (Basic Local Alignment Search Tool).

Η οικογένεια BLAST περιλαμβάνει διάφορα προγράμματα μεταξύ των οποίων


είναι τα:

1) BLASTN, που συγκρίνει νουκλεοτιδικές αλληλουχίες

2) BLASTP, που συγκρίνει πρωτεϊνικές αλληλουχίες

BLASTN

Αποτέλεσμα έρευνας για μια αλληλουχίαBLASTN

Οι περισσότεροι χρήστες του BLAST είναι γνώστες της

BLASTN

Οι περισσότεροι χρήστες του BLAST είναι γνώστες τηςαποκαλούμενης «παραδοσιακής» αναφοράς BLAST. Η αναφοράαυτή αποτελείται από 3 κύριες ενότητες:(1) Η πρώτη (κορυφή σελίδας), η οποία περιέχει πληροφορίες για

την υποβαλλόμενη αλληλουχία, περιλαμβάνει τη βάσηδεδομένων που ελέχθηκε (Εικ. 1) και μια γραφική απεικόνισημ χ η ( ) μ γρ φ ή ητων αποτελεσμάτων (Εικ. 2)

1 21 2

Τύπος προγράμματος και έκδοση

Το άρθρο που περιγράφει τον BLAST

H κόκκινη γραμμή αντιπροσωπεύει την υποβαλλόμενηαλληλουχία. Οι αλληλουχίες της βάσης δεδομένωνεμφανίζονται ευθυγραμμισμένες ως προς αυτήν Απόεμφανίζονται ευθυγραμμισμένες ως προς αυτήν. Απόαυτές, οι πιο όμοιες εμφανίζονται πιο κοντά στηνυποβαλλόμενη.

Οι 3 πρώτες έχουν υψηλό score ομοιότητας ό(κόκκινες).

Οι επόμενες 12 έχουν μικρότερο score (μωβ) και οι οποίεςΟι επόμενες 12 έχουν μικρότερο score (μωβ) και οι οποίεςευθυγραμμίζονται με 2 περιοχές της υποβαλλόμενης, από τηθέση 3–60 και από τη θέση 220–500. Οι διαγραμμισμένες

έ δ ύ ό δύ έ ί ίδπεριοχές υποδεικνύουν ότι οι δύο περιοχές είναι της ίδιαςπρωτεΐνης, αλλά χωρίς ομοιότητα.

Οι υπόλοιπες γραμμές (πράσινες, μαύρες), υποδεικνύουν πολύ( )μικρό score (ομοιότητα).

Τοποθετώντας το κέρσορα πάνω σε κάθε γραμμή θα εμφανίζεται ηπρόταση καθορισμού για τη συγκεκριμένη αλληλουχία στορ η ρ μ γ η γ ρ μ η η χπαράθυρο πάνω από το γράφημα.

2. Η δεύτερη ενότητα περιλαμβάνει σε μία σειρά την περιγραφήBLASTN

για κάθε αλληλουχία που ταιριάζει με την υποβαλλόμενηαλληλουχία.

Κάθε γραμμή αποτελείται από 4 πεδία:

(α) Ο αριθμός gi, το όνομα της βάσης, ο σχετικός αριθμός εισόδου (Accessionnumber), και το όνομα της αλληλουχίας, τα οποία διαχωρίζονται από κάθετεςγραμμές,

(β) σύντομη περιγραφή της αλληλουχίας (συνήθως έχει στοιχεία για τονοργανισμό από τον οποίο προέρχεται η αλληλουχία, τον τύπο της αλληλουχίας(π χ mRNA ή DNA) τη λειτουργία της κ α(π.χ. mRNA ή DNA), τη λειτουργία της κ.α.,

(γ) το score της ευθυγράμμισης σε bits. Όσο πιο υψηλό είναι το score τόσο πιοψηλά στη λίστα είναι η αλληλουχία καιψη η η η χ

(δ) το E-value, που δίνει μια εκτίμηση της στατιστικής σημαντικότητας τουαποτελέσματος.

Η πρώτη γραμμή του αποτελέσματος μας λέει ότι(α) ο αριθμός gi είναι 116365, η βάση δεδομένων είναι η sp (SWISS-PROT,βάση για πρωτεΐνες με υψηλή ακρίβεια), ο αριθμός εισόδου είναι P26374, τοόνομα του τόπου RAE2_HUMAN, η γραμμή περιγραφής είναι Rab proteins, τοscore είναι 1216 και το E-value είναι 0.0. Οι πρώτες αλληλουχίες έχουν πολύ

λό E l ( 1) ί ί ΐ RAB ί λ ί GDP Οχαμηλό E-values (<1) και είναι είτε πρωτεΐνες RAB είτε αναστολείς GDP. Οιυπόλοιπες με μεγαλύτερο E-values, 0.5 και άνω, υποδεικνύουν ότι μπορεί ναέχουν ταιριάξει τυχαία.

3. Η τρίτη ενότητα περιλαμβάνει τις ευθυγραμμίσεις για κάθε

BLASTN

3. Η τρίτη ενότητα περιλαμβάνει τις ευθυγραμμίσεις για κάθεαλληλουχία της βάσης δεδομένων με την υποβαλλόμενηαλληλουχία.

Η ευθυγράμμιση έπεται της γραμμής που περιγράφει τηναλληλουχία.η χ

Ακολουθεί το bit score (the raw score is in parentheses) καιτο E-value.Η επόμενη σειρά περιέχει πληροφορίες σχετικά με τονΗ επόμενη σειρά περιέχει πληροφορίες σχετικά με τοναριθμό των στοιχείων (νουκλεοτίδια ή αμινοξέα) τηςστοίχισης (Identities) και, εάν υπάρχουν, ο αριθμός των

ώ ( ) ίκενών (gaps) στην στοίχιση.

Τέλος, εμφανίζεται η στοίχιση (alignment) με τηνυποβαλλόμενη αλληλουχία στην κορυφή και την αλληλουχίατης βάσης που ταιριάζει ως αντικείμενο (Sbjct) από κάτω. Οιαριθμοί δεξιά και αριστερά είναι οι αριθμοί των στοιχείων στηναλληλουχία (νουκλεοτίδια – αμινοξέα). Οι παύλεςα η ουχία (νου εοτίδια αμινοξέα). Οι παύ εςυποδεικνύουν προσθήκες ή ελλείψεις. Oι κάθετες γραμμέςμεταξύ των αλληλουχιών υποδεικνύουν ομοιότητα.

Ευθυγράμμιση αλληλουχιώνΕυθυγράμμιση αλληλουχιών

Ευθυγράμμιση αλληλουχιών

Στοίχιση αλληλουχιών, ένας ορισμός

H δ θέ λ δί ή ξέ δύH διευθέτηση των νουκλεοτιδίων ή των αμινοξέων δύοή περισσότερων αλληλουχιών σε γραμμές (συνήθως)κάθετες συμπεριλαμβάνοντας ελλείψεις και προσθήκεςκάθετες, συμπεριλαμβάνοντας ελλείψεις και προσθήκεςόπου είναι απαραίτητο έτσι ώστε όλες οι θέσεις ναθεωρούνται ομόλογες.ρ μ γ ς


H διευθέτηση δύο ή περισσότερων αλληλουχιών (νουκλεοτιδικών ήH διευθέτηση δύο ή περισσότερων αλληλουχιών (νουκλεοτιδικών ήπρωτεϊνικών) σε ένα πλέγμα (μήτρα)

Στοιχεία (νουκλεοτίδια, αμινοξέα) της ίδιας σειράς προέρχονται από το ίδιοχ ( , μ ξ ) ης ς ρ ς ρ ρχβιολογικό μακρομόριο (πρωτεΐνη ή νουκλεϊκό οξύ)Τα στοιχεία διευθετούνται με τη σειρά που εμφανίζονται στο μακρομόριο

Από το Ν στο C άκρο στις πρωτεΐνεςΑπό το 5’ στο 3’ στα νουκλεϊκά οξέα

Στοίχιση αλληλουχιών ανά ζεύγηΣτοίχιση αλληλουχιών ανά ζεύγη

Pairwise Alignment: Στοίχιση 2 αλληλουχιών

Στοίχιση πολλαπλών αλληλουχιών

Multiple Sequence Alignment (MSA): Στοίχιση 3+αλληλουχιώναλληλουχιών

Στοίχιση πολλαπλών αλληλουχιώνΣτοίχιση πολλαπλών αλληλουχιών

MSAs είναι ουσιαστικά ένα σύνολο από pairwise alignments

Σε ένα MSA των nαλληλουχιών γίνονται

n(n-1)/2

pairwise alignemnts


Κάθ λί λ βά έ ό ί [ ί έ ί ί έ όΚάθε κελί περιλαμβάνει ένα μόνο στοιχείο [είτε ένα στοιχείο είτε ένα κενό(gap)]

Τα στοιχεία της ίδιας στήλης είναιείτε δομικά ισοδύναμαείτε εξελικτικά ισοδύναμα (ομόλογα)

Κελί

Δομική ΙσοδυναμίαΔομική Ισοδυναμία

http://cl.sdsc.edu/ce/ce_align.html4HHB:A - HEMOGLOBIN (DEOXY)4HHB:B - HEMOGLOBIN (DEOXY)

Βακτηριακές τοξίνες και

http://cl.sdsc.edu/ce/ce_align.html4HHB A HEMOGLOBIN (DEOXY)4HHB:A - HEMOGLOBIN (DEOXY)4HHB:B - HEMOGLOBIN (DEOXY)


http://cl.sdsc.edu/ce/ce_align.html4HHB A HEMOGLOBIN (DEOXY)4HHB:A - HEMOGLOBIN (DEOXY)4HHB:B - HEMOGLOBIN (DEOXY)


Ευθυγράμμιση αλληλουχιώνΕξελικτική ισοδυναμία = ομολογίαΑ ό ίδ ήλ ί άθ ί θ έ ζ θ ίΑναφερόμενοι στην ίδια στήλη, η ιστορία κάθε στοιχείου θα πρέπει να αναζητηθείστο αντίστοιχο στοιχείο της προγονικής αλληλουχίας, όπου κάθε αλλαγή οφείλεταισε σημειακές αλλαγέςσε σημειακές αλλαγές

ΥποκατάστασηΠρογονική λλ λ ί

AGWYTIAGWYTI

AGWYTIAGWYTI AGWAGWWWTITI AGWYTIAGWYTI AGWYTIAGWYTIΥ-Wαλληλουχία

Δημίουργία 2 αντίγραφων

AGWYTIAGWYTI AGWYTIAGWYTI AAAAWYTIWYTI AAAAQQQQQQWYTIWYTIΥποκατάσταση

G-ΑΠροσθήκη

PPP

AGWYTIAGWYTI AGWAGWWWTITI AGWYTIAGWYTI AGAG------WYTIWYTI

Ευθυγράμμιση 1 2 3 4

AGWYTIAGWYTI AGWYTIAGWYTI AAAAWYTIWYTI AAAAQQQQQQWYTIWYTI

Ευθυγράμμιση αλληλουχιώνΠαράδειγμα

Ποιο από τα 3 αποτελέσματα ευθυγράμμισης είναι το σωστό;

√


Ανάλυση με διαφορετικά προγράμματαΑνάλυση με διαφορετικά προγράμματα

Όλ ί λάθοςΤα διαφορετικά προγράμματα δίνουν διαφορετικά αποτελέσματα!

Όλα είναι λάθος……επειδή τα μοντέλα εξελικτικών διαδικασιών που χρησιμοποιούν είναι πολύδιαφορετικά από αυτό που διαφοροποίησε τις αλληλουχίες στο συγκεκριμένοπαράδειγμα

√

Quiz: O αριθμός των προσθηκών

Π ί λά θ ό θή ύΠοιος είναι ο ελάχιστος αριθμός προσθήκων που απαιτούνται για την παραπάνω στοίχιση της αιμοσφαιρίνης;


Π ί λά θ ό θ ώ ύ

Εάν όλες οι αλληλουχίες είχαν το ίδιο μήκος θα μπορούσαμε να εξηγήσουμε

Ποιος είναι ο ελάχιστος αριθμός προσθηκών που απαιτούνται για την παραπάνω στοίχιση της αιμοσφαιρίνης;

Εάν όλες οι αλληλουχίες είχαν το ίδιο μήκος, θα μπορούσαμε να εξηγήσουμε την ποικιλομορφία τους χωρίς καμία προσθήκη ή έλλειψη!

Εάν η στοίχιση περιέχει αλληλουχίες που έχουν όλες μήκος χ ή ψ τότεΕάν η στοίχιση περιέχει αλληλουχίες που έχουν όλες μήκος χ ή ψ, τότε μπορούμε να εξηγήσουμε την ποικιλομορφία τους με μία προσθήκη ή με μία έλλειψη!


Π ί λά θ ό θ ώ ύ

Μπορούμε ΠΑΝΤΑ να εξηγούμε την παρατηρούμενη ποικιλομορφία στο

Ποιος είναι ο ελάχιστος αριθμός προσθηκών που απαιτούνται για την παραπάνω στοίχιση της αιμοσφαιρίνης;

Μπορούμε ΠΑΝΤΑ να εξηγούμε την παρατηρούμενη ποικιλομορφία στο μήκος των αλληλουχιών με:

0 ελλείψεις (η ποικιλομορφία στο μήκος οφείλεται σε προσθήκη)0 προσθήκες (η ποικιλομορφία στο μήκος οφείλεται σε έλλειψη)0 προσθήκες (η ποικιλομορφία στο μήκος οφείλεται σε έλλειψη)συνδυασμός ελλείψεων και προσθηκών


Π ί λά θ ό θή ύΠοιος είναι ο ελάχιστος αριθμός προσθήκων που απαιτούνται για την παραπάνω στοίχιση της αιμοσφαιρίνης;

√

Ευθυγράμμιση αλληλουχιώνΔιαθέσιμα προγράμματα για pairwise alignment

Διαθέσιμα προγράμματα για mutliple alignment


Ένα ζεύγος αλληλουχιών μπορεί να ευθυγραμμιστεί γράφοντας την μίααλληλουχία κάτω από την άλλη με τέτοιο τρόπο ώστε να μεγιστοποιηθεί οαριθμός των νουκλεοτιδίων που ταιριάζουν βάζοντας κενά (gaps) στην μια ήαριθμός των νουκλεοτιδίων που ταιριάζουν, βάζοντας κενά (gaps) στην μια ήστην άλλη αλληλουχία όταν απαιτείται.

AF486227 TACGAAAACACCACCCAATCCTAAGAAAF486227 TACGAAAACACCACCCAATCCTAAGAAAF486228 TACGAAAACACGACCCAATCCTAAAAAAF486223 TACGAAAACACCACCCTATCCTAAAAA

Η ευθυγράμμιση γίνεται συνήθως με ειδικά υπολογιστικά πακέτα, που χρησιμοποιούν συγκεκριμένους αλγόριθμους. Οι περισσότεροι αλγόριθμοι αρχίζουν συγκρίνοντας την ομοιότητα των αλληλουχιών ανά ζεύγη, και ευθυγραμμίζοντας πρώτα τις δύο αλληλουχίες με τη μεγαλύτερη ομοιότητα. Οι άλλ λλ λ ί βά ά ό ίθ δ άάλλες αλληλουχίες, βάσει της σειράς ομοιότητας, προστίθενται σταδιακά.


Όταν σε μια ομάδα αλληλουχιών έχουν προστεθεί κάποια κενά, τότε το τελικόalignment συχνά βελτιώνεται από τον ίδιο τον ερευνητή με manual editing. Ηαπόκτηση μιας καλής ευθυγράμμισης είναι ίσως το πιο σημαντικό βήμα ώστεαπόκτηση μιας καλής ευθυγράμμισης είναι ίσως το πιο σημαντικό βήμα ώστενα εκτιμήσουμε ένα σωστό φυλογενετικό δέντρο.

AF486227 TACGAA--AACACCACC---CAATCCTAAGAA86 CG C CC CC C CC GAF486228 TACGAA--AACACGACCGGGCAATCCTAAAAAAF486223 TACGAATTAACACCACCGGGCTATCCTAAAAA

Είναι αναγκαίο να ορίσουμε τον αριθμό των gaps ώστε το τελικό αποτέλεσμα ναέχει βιολογική υπόσταση.

Για το λόγο αυτό χρησιμοποιείται ένα σύστημα σκοραρίσματος όπου ταταιριάσματα παίρνουν ένα θετικό βαθμό και τα κενά ένα αρνητικό, που είναιγνωστό ως gap penalty.

Η ευθυγράμμιση δύο αλληλουχιών δεν είναι δύσκολη υπόθεση και υπάρχουν


Η ευθυγράμμιση δύο αλληλουχιών δεν είναι δύσκολη υπόθεση και υπάρχουνπολυάριθμα προγράμματα για το σκοπό αυτό.

ΌΌμως…η ευθυγράμμιση πολλών αλληλουχιών είναι αρκετά πολύπλοκη υπόθεση καιδυστυχώς λίγα προγράμματα μπορούν να το πετύχουν.

ΠρόγραμμαClustalX είναι μια ανανεωμένη έκδοσηClustalX είναι μια ανανεωμένη έκδοση του ClustalW.

Για περισσότερες πληροφορίες υπάρχειΓια περισσότερες πληροφορίες υπάρχει on-line ClustalX help file στο δίκτυο:

www.biozentrum.unibas.ch/~biophit/clusptal/ClustalX_help.html

Δημιουργία αρχείο εισαγωγήςΕυθυγράμμιση αλληλουχιών

Το ClustalX, όπως και άλλα προγράμματα, απαιτούν τα δεδομένα (input file) ναείναι σε ειδική μορφή ώστε να μπορεί να αναγνωριστεί από το πρόγραμμα (i.e.,F f )Fasta format).

Το input file περιέχει όλες τιςαλληλουχίες που θέλουμε νααλληλουχίες που θέλουμε ναευθυγραμμίσουμε.

Το ClustalX αναγνωρίζειΤο ClustalX αναγνωρίζειδιάφορα formats για τιςαλληλουχίες, αλλά εμείς θαχρησιμοποιήσουμε το FASTA.χρη μ ή μ

1ο βήμα: Εισαγωγή των δεδομένων στο ClustalX


1ο βήμα: Εισαγωγή των δεδομένων στο ClustalX


2ο βή Κ θ ό έ θ ά


2ο βήμα: Καθορισμός των παραμέτρων ευθυγράμμισης

3ο βήμα: Καθορισμός μορφής αποτελεσμάτων


Τ Cl t lX ά θ ά 3 άδ

4ο Πραγματοποίηση ευθυγράμμισης Ευθυγράμμιση αλληλουχιών

Το ClustalX παράγει την ευθυγράμμιση σε 3 στάδια:

1) Ευθυγραμμίζει κάθε αλληλουχία με κάθε μία από τις υπόλοιπες σε μια σειράευθυγραμμίσεων ανά ζεύγηευθυγραμμίσεων ανά ζεύγη2) Χρησιμοποιεί αυτό το σύνολο των ανά ζεύγη ευθυγραμμίσεων και δημιουργείένα δέντρο οδηγό3) Χρησιμοποιεί το δέντρο οδηγό ώστε να παράγει την ευθυγράμμιση όλων των3) Χρησιμοποιεί το δέντρο οδηγό ώστε να παράγει την ευθυγράμμιση όλων τωναλληλουχιών (multiple alignments)

Φυλογενετική ανάλυση

Μετατροπή του αρχείου της ευθυγράμμισης σε format που ανοίγει τοπρόγραμμα MEGA



Φυλογενετική ανάλυση (MS Windows Version)

Υπάρχουν 4 κύριες κατηγορίες μεθόδων

1) Μέθοδοι Αποστάσεων (Distance methods: Neighbor-Joining),

2) Μέγιστης Φειδωλότητας (Maximum parsimony MP)2) Μέγιστης Φειδωλότητας (Maximum parsimony, MP),

3) Μέγιστης Πιθανότητας (Maximum likelihood, ML) και

4) Μπεϋζιανή Συμπερασματολογία, (Bayesian inference, BI)

Καμία μέθοδος δεν είναι η καλύτερη για όλες τις περιπτώσεις. Η μέθοδος που θα χρησιμοποιήσουμε εξαρτάται από το τι θέλουμε να μ ς χρη μ ή μ ξ ρ μμάθουμε και από το μέγεθος και την πολυπλοκότητα των δεδομένων.


Τα προγράμματα που θα χρησιμοποιήσουμε είναι:

1) MEGA: Molecular Evolutionary Genetics Analysis

2) PAUP: Phylogenetic Analysis Using Parsimony (*and other methods)

(δεδομένα DNA και πρωτεΐνες).3) Modeltest: εύρεση του κατάλληλου μοντέλου4) Mr Bayes) y5) TreeView

Εκτίμηση γενετικών αποστάσεωνΕκτίμηση γενετικών αποστάσεων

Το ρώ ο βή α ην ανάλυ η ων ευθυγρα ι ένων αλληλουχιών είναι ηΤο πρώτο βήμα στην ανάλυση των ευθυγραμμισμένων αλληλουχιών είναι η εκτίμηση της γενετικής ή εξελικτικής απόστασης μεταξύ των αλληλουχιών

Είναι ένα μέτρο του πόσο διαφορετικές είναι οι αλληλουχίες και

εκφράζει τον αριθμό των εξελικτικών αλλαγών που έχουνεκφράζει τον αριθμό των εξελικτικών αλλαγών που έχουν συμβεί από τη στιγμή της απόκλισης τους

Η απλούστερη μέτρηση της εξελικτικής απόστασης είναι η απόσταση p

όπου nd ο αριθμός των παρατηρούμενων νουκλεοτιδικών διαφορών και n ο συνολικός αριθμός

λ δί ίτων νουκλεοτιδίων που συγκρίνονται.

ACTGAA

Εκτίμηση γενετικών Εκτίμηση γενετικών αποστάσεωναποστάσεων

Ωστόσο αυτή η μέτρηση υστερεί σε

ACGTAACή η μ ρη η ρ

πολλά σημεία, π.χ. εάν ο ρυθμόςυποκατάστασης είναι υψηλός,

ί έ ί

CGC

ACT

AC---A T

Απλή Υποκατάσταση

μπορεί να έχουμε υποεκτίμηση τηςπραγματικής γενετικής απόστασης(ομοπλασία: back mutation, parallel

GA---C---T---GAC---GGT---AAA---C---TC

GA A

G

A

C

∆ιαδοχικές Υποκαταστάσεις

C---A

T---A

A---T

Τυχαίες Υποκαταστάσεις

Παράλληλες Υποκαταστάσεις

Συγκλίνουσες Υποκαταστάσεις

mutation, multiple mutation).CGC

CGC---T---C Ανάστροφες Υποκαταστάσεις

Αλληλουχία 1 Αλληλουχία 2

ACTGGAGG

AATGAAAGG

AATCGC

GAATCGC


A T T G C G CC

A T T G C G C

T

CT

A

First:

Second: A T T G C G CC TA

esD

iffer

ence

Substitutions

Εφόσον υπάρχουν 4 τύποι νουκλεοτιδίων (Α Τ C και G) σε κάθε αλληλουχία


Εφόσον υπάρχουν 4 τύποι νουκλεοτιδίων (Α, Τ, C και G) σε κάθε αλληλουχία, υπάρχουν 16 διαφορετικοί τύποι νουκλεοτιδικών ζευγών μεταξύ δύο αλληλουχιών Χ και Ψ.

Νουκλεοτιδικό ζεύγοςΌμοια ΑΑ TT CC GG Total

Α G

F O1 O2 O3 O4 O

Ts AG GA TC CT Total ΜετάπτωσηΜετ τ ή

C T

F P1 P2 P3 P4 P

Tv AC AT GT GC Total Α, πουρίνεςΤ υ μ δί ς

G C

Μεταστροφή

F Q1 Q2 Q3 Q4

CA CG TA TG

Τ, , πυριμιδίνεςC

R = P/Q

F Q5 Q6 Q7 Q8 Q 0.5-2 στο nDNAεως 15mtDNA


Δεδομένου ότι η απόσταση p μπορεί να υποεκτιμήσει την πραγματική ποσότητατης εξελικτικής αλλαγής, έχει γίνει μια μεγάλη προσπάθεια ανεύρεσης μοντέλωνπου μετατρέπουν την παρατηρούμενη απόσταση σε πραγματική εξελικτικήμ ρ η ρ ηρ μ η η ρ γμ ή ξ ήαπόσταση.

Τα μοντέλα αυτά ονομάζονται μοντέλα εξέλιξης ή μέθοδοι διόρθωσης αποστάσεωνή μοντέλα νουκλεοτιδικής υποκατάστασης.

Το πρώτο μοντέλο που αναπτύχθηκε είναι των Jukes and Cantor (1969)(JC69) ί θ ί ό όλ λλ έ ξύ λ δί(JC69), το οποίο θεωρεί ότι όλες οι αλλαγές μεταξύ των νουκλεοτιδίωνμπορεί να συμβούν με ίση πιθανότητα

d = -3/4 ln (1 – 4/3p)

1. Η απλούστερη περίπτωση: Jukes-Cantor modelίση πιθανότητα αλλαγής κάθε νουκλεοτιδίου-- ίση πιθανότητα αλλαγής κάθε νουκλεοτιδίου

GA α

α α

TC

α α

TCα

2. Άλλα μοντέλα λαμβάνουν υπόψη τους τις συχνότητες μεταπτώσεων και μεταστροφώνμεταπτώσεων και μεταστροφών

Μετάπτωση(Transition): από R σε R

Y σε YGA

β

Y σε Y

Μεταστροφή(Transversion): από R σε Yα α ( )

Y σε R

όπου R = A,GTCY = C,Tβ

Tamura Nei’s Model


⎟⎟⎠

⎞⎜⎜⎝

⎛−−⎟⎟

⎠

⎞⎜⎜⎝

⎛−=

RGA

R

R

GA

gQ

ggPg

gggd e

221log2 1

Tamura-Nei s Model

⎟⎞

⎜⎛

⎟⎞

⎜⎛

⎟⎟⎠

⎞⎜⎜⎝

⎛−−⎟⎟

⎠

⎞⎜⎜⎝

⎛−

RCTYGA

YCT

Y

Y

CT

Qgggggg

gQ

ggPg

ggg

e

1l2

221log2 2

⎟⎟⎟⎟

⎠⎜⎜⎜⎜

⎝

−⎟⎟⎠

⎞⎜⎜⎝

⎛−−−

YRY

RCT

R

YGAYR

ggQ

gggg

gggggg e

21log2

General Reversible Model⎞⎛ ++− Τ)( ΤGCGC μcπμbπμαπcbαμ πππ

⎟⎟⎟⎟⎟⎞

⎜⎜⎜⎜⎜⎛

++−++−

++−

=Τ

Τ

Τ

)()(

)(

ΤCACA

ΤGGAA

ΤGCGC

μfπfjh μμjπμhπμeπμdπedg μμgπμcπμbπμαπcbα μ

Qπππ

ππππππ

⎟⎟⎠

⎜⎜⎝ ++− )( GCAGCA lki μμlπμkπμiπ πππ


MEGA 4Φυλογενετική ανάλυση


ΜΕΘΟΔΟΣ ΣΥΝΔΕΣΗΣ ΓΕΙΤΟΝΩΝ (ΜΕΘΟΔΟΣ ΣΥΝΔΕΣΗΣ ΓΕΙΤΟΝΩΝ (NEIGHBOR JOINING)NEIGHBOR JOINING)

ΜΕΘΟΔΟΙ ΠΙΝΑΚΩΝ ΑΠΟΣΤΑΣΕΩΝΜΕΘΟΔΟΙ ΠΙΝΑΚΩΝ ΑΠΟΣΤΑΣΕΩΝ(( ))

To δένδρο που παράγεται είναι άρριζο και συνήθως απαιτεί μια εξωομάδα για να βρεθεί η ρίζα.

Η αρχή της μεθόδου στηρίζεται στην εύρεση των «γειτόνων» διαδοχικά ώστε να μειώνεται το συνολικό μήκος του δέντρου

Παράδειγμα: Έστω ο πίνακας αποστάσεων 5 OTUs (A–E)

OTUs A B C D E

A --- 0.08 0.19 0.70 0.65

B 0 17 0 75 0 70B --- 0.17 0.75 0.70

C --- 0.80 0.60

D --- 0 12D --- 0.12

E ---

Για κάθε OTU υπολογίζουμε τα μεγέθη

r : το άθροισμα των αποστάσεων της OTU i από όλες τις άλλες καιri: το άθροισμα των αποστάσεων της OTU i από όλες τις άλλες και

ri/(n-2) όπου n ο αριθμός των OTUs

OTUs A B C D E r r/n-2

A --- 0.08 0.19 0.70 0.65 1.62 0.54

B --- 0.17 0.75 0.70 1.70 0.57

C --- 0.80 0.60 1.76 0.59

D --- 0.12 2.37 0.79

E --- 2.07 0.69

Εν συνεχεία υπολογίζουμε τις τροποποιημένες αποστάσεις (Dij) ως εξής:

D d r /(n 2) r /(n 2) π χ D 0 08 0 54 0 57 1 03Dij = dij - ri/(n-2) - rj/(n-2), π.χ. DAB = 0.08-0.54-0.57=-1.03,

όποτε έχουμε

OTUs A B C D E r r/n-2

A --- 0.08 0.19 0.70 0.65 1.62 0.540.08 0. 9 0.70 0.65 .6 0.5

B -1,03 --- 0.17 0.75 0.70 1.70 0.57

C -0,94 -0,99 --- 0.80 0.60 1.76 0.59

D -0,63 -0,61 -0,58 --- 0.12 2.37 0.79

E -0,58 -0,56 -0,68 -1,36 --- 2.07 0.69

Η μικρότερη (πιο αρνητική) απόσταση υποδεικνύει τις δύο OTUs που ομαδοποιούνται πρώτες (D και Ε στο παράδειγμα), μέσω ενός

Η απόσταση των δύο OTUs από τον κόμβο υπολογίζεται ως εξής:

εσωτερικού «κόμβου 1» .

Η απόσταση των δύο OTUs από τον κόμβο υπολογίζεται ως εξής:di-node = dij/2 + [ri/(n-2) - rj/(n-2)]/2dj-node = dij/2 + [rj/(n-2) – ri/(n-2)]/2 δηλαδή

Απόσταση D – κόμβος 1 = 0,12/2 + (0,79-0,69)/2 = 0,11Απόσταση Ε – κόμβος 1 = 0,12/2 + (0,69-0,79)/2 = 0,01

Οπότε προκύπτειE0.01

D0.11

Καταρτίζεται νέος πίνακας αποστάσεων στον οποίο τα OTUs D και EΚαταρτίζεται νέος πίνακας αποστάσεων στον οποίο τα OTUs D και Eεμφανίζονται ως ένα σύνθετο OΤU, κόμβος-1 και ακολουθείται η ίδια διαδικασία. Οι νέες αποστάσεις των OTUs από τον κόμβο 1 υπολογίζονται από τη σχέση:

Dk-node(ij)=(dik+djk-dij)/2Π.χ. η απόσταση Α - κόμβος 1χ η η μβ ς

DA1=(0,70+0,65-0,12)/2=0,615OTUs A B C D E r r/n-2

A --- 0.08 0.19 0.70 0.65 1.62 0.54

B -1,03 --- 0.17 0.75 0.70 1.70 0.57

C -0,94 -0,99 --- 0.80 0.60 1.76 0.59

D -0,63 -0,61 -0,58 --- 0.12 2.37 0.79

E -0,58 -0,56 -0,68 -1,36 --- 2.07 0.69

Οπότε έχουμε

OTUs A B C Κόμβος 1 r r/n-2

A --- 0.08 0.19 0.615 0,885 0,4425

B 0 82 0 17 0 665 0 915 0 4575 B -0,82 --- 0.17 0.665 0,915 0,4575

C -0,7525 -0,7875 --- 0.64 1,00 0,50

Κόμβος 1 0 7875 0 7525 0 82 1 92 0 96 Κόμβος 1 -0,7875 -0,7525 -0,82 --- 1,92 0,96

Η μικρότερη αρνητική απόσταση είναι μεταξύ του C και του κόμβου 1.

Απόσταση C – κόμβος 2 = 0,64/2 + (0,50-0,96)/2 = 0,09

Απόσταση κόμβου 1 – κόμβος 2 = 0,64/2 + (0,96-0,50)/2 = 0,55


C EC

2 1

0 11

0.01

0.55

0.09

D0.11

Καταρτίζεται νέος πίνακας αποστάσεων στον οποίο τα Καταρτίζεται νέος πίνακας αποστάσεων στον οποίο τα OTUs COTUs C καικαι κόμβος 1 κόμβος 1 ρ ζ ς ςρ ζ ς ς μβ ςμβ ςεμφανίζονται ως ένα σύνθετο εμφανίζονται ως ένα σύνθετο OOΤΤUU,, κόμβοςκόμβος--22 και ακολουθείται η ίδια και ακολουθείται η ίδια διαδικασίαδιαδικασία ..

OTUs A B Κόμ- 2 r r/n-2

A --- 0.08 0.0825 0,1625 0.1625

B -0,26 --- 0.0975 0,1775 0,1775

Κόμ-2 -0,26 -0,26 ----- 0.18 0,18

Επιλέγουμε το ζεύγος Α - Κόμβος 2.

Απόσταση Α – κόμβος 3 = 0,0825/2 + (0,1625-0,18)/2 = 0,0325

Απόσταση κόμβου 2 – κόμβος 3 = 0,0825/2 + (0,18-0,1625)/2 = 0,05


ECA23

1

0.01

0 55

0.090.05

0.03

D

0.110.55

Τέλος φτιάχνεται ο νέος πίνακας αποστάσεων μεταξύ του τελευταίου taxon και του κόμβου 3.μβ

OTUs B Κόμβος 3

B --- 0,0475B 0,0475

Κόμβος 3 -----

ECA23 0.010.09

0 03

B

231

0.110.550.05

0.030.0475

D

0.11

Ανάλυση Σύνδεσης Γειτόνων στο MEGA





Μήκη Κλάδων – Branch lengths

Δέντρα χωρίς κλίμακα

Τα μήκη των κλάδων δεν παρέχουν καμία πληροφορία

Τα μήκη των κλάδων συνήθως επιλέγεται να ευθυγραμμίζονται με τα ονόματα των ΟΤUs

Δέντρα με κλίμακα

Τα μήκη των κλάδων αντιπροσωπεύουν ένα μέτρο των διαφορών/απόστασης τωνδιαφορών/απόστασης των OTUs που βρίσκονται στις άκρες των κλάδων


Τα μήκη των κλάδων λ ύ δ ίαποτελούν δείκτη της

απόστασης των OTUs

Τα δέντρα θα πρέπει να παρουσιάζονται με κλίμακα (scale bar)κλίμακα (scale bar)


Τα μήκη των κλάδων αποτελούν δείκτη της απόστασης των OTUs

Τα δέντρα θα πρέπει ναΤα δέντρα θα πρέπει να παρουσιάζονται με κλίμακα

Στα ορθογώνια δέντρα, οι ρ γ ρ ,γραμμές των κόμβων δεν είναι μήκη κλάδων. Το μήκος τους δεν υποδεικνύει απόσταση ΟΤUs.

Π.χ. η απόσταση μεταξύ των C και G είναι το άθροισμα της πράσινης και της γαλάζιας γραμμής, όχι και της κόκκινης.

Μετατροπή αρχείου σε nexus formatΦυλογενετική ανάλυση


ΜΕΘΟΔΟΣ ΜΕΓΙΣΤΗΣ ΦΕΙΔΩΛΟΤΗΤΑΣΜΕΘΟΔΟΣ ΜΕΓΙΣΤΗΣ ΦΕΙΔΩΛΟΤΗΤΑΣ

Η μέθοδος αυτή χρησιμοποιεί το κριτήριο της φειδωλότητας.

Αρχή: το καλύτερο δέντρο είναι αυτό που απαιτεί τον μικρότερο αριθμό εξελικτικών βημάτων για την εξήγηση των διαφορών μεταξύ των μελετούμενων taxa

Νουκλεοτιδικές ΘέσειςΜοναδικά νουκλεοτίδια

Αμετάβλητες Μεταβλητές

Πληροφοριακές θέσεις

Πληροφοριακή θέση: θέση που ευνοεί κάποιο δέντρο έναντι των υπολοίπων. Όταν υπάρχουν 2τουλάχιστον καταστάσεις χαρακτήρων κάθε μια από τις οποίες αντιπροσωπεύεται σε τουλάχιστον 2 από τα taxa.

Για παράδειγμα έστω 4 υποθετικές αλληλουχίες

Νουκλεοτιδικές θέσεις

Αλληλουχία 1 2 3 4 5 6 7 8 9

1 A A G A G T G C A

2 A G C C G T G C T

3 A G A T A T C C A3 A G A T A T C C A

4 A G A G A T C C T

1o Βήμα: Εντοπισμός Πληροφοριακών θέσεων

Θέσεις 1, 6, 8 = αμετάβλητες

Θέσεις 2, 3, 4, 5, 7 και 9 =μεταβλητές. Ποιες όμως είναι πληροφοριακές;

Νουκλεοτιδικές θέσειςς ς

Αλληλουχία 1 2 3 4 5 6 7 8 9

1 A A G A G T G C A

2 A G C C G T G C T

3 A G A T A T C C A

4 A G A G A T C C T

Νουκλεοτιδικές θέσεις

Αλληλουχία 1 2 3 4 5 6 7 8 9

1 A A G A G T G C A

2 A G C C G T G C T

3 A G A T A T C C A3 A G A T A T C C A

4 A G A G A T C C T

2o Βήμα: Υπολογισμός των απαιτούμενων εξελικτικών αλλαγών για κάθε δένδροδένδρο

Για το δέντρο Ι τα εξελικτικά βήματα είναι 1+1+2

Για το δέντρο ΙΙ τα εξελικτικά βήματα είναι 2+2+1Για το δέντρο ΙΙ τα εξελικτικά βήματα είναι 2 2 1

Για το δέντρο ΙΙΙ τα εξελικτικά βήματα είναι 2+2+2

3o Βήμα: Άθροισμα του αριθμού των αλλαγών

Για το δέντρο Ι = 4

Για το δέντρο ΙΙ = 5

Για το δέντρο ΙΙΙ = 6

4o Βήμα: Επιλογή του πιο φειδωλού δέντρου

Δέντρο ΙΔέντρο Ι

Εύρεση των ιδεατών δέντρων

Αλγόριθμοι

Ακριβείς αλγόριθμοι Ευρετικοί αλγόριθμοι

Ακριβείς αλγόριθμοι

Exhaustive (<11 taxa)

Αποτίμηση όλων των δέντρων και εύρεση του πιο «καλού»

Branch and Bound (11<taxa<20)

Εγγυάται την εύρεση του καλύτερου δέντρου χωρίς να απαιτείται η αποτίμησηΕγγυάται την εύρεση του καλύτερου δέντρου, χωρίς να απαιτείται η αποτίμηση κάθε δέντρου

1 2

A

Exhaustive search

3

A

A1

Κατασκευάζει ένα τυχαίο δέντρο με όλες τις αλληλουχίες.

B 1 2

B1

4 1 2

B2

4 1 2

B3

4

η χ ς

Αρχίζει από ένα δέντρο με 3 taxa.

C 1 12 2

3

C31-D35

C21-D25

4 45 5

3 3

To 4ο taxon προστίθεται με την προσθήκη ενός νέου

C11 C12

C21 D25

1 24 5 1 24 5 1 24 5

η ρ ή η ςκλάδου στο μέσο κάθε προϋπάρχοντος κλάδου.

C13 C14 C15

D151-D157

Εκτιμά το παραγόμενο δέντρο, βάσει κάποιου κριτηρίου (π χ μήκος)κριτηρίου (π.χ. μήκος).

Πιθανά δέντραΗ διακλαδωτική σειρά του δένδρου (έρριζου ή άρριζου) καλείται τοπολογία.

για έρριζα δένδρα (n≥2): για άρριζα δένδρα (n≥3):

ή ρ ρ ( ρρ ζ ή ρρ ζ ) γ

( )( )!22

!322

−=

nN nR( )

( )!32!52

3

−=

nN nU( )!22 2 −− nnR ( )!32 3 −− nnU

Number of Number of rooted trees Number of unrooted trees OTUs (n) (ΝR) (NU)

2345

1315

105

113155

678910…15

105904

10,395135,135

2,027,02534,459,425

…213 458 046 676 875

15105904

10,395135,135

2,027,025…

7 905 853 580 62515…20

213,458,046,676,875…

8,200,794,532,637,891,559,375

7,905,853,580,625…

221,643,095,476,699,771,875

Branch and Bound searchΓια 3 taxa (A, B & C) υπάρχει ένα πιθανό δέντρο (A1).

Ο αλγόριθμος ξεκινάει φτιάχνοντας Το τέταρτο taxon (D) μπορεί να προστεθεί (branch) ως νέος κλάδος σε κάθε έναν από τους 3 εσωτερικούς κόμβους, δημιουργώντας 3 πιθανά δέντρα (B1 B2 & B3)

Ο α γόριθμος ξε ινάει φτιάχνονταςένα δέντρο με όλα τα taxa, το οποίο δεν είναι απαραίτητα και το βέλτιστο και στη συνέχεια δέντρα (B1, B2, & B3).

Ελέγχουμε τα παραγόμενα δέντρα. Το Β2 δημιουργεί ένα νέο όριο (bound) με μήκος 838.

συναρμολογεί ένα δέντρο προσθέτοντας ένα taxon κάθε φορά.

ημ ργ ρ ( ) μ μή ςΤα Β1, Β3 έχουν μεγαλύτερο μήκος (από το αρχικό τυχαίο δέντρο, 964) και απορρίπτονται και αυτά και τα παράγωγα αυτών δέντρα.

Α1

Β3

Το 5ο taxon (Ε) προστίθεται σε κάθε ένα από τους 5 εσωτερικούς κόμβους του δέντρου Β2 Ελέγχουμε τα νέα δέντρα Τα Γ1 Γ2 Γ3

Β1 Β2

Β2. Ελέγχουμε τα νέα δέντρα. Τα Γ1, Γ2, Γ3 έχουν μεγαλύτερο μήκος από το αρχικό και απορρίπτονται. Το Γ4 έχει το ίδιο, ενώ το Γ5 μικρότερο δημιουργώντας ένα νέο όριο (bound), ώστε αν υπήρχε και 6ο taxon να ξεκινούσαμε από αυτό, δημιουργώντας κάθε φορά ένα νέο όριο.

Branch and Bound searchΣτο πρώτο βήμα αποκλείονται το το πρώτο βήμα απο είονται το1/3 των πιθανών δέντρων, στο δεύτερο το ½ των υπόλοιπων πιθανών δέντρων με αποτέλεσμα να είναι αναγκαίο να εκτιμηθεί το 1/6 των πιθανών δέντρων.

δ θΥπό ιδανικές συνθήκες μόνο ένα δέντρο θα παραμείνει σε κάθε βήμα.

Η μέθοδος είναι υπολογιστικά εφικτή για αναλύσεις μέχρι 20 taxaπου έχουν ~8 2*1021που έχουν 8.2 10

Figure modified from Krane & Raymer 2004

Heuristic search – Ευρετική μέθοδος (>20 taxa)

Όταν ο αριθμός των πιθανών δέντρων είναι μεγάλος, τότε η εκτίμηση κάθε δέντρου, χρησιμοποιώντας ακριβείς μεθόδους είναι πρακτικά αδύνατη.

Η ευρετική μέθοδος (heuristic search) είναι ουσιαστικά ένας αλγόριθμος ρ ή μ ς ( ) ς γ ρ μ ςαναρρίχησης λόφου (hill climbing), όπου επιλέγεται ένα αρχικό δέντρο και στη συνέχεια γίνονται αναδιευθετήσεις επιζητώντας τη βελτίωση του δέντρου, βάσει του δεδομένου κριτηρίου επιλογήςδεδομένου κριτηρίου επιλογής.

Υπάρχουν πολυάριθμοι ευρετικοί αλγόριθμοι όπως

Ευρετικοί αλγόριθμοι

1) Stepwise addition (προσομοιάζει την Branch and Bound)

Αρχίζει με ένα δέντρο 3 αλληλουχιών

Π θέ έΠροσθέτει ένα taxon

Εκτιμά όλα τα δέντρα

Επιλέγει το δέντρο με το καλύτεροΕπιλέγει το δέντρο με το καλύτερο

score και προσθέτει νέο taxon

Μειονέκτημα: εάν το καλύτερο δέντρο σε ένα επίπεδο είναι το Α, αλλά τελικά το


καλύτερο δέντρο με όλα τα taxa προέρχεται από το Β του ίδιου επιπέδου, τότε το

καλύτερο δέντρο δεν θα βρεθεί.

Η τεχνική stepwise θα σκαρφαλώσει στη κορυφή ενός λόφου, αλλά ο λόφος αυτός

δεν είναι ο ψηλότεροςδεν είναι ο ψηλότερος.

2) Star Decomposition


2) Star Decomposition

O αλγόριθμος ξεκινάει με όλα τα taxa να συνδέονται σε δέντρο με μορφήνα συνδέονται σε δέντρο με μορφή άστρου (star topology, όλα τα taxa συνδέονται σε ένα εσωτερικό κόμβο).Στη συνέχεια εκτιμώνται όλα ταΣτη συνέχεια εκτιμώνται όλα τα δέντρα που δημιουργούνται με σύνδεση δύο ακραίων taxa (terminal nodes) σε μία ομάδα. Το δέντρο με τη ) μ μ ρ μ ηκαλύτερη τιμή (best score) διατηρείται για το επόμενο στάδιο. Σε κάθε βήμα, όταν δημιουργούμε μία νέα ομάδα, ο αριθμός των κλαδιών μειώνεται κατά ένα. Και αυτό συνεχίζεται μέχρι να έχουμε ένα διχοτομούμενο δέντρο.

Branch swapping (αναδιευθέτηση κλάδων)


Στοχεύει στη βελτίωση της αρχικής εκτίμησης πραγματοποιώντας προκαθορισμένες

διευθετήσεις στο δέντρο. Στην ουσία είναι τρόποι να «σπρώξεις» το δέντρο να

ξεκολλήσει από το τοπικό βέλτιστο και να οδηγηθεί στο συνολικό βέλτιστο.

Η μέθοδος αυτή περιλαμβάνει κόψιμο του δέντρου σε ένα ή περισσότερα σημεία

(subtrees) και συναρμολόγησή του με τέτοιο τρόπο ώστε να διαφέρει από το αρχικό

δέντρο.

Υ ά 3 ίδ ί δέ ( bt )Υπάρχουν 3 είδη μετακίνησης των υποδέντρων (subtrees)

NNI (nearest-neighbor interchange)

SPR (subtree pruning and regrafting)SPR (subtree pruning and regrafting)

TBR (tree bisection and recombination)

Branch swapping SPR TBR

Εσωτερικός

NNI

ρ ςκλάδος

Nearest Neighbor Interchange Sub-tree Pruning and Regrafting

Tree bisection and reconnection

Branch swapping

NNI

Εσωτερικός κλάδος

NNI

Εικόνα 1 Εικόνα 2 Εικόνα 3

Nearest Neighbor Interchange

Αρχικό δέντρο Ανταλλαγή 1 με 3

Ανταλλαγή 2 με 3

g g

Η απλούστερη μέθοδος, γνωστή ως ΝΝΙ, αλλάζει τη συνδεσιμότητα των 4 υποδέντρων του κύριου δέντρου. Κάθε εσωτερικός κλάδος ενός άριζου δέντρου (εικόνα 1) έχει 4 υποδέντρα που συνδέονται σε αυτόν (ένα υποδέντρο μπορεί να αποτελείται από 1 και μόνο κόμβο). Η ΝΝΙ αλλάζει τη θέση αυτών, παράγοντας νέα δέντρα. Υπάρχουν μόνο 2 αλλαγές που οδηγούν σε νέα δέντρα (εικόνες 2 και 3). Η διαδικασία συνεχίζει για κάθε εσωτερικό κλάδο έως ότου να μην γίνονται βελτιώσεις του αρχικού δέντρου βάσει του αρχικού κριτηρίου.

Ένα δέντρο με Ν>2 φύλλα (κόμβους) έχει Ν-3 εσωτερικούς κλάδους και έτσι η ΝΝΙ, που ελέγχει 2 δέντρα για κάθε εσωτερικό κλάδο, θα εξετάσει 2(Ν-3) νέα δέντρα.

Sub-tree Pruning and Regrafting («κλαδεύω και μπολιάζω»)

Εικόνα 1 Εικόνα 2 Εικόνα 3 Εικόνα 4 Εικόνα 5Εικόνα 1Αρχικό δέντρο

Εικόνα 2Μπόλιασμα του (1,2) στο κλαδί 6


Εικόνα 4Μπόλιασμα του 3 στο κλαδί 4


Η SSR είναι μια στρατηγική ελέγχου της τοπολογίας ενός δέντρου που προσπαθεί να βελτιώσει την αξία (πιθανότητα) ενός δέντρου μέσω της εξής διαδικασίας: 1. Επιλέγει το υποδέντρο του αρχικού δέντρου που θα κλαδέψει (pruning)1. Επιλέγει το υποδέντρο του αρχικού δέντρου που θα κλαδέψει (pruning)2. Αφαιρεί το υποδέντρο και το μπολιάζει σε άλλο σημείο του εναπομείναντος δέντρου,

δημιουργώντας ένα νέο δέντρο (π.χ. στην εικόνα 2 κλάδεμα του (1,2) και μπόλιασμα στο κλαδί που οδηγεί στο 6

3 δ δ ί ίζ άθ θ ό δέ άθ λ δί ί3. Η διαδικασία συνεχίζεται για κάθε πιθανό υποδέντρο και για κάθε κλαδί που μπορεί να το δεχτεί.

Tree bisection and reconnection (TBR) (Διχοτόμηση και επανασύνδεση)

Η μέθοδος Tree-Bisection-Reconnection (TBR) κόβει το δέντρο σε 2 κομμάτια (υποδέντρα) δέντρο σε 2 κομμάτια (υποδέντρα) και στη συνέχεια επανασυνδέει τα 2 υποδέντρα σε όλους τους πιθανούς κλάδους. Εάν βρεθεί ένα δέ ί λύ όδέντρο που είναι «καλύτερο» από το αρχικό, τότε αυτό διατηρείται και αρχίζει ένας νέος γύρος TBR. Όπως και στις ς ςπροηγούμενες περιπτώσεις δεν εγγυάται ότι θα βρει το βέλτιστο δέντρο, ωστόσο είναι πιο ισχυρή από τις SPR και NNI Α Αρχικό Δέντροαπό τις SPR και NNI. Α. Αρχικό Δέντρο

Β. Κόψιμο του κλάδου x και σύνδεση στον u.Άλλες πιθανές συνδέσεις: x στο z, x στο w, x στο vC. Κόψιμο του κλάδου y και σύνδεση του κλάδου r στον κλάδο v. Άλλες συνδέσεις: r στο w, r στο y΄, s στο v, s στο w, s στοy΄, y στο v, y στο w.

Η δ ί ό λ ύ δέ ί έ ό όβλ

Έλεγχος αξιοπιστίας

Η δημιουργία ενός φυλογενετικού δέντρου είναι ένα στατιστικό πρόβλημα και οκαθένας μπορεί να επιθυμήσει την εκτίμηση της αξιοπιστίας του.

Μετά τη δημιουργία ενός δέντρου μπορεί να αναδυθούν δύο ερωτήματα

1) Πό ξ ό ί δέ1) Πόσο αξιόπιστο είναι το δέντρο; και2) Είναι το δέντρο αυτό σημαντικά καλύτερο από κάποιο άλλο;

Η αξιοπιστία μετριέται ως η πιθανότητα τα μέλη ενός κλάδου να είναι πάντα μέλη αυτού του κλάδου.

b t t l iΟι ευρύτερα χρησιμοποιούμενες τεχνικές

για το σκοπό αυτό είναι οι

bootstrap analysis

j kk if l ijackknife analysis

Bootstrap analysisΈνας επιστήμονας που θέλει να ελέγξει την αξιοπιστία των αποτελεσμάτων του


Ένας επιστήμονας που θέλει να ελέγξει την αξιοπιστία των αποτελεσμάτων τουεπαναλαμβάνει το πείραμα του με άλλα δεδομένα. Οι φυλογενετιστέςχρησιμοποιούν μια μέθοδο δειγματοληψίας που ονομάζεται bootstrapping η οποίαδημιουργεί ψεύτικα σύνολα δεδομένων μέσω των οποίων γίνεται εκτίμηση τηςαξιοπιστίας των δέντρων.

Η δ ί ό λ ύ δέ ί έ ό όβλ


Η δημιουργία ενός φυλογενετικού δέντρου είναι ένα στατιστικό πρόβλημα και οκαθένας μπορεί να επιθυμήσει την εκτίμηση της αξιοπιστίας του.

Μετά τη δημιουργία ενός δέντρου μπορεί να αναδυθούν δύο ερωτήματα

1) Πό ξ ό ί δέ1) Πόσο αξιόπιστο είναι το δέντρο; και2) Είναι το δέντρο αυτό σημαντικά καλύτερο από κάποιο άλλο;

Η αξιοπιστία μετριέται ως η πιθανότητα τα μέλη ενός κλάδου να είναι πάντα μέλη αυτού του κλάδου.

b t t l iΟι ευρύτερα χρησιμοποιούμενες τεχνικές

για το σκοπό αυτό είναι οι

bootstrap analysis

j kk if l ijackknife analysis

Bootstrap analysisΈνας επιστήμονας που θέλει να ελέγξει την αξιοπιστία των αποτελεσμάτων του


Ένας επιστήμονας που θέλει να ελέγξει την αξιοπιστία των αποτελεσμάτων τουεπαναλαμβάνει το πείραμα του με άλλα δεδομένα. Οι φυλογενετιστέςχρησιμοποιούν μια μέθοδο δειγματοληψίας που ονομάζεται bootstrapping η οποίαδημιουργεί ψεύτικα σύνολα δεδομένων μέσω των οποίων γίνεται εκτίμηση τηςαξιοπιστίας των δέντρων.

Οι μέθοδοι αξιοπιστίας των δέντρων δεν είναι ελεύθεροι λαθών

55% 45%

taxo

nA

taxonD

20 ή

2

20 χαρακτήρες6969

taxonB

taxo

nC


55% 45%

taxo

nA

taxonD

200 ή

20

200 χαρακτήρες 9292

taxonB

taxo

nC


55% 45%

taxo

nA

taxonD

2000 ή

200

2000 χαρακτήρες 100100

taxonB

taxo

nC

Πρακτική στο PAUP Φυλογένεση

Ορίζουμε outgroup

Ο ίζ θ δ λ ίΟρίζουμε μεθοδολογία

Πραγματοποιούμε ανάλυση

ΦυλογένεσηΠρακτική στο PAUP

Π.χ. Μέγιστη Φειδωλότητα

Εντολές

O t L tOutgroup Lacerta;

Set criterion=parsimony;

Hsearch addseq=random;Hsearch addseq=random;

Showhrees;

Savetrees file=Podarcis MP.tre;Savetrees file Podarcis_MP.tre;

Bootstrap nreps=100;

Savetrees from=1 to=1;

ΦυλογένεσηΕύρεση μοντέλου νουκλεοτιδικής υποκατάστασης

ModelTest 3.71) Τρέχουμε το αρχείο μας στο PAUP* (Podarcis.nxs).2) Ανοίγουμε το Modeltest command file (modelblockPAUPb10) και το

τρέχουμε (βρίσκεται στο φάκελο paupblock μέσα στο φάκελο τουModelTest)ModelTest)

3) Παίρνουμε το αρχείο “model.scores» (το αποτέλεσμα του βήματος 2), καιτο τοποθετούμε στο φάκελο του ModelTest (στο φάκελο με το όνομα binό β ί fil M d lT t) έ έόπου βρίσκεται το exe file του ModelTest) και το τρέχουμε μέσω τουmodeltest.exe, χρησιμοποιώντας το Command Prompt of Windows

4) Ανοίγουμε το Command Prompt (Start Run cmd)5) Το οδηγούμε στο φάκελο που περιέχει τα scores (bin)

π.χcd Program Files\Phylogeny\Modeltest3.7 folderg y g y

6) Γράφουμε την εντολή: modeltest3.7 –n896 –t18 < model.scores > mydata.modeltest

Based on these results the LRT suggests that the best fit model is:

Φυλογένεση

Model selected: TrN + G-lnL = 1754.5413

K = 6Base frequencies:

freqA = 0.2891freqC = 0.3084freqG = 0.1084f 0 29 1freqT = 0.2941

Substitution model:Rate matrixR(a) [A-C] = 1.0000(b) [ ] 10 1497R(b) [A-G] = 10.1497

R(c) [A-T] = 1.0000R(d) [C-G] = 1.0000R(e) [C-T] = 12.8767(f) [G ] 1 0000R(f) [G-T] = 1.0000

Among-site rate variationProportion of invariable sites = 0Variable sites (G)G di t ib ti h t 0 1869Gamma distribution shape parameter = 0.1869

ΦυλογένεσηΠ χ Σύνδεσης Γειτόνων (Neighbor Joining)Π.χ. Σύνδεσης Γειτόνων (Neighbor Joining)

Εντολές

Outgroup Lacerta;

Set criterion=distance;

Dset distance=“Your model from Modeltest”;

Nj;

Showhrees;

Savetrees file=Podarcis_NJ.tre;

Bootstrap nreps=100;

Savetrees from=1 to=1;

Μπεϋζιανή ΣυμπερασματολογίαB i I f


Bayesian Inference

Η Bayesian Inference είναι μια στατιστική διεργασία στην οποία ενδείξεις ή παρατηρήσεις χρησιμοποιούνται για την αναθεώρηση ή εξαγωγή νέουπαρατηρήσεις χρησιμοποιούνται για την αναθεώρηση ή εξαγωγή νέου συμπεράσματος σχετικά με το τι είναι γνωστό υπό την προϋπόθεση ορισμένων παραμέτρων ή υποθέσεων

Ποια είναι η πιθανότητα η Σουηδία να κερδίσει το επόμενο παγκόσμιο πρωτάθλημα χόκεϋ επί πάγου;πρωτάθλημα χόκεϋ επί πάγου;

Σί Σ δί ί ί ό άδ ίζΣίγουρα η Σουηδία είναι μία από τις ομάδες που ανταγωνίζονται με επιτυχία στην διεκδίκηση των μεταλλίων!

Ας υποθέσουμε ότι οι ομάδες που έχουν κερδίσει μετάλλιο τα τελευταία 15 χρόνια έχουν ίση πιθανότητα να κερδίσουν και η πιθανότητα για ένα outsider είναι μηδέν!

Τότε η πιθανότητα να δί Σ δί ίκερδίσει η Σουηδία είναι

1:7 (ή 0,14)!

Μ ύ β ύΜπορούμε να βρούμε τη συχνότητα των Σουηδικών νικών στο παρελθόν (Δύο χρυσά ή 2:15=0.13 που είναι κοντά στην προηγούμενη εκτίμηση.

Η βή θ ό ί δύ λ θ ί ό όΗ ακριβής πιθανότητα είναι δύσκολο να εκτιμηθεί, όμως οι περισσότεροι συμφωνούν ότι θα είναι κοντά σε αυτήν την εκτίμηση (κάπως έτσι βγαίνουν και τα ποσοστά στο στοίχημα)!!!

Μπορείς να χρησιμοποιήσεις αυτή τη πληροφορία για να πάρεις λογικές αποφάσειςαποφάσεις.

Εάν κάποιος σου προσφέρει να ί έ Σ δίστοιχηματίσεις υπέρ της Σουηδίας

με πιθανότητα 1:10, τότε δεν θα ενδιαφερόσουν αφού απόδοση

ή ί λύ άτου στοιχήματος είναι πολύ κοντά στη δική σου εκτιμούμενενηπιθανότητα.

Αν η προσφορά είναι 1:100, τότε σίγουρα θα σας δελέαζε να στοιχηματίσετε.

Όσο η διαθέσιμη πληροφορία αλλάζει, είναι πιθανόν να αλλάξουν και οιΌσο η διαθέσιμη πληροφορία αλλάζει, είναι πιθανόν να αλλάξουν και οι εκτιμήσεις σου για τις πιθανότητες!

Ας υποθέσουμε ότι η Σουηδία φτάνει στον τελικό τουφτάνει στον τελικό του πρωταθλήματος.

Τώρα η πιθανότητα κατάκτησηςΤώρα, η πιθανότητα κατάκτησης του χρυσού μεταλλίου είναι 50:50.

Αν χάσει στα ημιτελικά, η πιθανότητα μηδενίζεται.

Αυτός ο συλλογιστικός τρόπος σχετικά με τις πιθανότητες και τηςΑυτός ο συλλογιστικός τρόπος σχετικά με τις πιθανότητες και της αναθεώρησης αυτών, βάσει των νέων δεδομένων που γίνονται διαθέσιμα, χρησιμοποιείται από τους περισσότερους ανθρώπους και βασίζεται στη λογικήλογική.

Bayesian InferenceΦυλογένεση

Ουσιαστικά αποτελεί και ένα παράδειγμα της Bayesian προσέγγισης στην επιστήμη. Η Bayesian Inference (BI) είναι μαθηματική τυποποίηση της διαδικασίας αποφάσεων που οι περισσότεροι από εμάς χρησιμοποιούμε χωρίς ναδιαδικασίας αποφάσεων που οι περισσότεροι από εμάς χρησιμοποιούμε χωρίς να το σκεφτόμαστε.


Η πρώτη μαθηματική τυποποίηση της BI αποδίδεται στον Thomas Bayes (1702-1761)

Th BThomas Bayes


Πρόβλημα πιθανοτήτων: Ένα δοχείο περιέχει 4 κόκκινες και 8 άσπρες μπάλες

Υ θέ ό λλέ ί 2 άλ ΒάΥποθέστε ότι συλλέγεται τυχαία 2 μπάλες. Βάσει του παρακάτω πιθανολογικού μοντέλου ας βρούμε τις πιθανότητες

Το μοντέλο του δοχείουμ χ


Α. Ποια είναι η πιθανότητα να έχεις τουλάχιστον 1 άσπρη μπάλα;Β. Ποια είναι η πιθανότητα οι μπάλες να έχουν το ίδιο χρώμα;Γ. Ποια είναι η πιθανότητα η δεύτερη μπάλα να είναι άσπρη;Δ. Ποια είναι η πιθανότητα η δεύτερη μπάλα να είναι άσπρη δεδομένου ότι οι μπάλες έχουν το ίδιο χρώμα;μ μ ς χ χρ μ ;

Το μοντέλο τουΤο μοντέλο του δοχείου


Α. Ποια είναι η πιθανότητα να έχεις τουλάχιστον 1 άσπρη μπάλα;

Πιθανότητα

Το μοντέλο του

10/11Το μοντέλο του

δοχείου


Β. Ποια είναι η πιθανότητα οι μπάλες να έχουν το ίδιο χρώμα;




δοχείου


Γ. Ποια είναι η πιθανότητα η δεύτερη μπάλα να είναι άσπρη;




δοχείου


Δ. Ποια είναι η πιθανότητα η δεύτερη μπάλα να είναι άσπρη δεδομένου ότι οι μπάλες έχουν το ίδιο χρώμα;

Εδώ ζό έ ύΕδώ χρειαζόμαστε ένα τύπο:

Ο αριθμητής: ποια είναι η πιθανότητα να είναι η δεύτερη άσπρη όταν και οι δύο έχουν το ίδιο χρώμα (άρα και η πρώτη άσπρη) = 14/33

Ο παρανομαστής: ποια είναι η πιθανότητα και


οι μπάλες να έχουν το ίδιο χρώμα = 17/33Άρα:

Το μοντέλο του δοχείου Πιθανότητα

14/17


Α. Ποια είναι η πιθανότητα να έχεις τουλάχιστον 1 άσπρη μπάλα;Β. Ποια είναι η πιθανότητα οι μπάλες να έχουν το ίδιο χρώμα;

10/1117/33

Γ. Ποια είναι η πιθανότητα η δεύτερη μπάλα να είναι άσπρη;Δ. Ποια είναι η πιθανότητα η δεύτερη μπάλα να είναι άσπρη δεδομένου ότι οι μπάλες έχουν το ίδιο χρώμα;

2/3

14/17μ μ ς χ χρ μ ;

Το μοντέλο τουΤο μοντέλο του δοχείου


Μπεϋζιανή Φυλογενετική Συμπερασματολογία

Bayesian Phylogenetic InferenceBayesian Phylogenetic Inference

Πώς η Βayesian Inference εφαρμόζεται στη φυλογένεση;η φ γ η;

Διερεύνηση των σχέσεων μεταξύ 3 ειδών

Έστω ότι οι εξετάζουμε τις σχέσεις του ανθρώπου, του χιμπατζή και του γορίλα

Outgroup:γορίλα. Χρειαζόμαστε άλλο ένα τάξο(ουρακοτάγκος) για να ριζώσουμε το δέντρο.ρ

Τρία πιθανά δέντρα (τοπολογίες):Τρία πιθανά δέντρα (τοπολογίες):

A C

B

A B CModel

Πριν αρχίσει η ανάλυση, άζ ί δ έA B C

abili

ty 1.0

χρειάζεται να ορίσουμε τις δικές μας απόψεις (πιστεύω) σχετικά με τις σχέσεις αυτών!!

Prior distribution

prob

a

Όταν τα δεδομένα απουσιάζουν, τότε η πιο απλή λύση είναι να

Data (παρατηρήσειςπ.χ. DNA)

τότε η πιο απλή λύση είναι να αποδώσουμε ίδια πιθανότητα σε όλα τα πιθανά δέντρα.

Δ δ έ ό ί 3

Posterior distributionbabi

lity 1.0

Δεδομένου ότι είναι 3 τα δέντρα, η πιθανότητα για κάθε ένα είναι 1/3

Posterior distribution

prob

D Τα δεδομένα (Data)D Τα δεδομένα (Data)

Τάξα ΧαρακτήρεςΤάξα Χαρακτήρες

A ACG TTA TTA AAT TGT CCT CTT TTC AGA

B ACG TGT TTC GAT CGT CCT CTT TTC AGA

C ACG TGT TTA GAC CGA CCT CGG TTA AGG

D ACA GGA TTA GAT CGT CCG CTT TTC AGA

Μ έλ λ ί ή λάδΜοντέλο: τοπολογία και μήκος κλάδων

θ Παράμετροι

τοπολογία )(τA

vC

1vv

Μήκος κλάδων )( iv

B

3v

D

2v4v5v

(αναμενόμενη ποσότητα αλλαγής)B D

),( vτθ =

Bayes’ theorem

D = Dataθ = Model parameters

”Likelihood”

( ) ( | )f f Dθ θ

Posteriordistribution

Prior distribution ”Likelihood”

( ) ( | )( | )( ) ( | ) df f Df D

f f Dθ θθθ θ θ

=∫

Normalizing constant

Κατανομή της εκ των υστέρων πιθανότητας

)|( Xf θ

yro

babi

lity

ster

ior

pr

20% 48% 32%

tree 1 tree 2 tree 3θPo

s 20% 48% 32%

Parameter space

Μπεϋζιανή ΣυμπερασματολογίαΦυλογένεση

Ποια είναι η πιθανότητα η

αγαπημένη σας ομάδα να

νικήσει το παγκόσμιο

πρωτάθλημα χόκεϋ επί πάγου το ρ ημ χ γ

2010;

Νικήτές του Παγκόσμιου Πρωταθλήματος στο χόκεϋ επί πάγου

2000

Χρυσό Ασημένιο Χάλκινο Μετάλλια

2000

2001

20025

4

2003

20045

3

6

2005

20061

6

5

2007

2008 άλλοι

1

0

2009

4

Prior

4

Posterior 1

0

Posterior 2

in

Data 1

out

Data 2

6

5

0

5

0

5

out

in

out

won

5

3

5

0

0

0

in

out

out

out

1

6

1

0

0

0

in

out

out

out

other 1

( )f θ

other 0

1( | )f Dθ

other 0

2( | )f Dθ

other out other out

( )f θ 1 2( | )f D Dθ +


Όμως σε όλα σχεδόν τα φυλογενετικά προβλήματα είναι αδύνατο να εκτιμήσουμε αναλυτικά την κατανομή της εκ υστέρων πιθανότητας.

Το πρόβλημα αυτό είναι ιδιαίτερα αντιληπτό στη φυλογένεση εξαιτίας του τεράστιου αριθμού των πιθανών τοπολογιών ακόμα και για μικρό αριθμό τάξων.

για έρριζα δένδρα (n≥2): ( )!32

Number of

Number of rooted trees (Ν )

Number of unrooted trees (N )( )

( )!22!32

2 −−

= − nnN nR

of OTUs (n)

(ΝR) (NU)

23456

1315

105904

11315

105

για άρριζα δένδρα (n≥3): ( )!52 −

=nN

678910…15

90410,395135,135

2,027,02534,459,425

…213 458 046 676 875

105904

10,395135,135

2,027,025…

7 905 853 580 625

( )!32 3 −= − n

N nU 15…20

213,458,046,676,875…

8,200,794,532,637,891,559,375

7,905,853,580,625…

221,643,095,476,699,771,875


Ο χώρος κατανομής όλων των πιθανών δέντρων μπορεί να απεικονιστεί ως ένα τοπίο με λόφους (hilly landscape). Κοντινά σημεία στο τοπίο αυτό αντιπροσωπεύουν δέντρα με παρόμοια τοπολογία, ενώ το ύψος αντιπροσωπεύει την πιθανότητα του δέντρου στο συγκεκριμένο σημείο. Το ύψος και η θέση των λόφων στο τοπίο εξαρτάται από τα δεδομένα.

Συνεπώς η αναζήτηση του καλύτερου δέντρου δεν είναι εύκολη υπόθεσηεύκολη υπόθεση


Η λύση στο πρόβλημα αυτό βασίζεται στην εκτίμηση της εκ των υστέρων πιθανότητας μέσω της Markov Chain Monte Carlo ή MCMC.

Οι αλυσίδες του Markov έχουν την ιδιότητα ότι συγκλίνουν προς μια κατάσταση ισορροπίας ανεξάρτητα από το σημείο εκκίνησης.

Απαιτείται ο καθορισμός αυτών των αλυσίδων (ελεγκτές) που ξεκινούν από ένα ( γ ς) ξτυχαίο σημείο και συγκλίνουν προς το επιθυμητή εκ των υστέρων πιθανότητα.

Η κεντρική ιδέα είναι να κάνει μικρές τυχαίες κινήσεις μέσα στο τοπίο (αλλαγές κάποιας παραμέτρου) και να αποδέχεται ή

ί έ λλ έ ύνα απορρίπτει αυτές τις αλλαγές σύμφωνα με τις πιθανότητες

Ξ ά ό έ θ ί ίΞ ά ό έ θ ί ί

Markov chain Monte Carlo

Ξεκινάει από ένα αυθαίρετο σημείοΞεκινάει από ένα αυθαίρετο σημείοΚάνει μικρές τυχαίες κινήσειςΚάνει μικρές τυχαίες κινήσειςΕκτίμηση Εκτίμηση (r) (r) της νέας κατάστασης και σύγκριση με τη παλιάτης νέας κατάστασης και σύγκριση με τη παλιά::

r > 1r > 1 η νέα κατάσταση γίνεται αποδεκτή και αποτελεί το σημείοη νέα κατάσταση γίνεται αποδεκτή και αποτελεί το σημείοr > 1 r > 1 η νέα κατάσταση γίνεται αποδεκτή και αποτελεί το σημείο η νέα κατάσταση γίνεται αποδεκτή και αποτελεί το σημείο εκκίνηση για τον επόμενο κύκλο της εκκίνηση για τον επόμενο κύκλο της αλύσίδαςαλύσίδαςr < 1 r < 1 η νέα κατάσταση γίνεται αποδεκτή με πιθανότητα η νέα κατάσταση γίνεται αποδεκτή με πιθανότητα rr. . Εάν Εάν απορριφθεί , τότε η αλυσίδα μένα στη παλιά θέσηαπορριφθεί , τότε η αλυσίδα μένα στη παλιά θέση

Οδηγείται στο δεύτερο βήμαΟδηγείται στο δεύτερο βήμα 22

always accept

Οδηγείται στο δεύτερο βήμα Οδηγείται στο δεύτερο βήμα 22

Th ti f ti th2a

accept sometimes

The proportion of time the MCMC procedure samples from a particular parameter region is an estimate of that

i ’ t i b bilit

1

2b

2a

region’s posterior probability density

20 % 48 % 32 %

tree 1 tree 2 tree 3

Μπεϋζιανή Συμπερασματολογία Φυλογένεση

Πώς η λογική της Bayesian εφαρμόζεται στη φυλογένεση;

Για να αναθεωρήσουμε την αρχική άποψη (όλα ισοπίθανα), χρειαζόμαστε δεδομένα τα οποία συλλέγουμε (π.χ. ομόλογες λλ λ )

B CA1.01.0

αλληλουχίες DNA).

Αρχικά χρησιμοποιείται ο κανόνας του Bayesγια την εκτίμηση των εκ των υστέρων

1.01.0

για την εκτίμηση των εκ των υστέρων πιθανοτήτων, που είναι το αποτέλεσμα της ανάλυσης.

1.01.0

Η εκ των υστέρων πιθανότητα εκφράζει την πιθανότητα κάθε δέντρου δεδομένου α) της εκ των προτέρων γνώσης, β) ενός μοντέλου ρ ρ γ ης, β) ς μεξέλιξης και γ) των παρατηρούμενων δεδομένων Το καλύτερο

δέντρο

ΦυλογένεσηΦυλογένεσηΜπεϋζιανή Συμπερασματολογία

Ψάχνει το δέντρο (tree) που μεγιστοποιεί τη πιθανότητα ναπαρατηρήσουμε το δέντρο δεδομένου των δεδομένων (data) πουέχουμε στα χέρια μας (P(Tree|Data))

H ΜΣ βασίζεται στην εκ των υστέρων πιθανότητα ενός φυλογενετικούδέντρου, τ. Η εκ των υστέρων πιθανότητα ενός ith φυλογενετικού δέντρου, τi,βάσει ενός συγκεκριμένου συνόλου δεδομένων (ευθυγραμμισμένεςαλληλουχίες DNA) δίνε αι α ό η αθη α ική εξί ω η ου Ba es:αλληλουχίες DNA) δίνεται από τη μαθηματική εξίσωση του Bayes:

ό f( i|X) ί έ

∑ =

= )(

1)()|(

)()|()|( sB

jjfjXf

ifiXfXifττ

τττόπου f(τi|X) είναι η εκ των υστέρων πιθανότητα του ith φυλογενετικού δέντρου και ερμηνεύεται ως η πιθανότητα το τi να είναι το «αληθινό» δέντρο με βάση ταείναι το «αληθινό» δέντρο με βάση τα δεδομένα (αλληλουχίες) που μελετώνται.


Το πρόγραμμα Mrbayes είναι εξαιρετικά απλό στη χρήση τους, σχετικά γρήγορο και ικανό να αναλύει μεγάλα σύνολα δεδομένων.

MrBayes χρησιμοποιεί περιβάλλον εντολώνy χρη μ ρ β(command line interface) στο οποίογράφονται οι εντολές ώστε να ορίσουμε στοπρόγραμμα του τι να κάνει με τα δεδομένα

O αλγόριθμος Metropolis-Ηastings-Γreen

που του έχουμε δώσει.

γ ρ μ ς p g(MHG) είναι ένας MCMC αλγόριθμος που έχει χρησιμοποιηθεί με επιτυχία στην εκτίμηση των εκ των υστέρων πιθανοτήτων των δέντρων.


Όταν εκτελέσεις (τρέξεις) τα δεδομένα σου (execute data file):το πρόγραμμα αρχίζει με ένα δέντρο (είτε τυχαίο είτε ορισμένο από τον

χρήστη κατά τη διάρκεια της εκτέλεσης των δεδομένων),

εκτιμά το δέντρο βάσει του μοντέλου που έχει ορίσει ο χρήστης,

αλλάζει το δέντρο,

εκτιμά το νέο δέντρο και αν το καινούριο είναι καλύτερο από το παλιό τοεκτιμά το νέο δέντρο και αν το καινούριο είναι καλύτερο από το παλιό, τοαποδέχεται ως το σωστό δέντρο. Αυτή η διαδικασία συνιστά μία γενεά(generation).

Κάθε μερικές γενεές (όπως ορίζεται από τον χρήστη), το πρόγραμμα καταγράφεισε ένα αρχείο το τρέχον δέντρο και τη τιμή της πιθανότητας σε ένα αρχείο. Οχρήστης καθορίζει τον αριθμό των γενεών και τελικά το πρόγραμμα υπολογίζειένα συναινετικό δέντρο καταγράφοντας και τα μήκη των κλάδων σε έναξεχωριστό αρχείο.

Documents

Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει