153
Εξελικτική Οικολογία - Διάλεξη 9 Φυλογενετικά Φυλογενετικά δέ δέ δέντρα δέντρα Εισηγητής Εισηγητής Επικ. Καθ. Πουλακάκης Νίκος [email protected]

Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Εξελικτική Οικολογία - Διάλεξη 9

Φυλογενετικά Φυλογενετικά δέδέδέντραδέντρα

ΕισηγητήςΕισηγητήςΕπικ. Καθ. Πουλακάκης Νίκος[email protected]

Page 2: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Δημιουργία φυλογενετικού δέντρου

Τα βήματα που περιλαμβάνονται στη δημιουργία ενός δέντρου απόνουκλεοτιδικές αλληλουχίες είναι:

1) Προσδιορισμός της αλληλουχίας του DNA

2) Προσδιορισμός άλλων αλληλουχιών σχετικών με τις αλληλουχίες που2) Προσδιορισμός άλλων αλληλουχιών σχετικών με τις αλληλουχίες που εξετάζουμε και απόκτηση αυτών σε ηλεκτρονική μορφή (από world wide databases).

3) Ευθυγράμμιση των αλληλουχιών

4) Χρήση του αποτελέσματος της ευθυγράμμισης για τη δημιουργία ενός δέντρου

5) Εκτύπωση και πιθανά δημοσίευση των αποτελεσμάτων

Μετά το πρώτο βήμα, απαιτείται PC με σύνδεση στο Internet και μια ομάδα κατάλληλων υπολογιστικών προγραμμάτων

Page 3: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Βάσεις δεδομένων νουκλεοτιδικών αλληλουχιών

Οι βάσεις δεδομένων λειτουργούν ως χώρος αποθήκευσης και άντλησης πληροφορίας, ενώ έχουν και τη δυνατότητα αναζητήσεων και ανταλλαγής δεδομένων με άλλες βάσεις Ο αριθμός των διαθέσιμων αλληλουχιών αυξάνειδεδομένων με άλλες βάσεις. Ο αριθμός των διαθέσιμων αλληλουχιών αυξάνει ταχύτατα.

Έχουν γίνει παράλληλες προσπάθειες σε Ευρώπη, Αμερική και Ιαπωνία για τηδημιουργία βάσεων δεδομένων με όλες τις αλληλουχίες που δημοσιεύονται:

a) EMBL (European Molecular Biology Laboratory) database, maintained at EMBL-EBI

International Nucleotideb) GenBank (Genetic Sequence Data Bank) maintained at NCBI (National Center for Biotechnology Information)

International Nucleotide Sequence Database

Collaboration

c) DDBJ (DNA Data Bank of Japan) maintained at NIG/CIB

Page 4: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Τα περισσότερα περιοδικά σήμερα απαιτούν οι αλληλουχίες που

Βάσεις δεδομένων

Τα περισσότερα περιοδικά σήμερα απαιτούν οι αλληλουχίες πουπρόκειται να δημοσιευτούν να είναι κατατεθειμένες σε κάποια βάσηγενετικών δεδομένων.

• Απαιτούν την κατάθεση σε μια βάση, χωρίς να επηρεάζει το που θ δ θ ί ύ λ λλ λ ώθα δημοσιευθεί το σύνολο των αλληλουχιών

• Ανταλλαγή δεδομένων μεταξύ των βάσεων συμβαίνει καθημερινά

• Οι αλληλουχίες που κατατίθενται μπορεί να διατηρηθούν υπο φύλαξη μετά από σχετική αίτηση του ερευνητή για κάποιο εύλογοφύλαξη μετά από σχετική αίτηση του ερευνητή για κάποιο εύλογο χρονικό διάστημα

Page 5: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Η ποσότητα της πληροφορίας στις βάσεις αυξάνει με εκπληκτικό ρυθμό.

Βάσεις δεδομένωνη ης ηρ φ ρ ς ς β ς ξ μ η ρ μ

Για παράδειγμα, το 2008 είχαναποθηκευτεί κοντά στα 100 διςβάσεις νουκλεοτιδίων και 100εκατομμύρια αλληλουχίες.

Page 6: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Κάθε αλληλουχία στις βάσεις χαρακτηρίζεται από

Βάσεις δεδομένων

1) entry name, locus name oridentifier (ID): Κάθε αλληλουχίαέχει ένα και μοναδικό ID

2) accession number (AC): Κάθε2) accession number (AC): ΚάθεAC είναι μοναδικός στη βάση

3) version number: Προέρχεται απότο AC και είναι ο αριθμός τωνφορών ου η αλληλου ία έ ειφορών που η αλληλουχία έχειτροποποιηθεί.

Page 7: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

ENTREZ Database: Είναι η πιο χρήσιμη βάση δεδομένων ειδικά για

Βάσεις δεδομένων

ENTREZ Database: Είναι η πιο χρήσιμη βάση δεδομένων ειδικά γιαφυλογενετικές αναλύσεις.

1) Παρέχει ολοκληρωμένη πρόσβαση σε νουκλεοτιδικές και πρωτεϊνικές αλληλουχίες1) Παρέχει ολοκληρωμένη πρόσβαση σε νουκλεοτιδικές και πρωτεϊνικές αλληλουχίες.

2) Διαθέτει μηχανές αναζήτησης για παρόμοιες αλληλουχίες, παράγοντας μια λίστα από

Η βάση Entrez αντλεί δεδομένα από:

σχετικές αλληλουχίες και τις αντίστοιχες βιβλιογραφικές τους αναφορές.

Η βάση Entrez αντλεί δεδομένα από:a) Nucleotide databases (GenBank, EMBL,

DDBJ, and PDB),b) Protein databases, ) St t d t bc) Structure databases,

d) Taxonomy databases, e) Genome databases, f) Expression databases, and ) p ,g) Literature databases (PubMed, OMIM,

Books, PubMed Central).

Page 8: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Ανάκτηση σχετικών αλληλουχιών μέσω του BLAST

Βάσεις δεδομένων

Ανάκτηση σχετικών αλληλουχιών μέσω του BLAST

Συνήθως έχουμε ήδη μια αλληλουχία (νουκλεοτιδική ή πρωτεϊνική) καιχρειάζεται να βρούμε άλλες σχετικές με αυτήν αλληλουχίες.

λλ λΜε τον όρο σχετικές εννοούμε αλληλουχίες που είναι όμοιες προς την υπόεξέταση αλληλουχία και θεωρούμε ότι μοιράζονται τον ίδιο κοινό πρόγονο.

Ο ευκολότερος τρόπος για την εύρεση σχετικών αλληλουχιών είναι με τηχρήση ενός προγράμματος που ψάχνει μέσα στις βάσεις γενετικών δεδομένων.

Η μηχανή αναζήτησης που θα χρησιμοποιήσουμε για το σκοπό αυτό άζ BLAST (B i L l Ali t S h T l)ονομάζεται BLAST (Basic Local Alignment Search Tool).

Page 9: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Η οικογένεια BLAST περιλαμβάνει διάφορα προγράμματα μεταξύ των οποίων

Βάσεις δεδομένων

είναι τα:

1) BLASTN, που συγκρίνει νουκλεοτιδικές αλληλουχίες

2) BLASTP, που συγκρίνει πρωτεϊνικές αλληλουχίες

Page 10: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

BLASTN

Page 11: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Αποτέλεσμα έρευνας για μια αλληλουχίαBLASTN

Page 12: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Οι περισσότεροι χρήστες του BLAST είναι γνώστες της

BLASTN

Οι περισσότεροι χρήστες του BLAST είναι γνώστες τηςαποκαλούμενης «παραδοσιακής» αναφοράς BLAST. Η αναφοράαυτή αποτελείται από 3 κύριες ενότητες:(1) Η πρώτη (κορυφή σελίδας), η οποία περιέχει πληροφορίες για

την υποβαλλόμενη αλληλουχία, περιλαμβάνει τη βάσηδεδομένων που ελέχθηκε (Εικ. 1) και μια γραφική απεικόνισημ χ η ( ) μ γρ φ ή ητων αποτελεσμάτων (Εικ. 2)

1 21 2

Page 13: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Τύπος προγράμματος και έκδοση

Το άρθρο που περιγράφει τον BLAST

Page 14: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

H κόκκινη γραμμή αντιπροσωπεύει την υποβαλλόμενηαλληλουχία. Οι αλληλουχίες της βάσης δεδομένωνεμφανίζονται ευθυγραμμισμένες ως προς αυτήν Απόεμφανίζονται ευθυγραμμισμένες ως προς αυτήν. Απόαυτές, οι πιο όμοιες εμφανίζονται πιο κοντά στηνυποβαλλόμενη.

Page 15: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Οι 3 πρώτες έχουν υψηλό score ομοιότητας ό(κόκκινες).

Page 16: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Οι επόμενες 12 έχουν μικρότερο score (μωβ) και οι οποίεςΟι επόμενες 12 έχουν μικρότερο score (μωβ) και οι οποίεςευθυγραμμίζονται με 2 περιοχές της υποβαλλόμενης, από τηθέση 3–60 και από τη θέση 220–500. Οι διαγραμμισμένες

έ δ ύ ό δύ έ ί ίδπεριοχές υποδεικνύουν ότι οι δύο περιοχές είναι της ίδιαςπρωτεΐνης, αλλά χωρίς ομοιότητα.

Page 17: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Οι υπόλοιπες γραμμές (πράσινες, μαύρες), υποδεικνύουν πολύ( )μικρό score (ομοιότητα).

Τοποθετώντας το κέρσορα πάνω σε κάθε γραμμή θα εμφανίζεται ηπρόταση καθορισμού για τη συγκεκριμένη αλληλουχία στορ η ρ μ γ η γ ρ μ η η χπαράθυρο πάνω από το γράφημα.

Page 18: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

2. Η δεύτερη ενότητα περιλαμβάνει σε μία σειρά την περιγραφήBLASTN

για κάθε αλληλουχία που ταιριάζει με την υποβαλλόμενηαλληλουχία.

Page 19: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Κάθε γραμμή αποτελείται από 4 πεδία:

(α) Ο αριθμός gi, το όνομα της βάσης, ο σχετικός αριθμός εισόδου (Accessionnumber), και το όνομα της αλληλουχίας, τα οποία διαχωρίζονται από κάθετεςγραμμές,

(β) σύντομη περιγραφή της αλληλουχίας (συνήθως έχει στοιχεία για τονοργανισμό από τον οποίο προέρχεται η αλληλουχία, τον τύπο της αλληλουχίας(π χ mRNA ή DNA) τη λειτουργία της κ α(π.χ. mRNA ή DNA), τη λειτουργία της κ.α.,

(γ) το score της ευθυγράμμισης σε bits. Όσο πιο υψηλό είναι το score τόσο πιοψηλά στη λίστα είναι η αλληλουχία καιψη η η η χ

(δ) το E-value, που δίνει μια εκτίμηση της στατιστικής σημαντικότητας τουαποτελέσματος.

Page 20: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Η πρώτη γραμμή του αποτελέσματος μας λέει ότι(α) ο αριθμός gi είναι 116365, η βάση δεδομένων είναι η sp (SWISS-PROT,βάση για πρωτεΐνες με υψηλή ακρίβεια), ο αριθμός εισόδου είναι P26374, τοόνομα του τόπου RAE2_HUMAN, η γραμμή περιγραφής είναι Rab proteins, τοscore είναι 1216 και το E-value είναι 0.0. Οι πρώτες αλληλουχίες έχουν πολύ

λό E l ( 1) ί ί ΐ RAB ί λ ί GDP Οχαμηλό E-values (<1) και είναι είτε πρωτεΐνες RAB είτε αναστολείς GDP. Οιυπόλοιπες με μεγαλύτερο E-values, 0.5 και άνω, υποδεικνύουν ότι μπορεί ναέχουν ταιριάξει τυχαία.

Page 21: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

3. Η τρίτη ενότητα περιλαμβάνει τις ευθυγραμμίσεις για κάθε

BLASTN

3. Η τρίτη ενότητα περιλαμβάνει τις ευθυγραμμίσεις για κάθεαλληλουχία της βάσης δεδομένων με την υποβαλλόμενηαλληλουχία.

Page 22: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Η ευθυγράμμιση έπεται της γραμμής που περιγράφει τηναλληλουχία.η χ

Ακολουθεί το bit score (the raw score is in parentheses) καιτο E-value.Η επόμενη σειρά περιέχει πληροφορίες σχετικά με τονΗ επόμενη σειρά περιέχει πληροφορίες σχετικά με τοναριθμό των στοιχείων (νουκλεοτίδια ή αμινοξέα) τηςστοίχισης (Identities) και, εάν υπάρχουν, ο αριθμός των

ώ ( ) ίκενών (gaps) στην στοίχιση.

Page 23: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Τέλος, εμφανίζεται η στοίχιση (alignment) με τηνυποβαλλόμενη αλληλουχία στην κορυφή και την αλληλουχίατης βάσης που ταιριάζει ως αντικείμενο (Sbjct) από κάτω. Οιαριθμοί δεξιά και αριστερά είναι οι αριθμοί των στοιχείων στηναλληλουχία (νουκλεοτίδια – αμινοξέα). Οι παύλεςα η ουχία (νου εοτίδια αμινοξέα). Οι παύ εςυποδεικνύουν προσθήκες ή ελλείψεις. Oι κάθετες γραμμέςμεταξύ των αλληλουχιών υποδεικνύουν ομοιότητα.

Page 24: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Ευθυγράμμιση αλληλουχιώνΕυθυγράμμιση αλληλουχιών

Page 25: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Ευθυγράμμιση αλληλουχιών

Στοίχιση αλληλουχιών, ένας ορισμός

H δ θέ λ δί ή ξέ δύH διευθέτηση των νουκλεοτιδίων ή των αμινοξέων δύοή περισσότερων αλληλουχιών σε γραμμές (συνήθως)κάθετες συμπεριλαμβάνοντας ελλείψεις και προσθήκεςκάθετες, συμπεριλαμβάνοντας ελλείψεις και προσθήκεςόπου είναι απαραίτητο έτσι ώστε όλες οι θέσεις ναθεωρούνται ομόλογες.ρ μ γ ς

Page 26: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Ευθυγράμμιση αλληλουχιών

H διευθέτηση δύο ή περισσότερων αλληλουχιών (νουκλεοτιδικών ήH διευθέτηση δύο ή περισσότερων αλληλουχιών (νουκλεοτιδικών ήπρωτεϊνικών) σε ένα πλέγμα (μήτρα)

Στοιχεία (νουκλεοτίδια, αμινοξέα) της ίδιας σειράς προέρχονται από το ίδιοχ ( , μ ξ ) ης ς ρ ς ρ ρχβιολογικό μακρομόριο (πρωτεΐνη ή νουκλεϊκό οξύ)Τα στοιχεία διευθετούνται με τη σειρά που εμφανίζονται στο μακρομόριο

Από το Ν στο C άκρο στις πρωτεΐνεςΑπό το 5’ στο 3’ στα νουκλεϊκά οξέα

Page 27: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Στοίχιση αλληλουχιών ανά ζεύγηΣτοίχιση αλληλουχιών ανά ζεύγη

Pairwise Alignment: Στοίχιση 2 αλληλουχιών

Page 28: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Στοίχιση πολλαπλών αλληλουχιών

Multiple Sequence Alignment (MSA): Στοίχιση 3+αλληλουχιώναλληλουχιών

Page 29: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Στοίχιση πολλαπλών αλληλουχιώνΣτοίχιση πολλαπλών αλληλουχιών

MSAs είναι ουσιαστικά ένα σύνολο από pairwise alignments

Σε ένα MSA των nαλληλουχιών γίνονται

n(n-1)/2

pairwise alignemnts

Page 30: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Ευθυγράμμιση αλληλουχιών

Κάθ λί λ βά έ ό ί [ ί έ ί ί έ όΚάθε κελί περιλαμβάνει ένα μόνο στοιχείο [είτε ένα στοιχείο είτε ένα κενό(gap)]

Τα στοιχεία της ίδιας στήλης είναιείτε δομικά ισοδύναμαείτε εξελικτικά ισοδύναμα (ομόλογα)

Κελί

Page 31: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Δομική ΙσοδυναμίαΔομική Ισοδυναμία

http://cl.sdsc.edu/ce/ce_align.html4HHB:A - HEMOGLOBIN (DEOXY)4HHB:B - HEMOGLOBIN (DEOXY)

Βακτηριακές τοξίνες και

Page 32: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

http://cl.sdsc.edu/ce/ce_align.html4HHB A HEMOGLOBIN (DEOXY)4HHB:A - HEMOGLOBIN (DEOXY)4HHB:B - HEMOGLOBIN (DEOXY)

Βακτηριακές τοξίνες και

Page 33: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

http://cl.sdsc.edu/ce/ce_align.html4HHB A HEMOGLOBIN (DEOXY)4HHB:A - HEMOGLOBIN (DEOXY)4HHB:B - HEMOGLOBIN (DEOXY)

Βακτηριακές τοξίνες και

Page 34: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Ευθυγράμμιση αλληλουχιώνΕξελικτική ισοδυναμία = ομολογίαΑ ό ίδ ήλ ί άθ ί θ έ ζ θ ίΑναφερόμενοι στην ίδια στήλη, η ιστορία κάθε στοιχείου θα πρέπει να αναζητηθείστο αντίστοιχο στοιχείο της προγονικής αλληλουχίας, όπου κάθε αλλαγή οφείλεταισε σημειακές αλλαγέςσε σημειακές αλλαγές

ΥποκατάστασηΠρογονική λλ λ ί

AGWYTIAGWYTI

AGWYTIAGWYTI AGWAGWWWTITI AGWYTIAGWYTI AGWYTIAGWYTIΥ-Wαλληλουχία

Δημίουργία 2 αντίγραφων

AGWYTIAGWYTI AGWYTIAGWYTI AAAAWYTIWYTI AAAAQQQQQQWYTIWYTIΥποκατάσταση

G-ΑΠροσθήκη

PPP

AGWYTIAGWYTI AGWAGWWWTITI AGWYTIAGWYTI AGAG------WYTIWYTI

Ευθυγράμμιση 1 2 3 4

AGWYTIAGWYTI AGWYTIAGWYTI AAAAWYTIWYTI AAAAQQQQQQWYTIWYTI

Page 35: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Ευθυγράμμιση αλληλουχιώνΠαράδειγμα

Ποιο από τα 3 αποτελέσματα ευθυγράμμισης είναι το σωστό;

Page 36: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Ευθυγράμμιση αλληλουχιών

Ανάλυση με διαφορετικά προγράμματαΑνάλυση με διαφορετικά προγράμματα

Όλ ί λάθοςΤα διαφορετικά προγράμματα δίνουν διαφορετικά αποτελέσματα!

Όλα είναι λάθος……επειδή τα μοντέλα εξελικτικών διαδικασιών που χρησιμοποιούν είναι πολύδιαφορετικά από αυτό που διαφοροποίησε τις αλληλουχίες στο συγκεκριμένοπαράδειγμα

Page 37: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Quiz: O αριθμός των προσθηκών

Π ί λά θ ό θή ύΠοιος είναι ο ελάχιστος αριθμός προσθήκων που απαιτούνται για την παραπάνω στοίχιση της αιμοσφαιρίνης;

Page 38: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Quiz: O αριθμός των προσθηκών

Π ί λά θ ό θ ώ ύ

Εάν όλες οι αλληλουχίες είχαν το ίδιο μήκος θα μπορούσαμε να εξηγήσουμε

Ποιος είναι ο ελάχιστος αριθμός προσθηκών που απαιτούνται για την παραπάνω στοίχιση της αιμοσφαιρίνης;

Εάν όλες οι αλληλουχίες είχαν το ίδιο μήκος, θα μπορούσαμε να εξηγήσουμε την ποικιλομορφία τους χωρίς καμία προσθήκη ή έλλειψη!

Εάν η στοίχιση περιέχει αλληλουχίες που έχουν όλες μήκος χ ή ψ τότεΕάν η στοίχιση περιέχει αλληλουχίες που έχουν όλες μήκος χ ή ψ, τότε μπορούμε να εξηγήσουμε την ποικιλομορφία τους με μία προσθήκη ή με μία έλλειψη!

Page 39: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Quiz: O αριθμός των προσθηκών

Π ί λά θ ό θ ώ ύ

Μπορούμε ΠΑΝΤΑ να εξηγούμε την παρατηρούμενη ποικιλομορφία στο

Ποιος είναι ο ελάχιστος αριθμός προσθηκών που απαιτούνται για την παραπάνω στοίχιση της αιμοσφαιρίνης;

Μπορούμε ΠΑΝΤΑ να εξηγούμε την παρατηρούμενη ποικιλομορφία στο μήκος των αλληλουχιών με:

0 ελλείψεις (η ποικιλομορφία στο μήκος οφείλεται σε προσθήκη)0 προσθήκες (η ποικιλομορφία στο μήκος οφείλεται σε έλλειψη)0 προσθήκες (η ποικιλομορφία στο μήκος οφείλεται σε έλλειψη)συνδυασμός ελλείψεων και προσθηκών

Page 40: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Quiz: O αριθμός των προσθηκών

Π ί λά θ ό θή ύΠοιος είναι ο ελάχιστος αριθμός προσθήκων που απαιτούνται για την παραπάνω στοίχιση της αιμοσφαιρίνης;

Page 41: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Ευθυγράμμιση αλληλουχιώνΔιαθέσιμα προγράμματα για pairwise alignment

Page 42: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Διαθέσιμα προγράμματα για mutliple alignment

Page 43: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Ευθυγράμμιση αλληλουχιών

Ένα ζεύγος αλληλουχιών μπορεί να ευθυγραμμιστεί γράφοντας την μίααλληλουχία κάτω από την άλλη με τέτοιο τρόπο ώστε να μεγιστοποιηθεί οαριθμός των νουκλεοτιδίων που ταιριάζουν βάζοντας κενά (gaps) στην μια ήαριθμός των νουκλεοτιδίων που ταιριάζουν, βάζοντας κενά (gaps) στην μια ήστην άλλη αλληλουχία όταν απαιτείται.

AF486227 TACGAAAACACCACCCAATCCTAAGAAAF486227 TACGAAAACACCACCCAATCCTAAGAAAF486228 TACGAAAACACGACCCAATCCTAAAAAAF486223 TACGAAAACACCACCCTATCCTAAAAA

Η ευθυγράμμιση γίνεται συνήθως με ειδικά υπολογιστικά πακέτα, που χρησιμοποιούν συγκεκριμένους αλγόριθμους. Οι περισσότεροι αλγόριθμοι αρχίζουν συγκρίνοντας την ομοιότητα των αλληλουχιών ανά ζεύγη, και ευθυγραμμίζοντας πρώτα τις δύο αλληλουχίες με τη μεγαλύτερη ομοιότητα. Οι άλλ λλ λ ί βά ά ό ίθ δ άάλλες αλληλουχίες, βάσει της σειράς ομοιότητας, προστίθενται σταδιακά.

Page 44: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Ευθυγράμμιση αλληλουχιών

Όταν σε μια ομάδα αλληλουχιών έχουν προστεθεί κάποια κενά, τότε το τελικόalignment συχνά βελτιώνεται από τον ίδιο τον ερευνητή με manual editing. Ηαπόκτηση μιας καλής ευθυγράμμισης είναι ίσως το πιο σημαντικό βήμα ώστεαπόκτηση μιας καλής ευθυγράμμισης είναι ίσως το πιο σημαντικό βήμα ώστενα εκτιμήσουμε ένα σωστό φυλογενετικό δέντρο.

AF486227 TACGAA--AACACCACC---CAATCCTAAGAA86 CG C CC CC C CC GAF486228 TACGAA--AACACGACCGGGCAATCCTAAAAAAF486223 TACGAATTAACACCACCGGGCTATCCTAAAAA

Είναι αναγκαίο να ορίσουμε τον αριθμό των gaps ώστε το τελικό αποτέλεσμα ναέχει βιολογική υπόσταση.

Για το λόγο αυτό χρησιμοποιείται ένα σύστημα σκοραρίσματος όπου ταταιριάσματα παίρνουν ένα θετικό βαθμό και τα κενά ένα αρνητικό, που είναιγνωστό ως gap penalty.

Page 45: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Η ευθυγράμμιση δύο αλληλουχιών δεν είναι δύσκολη υπόθεση και υπάρχουν

Ευθυγράμμιση αλληλουχιών

Η ευθυγράμμιση δύο αλληλουχιών δεν είναι δύσκολη υπόθεση και υπάρχουνπολυάριθμα προγράμματα για το σκοπό αυτό.

ΌΌμως…η ευθυγράμμιση πολλών αλληλουχιών είναι αρκετά πολύπλοκη υπόθεση καιδυστυχώς λίγα προγράμματα μπορούν να το πετύχουν.

ΠρόγραμμαClustalX είναι μια ανανεωμένη έκδοσηClustalX είναι μια ανανεωμένη έκδοση του ClustalW.

Για περισσότερες πληροφορίες υπάρχειΓια περισσότερες πληροφορίες υπάρχει on-line ClustalX help file στο δίκτυο:

www.biozentrum.unibas.ch/~biophit/clusptal/ClustalX_help.html

Page 46: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Δημιουργία αρχείο εισαγωγήςΕυθυγράμμιση αλληλουχιών

Το ClustalX, όπως και άλλα προγράμματα, απαιτούν τα δεδομένα (input file) ναείναι σε ειδική μορφή ώστε να μπορεί να αναγνωριστεί από το πρόγραμμα (i.e.,F f )Fasta format).

Το input file περιέχει όλες τιςαλληλουχίες που θέλουμε νααλληλουχίες που θέλουμε ναευθυγραμμίσουμε.

Το ClustalX αναγνωρίζειΤο ClustalX αναγνωρίζειδιάφορα formats για τιςαλληλουχίες, αλλά εμείς θαχρησιμοποιήσουμε το FASTA.χρη μ ή μ

Page 47: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

1ο βήμα: Εισαγωγή των δεδομένων στο ClustalX

Ευθυγράμμιση αλληλουχιών

1ο βήμα: Εισαγωγή των δεδομένων στο ClustalX

Page 48: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Ευθυγράμμιση αλληλουχιών

Page 49: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

2ο βή Κ θ ό έ θ ά

Ευθυγράμμιση αλληλουχιών

2ο βήμα: Καθορισμός των παραμέτρων ευθυγράμμισης

Page 50: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

3ο βήμα: Καθορισμός μορφής αποτελεσμάτων

Ευθυγράμμιση αλληλουχιών

Page 51: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Τ Cl t lX ά θ ά 3 άδ

4ο Πραγματοποίηση ευθυγράμμισης Ευθυγράμμιση αλληλουχιών

Το ClustalX παράγει την ευθυγράμμιση σε 3 στάδια:

1) Ευθυγραμμίζει κάθε αλληλουχία με κάθε μία από τις υπόλοιπες σε μια σειράευθυγραμμίσεων ανά ζεύγηευθυγραμμίσεων ανά ζεύγη2) Χρησιμοποιεί αυτό το σύνολο των ανά ζεύγη ευθυγραμμίσεων και δημιουργείένα δέντρο οδηγό3) Χρησιμοποιεί το δέντρο οδηγό ώστε να παράγει την ευθυγράμμιση όλων των3) Χρησιμοποιεί το δέντρο οδηγό ώστε να παράγει την ευθυγράμμιση όλων τωναλληλουχιών (multiple alignments)

Page 52: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Φυλογενετική ανάλυση

Μετατροπή του αρχείου της ευθυγράμμισης σε format που ανοίγει τοπρόγραμμα MEGA

Page 53: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Φυλογενετική ανάλυση

Page 54: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Φυλογενετική ανάλυση

Page 55: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Φυλογενετική ανάλυση (MS Windows Version)

Υπάρχουν 4 κύριες κατηγορίες μεθόδων

1) Μέθοδοι Αποστάσεων (Distance methods: Neighbor-Joining),

2) Μέγιστης Φειδωλότητας (Maximum parsimony MP)2) Μέγιστης Φειδωλότητας (Maximum parsimony, MP),

3) Μέγιστης Πιθανότητας (Maximum likelihood, ML) και

4) Μπεϋζιανή Συμπερασματολογία, (Bayesian inference, BI)

Καμία μέθοδος δεν είναι η καλύτερη για όλες τις περιπτώσεις. Η μέθοδος που θα χρησιμοποιήσουμε εξαρτάται από το τι θέλουμε να μ ς χρη μ ή μ ξ ρ μμάθουμε και από το μέγεθος και την πολυπλοκότητα των δεδομένων.

Page 56: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Φυλογενετική ανάλυση

Τα προγράμματα που θα χρησιμοποιήσουμε είναι:

1) MEGA: Molecular Evolutionary Genetics Analysis

2) PAUP: Phylogenetic Analysis Using Parsimony (*and other methods)

(δεδομένα DNA και πρωτεΐνες).3) Modeltest: εύρεση του κατάλληλου μοντέλου4) Mr Bayes) y5) TreeView

Page 57: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Εκτίμηση γενετικών αποστάσεωνΕκτίμηση γενετικών αποστάσεων

Το ρώ ο βή α ην ανάλυ η ων ευθυγρα ι ένων αλληλουχιών είναι ηΤο πρώτο βήμα στην ανάλυση των ευθυγραμμισμένων αλληλουχιών είναι η εκτίμηση της γενετικής ή εξελικτικής απόστασης μεταξύ των αλληλουχιών

Είναι ένα μέτρο του πόσο διαφορετικές είναι οι αλληλουχίες και

εκφράζει τον αριθμό των εξελικτικών αλλαγών που έχουνεκφράζει τον αριθμό των εξελικτικών αλλαγών που έχουν συμβεί από τη στιγμή της απόκλισης τους

Η απλούστερη μέτρηση της εξελικτικής απόστασης είναι η απόσταση p

όπου nd ο αριθμός των παρατηρούμενων νουκλεοτιδικών διαφορών και n ο συνολικός αριθμός

λ δί ίτων νουκλεοτιδίων που συγκρίνονται.

Page 58: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

ACTGAA

Εκτίμηση γενετικών Εκτίμηση γενετικών αποστάσεωναποστάσεων

Ωστόσο αυτή η μέτρηση υστερεί σε

ACGTAACή η μ ρη η ρ

πολλά σημεία, π.χ. εάν ο ρυθμόςυποκατάστασης είναι υψηλός,

ί έ ί

CGC

ACT

AC---A T

Απλή Υποκατάσταση

μπορεί να έχουμε υποεκτίμηση τηςπραγματικής γενετικής απόστασης(ομοπλασία: back mutation, parallel

GA---C---T---GAC---GGT---AAA---C---TC

GA A

G

A

C

∆ιαδοχικές Υποκαταστάσεις

C---A

T---A

A---T

Τυχαίες Υποκαταστάσεις

Παράλληλες Υποκαταστάσεις

Συγκλίνουσες Υποκαταστάσεις

mutation, multiple mutation).CGC

CGC---T---C Ανάστροφες Υποκαταστάσεις

Αλληλουχία 1 Αλληλουχία 2

ACTGGAGG

AATGAAAGG

AATCGC

GAATCGC

Page 59: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Εκτίμηση γενετικών αποστάσεωνΕκτίμηση γενετικών αποστάσεων

A T T G C G CC

A T T G C G C

T

CT

A

First:

Second: A T T G C G CC TA

esD

iffer

ence

Substitutions

Page 60: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Εφόσον υπάρχουν 4 τύποι νουκλεοτιδίων (Α Τ C και G) σε κάθε αλληλουχία

Εκτίμηση γενετικών αποστάσεωνΕκτίμηση γενετικών αποστάσεων

Εφόσον υπάρχουν 4 τύποι νουκλεοτιδίων (Α, Τ, C και G) σε κάθε αλληλουχία, υπάρχουν 16 διαφορετικοί τύποι νουκλεοτιδικών ζευγών μεταξύ δύο αλληλουχιών Χ και Ψ.

Νουκλεοτιδικό ζεύγοςΌμοια ΑΑ TT CC GG Total

Α G

F O1 O2 O3 O4 O

Ts AG GA TC CT Total ΜετάπτωσηΜετ τ ή

C T

F P1 P2 P3 P4 P

Tv AC AT GT GC Total Α, πουρίνεςΤ υ μ δί ς

G C

Μεταστροφή

F Q1 Q2 Q3 Q4

CA CG TA TG

Τ, , πυριμιδίνεςC

R = P/Q

F Q5 Q6 Q7 Q8 Q 0.5-2 στο nDNAεως 15mtDNA

Page 61: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Εκτίμηση γενετικών αποστάσεωνΕκτίμηση γενετικών αποστάσεων

Δεδομένου ότι η απόσταση p μπορεί να υποεκτιμήσει την πραγματική ποσότητατης εξελικτικής αλλαγής, έχει γίνει μια μεγάλη προσπάθεια ανεύρεσης μοντέλωνπου μετατρέπουν την παρατηρούμενη απόσταση σε πραγματική εξελικτικήμ ρ η ρ ηρ μ η η ρ γμ ή ξ ήαπόσταση.

Τα μοντέλα αυτά ονομάζονται μοντέλα εξέλιξης ή μέθοδοι διόρθωσης αποστάσεωνή μοντέλα νουκλεοτιδικής υποκατάστασης.

Το πρώτο μοντέλο που αναπτύχθηκε είναι των Jukes and Cantor (1969)(JC69) ί θ ί ό όλ λλ έ ξύ λ δί(JC69), το οποίο θεωρεί ότι όλες οι αλλαγές μεταξύ των νουκλεοτιδίωνμπορεί να συμβούν με ίση πιθανότητα

d = -3/4 ln (1 – 4/3p)

Page 62: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

1. Η απλούστερη περίπτωση: Jukes-Cantor modelίση πιθανότητα αλλαγής κάθε νουκλεοτιδίου-- ίση πιθανότητα αλλαγής κάθε νουκλεοτιδίου

GA α

α α

TC

α α

TCα

Page 63: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

2. Άλλα μοντέλα λαμβάνουν υπόψη τους τις συχνότητες μεταπτώσεων και μεταστροφώνμεταπτώσεων και μεταστροφών

Μετάπτωση(Transition): από R σε R

Y σε YGA

β

Y σε Y

Μεταστροφή(Transversion): από R σε Yα α ( )

Y σε R

όπου R = A,GTCY = C,Tβ

Page 64: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Tamura Nei’s Model

Εκτίμηση γενετικών αποστάσεωνΕκτίμηση γενετικών αποστάσεων

⎟⎟⎠

⎞⎜⎜⎝

⎛−−⎟⎟

⎞⎜⎜⎝

⎛−=

RGA

R

R

GA

gQ

ggPg

gggd e

221log2 1

Tamura-Nei s Model

⎟⎞

⎜⎛

⎟⎞

⎜⎛

⎟⎟⎠

⎞⎜⎜⎝

⎛−−⎟⎟

⎞⎜⎜⎝

⎛−

RCTYGA

YCT

Y

Y

CT

Qgggggg

gQ

ggPg

ggg

e

1l2

221log2 2

⎟⎟⎟⎟

⎠⎜⎜⎜⎜

−⎟⎟⎠

⎞⎜⎜⎝

⎛−−−

YRY

RCT

R

YGAYR

ggQ

gggg

gggggg e

21log2

General Reversible Model⎞⎛ ++− Τ)( ΤGCGC μcπμbπμαπcbαμ πππ

⎟⎟⎟⎟⎟⎞

⎜⎜⎜⎜⎜⎛

++−++−

++−

Τ

Τ

)()(

)(

ΤCACA

ΤGGAA

ΤGCGC

μfπfjh μμjπμhπμeπμdπedg μμgπμcπμbπμαπcbα μ

Qπππ

ππππππ

⎟⎟⎠

⎜⎜⎝ ++− )( GCAGCA lki μμlπμkπμiπ πππ

Page 65: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Εκτίμηση γενετικών αποστάσεωνΕκτίμηση γενετικών αποστάσεων

Page 66: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

MEGA 4Φυλογενετική ανάλυση

Page 67: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Φυλογενετική ανάλυση

Page 68: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

ΜΕΘΟΔΟΣ ΣΥΝΔΕΣΗΣ ΓΕΙΤΟΝΩΝ (ΜΕΘΟΔΟΣ ΣΥΝΔΕΣΗΣ ΓΕΙΤΟΝΩΝ (NEIGHBOR JOINING)NEIGHBOR JOINING)

ΜΕΘΟΔΟΙ ΠΙΝΑΚΩΝ ΑΠΟΣΤΑΣΕΩΝΜΕΘΟΔΟΙ ΠΙΝΑΚΩΝ ΑΠΟΣΤΑΣΕΩΝ(( ))

To δένδρο που παράγεται είναι άρριζο και συνήθως απαιτεί μια εξωομάδα για να βρεθεί η ρίζα.

Η αρχή της μεθόδου στηρίζεται στην εύρεση των «γειτόνων» διαδοχικά ώστε να μειώνεται το συνολικό μήκος του δέντρου

Παράδειγμα: Έστω ο πίνακας αποστάσεων 5 OTUs (A–E)

OTUs A B C D E

A --- 0.08 0.19 0.70 0.65

B 0 17 0 75 0 70B --- 0.17 0.75 0.70

C --- 0.80 0.60

D --- 0 12D --- 0.12

E ---

Page 69: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Για κάθε OTU υπολογίζουμε τα μεγέθη

r : το άθροισμα των αποστάσεων της OTU i από όλες τις άλλες καιri: το άθροισμα των αποστάσεων της OTU i από όλες τις άλλες και

ri/(n-2) όπου n ο αριθμός των OTUs

OTUs A B C D E r r/n-2

A --- 0.08 0.19 0.70 0.65 1.62 0.54

B --- 0.17 0.75 0.70 1.70 0.57

C --- 0.80 0.60 1.76 0.59

D --- 0.12 2.37 0.79

E --- 2.07 0.69

Εν συνεχεία υπολογίζουμε τις τροποποιημένες αποστάσεις (Dij) ως εξής:

D d r /(n 2) r /(n 2) π χ D 0 08 0 54 0 57 1 03Dij = dij - ri/(n-2) - rj/(n-2), π.χ. DAB = 0.08-0.54-0.57=-1.03,

όποτε έχουμε

Page 70: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

OTUs A B C D E r r/n-2

A --- 0.08 0.19 0.70 0.65 1.62 0.540.08 0. 9 0.70 0.65 .6 0.5

B -1,03 --- 0.17 0.75 0.70 1.70 0.57

C -0,94 -0,99 --- 0.80 0.60 1.76 0.59

D -0,63 -0,61 -0,58 --- 0.12 2.37 0.79

E -0,58 -0,56 -0,68 -1,36 --- 2.07 0.69

Η μικρότερη (πιο αρνητική) απόσταση υποδεικνύει τις δύο OTUs που ομαδοποιούνται πρώτες (D και Ε στο παράδειγμα), μέσω ενός

Η απόσταση των δύο OTUs από τον κόμβο υπολογίζεται ως εξής:

εσωτερικού «κόμβου 1» .

Η απόσταση των δύο OTUs από τον κόμβο υπολογίζεται ως εξής:di-node = dij/2 + [ri/(n-2) - rj/(n-2)]/2dj-node = dij/2 + [rj/(n-2) – ri/(n-2)]/2 δηλαδή

Απόσταση D – κόμβος 1 = 0,12/2 + (0,79-0,69)/2 = 0,11Απόσταση Ε – κόμβος 1 = 0,12/2 + (0,69-0,79)/2 = 0,01

Page 71: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Οπότε προκύπτειE0.01

D0.11

Καταρτίζεται νέος πίνακας αποστάσεων στον οποίο τα OTUs D και EΚαταρτίζεται νέος πίνακας αποστάσεων στον οποίο τα OTUs D και Eεμφανίζονται ως ένα σύνθετο OΤU, κόμβος-1 και ακολουθείται η ίδια διαδικασία. Οι νέες αποστάσεις των OTUs από τον κόμβο 1 υπολογίζονται από τη σχέση:

Dk-node(ij)=(dik+djk-dij)/2Π.χ. η απόσταση Α - κόμβος 1χ η η μβ ς

DA1=(0,70+0,65-0,12)/2=0,615OTUs A B C D E r r/n-2

A --- 0.08 0.19 0.70 0.65 1.62 0.54

B -1,03 --- 0.17 0.75 0.70 1.70 0.57

C -0,94 -0,99 --- 0.80 0.60 1.76 0.59

D -0,63 -0,61 -0,58 --- 0.12 2.37 0.79

E -0,58 -0,56 -0,68 -1,36 --- 2.07 0.69

Page 72: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Οπότε έχουμε

OTUs A B C Κόμβος 1 r r/n-2

A --- 0.08 0.19 0.615 0,885 0,4425

B 0 82 0 17 0 665 0 915 0 4575 B -0,82 --- 0.17 0.665 0,915 0,4575

C -0,7525 -0,7875 --- 0.64 1,00 0,50

Κόμβος 1 0 7875 0 7525 0 82 1 92 0 96 Κόμβος 1 -0,7875 -0,7525 -0,82 --- 1,92 0,96

Η μικρότερη αρνητική απόσταση είναι μεταξύ του C και του κόμβου 1.

Απόσταση C – κόμβος 2 = 0,64/2 + (0,50-0,96)/2 = 0,09

Απόσταση κόμβου 1 – κόμβος 2 = 0,64/2 + (0,96-0,50)/2 = 0,55

Page 73: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Οπότε έχουμε

C EC

2 1

0 11

0.01

0.55

0.09

D0.11

Καταρτίζεται νέος πίνακας αποστάσεων στον οποίο τα Καταρτίζεται νέος πίνακας αποστάσεων στον οποίο τα OTUs COTUs C καικαι κόμβος 1 κόμβος 1 ρ ζ ς ςρ ζ ς ς μβ ςμβ ςεμφανίζονται ως ένα σύνθετο εμφανίζονται ως ένα σύνθετο OOΤΤUU,, κόμβοςκόμβος--22 και ακολουθείται η ίδια και ακολουθείται η ίδια διαδικασίαδιαδικασία ..

OTUs A B Κόμ- 2 r r/n-2

A --- 0.08 0.0825 0,1625 0.1625

B -0,26 --- 0.0975 0,1775 0,1775

Κόμ-2 -0,26 -0,26 ----- 0.18 0,18

Page 74: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Επιλέγουμε το ζεύγος Α - Κόμβος 2.

Απόσταση Α – κόμβος 3 = 0,0825/2 + (0,1625-0,18)/2 = 0,0325

Απόσταση κόμβου 2 – κόμβος 3 = 0,0825/2 + (0,18-0,1625)/2 = 0,05

Οπότε έχουμε

ECA23

1

0.01

0 55

0.090.05

0.03

D

0.110.55

Page 75: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Τέλος φτιάχνεται ο νέος πίνακας αποστάσεων μεταξύ του τελευταίου taxon και του κόμβου 3.μβ

OTUs B Κόμβος 3

B --- 0,0475B 0,0475

Κόμβος 3 -----

ECA23 0.010.09

0 03

B

231

0.110.550.05

0.030.0475

D

0.11

Page 76: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Ανάλυση Σύνδεσης Γειτόνων στο MEGA

Page 77: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Ανάλυση Σύνδεσης Γειτόνων στο MEGA

Page 78: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Ανάλυση Σύνδεσης Γειτόνων στο MEGA

Page 79: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Ανάλυση Σύνδεσης Γειτόνων στο MEGA

Page 80: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Ανάλυση Σύνδεσης Γειτόνων στο MEGA

Page 81: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Μήκη Κλάδων – Branch lengths

Page 82: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Δέντρα χωρίς κλίμακα

Τα μήκη των κλάδων δεν παρέχουν καμία πληροφορία

Τα μήκη των κλάδων συνήθως επιλέγεται να ευθυγραμμίζονται με τα ονόματα των ΟΤUs

Page 83: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Δέντρα με κλίμακα

Τα μήκη των κλάδων αντιπροσωπεύουν ένα μέτρο των διαφορών/απόστασης τωνδιαφορών/απόστασης των OTUs που βρίσκονται στις άκρες των κλάδων

Page 84: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Δέντρα με κλίμακα

Τα μήκη των κλάδων λ ύ δ ίαποτελούν δείκτη της

απόστασης των OTUs

Τα δέντρα θα πρέπει να παρουσιάζονται με κλίμακα (scale bar)κλίμακα (scale bar)

Page 85: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Δέντρα με κλίμακα

Τα μήκη των κλάδων αποτελούν δείκτη της απόστασης των OTUs

Τα δέντρα θα πρέπει ναΤα δέντρα θα πρέπει να παρουσιάζονται με κλίμακα

Στα ορθογώνια δέντρα, οι ρ γ ρ ,γραμμές των κόμβων δεν είναι μήκη κλάδων. Το μήκος τους δεν υποδεικνύει απόσταση ΟΤUs.

Π.χ. η απόσταση μεταξύ των C και G είναι το άθροισμα της πράσινης και της γαλάζιας γραμμής, όχι και της κόκκινης.

Page 86: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Μετατροπή αρχείου σε nexus formatΦυλογενετική ανάλυση

Page 87: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Φυλογενετική ανάλυση

Page 88: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

ΜΕΘΟΔΟΣ ΜΕΓΙΣΤΗΣ ΦΕΙΔΩΛΟΤΗΤΑΣΜΕΘΟΔΟΣ ΜΕΓΙΣΤΗΣ ΦΕΙΔΩΛΟΤΗΤΑΣ

Η μέθοδος αυτή χρησιμοποιεί το κριτήριο της φειδωλότητας.

Αρχή: το καλύτερο δέντρο είναι αυτό που απαιτεί τον μικρότερο αριθμό εξελικτικών βημάτων για την εξήγηση των διαφορών μεταξύ των μελετούμενων taxa

Νουκλεοτιδικές ΘέσειςΜοναδικά νουκλεοτίδια

Αμετάβλητες Μεταβλητές

Πληροφοριακές θέσεις

Πληροφοριακή θέση: θέση που ευνοεί κάποιο δέντρο έναντι των υπολοίπων. Όταν υπάρχουν 2τουλάχιστον καταστάσεις χαρακτήρων κάθε μια από τις οποίες αντιπροσωπεύεται σε τουλάχιστον 2 από τα taxa.

Page 89: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Για παράδειγμα έστω 4 υποθετικές αλληλουχίες

Νουκλεοτιδικές θέσεις

Αλληλουχία 1 2 3 4 5 6 7 8 9

1 A A G A G T G C A

2 A G C C G T G C T

3 A G A T A T C C A3 A G A T A T C C A

4 A G A G A T C C T

1o Βήμα: Εντοπισμός Πληροφοριακών θέσεων

Θέσεις 1, 6, 8 = αμετάβλητες

Θέσεις 2, 3, 4, 5, 7 και 9 =μεταβλητές. Ποιες όμως είναι πληροφοριακές;

Page 90: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει
Page 91: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Νουκλεοτιδικές θέσειςς ς

Αλληλουχία 1 2 3 4 5 6 7 8 9

1 A A G A G T G C A

2 A G C C G T G C T

3 A G A T A T C C A

4 A G A G A T C C T

Page 92: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Νουκλεοτιδικές θέσεις

Αλληλουχία 1 2 3 4 5 6 7 8 9

1 A A G A G T G C A

2 A G C C G T G C T

3 A G A T A T C C A3 A G A T A T C C A

4 A G A G A T C C T

Page 93: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει
Page 94: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

2o Βήμα: Υπολογισμός των απαιτούμενων εξελικτικών αλλαγών για κάθε δένδροδένδρο

Για το δέντρο Ι τα εξελικτικά βήματα είναι 1+1+2

Για το δέντρο ΙΙ τα εξελικτικά βήματα είναι 2+2+1Για το δέντρο ΙΙ τα εξελικτικά βήματα είναι 2 2 1

Για το δέντρο ΙΙΙ τα εξελικτικά βήματα είναι 2+2+2

3o Βήμα: Άθροισμα του αριθμού των αλλαγών

Για το δέντρο Ι = 4

Για το δέντρο ΙΙ = 5

Για το δέντρο ΙΙΙ = 6

4o Βήμα: Επιλογή του πιο φειδωλού δέντρου

Δέντρο ΙΔέντρο Ι

Page 95: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Εύρεση των ιδεατών δέντρων

Αλγόριθμοι

Ακριβείς αλγόριθμοι Ευρετικοί αλγόριθμοι

Ακριβείς αλγόριθμοι

Exhaustive (<11 taxa)

Αποτίμηση όλων των δέντρων και εύρεση του πιο «καλού»

Branch and Bound (11<taxa<20)

Εγγυάται την εύρεση του καλύτερου δέντρου χωρίς να απαιτείται η αποτίμησηΕγγυάται την εύρεση του καλύτερου δέντρου, χωρίς να απαιτείται η αποτίμηση κάθε δέντρου

Page 96: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

1 2

A

Exhaustive search

3

A

A1

Κατασκευάζει ένα τυχαίο δέντρο με όλες τις αλληλουχίες.

B 1 2

B1

4 1 2

B2

4 1 2

B3

4

η χ ς

Αρχίζει από ένα δέντρο με 3 taxa.

C 1 12 2

3

C31-D35

C21-D25

4 45 5

3 3

To 4ο taxon προστίθεται με την προσθήκη ενός νέου

C11 C12

C21 D25

1 24 5 1 24 5 1 24 5

η ρ ή η ςκλάδου στο μέσο κάθε προϋπάρχοντος κλάδου.

C13 C14 C15

D151-D157

Εκτιμά το παραγόμενο δέντρο, βάσει κάποιου κριτηρίου (π χ μήκος)κριτηρίου (π.χ. μήκος).

Page 97: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Πιθανά δέντραΗ διακλαδωτική σειρά του δένδρου (έρριζου ή άρριζου) καλείται τοπολογία.

για έρριζα δένδρα (n≥2): για άρριζα δένδρα (n≥3):

ή ρ ρ ( ρρ ζ ή ρρ ζ ) γ

( )( )!22

!322

−=

nN nR( )

( )!32!52

3

−=

nN nU( )!22 2 −− nnR ( )!32 3 −− nnU

Number of Number of rooted trees Number of unrooted trees OTUs (n) (ΝR) (NU)

2345

1315

105

113155

678910…15

105904

10,395135,135

2,027,02534,459,425

…213 458 046 676 875

15105904

10,395135,135

2,027,025…

7 905 853 580 62515…20

213,458,046,676,875…

8,200,794,532,637,891,559,375

7,905,853,580,625…

221,643,095,476,699,771,875

Page 98: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Branch and Bound searchΓια 3 taxa (A, B & C) υπάρχει ένα πιθανό δέντρο (A1).

Ο αλγόριθμος ξεκινάει φτιάχνοντας Το τέταρτο taxon (D) μπορεί να προστεθεί (branch) ως νέος κλάδος σε κάθε έναν από τους 3 εσωτερικούς κόμβους, δημιουργώντας 3 πιθανά δέντρα (B1 B2 & B3)

Ο α γόριθμος ξε ινάει φτιάχνονταςένα δέντρο με όλα τα taxa, το οποίο δεν είναι απαραίτητα και το βέλτιστο και στη συνέχεια δέντρα (B1, B2, & B3).

Ελέγχουμε τα παραγόμενα δέντρα. Το Β2 δημιουργεί ένα νέο όριο (bound) με μήκος 838.

συναρμολογεί ένα δέντρο προσθέτοντας ένα taxon κάθε φορά.

ημ ργ ρ ( ) μ μή ςΤα Β1, Β3 έχουν μεγαλύτερο μήκος (από το αρχικό τυχαίο δέντρο, 964) και απορρίπτονται και αυτά και τα παράγωγα αυτών δέντρα.

Α1

Β3

Το 5ο taxon (Ε) προστίθεται σε κάθε ένα από τους 5 εσωτερικούς κόμβους του δέντρου Β2 Ελέγχουμε τα νέα δέντρα Τα Γ1 Γ2 Γ3

Β1 Β2

Β2. Ελέγχουμε τα νέα δέντρα. Τα Γ1, Γ2, Γ3 έχουν μεγαλύτερο μήκος από το αρχικό και απορρίπτονται. Το Γ4 έχει το ίδιο, ενώ το Γ5 μικρότερο δημιουργώντας ένα νέο όριο (bound), ώστε αν υπήρχε και 6ο taxon να ξεκινούσαμε από αυτό, δημιουργώντας κάθε φορά ένα νέο όριο.

Page 99: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Branch and Bound searchΣτο πρώτο βήμα αποκλείονται το το πρώτο βήμα απο είονται το1/3 των πιθανών δέντρων, στο δεύτερο το ½ των υπόλοιπων πιθανών δέντρων με αποτέλεσμα να είναι αναγκαίο να εκτιμηθεί το 1/6 των πιθανών δέντρων.

δ θΥπό ιδανικές συνθήκες μόνο ένα δέντρο θα παραμείνει σε κάθε βήμα.

Η μέθοδος είναι υπολογιστικά εφικτή για αναλύσεις μέχρι 20 taxaπου έχουν ~8 2*1021που έχουν 8.2 10

Figure modified from Krane & Raymer 2004

Page 100: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Heuristic search – Ευρετική μέθοδος (>20 taxa)

Όταν ο αριθμός των πιθανών δέντρων είναι μεγάλος, τότε η εκτίμηση κάθε δέντρου, χρησιμοποιώντας ακριβείς μεθόδους είναι πρακτικά αδύνατη.

Η ευρετική μέθοδος (heuristic search) είναι ουσιαστικά ένας αλγόριθμος ρ ή μ ς ( ) ς γ ρ μ ςαναρρίχησης λόφου (hill climbing), όπου επιλέγεται ένα αρχικό δέντρο και στη συνέχεια γίνονται αναδιευθετήσεις επιζητώντας τη βελτίωση του δέντρου, βάσει του δεδομένου κριτηρίου επιλογήςδεδομένου κριτηρίου επιλογής.

Page 101: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Υπάρχουν πολυάριθμοι ευρετικοί αλγόριθμοι όπως

Ευρετικοί αλγόριθμοι

1) Stepwise addition (προσομοιάζει την Branch and Bound)

Αρχίζει με ένα δέντρο 3 αλληλουχιών

Π θέ έΠροσθέτει ένα taxon

Εκτιμά όλα τα δέντρα

Επιλέγει το δέντρο με το καλύτεροΕπιλέγει το δέντρο με το καλύτερο

score και προσθέτει νέο taxon

Page 102: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Μειονέκτημα: εάν το καλύτερο δέντρο σε ένα επίπεδο είναι το Α, αλλά τελικά το

Ευρετικοί αλγόριθμοι

καλύτερο δέντρο με όλα τα taxa προέρχεται από το Β του ίδιου επιπέδου, τότε το

καλύτερο δέντρο δεν θα βρεθεί.

Η τεχνική stepwise θα σκαρφαλώσει στη κορυφή ενός λόφου, αλλά ο λόφος αυτός

δεν είναι ο ψηλότεροςδεν είναι ο ψηλότερος.

Page 103: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

2) Star Decomposition

Ευρετικοί αλγόριθμοι

2) Star Decomposition

O αλγόριθμος ξεκινάει με όλα τα taxa να συνδέονται σε δέντρο με μορφήνα συνδέονται σε δέντρο με μορφή άστρου (star topology, όλα τα taxa συνδέονται σε ένα εσωτερικό κόμβο).Στη συνέχεια εκτιμώνται όλα ταΣτη συνέχεια εκτιμώνται όλα τα δέντρα που δημιουργούνται με σύνδεση δύο ακραίων taxa (terminal nodes) σε μία ομάδα. Το δέντρο με τη ) μ μ ρ μ ηκαλύτερη τιμή (best score) διατηρείται για το επόμενο στάδιο. Σε κάθε βήμα, όταν δημιουργούμε μία νέα ομάδα, ο αριθμός των κλαδιών μειώνεται κατά ένα. Και αυτό συνεχίζεται μέχρι να έχουμε ένα διχοτομούμενο δέντρο.

Page 104: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Branch swapping (αναδιευθέτηση κλάδων)

Ευρετικοί αλγόριθμοι

Στοχεύει στη βελτίωση της αρχικής εκτίμησης πραγματοποιώντας προκαθορισμένες

διευθετήσεις στο δέντρο. Στην ουσία είναι τρόποι να «σπρώξεις» το δέντρο να

ξεκολλήσει από το τοπικό βέλτιστο και να οδηγηθεί στο συνολικό βέλτιστο.

Η μέθοδος αυτή περιλαμβάνει κόψιμο του δέντρου σε ένα ή περισσότερα σημεία

(subtrees) και συναρμολόγησή του με τέτοιο τρόπο ώστε να διαφέρει από το αρχικό

δέντρο.

Υ ά 3 ίδ ί δέ ( bt )Υπάρχουν 3 είδη μετακίνησης των υποδέντρων (subtrees)

NNI (nearest-neighbor interchange)

SPR (subtree pruning and regrafting)SPR (subtree pruning and regrafting)

TBR (tree bisection and recombination)

Page 105: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Branch swapping SPR TBR

Εσωτερικός

NNI

ρ ςκλάδος

Nearest Neighbor Interchange Sub-tree Pruning and Regrafting

Tree bisection and reconnection

Page 106: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Branch swapping

NNI

Εσωτερικός κλάδος

NNI

Εικόνα 1 Εικόνα 2 Εικόνα 3

Nearest Neighbor Interchange

Αρχικό δέντρο Ανταλλαγή 1 με 3

Ανταλλαγή 2 με 3

g g

Η απλούστερη μέθοδος, γνωστή ως ΝΝΙ, αλλάζει τη συνδεσιμότητα των 4 υποδέντρων του κύριου δέντρου. Κάθε εσωτερικός κλάδος ενός άριζου δέντρου (εικόνα 1) έχει 4 υποδέντρα που συνδέονται σε αυτόν (ένα υποδέντρο μπορεί να αποτελείται από 1 και μόνο κόμβο). Η ΝΝΙ αλλάζει τη θέση αυτών, παράγοντας νέα δέντρα. Υπάρχουν μόνο 2 αλλαγές που οδηγούν σε νέα δέντρα (εικόνες 2 και 3). Η διαδικασία συνεχίζει για κάθε εσωτερικό κλάδο έως ότου να μην γίνονται βελτιώσεις του αρχικού δέντρου βάσει του αρχικού κριτηρίου.

Ένα δέντρο με Ν>2 φύλλα (κόμβους) έχει Ν-3 εσωτερικούς κλάδους και έτσι η ΝΝΙ, που ελέγχει 2 δέντρα για κάθε εσωτερικό κλάδο, θα εξετάσει 2(Ν-3) νέα δέντρα.

Page 107: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Sub-tree Pruning and Regrafting («κλαδεύω και μπολιάζω»)

Εικόνα 1 Εικόνα 2 Εικόνα 3 Εικόνα 4 Εικόνα 5Εικόνα 1Αρχικό δέντρο

Εικόνα 2Μπόλιασμα του (1,2) στο κλαδί 6

Εικόνα 3Μπόλιασμα του (1,2) στο κλαδί 5

Εικόνα 4Μπόλιασμα του 3 στο κλαδί 4

Εικόνα 5Μπόλιασμα του (1,2) στο κλαδί 4

Η SSR είναι μια στρατηγική ελέγχου της τοπολογίας ενός δέντρου που προσπαθεί να βελτιώσει την αξία (πιθανότητα) ενός δέντρου μέσω της εξής διαδικασίας: 1. Επιλέγει το υποδέντρο του αρχικού δέντρου που θα κλαδέψει (pruning)1. Επιλέγει το υποδέντρο του αρχικού δέντρου που θα κλαδέψει (pruning)2. Αφαιρεί το υποδέντρο και το μπολιάζει σε άλλο σημείο του εναπομείναντος δέντρου,

δημιουργώντας ένα νέο δέντρο (π.χ. στην εικόνα 2 κλάδεμα του (1,2) και μπόλιασμα στο κλαδί που οδηγεί στο 6

3 δ δ ί ίζ άθ θ ό δέ άθ λ δί ί3. Η διαδικασία συνεχίζεται για κάθε πιθανό υποδέντρο και για κάθε κλαδί που μπορεί να το δεχτεί.

Page 108: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Tree bisection and reconnection (TBR) (Διχοτόμηση και επανασύνδεση)

Η μέθοδος Tree-Bisection-Reconnection (TBR) κόβει το δέντρο σε 2 κομμάτια (υποδέντρα) δέντρο σε 2 κομμάτια (υποδέντρα) και στη συνέχεια επανασυνδέει τα 2 υποδέντρα σε όλους τους πιθανούς κλάδους. Εάν βρεθεί ένα δέ ί λύ όδέντρο που είναι «καλύτερο» από το αρχικό, τότε αυτό διατηρείται και αρχίζει ένας νέος γύρος TBR. Όπως και στις ς ςπροηγούμενες περιπτώσεις δεν εγγυάται ότι θα βρει το βέλτιστο δέντρο, ωστόσο είναι πιο ισχυρή από τις SPR και NNI Α Αρχικό Δέντροαπό τις SPR και NNI. Α. Αρχικό Δέντρο

Β. Κόψιμο του κλάδου x και σύνδεση στον u.Άλλες πιθανές συνδέσεις: x στο z, x στο w, x στο vC. Κόψιμο του κλάδου y και σύνδεση του κλάδου r στον κλάδο v. Άλλες συνδέσεις: r στο w, r στο y΄, s στο v, s στο w, s στοy΄, y στο v, y στο w.

Page 109: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Η δ ί ό λ ύ δέ ί έ ό όβλ

Έλεγχος αξιοπιστίας

Η δημιουργία ενός φυλογενετικού δέντρου είναι ένα στατιστικό πρόβλημα και οκαθένας μπορεί να επιθυμήσει την εκτίμηση της αξιοπιστίας του.

Μετά τη δημιουργία ενός δέντρου μπορεί να αναδυθούν δύο ερωτήματα

1) Πό ξ ό ί δέ1) Πόσο αξιόπιστο είναι το δέντρο; και2) Είναι το δέντρο αυτό σημαντικά καλύτερο από κάποιο άλλο;

Η αξιοπιστία μετριέται ως η πιθανότητα τα μέλη ενός κλάδου να είναι πάντα μέλη αυτού του κλάδου.

b t t l iΟι ευρύτερα χρησιμοποιούμενες τεχνικές

για το σκοπό αυτό είναι οι

bootstrap analysis

j kk if l ijackknife analysis

Page 110: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Bootstrap analysisΈνας επιστήμονας που θέλει να ελέγξει την αξιοπιστία των αποτελεσμάτων του

Έλεγχος αξιοπιστίας

Ένας επιστήμονας που θέλει να ελέγξει την αξιοπιστία των αποτελεσμάτων τουεπαναλαμβάνει το πείραμα του με άλλα δεδομένα. Οι φυλογενετιστέςχρησιμοποιούν μια μέθοδο δειγματοληψίας που ονομάζεται bootstrapping η οποίαδημιουργεί ψεύτικα σύνολα δεδομένων μέσω των οποίων γίνεται εκτίμηση τηςαξιοπιστίας των δέντρων.

Page 111: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Η δ ί ό λ ύ δέ ί έ ό όβλ

Έλεγχος αξιοπιστίας

Η δημιουργία ενός φυλογενετικού δέντρου είναι ένα στατιστικό πρόβλημα και οκαθένας μπορεί να επιθυμήσει την εκτίμηση της αξιοπιστίας του.

Μετά τη δημιουργία ενός δέντρου μπορεί να αναδυθούν δύο ερωτήματα

1) Πό ξ ό ί δέ1) Πόσο αξιόπιστο είναι το δέντρο; και2) Είναι το δέντρο αυτό σημαντικά καλύτερο από κάποιο άλλο;

Η αξιοπιστία μετριέται ως η πιθανότητα τα μέλη ενός κλάδου να είναι πάντα μέλη αυτού του κλάδου.

b t t l iΟι ευρύτερα χρησιμοποιούμενες τεχνικές

για το σκοπό αυτό είναι οι

bootstrap analysis

j kk if l ijackknife analysis

Page 112: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Bootstrap analysisΈνας επιστήμονας που θέλει να ελέγξει την αξιοπιστία των αποτελεσμάτων του

Έλεγχος αξιοπιστίας

Ένας επιστήμονας που θέλει να ελέγξει την αξιοπιστία των αποτελεσμάτων τουεπαναλαμβάνει το πείραμα του με άλλα δεδομένα. Οι φυλογενετιστέςχρησιμοποιούν μια μέθοδο δειγματοληψίας που ονομάζεται bootstrapping η οποίαδημιουργεί ψεύτικα σύνολα δεδομένων μέσω των οποίων γίνεται εκτίμηση τηςαξιοπιστίας των δέντρων.

Page 113: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Οι μέθοδοι αξιοπιστίας των δέντρων δεν είναι ελεύθεροι λαθών

55% 45%

taxo

nA

taxonD

20 ή

2

20 χαρακτήρες6969

taxonB

taxo

nC

Page 114: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Οι μέθοδοι αξιοπιστίας των δέντρων δεν είναι ελεύθεροι λαθών

55% 45%

taxo

nA

taxonD

200 ή

20

200 χαρακτήρες 9292

taxonB

taxo

nC

Page 115: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Οι μέθοδοι αξιοπιστίας των δέντρων δεν είναι ελεύθεροι λαθών

55% 45%

taxo

nA

taxonD

2000 ή

200

2000 χαρακτήρες 100100

taxonB

taxo

nC

Page 116: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Πρακτική στο PAUP Φυλογένεση

Ορίζουμε outgroup

Ο ίζ θ δ λ ίΟρίζουμε μεθοδολογία

Πραγματοποιούμε ανάλυση

Page 117: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

ΦυλογένεσηΠρακτική στο PAUP

Π.χ. Μέγιστη Φειδωλότητα

Εντολές

O t L tOutgroup Lacerta;

Set criterion=parsimony;

Hsearch addseq=random;Hsearch addseq=random;

Showhrees;

Savetrees file=Podarcis MP.tre;Savetrees file Podarcis_MP.tre;

Bootstrap nreps=100;

Savetrees from=1 to=1;

Page 118: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

ΦυλογένεσηΕύρεση μοντέλου νουκλεοτιδικής υποκατάστασης

ModelTest 3.71) Τρέχουμε το αρχείο μας στο PAUP* (Podarcis.nxs).2) Ανοίγουμε το Modeltest command file (modelblockPAUPb10) και το

τρέχουμε (βρίσκεται στο φάκελο paupblock μέσα στο φάκελο τουModelTest)ModelTest)

3) Παίρνουμε το αρχείο “model.scores» (το αποτέλεσμα του βήματος 2), καιτο τοποθετούμε στο φάκελο του ModelTest (στο φάκελο με το όνομα binό β ί fil M d lT t) έ έόπου βρίσκεται το exe file του ModelTest) και το τρέχουμε μέσω τουmodeltest.exe, χρησιμοποιώντας το Command Prompt of Windows

4) Ανοίγουμε το Command Prompt (Start Run cmd)5) Το οδηγούμε στο φάκελο που περιέχει τα scores (bin)

π.χcd Program Files\Phylogeny\Modeltest3.7 folderg y g y

6) Γράφουμε την εντολή: modeltest3.7 –n896 –t18 < model.scores > mydata.modeltest

Page 119: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Based on these results the LRT suggests that the best fit model is:

Φυλογένεση

Model selected: TrN + G-lnL = 1754.5413

K = 6Base frequencies:

freqA = 0.2891freqC = 0.3084freqG = 0.1084f 0 29 1freqT = 0.2941

Substitution model:Rate matrixR(a) [A-C] = 1.0000(b) [ ] 10 1497R(b) [A-G] = 10.1497

R(c) [A-T] = 1.0000R(d) [C-G] = 1.0000R(e) [C-T] = 12.8767(f) [G ] 1 0000R(f) [G-T] = 1.0000

Among-site rate variationProportion of invariable sites = 0Variable sites (G)G di t ib ti h t 0 1869Gamma distribution shape parameter = 0.1869

Page 120: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

ΦυλογένεσηΠ χ Σύνδεσης Γειτόνων (Neighbor Joining)Π.χ. Σύνδεσης Γειτόνων (Neighbor Joining)

Εντολές

Outgroup Lacerta;

Set criterion=distance;

Dset distance=“Your model from Modeltest”;

Nj;

Showhrees;

Savetrees file=Podarcis_NJ.tre;

Bootstrap nreps=100;

Savetrees from=1 to=1;

Page 121: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Μπεϋζιανή ΣυμπερασματολογίαB i I f

Φυλογένεση

Bayesian Inference

Η Bayesian Inference είναι μια στατιστική διεργασία στην οποία ενδείξεις ή παρατηρήσεις χρησιμοποιούνται για την αναθεώρηση ή εξαγωγή νέουπαρατηρήσεις χρησιμοποιούνται για την αναθεώρηση ή εξαγωγή νέου συμπεράσματος σχετικά με το τι είναι γνωστό υπό την προϋπόθεση ορισμένων παραμέτρων ή υποθέσεων

Page 122: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Ποια είναι η πιθανότητα η Σουηδία να κερδίσει το επόμενο παγκόσμιο πρωτάθλημα χόκεϋ επί πάγου;πρωτάθλημα χόκεϋ επί πάγου;

Σί Σ δί ί ί ό άδ ίζΣίγουρα η Σουηδία είναι μία από τις ομάδες που ανταγωνίζονται με επιτυχία στην διεκδίκηση των μεταλλίων!

Page 123: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Ας υποθέσουμε ότι οι ομάδες που έχουν κερδίσει μετάλλιο τα τελευταία 15 χρόνια έχουν ίση πιθανότητα να κερδίσουν και η πιθανότητα για ένα outsider είναι μηδέν!

Τότε η πιθανότητα να δί Σ δί ίκερδίσει η Σουηδία είναι

1:7 (ή 0,14)!

Μ ύ β ύΜπορούμε να βρούμε τη συχνότητα των Σουηδικών νικών στο παρελθόν (Δύο χρυσά ή 2:15=0.13 που είναι κοντά στην προηγούμενη εκτίμηση.

Η βή θ ό ί δύ λ θ ί ό όΗ ακριβής πιθανότητα είναι δύσκολο να εκτιμηθεί, όμως οι περισσότεροι συμφωνούν ότι θα είναι κοντά σε αυτήν την εκτίμηση (κάπως έτσι βγαίνουν και τα ποσοστά στο στοίχημα)!!!

Page 124: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Μπορείς να χρησιμοποιήσεις αυτή τη πληροφορία για να πάρεις λογικές αποφάσειςαποφάσεις.

Εάν κάποιος σου προσφέρει να ί έ Σ δίστοιχηματίσεις υπέρ της Σουηδίας

με πιθανότητα 1:10, τότε δεν θα ενδιαφερόσουν αφού απόδοση

ή ί λύ άτου στοιχήματος είναι πολύ κοντά στη δική σου εκτιμούμενενηπιθανότητα.

Αν η προσφορά είναι 1:100, τότε σίγουρα θα σας δελέαζε να στοιχηματίσετε.

Όσο η διαθέσιμη πληροφορία αλλάζει, είναι πιθανόν να αλλάξουν και οιΌσο η διαθέσιμη πληροφορία αλλάζει, είναι πιθανόν να αλλάξουν και οι εκτιμήσεις σου για τις πιθανότητες!

Page 125: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Ας υποθέσουμε ότι η Σουηδία φτάνει στον τελικό τουφτάνει στον τελικό του πρωταθλήματος.

Τώρα η πιθανότητα κατάκτησηςΤώρα, η πιθανότητα κατάκτησης του χρυσού μεταλλίου είναι 50:50.

Αν χάσει στα ημιτελικά, η πιθανότητα μηδενίζεται.

Αυτός ο συλλογιστικός τρόπος σχετικά με τις πιθανότητες και τηςΑυτός ο συλλογιστικός τρόπος σχετικά με τις πιθανότητες και της αναθεώρησης αυτών, βάσει των νέων δεδομένων που γίνονται διαθέσιμα, χρησιμοποιείται από τους περισσότερους ανθρώπους και βασίζεται στη λογικήλογική.

Page 126: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Bayesian InferenceΦυλογένεση

Ουσιαστικά αποτελεί και ένα παράδειγμα της Bayesian προσέγγισης στην επιστήμη. Η Bayesian Inference (BI) είναι μαθηματική τυποποίηση της διαδικασίας αποφάσεων που οι περισσότεροι από εμάς χρησιμοποιούμε χωρίς ναδιαδικασίας αποφάσεων που οι περισσότεροι από εμάς χρησιμοποιούμε χωρίς να το σκεφτόμαστε.

Page 127: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Bayesian InferenceΦυλογένεση

Η πρώτη μαθηματική τυποποίηση της BI αποδίδεται στον Thomas Bayes (1702-1761)

Th BThomas Bayes

Page 128: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Bayesian InferenceΦυλογένεση

Πρόβλημα πιθανοτήτων: Ένα δοχείο περιέχει 4 κόκκινες και 8 άσπρες μπάλες

Υ θέ ό λλέ ί 2 άλ ΒάΥποθέστε ότι συλλέγεται τυχαία 2 μπάλες. Βάσει του παρακάτω πιθανολογικού μοντέλου ας βρούμε τις πιθανότητες

Το μοντέλο του δοχείουμ χ

Page 129: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Bayesian InferenceΦυλογένεση

Α. Ποια είναι η πιθανότητα να έχεις τουλάχιστον 1 άσπρη μπάλα;Β. Ποια είναι η πιθανότητα οι μπάλες να έχουν το ίδιο χρώμα;Γ. Ποια είναι η πιθανότητα η δεύτερη μπάλα να είναι άσπρη;Δ. Ποια είναι η πιθανότητα η δεύτερη μπάλα να είναι άσπρη δεδομένου ότι οι μπάλες έχουν το ίδιο χρώμα;μ μ ς χ χρ μ ;

Το μοντέλο τουΤο μοντέλο του δοχείου

Page 130: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Bayesian InferenceΦυλογένεση

Α. Ποια είναι η πιθανότητα να έχεις τουλάχιστον 1 άσπρη μπάλα;

Πιθανότητα

Το μοντέλο του

10/11Το μοντέλο του

δοχείου

Page 131: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Bayesian InferenceΦυλογένεση

Β. Ποια είναι η πιθανότητα οι μπάλες να έχουν το ίδιο χρώμα;

Πιθανότητα

Το μοντέλο του

17/33Το μοντέλο του

δοχείου

Page 132: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Bayesian InferenceΦυλογένεση

Γ. Ποια είναι η πιθανότητα η δεύτερη μπάλα να είναι άσπρη;

Πιθανότητα

Το μοντέλο του

2/3Το μοντέλο του

δοχείου

Page 133: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Bayesian InferenceΦυλογένεση

Δ. Ποια είναι η πιθανότητα η δεύτερη μπάλα να είναι άσπρη δεδομένου ότι οι μπάλες έχουν το ίδιο χρώμα;

Εδώ ζό έ ύΕδώ χρειαζόμαστε ένα τύπο:

Ο αριθμητής: ποια είναι η πιθανότητα να είναι η δεύτερη άσπρη όταν και οι δύο έχουν το ίδιο χρώμα (άρα και η πρώτη άσπρη) = 14/33

Ο παρανομαστής: ποια είναι η πιθανότητα και

Το μοντέλο του

οι μπάλες να έχουν το ίδιο χρώμα = 17/33Άρα:

Το μοντέλο του δοχείου Πιθανότητα

14/17

Page 134: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Bayesian InferenceΦυλογένεση

Α. Ποια είναι η πιθανότητα να έχεις τουλάχιστον 1 άσπρη μπάλα;Β. Ποια είναι η πιθανότητα οι μπάλες να έχουν το ίδιο χρώμα;

10/1117/33

Γ. Ποια είναι η πιθανότητα η δεύτερη μπάλα να είναι άσπρη;Δ. Ποια είναι η πιθανότητα η δεύτερη μπάλα να είναι άσπρη δεδομένου ότι οι μπάλες έχουν το ίδιο χρώμα;

2/3

14/17μ μ ς χ χρ μ ;

Το μοντέλο τουΤο μοντέλο του δοχείου

Page 135: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Φυλογένεση

Μπεϋζιανή Φυλογενετική Συμπερασματολογία

Bayesian Phylogenetic InferenceBayesian Phylogenetic Inference

Πώς η Βayesian Inference εφαρμόζεται στη φυλογένεση;η φ γ η;

Page 136: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Διερεύνηση των σχέσεων μεταξύ 3 ειδών

Έστω ότι οι εξετάζουμε τις σχέσεις του ανθρώπου, του χιμπατζή και του γορίλα

Outgroup:γορίλα. Χρειαζόμαστε άλλο ένα τάξο(ουρακοτάγκος) για να ριζώσουμε το δέντρο.ρ

Page 137: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Τρία πιθανά δέντρα (τοπολογίες):Τρία πιθανά δέντρα (τοπολογίες):

A C

B

Page 138: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

A B CModel

Πριν αρχίσει η ανάλυση, άζ ί δ έA B C

abili

ty 1.0

χρειάζεται να ορίσουμε τις δικές μας απόψεις (πιστεύω) σχετικά με τις σχέσεις αυτών!!

Prior distribution

prob

a

Όταν τα δεδομένα απουσιάζουν, τότε η πιο απλή λύση είναι να

Data (παρατηρήσειςπ.χ. DNA)

τότε η πιο απλή λύση είναι να αποδώσουμε ίδια πιθανότητα σε όλα τα πιθανά δέντρα.

Δ δ έ ό ί 3

Posterior distributionbabi

lity 1.0

Δεδομένου ότι είναι 3 τα δέντρα, η πιθανότητα για κάθε ένα είναι 1/3

Posterior distribution

prob

Page 139: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

D Τα δεδομένα (Data)D Τα δεδομένα (Data)

Τάξα ΧαρακτήρεςΤάξα Χαρακτήρες

A ACG TTA TTA AAT TGT CCT CTT TTC AGA

B ACG TGT TTC GAT CGT CCT CTT TTC AGA

C ACG TGT TTA GAC CGA CCT CGG TTA AGG

D ACA GGA TTA GAT CGT CCG CTT TTC AGA

Page 140: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Μ έλ λ ί ή λάδΜοντέλο: τοπολογία και μήκος κλάδων

θ Παράμετροι

τοπολογία )(τA

vC

1vv

Μήκος κλάδων )( iv

B

3v

D

2v4v5v

(αναμενόμενη ποσότητα αλλαγής)B D

),( vτθ =

Page 141: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Bayes’ theorem

D = Dataθ = Model parameters

”Likelihood”

( ) ( | )f f Dθ θ

Posteriordistribution

Prior distribution ”Likelihood”

( ) ( | )( | )( ) ( | ) df f Df D

f f Dθ θθθ θ θ

=∫

Normalizing constant

Page 142: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Κατανομή της εκ των υστέρων πιθανότητας

)|( Xf θ

yro

babi

lity

ster

ior

pr

20% 48% 32%

tree 1 tree 2 tree 3θPo

s 20% 48% 32%

Parameter space

Page 143: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Μπεϋζιανή ΣυμπερασματολογίαΦυλογένεση

Ποια είναι η πιθανότητα η

αγαπημένη σας ομάδα να

νικήσει το παγκόσμιο

πρωτάθλημα χόκεϋ επί πάγου το ρ ημ χ γ

2010;

Page 144: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Νικήτές του Παγκόσμιου Πρωταθλήματος στο χόκεϋ επί πάγου

2000

Χρυσό Ασημένιο Χάλκινο Μετάλλια

2000

2001

20025

4

2003

20045

3

6

2005

20061

6

5

2007

2008 άλλοι

1

0

2009

Page 145: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

4

Prior

4

Posterior 1

0

Posterior 2

in

Data 1

out

Data 2

6

5

0

5

0

5

out

in

out

won

5

3

5

0

0

0

in

out

out

out

1

6

1

0

0

0

in

out

out

out

other 1

( )f θ

other 0

1( | )f Dθ

other 0

2( | )f Dθ

other out other out

( )f θ 1 2( | )f D Dθ +

Page 146: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Μπεϋζιανή ΣυμπερασματολογίαΦυλογένεση

Όμως σε όλα σχεδόν τα φυλογενετικά προβλήματα είναι αδύνατο να εκτιμήσουμε αναλυτικά την κατανομή της εκ υστέρων πιθανότητας.

Το πρόβλημα αυτό είναι ιδιαίτερα αντιληπτό στη φυλογένεση εξαιτίας του τεράστιου αριθμού των πιθανών τοπολογιών ακόμα και για μικρό αριθμό τάξων.

για έρριζα δένδρα (n≥2): ( )!32

Number of

Number of rooted trees (Ν )

Number of unrooted trees (N )( )

( )!22!32

2 −−

= − nnN nR

of OTUs (n)

(ΝR) (NU)

23456

1315

105904

11315

105

για άρριζα δένδρα (n≥3): ( )!52 −

=nN

678910…15

90410,395135,135

2,027,02534,459,425

…213 458 046 676 875

105904

10,395135,135

2,027,025…

7 905 853 580 625

( )!32 3 −= − n

N nU 15…20

213,458,046,676,875…

8,200,794,532,637,891,559,375

7,905,853,580,625…

221,643,095,476,699,771,875

Page 147: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Μπεϋζιανή ΣυμπερασματολογίαΦυλογένεση

Ο χώρος κατανομής όλων των πιθανών δέντρων μπορεί να απεικονιστεί ως ένα τοπίο με λόφους (hilly landscape). Κοντινά σημεία στο τοπίο αυτό αντιπροσωπεύουν δέντρα με παρόμοια τοπολογία, ενώ το ύψος αντιπροσωπεύει την πιθανότητα του δέντρου στο συγκεκριμένο σημείο. Το ύψος και η θέση των λόφων στο τοπίο εξαρτάται από τα δεδομένα.

Συνεπώς η αναζήτηση του καλύτερου δέντρου δεν είναι εύκολη υπόθεσηεύκολη υπόθεση

Page 148: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Μπεϋζιανή ΣυμπερασματολογίαΦυλογένεση

Η λύση στο πρόβλημα αυτό βασίζεται στην εκτίμηση της εκ των υστέρων πιθανότητας μέσω της Markov Chain Monte Carlo ή MCMC.

Οι αλυσίδες του Markov έχουν την ιδιότητα ότι συγκλίνουν προς μια κατάσταση ισορροπίας ανεξάρτητα από το σημείο εκκίνησης.

Απαιτείται ο καθορισμός αυτών των αλυσίδων (ελεγκτές) που ξεκινούν από ένα ( γ ς) ξτυχαίο σημείο και συγκλίνουν προς το επιθυμητή εκ των υστέρων πιθανότητα.

Η κεντρική ιδέα είναι να κάνει μικρές τυχαίες κινήσεις μέσα στο τοπίο (αλλαγές κάποιας παραμέτρου) και να αποδέχεται ή

ί έ λλ έ ύνα απορρίπτει αυτές τις αλλαγές σύμφωνα με τις πιθανότητες

Page 149: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Ξ ά ό έ θ ί ίΞ ά ό έ θ ί ί

Markov chain Monte Carlo

Ξεκινάει από ένα αυθαίρετο σημείοΞεκινάει από ένα αυθαίρετο σημείοΚάνει μικρές τυχαίες κινήσειςΚάνει μικρές τυχαίες κινήσειςΕκτίμηση Εκτίμηση (r) (r) της νέας κατάστασης και σύγκριση με τη παλιάτης νέας κατάστασης και σύγκριση με τη παλιά::

r > 1r > 1 η νέα κατάσταση γίνεται αποδεκτή και αποτελεί το σημείοη νέα κατάσταση γίνεται αποδεκτή και αποτελεί το σημείοr > 1 r > 1 η νέα κατάσταση γίνεται αποδεκτή και αποτελεί το σημείο η νέα κατάσταση γίνεται αποδεκτή και αποτελεί το σημείο εκκίνηση για τον επόμενο κύκλο της εκκίνηση για τον επόμενο κύκλο της αλύσίδαςαλύσίδαςr < 1 r < 1 η νέα κατάσταση γίνεται αποδεκτή με πιθανότητα η νέα κατάσταση γίνεται αποδεκτή με πιθανότητα rr. . Εάν Εάν απορριφθεί , τότε η αλυσίδα μένα στη παλιά θέσηαπορριφθεί , τότε η αλυσίδα μένα στη παλιά θέση

Οδηγείται στο δεύτερο βήμαΟδηγείται στο δεύτερο βήμα 22

always accept

Οδηγείται στο δεύτερο βήμα Οδηγείται στο δεύτερο βήμα 22

Th ti f ti th2a

accept sometimes

The proportion of time the MCMC procedure samples from a particular parameter region is an estimate of that

i ’ t i b bilit

1

2b

2a

region’s posterior probability density

20 % 48 % 32 %

tree 1 tree 2 tree 3

Page 150: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

Μπεϋζιανή Συμπερασματολογία Φυλογένεση

Πώς η λογική της Bayesian εφαρμόζεται στη φυλογένεση;

Για να αναθεωρήσουμε την αρχική άποψη (όλα ισοπίθανα), χρειαζόμαστε δεδομένα τα οποία συλλέγουμε (π.χ. ομόλογες λλ λ )

B CA1.01.0

αλληλουχίες DNA).

Αρχικά χρησιμοποιείται ο κανόνας του Bayesγια την εκτίμηση των εκ των υστέρων

1.01.0

για την εκτίμηση των εκ των υστέρων πιθανοτήτων, που είναι το αποτέλεσμα της ανάλυσης.

1.01.0

Η εκ των υστέρων πιθανότητα εκφράζει την πιθανότητα κάθε δέντρου δεδομένου α) της εκ των προτέρων γνώσης, β) ενός μοντέλου ρ ρ γ ης, β) ς μεξέλιξης και γ) των παρατηρούμενων δεδομένων Το καλύτερο

δέντρο

Page 151: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

ΦυλογένεσηΦυλογένεσηΜπεϋζιανή Συμπερασματολογία

Ψάχνει το δέντρο (tree) που μεγιστοποιεί τη πιθανότητα ναπαρατηρήσουμε το δέντρο δεδομένου των δεδομένων (data) πουέχουμε στα χέρια μας (P(Tree|Data))

H ΜΣ βασίζεται στην εκ των υστέρων πιθανότητα ενός φυλογενετικούδέντρου, τ. Η εκ των υστέρων πιθανότητα ενός ith φυλογενετικού δέντρου, τi,βάσει ενός συγκεκριμένου συνόλου δεδομένων (ευθυγραμμισμένεςαλληλουχίες DNA) δίνε αι α ό η αθη α ική εξί ω η ου Ba es:αλληλουχίες DNA) δίνεται από τη μαθηματική εξίσωση του Bayes:

ό f( i|X) ί έ

∑ =

= )(

1)()|(

)()|()|( sB

jjfjXf

ifiXfXifττ

τττόπου f(τi|X) είναι η εκ των υστέρων πιθανότητα του ith φυλογενετικού δέντρου και ερμηνεύεται ως η πιθανότητα το τi να είναι το «αληθινό» δέντρο με βάση ταείναι το «αληθινό» δέντρο με βάση τα δεδομένα (αλληλουχίες) που μελετώνται.

Page 152: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

ΦυλογένεσηΦυλογένεσηΜπεϋζιανή Συμπερασματολογία

Το πρόγραμμα Mrbayes είναι εξαιρετικά απλό στη χρήση τους, σχετικά γρήγορο και ικανό να αναλύει μεγάλα σύνολα δεδομένων.

MrBayes χρησιμοποιεί περιβάλλον εντολώνy χρη μ ρ β(command line interface) στο οποίογράφονται οι εντολές ώστε να ορίσουμε στοπρόγραμμα του τι να κάνει με τα δεδομένα

O αλγόριθμος Metropolis-Ηastings-Γreen

που του έχουμε δώσει.

γ ρ μ ς p g(MHG) είναι ένας MCMC αλγόριθμος που έχει χρησιμοποιηθεί με επιτυχία στην εκτίμηση των εκ των υστέρων πιθανοτήτων των δέντρων.

Page 153: Εξελικτική Οικολογία Διάλεξη 9 website/09. Κατασκευή... · Βάσεις δεδομένων είναι τα: 1) blastn, που συγκρίνει

ΦυλογένεσηΦυλογένεσηΜπεϋζιανή Συμπερασματολογία

Όταν εκτελέσεις (τρέξεις) τα δεδομένα σου (execute data file):το πρόγραμμα αρχίζει με ένα δέντρο (είτε τυχαίο είτε ορισμένο από τον

χρήστη κατά τη διάρκεια της εκτέλεσης των δεδομένων),

εκτιμά το δέντρο βάσει του μοντέλου που έχει ορίσει ο χρήστης,

αλλάζει το δέντρο,

εκτιμά το νέο δέντρο και αν το καινούριο είναι καλύτερο από το παλιό τοεκτιμά το νέο δέντρο και αν το καινούριο είναι καλύτερο από το παλιό, τοαποδέχεται ως το σωστό δέντρο. Αυτή η διαδικασία συνιστά μία γενεά(generation).

Κάθε μερικές γενεές (όπως ορίζεται από τον χρήστη), το πρόγραμμα καταγράφεισε ένα αρχείο το τρέχον δέντρο και τη τιμή της πιθανότητας σε ένα αρχείο. Οχρήστης καθορίζει τον αριθμό των γενεών και τελικά το πρόγραμμα υπολογίζειένα συναινετικό δέντρο καταγράφοντας και τα μήκη των κλάδων σε έναξεχωριστό αρχείο.