Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
Μάθηση με παραδείγματα –
Δέντρα Απόφασης
Μορφές μάθησης – Επιβλεπόμενη μάθηση (Ταξινόμηση – Πρόβλεψη)
• Παραδείγματα: {(xi, ti)}
• t κατηγορία ταξινόμηση
• t αριθμός πρόβλεψη
– Μη-επιβλεπόμενη μάθηση (Ομαδοποίηση – Μείωση Διάστασης)
• Παραδείγματα: {xi}
– Ενισχυτική μάθηση
• Παραδείγματα: {(xi, ri)}
• Επαγωγική Μάθηση (Αναπαράσταση):
– Μαθηματικά Μοντέλα
– Συστήματα Κανόνων (ερμηνευσιμότητα)
Επιβλεπόμενη μάθηση
– Υπόθεση (μοντέλο μάθησης): h (ορισμός χώρου υποθέσεων)
– ‘Συνεπείς’ (με τα παραδείγματα) υποθέσεις
– Occam’s razor: προτιμούμε την απλούστερη ‘συνεπή’ υπόθεση
Δένδρα αποφάσεων για
ταξινόμηση
Decision Trees for Classification
Το πρόβλημα του εστιατορίου
• Χαρακτηριστικά (attributes) του προβλήματος:
– Εναλλακτικό: Ναι, Όχι.
– Μπαρ: Ναι, Όχι.
– Π/Σ: Ναι, Όχι.
– Πεινασμένος: Ναι, Όχι.
– Πελάτες: Κανένας, Μερικοί, και Πλήρες.
– Τιμή: $, $$, $$$.
– Βρέχει: Ναι, Όχι.
– Κράτηση: Ναι, Όχι.
– Τύπος: Γαλλικό, Ιταλικό, Ταϋλανδέζικο, ή ταχυφαγείο.
– ΕκτίμησηΑναμονής: 0'–10', 10'–30', 30'–60', >60'.
• Απόφαση για το αν ο πελάτης θα περιμένει: NAI ή ΟΧΙ
Παράδειγμα
Δέντρα απόφασης
• Εσωτερικοί κόμβοι: έλεγχος και απόφαση με βάση την
τιμή κάποιου χαρακτηριστικού (attribute test)
• Φύλλα: απόφαση ταξινόμησης σε κάποια κατηγορία
Σύνολο εκπαίδευσης
# Εναλ Μπαρ Π/Σ Πεινασμ Πελατες Τιμή Βρέχει Κράτηση Τύπος Εκτιμ ΘαΠεριμένει
X1 Ναι Όχι Όχι Ναι Μερικοί $$$ Όχι Ναι Γαλλικό 0-10 Ναι
X2 Ναι Όχι Όχι Ναι Πλήρες $ Όχι Όχι Ταϋλ 30-60 Όχι
X3 Όχι Ναι Όχι Όχι Μερικοί $ Όχι Όχι Ταχυφ. 0-10 Ναι
X4 Ναι Όχι Ναι Ναι Πλήρες $ Ναι Όχι Ταϋλ 10-30 Ναι
X5 Ναι Όχι Ναι Όχι Πλήρες $$$ Όχι Ναι Γαλλικό >60 Όχι
X6 Όχι Ναι Όχι Ναι Μερικοί $$ Ναι Ναι Ιταλικό 0-10 Ναι
X7 Όχι Ναι Όχι Όχι Κανένας $ Ναι Όχι Ταχυφ. 0-10 Όχι
X8 Όχι Όχι Όχι Ναι Μερικοί $$ Ναι Ναι Ταϋλ 0-10 Ναι
X9 Όχι Ναι Ναι Όχι Πλήρες $ Ναι Όχι Ταχυφ. >60 Όχι
X10 Ναι Ναι Ναι Ναι Πλήρες $$$ Όχι Ναι Ιταλικό 10-30 Όχι
X11 Όχι Όχι Όχι Όχι Κανένας $ Όχι Όχι Ταϋλ 0-10 Όχι
X12 Ναι Ναι Ναι Ναι Πλήρες $ Όχι Όχι Ταχυφ. 30-60 Ναι
Κατασκευή δένδρων αποφάσεων (1/2)
Κατασκευή δένδρων αποφάσεων (2/2)
Ο αλγόριθμος
• function Decision-Τree-Learning(παραδείγματα,χαρακτηριστικά,προεπιλογή) returns δέντρο αποφάσεων
– inputs: παραδείγματα, ένα σύνολο παραδειγμάτων χαρακτηριστικά, ένα σύνολο χαρακτηριστικών προεπιλογή, προεπιλεγμένη κατηγορία
– if παραδείγματα είναι κενό then return προεπιλογή
– else if όλα στο παραδείγματα έχουν την ίδια κατηγορία then return την κατηγορία
– else if χαρακτηριστικά είναι κενό then return Majority-Class (παραδείγματα)
– else
– best Choose-Attribute(χαρακτηριστικά, παραδείγματα)
– tree νέο δέντρο αποφάσεων με έλεγχο ρίζας το χαρακτηριστικό best
– m Majority-Value(παραδείγματα)
– for each τιμή υi του best do
– παραδείγματαi {στοιχεία από τα παραδείγματα με best = υi}
– subtreeDecision-Tree-Learning(παραδείγματαi,χαρακτηριστικά-best,m)
– προσθήκη διακλάδωσης στο tree με ετικέτα υi και υποδέντρο=subtree
– return tree
Εντροπία • Εντροπία Πληροφορίας (Shannon & Weaver, 1949)
(μέτρο της αβεβαιότητας ή ανομοιογένειας των
δεδομένων)
• Μεταβλητή με n σύμβολα:
– π.χ. για δύο ισοπίθανα ενδεχόμενα:
– Για μη ισοπίθανα ενδεχόμενα, π.χ.
• Ι(1/100, 99/100) = 0,08 δυαδικά ψηφία, Ι(1,0)=Ι(0,1)=0 δυαδικά ψηφία
• Θέλουμε η διάσπαση του συνόλου παραδειγμάτων με
βάση κάποιο χαρακτηριστικό να οδηγεί σε όσο το
δυνατό μεγαλύτερη μείωση της εντροπίας.
n
iiin υPυPυPυPI
121 )(log)())(),...,((
ψηφίο δυαδικό 1loglog,21
221
21
221
21
21 Ι
Επιλογή χαρακτηριστικών • Εντροπία συνόλου παραδειγμάτων πριν τη διάσπαση
(p: C1, n:C2):
• Μέση εντροπία μετά τη διάσπαση με βάση το
χαρακτηριστικό Α με υ δυνατές τιμές (διακλαδώσεις):
• Κέρδος πληροφορίας (Information Gain):
npn
npn
np
p
np
p
npn
np
pI
22 loglog,
1
,)(i ii
i
ii
iii
np
n
np
pI
np
npΑΥπόλοιπο
)(,)( ΑΥπόλοιποnp
n
np
pIΑΚέρδος
Παράδειγμα
2 4 6
12 12 12
2 1 1 2 1 1 4 2 2 4 2 2
12 2 2 12 2 2 12 4 4 12 4 4
2 4( ) 1 (0,1) (1,0) , 0,541
6 6
( ) 1 , , , , 0
Κέρδος Πελάτες Ι Ι Ι
Κέρδος Τύπος Ι Ι Ι Ι
Αποτίμηση συστήματος μάθησης
• Σύνολο ελέγχου
– Αξιολόγηση σε παραδείγματα που δεν έχουν χρησιμοποιηθεί
κατά την εκπαίδευση ικανότητα γενίκευσης
• Υπερεκπαίδευση: το σύστημα είναι πιο ευέλικτο απότι
χρειάζεται (μαθαίνει και το θόρυβο που συνήθως υπάρχει
στα παραδείγματα)
• Υποεκπαίδευση: το σύστημα δεν είναι επαρκώς ευέλικτο
• Υπάρχει ένα βέλτιστο μοντέλο: το μικρότερο ‘συνεπές’
σύστημα (occam’s razor).
• Για τα δέντρα απόφασης μπορούμε να κάνουμε κλάδεμα
ενός μεγάλου δέντρου που κατασκευάζουμε αρχικά.