Data Mining from World Bank and Fitch

ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΟΙΚΟΝΟΜΙΚΑ ΔΕΔΟΜΕΝΑ ΚΑΙ

ΔΕΔΟΜΕΝΑ ΟΙΚΩΝ ΑΞΙΟΛΟΓΗΣΗΣ

Γεωργούσης ΗλίαςΕπιβλέπων Καθηγητής: Η. Βαρλάμης

Περιεχόμενα• Σκοπός• Ερευνητικά Ερωτήματα• Μακροοικονομικά Μεγέθη• Προετοιμασία δεδομένων• Το Πείραμα μας• Το Μοντέλο• Συμπεράσματα

Σκοπός

Θέλουμε να εξετάσουμε αν οι μεταβολές στους οικονομικούς δείκτες της Παγκόσμιας Τράπεζας μπορούν να οδηγήσουν σε πρόβλεψη μιας υποβάθμισης ή αναβάθμισης της πιστοληπτικής ικανότητας μιας Εθνικής Οικονομίας. Για το σκοπό αυτό (proof of concept) πήραμε τα ratings του Fitch για 106 χώρες για το χρονικό διάστημα 2005-2012 στο οποίο καλύπτεται η περίοδος ανάπτυξης πριν τη κρίση του 2008, η ύφεση αλλά και τα επόμενα βήματα της ανάκαμψης που ακολούθησαν την κρίση και οικονομικούς δείκτες από την παγκόσμια τράπεζα και προβήκαμε σε Ανάλυση Συσχέτισης (Correlation Analysis) και κατασκευής ενός μοντέλου προβλέψεων.

Ανάλυση Συσχέτισης

Ανάλυση συσχέτισης είναι ένα σύνολο στατιστικών τεχνικών που χρησιμοποιούνται για να μετρήσουν το μέγεθος συσχέτισης μεταξύ δύο μεταβλητών, της εξαρτημένης και της ανεξάρτητης.

Στην περίπτωση μας, η εξαρτημένη μεταβλητή είναι η Υποβάθμιση ή Αναβάθμιση μιας οικονομίας. Θα θέλαμε να δούμε τόσο αν υπάρχει correlation μεταξύ των υπολοίπων γνωρισμάτων (ιδανικά correlation=0) όσο και αν υπάρχει συσχέτιση κάθε γνωρίσματος με το γνώρισμα που θέλουμε να προβλέπουμε (ιδανικά τα γνωρίσματα με correlation = 0 θα πρέπει να απαλειφθούν).

Ερευνητικά Ερωτήματα

1. Υπάρχουν συγκεκριμένοι μακροοικονομικοί δείκτες οι οποίοι φαίνεται να επηρεάζουν την αξιολόγηση κάποιας εθνικής οικονομίας;

2. Αν αυτοί οι δείκτες υπάρχουν σε ποιο βαθμό επηρεάζουν και τι βαρύτητα έχουν;

3. Παρατηρείται κάποιο μοτίβο ή πρότυπο στις κινήσεις μεταξύ των βαθμών της αξιολόγησης και της κίνησης των οικονομικών μεγεθών ώστε να μπορεί να γίνει χρήση του για πρόβλεψη κάποιας μελλοντικής επερχόμενης αξιολόγησης;

Ανάλυση Μακροοικονομικών μεγεθών

Δείκτες μελλοντικής ανάλυσης Imports of goods and services (Εισαγωγές προϊόντων και

υπηρεσιών) Land area (sq. Km) (Μέγεθος των χωρών σε τετραγωνικά

χιλιόμετρα) Trade in services (% of GDP) (Εμπόριο σε υπηρεσίες σε

ποσοστό επί τις 100 του ΑΕΠ) Services, etc., Value added (% of GDP) (Προστιθέμενη αξία

από υπηρεσίες σε ποσοστό επί τις 100 του ΑΕΠ) Secondary income, other sectors, payments (BoP, current

US$) (Δευτερεύων εισόδημα) Cash surplus/deficit (% of GDP) (Μετρητά πλεόνασμα /

έλλειμμα % του ΑΕΠ) GDP per Capita current US$ (Το κατά κεφαλήν ΑΕΠ (σε

τρέχουσες US $)

Δείκτες στη τρέχουσα ανάλυση1. GDP – ΑΕΠ2. GDP Growth – Ρυθμός αύξησης

του ΑΕΠ3. Exports of goods and services

(% of GDP) (Εξαγωγές προϊόντων και υπηρεσιών σε ποσοστό επί τις 100 του ΑΕΠ)

4. Inflation – πληθωρισμός 5. Gold Reserves – Αποθέματα

Χρυσού6. Central government debt, total

(% of GDP) - Κεντρικό δημόσιο χρέος, συνολικό (% του ΑΕΠ)

Χώρες προς μελέτη 106

Αυστρία, Βέλγιο, Κροατία, Βουλγαρία, Κύπρος, Τσεχία, Δανία, Εσθονία, Φιλανδία, Γαλλία, Γερμανία, Ελλάδα, Ουγγαρία, Ιρλανδία, Λετονία, Λιθουανία, Λουξεμβούργο, Μάλτα, Ολλανδία, Πολωνία, Πορτογαλία, Ρουμανία, Σλοβενία, Σλοβακία, Σουηδία, Ισπανία, Ηνωμένο Βασίλειο, Ιταλία, Ηνωμένες Πολιτείες, Τουρκία, Δομινικανή Δημοκρατία, Εκουαδόρ, Αίγυπτος, Ελ Σαλβαδόρ, Φιλανδία, ΠΓΔΜ, Γκάμπια, Γεωργία, Γκάνα, Χονγκ Κονγκ, Ισλανδία, Ινδία, Ινδονησία, Ιράν, Ισραήλ, Ιταλία, Τζαμάικα, Ιαπωνία, Καζακστάν, Κορέα, Κουβέιτ, Λίβανος, Λεσότο, Λιβύη, Μαλάουι, Μαλαισία, Μεξικό, Μολδαβία, Μογγολία, Νέα Ζηλανδία, Παναμάς, Παπούα, Περού, Φιλιππίνες, Ρωσία, Ρουάντα, Σαν Μαρίνο, Σαουδική Αραβία, Σεϋχέλλες, Σιγκαπούρη, Νότια Αφρική, Σρι Λάνκα, Σουρινάμ, Ταϊλάνδη, Τυνήσια, Τουρκία, Τουρκμενιστάν, Ουρουγουάη, Βενεζουέλα, Βιετνάμ, Αγκόλα, Αργεντινή, Αρμενία, Αυστραλία, Αζερμπαϊτζάν, Μπαχρέιν, Βερμούδες, Βολιβία, Βραζιλία, Καμερούν, Καναδάς, Χιλή, Κίνα, Κολομβία, Κόστα Ρίκα, Αρούμπα, Πράσινο Ακρωτήριο.

Δεδομένα

Αφετηρία της ανάλυσης μας είναι τα δύο πρώτα αρχεία Excel: Excel (1): Περιέχει τα δεδομένα των μακροοικονομικών δεικτών που

έχουμε περιγράψει στο Κεφαλαίο 3 για κάθε χώρα. Το συγκεκριμένο Excel το κατασκευάσαμε σύμφωνα με τα βήματα που ακολουθούν παρακάτω και δεδομένα που αντλήσαμε από τη Παγκόσμια Τράπεζα.• Excel (2): Οι αξιολογήσεις πιστοληπτικής ικανότητας των χωρών από

τον Οίκο Fitch, το συγκεκριμένο Excel είναι δημοσιευμένο στο Παγκόσμιο Ιστό και το χρησιμοποιήσαμε αφού καθαρίσαμε κάποια από τα δεδομένα του.

Excel (1):

Excel (2):

Εξαγωγή Δεδομένων 1/4




Τα δεδομένα 1/2

Τα δεδομένα 2/2

WekaΤο Weka (Java) είναι λογισμικό ανάλυσης δεδομένων και κατασκευής μοντέλων προβλέψεων, όπως θα χρησιμοποιηθεί στη παρούσα εργασία, με τη χρήση αλγορίθμων και εργαλείων οπτικοποίησης.

Πείραμα

Στο πείραμα μας θα τρέξουμε (10-fold cross validation) τους παρακάτω αλγόριθμους:

1. J482. Random Forest3. Naive Bayes4. Rotation Forest5. SMO6. ibk (1-NN)7. Vote8. Attribute Selected (Infogain

& ranker)

Αποτελέσματα Αλγορίθμων

Total Instances = 373 Total Attributes = 68

Αποτελέσματα με 10 fold cross validation στο αρχικό dataset

Classification Algorithmcorrectly classified instances percentage

F-measure promoted

F-measure demoted

F-measure average

J48 250 67.02% 70.60% 62.40% 67%

Random Forest 246 65.95% 71.50% 57.80% 65.50%

Naive Bayes 160 42.90% 44.40% 41.30% 43%

Rotation Forest 240 64.34% 69.30% 57.50% 64.10%

SMO 213 57.10% 70.30% 32.10% 49.50%

ibk (1-NN) 222 59.52% 68.70% 42.60% 57.20%

Vote 256 68.63% 72.70% 63.10% 68.50%

Attribute Selected (Infogain & ranker) 247 66.22% 68.30% 63.80% 66.30%

Εκπαίδευση και επαλήθευση του μοντέλου 1/2

Θέλουμε να δούμε αν ο καλύτερος αλγόριθμος που προέκυψε από τις εξαγωγές παραπάνω είναι και αρκετά γενικός. Κατά πάσα πιθανότητα αυτό μας το έχει καλύψει το 10-fold που χρησιμοποιούμε.

Παρόλα αυτά οι δύο καμπύλες μάθησης που θα βγουν στο plot στο τέλος αυτής της ενότητας θα μας δείξουν και αν υπάρχουν περιθώρια περαιτέρω εκπαίδευσης.

Using the best Classification Algorithm from above (J48) Αποτελέσματα evaluation στο ίδιο το training set κάθε φορά

Size of the training datasetcorrectly classified

instancespercenta

geF-measure promoted

F-measure demoted

F-measure average

10% 32 96.97% 97.10% 96.80% 97%20% 63 95.45% 95.50% 95.40% 95.50%30% 94 94.95% 95.50% 94.30% 94.90%40% 126 95.45% 95.70% 95.20% 95.50%50% 155 93.94% 94.40% 93.30% 93.90%60% 171 86.36% 88.70% 82.80% 86.10%70% 208 90.04% 91.60% 87.70% 89.90%80% 216 81.82% 83.40% 79.80% 81.80%90% 267 89.90% 90.60% 89.10% 89.90%

100% 263 79.70% 83.10% 74.50% 79.30%

Εκπαίδευση και επαλήθευση του μοντέλου 2/2

Using the best Classification Algorithm from above (J48) Αποτελέσματα evaluation στο ξεχωριστό test set

Size of the training datasetcorrectly classified

instances percentage F-measure promoted F-measure demoted F-measure average10% 27 62.79% 61.90% 63.60% 62.60%20% 26 60.47% 62.20% 58.50% 60.80%30% 28 65.12% 71.70% 54.50% 64.90%40% 28 65.12% 68.10% 61.50% 65.50%50% 29 67.44% 74.10% 56.30% 67%60% 31 72.09% 76% 66.70% 72.30%70% 30 69.77% 75.50% 60.60% 69.60%80% 33 76.74% 80% 72.20% 76.90%90% 33 76.74% 81.50% 68.80% 76.40%

100% 28 65.12% 70.60% 57.10% 65.30%

Καμπύλες Μάθησης

Το σφάλμα στο test πλησιάζει κάποια στιγμή και το σφάλμα στο training. Αλλά και πάλι το ταβάνι μας φαίνεται να είναι στο 80% accuracy (ιδανικά θα ήταν το 90%). Αφού εκεί πέφτει και το training. Αυτό σημαίνει ότι η ανάλυση μας είναι σε σωστό δρόμο και με περισσότερα features ή instances θα μπορούσε και ακόμη καλύτερα.

Size of the datasetcorrectly classified instances

percentage

F-measure promoted

F-measure demoted

F-measure average

80% 216 81.82% 83.40% 79.80% 81.80%80% 33 76.74% 80% 72.20% 76.90%

Μοντέλο - J48

Κανόνας Α

Για τις χώρες που έχει μεσολαβήσει μεγαλύτερο χρονικό διάστημα από μια αξιολόγηση και το ΑΕΠ τους είναι

θετικό και τα αποθέματα χρυσού είναι υψηλά, είναι κατά κύριο λόγο θετικές οι αξιολογήσεις που λαμβάνουν.

Κανόνας Β

Για τις χώρες που οι αξιολογήσεις γίνονται σε μικρότερο χρονικό διάστημα μεταξύ τους, και το ΑΕΠ τους μειώνεται μεταξύ των ετών 4 και 5 της ανάλυσης μας αλλά και οι εξαγωγές τους είναι αρνητικές είναι κατά κύριο λόγο αρνητικές.

Δείκτες με ιδιαίτερη βαρύτητα και συσχέτιση

Συμπεράσματα Κατασκευάσαμε ένα μοντέλο, ένα δέντρο απόφασης (J48) που

με ακρίβεια γύρω στο 70% προβλέπει σωστά. Οι δείκτες που φαίνεται να έχουν τη μεγαλύτερη επίδραση

είναι: TimePassed_In_Years και gdpgrowthdiff3-2. Η βαρύτητα των δεικτών είναι : κοντά στο 0.1 και 0.02

αντίστοιχα στον InfoGain. Καμπύλες μάθησης και περιθώρια βελτίωσης.

Data & Analytics

Data Mining from World Bank and Fitch