Upload
hiroko
View
90
Download
0
Embed Size (px)
DESCRIPTION
WRAPPER MAINTENANCE. Διπλωματική Εργασία Χαράλαμπος Ευτ. Τσουρακάκης Ακαδημαϊκό Έτος:2005-2006. ΑΞΟΝΕΣ ΠΑΡΟΥΣΙΑΣΗΣ. Τι είναι wrapper, πώς παράγεται, ορισμός wrapper maintenance προβλήματος. Σύντομη παρουσίαση ορισμένων εργασιών σε wrapper verification και σε wrapper reinduction. - PowerPoint PPT Presentation
Citation preview
WRAPPER WRAPPER MAINTENANCEMAINTENANCE
Διπλωματική ΕργασίαΔιπλωματική Εργασία
Χαράλαμπος Ευτ. ΤσουρακάκηςΧαράλαμπος Ευτ. Τσουρακάκης
Ακαδημαϊκό Έτος:2005-2006Ακαδημαϊκό Έτος:2005-2006
ΑΞΟΝΕΣ ΠΑΡΟΥΣΙΑΣΗΣΑΞΟΝΕΣ ΠΑΡΟΥΣΙΑΣΗΣ
1.1. Τι είναι Τι είναι wrapper,wrapper,πώς παράγεται, πώς παράγεται, ορισμός ορισμός wrapper maintenance wrapper maintenance προβλήματος.προβλήματος.
2.2. Σύντομη παρουσίαση ορισμένων Σύντομη παρουσίαση ορισμένων εργασιών σε εργασιών σε wrapper verification wrapper verification και σε και σε wrapper reinduction.wrapper reinduction.
3.3. Παρουσίαση της εργασίας μας: Ιδέα , Παρουσίαση της εργασίας μας: Ιδέα , αποτελέσματα.αποτελέσματα.
4.4. Συμπεράσματα-μελλοντική εργασία.Συμπεράσματα-μελλοντική εργασία.
Το 80% των ιστοσελίδων περιέχουν δεδομένα τα Το 80% των ιστοσελίδων περιέχουν δεδομένα τα οποία προέρχονται από μία ΒΔ.οποία προέρχονται από μία ΒΔ.
Βάση Δεδομένων(Database)
Template
ΣΥΝΘΕΣΗ ΔΕΔΟΜΕΝΩΝ ΜΕ TEMPLATE
Web page
TTι είναι ο ι είναι ο web web wrapperwrapper??
Web wrapper Web wrapper είναι ένα πρόγραμμα το οποίο με είναι ένα πρόγραμμα το οποίο με βάση ένα σύνολο κανόνων εξάγει αυτόματα βάση ένα σύνολο κανόνων εξάγει αυτόματα πληροφορία από ιστοσελίδες και την πληροφορία από ιστοσελίδες και την αποθηκεύει σε μία δομημένη μορφή.αποθηκεύει σε μία δομημένη μορφή.
To To σύνολο των κανόνων βασίζεται στην σύνολο των κανόνων βασίζεται στην κανονικότητα που υπάρχει στην παρουσίαση κανονικότητα που υπάρχει στην παρουσίαση της πληροφορίας στον χρήστη (της πληροφορίας στον χρήστη (layoutlayout).).
Data Integration & wrappersData Integration & wrappers
Ιστοσελίδες(Web pages)
Σχεσιακή Βάση Δεδομένων(Relational Database)
Κείμενο(Text)
Mediator
Mediator Mediator
Query
WrapperWrapper
SQL
Τρόποι παραγωγής Τρόποι παραγωγής wrapperswrappers
1ος τρόπος1ος τρόπος
Πρόγραμμα σε κάποια γλώσσα.Πρόγραμμα σε κάποια γλώσσα.
Ασύμφορο…. Ασύμφορο….
2ος τρόπος2ος τρόπος
Wrapper Induction SystemWrapper Induction System Είσοδος:Σύνολο ιστοσελίδων με Είσοδος:Σύνολο ιστοσελίδων με παραδείγματα επιθυμητής πληροφορίας.παραδείγματα επιθυμητής πληροφορίας. Έξοδος: Έξοδος: wrapperwrapper
Wrapper MaintenanceWrapper Maintenance
Οι ιστοσελίδες αρκετά συχνά αλλάζουν Οι ιστοσελίδες αρκετά συχνά αλλάζουν layoutlayout, ακόμα και περιεχόμενο., ακόμα και περιεχόμενο.
Το σύνολο των κανόνων εξαγωγής του Το σύνολο των κανόνων εξαγωγής του wrapper wrapper παύει να εξάγει την επιθυμητή παύει να εξάγει την επιθυμητή πληροφορία.πληροφορία.
Wrapper Maintenance= Wrapper Maintenance=
Wrapper verification+ Wrapper reinductionWrapper verification+ Wrapper reinduction
ΑΞΟΝΕΣ ΠΑΡΟΥΣΙΑΣΗΣΑΞΟΝΕΣ ΠΑΡΟΥΣΙΑΣΗΣ
1.1. Τι είναι Τι είναι wrapper,wrapper,πώς παράγεται, πώς παράγεται, ορισμός ορισμός wrapper maintenance wrapper maintenance προβλήματος.προβλήματος.
2.2. Σύντομη παρουσίαση ορισμένων Σύντομη παρουσίαση ορισμένων εργασιών σε εργασιών σε wrapper verification wrapper verification και σε και σε wrapper reinduction.wrapper reinduction.
3.3. Παρουσίαση της εργασίας μας: Ιδέα , Παρουσίαση της εργασίας μας: Ιδέα , αποτελέσματα.αποτελέσματα.
4.4. Συμπεράσματα-μελλοντική εργασία.Συμπεράσματα-μελλοντική εργασία.
STRAWMANSTRAWMAN
query Q Web Site r(T1)
T1
query Q Web Site r(T2)
T2 r(T1)=r(T2) ή r(T1)!=r(T2)?
RAPTURERAPTURE
Πρώτη Πρώτη content based content based μέθοδοςμέθοδος [Kushmerick][Kushmerick]
Πυκνότητα Πυκνότητα HTML HTML χαρακτήρων χαρακτήρων = Τ.Μ που ακολουθεί την = Τ.Μ που ακολουθεί την κανονική κατανομήκανονική κατανομή
Για τις Για τις testing testing σελίδες σελίδες υπολογίζει με βάση τις υπολογίζει με βάση τις εκτιμήτριεςεκτιμήτριες μ1,σ1 τις μ1,σ1 τις πιθανότητες για κάθε πιθανότητες για κάθε γνώρισμα τα εξαγόμενα γνώρισμα τα εξαγόμενα δεδομένα ανά δεδομένα ανά attribute attribute να να παίρνουν τις τιμές τους.παίρνουν τις τιμές τους.
Testing probabilityTesting probability με βάση με βάση μ2,σ2μ2,σ2
Σύγκριση Σύγκριση testing probabilitytesting probability με με thresholdthreshold
Από την Από την verified verified πληροφορία πληροφορία υπολογίζει τις εκτιμήτριες υπολογίζει τις εκτιμήτριες μ1,σ1 καθώς και τις μ1,σ1 καθώς και τις πιθανότητες τα εξαγόμενα πιθανότητες τα εξαγόμενα δεδομένα για το κάθε δεδομένα για το κάθε attribute attribute να παίρνουν τις τιμές τους.να παίρνουν τις τιμές τους.
Verified probabilityVerified probability και και υπολογισμός μ2,σ2υπολογισμός μ2,σ2
Άλλα γνωρίσματα : Πυκνότητα γραμμάτων, Άλλα γνωρίσματα : Πυκνότητα γραμμάτων, πυκνότητα ψηφίων, πυκνότητα χαρακτήρων πυκνότητα ψηφίων, πυκνότητα χαρακτήρων στίξης,πλήθος στίξης,πλήθος tokenstokens,μήκος ,μήκος tokenstokens..
Wrapper Verification Wrapper Verification ((Lerman,Minton,KnoblockLerman,Minton,Knoblock))
Βελτίωση Βελτίωση RAPTURE RAPTURE αλγόριθμου.αλγόριθμου. DATAPROG DATAPROG αλγόριθμος εύρεσης αλγόριθμος εύρεσης patternspatterns
πληροφορίας.πληροφορίας. Στατιστικός έλεγχος Στατιστικός έλεγχος Pearson.Pearson. Για κάθε κοινό Για κάθε κοινό pattern pattern προσθέτει έναν όρο προσθέτει έναν όρο
της μορφής της μορφής N=N=##tuples training attribute, n=#tuples testing tuples training attribute, n=#tuples testing
attribute,attribute, ri=#tuples ri=#tuples που ακολουθούν το που ακολουθούν το pattern pipattern pi
2( / )i i
i
r nr N
r
WRAPPER REINDUCTIONWRAPPER REINDUCTION(Raposo, Pan, (Raposo, Pan, Viña, Álvarez Viña, Álvarez ))
Αποθήκευση αποτελεσμάτων Αποθήκευση αποτελεσμάτων queries queries κατά κατά τη διάρκεια της ορθής λειτουργίας του τη διάρκεια της ορθής λειτουργίας του wrapperwrapper σε ΒΔ σε ΒΔ..
Εξεύρεση παραδειγμάτων στις αλλαγμένες Εξεύρεση παραδειγμάτων στις αλλαγμένες ιστοσελίδες.ιστοσελίδες.
«Τροφοδότηση» «Τροφοδότηση» WI WI συστήματος με συστήματος με αλλαγμένες ιστοσελίδες και παραδείγματα.αλλαγμένες ιστοσελίδες και παραδείγματα.
ΑΞΟΝΕΣ ΠΑΡΟΥΣΙΑΣΗΣΑΞΟΝΕΣ ΠΑΡΟΥΣΙΑΣΗΣ
1.1. Τι είναι Τι είναι wrapper,wrapper,πώς παράγεται, πώς παράγεται, ορισμός ορισμός wrapper maintenance wrapper maintenance προβλήματος.προβλήματος.
2.2. Σύντομη παρουσίαση ορισμένων Σύντομη παρουσίαση ορισμένων εργασιών σε εργασιών σε wrapper verification wrapper verification και σε και σε wrapper reinduction.wrapper reinduction.
3.3. Παρουσίαση της εργασίας μας: Ιδέα , Παρουσίαση της εργασίας μας: Ιδέα , αποτελέσματα.αποτελέσματα.
4.4. Συμπεράσματα-μελλοντική εργασία.Συμπεράσματα-μελλοντική εργασία.
Γιατί δόθηκε έμφαση στο Γιατί δόθηκε έμφαση στο wrapper wrapper verificationverification??
Ένα καλό Ένα καλό reinduction reinduction σύστημα χωρίς ένα σύστημα χωρίς ένα καλό καλό verification verification σύστημα δεν αποδίδει σύστημα δεν αποδίδει καλά.καλά.
Η ανάγκη για αυτοματοποίηση τουΗ ανάγκη για αυτοματοποίηση του verification verification μέρους είναι μεγαλύτερη από μέρους είναι μεγαλύτερη από του του reinductionreinduction λόγω της ύπαρξηςλόγω της ύπαρξης WI WI systemssystems..
ARMAGEDDONARMAGEDDON
ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ VERIFICATION VERIFICATION modulemoduleContent based Content based σύστημα.σύστημα.Σύνθετος αλγόριθμος:εκμεταλλεύεται όσο Σύνθετος αλγόριθμος:εκμεταλλεύεται όσο
περισσότερο τη δομή την εξαγόμενης περισσότερο τη δομή την εξαγόμενης πληροφορίας.πληροφορίας.
Εύρωστο.Εύρωστο.Πολύ καλή απόδοση στο Πολύ καλή απόδοση στο verification taskverification task.. ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ REINDUCTION REINDUCTION modulemodule Απλή ιδέαΑπλή ιδέα Καλή απόδοση σε σελίδες με στατικό περιεχόμενο.Καλή απόδοση σε σελίδες με στατικό περιεχόμενο. Βοηθητικό εργαλείο για τον χρήστη.Βοηθητικό εργαλείο για τον χρήστη.
Verification SystemVerification System
Είσοδοι: Είσοδοι: Training attribute , Testing Attribute.Training attribute , Testing Attribute. ΙΔΕΑΙΔΕΑ:Έστω ότι η πληροφορία του :Έστω ότι η πληροφορία του testing attribute testing attribute
είναι η σωστή .είναι η σωστή . ΆραΆρα ίδια σημασιολογία με του ίδια σημασιολογία με του training attribute training attribute ΆραΆρα παρόμοια δομή και παρόμοια παρόμοια δομή και παρόμοια patterns patterns !!!!!!
ARMAGEDDONWrapper Verification
Module
Πληροφορία από Verifiedattribute
Πληροφορία από testing
attribute
Wrapper OK αν q<=Xαλλιώς
Wrapper problem
Στάδια Στάδια VerificationVerification αλγορίθμου αλγορίθμου
Wrapper VerificationModule 2b
Σύστημα ποινών
Wrapper VerificationModule 2a
στατιστική του Pearson
Wrapper VerificationModule 1
Κατασκευή διανυσμάτων
μεταπληροφορίας
Wrapper Verification Module
Κατασκευή Διανυσμάτων Κατασκευή Διανυσμάτων ΜεταπληροφορίαςΜεταπληροφορίας
<<ATTRATTR__ΝΑΜΕΝΑΜΕ,, kk,, NN ,, p1,k1,..,pN,kN,p1,k1,..,pN,kN,
digDen, digDen, upperDenupperDen ,,lowerDenlowerDen,, punctDenpunctDen,,averTokenLengthaverTokenLength,, averNumOfTokensPerLineaverNumOfTokensPerLine>>
ATTR_ΝΑΜΕ όνομα attribute k συνολικό πλήθος εγγραφών για το ATTR N πλήθος patterns pi pattern i ki πλήθος εγγραφών που ακολουθούν το pattern pi digDen: μέση πυκνότητα ψηφίων, upperDen: μέση πυκνότητα κεφαλαίων γραμμάτων, lowerDen: μέση πυκνότητα πεζών γραμμάτων, punctDen: μέση πυκνότητα χαρακτήρων στίξης, averTokenLength: μέσο μήκος λεκτικών μονάδων, averNumOfTokensPerTuple:μέσο πλήθος λεκτικών
μονάδων ανά εγγραφή.
Παράδειγμα Παράδειγμα διανύσματοςδιανύσματος
ΕίσοδοςΕίσοδος
12 Aiginitoy Street12 Aiginitoy Street
11 Antifylou Street11 Antifylou Street
42 Hrwwn Polytexneio42 Hrwwn Polytexneiouu
StreetStreet
25 Laodikeias Street25 Laodikeias Street
53 Papagou Avenue53 Papagou Avenue
ΔιάνυσμαΔιάνυσμα
<<address,5,1,address,5,1,
*INTEGER**INTEGER*
*CAPITALIZED**CAPITALIZED*
*CAPITALIZED*,5,*CAPITALIZED*,5,
0.101, 0.111, 0.101, 0.111,
0.707,0,5.6875,3.2>0.707,0,5.6875,3.2>
Μάθηση Μάθηση PatternsPatterns
Κατασκευή ιεραρχίας Κατασκευή ιεραρχίας token types.token types. Λεκτικός αναλυτής που απονέμει σε κάθε Λεκτικός αναλυτής που απονέμει σε κάθε
token token το πιο συγκεκριμένο τύπο που το πιο συγκεκριμένο τύπο που μπορεί να λάβει.μπορεί να λάβει.
CS123 ALPHANUM 12 INTEGER 12.3 DECIMAL DATABASE ALLUPPERCASE course ALLLOWERCASE ! PUNCT Alice CAPITALIZED TheBook ALPHABETIC
Μάθηση Μάθηση PatternsPatterns
Προσδιορισμός μήκους Προσδιορισμός μήκους starting patterns starting patterns με βάση το μέσο πλήθος λεκτικών με βάση το μέσο πλήθος λεκτικών μονάδων ανά εγγραφή.μονάδων ανά εγγραφή.
Null Hypothesis Testing.Null Hypothesis Testing. Κεντρικό οριακό θεώρημα.Κεντρικό οριακό θεώρημα. Ζ-Ζ-testtest
Πώς λειτουργεί? (1)Πώς λειτουργεί? (1)
Θέση 1: Ο τύπος Θέση 1: Ο τύπος CAPITALIZED CAPITALIZED δεν είναι δεν είναι στατιστικά σημαντικός (στατιστικά σημαντικός (null hypothesisnull hypothesis))..
Αν απορριφθεί η μηδενική υπόθεση:Αν απορριφθεί η μηδενική υπόθεση:
ROOT
CAPITALIZED
Πώς λειτουργεί? (2)Πώς λειτουργεί? (2) Θέση 2: Ο τύπος ΑΘέση 2: Ο τύπος ΑLPHANUMERIC LPHANUMERIC δεν είναι δεν είναι
στατιστικά σημαντικός μετά το τύποστατιστικά σημαντικός μετά το τύπο CAPITALIZEDCAPITALIZED((null hypothesisnull hypothesis))..
Αν απορριφθεί η μηδενική υπόθεση:Αν απορριφθεί η μηδενική υπόθεση:
ROOT
CAPITALIZED
ALPHA NUMERIC
Πώς λειτουργεί? (3)Πώς λειτουργεί? (3)
Παράγεται ένα Παράγεται ένα PATTERN treePATTERN tree.. βάθος=βάθος=f(f(μέσο πλήθοςμέσο πλήθος tokens tokens/εγγραφή/εγγραφή)). . Διάσχιση του δένδρου δίνει τα Διάσχιση του δένδρου δίνει τα starting starting
patterns!patterns!
Έλεγχος Έλεγχος Pearson Pearson (goodness of fit method)(goodness of fit method)
Training (ver) Training (ver) και και testing (test)testing (test) διανύσματα διανύσματα μεταπληροφορίας.μεταπληροφορίας.
Έλεγχος ομοιότητας διανυσμάτων.Έλεγχος ομοιότητας διανυσμάτων. Για Για digDendigDen((x1x1),..,),..,averNumOfTokensPerLine(x6)averNumOfTokensPerLine(x6)::
2i i
i
for i 1 to 6
(x (ver)-x (test)) q q+
x (ver)
freedomDegrees freedomDegrees+1
Σύστημα ποινώνΣύστημα ποινών
Αν Αν q<q<Χ όπου Χ=χ^2(Χ όπου Χ=χ^2(freedomDegrees-freedomDegrees-1,0.051,0.05) τότε το σύστημα εισέρχεται σε ένα ) τότε το σύστημα εισέρχεται σε ένα σύστημα ποινών.σύστημα ποινών.
ΠΟΙΝΗ γιατί ΠΟΙΝΗ γιατί q q αυξάνεται χωρίς να αυξάνεται χωρίς να αυξάνονται αντίστοιχα οι βαθμοί αυξάνονται αντίστοιχα οι βαθμοί ελευθερίας.ελευθερίας.
Σύνθετο σύστημαΣύνθετο σύστημα Ίδια σημασιολογία Ίδια σημασιολογία παρόμοια παρόμοια patternspatterns
Βασικές έννοιες του συστήματος Βασικές έννοιες του συστήματος ποινών (1)ποινών (1)
Ομάδες συσχετιζόμενων Ομάδες συσχετιζόμενων token types.token types. Ομάδα1={“*”,”Ομάδα1={“*”,”ALPHANUMALPHANUM”},”}, Ομάδα2={“Ομάδα2={“ALPHABETICALPHABETIC”,””,”ALLUPPERCASEALLUPPERCASE”,””,”ALLLOWERCASEALLLOWERCASE”,””,”CAPITACAPITA
LIZEDLIZED”,”*”}”,”*”} Ομάδα3={“Ομάδα3={“INTEGERINTEGER”,””,”DECIMALDECIMAL”,”*”}”,”*”}
Συσχετιζόμενα Συσχετιζόμενα patterns.patterns. Αν υπάρχει 1-1 αντιστοιχία μεταξύ των Αν υπάρχει 1-1 αντιστοιχία μεταξύ των token types token types σε τουλάχιστον ένα σε τουλάχιστον ένα
πλήθος θέσεων, το οποίο είναι συνάρτηση της πολυπλοκότητας του πλήθος θέσεων, το οποίο είναι συνάρτηση της πολυπλοκότητας του πλήθους πλήθους tokens tokens του μικρότερου του μικρότερου pattern.pattern.
Συσχετιζόμενα σύνολα Συσχετιζόμενα σύνολα patterns patterns P1={p11,..,p1m},P2={p21,P1={p11,..,p1m},P2={p21,...,p2n}..,p2n}.
Αν κάθε Αν κάθε pattern p1i pattern p1i είναι συσχετιζόμενο με κάποιο είναι συσχετιζόμενο με κάποιο p2j p2j και αντιστρόφως.και αντιστρόφως.
Βασικές έννοιες του συστήματος Βασικές έννοιες του συστήματος ποινών (2)ποινών (2)
Πλήθος εγγραφών στο Πλήθος εγγραφών στο training attribute training attribute που μας που μας επιτρέπουν να έχουμε αυξημένη πεποίθηση ότι επιτρέπουν να έχουμε αυξημένη πεποίθηση ότι έχουμε δει τα περισσότερα από τα έχουμε δει τα περισσότερα από τα patterns patterns κατά την κατά την εκπαίδευση.εκπαίδευση.
Διάκριση περιπτώσεων για τη σχέση των συνόλων Διάκριση περιπτώσεων για τη σχέση των συνόλων patternspatterns Pver & Ptest.Pver & Ptest.
Βασικές έννοιες του συστήματος Βασικές έννοιες του συστήματος ποινών (3)ποινών (3)
Άλλες παράμετροι που λαμβάνονται Άλλες παράμετροι που λαμβάνονται υπ’όψιν είναι:υπ’όψιν είναι:
Πληθικότητες Πληθικότητες Pver & PtestPver & Ptest & & PcommonPcommon Ποσοστό εγγραφών του Ποσοστό εγγραφών του Ptest Ptest που καλύπτονται που καλύπτονται
από τα κοινά από τα κοινά patterns.patterns.
Reinduction SystemReinduction System
Προσαρμοσμένο στην υλοποίηση του Προσαρμοσμένο στην υλοποίηση του STALKER STALKER που διαθέταμε (που διαθέταμε (single single και όχι και όχι multi slot extractormulti slot extractor).).
Brute force Brute force αλγόριθμοςαλγόριθμος αναζήτησης αναζήτησης παραδειγμάτων ορθής πληροφορίας στις παραδειγμάτων ορθής πληροφορίας στις αλλαγμένες ιστοσελίδες.αλλαγμένες ιστοσελίδες.
Έξοδος : Έξοδος : annotation files annotation files στο στο format format που που θέλει ο θέλει ο STALKER.STALKER.
Ενδεχόμενα λειτουργίας Ενδεχόμενα λειτουργίας verification verification συστήματοςσυστήματος
α = Το σύστημα συμπεραίνει ότι ο α = Το σύστημα συμπεραίνει ότι ο wrapper wrapper λειτουργεί σωστάλειτουργεί σωστά
b b == Στην πραγματικότητα ο Στην πραγματικότητα ο wrapper wrapper λειτουργεί σωστάλειτουργεί σωστά
4 ενδεχόμενα λειτουργία του συστήματος4 ενδεχόμενα λειτουργία του συστήματος
bb !b!b
αα TPTP FPFP
!α!α FNFN TNTN
Μετρικές αξιολόγησης Μετρικές αξιολόγησης Verification Verification συστήματοςσυστήματος
ac=accuracy=(TPac=accuracy=(TP++TN)TN)/(/(TPTP++FPFP++FNFN++TNTN)) up=unchanged precision= TPup=unchanged precision= TP/(/(TPTP++FPFP)) cp=changed precision= TNcp=changed precision= TN/(/(TNTN++FNFN)) ur=unchanged recall= TP/(TPur=unchanged recall= TP/(TP++FN)FN) cr=changed recall= TNcr=changed recall= TN/(/(TNTN++FPFP)) Fchanged=(2*cr*cp)/(cr+cp)Fchanged=(2*cr*cp)/(cr+cp) Funchanged=(2*ur*up)/(ur+up)Funchanged=(2*ur*up)/(ur+up)
RAPTURE DATASET RAPTURE DATASET
16 16 query-able web sites query-able web sites Ενδεικτικά αναφέρουμε :Ενδεικτικά αναφέρουμε : www.altavista.com, www.altavista.com, www.uk.lycos.de, www.uk.lycos.de, www.thriveonline.com ,www.thriveonline.com ,www.news.com,www.news.com,
www.usnews.comwww.usnews.com Από κάθε Από κάθε sitesite κάναμε εξαγωγή κάναμε εξαγωγήπληροφορίας από 1 έως και 8 πληροφορίας από 1 έως και 8 attributes.attributes.
WEB SITE WEB SITE επίπεδοεπίπεδοac=100%,up=100%, ac=100%,up=100%,
cp=100%,ur=100%, cp=100%,ur=100%, cr=100%,cr=100%,
Fchanged=100%Fchanged=100%
Funchanged=100%Funchanged=100%
ATTRIBUTE ATTRIBUTE επίπεδοεπίπεδοac=99.37%,up=100% ac=99.37%,up=100%
cp=96.55%,ur=99.23%, cp=96.55%,ur=99.23%, cr=100%,cr=100%,
Fchanged=99.82%Fchanged=99.82%
Funchanged=99.61%Funchanged=99.61%
bb !b!b
αα 2121 00
!α!α 00 77
bb !b!b
αα 129129 00
!α!α 11 2828
Αξιολόγηση Αξιολόγηση wrapper reinduction wrapper reinduction συστήματοςσυστήματος
Web siteWeb site AttributesAttributes Πόσα βρέθηκαν Πόσα βρέθηκαν σωστάσωστά
ΣχόλιαΣχόλια
AltavistaAltavista τίτλοςτίτλος
υπερσύνδεσμοςυπερσύνδεσμος
2/2 2/2 Ο.ΚΟ.Κ
WebcrawlerWebcrawler τίτλοςτίτλος
% σχετικότητα με % σχετικότητα με queryquery
0/20/2 Τίτλοι είχαν Τίτλοι είχαν αλλάξει,% αλλάξει,% δεν υπήρχεδεν υπήρχε
CinemachineCinemachine τίτλος ταινίαςτίτλος ταινίας 1/11/1 Ο.ΚΟ.Κ
LycosLycos τίτλοςτίτλος
υπερσύνδεσμοςυπερσύνδεσμος
% σχετικότητα με % σχετικότητα με queryquery
2/32/3 % δεν % δεν υπήρχευπήρχε
PeoplePeople yahooyahoo Internet domainInternet domain(Ι.(Ι.DD))
ΟνοματεπώνυμοΟνοματεπώνυμο
1/2 1/2 I.D I.D δεν δεν υπήρχευπήρχε
ΠαρατήρησηΠαρατήρηση
To reinduction To reinduction σύστημα μπορεί να σύστημα μπορεί να χρησιμοποιηθεί για να διευκολύνει το χρησιμοποιηθεί για να διευκολύνει το χρήστη να παράγει έναν σωστό χρήστη να παράγει έναν σωστό wrapper wrapper πολύ εύκολα…πολύ εύκολα…
ΑΞΟΝΕΣ ΠΑΡΟΥΣΙΑΣΗΣΑΞΟΝΕΣ ΠΑΡΟΥΣΙΑΣΗΣ
1.1. Τι είναι Τι είναι wrapper,wrapper,πώς παράγεται, πώς παράγεται, ορισμός ορισμός wrapper maintenance wrapper maintenance προβλήματος.προβλήματος.
2.2. Σύντομη παρουσίαση ορισμένων Σύντομη παρουσίαση ορισμένων εργασιών σε εργασιών σε wrapper verification wrapper verification και σε και σε wrapper reinduction.wrapper reinduction.
3.3. Παρουσίαση της εργασίας μας: Ιδέα , Παρουσίαση της εργασίας μας: Ιδέα , αποτελέσματα.αποτελέσματα.
4.4. Συμπεράσματα-μελλοντική εργασία.Συμπεράσματα-μελλοντική εργασία.
ΣυμπεράσματαΣυμπεράσματα
Ανάπτυξη εύρωστου,Ανάπτυξη εύρωστου,content basedcontent based συστήματος για συστήματος για wrapper verificationwrapper verification..
Δεν βασίζεται καθόλου σε Δεν βασίζεται καθόλου σε HTML HTML πυκνότητες όπως τα προηγούμενα…πυκνότητες όπως τα προηγούμενα…
Έμφαση στη σημασιολογία.Έμφαση στη σημασιολογία. Παρατηρήθηκε ότι η ιδέα ότι τα ποσοστά Παρατηρήθηκε ότι η ιδέα ότι τα ποσοστά
των εγγραφών που ακολουθούν κάποιο των εγγραφών που ακολουθούν κάποιο κοινό κοινό pattern pattern να είναι ίδια στο να είναι ίδια στο verified &verified & στοστο training training attributeattribute!!
Μελλοντική εργασίαΜελλοντική εργασία
Εφαρμογή της μεθόδου σε άλλα Εφαρμογή της μεθόδου σε άλλα προβλήματα.προβλήματα.
Εκτενή πειράματα για αξιολόγηση Εκτενή πειράματα για αξιολόγηση wrapper wrapper verification verification συστήματος.συστήματος.
Ανάπτυξη συνθετότερου Ανάπτυξη συνθετότερου reinduction reinduction συστήματος.συστήματος.