Download ppt - Δομή Παρουσίασης

Σύστημα Αυτόματης Επεξεργασίας Εγράφου και Αναγνώρισης Χειρόγραφων Χαρακτήρων, Ανεξάρτητο Συγγραφέα

Δομή Παρουσίασης

Το πρόβλημα Οπτικής Αναγνώρισης Χαρακτήρων (OCR)

Στόχοι Παρουσίαση Συστήματος – Ανάλυση

Modules Πειραματικά Δεδομένα Πειραματικά Αποτελέσματα Συμπεράσματα - Προοπτικές

Η μετατροπή εικόνων κειμένων ή λέξεων, τυπωμένων ή χειρόγραφων (ICR), σε ηλεκτρονικό κείμενο.

Οπτική Αναγνώριση Χαρακτήρων (OCR)

Ορισμός

Ιστορική Αναδρομή

19ος αιώνας: πατέντες αναγνώρισης χαρακτήρων για τηλέγραφο.

1916: εμπορικά πακέτα για τηλέγραφο.

1950: εμπορικά πακέτα αναγνώρισης τυπωμένων ψηφίων.

1960: ανάλυση εικόνων εγγράφων (DIA).


Ιστορική Αναδρομή (συν.)

1965: εγκατάσταση αναγνωστών για τυπωμένες ταχ.διευθύνσεις.

1971: πρώτο περιοδικό στο OCR (Pattern Recognition).

1980: Συσκευές ανάγνωσης τυπωμένων και μεμονωμένων χειρόγραφων χαρακτήρων.


Συστημάτα Επεξεργασίας Γραφής

Αναγνώρισης Γραφής

Κατανόησης Γραφής

Προσδιορισμού Συγγραφέα

Αναγνώρισης Υπογραφής


Συστήματα Αναγνώρισης Γραφής

Ως προς τον τρόπο εισόδου δεδομένων: On-line Off-line

Ως προς το είδος των δεδομένων: μεμονωμένων χαρακτήρων συνεχόμενης γραφής γραφής χωρίς περιορισμούς


Στόχοι

Δημιουργία οff-line συστήματος οπτικής αναγνώρισης γραφής χωρίς περιορισμούς.

Ανεξάρτητο συγγραφέα.

Με κατάτμηση σε χαρακτήρες.

Υψηλής ακρίβειας.

Στόχοι

Γρήγορης ανταπόκρισης.

Εύκολα εκπαιδεύσιμο.

Εύκολα προσαρμόσιμο σε συγκεκριμένη γλώσσα.

Εύκολα προσαρμόσιμο σε συγκεκριμένο συγγραφέα.

Παρουσίαση Συστήματος – Ανάλυση Modules

Διόρθωση γωνίας

εκτροπής


εκτροπής

Εντοπισμός χειρόγραφου

κειμένου


κειμένου

Κατάτμηση σε γραμμέςΚατάτμηση σε γραμμές

Διόρθωση κλίσης


Κατάτμηση σε λέξεις


Κατάτμηση σε χαρακτήρες


Αναγνώριση χαρακτήρωνΑναγνώριση χαρακτήρων

Εικόνα Εγγράφου

Κείμενο

Κλάσεις χαρακτήρων


Κανόνες Κατάτμησης


Επεξεργασία Εγγράφου

Διόρθωση Γωνίας Εκτροπής με

Εφαρμογή Wigner-Ville Κατανομής.

Διάκρισηχειρόγραφου και

τυπωμένουκειμένου

Διόρθωση Κλίσης Χαρακτήρων με

Εφαρμογή Wigner-Ville Κατανομής.

Κατάτμηση σε Χαρακτήρες με

Αυτόματη Εξαγωγή Κανόνων.

Αναγνώριση βασισμένη σε

νέα Μορφολογικά Χαρακτηριστικά.


εκτροπής


εκτροπής

Διόρθωση Γωνίας Εκτροπής Εγγράφου

Γωνία εκτροπής -42.1°


Συνήθεις τεχνικές σε χρήση (O’Gorman, 1993):

Ιστογράμματα

Πλησιέστεροι Γείτονες

Μετασχηματισμός Hough

Διόρθωση Γωνίας Εκτροπής Εγγράφου - Τεχνικές


Συνήθη μειονεκτήματα που αντιμετωπίζουμε:

Μεγάλο υπολογιστικό κόστος

Χειρόγραφα έγγραφα

Παρουσία πλαισίων, γραφικών, φωτογραφιών κ.α.

Μεγάλες γωνίες κλίσης (89o)

Διόρθωση Γωνίας Εκτροπής Εγγράφου - Μειονεκτήματα


Χρήση οριζοντίου ιστογράμματος και κατανομής Wigner-Ville.

Χρήση μέρους της σελίδας για μείωση υπολογιστικού κόστους.

Ανίχνευση σε βήματα για μείωση υπολογιστικού κόστους.

Διόρθωση Γωνίας Εκτροπής Εγγράφου


Εντοπισμός

Παραθύρου

προς χρήση


Παραθύρου

προς χρήση

Υπολογισμός

Ιστογραμματων

ανά Step



ανά Step


αντίστοιχων

κατανομών WV





Γωνίας Angle

που μεγιστοποιεί

την ένταση


Γωνίας Angle


την ένταση

Διόρθωση

εγγράφου ως

προς Angle

Διόρθωση


προς Angle

Έγγραφο

Διορθωμένο έγγραφο

Step=10

Διόρθωση Γωνίας Εκτροπής Εγγράφου - Διαδικασία



Παραθύρου

προς χρήση


Παραθύρου

προς χρήση



ανά Step



ανά Step








Γωνίας Angle


την ένταση


Γωνίας Angle


την ένταση

Διόρθωση


προς Angle

Διόρθωση


προς Angle

Step=1Διορθωμένο έγγραφο

Έγγραφο

Step=0.1


Παραθύρου

προς χρήση


Παραθύρου

προς χρήση



ανά Step



ανά Step








Γωνίας Angle


την ένταση


Γωνίας Angle


την ένταση

Διόρθωση


προς Angle

Διόρθωση


προς Angle

Έγγραφο

Διορθωμένο έγγραφο

Step=10

Διόρθωση Γωνίας Εκτροπής Εγγράφου - Διαδικασία



Παραθύρου

προς χρήση


Παραθύρου

προς χρήση



ανά Step



ανά Step








Γωνίας Angle


την ένταση


Γωνίας Angle


την ένταση

Διόρθωση


προς Angle

Διόρθωση


προς Angle

Step=1Διορθωμένο έγγραφο

Έγγραφο

Step=0.1

Διόρθωση Κλίσης σε Χειρόγραφη Σελίδα


Διόρθωση Κλίσης σε Χειρόγραφη Σελίδα


0 20 40 60 80 100 120 140 0

1

2

3

4

5

6

7 x 10

6

0 20 40 60 80 100 120 140 0

0.5

1

1.5

2

2.5

3 x 10

6

Συχνότητα->Hz

Ύψος σελίδας

A B C κατώφλι

Απόδοση Αλγορίθμου Διόρθωσης Γωνίας Εκτροπής

CPU χρόνος 4.1-4.6 sec σε Pentium III 350Mhz.

Απόδοση ανεξάρτητη ανάλυσης (resolution), παρουσίας πινάκων, γραφικών, είδος και οργάνωσης κειμένου.

Ακρίβεια πάνω από 100% για ανοχή 0.3ο


0

20

40

60

80

100

120

0 0.1 0.2 0.3 0.4 0.5



εκτροπής


εκτροπής


κειμένου


κειμένου










Κείμενο






κειμένου


κειμένου

Εντοπισμός Χειρόγραφου Κειμένου


Κατάτμηση

εγγράφου

σε περιοχές (CC)

Κατάτμηση

εγγράφου

σε περιοχές (CC)

Ξεκαθάρισμα

περιοχών

(θόρυβος, γραμμές)

Ξεκαθάρισμα

περιοχών

(θόρυβος, γραμμές)


συστατικών

κάθε περιοχής

(λέξεις, γράμματα)


συστατικών

κάθε περιοχής

(λέξεις, γράμματα)

Κατάταξη περιοχών

(βάσει συστατικών)

σε χειρόγραφες ή μη

Κατάταξη περιοχών

(βάσει συστατικών)

σε χειρόγραφες ή μη

Εισαγωγή εγγράφου

Χειρόγραφο

Εντοπισμός Χειρόγραφου Κειμένου – Διαδικασία


Απόδοση Αλγορίθμου Εντοπισμού Χειρόγραφου Κειμένου

Ακρίβεια 96% επί των εντοπισμένων περιοχών.

CPU χρόνος 15 sec / παράθυρο 600x600pixels.

Το υπόλοιπο 4% είναι συνήθως μικρές περιοχές με ανεπαρκή πληροφορία.


Εντοπισμός Χειρόγραφου Κειμένου – Παράδειγμα




εκτροπής


εκτροπής


κειμένου


κειμένου










Κείμενο





Κατάτμηση σε ΓραμμέςΚατάτμηση σε Γραμμές

Κατάτμηση σε Γραμμές


Κατάτμηση σε Γραμμές - Διαδικασία

Τροποποίηση της μεθόδου των Shridar and Kasturi.

Χρήση οριζοντίου Ιστογράμματος.


ορίων γραμμών

στο Ιστόγραμμα


ορίων γραμμών

στο Ιστόγραμμα

Χάραξη

μονοπατιού λευκών

pixels από αριστερά

προς δεξιά

Χάραξη

μονοπατιού λευκών

pixels από αριστερά

προς δεξιά

Κόψιμο και

αποθήκευση

γραμμών

Κόψιμο και


γραμμών

χειρόγρ. γραμμές


Απόδοση Αλγορίθμου Τεμαχισμού σε Γραμμές

άριστη αντιμετώπιση περιπτώσεων καλά διαχωρισμένων γραμών.

εισαγωγή θορύβου στην αντίθετη περίπτωση.




εκτροπής


εκτροπής


κειμένου


κειμένου










Κείμενο





Διόρθωση Κλίσης

Διόρθωση Κλίσης

Διόρθωση Κλίσης Χαρακτήρων


Διόρθωση Κλίσης Χαρακτήρων


Συνήθεις τεχνικές σε χρήση:

Μέση κλίση κάθετων ή σχεδόν κάθετων γραμμών.

Μεταβολή περιγραμμάτων χαρακτήρων.

Διόρθωση Κλίσης Χαρακτήρων - Τεχνικές


Συνήθη μειονεκτήματα που αντιμετωπίζουμε:

Μεγάλο υπολογιστικό κόστος

Εξάρτηση από χαρακτήρες.

Διόρθωση Κλίσης Χαρακτήρων - Μειονεκτήματα


Χρήση κάθετου ιστογράμματος γραμμής και κατανομής Wigner-Ville.

Χρήση τμημάτων λέξεων κατά την ανίχνευση για μείωση υπολογιστικού κόστους.

Ανίχνευση σε βήματα για μείωση υπολογιστικού κόστους.

Διόρθωση Κλίσης Χαρακτήρων - Χαρακτηριστικά


Παρατηρήσεις

Τα περισσότερα γράμματα έχουν περίπου ίσο πλάτος με ύψος, wchc:Εξαιρέσεις: • Γράμματα με ουρές προς τα πάνω (ascenders) ή

κάτω (descenders): Iσχύει η παρατήρηση 1 αν αφαιρέσουμε τις ουρές.

• Οι χαρακτήρες ι,i,j,l,t , όπου προσεγγιστικά wchc/2.• Οι χαρακτήρες ω,w,m, όπου προσεγγιστικά

wc3hc/2.

Παρατηρήσεις

Εντός των λέξεων είναι απίθανο να υπάρχει κενό πλάτους μεγαλύτερο του wc.

Οι χειρόγραφες λέξεις απέχουν μεταξύ τους διάστημα πλάτους ενός τουλάχιστον χαρακτήρα wc.


Ν τμημάτων

προς χρήση


Ν τμημάτων

προς χρήση



ανά Step



ανά Step








κλίσης Angle


την ένταση


κλίσης Angle


την ένταση

Διόρθωση

κλίση ως

προς Angle

Διόρθωση

κλίση ως

προς Angle

Γραμμές

Διορθωμένες γραμμές

Step=10

Διόρθωση Κλίσης Χαρακτήρων - Διαδικασία



Ν τμημάτων

προς χρήση


Ν τμημάτων

προς χρήση



ανά Step



ανά Step








κλίσης Angle


την ένταση


κλίσης Angle


την ένταση

Διόρθωση

κλίσης ως

προς Angle

Διόρθωση

κλίσης ως

προς Angle

Step=1Διορθωμένες γραμμές

Γραμμές


Ν τμημάτων

προς χρήση


Ν τμημάτων

προς χρήση



ανά Step



ανά Step








κλίσης Angle


την ένταση


κλίσης Angle


την ένταση

Διόρθωση

κλίση ως

προς Angle

Διόρθωση

κλίση ως

προς Angle

Γραμμές

Διορθωμένες γραμμές

Step=10

Διόρθωση Κλίσης Χαρακτήρων - Διαδικασία



Ν τμημάτων

προς χρήση


Ν τμημάτων

προς χρήση



ανά Step



ανά Step








κλίσης Angle


την ένταση


κλίσης Angle


την ένταση

Διόρθωση

κλίσης ως

προς Angle

Διόρθωση

κλίσης ως

προς Angle

Step=1Διορθωμένες γραμμές

Γραμμές



εκτροπής


εκτροπής


κειμένου


κειμένου










Κείμενο







Κατάτμηση σε Λέξεις



κάθετων

Ιστογραμμάτων

Γραμμών


κάθετων

Ιστογραμμάτων

Γραμμών


κοιλάδων

Ιστογραμμάτων με

πλάτος > hc


κοιλάδων

Ιστογραμμάτων με

πλάτος > hc

Κόψιμο και


λέξεων

Κόψιμο και


λέξεων

ΓραμμέςΛέξεις





εκτροπής


εκτροπής


κειμένου


κειμένου










Κείμενο








Κατάτμηση σε Χαρακτήρες

Πλεονεκτήματα συστημάτων αναγνώρισης χαρακτήρων με κατάτμηση:Γενικότερες εφαρμογές (λεξικά, γλώσσες).Μεγαλύτερη ταχύτητα.Μειωμένες ανάγκες σε μνήμη.


Κατάτμηση σε Χαρακτήρες - Πλεονεκτήματα

Εφαρμογή εμπειρικών κανόνων: αδυναμία εύρεσης όλων των

κανόνων.

Αυτόματη εξαγωγή κανόνων με στατιστικές μεθόδους (Markov Models, Neural Networks): εξαγωγή δυσνόητων κανόνων για

περαιτέρω επεξεργασία.


Κατάτμηση σε Χαρακτήρες – Συνήθεις Μέθοδοι

Μέθοδος Ολιστικές Εμπειρικοί κανόνες

Στατιστικοί κανόνες

Προτεινόμενη

Hull (’00)

Giloux (’94)

Han (’95)

Wang (’94)


όλων

των πιθανών

ορίων


όλων

των πιθανών

ορίων

Εξαγωγή

Διανυσμάτων

Εξαγωγή


Κατάργηση

των

μη-ορίων

Κατάργηση

των

μη-ορίων

Λέξη Χαρακτήρες

Προεπεξεργασία


Κατάτμηση σε Χαρακτήρες – Τεχνική

Traditional TBL(Brill 1995)

77.8%

Simplified variation(Stamatatos et al,1999)

82.4%

Μετά από επεξεργασία των κανόνων 86.7%


Κατάτμηση σε Χαρακτήρες – Απόδοση Αλγορίθμου



εκτροπής


εκτροπής


κειμένου


κειμένου










Κείμενο





Αναγνώριση ΧαρακτήρωνΑναγνώριση Χαρακτήρων

Οι προτεινόμενες τεχνικές αναγνώρισης ποικίλουν ως προς:

Εξαγωγή Χαρακτηριστικών (στατιστικά ή περιγραφικά).

Μέθοδοι Κατηγοριοποίησης (K-means, Markov Models, Νευρωνικά δίκτυα, γράφοι).


Αναγνώριση Χαρακτήρων – Συνήθεις Μέθοδοι

ΠροεπεξεργασίαΠροεπεξεργασίαΕξαγωγή


Εξαγωγή


Κατηγοριοποίηση

με Κ-means

Κατηγοριοποίηση

με Κ-means

ΧαρακτήρεςΚείμενο

Επιλογή περιγραφικών χαρακτηριστικών (Bunke, 1985, Pavlidis 2000)

Kατηγοριοποίηση με Κ-means


Κατάτμηση σε Χαρακτήρες – Τεχνική

Προεπεξεργασία

Αρχική μήτρα

χαρακτήρα

Καθάρισμα χαρακτήρα

Κανονικ. Χαρακτ.

0 5 10 15 20 25 300

5

10

15

20

25

30

Οριζόντια Προβολή

0 5 10 15 20 25 300

5

10

15

20

25

30

Κάθετη Προβολή

Ακτ. Εξωτ. Profile

Ακτινική Προβολή

0 10 20 30 40 50 60 700

5

10

15

Ακτ. Εσωτ. Profile

Δεδομένα από τις βάσεις GRUHD, NIST, IAM-DB.

2000 δείγματα ανά χαρακτήρα. Κατηγοριοποίηση με K-means

σε 128 κλάσεις/χαρακτήρα


Αναγνώριση Χαρακτήρων – Εκπαίδευση

Βάση Ελληνικών χαρακήρων, ψηφίων και άλλων συμβόλων.

Συγκεκριμένο κείμενο γραμμένο χωρίς περιορισμούς (unconstrained).

1000 συγγραφέων. Τουλάχιστον 2500

δείγματα ανά σύμβολο.

Πειραματικά Δεδομένα

GRUHD Βάση Δεδομένων

Αμερικάνικη βάση Λατινικών χαρακήρων, ψηφίων και άλλων συμβόλων.

Συγκεκριμένο κείμενο γραμμένο καθαρά (handprinted).

3700 συγγραφέων. Τουλάχιστον 2600

δείγματα ανά σύμβολο.


NIST Βάση Δεδομένων

Ελβετική βάση Λατινικών κειμένων γραμμένων χωρίς περιορισμούς.

Κείμενα αποσπάσματα της βάσης Lancaster-Oslo-Bergen (LOB).

1000 συγγραφέων.


IAM-DB Βάση Δεδομένων

Πείραμα 1o: Εκπαίδευση από NIST δοκιμή στη NIST

Πειραματικά Αποτελέσματα

1η Επιλογή

2η Επιλογή

3η Επιλογή

Ψηφία 98.8% 99.91 100%

Κεφαλαία 93.85% 96.54 98.86%

Πεζά 91.4% 94.50% 98.85%

Μικτά 82.79 89.27% 96.85%

Πείραμα 2o: Εκπαίδευση από GRUHD δοκιμή στη GRUHD


1η Επιλογή

2η Επιλογή

3η Επιλογή

Ψηφία 94% 97.42% 99,54%

Κεφαλαία 86.03% 96.40% 98.96%

Πεζά 81% 90.36% 96.60%

Μικτά 72.8% 80.04% 88.83%


Πείραμα 2o: Εκπαίδευση από GRUHD δοκιμή στη GRUHD

Σε συνεχόμενο κείμενο: 65.6%-72.4% όταν λαμβάνεται

υπ’όψιν η πρώτη επιλογή. Πάνω από 80% όταν λαμβάνεται

υπ’όψιν και η δέυτερη επιλογή.

Πείραμα 3o: Εκπαίδευση από NIST δοκιμή στη IAM-DB


Σε συνεχόμενο κείμενο:

71%-75.8% όταν λαμβάνεται υπόψιν η πρώτη επιλογή.

Πάνω από 80% όταν λαμβάνεται υπόψιν και η δέυτερη επιλογή.

Ακρίβεια Συναρτήσει Πλήθους Κλάσεων - NIST


60

70

80

90

100

2 4 8 16 32 64 128 256

Πλήθος Κλάσεων

Ακρ

ίβει

α %

60

70

80

90

100

2 4 8 16 32 64 128 256


Ακρ

ίβει

α %

60

70

80

90

100

2 4 8 16 32 64 128 256


Ακρ

ίβει

α %

50

60

70

80

90

100

2 4 8 16 32 64 128 256


Ακρ

ίβει

α %

Ψηφία

Πεζά

ΚεφαλαίαΨηφία

Μικτά

Ακρίβεια Συναρτήσει Πλήθους Κλάσεων - GRUHD


Ψηφία

Πεζά

Κεφαλαία

Μικτά

50

60

70

80

90

100

2 4 8 16 32 64 128 256


Ακρ

ίβει

α %

50

60

70

80

90

100

2 4 8 16 32 64 128 256


Ακρ

ίβει

α %

50 60 70 80 90

100

2 4 8 16 32 64 128 256 Πλήθος Κλάσεων

Ακρ

ίβει

α %

50 60 70 80 90

100

2 4 8 16 32 64 128 256 Πλήθος Κλάσεων

Ακρ

ίβει

α %

Ακρίβεια Συναρτήσει Δειγμάτων Εκπαίδευσης - NIST


Ψηφία

Πεζά

Κεφαλαία

Μικτά

60

70

80

90

100

500 1000 1500 2000

Πλήθος Δειγμάτων Εκπαίδευσης

Ακρ

ίβει

α %

60

70

80

90

100

500 1000 1500 2000


Ακρ

ίβει

α %

60

70

80

90

100

500 1000 1500 2000


Ακρ

ίβει

α %

60

70

80

90

100

500 1000 1500 2000


Ακρ

ίβει

α %

Ακρίβεια Συναρτήσει Δειγμάτων Εκπαίδευσης - GRUHD


Ψηφία

Πεζά

Κεφαλαία

Μικτά

60

70

80

90

100

500 1000 1500 2000


Ακρ

ίβει

α %

60

70

80

90

100

500 1000 1500 2000


Ακρ

ίβει

α %

60

70

80

90

100

500 1000 1500 2000


Ακρ

ίβει

α %

60

70

80

90

100

500 1000 1500 2000


Ακρ

ίβει

α %

Ακρίβεια Συναρτήσει Διανυσματικών Παραμέτρων - NIST


Ψηφία

Πεζά

Κεφαλαία

Μικτά

0

20

40

60

80

100

Ακρίβεια %

2 3 4 5

Ιστογράμματα & Προφίλ

0

20

40

60

80

100

Ακρίβεια %

2 3 4 5


0

20

40

60

80

100

Ακρίβεια %

2 3 4 5


0

20

40

60

80

100

Ακρίβεια %

2 3 4 5


Ακρίβεια Συναρτήσει Διανυσματικών Παραμέτρων - GRUHD


Ψηφία

Πεζά

Κεφαλαία

Μικτά

0

20

40

60

80

100

Ακρίβεια %

2 3 4 5


0

20

40

60

80

100

Ακρίβεια %

2 3 4 5


0

20

40

60

80

100

Ακρίβεια %

2 3 4 5


0

20

40

60

80

100

Ακρίβεια %

2 3 4 5


Ακρίβεια Συναρτήσει Πλήθους Συγγραφέων


1η επιλογή

2η επιλογή

3η επιλογή

1ος συγγραφέας 93.38 96.75 97.88

2ος συγγραφέας 82.35 96,08 96,08

3ος συγγραφέας 86,38 90,62 90,62

8 κλάσεις αντί 128,

8 δείγματα ανά χαρακτήρα αντί 2000.

Πίνακας Συσχέτισης Νist


A B C D E F G H I J K L M N O P Q R S T U V W X Y Z a b c d e f g h i j k l m n o p q r s t u v w x y z A 92.5 0 0 0 0 0 0 0 0 0 0 0 0 0.4 0.4 1.3 0 0.8 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1.3 0 0 0.8 0 0.8 0.8 0 0 0 0.4 0 0 0.4 0 0 B 0 91.6 0 2.9 0.4 0 0.4 0 0 0 0 0 0 0 0.4 0 0 0.8 0 0 0 0.4 0 0 0 0.4 0 0 0 1.3 0.4 0 0.4 0 0 0 0 0 0 0 0 0 0 0 0.4 0 0 0 0 0 0 0 C 0 0.4 74.9 0.4 0.8 0 0.4 0 0 0 0 0.4 0 0 0.4 0 0 0.4 0.4 0 0.4 0 0 0 0 0 0.4 0.4 15.9 0 2.5 0 0 0 0.4 0 0 0 0 0 0.8 0 0 0 0 0 0.4 0 0 0 0 0 D 0.4 1.3 0 86.2 0 0 0 0 0 0 0 0 0 0.4 4.2 0.8 0 0 0 0 0 0 0 0 0 0 0 1.3 0 0.4 0 0 0 0 0 0 0 0 0 0 5. 0 0 0 0 0 0 0 0 0 0 0 0 E 0 0.8 1.3 0 89.5 0 1.3 0 0 0 0.8 0 0 0 0 0 0.4 2.5 0.4 0 0 0.4 0 0 0 0 0 0 0 0 2.1 0 0 0 0 0 0 0 0 0 0 0 0 0 0.4 0 0 0 0 0 0 0 F 0 0 0 0 0.4 79.1 0 0 0.8 0 0 0 0 0.4 0 2.1 0 0 0 0 0 0 0 0 0 0 0 0.4 0 0.4 0 13.0 0.4 0 0 0 0 0 0 0 0 0.4 0 0 0.4 1.7 0 0 0 0 0 0.4 G 0.4 0.8 0 0.4 0 0 93.3 0 0 0 0 0.4 0 0 0 0 0 0 0 0 0 0 0.4 0 0 0 0 0.8 0 0 0 0 1.7 0 0 0.8 0 0 0 0 0 0 0 0 0 0 0.4 0 0.4 0 0 0 H 1.3 0 0 0 0 0 0 94.1 0 0 0 0.4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.8 0 0 0.4 0 0 0 0 0 0 0 0 0.4 0 0 0.4 0.8 0.4 0.8 0 0 0 0 I 0 0 0 0 0 0 0 0 81.6 0 0 0.4 0 0 0 0 0 0 0 0 0 0 1.7 0 0 0 0 0 0 0 0 0 0 0 7.9 5.4 0 2.9 0 0 0 0 0 0 0 0 0 0 0 0 0 0 J 0 0 0 0 0 0.4 0 0 0 90.4 0 0 0 0 0 0 0 0 0.8 1.3 0 0 0 0 0.4 0 0 0 0 0 0 0 0.4 0 0 5.9 0 0 0 0 0 0 0 0 0.4 0 0 0 0 0 0 0 K 0 0 0 0 0 0.4 0 0.4 0 0 82.4 0 0 0 0 0 0 0.4 0.4 0 0.4 0 0 0.8 0 0 0.4 0.4 0.4 0 0 0 0 0 0 0 10.5 0 0 0.8 0 0.4 0 0 0 0 0 0 0 1.3 0.4 0 L 0 0 0.8 0 0.8 0 0 0 0.4 0 0.4 94.1 0 0 0 0 0 0 0 0 0 0 0 0 0 0.8 0 1.3 0 0 0 0 0 0.4 0.8 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 M 0 0 0 0 0 0 0 0.4 0 0 0 0 72.8 4.6 0 0 0 0.4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 19.2 1.3 0 0.4 0 0 0 0 0 0 0.8 0 0 0 N 0.4 0 0 0 0 0 0 1.7 0 0 1.7 0 0.8 90.4 0.4 0 0 0.4 0 0 0.4 0.8 0.4 0 0.4 0 0 0 0 0 0 0 0 0 0 0 0.4 0 0.4 0.4 0 0 0 0 0.4 0 0 0 0.4 0 0 0 O 0 0 0 1.7 0 0 0 0 0 0 0 0 0 0 75.7 0 0.4 0 0 0 0 0 0 0 0 0 0 0 0 0 0.4 0 0 0 0 0 0 0 0 0 21.7 0 0 0 0 0 0 0 0 0 0 0 P 0.8 0 0 0.8 0 1.3 0 0 0.8 0 0 0 0 0 0 78.7 0 0.4 0 0.4 0 0 0 0 0 0 0 0 0 0 0 0.4 0.4 0 0 0 0 0 0 0.4 0 14.6 0 0.4 0 0.4 0 0 0 0 0 0 Q 0 0 0 0 0 0 0.8 0 0 0 0 0 0 0 1.3 0.4 92.1 1.7 0.4 0 0 0 0 0 0 0 0.4 0 0 0 0 0 0.4 0 0 0 0 0 0 0.4 1.3 0.4 0.4 0 0 0 0 0 0 0 0 0 R 1.3 0.4 0 0.4 2.9 0 0.4 0 0 0 0.4 0 0 0 0.4 0.4 1.7 81.2 0 0 0 0.4 0 0.4 0 0.4 1.3 0 0 0 2.5 0 0.4 0 1.3 0 0.4 0 0 0.4 0 1.7 0.4 0 0.4 0 0 0.4 0 0 0 0 S 0 0 0 0 0.4 0 0 0 0 1.3 0 0 0 0 0 0 0 0 75.7 0 0 0 0 0 0 0 0 0 0 0 0 0 0.4 0 0 0 0 0 0 0 0 0 0.4 0 21.3 0 0 0 0 0 0 0.4 T 0 0 0 0 0 0 0 0 0 2.5 0 0 0 0 0 0 0 0 0 93.7 0 0 0 0 0.8 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.8 0 2.1 0 0 0 0 0 0 U 0 0 0.4 0.8 0 0 0 0 0 0 0 0 0.4 0.8 0.4 0 0 0.4 0 0 77.4 1.3 0.4 0 0 0 0.4 0 0 0 0 0 0 0 0 0 0 0 0 0 0.4 0 0 0 0 0 15.9 0.8 0 0 0 0 V 0 0 0 0 0 0 0 0 0 0 0 0 0 0.4 0 0 0 0 0 0 0.4 78.3 0 0.4 0 0 0 0 0 0 0 0 0 0 0 0.4 0 0 0 0 0.4 0 0 0.4 0 0 0 17.6 0 0.4 1.3 0 W 0 0 0 0 0 0 0 0 0 0.4 0 0 0 2.1 0.4 0 0 0 0 0 0.4 0.8 91.6 0 0 0 0 0 0 0 0 0 0 0 0 0 0.8 0 0.4 0.4 0 0 0 0 0 0 0.8 0 1.7 0 0 0 X 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.4 0 0 0 0 82.4 0 0 0 0 0 0 0 0 0 0 0 0 0.8 0 0 0 0 0 0 0 0 0 0 0.4 0 14.6 0.8 0.4 Y 0 0 0 0.4 0 0 0 0 1.3 0.4 0 0 0 0 0 0.4 0 0 0 0.4 0 1.3 0 0.4 80.3 0 0 0 0 0 0 0 2.1 0 0.4 0.4 0 0 0 0 0 0 1.3 1.7 0 0.4 0 0.4 0 0 8.4 0 Z 0 0.8 0 0 0 0 0 0 0 0 0 0.8 0 0 0 0 0 0.4 0 0 0 0 0 0 0 84.5 0 0 0.4 0 0.8 0.8 0 0 0.8 0 0 0 0 0 0 0 0.4 0 0 0 0 0 0 0 0 10.0 a 0 2.1 2.1 0 0 0 0 0 0 0 0 0 0 0 1.3 0 1.3 0.8 0 0 0.4 0 0.4 0 0 0 84.9 0 0.4 0 0.4 0 0.4 0 0 0 0 0 0 1.3 2.9 0 0 0 0 0 1.3 0 0 0 0 0 b 0 0 0 0.8 0 0 0.4 0 0 0 0 0.4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 95.8 0 0 0 0 0 0.8 0 0 1.3 0 0 0 0.4 0 0 0 0 0 0 0 0 0 0 0 c 0 0 15.5 0 0.8 0 0.4 0 0 0 0 0.8 0 0 0.4 0 0 0 0 0 0 0 0 0 0 0 0 0 79.1 0.4 1.7 0 0 0 0.4 0 0 0 0 0.4 0 0 0 0 0 0 0 0 0 0 0 0 d 0 0 0 0 0 0 0 0 0.4 0.4 0 0 0 0 0.4 0 0 0 0 0 0 0 0 0 0 0 0 0.4 0 94.1 0.4 0 0 0.4 0.4 0.8 0.8 0.4 0 0 0 0 0 0 0 0 0 0.4 0 0 0.4 0 e 0 0 1.3 0 1.3 0 0 0 0.4 0 0 0 0 0 0 0 0 2.5 0 0 0 0 0 0 0 0 0.8 0 0.4 0 92.1 0 0 0 0.4 0 0 0 0 0 0 0 0.4 0 0 0 0 0 0 0 0 0.4 f 0 0.4 0 0 0 20.5 0 0.4 1.3 0 0 0.4 0 0.4 0 1.3 0 0 0.4 0 0 0 0 0 0 0 0 0 0 0 0 70.3 0.4 0.4 0 0.8 0.4 0.4 0 0 0 0.4 0 0 0 1.7 0 0 0 0 0 0 g 0 0.8 0 0 0 0 0 0 0 0 0 0 0 0 0.4 0 0 0 0.4 0 0 0 0 0 0.4 0 0 0 0 0 0 0 90.4 0 0 0 0 0 0 0 0 0 6.7 0.4 0 0 0 0 0 0 0 0.4 h 0.4 0 0 0 0.4 0 0 0 2.1 0 0 3.8 0 0 0.4 0 0 0 0 0 0 0.8 0 0.4 0 0 0 2.5 0 0 0 0.4 0 84.9 0.4 0 1.7 0 0 0.4 0 0 0 0.4 0 0 0 0 0 0 0 0.8 i 0.4 0 0 0.4 0 0 0 0 15.9 0 0 0.8 0 0 0 0 0 0 0 0 0 0 0 0.4 0 0 0 0 0.4 0 0 0 0 0 74.1 5.4 0 1.3 0 0 0 0 0.4 0 0 0 0 0 0 0 0.4 0 j 0.4 0 0 0.4 0 0 0 0 15.9 0 0 0.8 0 0 0 0 0 0 0 0 0 0 0 0.4 0 0 0 0 0.4 0 0 0 0 0 15.9 63.6 0 1.3 0 0 0 0 0.4 0 0 0 0 0 0 0 0.4 0 k 0 0 0.4 0 1.3 0 0.4 0.8 0 0 12.1 1.3 0 0 0 0 0 0.8 0 0 0 0 0 0.8 0.4 0 0 4.2 0 0 0.4 0 0 1.3 0.4 0 73.7 0 0 0 0 0 0 0.4 0 0.8 0 0 0 0.4 0 0 l 0 0 0 0 0 0 0 0 18.4 0 0 0 0 0 0 0.4 0 0 0 0 0 0 0.8 0 0 0 0 0 0 0 0 0 0 0 13.8 5.4 0 60.3 0 0 0 0 0 0 0 0 0 0.4 0 0 0.4 0

m 0 0 0 0 0 0 0 0 0.4 0 0 0 18.0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 80.3 0.8 0.4 0 0 0 0 0 0 0 0 0 0 0 n 1.3 0 0 0.8 0 0 0 0 0 0 0 0 2.9 0 0 0 0 0 0 0 0.4 0 0.4 0 0 0.4 0 0 0 0 0 0 0 0 0 0 0 0 0.4 92.5 0 0.4 0.4 0 0 0 0 0 0 0 0 0 o 0 0 0 2.5 0 0 0 0 0 0 0 0 0 0 13.0 0 1.3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.4 0 0 0 0 0.8 81.6 0 0 0 0 0 0.4 0 0 0 0 0 p 1.7 0 0 1.7 0 0.4 0 0 0 0.4 0 0 0 0 0.4 13.8 0.4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.4 0.4 0 0 0 0 0 0 0 0 80.3 0 0 0 0 0 0 0 0 0 0 q 0.4 0.4 0 0 0 0.4 0.4 0 0 0 0 0 0 0 0 0.4 6.3 0 0 0.4 0 0 0 0 0 0 0.8 0 0 0 0.4 0 7.5 0 0 0.4 0 0 0 0 0 0.4 80.8 0 0.4 0 0 0.4 0 0 0 0 r 0 0 0 0 0 0 0.4 0 0 0.4 0 0 0 0 0 0 0 0 0 0.4 0 0 0 0 3.3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.4 0 0.8 0 91.2 0 1.7 0 0.4 0 0 0.8 0 s 0.4 0.4 0 0 0 0.4 0 0 0.4 0.8 0 0 0 0 0 0 0 0 15.1 0 0 0 0 0 0 0 0 0.4 0 0 0 0 0.8 0 0.4 0 0 0 0 0 0 0 0 0 80.8 0 0 0 0 0 0 0 t 0 0 0.4 0 0 0.8 0 0.8 0.4 0 0 0 0 0 0 0 0 0 0 1.3 0 0 0 0 1.7 0 0 0.4 0 0 0 1.3 0 0 0 0.4 0 0.4 0 0 0 0 0 0.4 0 90.0 0 1.3 0 0 0.4 0 u 0 0 0.4 0 0 0 0 0.4 0 0 0 0 0 0.4 0 0 0 0 0 0 16.7 0.4 0.8 0 0 0 0.4 0 0 0 0 0 0 0 0.4 0 0 0 0 0 0 0 0 0 0 0 78.7 0.8 0 0 0.4 0 v 0 0 0 0 0.4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1.3 15.9 0.4 0 0.4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.4 79.9 0 0.4 0.8 0 w 0 0 0 0 0 0 0 0 0 0 0 0 1.7 2.5 0 0 0 0 0 0 0.4 0 21.3 0 0 0 0 0 0 0 0 0 0 0.4 0 0 0 0 0 0 0 0 0 0 0 0 2.5 0 71.1 0 0 0 x 0 0 0 0 0.4 0 0 0 0 0.4 0.8 0 0 0.4 0 0 0 0.4 0 0 0 1.3 0 12.1 0.8 0 0 0 0 0 0 0 0 0 0 0 0.8 0 0 0 0 0 0 0.4 0 0 0 0.8 0 79.9 0.4 0.8 y 0 0 0 0 0 0 0 0.4 0 0 0 0 0 0 0 0 0 0 0.4 0 0 4.2 0 0.8 9.2 0 0 0 0 0 0.4 0 0 0 0 0.4 0.8 0 0 0 0.4 0 0.4 0.8 0.4 0 0.8 2.1 0 0.4 77.4 0.4 z 0 0.8 0.4 0 0.8 0 0 0 0 0 0 0 0 0 0 0 0 0.8 0.4 0 0 0 0 0 0.4 15.9 0.8 0 0 0 1.3 0 2.1 0 0 0 0.4 0 0 0.4 0 0 0.4 0 0.4 1.3 0 0 0 0 0.8 72.4

s t u v w x S 15.1 0 0 0 0 0 T 0 1.3 0 0 0 0 U 0 0 16.7 0.4 0.8 0 V 0 0 1.3 15.9 0.4 0 W 0 0 0.4 0 21.3 0 X 0 0 0 1.3 0 12.1

S T U V W X s 21.3 0 0 0 0 0 t 0 2.1 0 0 0 0 u 0 0 15.9 0.8 0 0 v 0 0 0 17.6 0 0.4 w 0 0 0.8 0 1.7 0 x 0 0 0 0.4 0 14.6

Υπολογιστικός Χρόνος


9%

24%

4%18%2%

20%

23%

Διόρθωση ΓωνίαςΕκτροπής

Εντοπισμός ΧειρόγραφουΚειμένου

Κατάτμηση σε Γραμμές

Διόρθωση ΚλίσηςΧαρακτήρων


Κατάτμηση σε Χαρακτήρες

Αναγνώριση Χαρακτήρων

possilililiy tlat thi govemment mnghtinvohe the Public Ordir act , tgjb , anddeclare the whob ralby illegal – whitterthe demomhators ut clown or not – uasbang diuuned in whilehall last mght .Jt uas last iised a year ago , to clealwith the St. Pancras sent nots . ToclayMr. Butfr will have talhs with RliciComnimioner hi Joseph hmpson toclraw up linal plans for the n Battbof Parliument GuarenNmp

Παράδειγμα


μ(μ,μ)ς(ε,ς) τ(τ,ζ)ω(ι,ι) (κ,κ)α(ο,ο)φ(μ,ρ)δ(δ,γ)ι(ι,υ)α(δ,α) μ(ρ,ρ)ε(ι,ν) τ(τ,τ)ι(ι,ς) π(π,η)κ(κ,ν)ο(ο,ο)ξ(η,η)τ(τ,τ)ι(ι,ι) π(η,π)ο(σ,ο)θ(θ,ς)ο(α,ο)ω(ν,κ)ε(ι,ι)ς(ξ,ς) κ(χ,κ)α(α,α)η(κ,ι) ι(ι,τ) π(β,κ)α(α,α),ι)θ(θ,δ)ο(α,σ)ι(ς,ς) π(π,π)ν(ν,τ)ρ(λ,χ)α(α,α)μ(ν,γ)β(ε,β) ο(α,α)ν(ι,φ) ζ(σ,ξ)κ(ω,ι)ξ(η,π) μ(υ,γ)α(α,α)ς(δ,ς)ι(ι,ς)λ(τ,χ)α(α,ο) θ(δ,δ)σ(ο,α)ς(ς,δ) κ(χ,κ)υ(ι,ι) α(α,ω)χ(λ,λ)χ(χ,λ)α(α,α)ζ(δ,ξ)α(α,α)ψ(μ,ς)ε(ε,ε) ξ(ζ,ξ)ω(β,κ)χ(χ,η)

Παράδειγμα


Retrieval of Historical Documents by Word

SpottingNikoleta Doulgeri Ergina

KavallieratouUniversity of the Aegean University

83200 Samos [email protected]

Necessity of the retrieval systems

The increasing volume of the digitized collections of document images

The interest of libraries, institutions, companies for the document image retrieval (maintenance, expose)

The difficulty in the document maintenance because of paper deterioration due to natural reasons as time, humidity

Background

Use of keywords that someone had to index manually

OCR packages were applied to documents in order to convert them to text.

With the improvement in document image processing (DIP) field, techniques that make use of images instead of OCR were also introduced.

Problems Problems in matching: type of fonts, size of fonts, size

of word, resolution, printing quality In the case of historical document: paper deterioration,

uneven fonts and spaces, uneven illumination Baird [2] states that at OCR character error rates

below 5%, information retrieval methods suffer little loss of either recall or precision, while at error rates above 20%, both recall and precision degrade significantly.

Extensive manual work Process predefined keywords Extensive training

Our Approach

We propose a general technique for word spotting Independent of OCR the user queries is transformed into word

images and compared with the words in the document images.

It is based on global shape features to describe the words.

They are general enough in order to capture the form of the word and appropriate normalized in order to face the usual problems of different resolutions, size of words and style of fonts.

Our Approach

Doc. Images

Binarization

Skew corr.

Word clean.

Word segm.

Slant corr.

Line segm.

Word synthesis

Text query

Feature Extraction

Normalization

Smoothing

Comparison

Word Synthesis

Doc. Images

Binarization

Skew corr.

Word clean.

Word segm.

Slant corr.

Line segm.

Word synthesis

Text query

Feature Extraction

Normalization

Smoothing

Comparison

1. The query, is given in ASCII.

2. It is transformed into a bmp image by using for each character x, the corresponding x.bmp

3. The images are determined automatically, by introducing images like

BinarizationDoc. Images

Binarization

Skew corr.

Word clean.

Word segm.

Slant corr.

Line segm.

Word synthesis

Text query

Feature Extraction

Normalization

Smoothing

Comparison

The binarization procedure is performed by E.Kavallieratou, “A Binarization Algorithm Specialized on Document Images and Photos”, ICDAR 2005, pp. 463-467, appropriate algorithm for historical documents.

Doc processing

Doc. Images

Binarization

Skew corr.

Word clean.

Word segm.

Slant corr.

Line segm.

Word synthesis

Text query

Feature Extraction

Normalization

Smoothing

Comparison

The tasks of skew angle correction, line segmentation, slant correction and word segmentation were presented in E.Kavallieratou, N.Fakotakis, and G.Kokkinakis, “Un Off-line Unconstrained Handwritting Recognition System”, IJDAR, no 4, pp. 226-242 (2002).

Slant Correction

Doc. Images

Binarization

Skew corr.

Word clean.

Word segm.

Slant corr.

Line segm.

Word synthesis

Text query

Feature Extraction

Normalization

Smoothing

Comparison

The slant correction task is not always necessary, but one of the books of our experiments was including a lot of text in italics.

Word Cleaning

Doc. Images

Binarization

Skew corr.

Word clean.

Word segm.

Slant corr.

Line segm.

Word synthesis

Text query

Feature Extraction

Normalization

Smoothing

Comparison

1. The vertical and horizontal histograms of the word are calculated.

2. Start from the peak value (max) and move towards the edges of the word.

3. IF a zero value is found AND no value >max/4 is included in the rest of the histogram

THEN crop the rest ELSE keep on scanning.

Feature Extraction

Doc. Images

Binarization

Skew corr.

Word clean.

Word segm.

Slant corr.

Line segm.

Word synthesis

Text query

Feature Extraction

Normalization

Smoothing

Comparison

During the feature extraction procedure, each word image, query word or segmented and cleaned word, is represented by a vector of the form:[h w ascs descs hist UProf DProf MProf asc1, asc2,…, 0 desc1, desc2 ,…, 0]

SmoothingDoc. Images

Binarization

Skew corr.

Word clean.

Word segm.

Slant corr.

Line segm.

Word synthesis

Text query

Feature Extraction

Normalization

Smoothing

Comparison

A smoothing stage is following in order to deal with small variations due to different fonts and styles of printing as well as possible noise remained in the word image. We applied smoothing of different degrees: using average of 3,5,7,9 points.

Normalization

Doc. Images

Binarization

Skew corr.

Word clean.

Word segm.

Slant corr.

Line segm.

Word synthesis

Text query

Feature Extraction

Normalization

Smoothing

Comparison

In order to compare the extracted vectors we need to have a standard vector size and the same order of magnitude (histogram and the three profiles) . The normalization stage consists of two steps: 1. the division by value to succeed common order of magnitude2. the interpolation to succeed standard vector size. We compute the number of points that must be added to the initial vector, if we wish to increase the length, or the numbers of points to leave out of, if we wish to decrease the length.

ComparisonDoc. Images

Binarization

Skew corr.

Word clean.

Word segm.

Slant corr.

Line segm.

Word synthesis

Text query

Feature Extraction

Normalization

Smoothing

Comparison

The vector of the query word is compared to those of the words of the document collection. Two criteria are initially posed:1.The ratio width/height of the word should be included in the interval [qratio-1 qratio+1] where qratio the corresponding ratio of the query word.2.The values ascs and descs of the word should be included in the interval [ascs-1 ascs+1] and [descs-1 descs+1], respectively, of the query word.Then, as a distance criterion, we use the Manhattan distance.

Experimental Data

A set of 10 pages: 3 from the first book and 7 from the second one, total 2013 words. No separation was performed. All the words were handled as candidates.

1. “Prospetto delle piante che si trovano nell’isola di Cefalonia”, Dr Niccolo Dallaporta, Corfu, 1821.

2. “Travels in Italy, Greece and the Ionian Islands”, Br.H.W.Williams, Edinburgh, 1820.

Queries

Query Font

Pdf resolution

Smoothing

Normalized word width

Feature contribution

73

84 85 86

0

10

20

30

40

50

60

70

80

90

100

no upper/lower prof

no histogram

no middle prof

no ascender descender

Precision-Recall curve

00,10,20,30,40,50,60,70,80,9

1

0,885 0,89 0,895 0,9 0,905 0,91 0,915 0,92 0,925

recall

pre

cis

ion

Did we face the Problems?

Problems in matching: type of fonts, size of fonts, size of word, resolution, printing quality Normalization-Smoothing

In the case of historical document: paper deterioration, uneven fonts and spaces, uneven illumination Binarization – Word cleaning

Baird [2] states that at OCR character error rates below 5%, information retrieval methods suffer little loss of either recall or precision, while at error rates above 20%, both recall and precision degrade significantly. No OCR

Extensive manual work No manual work

Process predefined keywords No keywords

Extensive training Just the symbol introduction printed

Conclusion

A system appropriate for word spotting in historical document databases that does not include training and OCR has been presented.

The only preprocessing procedure that our system requires is the symbol determination by a bitmap image.

A novel normalization technique that makes use of the interpolation method has been presented.

Conclusion

Our system presents its best performance for Times New Roman fonts and a resolution of 300 dpi, 5-point smoothing and a normalized width around 175-200 pixels.

Our system performance can be characterized quite well and similar to the state of the art systems, bearing in mind that it doesn’t require training, OCR and indexing.

We demonstrated it by using English texts of early 19th century. However, we strongly believe that it can be used in historical documents of different languages and symbols.

Ruling Line Removal in Handwritten Page Images

Ergina KavallieratouDept. of Information and Communication Systems

EngineeringUniversity of the Aegean, Greece

[email protected]

Daniel LoprestiDept. of Computer Science and Engineering

Lehigh University, [email protected]

mailto:[email protected]

mailto:[email protected]

Presentation Layout

Line processingRuling LinesSystem PresentationEvaluation ProcedureExperimental ResultsConclusion

21/04/23 98 /14ICPR 2010

Line processing

Necessary task in many systems:– graphic/text discrimination – form or invoice processing – engineering drawings

21/04/23 99 /14ICPR 2010

Document Processing

In handwritten documents ruling lines are used as guides to make it easier to write neatly.

21/04/23 100 /14ICPR 2010

Ruling Lines

Ruling lines generally share some common characteristics: 1. They are uniform in thickness. 2. Their position is predictable on the page.3. They are lighter in color and thickness than

the handwritten text. Because of this, they often appear broken in binarized document images.

4. Even careful writers often overlap ruling lines.

21/04/23 101 /14ICPR 2010

System Presentation

The only required pre-processing step is the removal of scanning (border) noise by the examination of the four edges of the page.

Preprocessing

Left line identification

Right line identification

Match Left & Rightpossible lines

calculate a of ax+b

calculate b and bdev

estimate Thickness

x=0

j=ax+b

x<page width?

x=x+1

No

check around j for black area<=Thickness+2

Turn it to background

Yes

adjust b

Yes

Postprocessing

Preprocessing

estimate Thickness • During the Left line identification procedure, for each group of black pixels found in a column, the position (x,y) of its central pixel is kept, as well as its thickness.

• The tenth and twentieth columns are also examined for groups with similar thickness, taking into consideration that their positions can vary from the first by several pixels in either direction.

• At the end of the procedure, the mean thickness of the groups is considered to be the Thickness of the ruling lines on the page.

Match Left & Rightpossible lines

• Correspondence is established for each pair of left (yl) and right (yr) points such that:

• This difference of 50 pixels permits a small amount of skew and shift for the page and is safe since the distance between ruling lines is usually at least 100 pixels. Such a threshold makes our method robust even for skews of up to 20 degrees or more, although this is not a primary concern here.

50 rl yy

calculate a of ax+b

calculate b and bdev

• For each pair of corresponding left and right points, an a value is calculated for the formula y=ax+b, and two b values, one for the left point and one for the right.

• The difference in b is caused by the quantization to pixel values.

• This difference we call bdev and we split it between the columns of the pages.

x=0

y=ax+b

x<page width?

x=x+1

No

check around y for black area<=Thickness+2

Turn it to backgroundYes

adjust b

YesPostprocessing

• The potential of having broken parts of lines all over the page must also be considered.

• However, we have to be careful not to remove useful parts of the text.

• At this point, we assume that the ruling lines on a page are likely to be less distinct than the handwritten text.

• Thus the whole page is scanned column by column and groups of pixels with thickness ≤ Thickness are removed.

102 / 14

Vertical ruling lines

Vertical ruling lines can be deleted by repeating the whole procedure after rotating the page by 90 degrees and considering as width, the height of the page.

21/04/23 103 /14ICPR 2010

Evaluation Data To give objective and comparative results for our proposed

approach, we use the evaluation methodology described in:Wael Abd-Almageed, Jayant Kumar, David Doermann, "Page Rule-Line Removal Using Linear Subspaces in Monochromatic Handwritten Arabic Documents," 10th International Conference on Document Analysis and Recognition, pp. 768-772, 2009

Synthetic data was employed to provide ground truth for each ruling line. The authors used 5 images of ruling lines and 10 images of Arabic documents, yielding 50 test images and achieved approximately 88% for both recall and precision.

In our case, 10 scanned page images with ruling lines from different pads were used with 10 images of text from different languages written by different persons (3 English pages, 2 Greek, 2 German, 1 French and 2 Arabic), resulting in 100 images of text with ruling lines.

21/04/23 104 /14ICPR 2010

Evaluation Metrics

Evaluation is done via recall/precision and weighted harmonic mean F1 metrics, defined as:

21/04/23 105 /14ICPR 2010

fptp

tpecision

Pr

fntp

tpcall

Re

recallprecision

recallprecisionF

2

1

Experimental Results

English30 images

Greek20 images

German20 images

French10 images

Arabic20 images

Total100

imagesPrecision 0.81% 0.88% 0.68% 0.65% 0.96% 0.76%

Recall 0.93% 0.93% 0.90% 0.93% 0.90% 0.91%

F1 0.86% 0.89% 0.75% 0.75% 0.93% 0.81%

21/04/23 106 /14ICPR 2010

Experimental

Results

Precision 89% Recall 97%

21/04/23 107 /14ICPR 2010


21/04/23 108 /14ICPR 2010


21/04/23 109 /14ICPR 2010

Conclusions A method for ruling line removal has been presented. The proposed system takes advantage of standard

properties of ruling lines. It does not break existing characters and hence does

not require an additional restoration step. We reported an experimental evaluation using 100

synthetic pages, formed by 10 pages of ruling lines scanned from different pads in combination with 10 text images in 5 different languages.

Our results are competitive with published methods, but with an approach that appears less complicated and is shown to work for 5 different languages.

21/04/23 110 /14ICPR 2010