Upload
jakub-zitny
View
90
Download
3
Embed Size (px)
Citation preview
Motivácia
● vytvoriť službu, mobilnú appku, ktorá po
oskenovaní bločku digitalizuje dáta○ obchodník, celková cena, dátum nákupu, …
● rýchlejšie vybavenie záruk a reklamácií
● zbavenie sa potreby uchovávať bločky
fyzicky (plná krabica starých/vyblednutých
bločkov)
Rozpoznávanie znakov z textu
● custom komerčné riešenia
● Tesseract OCR engine, open-source
● OpenCV
Predspracovanie (1)
Dáta
● vlastné z pozbieraných bločkov
● JPEG fotky z nekvalitného fotoaparátu
Predspracovanie
● desaturácia, jas, kontrast, norm
● klasifikácia podľa loga
● Tesseract OC
○ detekcia stĺpcov a riadkov textu, sklonu písma, …
Klasifikácia podľa loga (1)
Príznaky● EdgeHistogram● ColorLayout● CEDD● FCTH● SimpleColorHistogram● Tamura● Gabor● JointHistogram● OponnentHistogram
Klasifikátor
● Rocchio
- najbližší centroid
● SURF
- počet zhodných bodov
Rozpoznávanie znakov (OCR)
● wrapper nad Tesseractom○ request podľa triedy v ktorej sa nachádza
○ jednoduché parsovanie textu
Tesseract OCR● OpenSource OCR od Google (orig. od HP)
● predspracovanie (orezanie, sklon, riadky, spoje)
● klasifikácia znakov => rôzne písma
● lingvistická analýza + slovníky => rôzne jazyky
Implementácia
● Spring webapp v Jave
● moduly (rozšíritelné o nové klasifikátory a pod.)
● batch testy a merania
Knižnice a frameworky
● Tesseract, Leptonica
● Lire, Lucene
● jOpenSurf
● Spring, Jade, …
Otázky?gitlab.fit.cvut.cz/zitnyjak/receiptscanner