13
Detekcia dát z bločkov Jakub Žitný 8.1.2014 MI-PDD

Detekcia dát z bločkov

Embed Size (px)

Citation preview

Detekcia dát z bločkovJakub Žitný

8.1.2014MI-PDD

Motivácia

● vytvoriť službu, mobilnú appku, ktorá po

oskenovaní bločku digitalizuje dáta○ obchodník, celková cena, dátum nákupu, …

● rýchlejšie vybavenie záruk a reklamácií

● zbavenie sa potreby uchovávať bločky

fyzicky (plná krabica starých/vyblednutých

bločkov)

Rozpoznávanie znakov z textu

● custom komerčné riešenia

● Tesseract OCR engine, open-source

● OpenCV

Návrh rozpoznávania bločkov

Predspracovanie (1)

Dáta

● vlastné z pozbieraných bločkov

● JPEG fotky z nekvalitného fotoaparátu

Predspracovanie

● desaturácia, jas, kontrast, norm

● klasifikácia podľa loga

● Tesseract OC

○ detekcia stĺpcov a riadkov textu, sklonu písma, …

Predspracovanie (2)

Detekcia loga

Klasifikácia podľa loga (1)

Príznaky● EdgeHistogram● ColorLayout● CEDD● FCTH● SimpleColorHistogram● Tamura● Gabor● JointHistogram● OponnentHistogram

Klasifikátor

● Rocchio

- najbližší centroid

● SURF

- počet zhodných bodov

Klasifikácia podľa loga (2)

Rozpoznávanie znakov (OCR)

● wrapper nad Tesseractom○ request podľa triedy v ktorej sa nachádza

○ jednoduché parsovanie textu

Tesseract OCR● OpenSource OCR od Google (orig. od HP)

● predspracovanie (orezanie, sklon, riadky, spoje)

● klasifikácia znakov => rôzne písma

● lingvistická analýza + slovníky => rôzne jazyky

Implementácia

● Spring webapp v Jave

● moduly (rozšíritelné o nové klasifikátory a pod.)

● batch testy a merania

Knižnice a frameworky

● Tesseract, Leptonica

● Lire, Lucene

● jOpenSurf

● Spring, Jade, …