4

Keypoint-based scene-text detection and character classification using color and gradient features

Embed Size (px)

DESCRIPTION

Dit proefschrift behandelt algoritmen voor de opsporing en herkenning van tekst die aanwezig is in foto's van natuurlijke of stedelijke scenes. Zulke algoritmen maken het bijvoorbeeld mogelijk om met een smart phone onbekend schrift dat je op straat ziet te vertalen naar je eigen taal. Ook kunnen straaten winkelnamen worden herkend en een rijdende robot zou in een kantoorgebouw kamers kunnen vinden op basis van de tekstlabels bij de deuren. Hoewel er op dit gebied grote sprongen voorwaarts worden gemaakt, zijn er nog steeds veel fundamentele problemen. Het systeem moet omgaan met de grote variatie in belichting, kleur, en gezichtshoek van de camera. Wat is nu de voorgrond (letters) en wat is de achtergrond? Met name bij reclameteksten is dit vaak lastig. Bij de traditionele methoden werd uitgegaan van eenvoudige helderheidsverschillen om tekst en achtergrond te scheiden. In dit onderzoek wordt echter voorgesteld om specialistische modellen te trainen voor de voorgrond (tekst) en de achtergrond, die vaak niet egaal van kleur is. Verder zijn er grote verschillen tussen internationale schrifttypen. In het aziatische stadsbeeld zijn de tekstbeelden veelkleuriger en complexer van vorm dan in een westerse context. Daarom worden in dit onderzoek verschillende methoden getest om zowel Aziatisch (Kannada en Thais) als Westers schrift te detecteren. De algoritmen gaan uit van het detecteren van belangrijke punten in het beeld met scherpe randen en hoeken. Verder is een nieuwe methode ontworpen om kleurvariatie beter te verwerken. Dit bleek vooral nuttig voor de Aziatische schrifftypes. Na de verbeterde detectie van tekstbeeld kunnen de resulterende beelduitsnedes aan tekstherkenningsalgoritmen worden aangeboden. .. This dissertation deals with algorithms for the detection and recognition of text present in photographs of natural or urban scenes. Such algorithms make it possible, for example, to translate unknown writing that you see on the street with a smart phone into your own language. Streets of store names can also be recognized and a moving robot could find rooms in an office building based on the text labels near the doors. While great strides are being made in this area, many fundamental issues remain. The system has to deal with the wide variation in lighting, color, and angle of view of the camera. What is the foreground (letters) and what is the background? This is especially difficult with advertising texts. Traditional methods used simple brightness differences to separate text and background. However, in this research it is proposed to train specialist models for the foreground (text) and the background, which are often not uniform in color. Furthermore, there are major differences between international script types. In the Asian cityscape, the text images are more colorful and complex in shape than in a Western context. Therefore, in this study, different methods are tested to detect both Asian (Kannada and Thai) and Western script. The algorithms are based on detecting key points in the image with sharp edges and corners. Furthermore, a new method has been designed to better handle color variation. This proved especially useful for the Asian writing types. © Google Translate ___ Title Keypoint-based scene-text detection and character classification using color and gradient features Author Sriman, Bowornrat

Citation preview

  • Propositions

    1. If it isdifficult toextractcharacters fromaplaindocument image, then theapplicationofthisoperatortoasceneimageinanuncontrolledenvironmentwillnotbeeasier(Chapter1).

    2. Keypoint-descriptor vectors and keypoint locations of SIFT are useful forbothcharacter-shaperecognitionandforscene-textdetectioninThaiscript(Chapter2,Fig2.10).

    3. Applying autocorrelation function to a color space is robust to the lightingcondition(Chapter4Fig.4.2,Fig.4.4).

    4. Colorisusefulforthedistinctionbetweenhomogeneousandinhomogeneousimageregions,therebysupportingobjectdetectionandclassification(Chapter4).

    5. AGaussianblurwithsmallsigmaissufficienttohomogenize patchyobjectareasforthegeneraltext-chunklocalizationinsceneimages.(Chapter5,Fig.5.12).

    6. Heterogeneousfeaturesachievehigherclassificationperformancethan

    homogeneousfeaturesandareapplicabletoavarietyofobjectclassificationtasks(Chapter3and4).

    7. Theadvantageofexplicitfeaturemethodsandk-meansclusteringisthatthecomputationalloadandimbalancebetweentargetandbackgroundpatternscanbeoptimizedindetail(Chapter4).