Diploma Thesis Zimm Text

CESKE VYSOKE UCENI TECHNICKE V PRAZE

FAKULTA ELEKTROTECHNICKAKATEDRA KYBERNETIKY

DETEKCE A ROZPOZNAVANI ZNAKU V OBRAZE A VIDEOSEKVENCICH

DIPLOMOVA PRACE

Karel Zimmermann

23. leden 2004

vedoucı prace: Dr. Ing. Jirı Matas

ii

.

iii

Prohlasenı

Prohlasuji, ze jsem svou diplomovou praci vypracoval samostatne a pouzil jsem pouze podklady(literaturu, projekty, SW, atd.) uvedene v prilozenem seznamu.

Nemam zavazny duvod proti uzitı tohoto skolnıho dıla ve smyslu § 60 Zakona c.121/2000 Sb., opravu autorskem, o pravech souvisejıcıch s pravem autorskym a o zmene nekterych zakonu (autorskyzakon).

V Praze dne 23. leden 2004 Karel Zimmermann

iv

Podekovanı

Me podekovanı patrı panu Dr. Ing. Jirımu Matasovi za jeho drahocenny cas, cenne pripomınky aza vedenı prace.

v

Abstract

In this work, we present a robust method to learn and recognize object category in arbitraryscenes in an affine invariant manner. Objects are modeled as flexible constellations of parts (calledcharacteristic extremal regions). Proposed detector could be trained by machine learning methodsfor arbitrary object category. The method is demonstrated on the problem of text detection andlocalization in images and videosequences.

Keywords

categorization, text detection and locazation, character detection, segmentation, character recogni-tion, support vector machine, neural network, image processing

vi

Abstrakt

V teto praci prinasıme novy pohled na problematiku detekce a lokalizace kategorie objektu v obraze.Navrhujeme robustnı afinne invariantnı algoritmus detekce a lokalizace libovolne kategorie objektu,ktere jsou modelovany jako prostorove konfigurace jejich castı (nazyvanych charakteristickymihextremalnımi oblastmi). Takto navrzeny detektor muze byt metodami strojoveho ucenı preucen najakoukoliv kategorii objektu. Metoda je demonstrovana na problemu detekce a lokalizace textu vobrazech a videosekvencıch.

Keywords

detekce a lokalizace kategorie objektu, segmentace, detekce znaku, support vector machine, neu-ronove sıte, zpracovanı obrazu

Obsah

1 Uvod 11.1 Definice problemu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Struktura dokumentu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.3 Prınos teto prace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.4 Stav poznanı . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.4.1 Detekce obecne kategorie objektu . . . . . . . . . . . . . . . . . . . . . . . . . 51.4.2 Detekce textu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.4.3 Detekce SPZ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2 Detekce a lokalizace CER 102.1 Extremalnı oblasti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.2 Algoritmus detekce a selekce CER . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.3 Inkrementalne vypocitatelne prıznaky . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.3.1 Uvod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.3.2 Momenty . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.3.3 Kompaktnost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.3.4 Entropie a stabilita kumulativnıho histogramu . . . . . . . . . . . . . . . . . 192.3.5 Pocet der v oblasti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.3.6 Dalsı inkrementalne vypocitatelne veliciny . . . . . . . . . . . . . . . . . . . . 21

2.4 Selektor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3 Nalezenı a normalizace linearnı konfigurace oblastı 233.1 Nalezenı linearnı konfigurace oblastı . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.2 Normalizace LRC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.2.1 Nalezenı zkosenı linearnı sekvence CER . . . . . . . . . . . . . . . . . . . . . 263.2.2 Nalezenı matice zpetne afinnı transformace . . . . . . . . . . . . . . . . . . . 28

3.3 Shrnutı . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

4 Experimenty 314.1 Pouzitı metody na problem detekce SPZ . . . . . . . . . . . . . . . . . . . . . . . . . 314.2 Optimalnı nastavenı selektoru . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334.3 Merenı chyby detekce znaku v zavislosti na jejich poloze . . . . . . . . . . . . . . . . 344.4 Zpracovanı v realnem case . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

vii

OBSAH viii

4.5 Segmentace znaku z normalizovane SPZ . . . . . . . . . . . . . . . . . . . . . . . . . 374.6 Merenı chyby v zavislosti na jasovych podmınkach . . . . . . . . . . . . . . . . . . . 384.7 Merenı chyby v zavislosti na maximalnı povolene entropii znaku . . . . . . . . . . . 39

5 Implementace a Interface 41

6 Zaver 436.1 Shrnutı vysledku . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 436.2 Mozne rozsırenı . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

Kapitola 1

Uvod

1.1 Definice problemu

V teto praci se zabyvame problemem detekce a lokalizace kategorie objektu v obraze. Objektybudeme modelovat jako prostorovou konfiguraci nejakych pro ne chrakteristickych castı (oblastı,CER - Characteristic Extremal Regions), kde oblastı chapeme libovolnou souvislou mnozinu boduv obraze. V teto praci jsme se soustredili na volbu CER z lokalne prahove oddelitelnych oblastı(ER [5]). To jsou takove nejvetsı souvisle oblasti ve kterych je jasova hodnota kazdeho bodu mensınez nejaky zvoleny prah T. Volıme takove ER, ktere dobre charakterizujı hledany objekt (CER ⊂ER).

Zpusob detekce a lokalizace objektu na zaklade CER je uveden na Obr. 1.1. Ze vstupnıhoobrazu jsou vycısleny vsechny ER z nichz jsou ulozeny jen ty, ktere jsou selektorem vybranyjako CER. Mnozina detekovanych CER je rozdelena na skupiny prvku v prıpustnych konfiguracıchodpovıdajıcıch hledanemu objektu.

Protoze tato prace byla motivovana hledanım oblastı textu ve videosekvencıch jsou CER volenyjako znaky a cıslice. Ty jsou temer vzdy lokalne prahove oddelitelne a nachazejı se v linearnıkonfiguraci (radce). Hledana kategorie objektu je mnozina planarnıch napisu. Soustredıme se pouzena linearnı konfigurace CER, ktere jsou hledany uzitım Houghovy transformace jejich konvexnıhoobalu. Prıklady takovych detekovanych objektu jsou na Obr. 1.2. Prvnı ctyri obrazky ukazujı detekcinapisu na skriptech v ruznych polohach vuci kamere (afine, projektivne zkreslenych), castecnezakrytych a za ruznych svetelnych podmınek. Dalsı obrazky demonstrujı aplikaci na detekci SPZ(Statnı Poznavacı Znacka). Jak je videt navrzena metoda je invariantnı k poloze objektu vuci kamerei k svetelnym podmınkam a je dostatecne robustnı i v pro prıpad castecneho zakrytı.

Navrhli jsme obecny algoritmus detekce a lokalizace libovolne kategorie objektu na zaklade de-tekovanych charakteristickych oblastı v prıspustnych prostorovych konfiguracıch. Popisujeme rychlyzpusob enumerace ER oblastı a jejich selekce na zaklade rychle (tzv. inkrementalne) vypocitatelnychprıznaku. Jako prıznaky pro selekci CER jsou prevazne pouzity statisticke centralnı normalizovanemomenty.

1

KAPITOLA 1. UVOD 2

Obrazek 1.1: Navrzeny algoritmus detekce a lokalizace kategorie objektu

1.2 Struktura dokumentu

1. Uvod. Prvnı kapitola obsahuje mimo motivace a popisu zakladnıho principu take shrnutıstavu poznanı v problematice detekce objektu se specialnım zamerenım na detekci textu aSPZ.

2. Detekce a lokalizace CER. V druhe kapitole je nejdrıve uvedena definice extremalnı oblasti(ER). Dale je popsan algoritmus na rychlou enumeraci vsech ER. Dalsı cast je venovanaselekci CER ⊂ ER. V nı se venujeme popisu rychle (tzv. inkrementalne) vypocitatelnychprıznaku a uvadıme nektere prıznaky, ktere jsou takto vypocitatelne. Poslednı cast je venovanaklasifikatoru a algoritmu ucenı metodou bootstrap.

3. Nalezenı a normalizace linearnı konfigurace oblastı. Dalsı kapitola logicky navazuje napredchozı a popisuje algoritmus detekce objektu z nalezenych CER. Navrhujeme sdruzovanıoblastı do skupin s linearnı konfiguracı objektu. V dalsı casti je popsano jak nalezt zkosenı azpetnou afinnı transformaci (normalizaci) takoveto skupiny oblastı.

4. Experimenty. Metodu jsme prakticky odzkouseli na problemu detekce SPZ. V teto kapitolejsou popsany vysledky chybovost a invariantnost navrzeneho algoritmu.

5. Implementace a interface. Prace obsahuje i prilozene CD, ktere obsahuje zdrojove kodyprogramu (v C++ a MATLAB). V teto casti jsou popsany nektere zakladnı funkce a parame-try se kterymi lze program spoustet.

KAPITOLA 1. UVOD 3

Obrazek 1.2: Fotografie ukazujı hlavnı obtıze pri rozpoznavanı napisu: castecne zakrytı, projektivnızkreslenı prıpadne nedostatecny kontrast pri spatnych svetelnych podmınkach.

KAPITOLA 1. UVOD 4

6. Zaver. Obsahuje shrnutı metod, dosazenych vysledku a navrhy na navazujıcı prace.

1.3 Prınos teto prace

V teto praci prinasıme novy pohled na problematiku detekce a lokalizace kategorie objektu v obraze.Navrhujeme robustnı algoritmus detekce a lokalizace libovolne kategorie objektu na zaklade de-tekovanych charakteristickych oblastı v prıspustnych prostorovych konfiguracıch. Takto postavenydetektor muze byt metodami strojoveho ucenı preucen pro jakoukoliv kategorii objektu ze trıdyobjektu popsatelnych nejakou konfiguracı CER.

Hlavnı vyhody navrzeneho algoritmu

• Detektor je naucitelny na libovolnou kategorii objektu pouze metodami strojoveho ucenı.

• Necitlivost na zmenu svetelnych podmınek.

• Robustnost - necitlivy na castecne zakrytı hledaneho objektu.

• Afinne i projektivne invariantnı v nastavitelnych mezıch.

• Snadna volba kompromisu mezi rychlostı a chybovostı algoritmu.

Popisujeme algoritmus dynamicke enumerace ER a zavadıme novou trıdu prıznaku jejichz hod-noty lze s linearnım poctem operacı (vzhledem k poctu bodu v obraze) pri vhodne zvolenem popisuvypocıtat. U vybranych prıznaku tento popis nalezame.

Nalezame kompromis mezi prohledavanım vsech oblastı a unosnou rychlostı. Pri detekci prvkunejake kategorie objektu muze byt hledany objekt tvoren libovolnou k-ticı bodu (oblastı) v obraze.Pokud bychom chteli overit vsechny mozne oblasti v obraze s rozlisenım n × m (vsechny k-ticebodu k = 1...n × m), museli bychom rozhodnout o 2(n×m) oblastech. Takovy pocet nenı (probezne rozlisenı obrazu) v rozumne dobe overitelny viz Tab.1.1. Proto musıme v uloze detekce dodatomezujıcı podmınku, ktera mnozinu oblastı, ktere budeme prohledavat, redukuje a zvysuje takrychlost algoritmu. Muzeme se napr. omezit na to, ze hledame objekt konkretnı velikosti a × b a

Obecne m=320, n=2402(n×m) 1023000

(n×m) 105

Tabulka 1.1:

pak predlozit klasifikatoru (n− a)× (m− b) ruznych oblastı, ktere vzniknou vyrıznutım okna a× bz obrazu na vsech moznych pozicıch. Tento pocet je uz overitelny, ale podmınka konkretnı velikostinam temer znemoznuje prakticke pouzitı. Casto hledame v realnem svete objekty, ktere jsou ruznevelke ba dokonce nahodne pootocene ci jinak (afine, projektivne) deformovane.

Nahradıme-li podmınku konstantnıho zvetsenı podmınkou lokalnı prahove oddelitelnosti, zjistıme,ze souvislych prahove oddelitelnych oblastı je v obraze maximalne take n × m. Kdyz se navıcomezıme na realne sceny a objekty rozumne velikosti (vetsı nez S bodu) zjistıme, ze stacı otestovatmaximalne (n×m)/S oblastı. Smırıme-li se tedy s tım, ze nenajdeme prahove neoddelitelne objekty,

KAPITOLA 1. UVOD 5

jsme schopni za stejnou cenu probrat mnozinu oblastı libovolne deformovanych. Takto redukovanoumnozinu oblastı lze (i v realnem case) projıt a vybrat z nı CER hledaneho objektu.

Rozhodnutı o tom, zda-li je oblast hledanym CER je realizovano klasifikatorem (selektorem),ktery vyuzıva tvarovych a jasovych vlastnostı oblasti popsanych libovolnymi prıznaky. Tento klasi-fikator je trenovatelny na libovolnou kategorii objektu a proto je zajistena dostatecna obecnostvzhledem ke trıde objektu, ktere muzeme takto hledat.

1.4 Stav poznanı

1.4.1 Detekce obecne kategorie objektu

V soucasne dobe se hleda detektor, ktery by mohl byt univerzalne pouzitelny na detekci libovolnekategorie objektu. Takovy prıstup prinası napr. A.Zisserman v [4]. Jeho metoda je zalozena nadetekci vyznacnych oblastı (T.Kadir, M.Brady [6]) a hledanı objektu jako prıpustne konfiguracetechto vyznacnych oblastı. Metoda je demonstrovana na Obr. 1.3.

Obrazek 1.3: Detekce objektu na zaklade vyznacnych oblastı.

Vyznacne oblasti jsou v teto praci reprezentovany tzv. obrazovymi slovy. Kazda detekovanavyznacna oblast je reprezentovana malym vzorkem (11 × 11 bodu) do ktereho je prevzorkovanato znamena, ze metoda je invariantnı ke zvetsenı. Dale je navrzena statisticka metoda pro ucenıbez ucitele. Stroji je predlozena trenovacı sada kategorie objektu, ktere si prejeme detekovat. Jakoprıznaky popisujıcı hledany objekt jsou vybrany ty vyznacne oblasti, ktere se v trenovacı sadeopakujı ve stejnych prostorovych konfiguracıch.

Vyse uvedeny prıstup byl tez pouzit pro detekci obrazove vzoru ve video-sekvenci. Rychlost de-tekce byla blızka zpracovanı v realnem case, ale pouzitı vyzadovalo dlouhe predzpracovanı videosekvencea vytvorenı databaze cca 30.000 obrazovych slov. Predzpracovanı dvouhodinoveho filmu trvalo tydenpri pouzitı 30 vykonnych PC.

Dalsım moznym prıstupem je hledanı objektu jako v nejakem smyslu homogennıch oblastı.V [7] je detekce objektu zjednodusena na detekci oblasti stejne struktury (napr. textury). Hledanıobjektu je realizovano minimalizaci energeticke funkce. Algoritmus je sice uplne invariantnı ke vsem

KAPITOLA 1. UVOD 6

obrazovym deformacım, ale aplikovatelnost je podmınena stejnorodostı struktury objektu (zebra,tygr, atd.). Navıc nutny proces minimalizace nepovede zrejme na zpracovanı v realnem case.

1.4.2 Detekce textu

Jednou specializovanou kategoriı hledanych objektu muze byt hledanı textu v obraze. Problemdetekce a rozpoznavanı planarnıch textu v obraze je se zvysujıcım se zajmem o porozumenı obrazustrojem jednım z casto resenych problemu.

Pod problemem detekce textu se skryva nekolik poduloh. Zde uvadıme nektere z nich serazenepodle urovne obecnosti.

1. Detekce statickeho textu na jednoduchem pozadı (napr. fotokopie dokumentu)

2. Detekce statickeho textu na pohyblivem pozadı (napr. titulky u filmu nebo nazev TV stanice)

3. Detekce pohybliveho textu v statickych scenach z presne zname pozice (napr. detekce SPZstatickou kamerou na krizovatce).

4. Obecna detekce textu na planarnıch objektech (napr. cedule, znacky, billboardy) podlehajıcıafinnımu ci dokonce projektivnımu zkreslenı.

5. Uplne obecna detekce za libovolnych podmınek.

V dnesnı dobe se vetsina publikacı soustredı na uroven 4. Je temer obecna a je pravdou, ze jenmalo textu je umısteno jinak nez v rovine. Dale uvadıme nekolik prıstupu zabyvajıcıch se resenımtohoto problemu.

Detekce textu ve videosekvencıch je zalozena na Fourierove tranformaci (napr. v praci Diplomovepraci VUT-Brno). Tato metoda je dostatecne robustnı a funkcnı v realnem case, ale nenı invariantnık obrazovym deformacım. Je uspesne pouzita na komercnı aplikaci detekce a rozpoznavanı SPZ.

Jine navrhovane metody se casto soustredı na detekci planarnı struktury ve video-sekvenci [9].Vyuzıvajı modelovanı jasoveho toku bodu a detekujı pohyb odpovıdajıcı pohybu roviny. Taktonalezene oblasti jsou pak prohledavany ruznymi algoritmy. Napr. v [10] je popsana detekce textujako homogenıch oblastı nasledovana heuristickym vyloucenım netextovych oblastı. V [11] je textmodelovan jako skupina lokalne oddelitelnych oblastı parovatelnych na zaklade podobne jasoveurovne.

Dalsı zpusob detekce oblastı textu je zalozen na podmınce, ze text je casto umısten v obdelnıkovemramu, jehoz obrys lze hledat gradientnımi metodami. Obdelnık muze byt afinne deformovan narovnobeznık jehoz rohy jsou hledany jako GST (Generalized Symetry Tranform) viz Obr. 1.4 pop-sane v [3]. Takto nalezene oblasti jsou prohledavany metodami popsanymi vyse.

1.4.3 Detekce SPZ

Nejvetsı pozornost dnes a to i v komercnıch aplikacıch je venovana detekci a rozpoznavanı SPZ.Shrnujeme nekolik zakladnıch zpusobu detekce SPZ prevzatych z [2].

KAPITOLA 1. UVOD 7

Obrazek 1.4: Princip GST (prevzato z [3]).

Metoda prahovanı vstupnıho obrazku

Tato metoda je zalozena na prahovanı vstupnıho obrazku za ucelem zıskanı binarnıho obrazku,kde znaky znacky jsou cerne a pozadı bıle. Prahovany obrazek se potom prochazı od spoda vzhuru.Nalezne-li se cerna oblast, obchazı se kolem dokola za ucelem zjistenı sırky a vysky oblasti. Vyhovuje-li celkovy rozmer a pomer stran (aspekt) oblasti predpokladum,, je tato oznacena jako mozny znakSPZ. Jestlize je nalezeno dostatecne mnozstvı takovychto oblastı protınajıcıch jeden radek obrazku,je toto mısto oznaceno jako mısto vyskytu znacky. Jestlize zadne takoveto mısto nebylo nalezeno,zvysıme prah a proceduru opakujeme. Jestlize ani pro vsechny prahy nenalezneme odpovıdajıcımısto, vstupnı obrazek neobsahuje SPZ. Tento postup je podrobneji popsan v [27].

Pro spravnou funkcnost tohoto algoritmu je nutne splnit nekolik podmınek:

• Znaky znacky musı byt mozne segmentovat prahovanım. To vyzaduje stale podmınky osvetlenıpres celou znacku a dobry kontrast obrazku znacky.

• Znaky znacky se nesmı dotykat. Jestlize se dotykajı, potom jeden nebo vıce znaku muze bytprahovanım spojeno. Spojenım vznikne oblast, jejız rozmery nebudou odpovıdat pozadovanyma znacka nebude nalezena.

• Znacka musı byt bez trhlin, spıny, sroubu nebo jinych poskozenı, ktere by zpusobily spojenıznaku pri prahovanı.

Zarucenı techto podmınek je nemozne. Jedina vec, kterou lze kontrolovat, je velikost znacky vobrazku. Lze mıt pozadavek na velikost znacky s ohledem na zvetsenı kamery.

Metoda vertikalnıch hran a horizontalnı zavory

Uvedli jsme, ze segmentace prahovanım potrebuje pro spravnou funkci v praxi nerealne podmınkysnımanı obrazu. Jestlize se vyhneme potrebe prahovanı, muzeme sestavit robustnejsı system. Algo-ritmus popisovany v teto kapitole je zalozen na skutecnosti, ze obrazek znacky obsahuje vyznacny

KAPITOLA 1. UVOD 8

pocet vertikalnıch hran. Vertikalnı hrany jsou charakteristicke velkym rozdılem jasu sousedıcıchpixelu a jsou patrne jako skoky v horizontalnım rezu znackou. Tento krok algoritmu identifikujevsechny casti obrazku, ktere mohou reprezentovat znacku. Podrobneji je rozebran v [27]. Praci tetocasti algoritmu lze popsat takto:

1. Na kazdem n–tem radku proved’ horizontalnı rez vstupnım obrazkem. Cıslo n nesmı byt vetsınez nejmensı vyska znaku. To zarucuje protnutı znacky alespon jednım horizontalnım rezem.

2. Pro kazdy pixel z tohoto horizontanıho rezu, jestlize je rozdıl mezi hodnotami jasu aktualnıhopixelu a nasledujıcıho vetsı nez nejaky prah T , oznac tento aktualnı pixel jako vertikalnıhranu.

3. Seskup vsechny body vertikalnıch hran na danem horizontalnı rezu do skupin tak, ze hori-zontalnı vzdalenost mezi body vertikalnıch hran ve stejne skupine je mensı nez sırka nejsirsıhoocekavaneho znaku. Toto funguje za predpokladu, ze kazdy znak ve znacce produkuje minimalnejednu vertikalnı hranu a vzdalenost mezi dvema libovolnymi znaky nenı vetsı nez sırka znaku.Je-li vzdalenost mezi body dvou vertikalnıch hran vetsı nez sırka znaku, predpoklada se, zetyto body musı byt z jinych znacek.

4. Spoj sousednı skupiny do jedne. Kazda skupina potom reprezentuje moznou znacku.

Pozice hranovych bodu v kazde skupine urcujı horizontalnı pozice mezer a levy a pravy extremznacky. Nynı je nutne filtrovat jednotlive skupiny bodu za ucelem nalezenı korektnıch SPZ:

1. Vezmi horizontalnı usecku mezi levym a pravym extremem znacky a rozdel ji do nekolikastejnych intervalu. Pro kazdy interval najdi hornı a dolnı hranici znacky. Umıst’uj horizontalnızavoru postupne po celem intervalu a pro kazdou pozici posunuj postupne o jeden pixel tutozavoru vertikalne nahoru nebo dolu. Pocıtej pritom kolik vertikalnıch hran se nachazı nateto zavore. V mıste nad znakem bude na zavore malo vertikalnıch hran (idealne zadna).Maximalnı vyska do ktere lze zavoru posunovat odpovıda nejvetsımu prıpustnemu znaku.

2. Metodou nejmensıch ctvercu urci prımky rovnobeznıka znacky z odhadu hornı hranice znackypomocı horizontalnı zavory.

Tato metoda nebude podavat spravne vysledky pro znacky s vetsım natocenım vuci stranamobrazku. Podobna technika pro detekci pozice SPZ je popsana v [28], [29].

Scıtanı gradientu jasove funkce

Charakteristickym znakem SPZ je, ze obsahujı velky pocet vyznamnych nespojitostı v relativne maleoblasti. To muze byt jednoduse zmereno souctem gradientu jasove funkce v malych obdelnıkovychoblastech. Vyuzijeme k tomu rovnost:

S(x, y) =i=x+ xs

2∑i=x− xs

2

j=y+ ys2∑

j=y− ys2

√(δf

δy(x, y)

)2

+(δf

δx(x, y)

)2

, (1.1)

kde xs a ys je velikost male obdelnıkove oblasti.

KAPITOLA 1. UVOD 9

Oblasti, ktere budou mıt velky soucet gradientu, mohou byt potom vysetreny mnohem detailneji.Muzeme potvrdit nebo vyvratit prıtomnost SPZ a prıpadne aproximovat hranici znacky. Bohuzeltato technika pracuje spravne pouze pro dostatecne rozlisenı obrazku. Jestlize je rozlisenı na znaccemale, gradient ma tendenci se zmensovat vyhlazovacım filtrem, ktery je soucastı vetsiny hranovychdetektoru. Naopak kdybychom filtr nepouzıvali, objevı se prıdavne gradienty zpusobene sumem.Tato technika je popsana v praci [30].

Kapitola 2

Detekce a lokalizace CER

V teto kapitole navrhujeme zpusob enumerace [2] souvislych lokalne prahove oddelitelnych oblastı(tzv. ER - extremalnıch oblastı [5]) a jejich popisem (tj. volbou prıznaku). Budeme hledat prıznaky,ktere jsou dostatecne rychle (tzv. inkrementalne) vypocitatelne. Navıc budeme vyzadovat, aby bylyinvariantnı k vybranym obrazovym deformacım. Extremalnı oblasti (ER) dobre charakterizujıcıobjekt, ktery hledame budeme nazyvat CER (Characteristic Extremal Regions).

2.1 Extremalnı oblasti

Digitalizovany obraz I budeme povazovat za zobrazenı I : D ⊂ Z2 → S, kde D je mnozina vsechbodu a S je uplne usporadana funkce jejich jasovych hodnot (napr. S = {0, 1, ..., 255}).

Dale zavedeme relaci sousedstvı A ⊂ D × D. Pokud uvazujeme 4-sousedstvı bodu, pak bodyp, q ∈ D jsou v relaci

pAq ⇔n∑

i=1

|pi − qi| ≤ 1). (2.1)

Rekneme, ze oblast Q ⊂ D je souvisla pokud

∀p,q ∈ D∃[p,a1,a2,...,an,q] : pAa1, aiAai+1, anAq. (2.2)

Oznacme ∂Q vnejsı hranici oblasti

∂Q = {q ∈ D\Q : ∃p ∈ Q, qAp}. (2.3)

Oznacme bodove mnozinove zobrazenıR(T ) : S → U(D) (kde U(D) je mnozina vsech podmnozinD ∈ Z2) takove, ze pro Q = R(T ) platı

• ∀q∈QI(q) ≤ T ,

• ∀r∈∂QI(r) > T .

Potom existuje rozklad R(T ) na podmnoziny Rp(i)(T ) tak, ze platı

• R(T ) =⋃

iRp(i)(T ),

10

KAPITOLA 2. DETEKCE A LOKALIZACE CER 11

• ∀iRp(i)(T ) souvisla,

• ∀i 6=jRp(i)(T ) ∪Rp(j)(T ) je nesouvisla

• ∀i 6=jRp(i)(T ) ∩Rp(j)(T ) = ∅

• p(i) je globalnı minimum na Rp(i)(T )

Kazdou oblast Rp(i)(T ) nazyvame extremalnı oblastı s pocatkem v p(i). Extremalnı oblasti jsounejvetsımi souvislymi oblastmi oddelenymi prahem T . Oznacme mnozinu vsech oblastı rozkladu

R(T ) = {Rp(i)(T )}. (2.4)

R(T ) je mnozinou vsech extremalnıch oblastı, ktere na I pro dany prah T existujı. Sjednocenı

Rtot = (T )⋃T

R(T ) (2.5)

je mnozina vsech prahove oddelitelnych oblastı, ktere v obraze vzniknou. Nynı muzeme popsatnavrzeny algoritmus detekce.

2.2 Algoritmus detekce a selekce CER

Metoda je zalozena na dynamickem prahovanı a prubezne klasifikaci vzniklych R(T ) oblastı dodvou trıd (uchovat, zapomenout). Oblasti prvnı trıdy jsou uchovany pro pozdejsı klasifikaci pomocıslozitejsıho klasifikatoru. Cela metoda je shrnuta ve Schematu 2.1.

Aby bylo mozno mnozinu vsech extremalnıch oblastı R(T ) generovat v realnem case je potrebavyuzıt toho, ze pro kazdy prah T ∈ S platı

∀r1∈R(T )!∃r2∈R(T+1) : r1 ⊆ r2. (2.6)

Tento fakt je naznacen na obr.2.2. Vidıme, ze s rostoucım prahem dochazı ke spojovanı oblastıa pripojovanı mensıch oblastı k vetsım. Oblast, ktera vznikne pri nejakem prahu T1 bud’ samanarusta a nebo se pri nejakem prahu T2 pripojı k jine oblasti, ale jejı body uz pro vsechny T > T1

patrı do R(T ).


Obrazek 2.1: Schema


Algoritmus A1

1. Prah T=1 a mnozina RCER = ∅ a R(0) = ∅

2. R(T ) = R(T − 1) Pro vsechny body p takove, ze I(p) = T

(a) Pokud ∃!ri ∈ R(T ), i = 1..n, p ∈ ∂ri ⇒ ri = ri ∪ p.

(b) Pokud ∃ri, rj ∈ R(T ), i, j = 1..n, i 6= j, p ∈ ∂ri ∧ p ∈ ∂rj ⇒ ri = ri ∪ rj ∪ p ∧ R(T ) =R(T )\rj .

(c) Pokud ¬∃ri ∈ R(T ), i, j = 1..n, p ∈ ∂ri ⇒ rn+1 = p, R(T ) = R(T ) ∪ rn+1.

3. Pro kazdy zmeneny prvek r ∈ R(T ) vypocteme vektor prıznaku

−→Fr = φ(r(T )) (2.7)

4. Kazdy vektor prıznaku oklasifikujeme jednoduchym klasifikatorem do vyse zmınenych dvoutrıd. Mnozinu oblastı C, ktere byly vybrany pro uchovanı pripojıme RCER = RCER∪C (Tentoproces nazyvame selekce oblastı a tento klasifikator nazveme selektor).

Jak ukazeme, vypocet prıznaku v rovnici 2.7 bude provaden z jiz predpocıtaneho tzv. inkre-mentalnıho popisu.

Jak uz bylo receno, existuje zde omezujıcı podmınka prahove oddelitelnosti. To znamena, zebudeme schopni nalezt libovolnou souvislou oblast Q prave tehdy kdyz

∃r ∈ R(T0)r ≡ Q. (2.8)

Obrazek 2.2: Schema

Zaved’me nynı pojmy

• Prah T1 ∈ S vzniku oblasti rT1 ∈ R(T1) je takovy prah pro ktery pro vsechny oblasti s ∈R(T1 − 1) platı, ze rT1−1 ∩ s = ∅


• Prah T2 ∈ S zaniku oblasti rT2 ∈ R(T2) je prah pro ktery existuje sT2 ∈ R(T2) a sT2+1 ∈R(T2 + 1) takove, aby sT2 ⊆ sT2+1, rT2 ⊆ sT2+1) a ℵ{rT2} ⊆ ℵ{sT2}

• Kazdy prah T, ktery nenı prahem vzniku (T1) nebo zaniku (T2) oblasti rT ∈ R(T ) je prahexistence oblasti.

• Doba existence oblasti je (Te = T2 − T1 + 1)

Sekvence oblastı L = rT1 ∈ R(T1), ri ∈ R(i), rT2 ∈ R(T2), pro ktere platı ∀i∈〈T1;T2〉rT1 ⊆ ... ⊆ri−1 ⊆ ri ⊆ ... ⊆ rT2 je svazem. Teto vlastnosti lze vyuzıt pro rychle generovanı R(T ) popsanev [2]. My vyuzijeme teto vlastnosti pro rychly vypocet prıznaku.

2.3 Inkrementalne vypocitatelne prıznaky

2.3.1 Uvod

Zakladnı podmınkou praktickeho vyuzitı navrhovane metody je dostatecna rychlost, proto se privolbe prıznaku omezıme na tzv. inkrementalne vypocitatelne prıznaky. Uvazme, ze bychom chtelipro svaz oblastı (L) vypocıtat teziste vsech jeho oblastı r ∈ L. Nejlepsım resenım z hlediska slozitostivypoctu je uchovavat soucet souradnic jejich bodu

g(r) =k∑

i=1

ri, (2.9)

kde k je pocet bodu v oblasti. Pak kazdou nasledujıcı oblast muzeme vyjadrit jako sjednocenı oblastir a jejıho prırustku ∆r a platı, ze

g(r ∪∆r) = f(g(r), g(∆r)) = g(r) + g(∆r), (2.10)

a rıkame, ze funkce g je dostatecnym popisem vzhledem k prıznaku teziste, ktery pak snadnovypocteme

φ(g(r1 ∪ r2)) = φ(f(g(r), g(∆r))) =1

k1 + k2︸︷︷︸φ

k1∑

i=1

ri︸︷︷︸g(r)

+︸︷︷︸f

k2∑i=1

∆ri︸︷︷︸g(∆r)

. (2.11)

Dostatecnostı mınıme to, ze si stacı zapamatovat g(r) a g(∆r) a nemusıme si pamatovat vycet boduobou oblastı, abychom mohli spocıtat teziste oblasti r ∪∆r. Jak ukazeme, tento fakt ma vyznamnejen v podstatnem usetrenı pameti, ale hlavne v rychlosti vypoctu prıznaku.

Je zrejme, ze existuje mnoho ruznych voleb (g, f, φ) ktere davajı stejny vysledek, ale jen nektereminimalizujı dimenzi oboru hodnot funkce g

dg = dim(g(U(Z2))), (2.12)

ktera je pro slozitost vypoctu nejpodstatnejsı. Platı totiz, ze pro n mnozin svazu L kde kazda je om bodu vetsı nez predchazejıcı nam stacı

O = dg.(n+m) (2.13)


operacı. V vyse uvedene volbe funkce g pro vypocet teziste je dg = 2 (O ∼ n), ale zvoli-li bychom g

tak aby jen uchovavala vsechny body oblasti g(r) = r, pak by dg = n a O ∼ n2 viz Tab.2.1). Vyseuvedene skutecnosti muzeme nynı napsat ve spravne forme.

n (m=1) dg = 2 dg = n

10 22 110100 202 10.1001000 2002 1.001.000

Tabulka 2.1:

Trojici funkcı (g, f, φ)

• g : U(Z2) → Rm,

• f : (Rm,Rm) → Rm,

• φ : Rm → Rn

nazveme inkrementalnım popisem prıznaku φ pokud

φ(g(r ∪∆r)) = φ(f(g(r), g(∆r))), (2.14)

pro

• r,∆r ∈ R(T ),

• r ∪∆r je souvisla,

• r ∩∆r = ∅.

Trojici (g∗, f, φ) nazveme minimalnım inkrementalnım popisem prıznaku, kde

g∗ = ming{dim(g(U(Z2)))}. (2.15)

Pokuddg∗ = konst. (2.16)

(tj. a nenı funkcı poctu oblastı ve svazu) je pocet operacı nutny k vypoctu prıznaku linearnı funkcıvsech oblastı svazu a tento prıznak nazveme (lineane) inkrementalne vypocitatelny a rıkame,ze ma vlastnost (linearnı) inkrementality vypoctu.

Jak bude ukazano vlastnost inkrementality vypoctu majı napr. centralnı momenty, entropiehistogramu oblasti, kompaktnost, pocet der v oblasti, atd. Navıc budeme vyzadovat, aby pouziteprıznaky byly invariantnı, alespon k translaci a zvetsenı.


2.3.2 Momenty

Mnozina vsech centralnıch momentu do (K+L)-teho radu

MKL = {mkl; k = 1 . . .K, l = 1 . . . L}, (2.17)

kdemkl =

∫ ∫(x− x)k.(y − y)ldxdy, (2.18)

je dobrym deskriptorem tvaru oblasti a je navıc invariantnı k translaci. Presnost popisu tvaru jesnadno menitelna dle potreby (napr. pouzijeme-li momenty do tretıho radu zıskame 7 prıznaku,pouzijeme-li momenty do sesteho radu mame k dispozici uz 25 prıznaku). Obecne platı, ze MKL

pro (K + L) → ∞ je ekvivalentnı s libovolnym jinym popisem oblasti (napr. nekonecnym vyctemvsech bodu).

Centralnı moment mkl souvisle oblasti Ri(T ) dane mnozinou N bodu muze byt vypocıtan zezakladnıch momentu

mkl =1N

N∑j=1

[k∑

u=0

l∑v=0

(k

u

)(l

v

)m′(j)kl

]. (2.19)

kde m′(j)kl je zakldnı moment j-teho bodu umısteneho na souradnicıch [a,b].

m′(j)kl =

b+1∫b

a+1∫a

xk.yldxdy =((a+ 1)k+1 − ak+1)((b+ 1)l+1 − bl+1)

(k + 1)(l + 1)(2.20)

Podstatnou vyhodou toho, ze pocıtame centralnı momenty ze zakladnıch je inkrementalnı popisvypoctu Rce. 2.14 - tj., ze pro oblast r ∪∆r, ktera vznikne pridanım mnoziny bodu ∆r do oblastir lze zakladnı moment vypocıtat

m′kl(r ∪∆r) = m′

kl(r) +m′kl(∆r). (2.21)

Inkrementalnı popis mnoziny prıznaku MKL je trojice rovnic (g∗, f, φ)=(2.20, 2.21 ,2.19). Protozeplatı, ze dimenze funkce g je pro K = L

dg =K2 + 3K + 2

2. (2.22)

je podle Rce. 2.16 MKL linearne inkrementalne vypocitatelny.Takto zavedene centralnı momenty jsou invariantnı pouze k translaci. Zavedeme-li momenty

mkl =mkl

S.Z(k+l), (2.23)

kdeZ = max{Zx, Zy}, (2.24)

a kde Zx a Zy jsou zvetsenı oblasti v horizontalnım a vertikalnım smeru viz Obr.2.3(a) vzhledem kjednotkove oblasti (oblast pouze s jednım pixelem) a S je plocha oblasti v pixelech, muzeme ukazat,ze jsou invariantnı ke zvetsenı.

Necht’ uzavrena krivka c je obvodem oblasti R ∈ R(T ) a necht’

Q =x(k + 1)k + 1

· yl, P = 0, (2.25)


pak z Greenovy vety

mkl =

∫R

∫xkyldxdy

Zk+l ·∫R

∫dxdy

=

∮c

Qdy + Pdx

Zk+l ·∫R

∫dxdy

(2.26)

necht’x = Z.ϕ(t), y = Z.ψ(t) (2.27)

je parametrizace krivky c, kde Z je zvetsenı a funkce ϕ(t) a ψ(t) popisujı pouze tvar oblasti. Potom

mkl =

∮c

xk+1

k+1 yldy

Zk+l ·∫

R

∫dxdy

=

∫t

Zk+1ϕk+1(t)Zlψl(t)Zψ(t)dt

Zk+l+2 ·∫t

ψ(t)ϕ(t)(2.28)

a po vykracenı zlomku vyrazem Zk+l+2

mkl =

∫t

ϕk+1(t)ψl(t)ψ(t)dt∫t

ψ(t)ϕ(t)(2.29)

vidıme, ze mkl nenı funkcı Z a zavisı pouze na funkcıch ϕ(t) a ψ(t) popisujıcıch tvar oblasti.Vyse popsanym zpusobem jsme schopni spocıtat mnozinu momentu MKL invariantnıch k translaci

a zvetsenı. V obrazech porızenych v realnych scenach se obvykle vyskytujı castecne i deformace ro-tace a zkosenı. Samozrejme lze pouzıt i afinnı momentove invarianty [1], ale tato metoda nenıvhodna pro segmentaci tvarove ruznorodych objektu (napr. znaku), protoze vhodnou deformacı li-bovolneho prvku z mnoziny segmentovanych objektu lze dosahnout v podstate libovolnmeho tvaru(napr. afinnı invariant znaku I je libovolny rovnobeznık). Proto castecne invariantnosti dosahu-jeme tım, ze klasifikatoru pri ucenı predkladame prıklady jiz deformovane pokud mozno s cetnostıodpovıdajıcı apriornı pravdepodobnosti vyskytu v uloze pro kterou segmentaci ucıme (coz je zajistenopouzitım trenovacı mnoziny vytvorene z nasnımanych dat pro tuto ulohu).

Obrazek 2.3: (a) Zvetsenı oblasti R ∈ R(T ). (b) Oblast R = {[0, 0]}.

Poznamenejme, ze pri vypoctu vychazıme z integralnı definice momentu Rce. 2.20 z duvodu


presnosti. Pro nazornost spocteme diskretnı (md20) a spojity (mc

20) druhy centralnı moment izolo-vaneho bodu Obr.2.3(b).

m20 =1N

N∑i=1

(xi − x)2 = 0 (2.30)

m20 =1N

∞∫−∞

∞∫−∞

(x− x)2 dxdy =

12∫

− 12

12∫

− 12

x2dx =[x3

3

] 12

− 12

=13

(18

+18

)=

112

(2.31)

Porovnanım vysledku vidıme jake chyby bychom se dopustili, kdybychom momenty pocıtali zdiskretnı definice. Chyba se s rostoucım poctem pixelu oblasti snizuje.

2.3.3 Kompaktnost

Kompaktnost C oblasti R ∈ R(T ) je definovana vztahem

C =

(∮c

dc

)2

∫R

∫dxdy

, (2.32)

kde c je uzavrena obvodova krivka oblasti. To znamena, ze je pomerem druhe mocniny obvoduku plose. Je zrejme, ze je translacne invariantnı, protoze ani plocha ani obvod nejsou funkcemitranslace. Ukazme nynı, ze je tez invariantnı ke zvetsenı. Necht’

x = Z.ϕ(t), y = Z.ψ(t), (2.33)

je parametrizace krivky c, pak podle Greenovy vety

C =

(∮c

dc

)2

∮c

xdy=

(∫t

√(ϕ(t).Z)2 + (ψ(t).Z)2dt

)2

∮c

ϕ(t).Z.ψ(t).Zdt, (2.34)

a po vykracenı vyrazem Z2 vidıme, ze

C =

(∫t

√(ϕ(t))2 + (ψ(t))2dt

)2

∮c

ϕ(t)ψ(t)dt, (2.35)

nenı funkcı zvetsenı a jeho hodnota zavisı pouze na tvaru oblasti danem funkcemi ϕ(t) a ψ(t).Dale ukazeme, ze vypocet obvodu (O) a plochy (S) je inkrementalnı Rce.2.14. Vidıme, ze pro

plochu platıS(R ∪∆R) = S(∆R) + S(R). (2.36)

ale pro obvod tomu tak nenı. Zavedeme-li, ale funkci Γ(R1, R2), ktera je rovna poctu vzajemnychortogonalnıch sousedu oblastı (R1, R2). Potom, platı

O(R ∪∆R) = O(∆R) +O(R)− Γ(R,∆R). (2.37)

Ukazali jsme, ze kompaktnost je invariantnı k translaci i zvetsenı a je linearne inkrementalnevypocitatelna s dg = 2 (obvod a obsah).


2.3.4 Entropie a stabilita kumulativnıho histogramu

Rostoucı funkci H(T ) : N → N , ktera popisuje velikost oblasti v zavislosti na prahu nazyvamekumulativnı histogram oblasti R viz. Obr.2.4.

Obrazek 2.4: Kumulativnı histogram

H(T ) = ℵ{R(T )} (2.38)

Stabilitu histogramu posuzujeme na zaklade pomeru

max∆T

∆T∆S(∆T )

. (2.39)

Je zrejme, ze pokud pouzijeme normalizovany kumulativnı histogram

H(T ) =H(T )

H(Tmax), (2.40)

je pojem stability invariantnı ke zvetsenı (a samozrejme k translaci). Dale uvazujme pouze normal-izovany kumulativnı histogram. Pojem stability muzeme zobecnit pouzitım entropie kumulativnıhohistogramu

E(T ) =T∑

t=1

h(T )T

· log(h(T )T

), (2.41)

ktera bude minimalnı, kdyz stabilita bude maximalnı, kde

h(T ) = ∆H(T ) = H(T )−H(T − 1). (2.42)

Takto zavedena entropie nenı linearne inkrementalne vypocitatelna, ale lze odvodit, ze

E(T + 1) =1

T + 1E(T + 1)− log(T + 1)

T + 1E(T + 1), (2.43)

kdeE(T + 1) = E(T ) + h(T + 1) log(h(T + 1)), (2.44)

aE(T + 1) = E(T ) + h(T + 1), (2.45)


Muzeme tedy inkrementalne pocıtat E, E a z Rce. 2.43 (realizujıcı funkci φ) vypocıtat entropiiE. Nalezli jsme popis (g∗, f, φ)=(2.44 a 2.45, ”+”, cumE ) s dg = 2. Jak bylo ukazano entropiehistogramu oblasti je invariantnı k translaci, zvetsenı a je zrejme, ze i k rotaci, avsak jejı pouzitısnizuje schopnost invariance ke zmene svetelnych podmınek.

2.3.5 Pocet der v oblasti

Pocet der v oblasti je prıznak urcite nezavisly na posunu i zvetsenı. Nynı ukazeme, ze je i liniearneinkremetalne vypocitatelny. Lze ukazat, ze pro libovolnou oblast je pocet der

P = 1 +U −O

4, (2.46)

kde U je pocet uzavrenych a O otevrenych rohu viz. Obr.2.5(a) Abychom znali pocet der stacı

Obrazek 2.5: (a) P = 1 + 5−54 = 1 (b) Osmi-sousedstvı.

umet linearne inkrementalne vypocıtat pocet U a O. Predpokladejme, ze k oblasti R pripojujemeoblast jednoho bodu p, pak tento bod muze byt v relaci 8-sousedstvı az s 8 ruznymi body oblastiR viz.Obr.2.5(b). Rozlisujeme 4 rohy bodu p ((0,1,2),(2,3,4),(4,5,6),(6,7,0)). Kazdy roh bodu p

ovlivnuje pocet U nebo O vysledne oblasti zvlast’. Pocet bodu oblasti R lezıcıch v rohu bodu p lzezapsat binarne, kde 0 znamena, ze bod nenalezı a 1 ze bod nalezı oblasti R. Tento binarnı kodbudeme nazyvat stavem rohu. Napr. bod na Obr.2.5(a) na souradnicıch [−1,−1] bude mıt rohy vestavu ((111), (100), (000), (001)). Podle Tab.2.2 muzeme urcit zmenu ∆U a ∆O celkove oblastiR ∪ p zpusobenou kazdym rohem bodu p. Takze po pripojenım bodu [−1,−1] by se celkovy pocetzmenil o

∆U = (−1) + (0) + (0) + (0) = −1, (2.47)

∆O = (0) + (−1) + (+1) + (−1) = −1, (2.48)

a tedy vysledny pocet der by zustal stejny.


Stav ∆U ∆O(000) 0 +1(001) 0 -1(010) +2 0(011) +1 0(100) 0 -1(101) -1 0(110) +1 0(111) -1 0

Tabulka 2.2:

2.3.6 Dalsı inkrementalne vypocitatelne veliciny

Mimo uvedenych prıznaku, muzeme nalezt celou radu velicin, ktere muzeme take inkrementalnevypocıtat.

• min[i,j]∈r{I(i, j)} je inkrementalne vypocitatelne pro popis (g, f, φ) = (min(r),min(r,∆r), 1)

• max[i,j]∈r{I(i, j)} je inkrementalne vypocitatelne pro popis (g, f, φ) = (max(r),max(r,∆r), 1)

• Strednı hodnota jasu oblasti 1N

∑[i,j]∈r{I(i, j)} (muzeme normalizovat prahem-tj. nejvyssım

jasem) je inkrementalne vypocitatelna pro popis

(g, f, φ) = (∑pi∈r

I(pi), r + ∆r,1N

)

• Velikost prumetu oblasti ve zvolenem uhlu α je inkrementalne vypocitatelna pro popis

g(r) = (pmax, pmin) = (maxpi∈r

{P (pi, α)},minpi∈r

{P (pi, α)}),

f(g(r), g(∆r)) = (pmax, pmin) = (max{pmax(r), pmax(r)},min{pmin(∆r), pmin(∆r)}),

φ(g(r)) = pmax − pmin,

kde P (pi, α) je vzdalenost prumetu bodu pi na prımku (s uhlem α a prochazejıcı pocatkem)od pocatku.

2.4 Selektor

Jako selektor jsme pouzili neuronovou sıt’ (NN) viz Obr. 2.6. Dynamicky generujeme ER a k niminkrementalne pocıtame prıznaky, ktere predkladame selektoru trıdıcımu je do dvou skupin (CERa non-CER). Ty ktere byly vybrany jako CER jsou uchovany. Kdyz proces enumerace skoncı mamek dispozici seznam detekovanych CER, v kterem hledame prıpustne prostorove konfigurace.

Trenovanı NN bylo zalozeno na cyklickem opakovanı metody bootstrep.


Obrazek 2.6: CER selekce neuronovou sıtı

Algoritmus A2

1. Necht’ Ni ⊂ N je podmnozina nenalezenych CER z mnoziny vsech trenovacıch CER (N ) anecht’ Pi ⊂ P je podmnozina nenalezenych CER z mnoziny vsech trenovacıch non-CER (P).A necht’ i = 0.

2. Nalezneme Ni ⊂ N , Pi ⊂ P pro klasifikator nauceny na nejake trenovacı mnozine.

3. Vybereme k nahodne zvolenych prvku z Ni i z Pi a pridame je do trenovacı mnoziny.

4. i = i+ 1 a opakujeme pokud nejsme s vysledky spokojeni.

kde k je parametr algoritmu. Volbou k muzeme urychlit konvergenci celkove chyby na trenovacıchdatech, ale minimalizace chyby na testovacıch datech nenı zarucena. Pri prehnanem poctu opakovanıvyse zmıneneho algoritmu dochazı pri dostatecnem poctu oblastı ke stagnaci chyby pokud nemamedost trenovacıch dat dojde ke tzv. preucenı klasifikatoru, ktery je pak bezchybny na trenovacımnozine, ale na ukor funkcnosti na testovacıch datech.

Kapitola 3

Nalezenı a normalizace linearnı

konfigurace oblastı

V teto kapitole popıseme algoritmus, ktery nejakou mnozinou CER rozdelı na podmnoziny odpovıdajıcıjednotlivym linearne uskupenym podmnozinam oblastı (LRC - Linear Regions Configuration) radeka nalezne jejich normalizujıcı transformaci. Rozdelenı oblastı je realizovano metodou sdruzovanıoblastı na zaklade obrazu jejich konvexnıho obalu do Houghova akumulatoru. Kazda skupina oblastıje normalizovana linearnı transformacı predpokladajıcı pouze afinnı deformaci.

Aby bylo mozno metodu pouzıt pro detekci libovolnych objektu je potreba najıt algoritmushledajıcı libovolnou konfiguraci detekovanych CER. Nase prace bylo motivovana problematikoudetekce textu v obraze a videosekvencıch , proto jsme se zde omezili na hledanı skupin linearneumıstenych oblastı.

3.1 Nalezenı linearnı konfigurace oblastı

V teto kapitole se budeme zabyvat sdruzovanım oblastı do skupin a hledanım nejpravdepodobnejsıkonfigurace oblastı. Omezıme se na to, ze hledame pouze jednu skupinu oblastı ktera tvorı jen jednuradku. Nıze zmıneny algoritmus lze zobecnit pro libovolny model sdruzovanı (do slov, radku ci jinaklinearne umıstenych n-tic oblastı). Budeme predpokladat, ze mame k dispozici nejakou mnozinu Roblastı, kde kazda oblast R ∈ R bude reprezenotovana mnozinou bodu sve vnejsı hranice. Dalezjednodusıme problem a omezıme se na sdruzovanı na zaklade konvexnıho obalu.

Pro kazdy uhel ϕ (viz Obr. 3.1a) existujı dva body konvexnıho obalu oblasti R ∈ R.

Amin = arg minA∈R

{ρ(A, p)}, (3.1)

Amax = arg maxA∈R

{ρ(A, p)}, (3.2)

kde ρ(A, p) je vzdalenost bodu A z oblasti R od prımky p.Oznacme qmin, qmax body kolmeho prumetu bodu Amin, Amax na prımku q. Oznacme

rmin = ρ(O, qmin), (3.3)

23

KAPITOLA 3. NALEZENI A NORMALIZACE LINEARNI KONFIGURACE OBLASTI 24

Obrazek 3.1: (a) Prumet bodu konvexnıho obalu (b) Houghuv akumulator

rmax = ρ(O, qmax), (3.4)

vzdalenost qmin, qmax od prusecıkuO prımek p, q. Potom budeme-li prusecıkO povazovat za pocatekbude

rmin = xAmin cosϕ+ yAmin sinϕ (3.5)

rmax = xAmax cosϕ+ yAmax sinϕ (3.6)

Zavedeme-li booleovskou funkci f : (U(Z2),Z) → {0, 1} tak, ze

f(R, r) =

{1 r = [rmin(R)] ∨ r = [rmax(R)],0 else

(3.7)

kde [] znacı zaokrouhlenı (napr. [0.4]=0, [1.5]=2), potom jednorozmernym Houghovym aku-mulatorem bodu konvexnıho obalu oblasti bude funkce aϕ(r) : Z → Z

aϕ(r) =∑

R∈(R)

f(R, r). (3.8)

Velikost maxr(aϕ(r)) v kazdem uhlu ϕ odpovıda pravdepodobnosti, ze je uhlem nejvetsı linearnıkonfigurace (viz. Obr 3.1(b)). Potom uhlem nejpravdepodobnejsıho smeru LRC bude

ϕ∗ = arg maxϕ{max

r{aϕ(r)}} (3.9)

a mnozina oblastı pro kterou platı, ze

Rε = {R ∈ R|ρ(rmin(R), r∗) < ε} (3.10)


je s ε-tolerancı na jedne radce, kde ε je parametr metody. Otazkou zustava jak ε volit, coz zalezı nakonkretnım modelu situace. Budeme-li hledat napr. slovo konretnı delky (napr. d) muzeme ε volitdynamicky tak aby

ℵ{Rε} = d. (3.11)

Obrazek 3.2: Princip

Nynı muzeme shrnout cely algoritmus sdruzovanı


Algoritmus A3

1. Necht’ R je mnozina prohledavanych oblastı.

2. Pro kazdy uhel ϕ spocteme aϕ(r) podle Rce. 3.8 (viz. Obr.3.2c).

3. Vypocteme funkci maxr{aϕ(r)} (viz. Obr. 3.2b).

4. Nalezneme ϕ∗ podle Rce.3.9.

5. Pro nalezeny ϕ∗ nalezneme mnozinu oblastı lezıcı v radce (R)ε podle Rce 3.10 a viz Obr. 3.2d.

Pokud bychom chteli aplikovat algoritmus na hledanı vıce radek textu, lze vyse popsany algo-ritmus zobecnit.

Algoritmus A4

1. Necht’ n je pocet hledanych radek, i = 1 je aktualnı iterace algoritmu a R(1) = R je mnozinaprohledavanych oblastı .

2. Vyse popsanym zpusobem nalezneme nejdelsı LRC R(i)ε .

3. Oblasti nalezıcı teto radce vyradıme z prohledavane mnoziny v dalsı iteraciR(i+1) = R(i)\R(i)ε

4. i = i+ 1 a pokud i 6= n opakujeme od bodu 2.

3.2 Normalizace LRC

3.2.1 Nalezenı zkosenı linearnı sekvence CER

Abychom mohli nalezenou skupinu (radku) oblastı normalizovat potrebujeme znat afinnı zkreslenı,ktere tuto deformaci zpusobilo. Znalost translace a rotace (ϕ∗) plyne z toho kde a v jake vzajemnepozici je skupina oblastı umıstena (viz. Obr.3.3a). Avsak zkosenı nenı jednoznacne urcitelne bezdodanı nejake apriornı informace o objektu ktery sdruzujeme. Napr. pri pohledu na cıslo ’1’ nevımejestli to nenı jen zkosene a pootocene cıslo ’7’. Toto bohuzel platı i pro skupinu znaku i kdyz tamje zamena trochu mene viditelna. Lidske oko odhaduje zkosenı na zaklade znalosti hledaneho tvarua zaroven zpetnovazebne vylucuje znaky ktere to nemohou byt. Takto zavedeny system je prılisslozity a v modernı dobe nedostatecne prozkoumany na to aby mohl byt realizovan algoritmem.Pokud se omezıme na hledanı znaku nası abecedy platı, ze vetsina je horizontalne symetricka (tzn.pro znak v normalizovane pozici platı m10 = 0).

Na Obr.3.3b je naznaceno jak ze znalosti rotace (ϕ) muzeme nalezt zkosenı (ψ). Zname-li uhel(ϕ) muzeme nalezt prımky p, q. Oznacme p(i) (resp. q(i)) mnozinu bodu i-te oblasti lezıcıch v


Obrazek 3.3: (a) zkoseni (b) uhly

spodnım (resp. hornım) δ-okolı prımky p (resp. q). Potom body

Pi =m∑

j=1

p(i), (3.12)

Qi =n∑

j=1

q(i) (3.13)

budou urcovat uhel zkosenı kazde oblasti

ψi = 6 (Pi −Qi)− ϕ. (3.14)

Ze zıskane mnoziny hypotez zkosenı ψ vybereme podmnozinu uhlu ψε ∈ ψ takovou, ze

• ∀i 6=j |ψi − ψj | < ε,

• maxℵ{ψε}.

Volba ε zavisı na konkretnı aplikaci a muze byt zalozena napr. na konkretnım pozadavku velikostiℵψε.

Na zaklade vyse uvedeneho popisu jsme schopni rozdelit detekovane ER na podmnoziny linearnıchsekvencı a kazde teto podmnozine priradit uhel rotace a zkosenı viz Obr. 3.3. Takovy popis de-formace spolecne s podmınkou afinity jednoznacne urcuje ctverici bodu ([xi, yi], i = 1..4) rohu


ohranicujıcıch hledany objekt (napr. SPZ). Takze na zaklade vybranych CER jsme nynı schopniurcit pozici objektu. Dale se zabyvame normalizacı afine deformovaneho detekovaneho objektu.

3.2.2 Nalezenı matice zpetne afinnı transformace

Lidske oko je organ umoznujıcı cloveku orientaci v prostoru a rozpoznavanı predmetu. Pohybujemese v trojdimenzionalnım svete, ale obraz, ktery je zachycen na sıtnici oka, je pouze dvojrozmerny.Obraz byl porızen projektivnı transformacı 3D prostoru pozorovane sceny. To same platı i pro obrazporızeny kamerou. Projektivnı transformace je v tomto prıpade transformacı z 3D prostoru okolnıhosveta do 2D prostoru sıtnice oka nebo tez senzoru kamery.

Projektivnı transformace pozorovaneho predmetu nezachovava v obraze rovnobeznost hran aniuhly svırane jednotlivymi hranami predmetu. Princip projektivnı kamery je patrny z obr. 3.4. Jsou-li (x, y, z) souradnice bodu v 3D scene a (x′, y′) souradnice v 2D prostoru promıtnuteho bodu vrovine senzoru kamery, potom z vlastnosti podobnych trojuhelnıku muzeme psat:

x′ = xfz

y′ = yfz ,

(3.15)

kde f je vzdalenost obrazove roviny od stredu promıtanı – tzv. ohniskova vzdalenost. Projektivnıtransformace je zobecnenım afinnı [16]. Projektivnı transformaci muzeme priblizne povazovat zaafinnı platı-li:

z + dz

f

.=z

f, (3.16)

kde dz je hloubka zobrazeneho objektu. Pro dostatecne vzdalene objekty od kamery je podmınka (3.16)splnena.

Projektivnı transformaci tedy muzeme zuzit na afinnı. Afinnı transformace rovnobeznost hranzachovava (realizujı se s nı operace rotace, translace a zkosenı). Afinnı transformaci lze realizovatjako nasobenı matic. Abychom mohli tuto operaci zavest, je nutne uvazovat homogennı souradnice.To znamena, ze bod v rovine (x, y)T se v homogennıch souradnicıch vyjadrı jako (αx, αy, α)T , kdeα 6= 0. Podrobneji je problematika resena napr. v [17].

Projektivnı transformacı hledame k bodu (x, y)T ve vstupnım obraze bod v obraze vystupnım(u, v)T . Maticove to lze s vyuzitım homogennıch souradnic zapsat takto: αu

αv

α

=

a b c

d e f

g h i

x

y

1

, (3.17)

kde matice s prvky a, . . . , i je hledana transformacnı matice T. Upravou lze dostat soustavu dvourovnic o devıti neznamych pro jeden bod obrazku ve tvaru:

u(gx+ hy + i) = ax+ by + c

v(gx+ hy + i) = dx+ ey + f(3.18)

Mame-li k dispozici n vstupnıch bodu, muzeme soustavu (3.18) psat jako matici rozmeru 2n× 9:


Obrazek 3.4: Princip projektivnı kamery.

x1 y1 1 0 0 0 −u1x1 −u1y1 −u1

0 0 0 x1 y1 1 −v1x1 −v1y1 −v1...

......

......

......

......

xn yn 1 0 0 0 −unxn −u1yn −u1

0 0 0 xn yn 1 −vnxn −vnyn −v1

=

a

b

c...i

. (3.19)

Soustavu rovnic (3.19) budeme potrebovat vyresit vzhledem k neznamym a, . . . , i. Po upravelze tuto maticovou soustavu rovnic resit pomocı singularnıho rozkladu matice (SVD – SingularValue Decomposition), ktery je podrobne popsan v [16], [18], [?], [?]. Nalezene nezname potomtvorı hledanou transformacnı matici T. Pro afinnı transformaci lze matici T zjednodusit do tvaru:

TA =

a b c

d e f

0 0 1

. (3.20)

Vypocet transformacnı matice TA afinnı transformace muzeme realizovat s minimalnım poctemtrı bodu (x, y)T a jejich obrazu (u, v)T , ktere urcıme z puvodnıho obrazu SPZ. Cela situace je proctyri body patrna z obr. 3.5. Tento obrazek rovnez demonstruje znacku pred a po aplikaci afinnıtransformace.


Obrazek 3.5: Znazornenı bodu potrebnych k vypoctu afinnı transformace. Puvodnı a transformovanyobrazek.

3.3 Shrnutı

V teto kapitole jsme popsali algoritmus jak v mnozine detekovanych CER nalezt LRC. Pro kazdouLRC byla nalezeno jejı zkosenı a tım uplne popsana afinnı transformace. Nakonec jsme pro kazdouLRC a jejı afinnı deformaci nalezli zpetnou transformaci do normalizovane pozice.

Kapitola 4

Experimenty

4.1 Pouzitı metody na problem detekce SPZ

Prvnı experiment je zameren na aplikaci metody pro detekci statnıch poznavacıch znacek (LP). De-tekce bude rozdelena na segmentaci znaku zalozene na filtraci oblastı a jejich naslednem sdruzovanı.Selektor bude realizovan neuronovou sıtı [13 15 2], ucenou metodou back-propagation. Ucenı budeprovadeno cyklicky na trenovacı mnozine sestavovane metodou bootstrep. Zmınenych 13 vstupubudou tvorit normalizovane (k zvetsenı invariantnı) centralnı momenty (12) a kompaktnost oblasti(1).

Vysledky uvedene v teto kapitole jsou zmereny na mnozine testovacıch dat viz Obr. 4.1, kteraobsahuje 65 SPZ a 436 znaku. Trenovanım NN na mnozine o 200 SPZ (1341 znaku) jsme dosahlipresnosti detekce uvedene v Tab. 4.1.Uspesnost je merena chybou FN (False negative - procentualnımpodılem nenalezenych znaku) a FP (False positive - procentualnım podılem nalezenych neznaku nactevrci o strane 100 bodu). Detekce znaku je chapana jako prvnı selekce vsech prahove oddelitelnychoblastı, ktere v obraze jsou a proto muze byt FP relativne velike. V podstate se jedna Neumann-Pearsonovu ulohu ve ktere se snazıme minimalizovat FP za podmınky FN < ε.

Tab.4.1.

- FNchar FPchar/(100× 100pxl)realna LP 5.5% 27%

Tabulka 4.1: Vysledky detekce znaku

S vyuzitım metody sdruzovanı oblastı do linearnıch konfoguracı muzeme detekovane znakysdruzovat do jednotlivych SPZ. Proces sdruzovanı muze byt chapan jako dalsı kaskadne zapo-jeny selektor oblastı, ktery vyrazuje ty detekovane oblasti, ktere nelezı na jedne radce s danympoctem jinych oblastı. Vysledky jsou uvedeny v Tab. 4.2.

Prıklady spravne detekovanych SPZ jsou na Obr. 4.2. Jak je videt metoda je invariantni kobrazovym deformacım a to vcetne castecneho projektivnıho zkreslenı.

Prıklady chyb, ktere mohou pri detekci nastat jsou na Obr.4.3. Prvnı radka obsahuje prıkladyFP (chybne detekovanych SPZ). Duvody chybne detekce jsou

31

KAPITOLA 4. EXPERIMENTY 32

Obrazek 4.1: Testovacı data.


FNLP FPLP

1.6% 6.4%

Tabulka 4.2: Vysledky detekce SPZ

Obrazek 4.2: Prıklady spravne detekovanych SPZ.

• detekovanı fontu podobneho s fontem pouzitym na SPZ (1),

• detekce rady stejne velkych objektu, ktere v prumetu pripomınajı pısmeno ”I” (2),

• spravna detekce oblastı textu s pripojenım nahodne chybne oblasti stejne velikosti a pozicena radce (3).

Druha radka obsahuje prıklady FN (nenalezenych SPZ). Duvody nenalezenı jsou

• Prahova neoddelitelnost znaku (1,3).

• Prilis male rozlisenı znaku (2).

4.2 Optimalnı nastavenı selektoru

Pri ucenı detektoru zavisı vysledky (na testovacı mnozine) na pomeru

r =Ntr

Ptr(4.1)

negativnıch Ntr a pozitnıch Ptr prıkladu v trenovacı mnozine. Budeme hledat optimalnı nastavenıvzhledem k problemu detekce SPZ.


Obrazek 4.3: Prvnı radka FP, druha radka FN.

Oznacme FNchar pomer nenalezenych znaku ku vsem znakum v testovacıch datech a FPchar

pomer nalezenych neznaku ku vsem znakum v testovacıch datech a analogicky FNLP pomer ne-nalezenych znacek ku vsem znackam v testovacıch datech a FPLP pomer nalezenych neznacek kuvsem znackam v testovacıch datech. Potom muzeme vynest ROC charakteristiku Obr.4.4 merenouna znacıch a znackach.

Snazıme-li se nalezt optimalnı nastavenı pro detekci LP muzeme nas pozadavek formulovat jakorozhodovacı ulohu a pokusit se minimalizovat celkovou strednı ztratu na testovacıch datech

ELP (r) = λ01FNLP (r) + λ10FPLP (r), (4.2)

kde λ01 je ztrata pri prehlednutı znacky a λ10 je ztrata pri nalezenı neznacky (λ00 = λ11 = 0,protoze majı vyznam ztraty pri spravne klasifikaci). Na zaklade toho, ze vetsı ztratu utrpıme za-hozenım LP, protoze ta uz nebude nikdy nalezena, zatımco nalezena neznacka muze byt podrobenadalsımu zkoumanı a prıpadne odfiltrovana ve vyssı vrstve klasifikace (napr. na zaklade vecnehoobsahu), zvolıme λ01 = 5, λ10 = 1. Potom je optimalnı nastavenı v r∗ = 0.1 a z Obr.4.4 vidıme, zeFNLP (r∗) = 1.6%, FPLP (r∗) = 6.4% (FNchar(r∗) = 5.5%, FPchar(r∗) = 840% Obr.4.4).

4.3 Merenı chyby detekce znaku v zavislosti na jejich poloze

Na zaklade umele vygenerovanych obrazu LP umıstenych v 3D prostoru pootocenych (φ) a sklopenych(θ) vuci kamere jsme provedli merenı FN(φ, θ) viz Tab. 4.3 a Obr.4.5. Vysledky jsou zalozeny namerenı na syntetickych datech vygenerovanych ze zakladnı skupiny 150 normalizovanych SPZ.


Obrazek 4.4: ROC charakteristika

θ\φ −45o −30o −15o 0o 15o 30o 45o

−30o 26.5594 15.2918 8.4507 7.6459 12.8773 24.3461 50.1006−20o 7.8471 4.0241 3.6217 3.2193 4.6278 9.6579 15.2918−10o 3.8229 3.2193 3.2193 3.2193 3.6217 3.8229 6.8410o 2.8169 3.0181 2.8169 2.6157 3.0181 3.8229 6.438610o 4.2254 4.0241 4.2254 3.6217 3.2193 5.4326 7.042320o 10.664 8.8531 6.6398 6.841 5.2314 8.6519 22.132830o 31.3883 21.9316 18.9135 20.9256 23.7425 29.3763 40.4427

Tabulka 4.3: FNchar(φ, θ), FPchar = 27%/(100× 100pxl)

Zmerenou funkci FN(φ, θ) lze pouzıt pro zjistenı odhadu celkove chyby

FN =∫φ

∫θ

FN(φ, θ)p(φ, θ), (4.3)

na datech s pravdepodobnostı p(φ, θ) vyskytu LP v kazde pozici (φ, θ). Chyba FP = 27%/(100 ×100pxl) nenı funkcı polohy a pro merenı bylo pouzito nastavenı filtru r∗. Pokud by bylo trebarozpoznavat v konkretnı aplikaci LP ze specifickeho pohledu (φ0, θ0) lze dosahnout podstatnelepsıch vysledku znovu naucenım celeho klasifikatoru na trenovacı mnozine sestavene pouze z datporızenych pro tuto aplikaci (napr. z kamery umıstene u zavory) .

4.4 Zpracovanı v realnem case

Pouzitı metody k filtrovanı oblastı v realnem case (15obr/sec.) je podmıneno dostatecnou rychlostızpracovanı. Tabulka 4.4 uvadı rychlost zpracovanı jednoho obrazu v zavislosti na rozlisenı.


Obrazek 4.5: FN(φ, θ)

Rozlisenı [cols x rows] cas [s]640x480 2.10320x240 0.50160x120 0.18

Tabulka 4.4: Rychlost zpracovanı v zavislosti na rozlisenı obrazu.

Je zrejme, ze pokud bychom kazdy obrazek z videosekvence zpracovavali zvlast’ pozadovanerychlosti nedosahneme. Vyuzijeme-li vsak apriornı informace, ze ve dvou po sobe jdoucıch obrazcıchse poloha LP prılis nelisı, muzeme v nasledujıcım obrazku hledat LP v relativne male oblasti. Navıcmuzeme vyuzıt znalosti predchozı deformace obrazu a nahradit obraz f(i+1) obrazem F (i+1) vizobr. 4.6.

To znamena, ze na zaklade znalosti polohy (a deformace) LP v obraze f(i) urcıme oblast zajmu vf(i+1) a zpracovavat budeme pouze nove vznikly obraz F (i+1). Navıc takto zavedenym systememnebude problem sledovat LP i pokud bude otocena o 90o nebo i 180o. Pri zachovanı prirozenehopomeru stran LP (5:1) je podle Tab. 4.5 videt, ze dostatecne rychlosti (15 obr/sec.) je dosazeno uzpro oblast zajmu velikosti 200x40.

Castecneho zrychlenı lze dosahnout pri dobre prahove oddelitelnych oblastech snızenım hloubkyjasu. Pro vsechny vyse uvedene experimetny predpokladame hloubku 256 odstınu sedi. Na Obr.4.7vidıme moznost zrychlenı v zavislosti na redukci hloubky barev.


Obrazek 4.6: Oblast prohledavanı

Rozlisenı [cols x rows] cas [ms]300x60 156200x40 62150x30 45100x20 15

Tabulka 4.5: Rychlost zpracovanı v zavislosti na rozlisenı oblasti zajmu.

Obrazek 4.7: Zavislost doby zpracovanı obrazu (640× 480) na redukci hloubky barev.

4.5 Segmentace znaku z normalizovane SPZ

Vyse zmıneny algoritmus byl pouzit take na segmentaci jednotlivych znaku z detekovane a normal-izovane SPZ. S detektorem naucenym pouze na normalizovanych znacıch dosahujeme na testovacı


mnozine Obr.4.1 chybu FPchar = FNchar = 1.8%. V Tab. 4.6 je uvedeno srovnanı s chybou nastejne testovacı sade na detekci nenormalizovanych SPZ ze stejne testovacı sady.

- FNchar FPchar

normalizovana LP 1.8% 1.8%realna LP 5.5% 27%

Tabulka 4.6: Srovnanı

Na Obr. 4.8 jsou uvedeny vysledky spravne segmentovanych znaku z normalizovanych SPZ.Caste chyby vznikajı segmentacı znaku jasove propojeneho s jinymi (prorezlymi ci opryskanymi)castmi SPZ.

Obrazek 4.8: Vysledky segmentace znaku z normalizovane SPZ (4 SPZ stara norma + 4 SPZ EUnorma.)

Segmentace znaku z jiz normalizovane znacky nam poskytuje jak vetsı uspesnost detekce jed-notlivych znaku tak vetsı robustnost v odhadu deformace (pravdepodobnost, ze spatne odhadnemenapr. zkosenı jednoho znaku je vetsı nez, ze se zmylıme v nadpolovicnı vetsine znaku v SPZ).

4.6 Merenı chyby v zavislosti na jasovych podmınkach

V tomto experimentu jsme se zamerili na zjistenı invariantnosti k menıcım se jasovym podmınkam.Na Obr.4.9 je zavislost FNLP (β),FPLP (β), FNchar(β), FPchar(β), kde β je jasovy koeficient.Chybu merıme na obrazove funkci β.f(i, j), kde f(i, j) je puvodnı obrazova funkce. Z experimentuplyne, ze system spolehlive fungoval do cca 15% celkoveho jasu. Uvazıme-li, ze na testovacıch datechbyl prumerny rozdıl cca 70% celkoveho jasu pak muzeme tvrdit, ze system robustne detekuje oblastpokud je oddelena od pozadı prahem alespon 10% z celkoveho jasoveho rozsahu.


4.7 Merenı chyby v zavislosti na maximalnı povolene en-

tropii znaku

Na Obr.4.9 je zavislost FNLP (Emax),FPLP (Emax), FNchar(Emax), FPchar(Emax, kde Emax jemaximalnı entropie histogramu oblasti pri ktere muze byt klasifikovana jako znak. Pokud bychommeli k dispozici pouze data nasnımane za stejnych kvalitnıch svetelnych podmınek existovalo by nas-tavenı Emax. Vzhledem k tomu, ze nase testovacı sada obsahovala SPZ castecne zrezivele, opryskane,rozmazane a jinak poskozene nenastalo temer zadne zlepsenı. Aby bylo mozno zajistit pruchodnostvsech techto jasove zdeformovanych oblastı klasifikatorem, museli jsme Emax nastavit tak vysoko,ze se temer nepodılela na selekci oblastı.


Obrazek 4.9: FN(β), FP (β)

Obrazek 4.10: FN(Emax), FP (Emax)

Kapitola 5

Implementace a Interface

Program realizujıcı vyse popsany detektor byl zalozen na principu softwaru CMP pro detekciextremalnıch oblastı extrema. Nehledame vsak MSER (maximal stable regions), ale pouzıvamestejneho pricipu prahovanı pro generovanı vsech prahove oddelitelnych oblastı ER (extremal re-gions). Pro kazdou oblast udrzujeme jejı linearnı inkrementalnı popis a pred kazdou zmenou prahuprepocteme prıznaky a oklasifikujeme oblasti, ktere u nichz doslo ke zmene velikosti (narustem nebospojenım). Selekce oblastı je realizovana neuronovou sıtı [13 15 2].

V prilozenem CD je program ER_class.exe jehoz vstupem je *.BMP (256 sedotonovych odstınu).Parametry se kterymi je mozno mozno program spoustet jsou uvedeny v Tab. 5.1. Ostatnı parametry

Parametr Vyznam Prednastavena hodnota-i vstupnı soubor (*.BMP) --d vystupnı adresar --m ground truth (*.BMP) --n NN-prefix ”nn”

-l Segmentace znaku z normalizovane SPZ false

Tabulka 5.1:

popisujıcı zpusob extrakce oblasti jsou zdedeny z puvodnıho softwaru extrema.Sdruzovanı a nasledna prace s detekovanymi oblastmi byly realizovano v programu MATLAB.

Na sdruzovanı byly pouzity 2 rozdılne algoritmy RANSAC (findGrouping) a Houghovym aku-mulatorem (findHoughsGroups) s parametry v Tab. 5.2.

Dale byly implementovany skriptove funkce

• mov2dir(fileName, path) - vstupem je animace *.avi (256 sedotonovych odstınu) a vystupemje ta sama animace s vyznacenymi detekovanymi oblastmi a celymi nalezenymi radkami.

• dir2web(path, model, gt) - vstupem je cesta k souborum *.bmp a vysttupem je internetovastranka s vysledky. Parametr model je nauceny SVM klasifikator pouzity k OCR. Parametrgt (false/true) definuje zda-li existuje adresar s ground-truth - pokud ano je automatickyvypocteno i FNLP , FNchar, FPLP , FPchar.

41

KAPITOLA 5. IMPLEMENTACE A INTERFACE 42

Parametr Vyznamregions seznam detekovanych oblastı

img obraz s vyznacenymi oblastmimask ground truth (*.BMP)

3× param definujıcı vlastnosti sdruzovanıorigImg originalnı obraz

Tabulka 5.2:

Dale se na prilozenem CD nachazı adresare results_bmp a results_avi, ktere obsahujı vysledkyna testovacı sade obrazku 640× 480 a na animacıch porızenych v rozlisenı 320× 240.

V adresari Diplomova_prace je zdrojovy kod tohoto dokumentu a vse potrebne pro jeho prelozenı.

Kapitola 6

Zaver

6.1 Shrnutı vysledku

V teto praci jsme prinesli novy pohled na problematiku detekce a lokalizace kategorie objektu vobraze. Navrhli jsme robustnı algoritmus detekce a lokalizace libovolne kategorie objektu na zakladedetekovanych charakteristickych oblastı v prıspustnych prostorovych konfiguracıch. Navrzeny de-tektor muze byt metodami strojoveho ucenı preucen a pouzit na jakoukoliv kategorii objektu zetrıdy objektu popsatelnych konfiguracı nejakych CER.

Navrhli jsme rychly algoritmus enumerace ER oblastı a jejich selekce na zaklade prıznaku.Popsali jsme zpusob rychleho prepocıtavanı nekterych prıznaku pri dynamicke enumeraci ER azobecnili tyto prıznaky na skupinu tzv. linearne inkrementalne vypocitatelnych velicin a ukazali, zepocet operacı nutny k jejich vypoctu je linearnı funkcı poctu spojenı.

Pri hledanı vhodne konfigurace objektu jsme se omezili na linearnı uskupenı, protoze tatoprace byla motivovana problematikou hledanı textu ve videosekvencıch, ktery se v tomto usku-penı prevazne nachazı. Navrhli jsme algoritmus sdruzovanı oblastı lezıcıch v linearnım uskupenı nazaklade transformace jejich konvexnıho obalu do Houghova akumulatoru.

Na Obr. 6.1 muzeme videt vysledky uspesne detekce SPZ na problematickych prıpadech jakojsou castecne rozdılne uhly pohledu, castecna zakrytı a ruzne svetelne podmınky.

Na Obr. 6.2 jsou ukazany prıpady kdy navrzena metoda selhava z podstaty sveho principu aresenı takovych problemu muze byt tematem dalsı prace. Prvnı obrazek ukazuje prahove neoddelitelneoblasti, ktere nelze detekovat, protoze je prochazena pouze mnozina vsech ER. Na druhem obrazkujsou prılis male znaky a tak ackoliv je SPZ viditelna, nemuze byt detekovana, protoze je necitelna.

Navrzeny algoritmus trenovatelne detekce kategorie objektu jsme otestovali na problemu detekceznaku SPZ s uspesnostı detekce 98.4% (s 6.4% nalezenych redundantnıch oblastı) viz KapitolaExperimenty.

Celkova uspesnost a i rychlost detektoru by mohla byt zvysena pouzitım kaskadnıho zapojenıvıce selektoru, ktere by mohli byt s klesajıcım poctem vstupujıcıch oblastı vıce podrobnejsı.

Vyse zmıneny algoritmus byl pouzit take na segmentaci jednotlivych znaku z detekovane anormalizovane SPZ. S detektorem naucenym pouze na normalizovanych znacıch dosahujeme natestovacı mnozine chybu FPchar = FNchar = 1.8%.

43

KAPITOLA 6. ZAVER 44

Obrazek 6.1: Vysledky uspesne detekce pri castecnem zakrytı, ruznych uhlech pohledu a rozdılnychsvetelnych podmınkach.

Obrazek 6.2: Prıklady neuspesne detekce SPZ.

Jako poslednı byl implementovan OCR algoritmus rozpoznavanı SPZ na bazi SVM s uspesnostırozpoznavanı cca 85%. Jemu v teto praci nebyl venovan prostor, protoze je vecı notoricky znamou.

KAPITOLA 6. ZAVER 45

6.2 Mozne rozsırenı

• Obecny detektor s ucenım bez ucitele. Temer kazdy objekt obsahuje nejake CER, protoje mozne naucit detektor jen na statisticky zalozene metode, ktera vybere automaticky CERz trenovacı mnoziny. Budou vybrany takove CER, jejichz prıznaky se v pozitivnıch prıkladechopakujı a zaroven nejsou obsazeny v mnozine negativnıch prıkladu.

• Kaskadnı zapojenı selektoru. Puvodnı selektor by byl nahrazen nekolika selektory za-pojenymi v serii. Vstupnı selektor by rozhodoval o velkem poctu oblastı a byl by co nej-jednodusı. Kazdy dalsı selektor by rozhodoval o mensım poctu oblasti na zaklade vetsıhomnozstvı prıznaku. Vystupnı selektor by rozhodoval o nejmensım poctu oblastı na zakladenejvyssıho stavu poznanı o nich (napr. porozumenı obsahu).

• Paralelnı zapojenı seletoru. Pokud mame k dispozici jiz vypoctene prıznaky je casovetemer stejne drahe otestovat jestli nejsou prvky jine kategorie. Je tedy napr. mozne detekovata rozlisit zaroven pısmena, symboly i siluety lidı bez podstatneho zpomalenı detektoru.

• Jine nez extremalnıch oblasti. Omezujıcı podmınka prahove oddelitelnosti oblastı nenıpro detekci cele rady objektu vhodna (napr. zebra). Toto omezenı je dano tım, ze do selek-toru vstupujı extremalnı oblasti. Nahrazenım extremalnıch oblastı oblastmi oddelenymi napr.texturou ([7]) muzeme detekovat jinou trıdu objektu.

• Hledanı a statisticky popis konfiguracı. Abychom mohli hledat objekty skladajıcı se znejake mnoziny detekovanych CER musıme nalezt nejakou kriterialnı funkci, ktera rıka v jakvzajemne ruzne prostorove konfigurace vuci ocekavane konfiguraci (te v jake byli CER de-tekovany v trenovacıch datech). Motivacı prace by mohlo byt nalezenı te nejpravdepodobnejsıkonfigurace detekovanych CER.

• Zobecnenı LRC. Navrzene sdruzovanı na zaklade Houghova akumulatoru z duvodu ro-bustnosti predpoklada pouze afinnı zkreslenı. Pro projektivne deformovane objekty lze pouzeupustit od podmınky horizontalnı kolinearity vrchnı a spodnı linky radky.

• Test linearnı inkrementalnı vypocitatelnosti. V praci jsme zavedli pojem, ze prıznak jelinearne inkrementalne vypocitatelny a pro nektere prıznaky ukazali, ze takove jsou. Chybıvsak univerzalnı algoritmus jak nalezt tento popis a poprıpade ukazat, ze tento popis neexis-tuje.

• Rozhodovanı o mnozine bodu na zaklade detekce jine mnoziny. Nenı jednoduchedetekovat nektere obecne kategorie (napr. masku auta) treba z duvodu ruznorodosti jed-notlivych prvku a neschopnosti je spolecne popsat, ale obcas lze nalezt nejakou spolecnoukategorii (napr. SPZ), ktera neprımo urcuje i celou oblast.

Literatura

[1] Flusser J. Suk T.: Patter Recognition by affine moment invariants Pattern Recognition, Vol.26,No.1, pp.167-174, Institution of Information Theory, Czechoslovak Academy of Sciences, Prague,1993.

[2] Janosek V.: Diplomova prace – Detekce a rozpoznavanı statnıch poznavacıch znacek. CVUT vPraze, fakulta elektrotechnicka, katedra kybernetiky, Praha, 2001.

[3] Dong-Su Kim, Sung-Il Chien: Automatic Car Licence Plate Extraction Using Modified Gener-alized Symmetry Transform and Image Warping. IEEE, ISIE 2022-2026, School of EletronicalEngeneering, Kyungpook National University, Korea, 2001.

[4] Fergus R.,Perona P., Zisserman A. : Object Class Recognition by Unsupervised Scale-InvariantLearning. University of Oxford and California Institute of Technology, UK and USA, 2003.

[5] J.Matas, O.Chum, M.Urban, T.Pajdla : Robust Wide Baseline Stereo from Maximally StableExtremal Regions. BMVC’02 pp.384-393, CTU, Prague, 2002.

[6] T.Kadir, M.Brady Scale, saliencz and image description. IJCV,45(2):83-105, 2001.

[7] M.Rousson, T.Brox, R.Deriche Active Unsupervised Texture Segmentation on a Diffusion BasedFeature Space. CVPR’03 v.2, pp.699, 2003.

[8] A.Zisserman, J.Mundy, D.Forsythm J.Liu Class-Based Grouping in Perspective Images.ICCV’95, 1995.

[9] U.Gargi, D.Crandall, S. Antani, T.Gandhi, R.Keener, R. Kasturi A System for Automatic TextDetection in Video. Department of Computer Science and Engineering, The Pensylvania StateUniversity, USA.

[10] J.-C.Shim, C.Dorai, R.Bolle. Automatic Text Extraction from Video for Content-Based Anno-tation ICPR p.618-620, 1998.

[11] J.Ohza, A.Shio, S.Akamatsu. Recognizing Characters in Scene Images,IEEE 16:214-224, 1994

[12] Klapka P.: Diplomova prace – Rozpoznavanı statnıch poznavacıch znacek. CVUT v Praze,fakulta elektrotechnicka, katedra kybernetiky, Praha, 2001.

[13] Shridhar M., Miller J. W. V.: Recognition of License Plate Images: Issues and Perspectives.University of Michigan at Dearborn, TRW Financial Systems, 1998. http://ieee.org/web/search/

46

LITERATURA 47

[14] Baez-Lopez D., Gonzalez V., Ramırez J. M.: Pattern Recognition in AutomotivePlates. Instituto Nacional de Astrofisica, Universidad de las Americas-Puebla, 1998.http://ieee.org/web/search/

[15] Naito T., Tsukada T., Yamada K., Kozuka K.: Licence Plate Recognition Method for IncludedPlates Outdoors. Toyota Central Research and Development Laboratories Incorporated. Na-gakute, Aichi, Japan, 1998. http://ieee.org/web/search/

[16] Hartley R., Zisserman A.: Multiple view geometry in computer vision. Cambridge universitypress, Cambridge, UK, 2000.

[17] Sonka M., Hlavac V., Boyle R. D.: Image Processing, Analysis and Machine Vision. PWS,Boston, USA, 1998.

[18] Press W. H., Teukolsky S. A., Vetterling W. T., Flannery B. P.: Numerical Recipes in C. TheArt of Scientific Computing. Cambridge university press, Cambridge, UK, 1992.

[19] Zara J., Benes B., Felkel P.: Modernı pocıtacova grafika. Computer Press, Praha, 1998.

[20] Trier O.D., Jain A.K.: Goal-directed evaluation of binarization methods. IEEE Transaction onPattern Analysis and Machine Intelligence, 17(12):1191-1201, 1995.

[21] Wu V., Manmatha R.: Document Image Clean-up and Binarization. Multimedia Indexing AndRetrieval Group, Computer Science Department University of Massachusetts, Amherst, 1997.

[22] Schlesinger M., Hlavac V.: Deset prednasek z teorie statistickeho a strukturnıho rozpoznavanı.CVUT, Praha, 1999.

[23] Duda R. O.: Pattern Classification. Wiley, USA, 2001.

[24] Kotek Z., Marık V., Hlavac V., Psutka J., Zdrahal Z.: Metody rozpoznavanı a jejich aplikace.Academia, Praha, 1993.

[25] Kotek Z., Vysoky P., Zdrahal Z.: Kybernetika. SNTL, Praha, 1990.

[26] Bishop CH. M.: Neural Networks for Pattern Recognition. Clarendon Press, Oxford, 1996.

[27] Setchell J. C.: Applications of computer vision to road-traffic monitoring. Faculty of engeneer-ing, Bristol, 1997.

[28] Draghici S.: A neural network based artificial vision system for license plate recognition. De-partment of Computer Science, Wayne State University.

[29] Barroso J., Rafael A., Dagles E. L., Bulas-Cruz J.: Number plate reading using computer vision.Department of Electrical and Electronic Engineering, University Walk, UK.

[30] Dawson–Howe K. M., Byne M., Byrne M., Cummins M., Ontrup J.: Techniques for surveillancevideo enhancement. Department of Computer Science, Trinity College, Dublin, 1995. Vydava-telstvı CVUT, Praha, 1994.

Documents

Diploma Thesis Zimm Text