國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/retrieve/82492/300301.pdf · 結構給予能量回饋，使得較工整的印刷體與手寫體能有所區別，此外也使

‧國

立政治

大

學‧

Na

t iona l Chengch i U

niv

ersi t

y

國立政治大學資訊科學系

Department of Computer Science National Chengchi University

碩士論文

Master’s Thesis

雲端筆記之混合式文字切割與辨識

Segmentation and Recognition of Mixed Characters for

Cloud-Based Notes

研究生：王冠智

指導教授：廖文宏

中華民國一零一年七月

July 2012

I

‧國

立政治

大

學‧

Na


niv

ersi t

y

致謝

歷經長久的努力，終於能夠撰寫這一頁了。

能夠完成這篇論文，真的非常感謝指導教授廖文宏老師，感謝老師的

指導讓我在迷失方向時能更容易地找到對的道路，讓我對做研究有更深入

的了解，在實驗室的這兩年使我學習到很多有用的事情。

並且要感謝實驗室的所有成員，有你們的陪伴，讓我每個寫論文的夜晚

都不孤單，能夠放輕鬆的面對他們。感謝學長正和、浩偉、政明、建堡、

學弟志毓、嘉瑜、致翔的各種幫忙，以及學長郭仁和提供很多研究的想法，

此外還有我的同學陳柏銘，若沒有他的幫忙，我的論文排版得花更長的時

間，也感謝他時常給予我研究上的意見，最後要謝謝愛口的陪伴，以及她

不時地督促我要認真點、努力點，才能盡早完成事情沒有拖到最後。

眾多的幫忙讓我順利地完成我的研究，再次感謝在這一路上有提供幫助

的老師以及各位朋友們，因為有你們我才能順利的到這裡，我將完成的喜

悅與你們一同分享！

冠智於民國一零一年十月十七日

I

‧國

立政治

大

學‧

Na


niv

ersi t

y

雲端筆記之混合式文字切割與辨識

摘要

文字辨識為常見的電腦視覺應用之一，隨著正確率逐漸的上升，許多新的

服務相繼出現，本論文改善了筆記管理軟體最主要的問題－文字切割，並

提出兩種新的中文印刷體及手寫體的分類方法。我們將筆記文件中較常見

的重點標記過濾後，再使用新核心的文字結構濾波取得筆記文件中的文字

區塊，新的核心數據大幅降低原始核心的計算時間。本論文也使用文字結

構濾波作為分辨印刷體、手寫體的特徵值，由於文字結構濾波會依據筆畫

結構給予能量回饋，使得較工整的印刷體與手寫體能有所區別，此外也使

用 Sobel 搭配不同角度範圍進行字體辨識，實驗結果證實了本論文所提出的

文字切割及字體分類方法對於筆記文件資訊的處理是有效的。

關鍵字：文字結構濾波、字體分類、文字切割、消除雜訊

I

‧國

立政治

大

學‧

Na


niv

ersi t

y

Segmentation and Recognition of Mixed Characters for

Cloud-Based Notes

Abstract

Character recognition is an important and practical application of computer

vision. With the advance of this technology, more and more services embedding

text recognition functionality have become available. However, segmentation is

still the central issue in many situations. In this thesis, we tackle the character

segmentation problem in note taking and management applications. We propose

novel methods for the discrimination of handwritten and machine-printed

Chinese characters. First, we perform noise removal using heuristics and apply a

stroke filter with modified kernels to efficiently compute the bounding box for

the text area. The responses of the stroke filter also serve as clues for

differentiating machine-printed and handwritten texts. They are further enhanced

using a SVM-based classifier that employs aggregated directional responses of

edge detectors as input. Experiment results have validated the efficacy of the

proposed approaches in terms of text localization and style recognition.

Keywords: stroke filter, text font discrimination, text segmentation, noise

removal

I

‧國

立政治

大

學‧

Na


niv

ersi t

y

目錄

1. 研究背景與目的 ............................................................................................................. 1

2. 相關研究 ....................................................................................................................... 12

2.1. 文字濾波 ............................................................................................................ 12 2.1.1. 文字結構濾波 ......................................................................................... 13 2.1.2. 文字邊緣濾波 ......................................................................................... 17 2.1.3. 多貝西小波 ............................................................................................. 20 2.1.4. 小結 ......................................................................................................... 21

2.2. 字型分類 ............................................................................................................ 21 2.2.1. 根據字體特性分類 ................................................................................. 22 2.2.2. 使用機器學習分類 ................................................................................. 23 2.2.3. 小結 ......................................................................................................... 25

2.3. 系統流程 ........................................................................................................... 26

3. 筆記文字過濾 .............................................................................................................. 27

3.1. 非文字資訊處理 ............................................................................................... 29 3.2. 套用文字濾波 ................................................................................................... 33

3.2.1. 多貝西小波 ............................................................................................. 33 3.2.2. 文字邊緣濾波 ......................................................................................... 34 3.2.3. 文字結構濾波 ......................................................................................... 36 3.2.4. 文字濾波總結 ......................................................................................... 40

4. 文字型態分類 .............................................................................................................. 42

4.1. 資料蒐集 ........................................................................................................... 43 4.2. 直方圖觀察 ....................................................................................................... 45 4.3. 直方圖訓練 ....................................................................................................... 50 4.4. 測試結果 ........................................................................................................... 54

5. 整合結果 ...................................................................................................................... 57

6. 結論與後續研究改進方向 ........................................................................................... 63

7. 參考文獻 ...................................................................................................................... 65

I

‧國

立政治

大

學‧

Na


niv

ersi t

y

圖目錄

圖 1-1，圖左為框選紙張範圍的過程，圖右為二值化結果 ............................................... 2

圖 1-2，蒙恬名片王行動版使用示意圖.............................................................................. 3

圖 1-3，智慧型手機手寫輸入範例 ..................................................................................... 5

圖 1-4，會議記錄文件掃描後的完整內容 .......................................................................... 6

圖 1-5，Evernote 軟體查詢三人的結果，黃色部分為有包含查詢文字的區域................. 7

圖 1-6，使用 Google Docs 的文件辨識服務於圖 1-4 的完整結果 .................................... 8

圖 1-7，使用 OneNote 辨識圖 1-4 後的部分結果 ............................................................. 9

圖 1-8，Pleco 及 WorldDictionary 的使用方式 .................................................................. 10

圖 2-1，文字結構濾波的計算資訊 ..................................................................................... 13

圖 2-2，快速文字結構濾波的方向判斷結果 ..................................................................... 15

圖 2-3，改良後的文字結構濾波示範圖及各種參數設定 .................................................. 16

圖 2-4，黃色點為計算原點，紅色點為文字邊緣點，綠色點為可能是文字邊緣點，黑色

則表示停止計算，左圖為原始標記，右圖為找出強度最大的方向後重新標記

結果 ................................................................................................................... 18

圖 2-5，Isotropic Nonlinear Filter 的遮罩套用於各區塊的示意圖 .................................. 19

圖 2-6，左圖為欲過濾之影像，右圖為二階層之 D4 小波結果 ...................................... 20

圖 2-7，使用英文印刷體特性進行字體分類的範例 ........................................................ 23

圖 2-8，本研究的系統流程圖 ........................................................................................... 26

圖 3-1，本章節所使用的測試影像 ................................................................................... 28

圖 3-2，非文字資訊處理的流程圖 ................................................................................... 29

I

‧國

立政治

大

學‧

Na


niv

ersi t

y

圖 3-3，圖 a 為經過 Canny Edge Detector 套用於圖 3-1 的結果，紅色區塊所標記的是畫

重點於文字底部的方法，橘色區塊所標記的是畫重點於文字外框的方法，圖

b 為使用所提出的偵測結果，白色線段所圈出的輪廓為偵測到符合本研究定

義的重點線段的結果 ........................................................................................ 31

圖 3-4，圖 a 為套用兩次找輪廓後的結果，第四行的”市”由於與重點標記連接造成有一

部分資訊遺失，圖 b 為消除重點標記後的結果。 ......................................... 32

圖 3-5，二階層 D4 小波 HH 通道結果切割圖 ................................................................. 34

圖 3-6，參考文字結構改善後的遮罩示意圖 .................................................................... 35

圖 3-7，圖 a 為使用灰階影像及新遮罩的結果，圖 b 為使用亮度(V)通道的結果......... 36

圖 3-8，本研究提出的改良核心圖 ................................................................................... 37

圖 3-9，三種核心的長寬數據 ........................................................................................... 37

圖 3-10，三種不同核心處理的結果，a:原始核心，b:改良核心，c:本研究提出核心 .... 39

圖 3-11，移除重點標示線段，並套用本研究提出的文字結構濾波於圖 3-1 的結果 ....... 41

圖 4-1，兩種不同字型的印刷體範例，上排為標楷體，下排為新細明體 ...................... 43

圖 4-2，印刷體資料範例，上兩排為標楷體，下兩排為新細明體 ................................. 44

圖 4-3，手寫體的部分資料 ............................................................................................... 44

圖 4-4，非等比例的降維寬度直條圖 ................................................................................ 51

圖 4-5，等比例的降維寬度直條圖 ................................................................................... 52

圖 4-6，使用角度差距 5 的比例變化繪製出的折線圖 .................................................... 53

圖 4-7，使用角度差距 15 的比例變化繪製出的折線圖................................................... 54

圖 4-8，a 圖為核心 1 的計算方式，b 圖為核心 2 的計算方式 ....................................... 54

圖 5-1，套用閾值過濾圖 3-11 雜訊的結果，圖左的閾值為 50，圖右使用 100，圖中白

色點為具有文字資訊的區域，可看到圖右有部分手寫資訊被過濾 .............. 58

圖 5-2，利用文字輪廓進行文字切割的結果 .................................................................... 60

II

‧國

立政治

大

學‧

Na


niv

ersi t

y

圖 5-3，經由雜訊過濾及文字合併後的結果 .................................................................... 60

圖 5-4，使用文字結構濾波+等比例降維的結果，紫色方塊表示該區塊內的資訊為印刷

體，黃色方塊為手寫體 ..................................................................................... 61

圖 5-5，使用 Sobel 核心 1+角度差距 15 的結果 ............................................................... 61

圖 5-6，套用本研究提出的字體分類方法於不同影像後的結果，圖 a 為使用文字結構濾

波的辨識結果，圖 b 為使用 Sobel 核心 1 的辨識結果 ................................... 62

圖 6-1，圖左為手動切圖後的結果，圖右為程式切割時產生部分的結果 ...................... 64

III

‧國

立政治

大

學‧

Na


niv

ersi t

y

表目錄

表格 2-1，[18]描述文字資訊的特徵值 ............................................................................. 24

表格 2-2，各種利用機器學習法進行字體分類的結果 .................................................... 25

表格 3-1，套用不同核心於圖 3-1 的計算時間 ................................................................ 38

表格 4-1，兩種字體的資料數目 ....................................................................................... 45

表格 4-2，不同大小、粗細的標楷體文字所產生的直方圖(256 維) ................................ 46

表格 4-3，不同大小、粗細的新細明體文字所產生的直方圖(256 維) ............................ 47

表格 4-4，不同筆跡風格的直方圖結果(256 維) .............................................................. 48

表格 4-5，使用 100 維進行直方圖統計的結果 ................................................................ 49

表格 4-6，角度差距所需乘上的比例變化 ........................................................................ 53

表格 4-7，各種方法的 SVM 測試結果 ............................................................................. 56

表格 5-1，使用文字結構濾波及 Sobel 進行區塊切割的字體辨識統計結果 ................... 59

I

‧國

立政治

大

學‧

Na


niv

ersi t

y

1. 研究背景與目的

隨著智慧型手機的發達與硬體技術的進步，手機可使用的鏡頭畫素越來越高，拍

照之後所獲得的資訊能夠更為詳細，而複雜的運算所需的時間也越來越少，這使得很多

應用得以即時完成，也因此越來越多的手機應用程式出現在各種系統的程式商店裡。在

與鏡頭結合的應用程式中，除了一些平時常見的影像處理軟體，提供不同的濾鏡效果

外，也有很多利用影像資訊提供服務的軟體，例如掃描 QR Code 等二維條碼的應用程

式，使得名片上可以放一些二維條碼提供更多資訊，或是提供物品辨識服務的應用程

式，例如 Google Goggles、Amazon Flow 等等，都是相當知名的辨識軟體服務，透過

Amazon 的 Flow 可以直接拍攝 CD 封面、書本封面後，就立即顯示該物品於 Amazon 網

站上的資訊，讓使用者更迅速、方便的就購買到想要的東西，也替廠商增加獲取利益的

機會。

除了這種利用影像資訊的程式外，也有對拍攝後的影像再進行處理的服務，例如

提供文字掃描服務的軟體，由於掃描機大部分只能放在固定的地方而無法隨身攜帶，因

此若能利用手機的高畫素鏡頭所提供的較細緻影像，再搭配將文件二值化的技術的話，

就能提供文字掃描的服務。將文件二值化的目的是希望能分辨該點的像素值是屬於文部

分還是背景部分，利用這樣的技術能夠將背景過濾並突顯文字的部分，便於使用者閱

讀，或進行後續的自動辨識。

類似的技術早期主要是用於史料文件的分析，亦即數位典藏領域，由於史料文件

的保存年代較久遠，在存放時容易不小心沾染其他顏色，使得掃描後的文件並非只有文

1

‧國

立政治

大

學‧

Na


niv

ersi t

y

字資訊，若使用人工進行過濾，可能花費太多的資源，因此有了自動化的服務，而這樣

的技術也正好可以用於文件掃描的服務上，將欲掃描的文件拍照後，這類型軟體通常會

提供一個多邊形圈選框讓使用者將真正需要的區域框選出來，接著再進行文件二值化的

服務，讓使用者能夠獲得較為純淨的文字結果，圖 1-1 為框選區塊及二值化結果。

圖 1-1，圖左為框選紙張範圍的過程，圖右為二值化結果

另外也有的服務是將二值化結果再進行光學文字辨識，加入了文字辨識功能後將

可以提供更方便的管理及查詢服務，而其中最常見的就是專門掃描名片進行資料庫管理

功能的應用了，將文字辨識結合語意分析後就能更迅速的填入資訊讓使用者更方便、快

速的紀錄名片資料，如圖 1-2 為行動裝置上的名片辨識應用。

2

‧國

立政治

大

學‧

Na


niv

ersi t

y

圖 1-2，蒙恬名片王行動版使用示意圖

光學文字辨識(Optical Character Recognition，簡稱 OCR)是一個歷史悠久的研究領

域，相關的技術概念最早於 1929 年時由學者 Tauschek 提出想法並申請專利後真正開始

發展，接著美國學者 Handel 也於 1933 年時提出了不同的技術並取得美國專利，之後文

字辨識的技術開始逐漸發展，到現今光學文字辨識用於印刷體的準確率已經能達到 99%

以上。

光學文字辨識的目的是希望將文字影像（通常為文件掃描圖檔或是相機影像）快

速轉為電腦能讀取的文字資訊，使得傳統的紙張資料（如書本內容）能夠因此而以數位

化的方式保存於任何地方，否則若使用人工輸入的方式是必須要花費很多時間的，當資

訊被數位化後，我們能更方便的對這些資料進行管理、查詢或分享，例如使用者不需找

到實體書籍就能更深入了解該書本的內容是否為自己需要的，圖書館也能分享資訊給更

3

‧國

立政治

大

學‧

Na


niv

ersi t

y

多人使用，而除了將資料數位化保存外也能使用這樣的技術進行很多不同的應用，例如

文字翻譯等等，這樣的技術概念屬於文字辨識領域中的非即時字元辨識 (Off-line

Character Recognition)。

非即時字元辨識[1]的主要處理步驟分為三大類，前處理、切割以及辨識，由於文

件資料本身並不一定是乾淨單純的，有時會帶有雜訊，或是使用者掃描文件時並沒有對

齊機器的水平線，導致產生的影像過於歪斜，這些都會間接影響最終辨識的成果，因此

在開始辨識前必需修正這些容易影響辨識結果的情形，這個修正的技術就屬於前處理。

在完成前處理的步驟後，必須將具有文字資訊的區塊從影像中分割出來讓辨識引擎使

用，由於文字辨識是針對單一字元進行辨識，因此需先對影像進行分析，取得文字所在

的區塊，接著再將區塊內的文字以一個字元為單位進行切割，並對每一個切割後的字元

影像進行文字辨識，取得此影像的文字內容資訊。

除了非即時字元辨識外，文字辨識還有即時字元辨識（On-line Character

Recognition）類別，即時字元辨識是一個正在逐漸成長的技術領域，拜現代科技成長所

賜，電腦硬體、觸控面板等物件越做越小，相同體積下的運算能力也不斷的提升，眾多

新興的產品如雨後春筍般出現，其中影響並改變我們生活最大的就屬於平板電腦及智慧

型手機兩種產品，由於這些產品導入了觸控的技術，使得我們的使用情境與過往有很多

不同，文字輸入的方式也從一般單純的按鍵輸入進階到能手寫文字輸入，而這手寫輸入

的方式就是即使字元辨識的主要應用範疇。

即使字元辨識是透過記錄使用者手寫輸入時所能取得的各種資訊來進行辨識，首

先使用者會被要求於特定方塊或利用特定媒介進行書寫，如圖 1-3 為在特定方框內進行

輸入，當開始撰寫文字後系統就會記錄所需要的資訊以進行手寫辨識，例如下筆位置、

筆劃數目、中心點位置、文字形狀等等，因為所能取得的文字特徵較多，辨識成功率也

4

‧國

立政治

大

學‧

Na


niv

ersi t

y

相對的較非即時手寫體辨識來得高，然而也因為必須取得這些資料，使用者得於系統指

定的範圍內使用才行，這也間接使得手寫輸入一次只能辨識單一個字元，當然目前也有

部分軟體提供較長的輸入框讓使用者能寫入一段句子，仍舊無法跳出需於固定輸入範圍

內書寫的規範。

圖 1-3，智慧型手機手寫輸入範例

平板電腦及智慧型手機的蓬勃發展，也影響了很多我們維持以久的閱讀習慣，眾

多書籍、雜誌、報紙等舊媒體逐漸與這些新的裝置結合，提供簡便的閱讀體驗，再加上

網路新媒體的快速成長，都讓使用者能在通勤或閒暇時透過這些裝置進行閱讀並吸收新

資訊，此外也由於平板電腦的攜帶方便和觸控技術的進步，會議、研討會的參與人員以

及聆聽教授講解的學生等等都能使用平板電腦內的軟體將重點記錄下來，這些都是拜新

科技所賜而帶給我們的全新體驗，另外科技的進步也使得掃描機器更加深入大家的生活

中，開始有很多的文件傳遞、簽署是透過電子郵件夾帶檔案文件的方式進行，不僅減少

了等待文件傳遞的時間，也讓位於不同地區的資料能更迅速的交流，圖 1-4 為會議記錄

掃描檔，這個掃描檔將用於後述的影像轉文字的服務中。

5

‧國

立政治

大

學‧

Na


niv

ersi t

y

圖 1-4，會議記錄文件掃描後的完整內容

然而這些會議記錄、課堂筆記等資訊仍舊有管理上的困難，筆記軟體通常只能提

供該筆記本的標題及使用者針對該筆記內容所下的標籤資訊，讓使用者猜測該筆記內容

為何，而紙張掃描的圖片檔更僅能透過檔案名稱作為判斷依據，這使得我們在管理、查

詢筆記時往往無法很迅速及準確的找到我們需要的資料，假如能針對該筆記的內容進行

6

‧國

立政治

大

學‧

Na


niv

ersi t

y

搜尋，將能減少我們在處理前述兩種情況時的不方便。

因此目前已經存在著一些能對圖片內容進行文字辨識的雲端服務，這使得使用者

在任何有網路的地方都能對資料進行存取及編輯，比較知名的如 Evernote、Google

Docs[2]及 Office 內的 OneNote 等都提供了繁體中文圖檔的辨識服務，前兩種服務需要

使用線上的編輯器才能將圖檔上傳，One Note 則可透過電腦編輯再結合 Microsoft

SkyDrive 進行筆記的共用及分享。

這三種服務對圖片內容的文字辨識又有些許不相同，Evernote 提供讓使用者上傳

圖片並對內容進行查詢的服務，使得使用者在搜尋筆記時也能將圖片內容一起併入查詢

結果，然而我們卻無法得知究竟這張圖片具有哪些文字可供查詢以及辨識出的結果是否

正確，另外很重要的一點就是從上傳圖像到使用者能進行查詢需要一段時間，使用者必

須付費升級才能加速，圖 1-5 為使用軟體查詢三人的結果，黃色區塊為偵測到與查詢字

串相符的區域。

圖 1-5，Evernote 軟體查詢三人的結果，黃色部分為有包含查詢文字的區域

7

‧國

立政治

大

學‧

Na


niv

ersi t

y

Google Docs 除了讓使用者能查詢圖片內容外，也會將辨識後的結果列於圖片文件

的下方，讓使用者能更快速的知道辨識結果是什麼，若有錯誤的地方也能更快速的修

正，一開始這個服務僅提供簡體中文的辨識服務，但現在已經可以上傳以繁體中文為主

的圖檔來進行辨識，圖 1-6 為利用圖 1-4 完整影像的辨識結果。

圖 1-6，使用 Google Docs 的文件辨識服務於圖 1-4 的完整結果

OneNote 由於結合 Office 平台，因此編輯、插入影像等功能都非常完善且方便，

並且在同一份筆記文件下可以插入很多的圖片進行內容辨識，這在 Google Docs 是無法

做到的，再搭配自家的 SkyDrive 雲端空間服務後能更簡便的進行資料存取，圖 1-7 為

利用 OneNote 辨識圖 1-4 的部分結果，將前兩套軟體的結果相比，可看到 Google Docs

在進行文字區塊的切割時遺漏了大部分的資訊，例如時間、地點、人數等等這些資訊都

沒有被切割出來，而 OneNote 則有出現一些關鍵訊息，若進行筆記的查詢時，OneNote

的結果能提供更高的準確率。

8

‧國

立政治

大

學‧

Na


niv

ersi t

y

圖 1-7，使用 OneNote 辨識圖 1-4 後的部分結果

從這三種筆記服務的結果可觀察出整體的辨識的結果仍有相當的改善空間，即便

是辨識結果較佳的 OneNote，在很多印刷體的部分能正確辨識出文字內容的仍是少數，

然而現今大部分的辨識引擎在處理印刷體時都能有極高的正確率，並且用來測試的影像

在印刷體的文字區塊並沒有雜訊干擾，因此可以知道是在更前一階段的部分就沒有提供

良好的結果，而在辨識前的步驟即為文字切割，由此可推測若沒有良好的切割結果輔助

文字辨識的話，混合資訊的文字辨識率仍然無法達到令人滿意的結果。

除了混合資訊的文件測試外，在使用前述的筆記軟體後發現這些應用在單獨辨識

印刷體文字時都提供很好的成功率，然而當文件參雜其他資訊(如手寫體)時，辨識結果

很容易因而受到影響，從圖 1-5 就可觀察出 Google Docs 遺失了一部分的文字資訊沒有

辨識出來，另外在使用翻譯、字典學習軟體(如 Pleco, WorldDictionary，見圖 1-8)時發現

在辨識印刷體時比較有良好的成功率，若辨識的是手寫體時就容易產生錯誤的結果，推

測這主要是因為這些辨識引擎較專注於印刷體的辨識上，因此辨識手寫體的結果較不如

預期。

9

‧國

立政治

大

學‧

Na


niv

ersi t

y

圖 1-8，Pleco 及 WorldDictionary 的使用方式

綜合前述的這些資訊，我們有以下幾個觀察:

1. 當欲辨識的文件檔案包含過多雜訊時容易造成切割錯誤的情況，從圖 1-6 僅有

手寫體及印刷體的文件辨識結果可看出此種情形，而若無其他雜訊的辨識結

果就不甚理想時，那麼當文件中有其他的註記時，進行辨識的變數就會更大。

2. 即便有了良好的切割，大部分的辨識引擎仍以印刷體做為主要辨識對象，若將

兩者混合一起作為訓練辨識引擎的對象，也可能會因為字體風格的差異而讓

辨識結果低落。

為有效解決上述問題，本研究將提出一個新分類方法，能判斷欲辨識的中文字元

區塊是屬於印刷體或手寫體，進而讓應用程式能針對不同的字型提供相對應的辨識引

擎，產生較良好的結果，另外為了減少雜訊過多可能會造成的錯誤情形，本研究將針對

會議記錄及筆記方面的資料進行處理，由於這兩種資料主要由文字所組成，因此將使用

此兩種類別的掃描影像進行測試。

10

‧國

立政治

大

學‧

Na


niv

ersi t

y

具體而言，本研究將提出一套新的字體分類方法，透過此方法可過濾掉文件中非

文字的雜訊，並將文件上具有文字資訊的區塊逐一切割出來，接著再針對這些切割後的

區塊進行字體的判斷，當有了印刷體及手寫體的判斷結果後，若辨識引擎有針對這兩種

不同的字體進行不同的模組訓練的話，將能針對兩種不同的字體進行不同的分析判斷，

使得文字辨識結果能更為精確。

本論文於第二章敘述相關之研究及其問題，第三章描述從筆記掃描文件中過濾出

文字區域的實作方法，第四章為辨識文字區域字型的演算法，第五章則為使用前兩章節

方法於掃描文件後的實驗結果與討論，第六章為結論與未來可能改善的方向規劃。

11

‧國

立政治

大

學‧

Na


niv

ersi t

y

2. 相關研究

本研究的主要目的是辨識文件中的各個文字屬於印刷體或手寫體，然而文件並非

單純的僅包含文字而已，因此還必須先將影像中不屬於文字的部分過濾，並圈選出具有

文字資訊的區塊，此部分主要使用文字濾波將含有文字特質的部分過濾，接著再針對切

割出的文字字型進行分類，以下將針對文字濾波及字型分類這兩種議題的相關文獻進行

討論。

2.1. 文字濾波

文字濾波是為了將原始影像中可能屬於文字結構的像素過濾出來而產生的，由於

若單純使用 Canny 或 Sobel 等邊緣濾波進行過濾時容易留下過多不屬於文字的雜訊，並

且無法針對可能是文字筆畫的部分加強資訊，因為這類型的濾波主要訴求並不在此，因

此有學者針對印刷體的整體結構進行探討，根據筆畫間的相依性提出了文字結構濾波

(Stroke Filter)[3]，或者是尋找文字外框的文字邊緣濾波[4]，另外也有文獻使用多貝西小

波(Daubechies Wavelet)[5]作為文字濾波，本小節將針對這幾種文字濾波進行討論，並挑

選其中幾種方法作為過濾文字資訊的濾波器。

12

‧國

立政治

大

學‧

Na


niv

ersi t

y

2.1.1. 文字結構濾波

文字結構濾波[3]是由韓國三星技術中心 Liu 等研究學者所提出的過濾方法，該技

術的主軸是對影像上的每一個點計算三個已經定義好的區塊內的能量平均值(mean)及

標準差(standard deviation)，他們研究發現通常文字的筆劃寬度都具有一個相近的比例，

而且通常同一文字內的不同筆畫間會有一個對應的關係存在，這使得他們能利用這樣的

關係提出一個新的濾波來判斷該像素點周圍是否有鄰近的文字筆畫存在，若有文字筆畫

存在則可能屬於文字資訊，圖 2-1 為他們所提出的文字結構濾波。

圖 2-1，文字結構濾波的計算資訊

然而文件上的文字並不一定是固定大小的，這使得每個文字的筆畫寬度可能會有

所不同，而使用文字結構濾波的好處是最後會有一個能量值代表該像素點的文字能量強

度，當強度越高表示他可能是筆劃的機率越高，但若只有一組計算值時可能會有錯誤的

情形，為了避免這樣的可能性，他們共定義了三組不同長度、寬度的核心尺寸，因此在

進行像素點判斷時，每個長度核心都會計算一次以找出較適當的結果，此外他們也觀察

發現大部分的印刷體文字筆畫都擁有固定的結構，主要由水平、45 度角、垂直、135 度

角四個方向的線條組成，因此在計算時除了前面設定的三個長度核心外，還會將他們分

13

‧國

立政治

大

學‧

Na


niv

ersi t

y

別搭配這四種角度進行運算，最後為了避免白底黑字及黑底白字這兩種情況可能造成不

必要的影響，又會分別產生兩種不同的算式，所以最終一個點將有 24 個值儲存於其中，

計算公式如 Eq 1，其中 bright、dark 分別代表白底黑字、黑底白字的情況，α表示旋轉

的角度，d 表示長度值，μi 表示圖 2-1 中區域 i 的平均值。

Eq 1

在獲得了這 24 個數值之後，再將它們依照所有數值、四個旋轉角度數值及三種長

度核心數值進行分類，並從這三個集合中分別找出各自能量最強的部份，作為該點回應

(Response)最強、旋轉(Orientation)最強、縮放(Scale)最強的三種能量值定義，Eq 2 為三

種能量值的公式內容。

Eq 2

在擁有了這些能量值定義後將可以做一些後續的應用，例如在原始文獻中將每點

的亮、暗能量進行加總，接著進行比例計算，以判斷該文件是屬於白底黑字或者黑底白

字。

由於原始的文字結構濾波在長度上使用了三組數值，且每一組數值又必須再進行

四個角度的旋轉計算，使得僅僅一個文字結構濾波就必需耗費不少時間來取得結果，因

此有學者提出了快速文字結構濾波[6]以減少計算時間，該論文使用水平及垂直兩種區塊

14

‧國

立政治

大

學‧

Na


niv

ersi t

y

搭配著進行計算，利用兩區塊所計算出的值進行比較，當水平區塊值大於垂直區塊時，

該像素點則屬於一般筆劃中的橫線，而當垂直區塊值大於水平區塊時則屬於一般筆劃中

的直線，最後當兩組值相當時則代表他是斜線，該研究主要是希望藉由這樣的判斷方式

以減少計算所需耗費的資源，圖 2-2 為筆畫判斷內容。

圖 2-2，快速文字結構濾波的方向判斷結果

另外也有基於原始方法所提出的改良方式，如同前面所述，為了避免錯誤的可能，

韓國學者使用了三組長度數值，然而這也連帶造成計算時間增加，因此有學者提出將三

組長度縮為固定一組的方法[7]，並且為了達到較好的結果，三個區塊的長度及寬度也與

原始的有所不同，新的方法中間較為細長而兩旁區域則較短且寬，圖 2-3 為改良後的文

字結構濾波示意圖，此外每個像素也直接使用四種角度計算後的能量強度作為候選值，

不再使用較亮及較暗兩種不同的能量計算公式，接著再根據四個數值選最大的作為該點

的能量，當每個點的能量值計算完後會再套用一個閾值(Threshold)進行篩選，若低於閾

值則視為非文字結構點，改填入 0，若高於閾值則將原始能量帶入新公式後作為該點的

能量值，如 Eq 3 所示，最後一樣可以透過這些能量進行後續應用。

15

‧國

立政治

大

學‧

Na


niv

ersi t

y

Eq 3

圖 2-3，改良後的文字結構濾波示範圖及各種參數設定

此三種文字結構濾波都有各自不同的核心計算方法，然而由於原始的文字結構濾

波[3]使用三組核心進行計算，也因此其所能提供的結果較為優異，但這同時也使得計算

時間更久，於是有其他的改進方法出現，使用一組核心的文字結構濾波[7]在計算時間上

能較為進步，然而也因為僅使用一組核心，因此是否適合仍須實際進行測試，而利用長

度、能量進行判斷的方法[6]則感覺容易判斷錯誤，因此本論文在文字結構濾波的套用中

將以具有旋轉核心機制的方法作為主軸。

16

‧國

立政治

大

學‧

Na


niv

ersi t

y

2.1.2. 文字邊緣濾波

文字邊緣濾波(Stroke Edge Filter)主要是希望能找出文字的邊框，當有了邊框之後

就能利用這些資訊判斷文字的位置，除了文字邊緣濾波外，在找尋類似概念的文獻時也

發現了一種 Isotropic Nonlinear Filter[8]，雖然文獻原本是用來取出卡通圖形的邊框，但

這個概念似乎也可以套用在文字上，因此本研究將他們視為同一類。

如前所述，文字邊緣濾波是為了找出文字的邊框，主要是利用文字邊緣與背景顏

色的對比度都會比較高的概念，由於是與背景計算對比度，因此會將每個點的周圍像素

值做一個統計，找出最大及最小的值進行相減，由於是計算該點的鄰近區域，因此若能

挑到一個適當大小的區塊作為計算基準的話，將能產生不錯的結果，接著再將相減後的

值與兩個不同閾值進行比對，若該點的值大於兩個閾值，則被認定一定是文字邊緣的點

(標記為 2)，若介於兩者之間，則判定為可能是文字邊緣的點(標記為 1)，最後若小於兩

個閾值，則表示它與文字無關(標記為 0)，而這兩個閾值則是依據整張灰階影像的平均

數及標準差再配合不同常數計算而成的。

進行完閾值的判斷後會獲得一張表，標記每個點屬於哪一種情形，接著將針對每

個一定是文字邊緣的點進行邊緣區域連結步驟，即針對每個標記為 2 的點進行連結步

驟，若該點標記為 2 則會開始往四個方向進行計算，分別統計每個方向的強度，當遇到

新的點與原點同樣型態則強度加二，若遇到的是標記為 1 的則強度加一，而遇到標記為

0 的點時就停止計算，圖 2-4 左為計算的過程示意圖，當四個方向都統計完後則選取強

度最大的方向作為文字邊緣，並將上面的點全都改成一定是文字邊緣標示出來，如圖

2-4 右所示，最後會得出文字的邊緣，並可利用這些資訊進行後續應用，從這個濾波及

前述的文字結構濾波都可看出不管方法為何，都是使用四個方向來進行統計的。

17

‧國

立政治

大

學‧

Na


niv

ersi t

y

圖 2-4，黃色點為計算原點，紅色點為文字邊緣點，綠色點為可能是文字邊緣點，

黑色則表示停止計算，左圖為原始標記，右圖為找出強度最大的方向後重新標記結果

除了文字邊緣濾波外，在搜尋相似概念的文獻時也發現了另一種濾波可以用來偵

測文字邊緣，Isotropic Nonlinear Filter[8]是一個用來偵測有寬度的線的濾波，而通常文

件上的文字筆畫都是具有寬度的，因此本研究也將之納為參考研究之一，此濾波與前述

濾波相似，是利用線段及背景會有不同亮度的情況來進行過濾的，由於這個濾波並非針

對文字結構，因此他所使用的遮罩是圓形的，與文字邊緣濾波相同的是仍然會統計遮罩

範圍內的所有點，只是並非取最大、最小值，而是改計算每個點與原點的亮度差距，若

差距小於一個閾值則為 1，若超過則為 0，Eq 4 為計算公式。

Eq 4

而該點的能量就是將遮罩區域內的所有點的值進行加總，若加總後的值小於定義

的閾值(一般使用圖形的面積)，則將閾值減掉加總後的值作為該點的新能量，這樣子做

的原則是因為如果點位於背景或非線段邊緣上時，遮罩所覆蓋的區域內都會是亮度相同

的點，如圖 2-5 的 a 遮罩的位置，而若在線段或線段的邊緣時，亮度統計結果就不會等

18

‧國

立政治

大

學‧

Na


niv

ersi t

y

於閾值，如圖 2-5 的 b、c、d 遮罩的位置，最後他們也提出了另外的統計方法，使得產

生的能量值能更為平滑，計算公式如 Eq 5 所示，其中 sech(x) = 2/(ex + e¡x)，而 t 則設定

為 10。

Eq 5

另外也有其他學者基於此種方法提出新的能量計算方法[9]，他們使用上述的公式

進行遮罩區域內的加總，最後再乘上該點的 Laplacian of Gaussian 值作為最後強度，Eq 6

為此方法的計算公式。

Eq 6

圖 2-5，Isotropic Nonlinear Filter 的遮罩套用於各區塊的示意圖

19

‧國

立政治

大

學‧

Na


niv

ersi t

y

2.1.3. 多貝西小波

多貝西小波[5]是由 Ingrid Daubechies 所提出的，這種小波函數主要用於離散型的

小波轉換，主要用於數位信號分析、壓縮以及去除雜訊等等。由於多貝西小波是一種正

交小波，因此他能利用快速小波轉換實現，再者，多貝西小波的長度是有限的，而這類

型的小波應用於快速小波轉換時會產生兩個實數數列，一個作為高通濾波器(High-Pass

Filter)的係數，另一個則是低通濾波器(Low-Pass Filter)的係數。一般在稱呼多貝西小波

會使用 DN 作為簡稱，N 是濾波器的長度，而在過去文獻的探討中發現部分文獻[10, 11]

使用長度為 4 的多貝西小波作為文字濾波，如圖 2-6 為[11]中使用多貝西小波之結果，

從圖中可看到具有文字的資訊是有被保留的。

圖 2-6，左圖為欲過濾之影像，右圖為二階層之 D4 小波結果

取得套用小波的結果後，接著必須進行文字區塊的切割，[11]的作者使用具有高頻

的三個區塊進行計算，計算公式如 Eq 7 所示，透過此公式計算後將獲得一組新的數值

作為該影像的初步結果，接著再利用動態閾值的方式判斷該點是否有可能是文字點，而

動態閾值的判斷方式則如 Eq 8 所示，最後透過這些文字點來取得適合的文字區塊。

20

‧國

立政治

大

學‧

Na


niv

ersi t

y

Eq 7

Eq 8

2.1.4. 小結

從文字邊緣濾波及多貝西小波的文字點找尋方法可知道，在套用完濾波後仍需進

行一閾值判斷，將反應較弱的部分排除，才能正確的找出適當的文字點，因此必須要選

擇能根據文字結構給予良好能量反應的濾波較為恰當。此外挑選適當的核心也是有益

的，例如文字結構濾波及文字邊緣濾波能選擇不同的遮罩尺寸作為計算依據，這表示若

原始方法的表現不足時能改進他們以獲得較好的結果，此三種濾波的比較將於第三章進

行。

2.2. 字型分類

印刷體及手寫體若透過人眼進行分別是非常簡單的，因為印刷體的文字較為方

正，且在排列時非常的整齊，而手寫體的文字則容易大小不一，且會有排列較不平滑的

情形發生，因此有部分文獻利用這兩種特性作為分辨印刷體及手寫體的依據。此外在圖

形識別的領域中，分類與機器學習演算法常常是綁在一起的，較常見的機器學習演算法

如 Support Vector Machine (SVM)[12]、AdaBoost、Neural Network、Locality Sensitive

21

‧國

立政治

大

學‧

Na


niv

ersi t

y

Hashing (LSH)[13]等等，與前種方法不同的是，機器學習技術必須先準備好欲分類的類

別資料，使得這些演算法能有資訊學習以產生模組進行辨識、分類，而在印刷體、手寫

體區別的領域中，也有不少文獻是利用此種技術進行分類的。而在近期的字體分類文獻

中，主要以使用後者方法為主，底下將根據這兩種方法的相關文獻進行討論。

2.2.1. 根據字體特性分類

利用此方式分類必須要有一個文字區塊，而這個文字區塊必須是以詞(如 apple)為

單位進行框選的，因為若區塊內僅有一個文字時，較不容易利用這種特性來分類文字，

因此使用這種方法進行分類的文獻都以英文為主。

特性分類法利用印刷體工整的特性，此類方法主要有兩種，一種使用投影的方式，

例如[14, 15]即為使用此種方法進行字體分類的相關文獻，如圖 2-7 即為[14]利用文字特

性分類印刷體及手寫體所呈現的直方圖差別，此方法先將每一個字的最高及最低資訊保

留，圖 2-7(b)(e)即為過濾後的結果，接著再將處理後的影像進行水平方向的投影，由於

英文字母的印刷體具有類似的高度，如 aceon、fhHG、pg 等等即為具有類似高度的字幕，

因此投影後的直方圖在特定位置會有較多的資訊，而手寫體無法控制對齊的基準線，投

影後的直方圖就會有不同的分布情形，圖 2-7(c)(f)即可明顯看出兩者的差別。

22

‧國

立政治

大

學‧

Na


niv

ersi t

y

圖 2-7，使用英文印刷體特性進行字體分類的範例

另一種方法則是利用連接元件的資訊，[16]中使用六種資訊搭配 Fisher's linear

discriminant[17]區分地址是手寫體或印刷體，此六種資訊分別為連接元件的寬度標準

差、高度標準差、平均密度、寬高比、distinct different heights、distinct different widths)，

此方法在辨識 800 組地址時有 95%的正確率。

2.2.2. 使用機器學習分類

此種分類法會先定義好要讓機器學習法使用的特徵值，而每種文獻會定義各自覺

得有意義的特徵以達到較優異的結果，如表格 2-1 即為[18]用來學習模組的特徵值，從

此表格可發現，使用機器學習法進行分類時，不一定會只使用一種特徵描述子作為最後

的特徵值結果，可能會搭配多種的描述子做為最後結果，另外在產生了特徵值後也可能

會再進行降維的動作，保留較重要的資訊並減少產生模組所需的時間。

23

‧國

立政治

大

學‧

Na


niv

ersi t

y

表格 2-1，[18]描述文字資訊的特徵值

Feature set Feature description # of features

# of features selected

Structural

Region size,

connected

components

18 9

Gabor filter Stroke orientation 16 4

Run-length histogram Stroke length 20 5

Crossing count histogram Stroke complexity 10 6

Bi-level co-occurrence Texture 16 2

2 x 2 gram Texture 60 5

Total

140 31

除了將多種描述子搭配作為特徵值的方法外，也有使用單一描述子做為特徵值的

方法，如[19, 20]使用 chain code[21]取得文字邊框數列後再搭配不同的方法描述此邊框

作為特徵值，chain code 是一個八方向的邊緣描述方法，將某一點選為起點並繞邊緣一

圈，利用事先定義好的八個數字代表不同方向並取得最終數列，[19]使用 chain code 搭

配 Fourier Descriptor 作為描述文字的特徵值，表格 2-2 為[20]所整理利用機器學習法進

行字體分類的正確率，這些方法所欲分類的語言都是英文，可看到準確率較高的方法都

會將方向作為參考條件之一，與前一小節的文字濾波情形類似，因此可以得知方向資訊

在字體分類有一定的必須性。

24

‧國

立政治

大

學‧

Na


niv

ersi t

y

表格 2-2，各種利用機器學習法進行字體分類的結果

Method

Proposed by

Data set size Feature Used Classifier

Used Accuracy

Zheng, et al. [18]

4549 text blocks

Structural Features, Run length histogram, Crossing

count histogram, Gabor filter, etc

SVM 96.00%

Fisher 95.50%

K-NN 94.20%

Guo and Ma [22]

187 handwritten words

Projection profile etc HMM 92.86%

Kandan, et al. [23]

1678 handwritten elements in 150

images Moment feature

SVM 93.22%

NN 87.85%

Chanda, et al. [20]

NI type (1615 printed, 1300 handwritten)

Directional features SVM

98.26%

ARI type (2408 printed, 1550 handwritten)

word/character component

96.90%

2.2.3. 小結

從前述的討論可觀察出若想快速分類印刷體及手寫體，則必須利用字體特性，因

為不需要事先將模組訓練好才能使用，然而此種分類法有一些基本限制存在，而英文詞

25

‧國

立政治

大

學‧

Na


niv

ersi t

y

彙正好符合這些定義的限制，因此能使用此方法區分印刷體及手寫體，而這些特性是否

能套用於本研究所欲分類的中文字體，需測試後才能有明確的答案。另外前述的這些文

獻大部分都以英文作為分類語言，而中文字本身的文字結構與英文字又有所不同，相同

的取特徵方法不一定適用於中文字上，但印刷體具有工整的特性都是一樣的，因此若要

使用機器學習法則可以參考其中的部分概念，如方向等具有鑑別力的資訊，作為特徵值

的使用依據。

2.3. 系統流程

本研究將利用前兩節的整理出的資訊作為此字體分類系統的主要方法，圖 2-8 為

本系統的流程圖。

圖 2-8，本研究的系統流程圖

26

‧國

立政治

大

學‧

Na


niv

ersi t

y

3. 筆記文字過濾

觀察一般筆記文件時，發現使用者並不僅只書寫文字於會議紀錄或課堂講義中，

可能會針對文件中的文字進行重點標示，而本研究發現標示重點的方式主要有兩種：一

為使用原子筆、簽字筆等作為重點標示的底線、外框等等，另一種為使用螢光筆將文字

進行重點標示的情形，與前者不同的是此種標示方式也可能出現於文字資訊中，造成判

斷的困難，如圖 3-1 第六行的螢光筆線段，因此本章節將分為兩部分：第一節著重於將

前述的線段資訊消除，第二節為套用第二章所討論的文字濾波結果，圖 3-1 為此章節的

主要測試影像。

27

‧國

立政治

大

學‧

Na


niv

ersi t

y

圖 3-1，本章節所使用的測試影像

28

‧國

立政治

大

學‧

Na


niv

ersi t

y

3.1. 非文字資訊處理

本研究觀察一般筆記或會議記錄在印製時多使用黑白墨水印製而成，因此希望能

利用顏色這個最主觀的資訊來進行初階處理，使得原始文字及後來使用者新增的文字能

做初步的切割，這樣能簡化後處理所需花費的工夫，然而使用者不一定會使用藍筆進行

書寫，可能使用黑筆作為主要書寫工具，這可能會造成切割上的錯誤，因此使用顏色做

為切割文字的依據是較不佳的。

本研究改而針對整張影像進行處理，如前所述，在這類型的文件上最常見的雜訊

主要有兩種，而此小節著重的非文字資訊主要是第一種的劃線及外框情況，為了過濾這

類型的雜訊，必須要先取得線段的位置資訊，此處本研究選擇使用 Canny Edge Detector

作為偵測線段資訊的基礎演算法，因為他能準確地找出具有強烈變化的邊界，而這正符

合本研究對筆記文字的定義，屬於文字的部分與背景顏色較容易有較高的對比關係存

在，圖 3-2 為此方法的流程圖。

圖 3-2，非文字資訊處理的流程圖

29

‧國

立政治

大

學‧

Na


niv

ersi t

y

在套用了 Canny Edge Detector 後會獲得一組二維陣列，記錄該點屬於邊緣或不屬

於邊緣的數值，圖 3-3 圖 a 為 Canny Edge Detector 套用於圖 3-1 後的結果，黑色點表示

非邊緣的部分，而白色點則為邊緣點。然而這些偵測後的點彼此之間是不具有關聯性

的，無法得知哪些邊緣點是屬於相同的線段，因此在產生了圖 3-3 圖 a 的結果後必須將

有相連的點進行連接，而從圖中的紅色區塊可觀察到大部分的重點線段都是相連的，因

此本研究使用[24]提出的連接元件邊緣演算法，將相連的點串聯起來形成一個輪廓，接

著再對每一個輪廓進行後續判斷，若輪廓寬度大於兩個文字則視為標記重點，然而這樣

的偵測較適合用於標記於文字底部的直線，因為他們與文字資訊沒有連接，不會因為與

文字有聯繫而在刪除時連帶將文字一起刪除，對於文字外框的重點標示法，本研究則使

用[24]所提出的第二種演算法，此演算法可尋找輪廓的最外圍，而不會再向內繼續搜尋，

這樣子能避免在做後續處理時將內部的文字資料也一起刪除，而此處使用的判斷準則與

第一種方法的判斷準則相同，最後的偵測結果如圖 3-3 圖 b 所示，白色為使用此方法後

偵測為重點標記的結果。

30

‧國

立政治

大

學‧

Na


niv

ersi t

y

圖 3-3，圖 a 為經過 Canny Edge Detector 套用於圖 3-1 的結果，紅色區塊所標記的是畫

重點於文字底部的方法，橘色區塊所標記的是畫重點於文字外框的方法，圖 b 為使用所

提出的偵測結果，白色線段所圈出的輪廓為偵測到符合本研究定義的重點線段的結果

從圖 3-3 圖 b 可觀察到若文字與重點框線有所連接的話，會導致部分文字的外圍

被偵測為輪廓，這是由於外框與旁邊的文字邊緣有連接，因此會被演算法考慮為是相同

的邊緣，但大部分的情況仍是可以被偵測出來的，在有了這些輪廓區塊資料後會將這些

31

‧國

立政治

大

學‧

Na


niv

ersi t

y

區域內部填滿白色以消除這些註記的顏色，但有些線段在經過 Canny 偵測後並非取得最

外圍輪廓，導致最後仍有一小段顏色留存，因此本研究會再套用前述的演算法於先前所

產生的結果中，進而將第一次沒消除的部分抹去，而在填補顏色後可能會有一些小雜點

留存，如圖 3-4 圖 a 可看到之前是線段或外框的位置留下一些未被完全覆蓋的線段，接

著本研究使用 Dilate(膨脹)的概念，利用 2*2 的大小來填補該核心外圍的顏色，使得雜

點被周圍的白色背景覆蓋，最後結果如圖 3-4 圖 b 所示。

圖 3-4，圖 a 為套用兩次找輪廓後的結果，第四行的”市”由於與重點標記連接造成有一

部分資訊遺失，圖 b 為消除重點標記後的結果。

32

‧國

立政治

大

學‧

Na


niv

ersi t

y

3.2. 套用文字濾波

在取得了較為乾淨的影像後，接著將套用第二章曾討論，能取得具有文字意義的

三種文字濾波，此三種濾波分別為文字結構濾波、文字邊緣濾波及多貝西小波，因此底

下將套用這三種文字濾波於套用重點過濾方法後的影像，並從中選取最佳的結果作為本

研究的文字濾波，此小節使用的測試影像為清除重點標記符號後的影像，如圖 3-4 的圖

b 即為本小節使用影像的部分結果。

3.2.1. 多貝西小波

本研究參考過去文獻[10, 11]使用長度為四的多貝西小波作為文字濾波進行過濾，

並同樣使用二階層作為運算結果，在觀察各個產生影像後，本研究選擇二階層的 HH 通

道作為最佳結果，然而經過多階層小波轉換後的區塊尺寸都較原圖小，因此在有了該區

影像之後必須再放大回原始尺寸，以進行準確的切割，然而在放大時可能造成資訊不完

整或是取出的區塊位置有所偏差等情況，可能會導致後續處理較為不方便，圖 3-5 為套

用多貝西小波於圖 3-1 的 HH 通道結果，另外一點需要考慮的是計算一張尺寸為

1500*1000 的影像約需 30 秒，所需花費的等待時間是較久的。

33

‧國

立政治

大

學‧

Na


niv

ersi t

y

圖 3-5，二階層 D4 小波 HH 通道結果切割圖

3.2.2. 文字邊緣濾波

如同前面所述，文字邊緣濾波是利用文字與背景具有一定對比度作為計算依據

的，而本研究所針對的影像主要是筆記掃描影像，較不容易有文字位於複雜的顏色背景

上的情況，因此在這個部分本研究採用了與此種概念較為相近的 Isotropic Nonlinear

Filter 作為判斷邊緣的方法，因為剛畫好的卡通影像大部分都是著色於白色背景上的，

不過此演算法所使用的遮罩是圓形的，較不符合文字的主要結構，且圓形的遮罩面積較

難計算，可能會有某一小格被排除在外的情況，因此此處的遮罩改使用水平、垂直、45

34

‧國

立政治

大

學‧

Na


niv

ersi t

y

度、135 度的方塊作為新的遮罩進行運算，新的遮罩結果如圖 3-6 所示，Eq 9 為能量的

計算公式。

Eq 9

圖 3-6，參考文字結構改善後的遮罩示意圖

由於掃描影像的顏色資訊並不一定相同，有些白色像素在轉成灰階影像後也可能

位於不同的範圍區間，因此套用上述的公式較容易產生良好的結果，並且能順利的取得

這些資訊的邊緣，結果如圖 3-7 圖 a 所示，但對於文字內的重點標記是較不容易過濾的，

若改用亮度作計算，由於一般螢光筆都是屬於較亮的筆芯，則重點標記會與背景有相同

亮度而消失，但某一部分手寫資訊也會消失，如圖 3-7 所示。

35

‧國

立政治

大

學‧

Na


niv

ersi t

y

圖 3-7，圖 a 為使用灰階影像及新遮罩的結果，圖 b 為使用亮度(V)通道的結果

3.2.3. 文字結構濾波

過去與文字結構濾波有關的文獻共有三類，原始核心一、原始核心二及加速核心，

本研究將使用原始核心一[3]及原始核心二[7]進行比較，而在進行這兩種核心的測試時

36

‧國

立政治

大

學‧

Na


niv

ersi t

y

也發現彼此間有所不足，如核心一計算結果較佳，但時間花費較久，因為其核心有三組

且會逐漸擴大，而核心二所花費時間較短，但產生的結果不如核心一的結果那麼好，有

部分應當保留的文字線段反而不具有較強烈的能量，在這樣的情況下本研究提出了一種

新核心與前述兩種核心一起比較，新核心的改良數值如圖 3-8 所示，三種核心的數值如。

圖 3-8，本研究提出的改良核心圖

圖 3-9，三種核心的長寬數據

此次提出的核心主要是參考前面兩種所產生的，雖然核心一的結果較為平順、準

確，但由於原始核心需計算三種不同的數值才能獲得結果，導致當影像較大時計算時間

容易過長，因此本研究新提出的核心必須要是使用單一組數值進行計算的，接著轉而參

考核心二的數據，在觀察套用核心二後的結果發現此種核心在處理水平筆畫的資訊時會

有所遺漏，導致判斷結果與原始文字有所差異，推測是由於核心二的中間區域寬度較

37

‧國

立政治

大

學‧

Na


niv

ersi t

y

窄，而無法獲取較多的資訊，綜合前兩項資訊本研究提出了新的核心數據，這個核心在

處理水平筆畫時較不會遺漏資訊，因為新核心的中間區域寬度變寬且長度也變長，能獲

得較多的資源產生較佳的結果，此外由於核心長度僅有一組，計算的時間複雜度較少，

能夠較迅速的取得結果，三種核心產生的結果如圖 3-10 所示，計算一張掃描文件(影像

尺寸約為 1500*1000)所花費的時間如表格 3-1 所示。

本研究從圖 3-10 及表格 3-1 的結果選擇新核心作為此部分的最佳結果，雖然核心

一所產生的結果與原文字影像較為相像，對於屬於文字部分的資訊也保留的較為完整、

詳細，然而計算整張影像約須花費長達兩分鐘的時間，使得整體效果較為不佳，而改良

核心計算完約需十秒的時間，這樣的速度是較為合理的，然而從圖 3-9 圖 b 可看出在某

些文字的水平部分會有資訊缺少的問題，尤其是當處理”一”這個文字時更為明顯，因此

最後選擇本研究所提出的核心作為最終結果，由於核心長度較大，其計算一張影像約需

十五秒，而從圖 3-10 圖 c 可看到結果與圖 a 是較為相像的，再加上計算時間差了約八

倍，因此最後使用此核心作為文字結構濾波的最佳結果。

表格 3-1，套用不同核心於圖 3-1 的計算時間

核心類別

花費時間(秒)

原始核心 130 改良核心 9 新核心 13

38

‧國

立政治

大

學‧

Na


niv

ersi t

y

圖 3-10，三種不同核心處理的結果，a:原始核心，b:改良核心，c:本研究提出核心

39

‧國

立政治

大

學‧

Na


niv

ersi t

y

3.2.4. 文字濾波總結

若將目標著重於過濾文字間的重點標記，那麼使用文字邊緣濾波搭配 V 通道的結

果是最佳的，然而這也會使得手寫文字的部分資訊消失，若使用灰階影像的話又會讓重

點標記的邊緣線過於明顯，此處的目的是希望能保留文字的資訊，並消除大部分的雜

訊，因此本研究認為文字邊緣濾波的結果較不適合作為此處的文字濾波。

而多貝西小波除了必須切割出尺寸較小的影像才能取得結果外，從圖 3-5 的結果

中可看出部分文字內的點跟點彼此之間是沒有相連的，這使得接下來若要找出文字區塊

時的困難度更為提高，因為一般計算文字區域時主要是使用連結元件的方法，當文字中

的點與點之間沒有連結時就無法更快速的將單一文字的連結於單一區塊內，此外如前一

小節所述，由於結果是小尺寸的影像，放大時可能會產生一些誤差的錯誤情況，因此在

經過考量後選擇使用本研究提出的文字結構濾波作為文字濾波，最終結果如圖 3-10 所

示，可看到大部分的重點標記線段都有被移除，僅剩下少部分的資訊，而文字結構濾波

則能依照文字架構給予適當的能量回饋。

40

‧國

立政治

大

學‧

Na


niv

ersi t

y

圖 3-11，移除重點標示線段，並套用本研究提出的文字結構濾波於圖 3-1 的結果

41

‧國

立政治

大

學‧

Na


niv

ersi t

y

4. 文字型態分類

主要的文字型態可分為兩大分類－印刷體及手寫體，印刷體具有工整、固定的文

字風格，而手寫體則因為每個人的筆跡、筆觸不相同，最後所產生的字也就會有各自的

風格，過多的分類容易造成錯誤發生，為了減少錯誤發生的情形，本研究使用文字型態

的最大分類作為分辨依據，將文字區塊分類為印刷體或手寫體，而在有了此類別結果後

也能進行後續不同的應用。

由第二章的相關文獻探討中得知用於字體分類的方法主要有兩種，一種為利用字

體本身的特性作為區隔的方法，另一種為先取得特徵值後再使用機器學習演算法進行字

體分類，此章節將使用這兩種方法進行字體分類，最後再根據正確率挑選適合作為中文

字體分類的方法。

要使用字體特性作為區隔方法必須先針對本研究所考慮的印刷體－標楷體及新細

明體進行結構分析，由圖 4-1 可看到標楷體的排列是很整齊的，然而若參考[14]所使用

的投影方法卻是較為困難的，從圖中可看到”工”字較旁邊的字來的扁，且文字擺放的位

置是以中心進行對齊的，這樣子的印刷方法會影響到使用投影方法時的結果，而中文字

只需一個字就能成為詞的特性也容易影響到辨識準確率，若只有一個字時容易產生手寫

體的投影結果，因此本研究選擇使用機器學習法進行中文字體分類。

42

‧國

立政治

大

學‧

Na


niv

ersi t

y

圖 4-1，兩種不同字型的印刷體範例，上排為標楷體，下排為新細明體

4.1. 資料蒐集

使用直方圖統計判斷必須要有足夠的資料數目幫助判斷錯誤率才不會過高，雖然

印刷體具有工整的文字風格，但不同字體彼此之間仍是有差異存在的，本研究著重的資

料是中文筆記文件及會議記錄兩種，因此在印刷體的資料挑選上必須參考此兩種文件資

料中常用的字體，在觀察這兩種文件檔案時發現，此類型文件主要選擇使用標楷體或新

細明體作為文字字體，因此在印刷體的資料蒐集上將以這兩種字體為主。而手寫體則不

同於印刷體，沒有固定的風格作為依據，相同的字，不同的人會有不同的模樣產生，因

此在資料的蒐集上難度較印刷體為高，想要顧全手寫體的所有情況是較為困難的，必須

多找幾個使用者幫忙產生資料，以減少、避免錯誤的情況發生。

確定了字體後還必須定義一些細部的資訊，從這兩種文件檔案中發現印刷體主要

使用的文字大小為 12、14 或 18 等等，本研究選擇 12、16、22 作為蒐集資料的文字大

小，因為相近的尺寸所能提供的資訊應當是較為相似的，而選擇 12 作為最小尺寸是因

為若文字大小為 10 時印出來的字必須要貼近紙張才能清楚分辨，且所有的文件檔案都

使用 12 作為大部分文字資訊的尺寸，除非是重點或大標題等才會使用較大的文字尺寸，

另外每種字體還會有粗細筆畫的分別，因此一個詞會產生 2 種字體、3 種尺寸、2 種粗

43

‧國

立政治

大

學‧

Na


niv

ersi t

y

細筆畫，共 12 筆印刷體資料產生，圖 4-2 為一組印刷體的結果，而手寫體則在書寫後

進行掃描並依照影像尺寸進行縮放，有的詞僅產生兩組、而有的可能會有三組甚至四組

結果產生，較不固定，手寫體則包含多種手寫風格，如圖 4-3 為部分手寫體結果，手寫

體資料共有 8 種不同的風格。

圖 4-2，印刷體資料範例，上兩排為標楷體，下兩排為新細明體

圖 4-3，手寫體的部分資料

44

‧國

立政治

大

學‧

Na


niv

ersi t

y

有了前述針對印刷體及手寫體資料的定義後，接著必須利用這些規範產生用來觀

察及測試的資料，對於印刷體的部分選擇了分別由兩個字、三個字、四個字組成的詞彙

共 1138 組，共有 13656 筆資料做為觀察及測試用的資訊，其中觀察部分有 906 組 10872

筆，測試部分有 232 組 2784 筆，而手寫體的部分則約有 400 組詞，大部分為四個字組

成的詞，其中手寫體的觀察部分有 1542 筆資料，測試部分則有 938 筆資料，兩種字體

的資料數目如表格 4-1 所示。

表格 4-1，兩種字體的資料數目

印刷體手寫體

觀察 10872 1542

測試 2784 938

加總 13656 2480

4.2. 直方圖觀察

要進行觀察、統計的資訊是文字資料，必須挑選能良好表達此區塊中文字強度的

演算法作為觀察依據，而從前面所述的各種文字濾波中，最符合此使用需求的即為本研

究所提出的文字結構濾波，因為此濾波會依據該點是否具有筆畫結構來表達此像素點的

能量，接著將產生的能量等比例縮放到 0-255 範圍內，以利影像的顯示，並利用這結果

進行直方圖統計，最初使用 256 維的直方圖進行統計，每一通道的數值為該能量強度的

點加總個數，表格 4-2、表格 4-3 分別為相同文字、不同大小、粗細的標楷體、新細明

體直方圖統計結果，而表格 4-4 為手寫體的統計結果範例。

45

‧國

立政治

大

學‧

Na


niv

ersi t

y

表格 4-2，不同大小、粗細的標楷體文字所產生的直方圖(256維)

原始影像套用文字結構濾波結果直方圖

46

‧國

立政治

大

學‧

Na


niv

ersi t

y

表格 4-3，不同大小、粗細的新細明體文字所產生的直方圖(256 維)


47

‧國

立政治

大

學‧

Na


niv

ersi t

y

表格 4-4，不同筆跡風格的直方圖結果(256 維)


從表格 4-2 及表格 4-3 的直方圖結果中可觀察到大部分的圖形都還滿相似的，因

為印刷體的筆劃結構容易使得文字結構濾波回饋較強的能量反映，這使得直方圖的統計

結果能具有一定的趨勢，即大部分的像素點能量都集中在直方圖的右側，並且佔有較高

的比例，而手寫體的差異性就不如印刷體那麼的大，由表格 4-4 的直方圖結果可觀察出

這樣的特性，雖然手寫體的直方度仍有不少像素點具有高能量，然而與印刷體的結果互

相比較可發現手寫體的曲線較為平緩、差異性較低，且在低能量的數量上，手寫體所擁

48

‧國

立政治

大

學‧

Na


niv

ersi t

y

有的比例也是較多的，本研究因此推論－利用直方圖分類是可行的。

雖然此方法是可行的，但 256 維的結果過於詳細、瑣碎，沒辦法有效的找出單一

通道所具備的價值，不是一個良好的維度選擇，因此改使用 100 維進行直方圖統計，且

在觀察前面的各種結果時發現強度 5 以下的像素點也佔有不少數量，推測此資訊屬於黑

色的背景部分，為避免此能量影響到直方圖的計算，因此在進行 100 維的統計時會將強

度 5 以下的能量點捨去不進行直方圖能量計算，新的結果如表格 4-5 所示，可看到印刷

體的高能量部分是較之前使用 256 維統計結果更為平滑的，且一樣於直方圖的右側佔有

非常多的比重，而手寫體的結果則與 256 維並無太大差異，不會因為降維而讓結果變糟，

可以知道這樣的降維是有幫助的。

表格 4-5，使用 100 維進行直方圖統計的結果

印刷體直方圖手寫體直方圖

49

‧國

立政治

大

學‧

Na


niv

ersi t

y

在確定了直方圖能用來分辨印刷體及手寫體的不同後，仍必須找出如何分類他們

的條件，然而若使用直方圖的曲線、平滑度或者利用前 30%能量、後 30%能量的位置等

等資訊，都可能會有錯誤的情況存在，彼此之間若要進行搭配也可能會有比重的問題，

因此為了減少誤判的情況發生，本研究使用機器學習法作為直方圖的分辨、訓練技術，

而從[20]的統計表格中可看到，各種方法在使用 SVM 的結果是最為優異的，此外 SVM

也是目前很多研究最常使用的機器學習法之一，因此在直方圖的訓練部分，本研究將使

用 SVM 作為此部分的機器學習法，此處所使用的是 radial basis function 搭配 C-SVC 產

生最後的模組。

4.3. 直方圖訓練

由表格 4-5 印刷體及手寫體的直方圖差異，本研究初步假設利用 100 維度進行統

計是能將字體分類，然而 100 維的資料對於 SVM 在訓練模組時仍需要耗費很大的時間

去尋找適當的參數及完成模組，這使得每次在微調時必須花費一段時間等待新的模組結

果，因此本研究再一次將這 100 維的資料降成 20 維，但並非以等比例的方式進行降維，

而是根據直方圖的內容來調配不同的降維寬度。

由前述的直方圖範例中可觀察到前 40 維的資料所佔有的比例是較少，大部位的像

素都集中在後 30 維內，若利用這樣的資料特性進行降維將有不錯的結果，此外背景的

像素點能量仍舊沒有較全面的排除統計，因此新的降維方式在計算時會將前 3 維排除

50

‧國

立政治

大

學‧

Na


niv

ersi t

y

掉，最後僅使用 4-100 共 97 維的資料重新計算，新的降維方式如圖 4-4 所示，而除了

非等比例的降維方式，另外也有使用等比例的降維方式進行計算，此種降維寬度如圖

4-5 所示，是較為平均的。

圖 4-4，非等比例的降維寬度直條圖

51

‧國

立政治

大

學‧

Na


niv

ersi t

y

圖 4-5，等比例的降維寬度直條圖

除了使用文字結構濾波作為直方圖計算的依據外，本研究另外也使用了梯度搭配

能量的方式進行計算，因為中文字印刷體大部分是由水平、垂直、45 度、135 度四個方

向的線段所組成的，因此若僅計算符合這四個角度方向的能量強度時，將能有效的區分

印刷體及手寫體的差別。然而若只用這四個角度可能限制過大，因此本研究參考常態分

佈的概念，將此四個角度的周邊能量乘上一個比例，使得周遭強度會依照距離中心角度

的遠近而有所變化，而此處使用的角度計算範圍有兩種，分別為 5 度及 15 度，乘上的

參數如表格 4-6 所示，圖 4-6、圖 4-7 分別為利用 5 度及 15 度的參數繪製成的折線圖，

而主要使用的梯度演算法則為常見的 Sobel Filter 並搭配兩種不同的核心尺寸，圖 4-8

為兩種核心的計算方式。

52

‧國

立政治

大

學‧

Na


niv

ersi t

y

表格 4-6，角度差距所需乘上的比例變化

角度差 1 2 3 4 5

比例值 .9 .68 .5 .27 .02

角度差 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

比例值 .96 .9 .82 .74 .65 .54 .43 .35 .25 .17 .1 .05 .03 .02 .01

圖 4-6，使用角度差距 5 的比例變化繪製出的折線圖

53

‧國

立政治

大

學‧

Na


niv

ersi t

y

圖 4-7，使用角度差距 15 的比例變化繪製出的折線圖

圖 4-8，a 圖為核心 1 的計算方式，b 圖為核心 2 的計算方式

4.4. 測試結果

在定義了各種取直方圖的方式後，接著將利用 SVM 進行驗證，表格 4-7 為各種方

式的 SVM 測試結果，從結果可看到準確率都高達 99%，然而預期會較佳的直方圖計算

方法，正確率都較基本的計算方式來的稍微差一點，另外由於標楷體的文字筆畫較容易

54

‧國

立政治

大

學‧

Na


niv

ersi t

y

有斜斜往上的情況，因此另外有單獨使用新細明體進行測試的結果，從結果可看到單純

使用新細明體時結果是較為優異的，但大部分的文件主要都使用標楷體作為撰寫字體，

因此使用兩種字體做為資料來源仍是較安全的，最後本研究挑選其中辨識率較高的兩種

方法作為實際分類時的模組，紅色字即為最後選擇的方法，然而本研究所預先猜測會較

好的方法正確率稍低於基本的做法，推測可能是資料內容使得彼此結果有些微的差距，

但從兩者結果都可看到是相當不錯的。而 Sobel 的降能量方法可能也是受到資料的影像

而有結果的差距。

55

‧國

立政治

大

學‧

Na


niv

ersi t

y

表格 4-7，各種方法的 SVM 測試結果

方法印刷體錯誤數手寫體錯誤數正確數正確率

文字結構濾波+非等比例降維

14 4 3704/3722 99.5164

文字結構濾波+等比例降維

5 2 3715/3722 99.8119

文字結構濾波+新細明體+非等

比例降維 2 2 2326/2330 99.8283

文字結構濾波+新細明體+等比

例降維 1 1 2328/2330 99.9142

Sobel 核心 1+角度差距 5+常態分

佈降能量 13 6 3703/3722 99.4895

Sobel 核心 2+角度差距 5+常態分

佈降能量 32 9 3681/3722 98.8984

Sobel 核心 1+角度差距 15+常態

分佈降能量 6 3 3713/3722 99.7582

Sobel 核心 2+角度差距 15+常態

分佈降能量 14 26 3692/3722 99.194

Sobel 核心 1+角度差距 15

1 2 3719/3722 99.9194

56

‧國

立政治

大

學‧

Na


niv

ersi t

y

5. 整合結果

本研究將第三章及第四章的成果整合，並加入文字區域切割的方法，以取得掃描

文件中的文字資訊，此切割方法是利用清除線段資訊時所使用的輪廓演算法[24]，以取

得文字的外框，不過在套用此方法前會進行一個閾值過濾，因為背景或殘餘的雜訊部分

也是具有些許能量的，透過適當的閾值能產生更好的切割結果，如圖 5-1 左為保留圖

3-11 能量大於 50 後的結果，而圖 5-1 右則為大於 100 的結果。

57

‧國

立政治

大

學‧

Na


niv

ersi t

y

圖 5-1，套用閾值過濾圖 3-11 雜訊的結果，圖左的閾值為 50，圖右使用 100，圖中白

色點為具有文字資訊的區域，可看到圖右有部分手寫資訊被過濾

在進行初步的過濾後，將搭配前述的方法找出各文字的輪廓，圖 5-2 為利用圖 5-1

左圖取得文字方塊的結果，雖然本研究所使用的過濾方法會將部分文字資訊消除，但整

理而言大部分的文字是有被切割出來的。而有的文字會連在一起被切割是由於本研究所

提出的文字結構濾波在套用後會將筆畫寬度變寬，間接使得間隔較小的文字容易被切割

在一起，而由於本研究所主要處理的筆記文件中，相同字體的文字大部分是排在一起

的，因此筆畫寬度變寬並不會造成過多的影響，但仍舊有部分資訊受到影響，如圖 5-2

的橘色框的部分就將上方的印刷體及下方的手寫體合併成一個結果。

有了切割結果後將針對這些方塊取得各自的特徵值，然而本研究在訓練模組時是

58

‧國

立政治

大

學‧

Na


niv

ersi t

y

以詞為單位蒐集資料的，但從結果圖可看到大部分的方塊都是以字為單位切割出的，因

此在取得了這些方塊後必須將較靠近的方塊合併在一起，並將方塊過小的雜訊消除，最

終合併結果如圖 5-3 所示，可看到排列較靠近的文字是有被合併的，且方塊過小的雜訊

也不存在於圖上。接著對這些切割後的區塊分別使用第四章測試後選擇的兩種方法進字

體分類，圖 5-4 及圖 5-6(a)為使用文字結構濾波+等比例降維後的結果，圖 5-5 及圖

5-6(b)為使用 Sobel 核心 1+角度差 15 的測試結果，表格 5-1 為套用到其他範例後的統計

結果，由範例圖及統計結果可看到使用文字結構濾波進行辨識是較為準確的，猜測是由

於文字結構濾波依據筆畫結構而給予適當的能量回饋，使得結果較為優異。

表格 5-1，使用文字結構濾波及 Sobel 進行區塊切割的字體辨識統計結果

方法印刷體正確率手寫體正確率總正確率

文字結構濾波 82% 69% 76% Sobel 核心 1 78% 45% 62%

59

‧國

立政治

大

學‧

Na


niv

ersi t

y

圖 5-2，利用文字輪廓進行文字切割的結果

圖 5-3，經由雜訊過濾及文字合併後的結果

60

‧國

立政治

大

學‧

Na


niv

ersi t

y

圖 5-4，使用文字結構濾波+等比例降維的結果，紫色方塊表示該區塊內的資訊為印刷

體，黃色方塊為手寫體

圖 5-5，使用 Sobel 核心 1+角度差距 15 的結果

61

‧國

立政治

大

學‧

Na


niv

ersi t

y

圖 5-6，套用本研究提出的字體分類方法於不同影像後的結果，圖 a 為使用文字結構濾

波的辨識結果，圖 b 為使用 Sobel 核心 1 的辨識結果

62

‧國

立政治

大

學‧

Na


niv

ersi t

y

6. 結論與後續研究改進方向

本研究的目標是提出一套新的中文字體分類方法，藉由辨識結果輔助辨識引擎以

提高辨識正確率，從測試的過程可發現使用機器學習的方式才能達到良好的辨識率，這

是由於特徵值的核心是可以更換的，因此能針對不同的重點使用不同的描述方法，甚至

可以搭配不同的方法以彌補彼此的不足，進而提高辨識率。

由表格 4-7 的各方法正確率可證實本研究所使用的特徵值能將字體正確分割，這

也進一步的表示要進行印刷體、手寫體分類時，角度的資訊是很重要的，兩種判斷方法

都使用了印刷體的筆畫特色－水平、垂直、45 度、135 度四個重點角度，作為彼此取特

徵值的主要依據，更證實了這四個角度所具有的鑑別力。此外本研究針對筆記文件雜訊

所提出的方法是有助於文字切割的，雖然仍有少部分雜訊被留下，但由最終結果可看到

沒經過前處理的影像，其文字切割效果是較差的。

有了單一區塊的字體分類後，將可以利用此結果搭配不同的文字辨識引擎，雖然

本研究並無將結果再與文字辨識引擎結合，較無法與最初的三種筆記軟體進行比較，但

如果不以文字辨識的正確率作為比較內容，而是以文件中的文字切割率判斷，本研究所

使用的方法是有不錯的結果的。

基於這項比較的不足，本研究未來將整合適當的文字辨識引擎，以便能完善的本

研究所提出的字體分類方法，此外在實際文件中的字體分類仍有待加強，由結果圖可看

到正確率仍是有待加強的，推測造成這種情形的主因是由於手寫體資料集的蒐集有誤，

63

‧國

立政治

大

學‧

Na


niv

ersi t

y

訓練模組所使用的資料集是以字詞為單位進行切割的，因此即便是寫的較開的詞在手動

切割時也會將他們歸類在一起，然而手寫體的實際切割情況並不一定會如預想般的完

美，文字與文字之間的間隔可能會影響到切割的結果，導致實際進行切割時有許多的手

寫體是以單一文字切割出結果，而訓練模組中此種資料的資訊較少，進而影響到辨識的

正確率，圖 6-1 為此兩種情況的切割差異範例。

圖 6-1，圖左為手動切圖後的結果，圖右為程式切割時產生部分的結果

除了增加資料外，手寫體的切割也是能夠再改進的部分，因為手寫體的書寫風格

較自由，筆畫與筆畫之間不一定會相連，導致很多字會因而被切開成兩個部分，例如召、

花等字都有可能被切割為兩個字進行判斷，相信若能改善前述的這些問題，此方法將更

加完善。

64

‧國

立政治

大

學‧

Na


niv

ersi t

y

7. 參考文獻

[[1] K. Jung, K. In Kim, and A. K. Jain, "Text information extraction in images and video: a survey," Pattern Recognition, vol. 37, pp. 977-997, 2004.

[2] R. Smith, D. Antonova, and D.-S. Lee, "Adapting the Tesseract open source OCR engine for multilingual OCR," presented at the Proceedings of the International Workshop on Multilingual OCR, 2009, pp 1-8.

[3] Q. Liu, C. Jung, and Y. Moon, "Text segmentation based on stroke filter," presented at the Proceedings of the 14th annual ACM international conference on Multimedia, 2006, pp. 129-132.

[4] X. Li, W. Wang , Q. Huang , W. Gao , and L. Qing "A hybrid text segmentation approach," in Multimedia and Expo, 2009. ICME 2009. IEEE International Conference on, 2009, pp. 510-513.

[5] I. DAUBECHIES, Ten Lectures on Wavelets, 1992.

[6] Y.-C. Su , C.-W. Lee , and Y.-H. Yang "The fast stroke filter," in Machine Learning and Cybernetics (ICMLC), 2010 International Conference on, 2010, pp. 3044-3049.

[7] Z. Wu , X. Fang , and C. Wang "A comprehensive video text localization system based on stroke filter," in Wireless Communications & Signal Processing, 2009. WCSP 2009. International Conference on, 2009, pp. 1-4.

[8] L. Liu, D. Zhang, and J. You, "Detecting Wide Lines Using Isotropic Nonlinear Filtering," Image Processing, IEEE Transactions on, vol. 16, pp. 1584-1595, 2007.

65

‧國

立政治

大

學‧

Na


niv

ersi t

y

[9] M. Huang, M. Yang, F. Liu, and E.-H. Wu, "Stroke extraction in cartoon images using edge-enhanced isotropic nonlinear filter," presented at the Proceedings of the 9th ACM SIGGRAPH Conference on Virtual-Reality Continuum and its Applications in Industry, 2010, pp. 33-38.

[10] G. Aghajari and J. Shanbehzadeh, "A Text Localization Algorithm in Color Image via New Projection Profile," in International MultiConference of Engineers and Computer Scientists, 2010, pp. 1486-1489.

[11] Q. Ye, Q. Huang, W. Gao, and D. Zhao, "Fast and robust text detection in images and video frames," Image Vision Comput., vol. 23, pp. 565-576, 2005.

[12] M. Pontil and A. Verri, "Support vector machines for 3D object recognition," Pattern Analysis and Machine Intelligence, IEEE Transactions on, vol. 20, pp. 637-646, 1998.

[13] A. Gionis, P. Indyk, and R. Motwani, "Similarity Search in High Dimensions via Hashing," presented at the Proceedings of the 25th International Conference on Very Large Data Bases, 1999, pp. 518-529.

[14] E. Kavallieratou, S. Stamatatos, and H. Antonopoulou, "Machine-Printed from Handwritten Text Discrimination," presented at the Proceedings of the Ninth International Workshop on Frontiers in Handwriting Recognition, 2004 , pp. 312-316.

[15] L. F. da Silva, A. Conci, and A. Sanchez, "Automatic Discrimination between Printed and Handwritten Text in Documents," in Computer Graphics and Image Processing (SIBGRAPI), 2009 XXII Brazilian Symposium on, 2009, pp. 261-267.

[16] S. N. Srihari, Y.-C. Shin, V. Ramanaprasad, and D.-S. Lee, "Name and Address Block Reader system for tax form processing," presented at the Proceedings of the Third International Conference on Document Analysis and Recognition (Volume 1) - Volume 1, 1995, pp. 5-10.

[17] R. Duda and P. Hart, Pattern Classication and Scene Analysis, 1996.

66

‧國

立政治

大

學‧

Na


niv

ersi t

y

[18] Y. Zheng, H. Li, and D. Doermann, "Machine Printed Text and Handwriting Identification in Noisy Document Images," IEEE Trans. Pattern Anal. Mach. Intell., vol. 26, pp. 337-353, 2004.

[19] G. G. Rajput, R. Horakeri, and S. Chandrakant, "Printed and Handwritten Mixed Kannada Numerals Recognition Using SVM," International Journal on Computer Science and Engineering, p. 5, 2010, pp. 1622-1626.

[20] S. Chanda, K. Franke, and U. Pal, "Structural handwritten and machine print classification for sparse content and arbitrary oriented document fragments," presented at the Proceedings of the 2010 ACM Symposium on Applied Computing, 2010, pp. 18-22.

[21] H. Freeman, "On the Encoding of Arbitrary Geometric Configurations," Electronic Computers, IRE Transactions on, vol. EC-10, pp. 260-268, 1961.

[22] J. K. Guo and M. Y. Ma, "Separating handwritten material from machine printed text using hidden Markov models," in Document Analysis and Recognition, 2001. Proceedings. Sixth International Conference on, 2001, pp. 439-443.

[23] R. Kandan, N. K. Reddy, K. R. Arvind, and A. G. Ramakrishnan, "A robust two level classification algorithm for text localization in documents," presented at the Proceedings of the 3rd international conference on Advances in visual computing - Volume Part II, 2007, pp. 96-105.

[24] S. Suzuki and K. Be, "Topological structural analysis of digitized binary images by border following," Computer Vision, Graphics, and Image Processing, vol. 30, pp. 32-46, 1985.

67