70
TRɈNG ĈɝI HC KHOA HC TͰ NHIÊN KHOA CÔNG NGHʃ THÔNG TIN % MÔN CÔNG NGHʃ TRI THC PHAN QUӔC LÂN PHѬѪNG PHÁP THÊM DҨU TIӂNG VIӊT VÀO VĂN BҦN TIӂNG VIӊT KHÔNG DҨU KHOÁ LUҰN CӰ NHÂN TIN HӐC TP. HCM, NĂM 2005

Them dau vao van ban tieng viet ko dau

Embed Size (px)

Citation preview

Page 1: Them dau vao van ban tieng viet ko dau

TR NG I H C KHOA H C T NHIÊNKHOA CÔNG NGH THÔNG TIN

MÔN CÔNG NGH TRI TH C

PHAN QU C LÂN

PH NG PHÁP THÊM D U TI NG VI T

VÀO V N B N TI NG VI T KHÔNG D U

KHOÁ LU N C NHÂN TIN H C

TP. HCM, N M 2005

Page 2: Them dau vao van ban tieng viet ko dau

1

TR NG I H C KHOA H C T NHIÊNKHOA CÔNG NGH THÔNG TIN

MÔN CÔNG NGH TRI TH C

PHAN QU C LÂN – 0112267

PH NG PHÁP THÊM D U TI NG VI T

VÀO V N B N TI NG VI T KHÔNG D U

KHOÁ LU N C NHÂN TIN H C

GIÁO VIÊN H NG D N

Th.S PH M PH M TUY T TRINH

NIÊN KHÓA 2001 – 2005

Page 3: Them dau vao van ban tieng viet ko dau

2

i c m n

i u tiên, em xin chân thành c m n cô Ph m Ph m Tuy t Trinh, cô ã tr c

ti p h ng d n và t o u ki n cho em nghiên c u và hoàn thành lu n v n này.

Em c ng xin chân thành c m n th y inh n, th y ã h tr , giúp em r t

nhi u trong quá trình th c hi n. Và em c ng xin c m n t t c các th y cô trong khoa

Công ngh thông tin ã t n tình ch b o và giúp em trong su t quá trình h c t p

trong tr ng.

Con xin chân thành c m n ba m , ông bà, anh em và ng i thân trong gia ình

ã t o m i u ki n t t nh t cho con h c t p và ng viên, khích l con trong quá trình

th c hi n lu n v n.

Và cu i cùng, tôi xin g i l i c m n n t t c b n bè, c bi t là anh Toàn, b n

Sinh, b n Kh ng …, nh ng ng i ã h tr và giúp tôi hoàn thi n lu n v n này.

c dù em ã c g ng hoàn thành lu n v n trong ph m vi và kh n ng cho phép

nh ng ch c ch n s không tránh kh i nh ng thi u sót. Em kính mong nh n c s

m thông và t n tình ch b o c a quý Th y Cô và các b n.

TP. H Chí Minh, tháng 7 n m 2005

Phan Qu c Lân – 0112267

Page 4: Them dau vao van ban tieng viet ko dau

3

NH N XÉT C A GIÁO VIÊN H NG D N_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

Thành ph H Chí Minh, tháng 07 n m 2005

Giáo viên h ng d n

Th.S Ph m Ph m Tuy t Trinh

Page 5: Them dau vao van ban tieng viet ko dau

4

NH N XÉT C A GIÁO VIÊN PH N BI N_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

Thành ph H Chí Minh, tháng 07 n m 2005

Giáo viên ph n bi n

TS. inh n

Page 6: Them dau vao van ban tieng viet ko dau

I NÓI U

Ch vi t ti ng Vi t c a chúng ta có 1 c m r t hay là có s xu t hi n c a các

u thanh c ng nh d u c a các ký t . u này giúp cho ti ng Vi t “thêm thanh, thêm

u”. Tuy nhiên, c ng chính vi c “thêm thanh, thêm u” ó làm cho vi c gõ ti ng

Vi t tr nên t n nhi u th i gian h n. 1 v n khác, khi vi c s d ng Internet tr nên

thông d ng, 1 ti n ích c m i ng i a chu ng là d ch v Email. Nh ng, cho n

hi n nay, h u h t các mail server v n ch a h tr t t ti ng Vi t, do ó, tình tr ng các lá

mail trên m ng h u nh không có d u. Vi c phát tri n 1 công c giúp thêm d u ti ng

Vi t vào v n b n không d u là vi c r t c n thi t và thú v .

tài này h ng n vi c gi i quy t bài toán thêm d u ti ng Vi t theo m t

ng m i, do ó, ch ng trình không chú tr ng chuyên sâu vào l nh v c nào. Vi c

thêm ch c n ng h tr các l nh v c chuyên sâu khác không nh h ng nhi u n c u

trúc c a mô hình mà ch ng trình áp d ng.

Lu n v n c t ch c thành 5 ch ng v i n i dung nh sau :

§ Ch ng 1 gi i thi u t ng quan v bài toán Thêm d u ti ng Vi t vào v n b n

không d u, và các công trình ã có liên quan n tài.

§ Ch ng 2 gi i thi u các c s lý thuy t _ tin h c c n s d ng.

§ Ch ng 3 nh n xét các mô hình ã có tr c ây, và a ra mô hình cài t

chính.

§ Ch ng 4 c th hóa mô hình cài t.

§ Ch ng 5 t ng k t và ra h ng phát tri n .

Page 7: Them dau vao van ban tieng viet ko dau

6

C L CCh ng 1. NG QUAN....................................................................9

1.1. Gi i thi u v bài toán Thêm d u ti ng Vi t vào v n b n không d u.......101.1.1. Phát bi u bài toán.........................................................................................101.1.2. c m .......................................................................................................101.1.3. ng gi i quy t ..........................................................................................11

1.2. Gi i thi u các công trình ã có ..................................................................111.2.1. AMPad..........................................................................................................111.2.2. VietPad .........................................................................................................121.2.3. www.EasyVn.com.........................................................................................131.2.4. VnMark ........................................................................................................14

Ch ng 2. S LÝ THUY T TIN H C....................................152.1. Lý thuy t v ngôn ng h c.........................................................................16

2.1.1. Âm ti t (còn g i là “ti ng”) ..........................................................................162.1.1.1. nh ngh a và c m âm ti t ti ng Vi t ..............................................162.1.1.2. Thanh là thành ph n c a âm ti t ti ng Vi t .............................................162.1.1.3. T i sao l i ph i dùng d u thanh ? ............................................................17

2.1.2. ..................................................................................................................182.1.2.1. Các quan ni m v t ...............................................................................182.1.2.2. Tiêu chí nh n di n “t ” ti ng Vi t...........................................................18

2.1.2.2.1. Các tiêu chu n v hình th c .................................................................192.1.2.2.2. Các tiêu chu n v n i dung ..................................................................19

2.2. Tách t ........................................................................................................202.2.1. Kh p t i a (LRMM – Left Right Max Matching).....................................212.2.2. Mô hình m ng WFST và m ng n -ron .......................................................22

2.3. Tách câu......................................................................................................222.3.1. Tách câu b ng Heristics. ..............................................................................23

2.3.1.1. X lý d u ch m. .....................................................................................232.3.1.2. X lý d u ch m trong ngo c. ..................................................................24

Ch ng 3.MÔ HÌNH CÀI T......................................................253.1. Các mô hình thêm d u ã c s d ng...................................................26

3.1.1. VietPad .........................................................................................................263.1.1.1. Mô hình thêm d u ti ng Vi t ..................................................................26

3.1.1.1.1. Ti n x lý ............................................................................................263.1.1.1.2. Tách token...........................................................................................273.1.1.1.3. L y ra các t không d u, chuy n thành t có d u .................................27

3.1.2. VnMark ........................................................................................................28

Page 8: Them dau vao van ban tieng viet ko dau

7

3.1.2.1. Mô hình thêm d u ti ng Vi t ..................................................................283.1.2.1.1. Ti n x lý ............................................................................................303.1.2.1.2. Tách câu ..............................................................................................303.1.2.1.3. Tìm các kh n ng ánh d u c a t , câu ................................................30

3.1.2.2. Mô hình hu n luy n................................................................................313.2. Mô hình xu t..........................................................................................32

3.2.1. Mô hình.........................................................................................................323.2.1.1. Tách câu .................................................................................................333.2.1.2. Tách t b ng ph ng pháp LRMM.........................................................343.2.1.3. Ch n t thích h p ...................................................................................34

3.2.2. Mô hình hu n luy n .....................................................................................363.2.2.1. Th ng kê t n su t xu t hi n c a t ..........................................................36

3.2.2.1.1. Xây d ng kho ng li u.........................................................................363.2.2.1.2. Th ng kê t n su t xu t hi n c a t .......................................................373.2.2.1.3. T o t n chuy n i ........................................................................38

3.2.2.2. Trích xu t các c m t th ng s d ng ....................................................393.2.3. So sánh mô hình này v i 2 mô hình trên .....................................................41

Ch ng 4.CÀI T TH NGHI M.............................................434.1. Th ng kê t n s xu t hi n c a t ...............................................................44

4.1.1. Xây d ng kho ng li u text t báo n t ..................................................444.1.2. Tách câu........................................................................................................484.1.3. Tách t và th ng kê......................................................................................50

4.2. o t p tin t n chính............................................................................524.3. o t p tin t n c m t .........................................................................55

4.3.1. o kho d li u tinh gi n m i......................................................................554.3.2. o t p tin t n c m t ...........................................................................58

4.4. Ch ng trình chính....................................................................................584.4.1. Ch ng trình VietEditor..............................................................................594.4.2. Ch ng trình thêm d u qua Clipboard.......................................................60

4.5. Th nghi m ................................................................................................62Ch ng 5. T QU , H NG PHÁT TRI N .............................63

5.1. n ch và h ng phát tri n .....................................................................645.2. t lu n ......................................................................................................64

Ph l c : C u trúc kho ng li u ......................................................67

Page 9: Them dau vao van ban tieng viet ko dau

8

DANH M C HÌNH

Hình 1.2.1-1 : Thêm d u ti ng Vi t t ng b ng AMPad......................................................12Hình 1.2.2-2 : Gõ ti ng Vi t không d u trên VietPad .............................................................12Hình 1.2.2-3 : V n b n sau khi th c hi n ch c n ng thêm d u ti ng Vi t c a VietPad ...........13Hình 1.2.3-4 : Gõ ti ng Vi t không d u trên EasyVn..............................................................14Hình 1.2.3-5 : V n b n sau khi t ng thêm d u trên EasyVn ..............................................14Hình 1.2.4-6 : S k t c u âm ti ng Vi t.............................................................................17Hình 3.1.1-7 : L u th c hi n c a mô hình ng d ng trong VietPad...................................26Hình 3.1.2-8 : L u th c hi n c a mô hình n-gram ............................................................29Hình 3.2-9: L u th c hi n c a mô hình xu t ................................................................33Hình 3.2-10 : T p tin m u sau khi th ng kê t n su t t ..........................................................38Hình 3.2-11 : Trích t p tin TuDienChinh.txt ..........................................................................39Hình 3.2-12 : Trích t p tin CumTu.txt....................................................................................41Hình 4.1.1-13: Giao di n ch ng trình HTML2TXT ..............................................................44Hình 4.1.1-14: C u hình c a ch ng trình HTML2TXT.........................................................45Hình 4.1.1-15 : M t trang báo thanh niên..............................................................................47Hình 4.1.1-16 : li u c tách t trang báo Thanh niên...................................................48Hình 4.1.2-17: Giao di n ch ng trình Tách Câu..................................................................49Hình 4.1.2-18: T vi t t t cung c p cho ch ng trình Tách Câu............................................49Hình 4.1.2-19: N i dung file k t xu t c a ch ng trình Tách Câu .........................................50Hình 4.1.3-20: Giao di n module tách t ...............................................................................51Hình4.1.3-21: N i dung t p tin th m c ngu n ......................................................................51Hình 4.1.3-22: N i dung t p tin t n .................................................................................52Hình 4.1.3-23: N i dung t p tin k t qu .................................................................................52Hình 4.1.3-24: Giao di n ch ng trình t o t n chính.......................................................53Hình 4.1.3-25 : Trích 1 ph n TuDienChinh.txt.......................................................................54Hình 4.1.3-26 : Trích 1 ph n TuDienPhanLop.txt.................................................................54Hình 4.1.3-27: Trích 1 ph n KhoCau.txt................................................................................55Hình 4.3.1-28: Giao di n ch ng trình t o kho d li u tinh gi n ...........................................56Hình 4.3.1-29 : Trích 1 ph n th m c k t xu t .......................................................................57Hình 4.3.1-30 : Th m c con _a trong th m c k t xu t.........................................................57Hình 4.3.2-31: Giao di n ch ng trình t o t p tin c m t .....................................................58Hình 4.4.1-32: Giao di n ch ng trình chính VietEditor .......................................................59Hình 4.4.2-33: Giao di n ch ng trình chính thêm d u Clipboard ........................................60Hình 4.4.2-34: Test ch ng trình thêm d u Clipboard...........................................................61Hình 5.2-35 : T p tin kho ng li u m u .................................................................................69

Page 10: Them dau vao van ban tieng viet ko dau

Ch ng 1. NG QUAN

Page 11: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

10

1.1. Gi i thi u v bài toán Thêm d u ti ng Vi t vào

n b n không d u1.1.1. Phát bi u bài toán

Bài toán có th c phát bi u nh sau : Cho m t v n b n ti ng Vi t không

u. Chuy n v n b n không d u này thành có d u v i chính xác cao.

Ch s d ng t n t và kho ng li u thô làm u vào.

Khái ni m t ây là “t t n” – t c là các t n, t ghép và c m t

c l u trong t n.

Ch x lý các v n b n ti ng Vi t có mã Unicode.

1.1.2. c mCh vi t ti ng Vi t có 1 c m r t hay là s xu t hi n c a các d u thanh

ng nh d u c a các ký t . Vi c có d u thanh và d u c a ký t này làm phong

phú thêm cho ngôn t ti ng Vi t, và c ng góp ph n t ng bi u c m c a ti ng

Vi t.

u thanh là 1 thành ph n “b t kh phân” trong âm ti t ti ng Vi t [8]. Khi

lo i b d u thanh, vi c hi u ngh a c a t , g m 1 hay nhi u âm ti t k t h p v i

nhau, tr nên khó kh n và d gây hi u l m.

thêm d u, tr c tiên, ta c n ph i xác nh ranh gi i t . Bài toán xác

nh ranh gi i t i v i v n b n ti ng Vi t có d u ã là 1 vi c th thách, thì khi

không có d u, vi c nh n di n ranh gi i t càng tr nên khó kh n h n. V n

này l i càng khó kh n, khi ranh gi i t trong ti ng Vi t c ng nh 1 s ngôn ng

Châu Á khác, m t t chính t có th không t ng ng v i m t “t ” trên v n

n. i v i các th ti ng Châu Âu, ta có th d dàng nh n ra m t t , do các t

c phân cách b i kho ng tr ng. u này l i không úng v i ti ng Vi t.

Trong ti ng Vi t, các ti ng _ hay còn g i là âm ti t _ c phân cách b i

kho ng tr ng, ch không ph i t .

Page 12: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

11

Sau khi ã nh n di n c ranh gi i t , ta c n ph i xác nh cho úng t có

u nào có d ng th hi n không d u nh v y. Vi c xác nh này c ng gây nhi u

khó kh n, khi 1 t không d u có th có nhi u t có d u t ng ng v i nó.

Ví d 1-1 : T không d u “toi” có 3 t có d u t ng ng là “tôi”, “t i” và

“t i”.

Do ó, sau khi ã gi i quy t xong bài toán tách t ti ng Vi t không d u, ta

n ph i gi i quy t thêm bài toán xác nh t có d u thích h p v i t không d u

ó. ây chính là 2 bài toán c n gi i quy t chính c a mô hình.

1.1.3. ng gi i quy ti v i tách t có d u, có nhi u mô hình c s d ng và t k t qu cao

nh MM (Maximum Matching : forward / backward hay còn g i là LRMM:

Left Right); gi i thu t h c c i bi n TBL; m ng chuy n d ch tr ng thái h u h n

có tr ng s WFST (Weighted finite-state Transducer); gi i thu t d a trên nén

(compression) [1] …. H ng gi i quy t c xu t là s d ng ph ng pháp

tách t LRMM [1][7] k t h p v i mô hình Bigram ã gi i quy t khá hi u qu 2

n c a bài toán này. Ph ng pháp ch m i c áp d ng cho mô hình thêm

u offine, nh ng có th c cài t gán d u online.

1.2. Gi i thi u các công trình ã có1.2.1. AMPad

AMPad [12] (tên version c và thông d ng v i m i ng i là AutoMark)

a tác gi Tr n Tri t Tâm là s n ph m u tiên nghiên c u v l nh v c này.

Ch ng trình ã c nhi u ng i bi t n và c s d ng r ng rãi. u này

cho th y vi c phát tri n ng d ng hoàn thi n h n n a v thêm d u ti ng Vi t là

có nhu c u, và nhu c u này s ngày càng t ng cao. Ch ng trình AMPad có

Page 13: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

12

m hay là vi c áp d ng mô hình x lý thêm d u ch online, t o s tr c

quan, thân thi n cho ng i s d ng.

Hình 1.2.1-1 : Thêm d u ti ng Vi t t ng b ng AMPad

1.2.2. VietPadVietpad [11] là trình so n th o h tr ti ng Vi t Unicode, c phát tri n

i Quân Nguy n và nhóm phát tri n trên http://vietpad.sourceforge.net. Ngoài

ch c n ng thêm d u t ng offline mà lu n v n ang nghiên c u, VietPad còn

là 1 trình so n th o ti ng Vi t h tr r t t t Unicode và là mã ngu n m .

Hình 1.2.2-2 : Gõ ti ng Vi t không d u trên VietPad

Page 14: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

13

Hình 1.2.2-3 : V n b n sau khi th c hi n ch c n ng thêm d u ti ng Vi t c a VietPad

1.2.3. www.EasyVn.comTrang web www.easyvn.com [10] cung c p d ch v email n t mi n phí

trên m ng, v i s h tr ng i dùng r t t t v ngôn ng Vi t. 1 ch c n ng n i

t c a www.easyvn.com là : sau khi so n th o xong b c mail, ng i dùng có

th ch n ch c n ng Thêm d u ti ng Vi t bi n v n b n không d u thành có

u. Do ây là d ch v c cung c p và thu phí trên NET (cho s d ng th

trong 2 tháng), mô hình thêm d u t ng c a www.easyvn.com c gi kín.

Page 15: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

14

Hình 1.2.3-4 : Gõ ti ng Vi t không d u trên EasyVn

Hình 1.2.3-5 : V n b n sau khi t ng thêm d u trên EasyVn

1.2.4. VnMarkVnMark [2] c tác gi Nguy n V n Toàn phát tri n. Do tác gi ã làm

th t l c ch ng trình, do ó, không có hình nh minh ho ch ng trình.

Page 16: Them dau vao van ban tieng viet ko dau

Ch ng 2. S LÝ THUY T

TIN H C

Page 17: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

16

2.1. Lý thuy t v ngôn ng h c2.1.1. Âm ti t (còn g i là “ti ng”)

2.1.1.1. nh ngh a và c m âm ti t ti ng Vi t

“Ti ng” là “ n v c b n” trong ti ng Vi t [1]. M t “ti ng” trong ti ng

Vi t c nói lên là m t n v ng âm, và c ng là m t n v ng pháp.

t “ti ng” là m t n v phát ngôn, và là m t n v c a l i nói t o ra

nh ng k t c u l i nói trong ho t ng nói n ng giao ti p. c tính này c a

ti ng chính là m t tính cách lo i hình c a ti ng Vi t, trong ó m i n v

phát âm trùng khít v i n v ng pháp (hình v , và t ). Khi xét trên bình

di n ng âm, ti ng là m t n v c a ng âm, t c là m t âm ti t [9].

Vi c nh n di n “ti ng” i v i ng i Vi t là u quá d dàng, t nhiên

i v i m i ng i mà không c n m t trình ngôn ng gì cao, vì : trong l i

nói (m t ng âm), m i “ti ng” bao gi c ng phát ra m t h i, nghe thành m t

ti ng, và có mang m t thanh u nh t u; còn trong ch vi t (m t chính

), m i ti ng bao gi c ng c vi t r i thành t ng ch (ng n cách b ng

kho ng tr ng hay các d u ng t). n v “ti ng” i v i ng i Vi t là m t

n v t nhiên, khái ni m “ti ng” ã có t lâu và c ng i b n ng s

ng nó tr c khi hi u và s d ng khái ni m “t ”.

Ví d 2-1:

Câu “Cái bàn này hình bán nguy t” có 6 ti ng

2.1.1.2. Thanh là thành ph n c a âm ti t ti ng Vi t

Khi phát âm ti ng Vi t, chúng ta phát âm t ng n v l i nói c t r i nhau,

i là âm ti t. Khi phát âm ch m m t âm ti t, có th nh n th y khá rõ là m i

âm ti t u có th k t h p nhi u nh t là ba n v phát âm : âm u + âm

chính + âm cu i. Ba thành ph n trên g m nh ng âm v xu t hi n t ng i

theo th t tr c sau, nên g i là nh ng âm v tuy n tính.

Page 18: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

17

Ngoài ra, m i âm ti t c nh m t b c cao th p, g i là thanh u.

Trong l i nói, m i âm ti t ti ng Vi t u mang m t thanh. Thanh này xu t

hi n l p t c khi âm ti t c phát ra, cho nên có th nói r ng thanh là m t

thành ph n b t kh phân c a âm ti t. Thanh là thành ph n âm v phi tuy n

tính c a m t âm ti t ti ng Vi t. Thanh là m t s c thái c a âm thanh các âm

ti t, qua ó khi phát âm s nh b c cao th p khác nhau c a m i n v c a

chu i l i nói. Có sáu thanh làm tiêu chu n nh b c cao th p khác nhau,

th ng g i là ngang, h i, s c, huy n, ngã, n ng.

Nh v y thì m i âm ti t ti ng Vi t y có t i a b n n v c u thành.

i thi u thì m i âm ti t c ng ph i có hai thành ph n : âm chính + thanh.

Hình 1.2.4-6 : S k t c u âm ti ng Vi t

2.1.1.3. i sao l i ph i dùng d u thanh ?

Các ngôn ng dùng b ng ch cái Latin không dùng thêm kí hi u ch

thanh, mà ch ghi l i các âm v tuy n tính b ng các v là con ch . H

th ng ch vi t kh i vuông nh ch Hán và ch Nôm c ng không có kí hi u

ch thanh. Nh ng tr ng h p ch qu c ng có khác. Khi dùng b ng ch cái

Latin, các v con ch ch a phân bi t ý ngh a m t t c vi t ra, vì

có n sáu thanh ph i phân bi t. Ðã ành thanh ch là y u t ng âm không

thu c v thành ph n âm v tuy n tính, nh ng thanh ti ng Vi t không h n ch

là m t y u t ngôn u mang tính cách hoa m cho âm ti t, mà là m t thành

ph n không th thi u c khi phát âm m t âm ti t. Nói cách khác, âm ti t

ti ng Vi t ch a hoàn ch nh khi ch a c nh thanh. Có l các nhà sáng ch

ra ch vi t theo b ng ch cái Latin mà ta th ng g i quen là "ch qu c ng "

Page 19: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

18

ã hi u r t rõ tính cách b t kh phân c a thanh i v i âm ti t ti ng Vi t, cho

nên các v ã dùng n nh ng kí hi u ch th các b c thanh t ng ng. Và

ây c ng là c m n i b t c a ti ng Vi t.

2.1.2.2.1.2.1. Các quan ni m v t

Có 1 s nh ngh a n hình v t nh sau [1] :

- Theo L.Bloomfield, thì t là t hình thái t do nh nh .

- Theo Solncev thì là n v ngôn ng có tính hai m t: âm và ngh a.

có kh n ng c l p v cú pháp khi s d ng trong l .

- Theo B.Golovin, thì t là n v nh nh t có ngh a c a ngôn ng , c

n d ng c l p, tái hi n t do trong l i nói xây d ng nên câu . ây

ng chính là nh ngh a mà trong ngôn ng h c i c ng hay s d ng.

Trong n i dung lu n v n này, ta quan tâm t i 3 thu t ng trong ngôn ng

i c ng nh n di n t :

1. ng âm : ó là nh ng n v c th ng nh t v i hi n t ng

ng âm nào ó. i v i ti ng Vi t, ó chính là nh ng âm ti t, hay

còn g i là “ti ng”, “ti ng m t”.

2. chính t : ó là nh ng kho ng cách gi a 2 ch trên v n t , t c là

nh ng n v c vi t li n thành kh i, i v i ti ng Vi t, ó chính

là “ch ”

3. t n h c : ó là n v mà c n c vào c m ý ngh a c a

nó ph i x p riêng trong t n.

2.1.2.2. Tiêu chí nh n di n “t ” ti ng Vi t

r t nhi u quan ni m c ng nh các nh ngh a v “t ti ng Vi t”, ta có

th rút ra tiêu chu n mà các nhà Vi t ng h c ã d a vào ó khi nh n di n t

Page 20: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

19

ti ng Vi t [3]. Các tiêu chu n này chung qui ta có th phân thành : các tiêu

chu n v hình th c và các tiêu chu n v n i dung.

2.1.2.2.1. Các tiêu chu n v hình th c

Tính c nh : tính v ng ch c v c u t o, không th chêm – xen c

Tính c l p : các nhà Vi t ng h c hay dùng tiêu chu n tính c l p

phân bi t t ( n v có ngh a và c l p) v i hình v ( n v có ngh a và

không c l p). Tính c l p còn c g i là kh n ng k t h p (t do – h n

ch )

Tính t lo i và quan h cú pháp : trong ng /câu, t m nh n nh ng

ch c n ng cú pháp nh t nh, nên m i t u ph i mang m t t lo i nào ó,

còn hình v thì không có tính ch t t lo i. Quan h gi a các t là quan h cú

pháp, còn quan h gi a các hình v c a t không ph i là quan h cú pháp.

2.1.2.2.2. Các tiêu chu n v n i dung

Ch c n ng nh danh : ch c n ng này c dùng xác nh t cách c a

(t th c), coi ó là c tr ng phân bi t gi a “t ” v i “hình v ”

Bi u th khái ni m : vì t v i khái ni m không ph i là m t: có nh ng khái

ni m c n bi u th b ng nhi u t , và có nh ng t không bi u th khái ni m.

Ý ngh a bi u ni m : vì ý ngh a c a t và khái ni m không trùng nhau, vì

y, ng i ta c n phân bi t ý ngh a t v ng và ý ngh a ng pháp.

Hoàn ch nh v ngh a : ây là tiêu chu n quan tr ng, c a s các nhà

Vi t ng h c ch p nh n trong vi c xác nh t cách c a t . Tiêu chu n này

liên quan n tính thành ng và tính võ oán.

Page 21: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

20

2.2. Tách tBài toán tách t cho ngôn ng n l p ã c t ra t lâu, ch y u gi i quy t

cho ti ng Trung Qu c, ti ng Nh t. Các thu t toán tách t có th c phân lo i nh

sau:

v a theo lu t. Bao g m các cách sau:

- Longest Matching, Greedy Matching Models (Yuen Poowarawan), 1986; Sampan

Rarurom, 1991).

- Mô hình kh p t i a. Mô hình này c chia thành “Kh p t i a ti n và kh p t i

a lùi”. i v i ph ng pháp này thì m t t n hoàn ch nh là không th thi u.

t t n không hoàn ch nh s gi m hi u su t c a thu t toán. Tuy nhiên, d

th y là khó có th có m t t n hoàn ch nh ( c bi t khi các ngôn ng v n còn

c ti p t c phát tri n h ng ngày trong th i i ngày nay). Mô hình này tu

thu c nhi u vào t n.

v Dùng th ng kê:

Gi i pháp này d a vào ng c nh t xung quanh a ra quy t nh thích h p.

Có hai v n c n c gi i quy t i v i gi i pháp này : r ng ng c nh, và cách áp

ng th ng kê. Ng c nh càng r ng thì thu t toán càng ph c t p.

Cho dù r ng ng c nh th nào, luôn có th áp d ng mô hình first-order HMM.

Tuy nhiên gi i pháp này ph thu c r t nhi u vào ng li u hu n lu n. K t qu hu n

luy n trên ng li u chính tr khó có th áp d ng trên các tài li u v n h c và ng c l i.

Thêm vào ó, có nh ng t có xác su t r t cao, nhung ch có th ch c n ng v m t ng

pháp, làm gi m vai trò c a xác su t.

v Cách khác:

u h t các gi i pháp khác là s lai t o gi a các mô hình trên và các mô hình

ngôn ng h c nh WFST, TBL. Th i gian x lý các gi i pháp này tr nên áng k ,

nh ng chính xác t c khá cao.

Page 22: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

21

Tri th c v ngôn ng , th ng áp d ng cho các mô hình d a trên lu t, hi m khi

c áp d ng cho nh ng mô hình trên.

i ây là mô t 2 ph ng pháp tách t th ng s d ng :

2.2.1. Kh p t i a (LRMM – Left Right Max Matching)Thu t toán so kh p t i a ho t ng nh tên c a chính nó. Thu t toán gi i quy t

bài toán tách t nào có nhi u t nh t (so kh p c nhi u nh t). Thu t toán c áp

ng xây d ng ch ng trình tách t ti ng Trung Qu c MMSEG. Thu t toán này có

nhi u bi n th khác nhau.

Ø ng n gi n, c dung gi i quy t v n nh p nh ng t n. Gi s có

t chu i ký t (t ng ng v i chu i ti ng Vi t trong ti ng Vi t) C1, C2

,…C3. Ta b t u t u chu i. u tiên, ki m tra xem C1 có ph i là t không,

sau ó ki m tra xem C1C2 có ph i là t hay không. Ti p t c làm cho n khi tìm

c t dài nh t. T có v h p lý nh t là t dài nh t. Ch n t ó, sau ó tìm ti p

nh trên trên nh ng t còn l i, cho n khi xác nh c toàn b chu i d li u.

Ø ng ph c t p. Quy t c c a d ng này là phân n có v h p lý nh t là n 3

v i chi u dài t i a. Thu t toán b t u nh d ng n gi n. N u phát hi n ra

nh ng cách tách t gây nh p nh ng (ví d C1 là t và C1C2 ng là t ), ta xem

các ch k ti p tìm t t c các n ba t có th có b t u v i C1 ho c C1C2.

Ví d 2-2 : ta c nh ng n sau:

- C1 C2 C3C4.

- C1C2 C3C4 C5

- C1C2 C3C4 C5C6

Chu i dài nh t s là chu i th ba. V y t u tiên c a chu i th ba (C1C2) s

c ch n. Th c hi n l i các b c cho n khi c chu i t hoàn ch nh. Cách này t

c chính xác 99.69%.

Mô hình s d ng ph ng pháp tách t LRMM d ng n gi n. Mô hình này v a

n gi n, nh ng mang l i chính xác cao.

Page 23: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

22

2.2.2. Mô hình m ng WFST và m ng n -ronWFST ã c áp d ng tách t ti ng Trung Qu c. Ý t ng c b n là áp d ng

WFST k t h p v i tr ng s là xác su t xu t hi n c a m i t trong ng li u. Dùng

WFST duy t qua câu c n xét. Cách duy t có tr ng s l n nh t s là cách tách t

c ch n. Gi i pháp này c ng ã c áp d ng trong [5] kèm v i m ng n -ron

kh nh p nh ng.

Mô hình tách t trong VnMark s d ng chính là mô hình WFST này (Xem chi ti t

n trong [1] trang 99-104, hay trong [5])

2.3. Tách câuTrong m t v n b n ti ng Anh hay b ng b t k m t ngôn ng thông d ng nào

khác, thông th ng thì ta ch dùng d u ch m (.), ch m than (!), ch m h i(?) và m t s

u khác n a nh n bi t k t thúc câu. (Ta g i nh ng d u này là nh ng d u báo hi u

t thúc câu hay d u ch m câu). Tuy nhiên, do tính nh p nh ng c a d u báo hi u k t

thúc câu (ch ng h n nh d u k t thúc câu trong t vi t t t,…) nên vi c xác nh ranh

gi i câu không n gi n nh chúng ta ngh . Ví d nh d u ch m, nó có th bi u th nh

t d u ch m th p phân, m t c m t k t thúc, s k t thúc câu v n ho c ngay c t vi t

t n m cu i câu. M t d u ch m h i hay d u ch m than có th xu t hi n trong d u

ngo c n, ngo c kép hay c ng nh cu i câu. S m p m c a các d u câu này c

th hi n qua các ví d sau:

Ví d 2-3:

1. The group included Dr. J.M. Freeman and T. Boone Pickens Jr.

2. “This issue crosses party lines and crosses philosophical lines!” said Rep.

John Rowland (R., Conn.).

3. It was due Friday 5 p.m. Saturday would be too late.

4. She has an appointment at 5 p.m. Saturday to get her car fixed.

Page 24: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

23

Trong tr ng h p 1 và 2, t n m ngay tr c ho c n m ngay sau d u ch m câu cho ta

nh ng thông tin quan tr ng v vai trò c a d u trong câu. Tuy nhiên, b ph n tách câu

n ph i có nhi u thông tin v ng c nh h n trong tr ng h p vi c ch m câu xu t hi n

m t câu con trong d u ngo c n ho c ngo c kép, nh trong tr ng h p 2; hay khi

ch vi t t t xu t hi n cu i câu nh trong tr ng h p 3, 4. nh n di n d u ch m

câu, ng i ta có th dùng các heuristics ho c các mô hình h c ph c t p h n, nh :

ng neural, TBL, Maximum Entropy.

2.3.1. Tách câu b ng Heristics.Sau khi nh n n v n b n ã c l c các ký t d th a, các ký t ph , b

ph n tách câu b t u phân tích d a trên cách ch m câu và ng ngh a m t s t tách

ra các câu riêng bi t.

2.3.1.1. lý d u ch m.

u ch m “.” là d u có nhi u tr ng h p m h nh t. Sau ây là các tr ng h p

u ch m xu t hi n:

1. u ch m k t thúc câu.

2. u ch m th p phân trong ch s (1,234.567)

3. u ch m bi u th s vi t t t (Mr., Dr., ...)

4. u ch m trong các tr ng h p khác nh s tài kho n, email

([email protected]), d u ch m trong các a ch website (www.is-

edu.hcmuns.edu.vn).

có th phân bi t c các tr ng h p trên, ta có th d a vào m t s c tr ng

riêng trong cách trình bày c a t ng tr ng h p.

1. u d u ch m câu không thu c các tr ng h p còn l i (2,3,4) thì d u hi u

nh n bi t k t thúc câu s là : “luôn luôn có ít nh t m t kho ng tr ng sau d u

ch m và ký t ti p theo s là ch cái s c vi t hoa”.

2. Ta có th nh n bi t d u ch m th p phân b ng cách c toàn b ph n li n tr c

và ph n li n sau d u ch m phát hi n s có d u ch m th p phân.

Page 25: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

24

3. nh n bi t d u ch m trong tr ng h p các t vi t t t, ta xây d ng m t danh

sách các t vi t t t tra c u khi c n.

4. Tr ng h p này là tr ng h p có các cách trình bày a d ng nh t, nh ng v n có

tính ch t chung là d u ch m không bao gi n m cu i t , luôn gi a hai ký t

nào ó (ngh a là không có kho ng tr ng li n sau) nên có th d dàng phân bi t

c.

Nh ng qui lu t trên ây là nh ng qui lu t chung nh t trong cách trình bày v n b n

ti ng Anh. i v i v n b n ti ng Vi t, các tr ng h p c ng g n nh th . Do d a ch

u vào cách trình bày v n b n nên có m y u là d nh m l n khi v n b n a vào có

cách trình bày khác chu n và do không hi u ngh a câu nên không th phân bi t m t s

tr ng h p m h nh trong ví d sau:

1. It was due Friday 5p.m. Saturday would be too late.

2. She has an appointment at 5 p.m. Saturday to get her car fixed.

xác nh c d u ch m (in m) trong 2 tr ng h p trên có ph i là d u ch m

t câu hay không c ng là m t vi c không n gi n i v i máy. Th m chí i v i

ng i mà trình ti ng Anh ch a v ng. Trong c hai tr ng h p, t ngay tr c ho c

ngay sau d u ch m câu cho ta nh ng thông tin quan tr ng v vai trò c a d u trong câu.

Tuy nhiên, b ph n tách câu s ph i c n nhi u thông tin v ng c nh và cú pháp h n

trong tr ng h p s ch m câu xu t hi n m t câu con nh trong tr ng h p 1.

2.3.1.2. lý d u ch m trong ngo c.

Khi b tách câu g p d u m ngo c n, ho c ngo c kép, thì nó s quét trong

n v n ang xét tìm d u óng t ng ng. N u tìm th y, toàn b ph n trong ngo c

c gi nguyên và tìm d u k t thúc câu ti p theo ngoài d u ngo c. N u không tìm

th y d u óng t ng ng, d u m s b b qua và x lý ti p ký t sau d u m nh bình

th ng.

Page 26: Them dau vao van ban tieng viet ko dau

Ch ng 3. MÔ HÌNH CÀI T

Page 27: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

26

3.1. Các mô hình thêm d u ã c s d ng3.1.1. VietPad

3.1.1.1. Mô hình thêm d u ti ng Vi t

Hình 3.1.1-7 : L u th c hi n c a mô hình ng d ng trong VietPad3.1.1.1.1. Ti n x lý

Chu n hoá v n b n theo nh d ng mà VietPad quy nh

Page 28: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

27

3.1.1.1.2. Tách token

Vietpad không tách t ng câu x lý, mà vào th ng vi c tách ra t ng token

t … Token có th g m 1 chu i các kí t không ph i là kí t (nh : , . ; “ @

# $ …. ) hay 1 chu i các kí t , hay là “ch ” ti ng Vi t.

Ví d 3-1:

Câu “--- Thoi gian troi qua mau ---” s c VietPad tách thành t ng

token nh sau :

Token 1: ---\b (\b kí hi u cho ‘ ’ _ kho ng tr ng)

Token 2: Thoi

Token 3: \b

Token 4: gian

Token 5: \b

Token 6: troi

Token 7: \b

Token 8: qua

Token 9: \b

Token 10: mau

Token 11: \b---

3.1.1.1.3. y ra các t không d u, chuy n thành t có d u

i ph ng pháp tách token n gi n trên, và thêm ph ng pháp tách t

LRMM (t có t i a 3 ti ng), VietPad l y ra các t không d u, sau ó thông

qua 1 t n ánh x 1-1 gi a t không d u và t có d u (t n chuy n i),

chuy n t không d u thành có d u.

Page 29: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

28

Ví d 3-2:

Câu “Nhung van de lien quan toi nguoi dong tinh luyen ai duoc ban

bac soi noi trong buoi hop nhom toi hom qua” s c VietPad chuy n

thành câu có d u sau thông qua t n (d u / th hi n s tách t c a VietPad)

“Nh ng v n / / liên quan / tôi ng i / ng t nh / luy n ái / c /

n b c / sôi n i / trong / bu i / h p / nhóm / tôi / hôm qua /”

3.1.2. VnMark3.1.2.1. Mô hình thêm d u ti ng Vi t

n c vào mô hình n-gram, mô hình ánh d u t ng ti ng Vi t c

tác gi th c hi n theo l u sau:

Page 30: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

29

Hình 3.1.2-8 : u th c hi n c a mô hình n-gram

Page 31: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

30

3.1.2.1.1. Ti n x lý

Xóa các kho ng tr ng th a. Th c hi n các công vi c chu n hóa d li u nh p

vào… Thay th các ký t t ng t .

Theo các th ng kê v tâm lý, tác gi nh n th y khi ng i s d ng ánh ch

Vi t không d u thì ng i ta v n ánh c các ký t vi t hoa nh các danh t riêng.

Do ó, các t vi t hoa s không “th ng hóa” (lowercase) và các t vi t hoa này s

c c n c nh n d ng danh t riêng.

Ví d 3-3:

Da Nangà à N ng.

da nangà a n ng

Do ó, tác gi l u ý ng i dùng v c m này khi s d ng ch ng trình.

3.1.2.1.2. Tách câu

n c vào các c m c a ngôn ng c a ti ng Vi t : các t c cách

nhau b i các ký t nh “.”, “,”, “:”… tách thành các câu. M i câu là m t n v x

lý chính trong ch ng trình. Vi c quy t nh câu là n v c b n là do nhi u khi ngh a

a câu s c quy t nh s l a ch n v d u trong câu.

3.1.2.1.3. Tìm các kh n ng ánh d u c a t , câu

File t n (VNMarkDic.txt) s cung c p cho chúng ta xác su t c a các

nhóm âm ti t có th xu t hi n trong các v n b n ti ng Vi t. File t n này s c

trình bày k h n trong ph n sau.

n c vào t p tin t n VNMarkDic.txt, tác gi có th t o ra các tr ng

p có th ánh d u c a các t trong câu. T h p các thành ph n này s t o nên các

câu trong câu ng viên ã c ánh d u trong ti ng Vi t. Tuy nhiên, do c n c vào

p tin VNMarkDic.txt nên tác gi có th t o ra s l ng các câu ng viên không nhi u

m.

Ví d 3-4:

Câu c n gán d u = “Toc do truyen thong se tang cao”.

Page 32: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

31

Thông qua t p tin t n VNMarkDic.txt , tác gi có các thông tin sau:

- toc do = “t c ” 8.68

- truyen = “truy n” 12.31

- truyen thong = “truy n th ng” 12.31

- thong tin = “thông tin” 7.24

- tin = “tin” 7.33

- se = “s ” 6.09

- tang = “t ng” 7.43

- cao = “cao” 6.95

Sau khi t h p các t ta s c 2 tr ng h p sau:

Tr ng h p 1 = “T c truy n th ng tin s t ng cao.” 48,79 1

Tr ng h p 2 = “T c truy n thông tin s t ng cao.” 48.70 2

____________________________________________1 8.68 + 12.31 + 7.33 + 6.09 + 7.43 + 6.95 = 48.792 8.68 + 12.31 + 7.24 + 6.09 + 7.43 + 6.95 = 48.70

_____________________________________________

t qu = “T c truy n thông tin s t ng cao.” 48,70

(câu có t n s nh thì s th ng s d ng c a các t trong câu càng cao)

3.1.2.2. Mô hình hu n luy n

Nh ã trình bày ph n trên, c t lõi c a v n là n i dung t p tin t n

VNMarkDic.txt. T p tin này s ch a xác su t các nhóm âm ti t có th xu t hi n trong

n b n ti ng Vi t. Xác su t này c tính d a trên vi c th ng kê d li u c a h n

1.5GB file HTML c l y t trang www.vnexpress.net.

Khác v i các mô hình gán d u ti ng Vi t tr c ây, t p tin t n không

nh ng l u các t ti ng Vi t mà còn l u các dãy âm ti t trong ti ng Vi t. u này giúp

cho mô hình có th “vét c n” các thông tin giúp cho vi c gán d u thanh cho các âm ti t

Page 33: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

32

tr nên chính xác h n. Ví d : tôi c ng l u thêm dãy âm ti t “tr c vi c”, … vào file

n này.

Tuy nhiên, vi c l u thêm các dãy âm ti t vào t n s khi n cho t n r t

n (x p x 10MB). u này khi n cho vi c tìm ki m s r t ch m. gi i quy t v n

này, tác gi xu t m t heuristic n gi n, t tên là S2T, giúp thu g n d li u c a

n :

Heuristic này c mô t nh sau:

i d li u text t c l y t trang www.vnexpress.net là C1.

i d li u text t c l y t trang www.vnexpress.net là b b h t d u

thanh là C2.

d li u C1, tác gi s t o ra file VNMarkDicPre.txt. File này s ch a

thông tin v xác su t c a các dãy âm ti t trong ti ng Vi t.

Tác gi s d ng file VNMarkDicPre.txt gán d u thanh cho các d li u

C2. Khi ó, tác gi s so sánh v i các d li u nguyên g c C1. Qua ó, tác gi ánh giá

các dãy âm ti t nào nên c s d ng, dãy âm ti t nào không nên s d ng.

thông tin trên, tác gi có th rút trích các dãy âm ti t “có ích” trong file

VNMarkDicPre.txt t o t p tin VNMarkDic.txt.

3.2. Mô hình xu t3.2.1. Mô hình

n c vào mô hình Bigram, và d a vào ý t ng c a vi c th ng kê các

m t c a mô hình VnMark c a tác gi Nguy n V n Toàn, tôi xu t mô hình

thêm d u t ng sau :

Page 34: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

33

Hình 3.2-9: u th c hi n c a mô hình xu t

3.2.1.1. Tách câu

d ng ph ng pháp tách câu heuristic ã nêu trong ch ng 2, ph n

2.3, m c 2.3.1. Qua ph ng pháp tách câu trên, ta có th phân bi t c 1 s

Page 35: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

34

tr ng h p c bi t c a d u ch m câu “.” nh t vi t t t (Mr., Mrs. …), a

ch email ([email protected]), a ch URL (http://mail.yahoo.com), s th p

phân (1,234.567) … u ra c a b c này s cho ra 1 t p các câu, là u vào

a b c sau.

3.2.1.2. Tách t b ng ph ng pháp LRMM

Ta dùng ph ng pháp tách t LRMM tách các t không d u t ng câu

t. Lý do ch n ph ng pháp này là : cài t ph ng pháp n gi n, sai s

khi tách sai t có th ch p nh n c khi tách t không d u.

Ví d 3-5: Ta có cách tách t câu có d u và câu không d u sau (các t

phân cách nhau b ng d u / )

o “H c sinh / h c / sinh h c”

o “Hoc sinh / hoc sinh / hoc” à khi chuy n thành câu có d u, c ng t o

c câu “H c sinh / h c sinh / h c” nh trênà sai s khi tách t có th

ch p nh n c trong 1 ph m vi nào ó.

Khi tách t b ng ph ng pháp LRMM, ta có chú ý n vi c nh n di n và

tách các t tên riêng ra d a trên 1 t n tên riêng. Vi c xác nh các tên

riêng d a trên ch cái vi t hoa u c a t , 1 c m tên riêng, có th ch c n

vi t hoa ti ng u tiên là c.

Ví d 3-6:

Da Nangà à N ng

Da nangà à N ng

da nangà a n ng

3.2.1.3. Ch n t thích h p

i t n chuy n i TuDienChinh.txt, ta có ánh x 1-1 chuy n 1 t

không d u thành có d u. Ngoài ra, t ng linh ho t và chính xác c a

Page 36: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

35

ph ng pháp, ta có thêm 1 t n ph , g i là t n c m t CumTu.txt, l u

nh ng c m t th ng xuyên c s d ng.

Các c m t này c l u có c u trúc. V i m i c m t , ta có 1 chính,

và các chu i t còn l i trong c m t . i kèm v i chu i t là con s th hi n

trí c a chính này v i chu i t . (xem chi ti t c u trúc và cách t o trong

c 3.2.2.2)

Ví d 3-7: 1 vài c m t c l u

i <TAB> 1|qu n áo m c bu i <TAB> 1|bu i <TAB> 2|hôm

à t “t i” có 3 c m t là “qu n áo m c bu i t i”, “bu i t i” và “t i

hôm” v i “t i” là chính trong 3 c m t trên.

Sau khi ánh x 1-1 d a trên TuDienChinh.txt xong, ch ng trình s làm

thêm 1 b c n a, là tìm trong t n c m t , xem có s xu t hi n c m t

nào trong v n b n không ? N u có, thì ch ng trình s s a l i k t qu ,

c k t qu chính xác h n. Ph ng pháp xét duy t c mô t nh sau:

(Sau khi ã ánh x t không d u thành có d u r i)

Duy t các t không d u t trái qua ph i

V i t không d u có xu t hi n trong t n CumTu.txt (là

chính c a c m t sau khi lo i b d u), ta xét trong ph m vi [-3,+3] t xung

quanh t ó, xét xem, có s xu t hi n c a chu i còn l i c a c m t không

? N u có thì có s xu t hi n c a c m t ó à thay i t không d u ó

thành chính.

Ví d 3-8:

Câu “Nhung van de lien quan toi nguoi dong tinh luyen ai duoc ban

bac soi noi trong buoi hop nhom toi hom qua” s c chuy n thành câu

có d u qua các b c sau:

Page 37: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

36

o Tách câu : t o ra 1 câu duy nh t là “Nhung van de lien quan toi nguoi

dong tinh luyen ai duoc ban bac soi noi trong buoi hop nhom toi hom

qua”

o Tách t (các t phân cách nhau b ng d u / ) : “Nhung / van de / lien

quan / toi / nguoi / dong tinh luyen ai / duoc / ban bac / soi noi / trong /

buoi / hop / nhom / toi / hom qua”

o Thêm d u d a trên TuDienChinh.txt : ta c câu sau “Nh ng / v n /

liên quan / tôi / ng i / ng tính luy n ái / c / bàn b c / sôi n i /

trong / bu i / h p / nhóm / tôi / hôm qua”

o Xét duy t l i d a trên CumTu.txt : ta c câu hoàn ch nh cu i cùng sau

“Nh ng / v n / liên quan / i / ng i / ng tính luy n ái / c / bàn

c / sôi n i / trong / bu i / h p / nhóm / i / hôm qua”

3.2.2. Mô hình hu n luy nPh n quan tr ng nh t c a mô hình là các t p tin t n c cung c p cho

mô hình, mà quan tr ng nh t là 2 t n : TuDienChinh.txt và CumTu.txt. Sau

ây mô t chi ti t các b c t o nên 2 t p tin trên.

3.2.2.1. Th ng kê t n su t xu t hi n c a t

3.2.2.1.1. Xây d ng kho ng li u

Trích xu t d li u text t kho d li u báo n t trên Internet. D li u

báo n t trên Internet s d ng g m 700MB d li u báo Thanh niên, 500MB

báo Ng i Lao ng và 700MB báo S c màu v n hoá.

( Xin xem thêm trong Ph l c 1 bi t chi ti t c u trúc kho ng li u)

Sau b c này, ta có c 1 th m c ch a nhi u t p tin text, m i t p tin

ch a t p các câu thu c cùng 1 l nh v c. Các l nh v c c s d ng, phù h p

Page 38: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

37

i m c ích t ng quát c a ch ng trình, em ch n các bài báo v tin t c, th i

, xã h i, chính tr … và kèm thêm 1 ít v các l nh v c khác nh khoa h c,

giáo d c …

l n c a kho d li u vào kho ng 150MB d li u. L ng d li u này

l n mô hình ho t ng c chính xác.

3.2.2.1.2. Th ng kê t n su t xu t hi n c a t

i k t qu c a b c trên, ta duy t t t c các t p tin trong th m c, sau

ó dùng ph ng pháp LRMM tách t t ng câu m t, th ng kê t n su t xu t

hi n c a t theo công th c sau :

n su t t = -log10(s l n xu t hi n c a t / t ng s t )

Sau b c này, ta có c 1 t p tin text ch a t n su t các t mà ta th ng

kê c.

a trên kho ng li u 150MB, ta th ng kê c s l t t s d ng vào

kho ng g n 18 tri u t , s lo i t khác nhau s d ng là trên 26400 t . Các

thông s th ng kê trên c ghi vào t p tin log khi ch ng trình ch y.

Page 39: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

38

Hình 3.2-10 : p tin m u sau khi th ng kê t n su t t

3.2.2.1.3. o t n chuy n i

Vi c t o t p tin t n chuy n i TuDienChinh.txt r t d dàng. V i t p

tin th ng kê t n su t xu t hi n c a t b c trên, ta lo i b các t có t n su t

> 7. Vi c lo i b này giúp cho ph ng pháp ch chú tr ng n các t có t n

su t nh (t c xu t hi n nhi u nh t). V i các t không d u có nhi u t có d u,

thì ta ch n ra t có d u có t n su t nh nh t (t c xu t hi n nhi u nh t) t o

thành t n TuDienChinh.txt v i c u trúc sau :

i dòng c a t n có c u trúc sau : <T không d u> TAB <T có d u>

Page 40: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

39

Hình 3.2-11 : Trích t p tin TuDienChinh.txt

3.2.2.2. Trích xu t các c m t th ng s d ng

ây là 1 ph ng pháp t ng i n gi n rút trích ra 1 s c m t

th ng s d ng. Ta d a vào t n LLOCE ti ng Vi t rút ra các c m t ,

chú ý là, trong quá trình rút trích, ta ch quan tâm n các c m t ch ch a

các t t o nên s nh p nh ng khi lo i b d u (nh t “tôi”, “t i”, “t i” khi

lo i b s t o thành t “toi”à nh p nh ng) t ó, th ng kê trên kho ng li u

150MB b c trên, rút ra các c m t th ng s d ng. Các c m t này s

c l u nh sau :

i dòng có c u trúc sau :

<T chính trong c m t > {TAB <v trí | chu i | chu i>} (1,n)

Mô t :

- {1,n} : l p c u trúc trong {} t 1 n nhi u l n

Page 41: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

40

- chính trong c m t : là t có d u. T này, sau khi b d u, thì t không d u này

có nhi u t có d u t ng ng (t gây nh p nh ng). T p tin CumTu.txt ch xét

các c m t có ch a các chính t o nên s nh p nh ng này thôi.

- trí : ch v trí c a <T chính trong c m t > trong c m t ó so v i <chu i>, có

các giá tr sau:

o trí = 0 : nói lên r ng, <T chính trong c m t > ng gi a 2 <chu i>,

và chu i tr c <T chính> s c ghi tr c, 2 <chu i> s cách nhau b i

kí t phân cách ‘|’

o trí = 1 : nói lên r ng, <T chính trong c m t > ng sau <chu i>, khi

ó, ch xu t hi n 1 <chu i> trong c m t

o trí =2 : nói lên r ng, <T chính trong c m t > ng tr c <chu i>, khi

ó, ch xu t hi n 1 <chu i> trong c m t

Ví d 3-9:

món 2| n à c m t “món n”, t chính là “món” ng tr c “ n”

u 0|môn|bóng à c m t “môn u bóng”, t chính là “ u” ng tr c

“bóng” và ng sau “môn”

i 1|bu i à c m t “bu i t i”, t chính là “t i” ng sau “bu i”

Page 42: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

41

Hình 3.2-12 : Trích t p tin CumTu.txt

3.2.3. So sánh mô hình này v i 2 mô hình trênMô hình xu t là mô hình nâng cao c a mô hình VietPad s d ng. V i các u

th h n h n nh có ph n tách câu, kh n ng i t không d u thành có d u linh

ho t qua t n CumTu.txt ch không là ánh x 1-1 nh Vietpad, kh n ng nh n

di n t tên riêng ...

So v i mô hình mà VnMark s d ng, m i mô hình có 1 m m nh riêng,

nh ng ph ng pháp mà mô hình em xu t, có th tái k t h p v i mô hình c a

VnMark cho ra 1 k t qu hoàn ch nh h n n a.

Page 43: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

42

m n i tr i c a mô hình, là kh n ng xét duy t và phát hi n c m t 1 cách

linh ho t trong ph m vi [-3,+3] mà các mô hình khác không th c hi n c. Vi c

xét duy t này cho phép phát hi n và gán d u chính xác, khi c m t xu t hi n không

liên t c.

Ví d 3-10:

Ch ng trình có th phát hi n và chuy n t “toi” thành “t i” khi phát hi n ra

m t “t i ngày hôm ó”, “t i ngày hôm kia”, “t i ngày hôm n ” … khi trong t

n CumTu.txt ch l u “t i 2|hôm”.

Page 44: Them dau vao van ban tieng viet ko dau

Ch ng 4. CÀI T

TH NGHI M

Page 45: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

44

4.1. Th ng kê t n s xu t hi n c a tSau ây là các b c th c hi n có c t n t n s xu t hi n c a t . u

vào c a b c này là kho d li u báo n t online g m : 700MB d li u báo Thanh

niên, 500MB d li u báo Ng i lao ng và 700MB d li u báo S c màu v n hóa.

u ra s c t p tin t n t n s xu t hi n t , th ng kê c trên kho d li u

trên.

4.1.1. Xây d ng kho ng li u text t báo n t(ch y ch ng trình html2txt.exe)

Ch ng trình Html2Txt s trích xu t các d li u text có ngh a trong kho d li u

báo online d ng html, có c kho d li u hoàn toàn thu n text. ây là b c ti n x

lý và các t p tin text c l u v i mã hoá UTF8.

Khi ch y ch ng trình này, em ã s d ng 700MB d li u báo Thanh niên,

500MB d li u báo Ng i lao ng và 700MB d li u báo S c màu v n hóa. K t qu

xu t ra kho ng 120 MB d li u text thu n túy.

Hình 4.1.1-13: Giao di n ch ng trình HTML2TXT

Page 46: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

45

o u vào: là th m c ch a d li u kho d li u .html (có th ch ath m c con nhi u c p).

o u ra: N i l u toàn b n i dung tách c (các n i dung l utrong các file .txt cùng tên file .html a vào).

o Do d li u web a vào r t a d ng và không chu n nên ch ngtrình không th tìm c tag n i dung trong t t c các tr ng h p.

ch ng trình ho t ng úng thì khi ti n hành tách n i dungcho các file .html thì ng i dùng c n ch rõ tag ch a n i dungchính trong v n b n .html b ng cách c u hình cho ch ng trình.

Hình 4.1.1-14: u hình c a ch ng trình HTML2TXT

u hình ch ng trìnho b n: các tag ch a ph n n i dung c n trích rao Nâng cao: s d ng khi có thu c tính class c a tag t ng ng bên

ph n c b no Gi i mã NCR c a html: dùng chuy n ph n text nh d ng

NCR sang Unicode.Ví d 4-1: T&#212;I è TÔI

o Charset: charset mà trang web s d ng; thông th ng, m i trangweb nh ngh a charset mà nó s d ng trong tag sau u html.

Page 47: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

46

Hi n ch ng trình h tr 2 charset hay s d ng t i Vi t Nam làutf-8 và windows-1252

<meta http-equiv="Content-Type" content="text/html; charset=utf-8">

Ta c n ph i nh charset úng vi c c d li u t html úng,chính xác (n u ch n sai charset thì vi c c html s b thi u 1 s kí t )

u ý quan tr ng :u hình c a 1 s trang web chính nh sau:

(Trong d u ngo c () là ph n nâng cao t ng ng c a tag)1. www.thanhnien.com.vn :

(ko gi i mã NCR _ charset : utf8)div(newslead)div(newsbody)

2. www.tuoitre.com.vn(ko gi i mã NCR _ charset : utf8)p(ptitle)p(phead)p(pbody)p(pquestion)p(panswer)

3. vnca.cand.com.vn(có gi i mã NCR _ charset : utf8)span(main_title)span(sapeau_box)span(text_box)

4. www.nld.com.vn (ko gi i mã NCR _ charset : utf8)

td(td_read)->p(none) ->p(msonormal)(-> : p là tag con c a td)

5. www.baobinhdinh.com.vn(ko gi i mã NCR _ charset : utf8)p(msonormal)p(msobodytext)

Page 48: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

47

6. www.baocantho.com.vn(có gi i mã NCR _ charset : windows_1252)td(news_title)td(news_body)

7. sacmauvanhoa(ko gi i mã NCR _ charset : utf8)p(dong)p(msonormal)

Hình 4.1.1-15 : M t trang báo thanh niên

Page 49: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

48

Hình 4.1.1-16 : li u c tách t trang báo Thanh niên

4.1.2. Tách câu(ch y ch ng trình XDNguLieu.exe)

i b c này, ta th c hi n vi c t o 1 kho d li u chu n ti n cho vi c x

lý sau này. Kho d li u này theo chu n c mô t chi ti t trong ph n PH

C. 1 cách n gi n, kho này g m nhi u câu thu c cùng 1 l nh v c, m i câu

c gán 1 s ID riêng. K t qu thu c, v i kho text b c trên là 1 kho câu

150MB.

Page 50: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

49

Hình 4.1.2-17: Giao di n ch ng trình Tách Câuo vi t t t : Dùng nh ngh a các t vi t t t thông d ng có ch a d u ch m

câu (. ! ?) lo i b b t các tr ng h p gây nh m l n khi tách câu.

Hình 4.1.2-18: vi t t t cung c p cho ch ng trình Tách Câu L u ý : nên 2 tr ng h p nh : Mr.(không có kho ng tr ng ng sau) và Mr.(có kho ng tr ng ng sau) thì vi c ch y ch ng trình s t t và chính xác h n

o ID : nhãn nh danh duy nh t cho 1 câu trong t p tin, g m các tr ng :Ngày Tháng N m Ngu n g c nh danh Ch

o u vào : Th m c ch a các file n i dung text ã tách c t các file .html(th m c có th có nhi u c p).

Page 51: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

50

o t xu t : File ch a t t c các câu v n b n ã c tách t th m c u vào vàgán ID (hình d i)

Hình 4.1.2-19: i dung file k t xu t c a ch ng trình Tách Câu.

4.1.3. Tách t và th ng kê(ch y ch ng trình Tach tu.exe)

V i kho d li u chu ng c t o ra b c trên, ta b t u dùng ph ng pháp

tách t LRMM th ng kê t n s xu t hi n c a t . Dùng 150 MB d li u kho câu

trên, em th ng kê trên kho ng g n 18 tri u l t t , và h n 26400 t khác nhau ã

xu t hi n.

Page 52: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

51

Hình 4.1.3-20: Giao di n module tách tv Th m c ngu n : Th m c ch a các câu ã c tách và gán nhãn, g m các

p tin cùng l nh v c (nh pháp lu t); không quan tâm kho d li u này cùng hay

khác ngu n g c

Hình4.1.3-21: i dung t p tin th m c ngu n

v p tin t n: File t n c th y cung c p s n và c ch nh s a theo

yêu c u s d ng riêng c a nhóm.

Page 53: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

52

Hình 4.1.3-22: i dung t p tin t n

v Xu t t p tin ng li u: File l u các t tách c và t n su t xu t hi n c a các t

c tính theo công th c –lg(n/N)

Hình 4.1.3-23: i dung t p tin k t qu

4.2. o t p tin t n chính(ch y ch ng trình RutGon.exe)

n chính, là t n c dùng tra c u vi c chuy n i l n u,

dùng ánh x 1-1 t t không d u sang t có d u. Trong ph n cài t, t n

Page 54: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

53

chính có tên là TuDienChinh.txt. T p tin t n chính này, c t o ra nh vào t p

tin th ng kê t b c trên.

Hình 4.1.3-24: Giao di n ch ng trình t o t n chính

o p tin ngu n : t p tin ch a t n su t các t ã c th ng kê b c trên.

o Th m c th ng kê : th m c ch a kho ng li u. ây chính là Th m c ngu n

a ph n Tách t và th ng kê

o Th m c k t xu t : th m c s ch a k t qu c a ch ng trình. Ngoài vi c t o

ra t p tin TuDienChinh.txt, ch ng trình còn t o ra thêm 2 t p tin ph là

TuDienPhanLop.txt và KhoCau.txt là u vào cho b c sau.

§ TuDienPhanLop.txt : t n này ch a các t không d u, m i t không

u có 1 hay nhi u t có d u.

§KhoCau.txt : ch a t t c các câu có s xu t hi n c a các t có d u trong

TuDienPhanLop.txt

Page 55: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

54

Hình 4.1.3-25 : Trích 1 ph n TuDienChinh.txt

Hình 4.1.3-26 : Trích 1 ph n TuDienPhanLop.txt

Page 56: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

55

Hình 4.1.3-27: Trích 1 ph n KhoCau.txt

4.3. o t p tin t n c m tn c m t c s d ng tra c u và hi u ch nh l i các t không d u

ã chuy n sang có d u, d a trên vi c xét s xu t hi n c a c m t trong 1 ph m

vi nh t nh (xem chi ti t trong ph n Mô hình). Trong ph n cài t, t n c m

có tên là CumTu.txt và c t o ra sau 2 b c sau :

4.3.1. o kho d li u tinh gi n m i(ch y ch ng trình KhoDuLieu.exe)

Page 57: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

56

Hình 4.3.1-28: Giao di n ch ng trình t o kho d li u tinh gi n

Thông qua b c trung gian này, giúp cho vi c t o t p tin CumTu.txt c d

dàng và nhanh chóng h n.

o p tin t n : t p tin t n t ti ng Vi t

o n phân lo i : là TuDienPhanLop.txt c t o ra b c trên

o Kho câu : là KhoCau.txt c t o ra b c trên.

o Th m c k t xu t : th m c ch a k t qu ch ng trình. Sau khi ch y ch ng

trình này, ch ng trình s t o ra 1 s l ng l n th m c (tên th m c là “_” + t

không d u), trong th m c này s ch a các t p tin text (tên t p tin là “_” + t có

u), m i t p tin s ch a t t c các câu mà có s xu t hi n c a t ó.

Page 58: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

57

Hình 4.3.1-29 : Trích 1 ph n th m c k t xu t

Hình 4.3.1-30 : Th m c con _a trong th m c k t xu t

Page 59: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

58

4.3.2. o t p tin t n c m t(ch y ch ng trình ThongKeTu.txt)

Hình 4.3.2-31: Giao di n ch ng trình t o t p tin c m t

o n : t n các t ti ng Vi t

o n phân l p : là TuDienPhanLop.txt c t o ra b c t o

TuDienChinh.txt

o n LLOCE : ch a 1 s c m t nh t nh … n u có ngu n d li u c m t

t h n, ch ng trình s ch y t t h n.

o Kho d li u : là Th m c k t xu t b c trên.

4.4. Ch ng trình chínhCh c n ng thêm d u và xoá d u c tích h p trong 1 dll, giúp vi c tri n khai

ch ng trình c d dàng và thu n ti n h n. Vi c s d ng dll này r t n gi n, ch

n 1 dll và 1 th m c ch a các t p tin t n c n thi t cho ch ng trình (\TuDien)

là ch c n ng Thêm d u và Xoá d u s n sàng ho t ng. V i dll trên, em phát tri n

Page 60: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

59

1 s ch ng trình chính sau ây, v i giao di n thân thi n, d s d ng, giúp ng i

dùng d dàng thêm d u theo nhu c u s d ng c a h .

4.4.1. Ch ng trình VietEditor

Hình 4.4.1-32: Giao di n ch ng trình chính VietEditor

ây là 1 trình so n th o v n b n n gi n, v i các ch c n ng t ng t Notepad

a Windows, nh ng nó có thêm ch c n ng Thêm d u và Xoá d u.

Ch ng trình c phát tri n ki m tra mô hình c a ra. Ch c n ng

Thêm d u thanh (F7) và Xoá d u thanh (F6) trong menu Công c giúp thêm d u và

xoá d u cho v n b n.

Trong ch ng trình, do vi c Ti n x lý, nên nh d ng c a v n b n không gi

nh c c.

Page 61: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

60

4.4.2. Ch ng trình thêm d u qua Clipboardây là 1 h ng phát tri n ti n l i cho ch c n ng thêm d u ti ng Vi t.

i vi c s d ng t không d u nhi u trên Internet nh chat qua Y!M, c các lá

mail n t … thì ti n ích này s giúp ng i s d ng ngay t c thì. Ng i dùng

ch c n copy n v n b n không d u c n thêm d u, ngay l p t c, ch ng trình s

th c hi n vi c chuy n n v n b n ó thành có d u và hi n th cho ng i dùng

xem.

Hình 4.4.2-33: Giao di n ch ng trình chính thêm d u Clipboard

Page 62: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

61

Hình 4.4.2-34: Test ch ng trình thêm d u Clipboard

Page 63: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

62

4.5. Th nghi mi b d li u th là các v n b n ng u nhiên m i nh t l y t trang web

www.tuoitre.com.vn, ta so sánh ch ng trình VietEditor v i VietPad và AMPad, ta thu

c k t qu khá kh quan sau (dùng ch ng trình test, không test b ng tay) :

ng s ti ng T ng s ti ng úng T l úng

VietEditor 8275 7191 86,9%

VietPad 8275 7046 85,15%

AMPad 8275 7156 86,47%

Page 64: Them dau vao van ban tieng viet ko dau

Ch ng 5. T QU , H NG

PHÁT TRI N

Page 65: Them dau vao van ban tieng viet ko dau

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

64

5.1. n ch và h ng phát tri nBài toán thêm d u ti ng Vi t vào v n b n không d u là bài toán m i, còn ang hoàn

thi n d n v mô hình c ng nh cách th c hi n. Hi n nay, mô hình th ng dùng cho bài

toán này là th ng kê t n s xu t hi n c a t , ng th i, tu theo m i tác gi mà có thêm

nh ng bi n i, thu t gi i khác nhau giúp cho vi c thêm d u c chính xác h n.

Qua lu n v n này, mô hình th ng kê t n s xu t hi n c a t , kèm theo ph ng pháp

tách t không d u LRMM và s d ng thêm t n c m t , kh n ng chính xác c a mô

hình là t ng i cao. Tuy nhiên, ph i nói là mô hình còn nh ng h n ch , và c ng là

nh ng h ng m mà lu n v n c n ph i ti p t c phát tri n trong th i gian t i nh m t ng

chính xác lên cao h n n a.

Th nh t, c n ph i có nh ng l nh v c chuyên môn cho mô hình. Trong th i i

chuyên môn hoá nh hi n nay, vi c s d ng ch ng trình trong nh ng l nh v c chuyên

môn là c n thi t, ng th i, giúp cho ch ng trình t ng thêm chính xác. Vi c thêm

ch c n ng này c ng không nh h ng nhi u n mô hình. ây, do th nghi m mô

hình m i nên b c này c b qua.

Th hai, áp d ng mô hình cho ph ng pháp thêm d u online. Vi c thêm d u online

ngoài vi c t o tr c quan cho ng i dùng, ngoài ra, có th t o ra 1 ph ng pháp gõ m i,

giúp vi c gõ ti ng Vi t c nhanh h n.

Th ba, mô hình có th áp d ng các ph ng pháp tách t chính xác h n nh WFST

c s d ng trong mô hình c a VnMark … t c chính xác cao h n n a.

5.2. t lu nTuy mô hình không có m gì m i n i b t, nh ng qua vi c l u tr t n c m t

chuy n i t linh ho t thì ây là h ng phát tri n r t có ti m n ng. V i 1 t n

m t chính xác và y h n, mô hình s ho t ng t t h n n a. Ch c n ng Thêm

u t ng c phát tri n thành 1 DLL, cho phép tích h p ch c n ng này vào b t k

trình so n th o nào 1 cách nhanh chóng.

Page 66: Them dau vao van ban tieng viet ko dau

65

TÀI LI U THAM KH O[1]. Ti n s inh n. Giáo trình X lý ngôn ng t nhiên, Khoa Công ngh

Thông tin, i h c Khoa h c T nhiên thành ph H Chí Minh, Tháng

12 – 2004.

[2]. Nguy n V n Toàn. T ng Gán D u Thanh Ti ng Vi t – Trung tâm

Phát tri n Công ngh Thông tin, i h c Qu c gia Thành ph H Chí

Minh.

[3]. Hoàng V n Hành – inh n (1999), “T ti ng Vi t : Khái ni m – nh n

di n – ranh gi i”, Bài ti u lu n môn h c “T v ng h c”, L p Cao h c

Ngôn ng h c.

[4]. Hoàng Phê (1998), T n ti ng Vi t, Trung tâm t di n h c, NXB à

ng.

[5]. Dien Dinh, Kiem Hoang, Toan Nguyen Van (2001), “Vietnamese Word

Segmentation”, Proceedings of NLPRS’01 (The 6th Natural Language

Processing Pacific Rim Symposium), Tokyo, Japan, 11/2001, pg. 749-756

[6]. n Chí Nam, lu n v n c nhân tin h c khoá 1999-2003, “X lý ng

ngh a trong h d ch t ng Anh –Vi t cho các tài li u tin h c”, pg. 27-

30

[7]. Nguy n Thái Ng c Duy, lu n v n c nhân tin h c khoá 2000-2004, “Xây

ng ch ng trình b t l i chính t ti ng Vi t và ngh t thay th cho

các l i chính t th ng g p”, pg. 16-36, pg. 69-73

[8]. oàn Xuân Kiên, “Bàn v chuy n ánh d u thanh trong ti ng Vi t”,

ng t i trang http://home.tiscali.be/centre.vietnam/

[9]. oàn Xuân Kiên, “Xem l i m t v n ng âm ti ng Vi t : c u trúc âm

ti t”, ng t i trang http://home.tiscali.be/centre.vietnam/

[10]. http://www.easyvn.com

Page 67: Them dau vao van ban tieng viet ko dau

66

[11]. Tài li u v ph n m m VietPad c công b t i trang web:

http://vietpad.sourceforge.net

[12]. Tài li u v ph n m m AMPad c công b t i trang web:

http://www.echip.com.vn/echiproot/weblh/qcbg/duynghi/automark

[13]. 1 s ph n m m h tr trên www.codeproject.com

Page 68: Them dau vao van ban tieng viet ko dau

67

Ph l c : C u trúc kho ng li u

Kho ng li u g m nhi u t p tin text (.txt), m i t p tin ch a m t t p các câu thu c cùng

1 ch . T p tin text c l u v i c u trúc sau

o p tin text g m nhi u record, m i record g m :

§ ID : nh danh

§ S : n i dung câu

S cách ID b ng d u TAB (“\t”)

u trúc tr ng ID :

Thông tin ID bao g m nh ng n i dung sau:

• Ngày (1..31) 2 ký t• Tháng (1..12) 2 ký t• m (04 = 2004) 2 ký t• Xu t x 3 ký t

o Ký t u tiên: ngu n g c c a ng li u§ B: Báo chí§ T: Tác ph m v n h c§ S: Sách§ L Lu n v n§ V: Các lo i v n b n

o Ký t th hai và ba: nh danh ngu n g c c a ng li u§ báo chí:

• TN: Thanh Niên• TT: Tu i Tr• SG: Sài Gòn Gi i Phóng• ND: Nhân Dân• LD: Ng i Lao ng• CT: C n Th• BD: Bình nh• VH: S c màu v n hóa

§ tác ph m v n h c: nhóm làm tài t quy nh nh danhcho tên các tác ph m V n h c mà mình có, ng th i ph i cótài li u cho ph n này (ý ngh a c a t ng nh danh mà nhóm ó

d ng và l u trong t p tin riêng)

Page 69: Them dau vao van ban tieng viet ko dau

68

• Vd: Truy n Ki u c a Nguy n Du à TK• Vd: Cô Gái Long c a Kim Dung à CG

§ sách: cách qui nh gi ng tác ph m v n h c.§ lu n v n: cách qui nh gi ng tác ph m v n h c.§ v n b n: cách qui nh gi ng tác ph m v n h c. M t kho

ng li u áng k ó là các v n b n c a Nhà N c, v n b nPháp Lu t (www.luatgiapham.com),…

• Ch 1 ký to báo chí:

§ X: Xã h i, tin trong n c, tin th gi i§ T: Th ng m i, kinh doanh, kinh t§ V: V n hóa, th thao, i s ng,§ P: Pháp lu t§ Y: Y t , s c kh e,§ K: Khoa h c, k thu t, tin h c

o v n h c:§ T: Th§ N: Truy n ng n§ D: Truy n dài§ K: Truy n ki m hi p

o sách:§ (gi ng qui nh c a báo chí)

o lu n v n:§ (gi ng qui nh c a báo chí)

o v n b n:§ (gi ng qui nh c a báo chí)

• th t bài vi t4 ký t (01..9999)• th t câu 3 ký t (001..999)

ng k t l i, tr ng ID có chi u dài là: 17

Page 70: Them dau vao van ban tieng viet ko dau

69

Hình 5.2-35 : p tin kho ng li u m u