BÁO CÁO KĨ THUẬT - jaist.ac.jpbao/VLSP-text/Sep2008/SP3_Baocaokithuat2008thang9.pdf · BÁO CÁO KĨ THUẬT SP3 - Hệ dịch Anh-Việt I Khảo sát các nguồn thu thập

BÁO CÁO KĨ THUẬT SP3 - Hệ dịch Anh-Việt

I Khảo sát các nguồn thu thập ngữ liệu song ngữ

Trong các nghiên cứu về dịch thống kê, ngữ liệu song ngữ là một thành phần thiết yếu quan trọng không thể thiếu. Chất lượng của ngữ liệu song ngữ đóng vai trò quyết định đến chất lượng đầu ra của hệ dịch. Hệ dịch thống kê sẽ không thể cho kết quả tốt nếu ngữ liệu song ngữ sử dụng trong quá trình huấn luyện có chất lượng không tốt cho dù được áp dụng các phương pháp học máy tiên tiến nhất.

Ngữ liệu song ngữ có thể được thu thập từ nhiều nguồn bao gồm. Tổng quát, có thể chia các nguồn này thành hai loại, nguồn ngữ liệu ở dạng giấy viết và nguồn ngữ liệu dạng điện tử. Ngữ liệu song ngữ ở dạng giấy viết có thể được tìm thấy dễ dàng trong các sách học ngoại ngữ, các sách truyện, tài liệu song ngữ và các từ điển song ngữ. Việc tìm kiếm loại ngữ liệu này đơn giản, tuy nhiên quá trình nhập liệu vào máy tính tốn nhiều thời gian và công sức. Do vậy trong thực tế, gần như không có nhóm nghiên cứu nào thực hiện việc xây dựng ngữ liệu song ngữ từ nguồn này.

Với phát triển bùng nổ của công nghệ thông tin và Internet, các ngữ liệu song ngữ dưới dạng điện tử hiện đang tồn tại khá phong phú ở nhiều dạng.

Nguồn ngữ liệu song ngữ đơn giản nhất mà chúng ta có thể nhận thấy là các loại truyện song ngữ, các tài liệu và tác phẩm văn học nước ngoài nổi tiếng được dịch sang tiếng Việt. Nguồn ngữ liệu này có thể thu thập bằng tay từ Internet. Nhược điểm của nguồn ngữ liệu này là chủ yếu tập trung trong lĩnh vực văn học nghệ thuật nên có nhiều trường hợp các văn bản được dịch theo ý, do vậy mức độ ánh xạ về từ vựng không cao. Để dùng loại ngữ liệu này cho quá trình huấn luyện của hệ dịch, cần phải lọc bỏ các câu được dịch ở mức ý quá cao. Một điểm khó khăn nhỏ trong việc sử dụng nguồn ngữ liệu này là với một số định dạng file, việc chuyển đổi sang dạng dữ liệu text thông thường để xử lí khá khó khăn như pdf, djvu, etc.

Một nguồn ngữ liệu thường được khai thác để xây dựng ngữ liệu song ngữ là các trang web song ngữ. Với sự phát triển bùng nổ của Internet, số lượng các trang web song ngữ ngày càng lớn và việc sử dụng kĩ thuật web-mining để trích rút các ngữ liệu song ngữ từ các trang web song ngữ đã được khá nhiều nhóm nghiên cứu trên thế giới quan tâm.

Resnik [1] đã lần đầu đề xuất phương pháp trích rút ngữ liệu song ngữ Anh – Trung, Anh – Đức, từ Internet sử dụng việc so sánh về cấu trúc HTML và từ điển song ngữ để tìm ra các cặp trang web song ngữ. Việc áp dụng phương pháp lọc theo độ dài văn bản được áp dụng để nhanh chóng loại bỏ các cặp trang web không phù hợp. Phương pháp Resnik đề xuất được cải tiến và áp dụng để xây dựng các hệ thống khác tương tự là BITS [3] và PTMiner cho cặp ngôn ngữ Anh – Trung. Với cặp ngôn ngữ Anh-Việt, nhóm nghiên cứu của Hồ Bảo Quốc [2] cũng đã tiến hành trích rút các văn bản và cặp câu song ngữ từ trang web Voanews (http://www.voanews.com) sử dụng kết hợp các phương pháp lọc theo thời gian, độ dài văn bản và so sánh văn bản song ngữ dựa trên nội dung sử dụng từ điển song ngữ. Tùy vào cấu trúc và công nghệ phát triển của trang web song ngữ, việc thu thập ngữ liệu song ngữ có thể từ đơn giản đến rất phức tạp. Với các trang web song ngữ có cấu trúc URL đơn giản cho việc thu thập như trong nghiên cứu về hệ thống STRAND của Resnik, hệ thống BITS, việc thu thập dựa trên URL dựa vào việc so sánh sự khác nhau giữa hai URL sử dụng các chuỗi nhận dạng ngôn ngữ. Vd, với cặp ngôn ngữ tiếng Anh, Trung, các cặp URL chỉ khác nhau ở chuỗi en và ch (http://www.../file-ch.html và http://www.../file-ch.html) có thể coi là URL trỏ đến hai trang web tiếng Anh và tiếng Trung là bản dịch của nhau. Với trường hợp trang Web voanews.com, do không có cấu trúc đơn giản, nhóm nghiên cứu của Hồ Bảo Quốc phải thực hiện việc tải toàn bộ trang web phần tiếng Anh và tiếng Việt, sau đó tiến hành lọc và so sánh từng cặp trang web.

Các văn bản song ngữ cho lĩnh vực công nghệ thông tin còn có thể được tìm thấy trong các dự án bản địa hóa phần mềm mã nguồn mở theo như nghiên cứu của Tiedemann [5]. Các dự án này sử dụng định dạng file PO để lưu các thông điệp trong phần mềm mã nguồn mở ở dạng tiếng Anh và phần dịch sang thứ tiếng khác được đi kèm. Một thông điệp tiếng Anh sẽ được đi kèm với một thông điệp đã dịch ngay sau nó. Với cấu trúc như vậy, việc tách các cặp câu song ngữ là khá dễ dàng và nhanh chóng. Một ví dụ về cấu trúc file PO cho cặp ngôn ngữ Anh – Việt được mô tả trong hình 1. Chất lượng gióng hàng của các cặp câu này là khá tốt, tuy nhiên chất lượng dịch của các cặp câu song ngữ còn chưa cao do người tham gia dịch phần lớn là các tình nguyện viên mà không phải các chuyên gia về dịch thuật

Hình 1: cấu trúc file PO

Trong các nghiên cứu mới đây về chủ đề Wikipedia mining, [] đã đề xuất trích rút các cụm từ và câu song ngữ từ Wikipedia. Việc trích rút được dựa trên cấu trúc về liên kết trong trang web Wikipedia. Trong một trang web Wikipedia giải thích về một chủ đề có bao gồm các liên kết đến việc giải thích về cùng chủ đề đó trong các ngôn ngữ khác. Lợi dụng đặc điểm này, có thể dễ dàng trích rút các cặp cụm từ song ngữ. Một ví dụ cho cặp cụm từ Computer – Máy tính được mô tả trong hình 2.

Hình 2: Trích rút thông tin song ngữ từ Wikipedia

Ngoài ra với cấu trúc liên kết trang web như ở trên, có thể dễ dàng trích rút các cặp văn bản nói về cùng một chủ đề. Từ các cặp văn bản này, việc trích rút và tìm ra các cặp câu song ngữ là rất có tiềm năng.

Việc tìm kiếm các trang Web song ngữ một cách tự động cũng là một chủ đề hấp dẫn. Resnik [1] đã đề xuất phương pháp tìm ra các trang web song ngữ sử dụng tính năng anchor text của các search engine. Một phương pháp khác phức tạp hơn là sử dụng kĩ thuật Cross Language Information Retrival . Nhóm nghiên cứu của Achim Ruopp and Fei Xia [7] đã gửi các query song ngữ đến search engine Google để tìm ra danh sách các trang web về một chủ đề ở hai ngôn ngữ. Sau đó các trang web song ngữ đã được rút trích bằng việc so sánh các cặp URL.

II Khảo sát các nghiên cứu về nâng cao chất lượng của ngữ liệu song ngữ

Ngữ liệu song ngữ đóng một vai trò quan trọng đến chất lượng của hệ dịch. Do vậy việc

xây dựng ngữ liệu song ngữ chất lượng cao phù hợp cho hệ dịch là một trong những

khâu thiết yếu trong quá trình xây dựng hệ dịch. Kích thước của ngữ liệu song ngữ cũng

là một yếu tố cần quan tâm. Khi kích thước ngữ liệu song ngữ lớn, thời gian huấn luyện

và kích thước của mô hình được tạo ra cũng tăng theo, do vậy thời gian giải mã sẽ tăng

lên đáng kế. Ngoài ra việc kích thước mô hình lớn cũng dẫn đến việc phải nhu cầu bộ

nhớ và xử lí cũng gia tăng. Các ngữ liệu được thu thập từ một số nguồn như từ các file

PO và wikipedia có thường có chất lượng không cao và bao gồm nhiều ngữ cặp câu

không tốt. Do vậy việc nghiên cứu các phương pháp loại bỏ các cặp câu song ngữ có

chất lượng thấp không phù hợp cho huấn luyện hệ dịch đóng một vai trò khá quan trọng.

Jian-Yun Nie [8] sau khi xây dựng hệ thống PTMiner để tự động thu thập các ngữ liệu song ngữ từ Internet đã đề xuất một số phương pháp để lọc các cặp ngữ liệu không phải song ngữ ra khỏi kho ngữ liệu. Hệ thống PTMiner sử dụng phương pháp gióng hàng câu chỉ dựa vào chiều dài văn bản, do vậy độ chính xác không cao và trong nhiều trường hợp các cặp câu bị gióng hàng không chính xác. Để loại bỏ các cặp câu này ra khỏi ngữ liệu song ngữ, Jian-Yun Nie đã xây dựng bộ lọc dựa trên ba tiêu chí gồm chiều dài câu, số lượng các ánh xạ rỗng (empty-alignment) ở mức từ và sử dụng từ điển để đo mức độ giống nhau của cặp câu. Phương pháp lọc này đã giúp tăng độ chính xác trong các thử nghiệm về Cross Language Information Retrieval tăng lên hơn 20% đối với cặp ngôn ngữ Anh-Trung.

Chris Pike [10] đề xuất phương pháp lọc các cặp câu song ngữ chất lượng kém ra khỏi hệ dịch sử dụng biến thể của thuật toán gióng hàng câu SIMR [9] do Melamed phát

triển. Ý tưởng của phương pháp này dựa trên mức độ phân bố của các ánh xạ từ giữa hai câu. Một cặp câu ở hai ngôn ngữ là bản dịch của nhau nếu ánh xạ từ giữa chúng là dày và ngược lại nếu ánh xạ ở mức từ giữa hai câu thưa thì chúng được coi là cặp ngữ liệu song ngữ có chất lượng không tốt và sẽ bị lọc bỏ. Phương pháp này cho độ chính xác khá cao khi thử nghiệm trên dữ liệu song ngữ được thu thập bởi hệ thống STRAND của Resnik [1].

Keiji Immamura và Eiichiro Sumita [11] đề xuất một phương pháp đánh giá tự động để đánh giá chất lượng dịch của hai cặp câu sử dụng thông tin mức ánh xạ ở mức từ và mức cụm từ. Chất lượng dịch ở mức từ được đánh giá theo công thức

trong đó CWs và CWt là số lượng từ có ánh xạ tương ưng ở câu nguồn và câu đích. Ws và Wt là số lượng từ của câu nguồn và câu đích. Còn chất lượng dịch ở mức cụm từ được đánh giá theo công thức

trong đó WL là số lượng từ ánh xạ giữa hai cụm từ và PC là số lượng các cặp cụm từ là ánh xạ của nhau giữa hai câu. Phương pháp này giúp giảm kích thước của kho ngữ liệu xuống còn 80% (lọc được 20% số lượng cặp câu không phù hợp hoặc có chất lượng kém).

Shahram Khadivi và Hermanny Ney[12] đề xuất phương pháp sử dụng kết hợp độ dài văn bản và độ ánh xạ ở mức từ giữa hai câu. Độ ánh xạ ở mức từ giữa hai câu được đánh giá dựa vào chỉ số ánh xạ được đánh giá bởi mô hình IBM-3. Kết quả thử nghiệm cho thấy phương pháp này giúp giảm được 10% số lượng câu trong kho ngữ liệu mà vẫn giữ nguyên chất lượng dịch.

Trong một nghiên cứu gần đây nhất, nhóm nghiên cứu của Keiji Yasuda [13] đã tiếp cận theo hướng sử dụng mô hình ngôn ngữ để loại bỏ các cặp câu khác nằm ngoài một lĩnh vực cho trước. Sử dụng độ đo perplexity, các câu có độ perplexity thấp sẽ bị lọc bỏ khỏi kho ngữ liệu. Kết quả thử nghiệm cho thấy có thể giảm được kích thước của kho

song ngữ đi 2 lần đồng thời vẫn duy trì chất lượng dịch tốt hơn 1.7% theo đánh giá BLEU. Mô hình lọc được mô tả trong hình 3.

Hình 3: Mô hình phương pháp loại lọc ngữ liệu của Keiji

Munteanu [13] trong nghiên cứu về các phương pháp trích rút ngữ liệu song ngữ từ comparable corpus (một dạng ngữ liệu song ngữ thô, thường chỉ bao gồm các dữ liệu văn bản của hai ngôn ngữ nói về cùng một chủ đề trong một lĩnh vực hẹp) đã đề xuất phương pháp xác định một cặp câu có phải là bản dịch của nhau hay không sử dụng mô hình maximum entropy. Phương pháp này khác với các phương pháp gióng hàng câu thông thường ở chỗ, phương pháp này giả thiết các cặp câu gần sát nhau độc lập và không có quan hệ với nhau. Vì vậy phương pháp không xét đến các thông tin gióng hàng của các cặp câu trước nó. Do đó có thể áp dụng phương pháp này để lọc bỏ các cặp câu không tốt khỏi kho ngữ liệu song ngữ. Các feature được sử dụng cho mô hình maximum entropy được chia làm hai loại. Các feature tổng quát gồm có thông tin chiều dài câu (sai biệt về độ dài và tỉ lệ độ dài) và mức độ từ ở câu nguồn có ánh xạ của nó ở câu đích. Các feature về gióng hàng gồm có tỉ lệ phần trăm và số lượng từ không có ánh

xạ ở câu đích, giá trị fertilities lớn nhất, chiều dài cụm từ lớn nhất và độ đo đánh giá mức độ ánh xạ. Các feature gióng hàng này được tính toán dựa trên mô hình IBM Model 1. Phương pháp này cho độ chính xác khá cao trên 92%.

III. Phần nhân hệ dịch

3.1 Giới thiệu chung

3.1.1 Mô hình log-linear

Mô hình dịch truyền thống bao gồm 3 hệ số chính:

- Bảng xác suất dịch cụm từ ( )ef |ϕ

- Mô hình sắp xếp trật tự từ d

- Mô hình ngôn ngữ pLM(e)

Ba mô hình thành phần này được nhân kết hợp với nhau tạo thành mô hình dịch thống

kê phrase-based.

(3.1)

Một cách khác để mô tả cấu hình này đó là 3 thành phần này có những ảnh hưởng khác

nhau tới quá trình dịch. Qua quan sát ta có thể nhận thấy mỗi thành phần có tác động

với một trọng số khác nhau lên kết quả dịch. Khi đó, mô hình có thể được thực hiện

bằng cách gắn mỗi thành phần với trọng số λphi, λd, λLM khác nhau.

Khi đó, công thức 3.1 tương đương với:

(3.2)

Mô hình thực hiện việc này được biết tới chính là mô hình log-linear [14].

Công thức tổng quát của mô hình log-linear như sau:

(3.3)

Phương trình 3.2 áp dụng công thức 3.3 với các thông số:

- Số hàm đặc trưng: n = 3

- biến ngẫu nhiên x = (e, f, start, end)

- hàm đặc trưng h1 = log phi

- hàm đặc trưng h2 = log d

- hàm đặc trưng h3 = log pLM

Để biểu diễn rõ ràng hơn xác suất dịch dựa vào công thức 3.3, công thức 3.2 có thể

được viết lại như sau:

(3.4)

Ta coi mỗi điểm dữ liệu (ở đây là việc dịch một câu) như một vector các thuộc tính, và

mô hình là một tập các hàm thuộc tính tương ứng. Các hàm thuộc tính được huấn luyện

độc lập, và được kết hợp với giả định rằng chúng độc lập với nhau.

Như vậy, mô hình log-linear được sử dụng trong quá trình dịch có nhiều ý nghĩa khác

nhau. Thứ nhất, việc đánh trọng số các thành phần khác nhau trong mô hình có thể giúp

cho việc cải thiện chất lượng dịch. Mặt khác, cấu trúc này cho phép chúng ta có thể

thêm các thành phần thông tin hữu ích khác vào mô hình dịch dưới dạng các hàm thuộc

tính. Ví dụ như xác suất dịch theo 2 hướng: dịch trực tiếp và dịch gián tiếp theo công

thức Bayes; trọng số dịch từ vựng; ...

3.1.2 Các thuộc tính khác sử dụng trong hệ dịch phrase-based

3.1.2.1 Xác suất dịch theo 2 hướng

Thông thường, ta áp dụng công thức Bayes để tính xác suất p(f|e) = p(e|f)*p(f)*p(e)-1.

Tuy nhiên, trong dữ liệu huấn luyện có thể tồn tại một cụm từ hiếm e ánh xạ tới một

cụm từ phổ biến f. Trong trường hợp này, phi(e|f) là rất cao, thậm chí có thể bằng 1. Khi

đó, nếu ta gặp lại cụm từ e trong dữ liệu test thì cụm từ dịch sai này hầu như là được sử

dụng để sinh ra xác suất dịch cao nhất. Vì ta có p(e|f) cao, và p(f) cao vì f là một cụm từ

phổ biến.

Như vậy, tốt hơn là ta sử dụng xác suất dịch trực tiếp p(f|e) trong trường hợp như thế.

Trong công thức log-linear, ta có thể biểu diễn xác suất dịch p(e|f), p(f|e) hoặc cả 2 xác

suất dịch đó như các hàm thuộc tính.

Trong thực tế, mô hình sử dụng xác suất dịch theo cả 2 hướng cho kết quả dịch tốt hơn

mô hình dịch theo 1 hướng nào đó.

3.1.2.2 Lexicalized Weighting

Một số cặp cụm từ hiếm có thể dẫn tới nhiều vấn đề, đặc biệt là khi chúng được thu thập

từ dữ liệu bị nhiễu. Nếu cả cụm từ e và f đều chỉ xuất hiện 1 lần thì phi(e|f)=phi(f|e)=1.

Khi đó ta rất khó để xác định được độ tin cậy của một cụm từ hiếm gặp.

Nếu ta phân tích cụm đó ra thành việc dịch các từ trong cụm đó, ta có thể kiểm tra

chúng tương ứng với nhau như thế nào. Việc làm này gọi là đánh trọng số từ vựng

(lexical weighting)

Có nhiều phương pháp đánh trọng số từ vựng khác nhau, hầu hết các phương pháp bắt

nguồn từ các mô hình word-based IBM.

Các cặp cụm từ được sinh ra từ một gióng hàng từ. Với mỗi cặp cụm từ, ta cũng có các

gióng hàng giữa các từ trong cụm từ đó. Dựa trên gióng hàng này, ta có thể tính xác suất

dịch từ vựng của một phrase f với 1 phrase e cho trước là:

Trong công thức này, mỗi từ ei được sinh bởi gióng hàng với các từ fj với xác suất dịch

từ w(ei|fj), (w(ei|fj) được ước lượng từ dữ liệu đã được gióng hàng từ). Nếu 1 từ tiếng

Anh được gióng hàng với nhiều từ tiếng nước ngòai, ta lấy trung bình các xác suất dịch

các từ tương ứng đó. Nếu một từ tiếng Anh không gióng hàng với từ tiếng nước ngòai

nào, thì từ tiếng Anh đó gióng hàng với từ NULL.

Hình 3.1 là một ví dụ minh họa cho phương pháp này.

Trong ví dụ này, phrase tiếng Anh does not assume được ghép cặp với phrase tiếng Đức

geht nicht davon aus. Trọng số từ vựng cho cặp cụm từ này là: w(not|nicht) của từ tiếng

Anh not gióng hàng với từ tiếng Đức nicht; w(does|NULL) do does không gióng hàng

với từ tiếng Đức nào; và assume gióng hàng với 3 từ tiếng Đức geht davon aus, do đó

tham số cho trường hợp này là trung bình của 3 xác suất dịch từ tương ứng.

Hình 3.1: Trọng số từ vựng pw của một cặp phrase (e, f) với gióng hàng a, phân phối

xác suất dịch từ vựng w cho trước. Mỗi từ tiếng Anh phải được giải thích bởi các từ

tiếng nước ngoài sử dụng phân phối w.

Trong thực tế, mô hình có thể được cải thiện chất lượng khi ta sử dụng cả 2 chiều dịch

lex(e|f,a) và lex(f|e,a).

3.2 Mô hình dịch Factored Translation Model

3.2.1 Hạn chế của mô hình dịch thống kê dựa trên đơn vị cụm từ

Do sự thiếu hụt các thông tin ngôn ngữ, mô hình dịch thống kê dựa trên cụm từ vẫn

chưa giải quyết được một số vấn đề như ngữ pháp, khả năng lựa chọn cụm từ với tính

chính xác cao, dịch tên, lượng từ vựng có hạn và việc chuyển đổi cú pháp [16].

1. Hệ thống không có khả năng học để dịch được những từ không xuất hiện trong tập dữ

liệu học vì hệ thống ko có khả năng sinh ra từ đó. Một ví dụ đơn giản như từ “house” có

trong dữ liệu huấn luyện, nhưng từ “houses” thì không dẫn đến trường hợp khi gặp từ

“houses” hệ thống không có khả năng sinh ra từ “houses” từ từ “house” dẫn đến không

dịch được từ này. Đối với những ngôn ngữ có độ biến cách cao, khi lượng dữ liệu học

nhỏ, hệ thống không có thông tin về hình thái từ (morphology) sẽ gặp phải những khó

khăn này.

2. Do sự thiếu hụt thông tin về ngôn ngữ nên hệ thống không có khả năng phân biệt

những ngữ cảnh khác nhau của câu cần dịch, dẫn đến việc không chọn được nghĩa phù

hợp cho một từ có nhiều cách dịch khác nhau. Khi mô hình phrase-based đã học rất

nhiều khả năng dịch khác nhau cho một từ hoặc cụm từ cụ thể, việc lựa chọn cách dịch

nào được quyết định chủ yếu bởi độ phù hợp thông qua xác suất dịch dựa trên dữ liệu

huấn luyện đó chứ không dựa vào các thông tin về ngôn ngữ. Trong thực tế, các yếu tố

ngôn ngữ như thời, phân biệt giống, số, cách, ngôi của câu (case, tense, agreement)

đóng vai trò quan trọng để lựa chọn từ phù hợp trong ngữ cảnh cụ thể.

3. Hệ thống bị giới hạn trong việc học những luật cú pháp đơn giản của 1 cặp ngôn ngữ,

dẫn tới những khó khăn khi xử lý trật tự từ trong quá trình dịch. Ví dụ, một thực tế dễ

nhận thấy là một cụm danh từ tiếng Việt có chuỗi cấu trúc từ loại “danh_từ tính_từ” sẽ

hầu hết tương ứng với chuỗi cấu trúc “tính_từ danh_từ” trong tiếng Anh.

Hiện nay, rất nhiều cách tiếp cận khác ra đời nhằm cải thiện chất lượng của hệ dịch.

Những thông tin về ngữ nghĩa như morphology, syntactic hay semantic đã thể hiện tính

hiệu quả của nó khi được tích hợp vào các bước tiền xử lý hay hậu xử lý của quá trình

dịch. Ví dụ, việc cải thiện chất lượng hệ dịch bằng tiền xử lý hình thái ngôn ngữ Arabic

thông qua stemming hoặc tách bỏ các phụ tố để dịch sang các từ tiếng Anh riêng lẻ [18],

thực hiện reordering words trong câu tiếng Đức trước khi dịch để chúng có thứ tự giống

với thứ tự từ trong câu tiếng Anh [17].

Tuy nhiên, sự tích hợp chặt chẽ thông tin ngôn ngữ vào mô hình dịch (translation model)

vẫn được quan tâm nhiều hơn bởi nó cho phép mô hình hóa trực tiếp những khía cạnh

ngôn ngữ này.

3.2.2 Mô hình dịch máy thống kê có gắn tham số

Mô hình factor-based giải quyết vấn đề trên bằng việc mở rộng mô hình phrase-based

truyền thống, cho phép thêm các lớp thông tin hay còn gọi là các yếu tố (factors) tương

ứng với các từ như morphology, parts of speech, lemmas, … vào trong ngôn ngữ nguồn

và/hoặc ngôn ngữ đích trong quá trình training và decoding (gọi là Factored Translation

Model - FTM) [15].

Dữ liệu song ngữ sử dụng cho quá trình training được gắn thêm các factor như POS và

lemma thể hiện trong ví dụ hình 3.2.

Hình 3.2: Tích hợp thêm các lớp thông tin về lemma, POS vào dữ liệu huấn luyện.

Thay vì mô hình hóa quá trình dịch tương ứng words-words, mô hình kết hợp thêm các

ánh xạ giữa các factors trong ngôn ngữ nguồn và ngôn ngữ đích, và giữa các factors

trong ngôn ngữ đích. Như vậy, chúng ta có thể biểu diễn bằng đồ thị các mô hình khác

nhau thông qua việc thêm các đường kết nối giữa các factors trong hình 3.3.

Hình 3.3: Ánh xạ giữa các factor trong ngôn ngữ nguồn và ngôn ngữ đích

Việc sử dụng các factor đưa ra nhiều lợi ích hơn các phương pháp phrase-based hiện

thời. Đó là:

- Vấn đề về morphology có thể được xử lý tốt hơn bởi dịch thông qua nhiều bước.

- Ngữ cảnh ngôn ngữ học có thể tạo điều kiện tốt hơn cho việc quyết định lựa

chọn giữa nhiều cách dịch khác nhau.

- Việc thêm các factor cho phép người dùng tạo ra nhiều mô hình mới phù hợp

với đặc trưng từng ngôn ngữ.

Các phần nhỏ dưới đây tôi xin đi sâu vào 3 đặc điểm này

3.2.2.1 Xử lý hình thái tốt hơn

Một trong số các hạn chế của mô hình phrase-based truyền thống là việc không có khả

năng dịch những từ biến đổi hình thái không có trong dữ liệu học. Điều này rất cần thiết

khi tập dữ liệu học không đủ lớn và ngôn ngữ nguồn có độ biến đổi hình thái cao.

Do đó, một mô hình lý tưởng giải quyết bài tóan này đó là mô hình dịch ở mức lemmas,

quy các từ biến đổi hình thái về gốc của từ (lemma). Khi đó, quá trình dịch lemma và

morphology được thực hiện tách rời nhau, và các thông tin này sẽ được kết hợp lại ở

phía ngôn ngữ đích để sinh ra output cuối cùng. Mô hình như vậy rất hiệu quả trong

việc dịch từ vựng.

Quá trình dịch các biểu diễn của ngôn ngữ nguồn bằng các factor sang biểu diễn của

ngôn ngữ đích bằng các factor được chia thành một chuỗi các bước ánh xạ (mapping

steps). Đó là bước dịch (translation step) các input factors sang output factors; và

bước sinh (generation step) các target factors từ các target factors đã có.

Một ví dụ mô hình dịch dựa trên các factor như vậy được minh họa như trong hình 3.4.

Hình 3.4: Cấu hình một mô hình dịch factor-based với bước dịch (translation steps)

giữa lemmas và POS+morphology, và bước sinh (generation step) từ

POS+morphology và lemma ra word.

FTM được xây dựng dựa trên nền tảng của phương pháp phrase-based. Một câu được

chia ra thành các phrase, quá trình dịch sẽ dịch tương ứng các phrase này. Đối với mô

hình FTM, tất cả các bước ánh xạ được thực thi trên các phrase này. Trong khi mô hình

phrase-based tính xác suất dịch chỉ thông qua cụm từ p(ewords|fwords), mô hình FMT sử

dụng các xác suất thông qua nhiều thuộc tính hơn, như p(elemma|flemma) và

p(epos+morph|fpos+morph). Bước sinh cũng có thể định nghĩa một cách xác suất là p(ewords|

elemma ,epos+morph), khi đó, cụm từ của ngôn ngữ đích được tính thông qua lemma,

pos+morph là kết quả từ quá trình sinh của ngôn ngữ nguồn sang ngôn ngữ đích.

Trong mô hình phrase-based, các thành phần của mô hình được kết hợp trong mô hình

log-linear. Với mô hình FMT, ngoài các thành phần truyền thống như: mô hình ngôn

ngữ, mô hình reordering, ... mỗi xác suất sinh và xác suất dịch được biểu diễn thành một

feature trong mô hình log-linear.

3.2.2.2 Đưa ra quyết định tốt hơn

Trong trường hợp này, hai xác suất dịch cụm từ là như nhau, mô hình không có khả

năng chọn ra trường hợp dịch đúng nhất. Trong xác suất dịch FMT, chúng ta có thêm

các thông tin ràng buộc. Ví dụ, kết hợp các factors như trong hình 4.5, chúng ta có thể

tính toán xác suất dịch thông qua thông tin về words và POS.

Như vậy, chúng ta có thêm thông tin để phân biệt hai cách dịch này.

3.2.2.3 Các mô hình xác suất mới

Việc giới thiệu các factors cũng cho phép chúng ta mô hình hóa nhiều điều mà chúng ta

không thể mô hình hóa được khi áp dụng các phương pháp dịch phrase-based truyền

thống. Ví dụ, ta có thể tích hợp một mô hình dịch xác suất, thực hiện tính toán trên các

chuỗi nhãn từ loại (POS) p(fpos| epos). Ta có thể ước lượng trực tiếp các xác suất này sử

dụng kỹ thuật tương tự như áp dụng với các phương pháp trích chọn cụm từ trong dịch

máy thống kê. Ngoài việc tính toán các tương ứng phrase-to-phrase sử dụng kỹ thuật

gióng hàng từ, ta có thể tính toán các tương ứng POS-to-POS như ví dụ minh họa trong

hình 3.5.

Hình 3.5: Tương ứng giữa các chuỗi nhãn của từ loại

Sau khi tính toán tất cả các tương ứng POS-to-POS cho tất cả các cặp câu trong corpus,

ta có thể tính được xác suất p(fpos| epos) sử dụng ước lượng hợp lý cực đại (maximum

likelihood estimation).

Điều này cho phép chúng ta nắm bắt được những đặc trưng ngôn ngữ trong khung hình

xác suất đó. Ví dụ, sự khác nhau về thứ tự tính từ - danh từ (ADJ-NN) xuất hiện trong

rất nhiều cặp ngôn ngữ (Anh-Pháp, Anh-Việt, ...) có thể được nắm bắt do mô hình sẽ

gán các xác suất như sau:

p(NN ADJ|JJ NN) > p(ADJ NN|JJ NN)

Do đó, mô hình FMT có thể học được những luật cú pháp đơn giản thông qua mô hình

xác suất học dựa trên dữ liệu huấn luyện.

Hơn nữa, các chuỗi POS tag không chỉ giúp ích cho việc tính toán xác suất dịch như

p(fpos| epos) . Chúng có thể được sử dụng cho việc tính toán xác suất của mô hình ngôn

ngữ p(fpos). Xác suất p(fpos) có thể được tính toán giống như xác suất mô hình ngôn ngữ

n-gram p(fword). Các chuỗi nhãn từ loại có số lượng nhiều hơn chuỗi từ do số lượng nhãn

từ loại nhỏ hơn so với số lượng từ loại trong quá trình huấn luyện. Điều này cho phép ta

có thể tính toán được mô hình n-gram cho POS tag với n lớn hơn (n =6 hoặc 7) so với n

= 3 thường được sử dụng trong mô hình ngôn ngữ tính toán trên đơn vị từ.

Tài liệu tham khảo

[1] Philip Resnik, Noah A. Smith, The Web as a parallel corpus, Computational

Linguistics Volume 29.pp. 349-380. 2003

[2] Van B. Dang, Bao Quoc Ho, “Automatic Construction of English-Vietnamese Parallel Corpus through Web Mining”, Research, Innovation and Vision for the Future (RIVF), IEEE International Conference. pp. 261-266. 2007

[3] Xiaoyi Ma, Dark Y. Liberman, BITS: A method for Bilingual Text Search over the Web, Machine Translation Summit. 1999

[4] Jiang Chen and Jian-Yun Nie, Automatic construction of parallel English-Chinese corpus for cross-language information retrieval., Proceedings of the sixth conference on applied natural language processing. 2000. pp. 21-28.

[5] Tiedemann, Jörg and Lars Nygaard. The OPUS corpus - parallel and free. Proceedings of LREC'04. Vol. IV, pp. 1183-1186. 2004

[6] SF Adafre, M de Rijke, Finding Similar Sentences across Multiple Languages in Wikipedia, Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics, pp. 62-69. 2006

[7] Achim Ruopp; Fei Xia, Finding parallel texts on the web using cross-language information retrieval, Proceedings of the 2nd workshop on Cross Lingual Information Access (CLIA) Addressing the Information Need of Multilingual Societies, 2008.

[8] Jian-Yun Nie, Jian Cai. Filtering noisy parallel corpora of web pages. In Systems, Man, and Cybernetics, 2001 IEEE International Conference on,

�volume Volume 1, pages 453 458, Tucson, AZ, USA, October 2001. [9] I. Dan Melamed. Bitext Maps and Alignment via Pattern Recognition,

Computational Linguistics 25(1), pp.107-130, 1999 [10] Chris Pike and I. Dan Melamed. An automatic filter for non-parallel texts. In

Proceedings of the ACL 2004 on Interactive poster and demonstration sessions, page 6, Morristown, NJ, USA, Association for Computational Linguistics. 2004

[11] Kenji Imamura and Eiichiro Sumita. Bilingual corpus cleaning focusing on translation literality. In Proceeding of 7th International Conference on Spoken Language Processing (ICSLP 2002), pp. 1713-1716, 2002.

[12] Shahram Khadivi and Hermann Ney. Automatic filtering of bilingual corpora for statistical machine translation. In Natural Language Processing and Information

�Systems, volume Volume 3513/2005, pp. 263 274. 2005. [13] Dragos Stefan Munteanu, Daniel Marcu. Improving Machine Translation

Performance by Exploiting Non-Parallel Corpora. Computational Linguistics. Volume 31 , Issue 4. pp 477-504. 2006.

[14] Franz Josef Och, Hermann Ney. "The alignment template approach to statistical machine translation." Computational Linguistics, volume 30, number 4, pages 417-449, 2004, MIT Press

[15] Phillip Koehn, Marcello, Wade Shen, Nicola Bertoldi, Ondrej Bojar, Chris

Callison-Burch, Brooke Cowan, Chris Dyer, Hieu Hoang, Richard Zens,

Alexandra Constantin, Christine Corbett Moran, Evan Herbst, “Open Source

Toolkit for Statistical Machine Translation: Factored Translation Models and

Confusion Network Decoding”, final report of the 2006 Language Engineering

Workshop.

[16] Philipp Koehn, “Challenges in Statistical Machine Translation”, Talk given at PARC, Google, ISI, MITRE, BBN, Univ. of Montreal, 2004

[17] Collins, M., Koehn, P., and Kucerova, I. (2005). “Clause restructuring for statistical machine translation”. In Proceedings of ACL. 2005

[18] Habash, N. and Rambow, O. (2005). “Arabic tokenization, morphological analysis, and part-of-speech tagging in one fell swoop”. In the proceeding of ACL. 2005.

Documents

BÁO CÁO KĨ THUẬT - jaist.ac.jpbao/VLSP-text/Sep2008/SP3_Baocaokithuat2008thang9.pdf · BÁO CÁO KĨ THUẬT SP3 - Hệ dịch Anh-Việt I Khảo sát các nguồn thu thập