64
Contents CHƯƠNG 1 : MỞ ĐẦU....................................3 CHƯƠNG 2 : TỔNG QUAN.................................4 2.1 GIỚI THIỆU BÀI TOÁN GÁN NHÃN NGỮ NGHĨA.........4 2.1.1 PHÁT BIỂU BÀI TOÁN..........................4 2.1.2 VAI TRÒ – TẦM QUAN TRỌNG....................4 2.2 LỊCH SỬ QUÁ TRÌNH NGHIÊN CỨU...................5 2.3 NHỮNG KHÓ KHĂN, THỬ THÁCH......................6 2.4 CÁC HƯỚNG TIẾP CẬN.............................7 2.4.1 CÁCH TIẾP CẬN THEO LUẬT.....................7 2.4.2 CÁCH TIẾP CẬN THEO HƯỚNG NGỮ LIỆU...........8 CHƯƠNG 3 : CƠ SỞ LÝ THUYẾT..........................10 3.1 CƠ SỞ LÝ THUYẾT NGÔN NGỮ HỌC..................10 3.1.1 KHÁI NIỆM VỀ NHÃN NGỮ NGHĨA CỦA TỪ.........10 3.1.2 MỘT SỐ HỆ THỐNG NHÃN NGỮ NGHĨA.............11 3.1.2.1 YÊU CẦU ĐỐI VỚI HỆ THỐNG NHÃN NGỮ NGHĨA 11 3.1.2.2 HỆ THỐNG NHÃN NGỮ NGHĨA LDOCE..........12 3.1.2.3 HỆ THỐNG NHÃN NGỮ NGHĨA LLOCE..........13 3.1.2.4 HỆ THỐNG NHÃN NGỮ NGHĨA WORDNET........15 3.1.2.5 HỆ THỐNG NHÃN NGỮ NGHĨA CORELEX........16 3.1.3 NHẬN XÉT CÁC HỆ THỐNG NHÃN NGỮ NGHĨA LIÊN QUAN................................................ 16 3.1.4 CÁC NGUỒN TRI THỨC CHO GÁN NHÃN NGỮ NGHĨA..17 3.1.4.1 TRI THỨC VỀ TỪ LOẠI....................18 3.1.4.2 TRI THỨC VỀ QUAN HỆ CÚ PHÁP VÀ RÀNG BUỘC NGỮ NGHĨA..........................................18 3.1.4.3 TRI THỨC VỀ NGÔN TỪ....................18

Bai Toan Gan Nhan Ngu Nghia

Embed Size (px)

DESCRIPTION

Bai Toan Gan Nhan Ngu Nghia

Citation preview

Page 1: Bai Toan Gan Nhan Ngu Nghia

Contents

CHƯƠNG 1 : MỞ ĐẦU......................................................................................3

CHƯƠNG 2 : TỔNG QUAN...............................................................................4

2.1 GIỚI THIỆU BÀI TOÁN GÁN NHÃN NGỮ NGHĨA...............................4

2.1.1 PHÁT BIỂU BÀI TOÁN......................................................................4

2.1.2 VAI TRÒ – TẦM QUAN TRỌNG.......................................................4

2.2 LỊCH SỬ QUÁ TRÌNH NGHIÊN CỨU......................................................5

2.3 NHỮNG KHÓ KHĂN, THỬ THÁCH........................................................6

2.4 CÁC HƯỚNG TIẾP CẬN...........................................................................7

2.4.1 CÁCH TIẾP CẬN THEO LUẬT..........................................................7

2.4.2 CÁCH TIẾP CẬN THEO HƯỚNG NGỮ LIỆU..................................8

CHƯƠNG 3 : CƠ SỞ LÝ THUYẾT.................................................................10

3.1 CƠ SỞ LÝ THUYẾT NGÔN NGỮ HỌC.................................................10

3.1.1 KHÁI NIỆM VỀ NHÃN NGỮ NGHĨA CỦA TỪ.............................10

3.1.2 MỘT SỐ HỆ THỐNG NHÃN NGỮ NGHĨA.....................................11

3.1.2.1 YÊU CẦU ĐỐI VỚI HỆ THỐNG NHÃN NGỮ NGHĨA...........11

3.1.2.2 HỆ THỐNG NHÃN NGỮ NGHĨA LDOCE...............................12

3.1.2.3 HỆ THỐNG NHÃN NGỮ NGHĨA LLOCE................................13

3.1.2.4 HỆ THỐNG NHÃN NGỮ NGHĨA WORDNET.........................15

3.1.2.5 HỆ THỐNG NHÃN NGỮ NGHĨA CORELEX..........................16

3.1.3 NHẬN XÉT CÁC HỆ THỐNG NHÃN NGỮ NGHĨA LIÊN QUAN...............................................................................................................................16

3.1.4 CÁC NGUỒN TRI THỨC CHO GÁN NHÃN NGỮ NGHĨA...........17

3.1.4.1 TRI THỨC VỀ TỪ LOẠI............................................................18

3.1.4.2 TRI THỨC VỀ QUAN HỆ CÚ PHÁP VÀ RÀNG BUỘC NGỮ NGHĨA..............................................................................................................18

3.1.4.3 TRI THỨC VỀ NGÔN TỪ..........................................................18

3.1.4.4 TRI THỨC VỀ CHỦ ĐỀ..............................................................19

3.1.4.5 TRI THỨC VỀ TẦN SUẤT NGHĨA CỦA TỪ...........................19

3.1.6 NGỮ LIỆU NGỮ NGHĨA SEMCOR.................................................28

3.1.6.1 GIỚI THIỆU.................................................................................28

Page 2: Bai Toan Gan Nhan Ngu Nghia

3.1.6.2 TỔ CHỨC KHO NGỮ LIỆU.......................................................28

3.1.6.3 THÔNG SỐ THỐNG KÊ.............................................................31

3.2 CƠ SỞ TIN HỌC.......................................................................................31

3.2.1 XÂY DỰNG KHO NGỮ LIỆU..........................................................31

3.2.2 TIÊU CHÍ CHỌN NGỮ LIỆU............................................................32

3.2.3 CHUẨN HÓA NGỮ LIỆU.................................................................33

3.2.3.1 TÁCH TỪ TIẾNG VIỆT..............................................................33

3.2.3.1.1 Giới thiệu...............................................................................33

3.2.3.1.2 Từ điển tiếng Việt (Vietnamese Lexicon).............................34

3.2.3.1.3 vnTockenizer (Tool tách từ Tiếng Việt tự động)...................35

3.2.3.2 Gán nhãn từ loại...........................................................................36

3.2.3.2.1 Giới thiệu...............................................................................36

3.2.3.2.2 Các kĩ thuật gán nhãn từ loại.................................................36

3.2.3.2.3 Các phương pháp gán áp dụng trong gán nhãn từ loại..........37

3.2.3.2.4 Công cụ JvnTagger (..............................................................40

CHƯƠNG 4 : MÔ HÌNH THUẬT TOÁN........................................................41

4.1 Mô hình đề xuất cho xây dựng bộ ngữ liệu ngữ nghĩa...............................41

4.1.1 Dịch từ ngữ liệu SemCor.....................................................................41

4.1.2 Sử dụng ngữ liệu song ngữu Anh – Việt.............................................41

4.2 Tìm kiếm ngữ liệu song ngữ.......................................................................41

4.2.1 Xây dựng dữ liệu thô...........................................................................41

4.2.2 Tách từ.................................................................................................41

4.2.3 Gán nhãn từ loại (Pos Tagger).............................................................41

4.2.4 Liên kết từ............................................................................................41

4.2.5 Gán nhãn ngữ nghĩa cho tiếng Anh.....................................................41

4.2.6 Xây dựng bộ nhãn ngữ nghĩa...............................................................41

CHƯƠNG 5 : THIẾT KẾ CÀI ĐẶT.................................................................42

CHƯƠNG 6 : KẾT QUẢ - ĐÁNH GIÁ............................................................43

Page 3: Bai Toan Gan Nhan Ngu Nghia

CHƯƠNG 1 : MỞ ĐẦU

Page 4: Bai Toan Gan Nhan Ngu Nghia

CHƯƠNG 2 : TỔNG QUAN

2.1 GIỚI THIỆU BÀI TOÁN GÁN NHÃN NGỮ NGHĨA

2.1.1 PHÁT BIỂU BÀI TOÁN

Trong hầu hết các ngôn ngữ, có rất nhiều từ mang những sắc thái ý nghĩa khác nhau nếu đặt trong các ngữ cảnh khác nhau. Ngữ nghĩa của một từ phụ thuộc vào ngữ cảnh xuất hiện của từ đó. Từ thực tế này, nhu cầu gán nhãn ngữ nghĩa được đặt ra với mục đích tìm kiếm một cơ chế tự động, dựa trên ngữ cảnh xung quanh một từ đa nghĩa và chỉ ra được ý nghĩa phù hợp nhất của nó.

Bài toán có thể được mô tả như sau:

Input: Một chuỗi các từ và tập nhãn từ loại:

“Chi_phí/NN sửa_chữa/VB những_thiệt_hại/NN sẽ/MD lớn/JJ hơn_nhiều/RB so_với/IN chi_phí/NN để/TO bảo_vệ/VB nó/PRP”.

Output: Một nhãn ngữ nghĩa tốt nhất cho từng từ trong chuỗi đã được đưa ra:

Chi_phí/NN/13275847 sửa_chữa/VB/00260648 những_thiệt_hại/NN/07420770 sẽ/MD lớn/JJ/01386883 hơn_nhiều/RB so_với/IN chi_phí/NN/13275847 để/TO bảo_vệ/VB/01128193 nó/PRP .

Trong đó các số đi kèm chính là các offset của từ tương ứng trong dữ liệu WordNet.

Từ bài toán này, ta xây dựng nên hai bài toán con như sau:

Xây dựng bộ ngữ liệu ngữ nghĩa cho tiếng Việt, tương tự bộ ngữ liệu ngữ nghĩa tiếng Anh (SemCor)[tltk].

Áp dụng học có giám sát trên bộ ngữ liệu vừa thu được. Từ đó đưa ra sử dụng trên một câu tiếng Việt bất kì.

2.1.2 VAI TRÒ – TẦM QUAN TRỌNG

Có thể xem việc xác định đúng nghĩa cử từ là một vấn đề trung tâm của mọi hệ xử lý ngôn ngữ tự nhiên. Hiệu quả làm việc của bộ phận xác định nghĩa của từ có một ảnh hưởng rất lớn đến chất lượng thực hiện của một hệ xử lý ngôn ngữ tự nhiên.

Rõ ràng, để gán ngữ nghĩa cho một từ, ta cần phải phân tích ngữ cảnh của nó. Vấn đề đặt ra ở đây là làm sao lập trình cho máy tính hiểu được ngữ cảnh đó. Đây chính là một trong hai bài toan cơ bản, đầy thử thách của xử lý ngôn ngữ tự nhiên. Về bản chất, gán nhãn ngữ nghĩa chỉ là một bài toán trung chuyển, chứ không thật sự là nền tảng của một ứng dụng xử lý ngôn ngữ tự nhiên cụ thể nào. Tuy nhiên, đây lại là một bước cần thiết không thể bỏ qua trong các ứng dụng liên quan đến ngôn ngữ tự nhiên:

Page 5: Bai Toan Gan Nhan Ngu Nghia

Rút trích thông tin tự động: Với yêu cầu thu thập các văn bản liên quan đến một vấn đề cụ thể nào đó, chúng ta cần biết nghĩa của những từ khóa sử dụng để tìm kiếm. Bài toán đặt ra ở đây là cần phải có sự khử nhập nhằng, gán ngữ nghĩa cho các từ này để hạn chế rút trích ra những thông tin không liên quan đến chủ đề mà ta quan tâm. Ví dụ: khi ta sử dụng từ khóa “đường, ngọt” để tìm kiếm thì hệ thống cần phải hiểu được rằng “đường” ở đây mang sắc thái ý nghĩa “đường ăn” chứ không phải là công trình giao thông - “đường đi”.

Xử lý văn bản tự động: Khi hệ thống tiến hành kiểm tra lỗi chính tả, ngữ pháp thì việc gán nhãn ngữ nghĩa cũng đóng vai trò quan trọng. Ví dụ: Khi hệ thống chuẩn hóa văn bản thô, “CON TRAI ÔNG CỐC LÊN DỐC BẮN CÒ” và “CÁI CỐC BỊ VỠ” sẽ được chuẩn hóa tương ứng thành “Con trai ông Cốc lên dốc bắn cò” và “Cái cốc bị vỡ”.

Dịch máy tự động: Gán ngữ nghĩa cho từ là một vấn đề thiết yếu của những hệ thống dịch tự động do các từ đa nghĩa trong ngôn ngữ nguồn có thể được dịch sang nhiều cách khác nhau ở ngôn ngữ đích. Ví dụ: khi dịch từ tiếng Anh sang tiếng Việt, từ “plant” có thể được dịch là “nhà máy” hay “thực vật” tùy vào ngữ cảnh tương ứng.

Tổng hợp và nhận dạng tiếng nói: Để máy có thể phát âm chính xác thì việc gán nhãn ngữ nghĩa là hết sức cần thiết. Đối với nhận dạng tiếng nói, việc gán ngữ nghĩa cũng góp phần trong việc phân đoạn từ và phân biệt từ đồng âm khác nghĩa.

2.2 LỊCH SỬ QUÁ TRÌNH NGHIÊN CỨU

Xử lý nhập nhằng - gãn nhãn ngữ nghĩa là một trong những bài toán đầu tiên được quan tâm và thu hút rất nhiều công trình nghiên cứu từ giới chuyên môn. Trong một công trình có từ năm 1949, Weaver thảo luận sự cần thiết phải xác định nghĩa đúng của từ và định ra những bước cơ bản trong khử nhập nhằng – gán nhãn ngữ nghĩa (Xem thêm trong [13]). Ông nói rằng: Nếu một ai đó xem xét từng từ một trong một quyển sách thì rõ ràng người đó không thể xác định được nghĩa của tất cả các từ. Ông cũng cho rằng nếu như mở rộng vùng xem xét xung quanh từ đó thì không những xác định được nghĩa của từ đó mà còn có thể xác định thêm được nghĩa của những từ xung quanh nữa. Nhưng vùng xung quanh đó có kích thước cửa sổ xem xét là bao nhiêu ?

Năm 1950, một thí nghiệm nổi tiếng do Kaplan thực hiện nhằm tìm câu trả lời cho câu hỏi nêu trên. Kaplan dùng 7 từ để xem xét, và vùng cửa sổ xung quanh xem xét được thay đổi từ một đến hai từ mỗi bên của từ cần xem xét. Kaplan quan sát rằng độ phân giải nghĩa được đưa 2 từ trên mỗi bên của từ xem xét không tốt hơn cũng như không tệ hơn khi đưa toàn bộ câu.

Tuy vậy, trong giới chuyên môn vẫn có ý kiến cho rằng việc khử nhập nhằng ngữ nghĩa là không khả thi; điển hình là báo cáo của Bar – Hiller (ALPAC, 1996). Trong báo cáo này, Bar – Hiller chỉ ra những trường hợp không thể xác định ngữ nghĩa của từ đa nghĩa một cách tự động với những hướng tiếp cận lúc bấy giờ. Kết quả

Page 6: Bai Toan Gan Nhan Ngu Nghia

của báo cáo đó là hầu hết các nghiên cứu liên quan đến lĩnh vực xử lý ngôn ngữ tự nhiên sau đó đều bị bỏ dở.

Mặc dù vậy, trong khoảng thời gian đó biểu diễn tri thức lại có những bước tiến đáng kể, đáng chú ý nhất là việc hình thành, xây dựng những mạng ngữ nghĩa lớn (semantic networks). Bước tiến đáng kể đó đã thúc đẩy trở lại hoạt động nghiên cứu xử lý ngôn ngữ tự nhiên, mà điển hình là bài toán xử lý nhập nhằng ngữ nghĩa.

Trong khoảng hai thập kỷ tiếp theo, hầu hết các nghiên cứu khử nhập nhằng ngữ nghĩa vẫn chỉ giới hạn trong các mô hình trí tuệ nhân tạo với trí thức do người đưa vào dưới dạng các tập luật. Do đó, những mô hình khử nhập nhằng ngữ nghĩa trong thời điểm này vẫn còn rất hạn chế và chỉ hoạt động tốt trong phạm vi một số mẫu câu nhất định, cụ thể nào đấy.

Đến những năm 90, cùng với sự bùng nổ của công nghệ thông tin, các tài liệu, văn bản điện tử xuất hiện ngày càng đã hỗ trợ rất nhiều cho những nghiên cứu về xử lý

nhập nhằng ngữ nghĩa – hướng tiếp cận đến bài toán này đã chuyển từ hướng luật

sang hướng ngữ liệu và đạt được nhiều bước tiến khả quan. Cũng trong khoảng thời gian này, các vấn đề khác của ngôn ngữ tự nhiên có liên quan trực tiếp đến gán nhãn

ngữ nghĩa như tách câu, đối sánh văn bản song ngữ, gán nhãn ngữ pháp, phân tích cấu

trúc ngữ pháp cũng đã được nghiên cứu và giải quyết khá hoàn chỉnh. Dựa trên nền tảng đó, từ những năm 90 cho tới gần đây, xử lý nhập nhằng, gán nhãn ngữ nghĩa hiện là bài toán trọng tâm thu hút rất nhiều các công trình nghiên cứu.

2.3 NHỮNG KHÓ KHĂN, THỬ THÁCH

Bài toán gãn nhãn ngữ nghĩa ở Việt Nam vẫn còn đang thực hiện ở mức khiêm tốn, do những khó khăn thử thách trong việc xử lý nhập nhằng ngữ nghĩa bao gồm:

Ngữ nghĩa của một từ vẫn chưa có một định nghĩa rõ ràng. Để định nghĩa các sắc thái ý nghĩa của một từ, ta thường tiếp cận theo hướng từ điển. Tuy vậy, bản thân các từ điển cũng chưa nhất quán với nhau do phạm vi của ngôn ngữ quá rộng lớn.

Giữa các sắc thái ý nghĩa của cùng một từ đôi khi không có ranh giới rõ ràng để phân biệt, ví dụ như từ đi có các sắc thái ý nghĩa sau:

Dịch chuyển bằng hai chi dưới. Ví dụ như: tôi đi rất nhanh nhưng vẫn không đuổi kịp anh ấy.

Một người nào đó đã chết. Ví dụ như: Anh ấy ra đi mà không kịp nói lời nào.

Hai sắc thái ý nghĩa (1) và (2) thật sự khó phân biệt nếu không đặt trong một ngữ cảnh cụ thể và rõ ràng. Những sắc thái ý nghĩa như vậy chỉ có thể được phân biệt dựa vào việc phân tích ngữ dụng (pragmatic use) nhưng bản thân ngữ dụng thì lại thường thay đổi và không nhất quán.

Page 7: Bai Toan Gan Nhan Ngu Nghia

Ngữ liệu dùng cho gán nhãn ngữ nghĩa còn quá ít. Đây là một trong những vấn đề chính còn tồn tại, khiến cho việc tiếp cận bài toán gán nhãn ngữ nghĩa còn nhiều khó khăn. Vấn đề gán nhãn ngữ nghĩa nói cho cùng chính là việc đi sâu

vào bản chất của ngôn ngữ (nature of language). Để có thể nắm bắt được dù

chỉ phần nào bản chất của ngôn ngữ, chúng ta vẫn cần phải có một lượng rất

lớn ngữ liệu huấn luyện. Tất nhiên, việc thu thập một lượng lớn tài nguyên thô

hiện nay không khó nhưng để gán nhãn ngữ nghĩa hoàn chỉnh cho lượng tài nguyên khổng lồ đó thì lại đòi hỏi rất nhiều công sức.

Bên cạnh đó, ngoài kiến thức tin học, công việc xử lý ngữ nghĩa cũng cần phải có những kiến thức về ngôn ngữ học. Những kiến thức này hỗ trợ cho việc tìm mối quan hệ giữa cú pháp và ngữ nghĩa, mối quan hệ giữa các nghĩa, sự phân loại…

Những khó khăn trên đã đem đến rất nhiều trở ngại cho bài toán gán nhãn ngữ nghĩa. Cho đến nay, có thể nói vẫn chưa có cách tiếp cận nào cho ra một kết quả hoàn chỉnh. Hầu hết các công trình liên quan vẫn chỉ dừng lại ở mức thí nghiệm do thiếu dữ liệu huấn luyện. Tuy nhiên, những công trình nghiên cứu đó cũng đóng góp rất nhiều ý tưởng quan trọng và phần nào giải quyết được bài toán khử nhập nhằng ngữ nghĩa (dù chưa hoàn chỉnh). Trước tình hình phát triển hiện nay của công nghệ thông tin, chúng ta hoàn toàn có quyền hi vọng là những khó khăn nói trên sẽ dần dần được giải quyết để xây dựng mô hình xử lý gán nhãn ngữ nghĩa.

2.4 CÁC HƯỚNG TIẾP CẬN

2.4.1 CÁCH TIẾP CẬN THEO LUẬT

Đây là hướng tiếp cận đầu tiên nhằm khử nhập nhằng ngữ nghĩa được xây dựng

dựa trên cơ sở của các phương pháp trí tuệ nhân tạo - là các kỹ thuật chuyển giao tri

thức của con người cho máy tính, thường được thể hiện dưới dạng tập luật. Vào đầu

thập niên 60, những kỹ thuật chuyển giao tri thức cho máy tính được nghiên cứu áp dụng rất nhiều trong các ứng dụng máy tính thông minh. Một trong số các ứng dụng đó là vấn đề chuyển giao tri thức ngôn ngữ cho máy tính. Từ mục đích ban đầu là

nhằm giúp máy tính hiểu được ngôn ngữ của con người, nhằm phát triển khả năng giao

tiếp giữa máy tính - con người, bài toán xử lý nhập nhằng, gán nhãn ngữ nghĩa dần dần

được hình thành sau nhiều công trình nghiên cứu.

Đây là cách tiếp cận truyền thống xuất phát từ cách làm của các hệ luật phát sinh trong hệ chuyên gia trong lĩnh vực trí tuệ nhân tạo (AI = Artificial Intelligence).

Thông thường các hệ luật này được xây dựng bằng tay bởi các chuyên gia xử lý ngôn ngữ tự nhiên. Việc xây dựng một hệ luật như thế đòi hỏi công sức rất lớn và

thường không bao quát hết mọi trường hợp, mặc dù, trong một số miền hẹp thì chúng tỏ ra hiệu quả.

Vấn đề thực sự nảy sinh khi chúng ta cần mở rộng quy mô để bao quát hết các hiện tượng của ngôn ngữ. Ban đầu, các nhà chuyên môn cho rằng để mở rộng quy mô

Page 8: Bai Toan Gan Nhan Ngu Nghia

của hệ khử nhập nhằng ngữ nghĩa thì ta cứ việc thêm nhiều luật vào; nhưng, thực tế

đã cho thấy khi số luật tăng lên thì bản thân người thiết kế sẽ khó mà kiểm soát được tính hợp lý và tương thích của các bộ luật do mình đưa vào vì thế, sẽ xuất hiện nhiều luật mâu thuẫn nhau. Kết quả là những hệ thống gán nhãn ngữ nghĩa được xây dựng trên luật sẽ có nguy cơ bị sụp đổ bởi chính sức nặng của chúng.

2.4.2 CÁCH TIẾP CẬN THEO HƯỚNG NGỮ LIỆU

Do những hạn chế của cách tiếp cận dựa trên luật nói trên, nên trong những năm gần đây, các nhà ngôn ngữ học - máy tính trên thế giới đã chuyển sang cách tiếp cận

hướng ngữ liệu. Sự chuyển hướng này cũng xuất phát từ việc ra đời các kho ngữ liệu lớn trên thế giới cùng với sự gia tăng sức mạnh (bộ nhớ, tốc độ, kỹ thuật) của máy tính trong thập niên gần đây. Điểm đặc biệt của cách tiếp cận này là dựa trên cơ sở lý thuyết ngôn ngữ học để học các quy luật của ngôn ngữ tự nhiên từ ngữ liệu.

Trong cách tiếp cận này, máy tính cần có ngữ liệu rất lớn dạng văn bản đơn ngữ, song ngữ hay dạng từ điển (LLOCE, LDOCE, WordNet). Đặc điểm của cách tiếp cận này là nó tự rút ra các quy luật của ngôn ngữ. Nó có những ưu điểm của cách tiếp cận dựa trên luật và đồng thời tránh được những khuyết điểm của việc xây dựng luật thủ công bởi các chuyên gia. Các luật rút ra lại được thử nghiệm tại chỗ để đánh giá độ chính xác (dựa trên ngữ liệu huấn luyện), chính vì thế các luật rút ra tương đối chính xác, bao quát và không mâu thuẫn.

Các phương pháp xử lý gán nhãn ngữ nghĩa hướng ngữ liệu thường được phân loại dựa trên cách thức tiếp cận bản chất ngôn ngữ của chúng là có giám sát hay không có giám sát (supervised or unsupervised learning). Với cách tiếp cận có giám sát, chúng ta cần một kho ngữ liệu được gán nhãn ngữ nghĩa hoàn chỉnh (thường là phải chuẩn bị bằng tay), từ đó tiến hành học mẫu để nhận biết và phân loại. Với cách tiếp cận không giám sát, quy trình học có thể được hình dung như một quá trình gom nhóm các mẫu học từ ngữ liệu thô chưa được gán nhãn để từ đó rút ra tri thức.

Một cách phân loại khác dựa trên bản chất tài nguyên sử dụng trong quá trình học máy là hướng ngữ liệu hay hướng từ điển (corpus-based or dictionary-based). Với các cách tiếp cận hướng từ điển, tài nguyên thường được sử dụng là các thể học (ontology) như MRD (machine readable dictionary – LLOCE, LDOCE), WordNet. Nguyên tắc của các cách tiếp cận này nói chung là dựa trên mối liên hệ ngữ nghĩa

(synonym, hypernym, hyponym, …) giữa các từ để xây dựng bộ luật hướng ngữ cảnh.

Nói chung thì các phương pháp kể trên đều có ưu điểm và khuyết điểm. Đối với

hướng học có giám sát thì ưu điểm là có thể tận dụng rất nhiều mô hình học (có giám

sát) tổng quát được phát triển và ứng dụng với độ chính xác cao (khảo sát qua thực

nghiệm) và khuyết điểm là nó đòi hỏi một lượng lớn ngữ liệu không những phải gán

nhãn hoàn chỉnh mà còn phải được chọn lọc tinh tế cho mục đích sử dụng (ngữ liệu

phải phân bố đều để tránh tình trạng dữ liệu thưa (spareness) ảnh hưởng đến chất

lượng học mẫu).

Page 9: Bai Toan Gan Nhan Ngu Nghia

Đối với hướng học không giám sát thì lợi thế là không phải mất nhiều công sức

để tinh chế dữ liệu nhưng bù lại thì các mô hình học không giám sát thường bị ảnh

hưởng nhiều bởi nhiễu (do thuần túy dựa trên lý thuyết xác suất) và cho kết quả thấp hơn so với các mô hình có giám sát.

Đối với phương pháp học hướng từ điển thì lợi điểm là tài nguyên sử dụng tinh

chế, cô đọng dễ sử dụng, giàu thông tin nhưng cách tiếp cận này bất lợi ở chỗ các thể

học dùng trong hướng tiếp cận này bị hạn chế (vì mục đích của các loại tài nguyên này chỉ nhằm cung cấp một nguồn tri thức tham khảo) nên không đủ để bao quát bản chất ngôn ngữ. Cụ thể là chúng ta chỉ có thể tiếp cận thông tin ở mức từ vựng và mối liên hệ giữa chúng mà bỏ qua những thông tin ở mức cao hơn (cụm từ, ngữ, câu, …) nên

kết quả thực thi thường không được như mong đợi.

Nói tóm lại, trong các hướng tiếp cận gần đây, mô hình phổ biến là kết hợp nhiều loại tài nguyên khác nhau để nâng cao hiệu quả. Nguyên tắc là thay vì tìm kiếm

những mô hình phù hợp với một loại tài nguyên nào đấy thì người ta tìm cách thiết kế,

cải tiến các mô hình nhằm tích hợp nhiều loại tài nguyên khác nhau để có được chất

lượng tốt nhất. Thông thường, các hệ thống khử nhập nhằng ngữ nghĩa tự động

thường học từ dữ liệu thô (không có nhãn ngữ nghĩa) do ngữ liệu tinh chế không nhiều

mà lại khá đắt. Trong các hệ thống như vậy, để nâng cao độ chính xác, người ta

thường sử dụng thông tin bổ sung từ các thể học như MRD (LLOCE, LDOCE),

WordNet, ngữ liệu song ngữ (đã được đối sánh ở mức câu) để hạn chế bớt nhiễu trong quá trình học không giám sát.

Page 10: Bai Toan Gan Nhan Ngu Nghia

CHƯƠNG 3 : CƠ SỞ LÝ THUYẾT

3.1 CƠ SỞ LÝ THUYẾT NGÔN NGỮ HỌC

3.1.1 KHÁI NIỆM VỀ NHÃN NGỮ NGHĨA CỦA TỪ

Ngữ nghĩa học (Semantics) là khoa học nghiên cứu mối quan hệ giữa hình thức biểu đạt và cái được biểu đạt (ý nghĩa) về mặt đồng đại và lịch đại. Ngữ nghĩa học nghiên cứu giá trị từ do sự đồng thời có mặt của các từ khác trong hệ thống tiếng nói quyết định. Thông qua việc khảo sát ý nghĩa của mỗi từ thực, ta thấy về cơ bản thì mỗi từ có thể mang nhiều sắc thái ý nghĩa khác nhau tùy thuộc vào ngữ cảnh sử dụng của chúng. Chẳng hạn, danh từ “bank” trong tiếng Anh có thể là “ngân hàng”, hoặc “bờ sông” hay “dãy”; danh từ “plant” trong tiếng Anh có thể là “thực vật” hay “nhà máy”.

Để dễ phân biệt các ngữ nghĩa từ vựng khác nhau, các nhà ngữ nghĩa học, từ vựng học và tâm lý học – ngôn ngữ đã phân chia toàn bộ các ý nghĩa từ vựng có thể có

thành hệ thống các ý niệm (cây ý niệm – ontology) và mỗi ý niệm như vậy được coi

như là một nhãn ngữ nghĩa của từ. Chúng ta có thể lấy ví dụ với danh từ “plant”, sắc thái ý nghĩa “thực vật” sẽ thuộc nhóm ý niệm “sự sống” còn sắc thái ý nghĩa “nhà máy” sẽ thuộc nhóm ý niệm “máy móc, thiết bị”.

Về mặt tổ chức, từ điển nhãn ngữ nghĩa có tổ chức khác hẳn so với cách tổ chức

quen thuộc của các từ điển thông thường, vốn chỉ chú trọng đến tính hợp lý và chặt

chẽ về mặt hình thức (hình thái) nhưng lại bỏ qua tính hợp lý về mặt nội dung (ngữ

nghĩa) và cũng không phù hợp với tư duy ngôn ngữ của con người. Ví dụ, với tổ chức

của từ điển thông thường (đơn ngữ hay song ngữ), các từ được sắp xếp theo thứ tự ABC của mục từ, chính vì vậy mà hai mục từ “animals” (động vật) và “zoo” (sở thú),

hay “aunt” (cô / dì) và “uncle” (chú / bác) được đặt ở vị trí rất xa nhau, không phản

ánh được mối liên hệ tương đồng về mặt ngữ nghĩa.

Theo Đinh Điền,[4] Qua thực nghiệm, các nhà ngôn ngữ - tâm lý học đã chỉ ra

rằng khi đưa ra một từ kích thích, ví dụ như “aunt”, thì đa số đều cho biết trong đầu họ

nghĩ đến từ “uncle” trước nhất, điều này chứng tỏ rằng : ngay lời nói bên trong của chúng ta, thì hai từ đó đã có quan hệ gắn kết với nhau. Đây cũng chính là nền tảng lý luận về ngữ nghĩa từ vựng mà các nhà làm từ điển phân lớp ý niệm đã dựa vào khi xây dựng các hệ thống phân lớp ngữ nghĩa và gán nhãn ngữ nghĩa cho các lớp đó.

Hệ thống các ý niệm (concept) này sẽ là chung nhất cho mọi ngôn ngữ, vì hệ

thống các ý niệm này được xây dựng dựa trên sự phân chia của thế giới khách quan.

Trong khi đó, ngôn ngữ là công cụ của tư duy, mà tư duy là sự phản ánh hình ảnh của thế giới khách quan. Chẳng hạn : khái niệm “người chồng” trong tất cả các ngôn ngữ

chắc chắn sẽ phải được xây dựng dựa trên các cơ sở ý nghĩa “người nam”, “người đã trưởng thành”, “có gia đình”, “có vai trò là chồng trong quan hệ với vợ”. Nghĩa là cái

biểu đạt trong các ngôn ngữ là khác nhau nhưng cái được biểu đạt thì như nhau. Vì ý

Page 11: Bai Toan Gan Nhan Ngu Nghia

niệm và từ không trùng nhau nên hệ thống ý niệm này có thể được sử dụng cho mọi ngôn ngữ.

Kết quả nghiên cứu về phổ quát ngôn ngữ cũng cho thấy : một số phổ quát ngôn

ngữ là từ các hiện tượng tâm lý – ngôn ngữ học, phụ thuộc vào mối quan hệ giữa

ngôn ngữ và tư duy của con người. Một số phổ quát ngôn ngữ khác lại là những hiện

tượng về dân tộc – ngôn ngữ học, phụ thuộc vào mối quan hệ giữa ngôn ngữ và văn hóa. Các nhà nghiên cứu chia phổ quát ngôn ngữ thành hai dạng sau đây :

Các phổ quát về thực thể : là những nét chung về sự tổ chức các thực thể ngôn ngữ. Chẳng hạn, mọi ngôn ngữ đều tồn tại các phạm trù danh từ và động từ, nó là cơ sở để biểu hiện cấu trúc chìm của câu trong mọi ngôn ngữ.

Các phổ quát về dạng thức : chẳng hạn, ngữ pháp tạo sinh coi rằng bộ phận cơ sở của cú pháp trong mọi ngôn ngữ thì giống nhau.

Ngoài các phổ quát ngôn ngữ về ngữ âm, ngữ pháp, ngữ nghĩa là những phổ quát

chỉ đề cập tới một phương diện ký hiệu hoặc tới cái biểu đạt hoặc tới cái được biểu

đạt, người ta còn chú ý tới các phổ quát ngôn ngữ về ký hiệu, chúng đề cập tới cái

quan hệ giữa cái biểu đạt và cái được biểu đạt.

Trong “Giáo trình ngôn ngữ học đại cương” của Ferdinand de Saussure đã chỉ ra

hai dạng quan hệ: ngang (tuyến tính, hình tuyến, ngữ đoạn) và dọc (hệ hình). Tương

ứng với quan hệ ngang có trường nghĩa tuyến tính và trường nghĩa biểu niệm. Trường

nghĩa biểu vật là tập hợp tất cả những từ đồng nghĩa và ý nghĩa biểu vật, còn trường nghĩa biểu niệm là tập hợp tất cả các từ có chung cấu trúc biểu niệm.

3.1.2 MỘT SỐ HỆ THỐNG NHÃN NGỮ NGHĨA

3.1.2.1 YÊU CẦU ĐỐI VỚI HỆ THỐNG NHÃN NGỮ NGHĨA

Nếu như các hệ thống nhãn từ pháp đã được thống nhất và xác định rõ ràng trong các ngôn ngữ (ví dụ, hệ thống nhãn từ pháp Penn Tree Bank (xem Phụ lục A)

của tiếng Anh được dùng phổ biến nhất hiện nay), thì ngược lại, việc xây dựng hệ

thống nhãn ngữ nghĩa cho đến này vẫn chưa hoàn tất và vẫn đang tồn tại rất nhiều hệ thống nhãn khác nhau. Các hệ thống nhãn được xay dựng tùy thuộc vào yêu cầu của từng công việc và mức độ khử nhập nhằng của các công trình tương ứng. Tóm lại, hệ thống nhãn ngữ nghĩa áp dụng cho mô hình gán nhãn – khử nhập nhằng ngữ nghĩa cần đáp ứng tiêu chí: không quá mịn cũng như không quá thô, nhưng phải đủ để xác định các nghĩa khác nhau cho các từ.

Một hệ thống nhãn phan giải quá chi tiết (quá mịn) làm cho việc xây dựng ngữ liệu cực kỳ khó khăn. Trong quá trình huấn luyện, để đạt được kết quả tốt thì mỗi nhãn cần có vài trăm lần xuất hiện. Với hệ thống nhãn quá mịn (WordNet 1.7.1 có 195817 nghĩa khác nhau) mỗi nhãn cho một nghĩa, khi đó ngữ liệu sẽ cần đến hàng tỷ từ, không thể gán nhãn tự động được. Việc xây dựng ngữ liệu này cũng là một việc gần

như không thể(1). Còn nếu hệ thống nhãn phân quá thô thì nó lại không đáp ứng được

Page 12: Bai Toan Gan Nhan Ngu Nghia

một số nhu cầu phần biệt ngữ nghĩa trong thực tế (chẳng hạn, nhu cầu khử mơ hồ

trong những trường hợp cùng nhãn ngữ nghĩa nhưng có ý nghĩa từ vựng khác nhau).

Đến nay, đã có một số hệ thống phân lớp như trên: từ điển LLOCE/LDOCE, WordNet, CoreLex… Trong các phần sau, ta sẽ khảo sát một số hệ thống nhãn ngữ nghĩa thông dụng hiện nay.

(1) Xây dựng ngữ liệu dành cho công việc khử nhập nhằng ngữ nghĩa đòi hỏi rất nhiều công sức và thời gian. Nó đòi hỏi phải cung cấp đầy đủ các thông tin chính xác : từ gốc, từ loại, cú pháp, và nhãn ngữ nghĩa.

3.1.2.2 HỆ THỐNG NHÃN NGỮ NGHĨA LDOCE

LDOCE (Longman Dictionary Of Contemporary English) gồm 45,000 mục từ

với hơn 65,000 nghĩa. Mỗi mục từ được phân biệt dựa trên mã từ loại, mã cú pháp, mã

ngữ nghĩa, mã chủ đề, mã phong cách. LDOCE gồm 100 chủ đề chính, như : MD – y

học, VH – xe cộ, ON – nghề nghiệp, … Các chủ đề chính có thể được kết hợp với

nhau tạo ra các chủ đề con, như MDON – nghề nghiệp / y học.

LDOCE gồm 19 mã ngữ nghĩa cơ bản và 13 mã ngữ nghĩa phát sinh được kết hợp từ 19 mã ngữ nghĩa cơ bản trên. Cụ thể, chúng ta có bảng mô tả 32 lớp như sau :

STT Mã ngữ nghĩa cơ bản STT Mã ngữ nghĩa phát sinh1. A – Con vật (animal) 20. E – Chất rắn / lỏng (S+L)2. B – Con vật cái (female animal) 21. K – Người / Con vật đực (D+M)3. C – Vật cụ thể (concrete) 22. O – Người / Con vật (A + H)4. D – Con vật đực (male animal) 23. R – Người / Con vật cái (B + F)5. F – Người nữ (female human) 24. U – Tập hợp người / Con vật (Col. +

O)6. G – Khí (gas) 25. V – Thực vật / Con vật ( P + A)7. H – Người (human) 26. W – Vật cụ thể / trừu tượng (T + I)8. I – Vật cụ thể không có sự sống 27. X – Vật trừu tượng / Người (T + H)9. J – Vật rắn di chuyển được 28. Y – Vật trừu tượng / có sự sống (T +

Q)10. L – Chất lỏng (liquid) 29. 1 – Người / Chất rắn (H + S)11. M – Người nam (male human) 30. 2 – Trừu tượng / Chất rắn (T + S)12. N – Vật rắn không di chuyển

được31. 6 – Chất lỏng / Trừu tượng (L + T)

13. P – Thực vật (plant) 32. 7 – Chất khí / Chất lỏng (G + L)14. Q – Có sự sống (animate)15. S – Chất rắn (solid)16. T – Trừu tượng (abstract)17. Z – Không đánh dấu

(unmarked)18. 4 – Vật thể trừu tượng (abs

physic)19. 5 – Chất hữu cơ (organic

material)

Page 13: Bai Toan Gan Nhan Ngu Nghia

Bảng 1: Bảng mã ngữ nghĩa của LDOCE

Các mã ngữ nghĩa nói trên có thể được sắp xếp theo cây phân cấp sau:

Hầu hết các ngữ nghĩa của danh từ đều mang mã ngữ nghĩa và các mã ngữ nghĩa

này được dùng để phân lớp ngữ nghĩa cho danh từ. Đối với động từ và tính từ, các mã

ngữ nghĩa này sẽ được dùng để làm tiêu chí chọn ngữ nghĩa cho các đối số (các vai) của các động từ hay tính từ đó. Ví dụ : động từ “ăn” cần có danh từ ở vai chủ thể là

người / hay con vật (mã O), hay danh từ mà được tính từ “màu xanh” bổ nghĩa phải là danh từ thuộc vật cụ thể (mã C), …

Mục từ Số nghĩa Mức đa nghĩaDanh từ 23,800 37,500 1.6Động từ 7,921 15,831 1.9Tính từ 6,992 11,371 1.6Tổng cộng 38,643 64,702 1.7

Bảng 2: Thống kê số lượng mức từ, nghĩa của các từ loại trong LDOCE

3.1.2.3 HỆ THỐNG NHÃN NGỮ NGHĨA LLOCE

LLOCE (Longman Lexicon Of Contemporary English) (xem Phụ lục B) là một

từ điển ý niệm được xây dựng dựa trên từ điển ý niệm LDOCE. Từ điển LLOCE

không sắp xếp các mục từ tiếng Anh theo mẫu tự ABC thông thường, mà sắp xếp

thành các chủ đề, mỗi chủ đề được chia thành nhiều nhóm, mỗi nhóm được chia thành nhiều lớp (tạm gọi là lớp ngữ nghĩa) và mỗi lớp gồm các mục từ có quan hệ về nghĩa

(nghĩa biểu vật hay nghĩa biểu niệm) với nhau (như : đồng nghĩa, gần nghĩa, …). Tên của mỗi lớp chính là nhãn ngữ nghĩa và các lớp này có mối liên hệ ngữ nghĩa (qua

HPAGLS

QI4

C

Đỉnh

T

Hình 1: Cây phân cấp các mã ngữ nghĩa của LDOCE

Page 14: Bai Toan Gan Nhan Ngu Nghia

đường kết nối bên trong) với các lớp khác (có thể thuộc chủ đề khác) trong từ điển. Tổng số LLOCE gồm 14 chủ đề, 129 nhóm, 2449 lớp ngữ nghĩa với hơn 16,000 mục từ.

Ví dụ : Chủ đề A là về “sự sống và vật thể sự sống” (Life and living things); chủ đề B là về “cơ thể : chức năng và sự chăm sóc” (The Body : its Functions and

Welfare); chủ đề L là “không gian và thời gian”; Chủ đề A được tiếp tục phân thành 10 nhóm sau :

Sự sống và cái chết, có chứa các lớp từ A1 đến A20.

Các sinh vật nói chung, có chứa các lớp từ A30 đến A43.

Động vật và động vật có vú, có chứa các lớp từ A50 đến A61.

Chim, có các lớp từ A70 đến A78.

Bò sát và lưỡng cư, có các lớp từ A90 đến A94.

Cá và các thủy sinh vật khác, có các lớp từ A100 đến A104.

Côn trùng và các sinh vật tương tự, có các lớp từ A110 đến A113,

Các bộ phận của động vật, có các lớp từ A120 đến A128.

Các loài và bộ phận của động vật, có các lớp từ A130 đến A141.

Thực vật nói chung, có các lớp từ A150 đến A158.

Mỗi lớp ngữ nghĩa trong LLOCE thường gắn với một từ loại cụ thể nào đó và mang một ý nghĩa cụ thể nào đó. Trong mỗi lớp này sẽ chứa một số từ thỏa điều kiện từ loại và ngữ nghĩa chung của lớp. Trong LLOCE sử dụng 3 từ loại chính là danh từ, động từ và tính từ.

Ví dụ :

Lớp A1 gắn với động từ, có ý nghĩa : “tồn tại và tạo sự tồn tại”, lớp này

bao gồm các động từ sau : exist, be (tồn tại), create (tạo ra), animate (tạo

sự sống), ...

Lớp A2 (động từ), có ý nghĩa : “sống và chết”, gồm các từ sau : live

(sống), live on (tiếp tục sống), exist (tồn tại), die (chết), decay (thối rữa),

decompose (phân rã), rot (thối), survive (sống sót), ...

Lớp A3 (tính từ), có nghĩa là : “thuộc về sống và chết”, gồm các từ sau :

living (đang sống), alive (còn sống), live (sống), animate (có sức sống),

dead (chết), dying (sắp chết), ...

Page 15: Bai Toan Gan Nhan Ngu Nghia

Lớp A4 (danh từ), có nghĩa là : “sự sống và cái chết”, gồm các từ sau life

(đời sống), existence (sự tồn tại), creation (sự tạo ra), animation (sống

động), ...

Lớp A150 (N) : táo, mơ, đào, thơm, dứa, lê, mận, đu đủ, anh đào, nho,

xoài, chà là, vả, lựu, ... (trái cây)

Lớp G148 (N) : chữ cái, mẫu tự, ký tự, chữ hoa, chữ thường, ... (chữ cái)

Lớp G155 (N) : thư, thư dài và quan trọng, thư ngắn, bản ghi chép, phong

bì, bao thư, nhãn, ... (thư từ, ghi chú), ...

Mỗi lớp thường được liên kết chéo (cross – reference) với các lớp ngữ nghĩa

khác theo các quan hệ logic – ngữ nghĩa. Ngoài các nhãn về ngữ nghĩa nói trên,

LLOCE còn chứa đựng các nhãn về từ loại và cú pháp. Chính các nhãn ngữ pháp này

sẽ giúp chúng ta rất nhiều trong việc khử mơ hồ ngữ nghĩa của từ vì nghĩa của từ cũng

phụ thuộc rất nhiều vào vai trò ngữ pháp của nó trong câu.

3.1.2.4 HỆ THỐNG NHÃN NGỮ NGHĨA WORDNET

WordNet là một hệ cơ sở tri thức khổng lồ về ngữ nghĩa của từ vựng tiếng Anh

với hơn 100,000 ý niệm khác nhau, được xây dựng bởi các nhà ngôn ngữ học – máy tính, ngôn ngữ học – tâm lý và ngôn ngữ học – tri nhận ở Đại học Princeton (Mỹ) từ

đầu thập niên 1980. Hệ WordNet là một hệ trực tuyến (online) cho phép mọi người ở

khắp nơi được tự do (miễn phí) khai thác hay tải xuống (download) máy cá nhân của mình cho các mục đích nghiên cứu.

WordNet là một kho tàng trí thức ngữ nghĩa từ vựng khổng lồ và đã được rất nhiều các nhà ngôn ngữ học và ngôn ngữ học – máy tính khai thác, ứng dụng thành

công trong nhiều bài toán về xử lý ngữ nghĩa. Hiện nay, WordNet đang được các nhà khoa học về ngôn ngữ, tâm lý, máy tính trên toàn thế giới tiếp tục khai thác đóng

góp để cải tiến ngày càng hoàn thiện hơn. WordNet có nhiều ưu điểm không thể chối cãi, đó là : tính khoa học, tính hệ thống, tính mở, tính dễ sử dụng, tính phổ thông, tính phát triển ... Chính vì vậy, đến nay, đã có một số công trình bản địa hóa (localization)

WordNet theo ngôn ngữ của một số nước, như : Pháp, Nhật, Tây Ban Nha, Hàn, Hoa ... và gần đây là Việt Nam.

WordNet không chỉ đơn thuần là nhóm các từ đồng nghĩa hay các từ có quan hệ

ngữ nghĩa với nhau thành từng lớp như một số từ điển LDOCE, LLOCE, ... mà WordNet còn là một hệ thống các ý niệm có quan hệ nhiều mặt với nhau, tạo thành

một mạng lưới phức tạp. Ngoài việc dựa trên cơ sở lý thuyết phân chia theo trường biểu vật và biểu niệm, nó còn dựavàocơ sở phân chia theo trường nghĩa tuyến tính và trường nghĩa liên tưởng (qua các quan hệ chức năng, bộ phận, tính chất…).

Page 16: Bai Toan Gan Nhan Ngu Nghia

Mục tiêu cơ bản của WordNet là chứa các thông tin về ngữ nghĩa của từ, mà hễ nói đến khái niệm hay định nghĩa về từ thì chắc chắn lại dẫn đến nhiều ý kiến khác nhau. Chính vì vậy, ngay từ đầu, ta phải xác định cách hiểu về đơn vị từ trong

WordNet là như thế nào, sau đó ta tìm hiểu về tập đồng nghĩa (synset) – một thành phần cơ bản của WordNet để áp dụng vào việc bản địa hóa WordNet thành ngôn ngữ của chúng ta.

3.1.2.5 HỆ THỐNG NHÃN NGỮ NGHĨA CORELEX

Dù WordNet là một nguồn thông tin ngữ nghĩa từ vựng vô cùng phong phú và có

giá trị cho hầu hết các bài toán xử lý ngữ nghĩa trong ngôn ngữ tự nhiên, nhưng WordNet có thiếu sót lớn nhất chính là nó đã bỏ qua sự phân biệt về nguyên tắc giữa từ đa nghĩa (polysemy) với từ đồng nghĩa (homonymy). Để khắc phục thiếu sót đó, trong công trình nghiên cứu của mình, Paul Buitelaar đã đề ra một hệ thống nhãn ngữ nghĩa mới dựa trên nguyên lý là đối với một từ đa nghĩa thì sẽ có những nghĩa không liên quan đến nhau (contrastive) và những nghĩa liên quan một cách hệ thống đến nhau (complementary). Đó chính là hệ thống nhãn ngữ nghĩa CoreLex.

Ta có thể coi các nghĩa không liên quan đến nhau như là các nghĩa của từ đồng tự (homograph), còn các nghĩa có liên quan hệ thống đến nhau là các nghĩa của từ đa nghĩa (polysemy). Ví dụ : “bank” (ngân hàng) và “bank” (bờ) là hai từ đồng tự, còn

“line” (dây) và “line” (đường) là nhựng nghĩa của từ đa nghĩa. Khác với WordNet, CoreLex chú trọng đến các nghĩa của từ đa nghĩa vì đây là những nghĩa có liên quan hệ thống đến nhau.

Để xây dựng được hệ thống nhãn ngữ nghĩa của CoreLex, Paul Buitelaar đã

phân tích các nét ngữ nghĩa của từng danh từ (tổng số 40,000 danh từ), rồi đưa về các nhãn ngữ nghĩa cơ bản. Các nhãn ngữ nghĩa cơ bản này chính là các lớp synset nguyên thủy của WordNet cộng với phần mở rộng. Một danh từ có thể có một hay nhiều nhãn ngữ nghĩa cơ bản. Những nghĩa có liên quan đến nhau sẽ giống nhau ở một nét nghĩa cơ bản nào đó. Tập hợp các nét nghĩa cơ bản giống nhau của một số danh từ, hình thành hệ thống ngữ nghĩa CoreLex với tổng cộng 126 lớp ngữ nghĩa.

3.1.3 NHẬN XÉT CÁC HỆ THỐNG NHÃN NGỮ NGHĨA LIÊN QUAN

Qua khảo sát các hệ thống nhãn ngữ nghĩa của LLOCE, LDOCE, WordNet và CoreLex, có những điểm đáng chú ý sau :

Cách phân chia các lớp của LLOCE thực chất là dựa trên cơ sở lý thuyết

phân chia trường ngữ nghĩa theo trục dọc (trường nghĩa biểu vật và biểu niệm). Đối với WordNet, ngoài việc dựa trên cơ sở lý thuyết phân chia theo

trường biểu vật và biểu niệm, nó còn dựa theo cơ sở phân chia theo trường

nghĩa tuyến tính và trường nghĩa liên tưởng (qua các quan hệ chức năng, bộ phận, tính chất).

Với mục tiêu ban đầu là hệ thống các ý niệm chung nhất cho mọi ngôn ngữ

của nhân loại, nên việc biểu diễn hệ thống các ý niệm trong WordNet được

Page 17: Bai Toan Gan Nhan Ngu Nghia

dựa trên cơ sở lý thuyết về ngôn ngữ học – tri nhận (cognitive linguistic),

ngôn ngữ học – tâm lý (psycho – linguistics), … nhưng tất cả những lý thuyết

này đều hướng tới một mục tiêu chung là nghiên cứu về sự chung nhất của mọi ngôn ngữ trên thế giới hay còn gọi là phổ quát (universal) của ngôn ngữ.

Hệ thống nhãn LDOCE chỉ chú trọng đến danh từ, có số lượng từ khá lớn

(45,000) nhưng sự phân chia theo lớp ngữ nghĩa quá thô (chỉ có 32 lớp) nên

không đủ sức khử nhập nhằng ngữ nghĩa cho các từ cùng lớp nhưng khác nghĩa.

Hệ thống nhãn LLOCE có ưu điểm là đơn giản, hệ thống phân cấp chỉ gồm 3 cấp (chủ đề - nhóm – lớp), số nhãn không quá lớn (chỉ gồm 2449 nhãn).

Bên cạnh đó, số lượng từ của LLOCE cũng còn hạn chế (chỉ gồm 16,000 mục từ), nên nếu muốn áp dụng vào một hệ thống thực tế, cần phải mở rộng thêm.

Hệ thống nhãn của WordNet rất chi tiết, đầy đủ (cho các từ loại chính) vì vậy

số lượng nhãn rất lớn (hơn 100,000 nhãn), WordNet có ưu điểm là phân cấp chi tiết (hàng chục cấp) và giữa các lớp synset còn có nhiều kiểu quan hệ khác nhau. Chức năng chính của hệ thống nhãn ngữ nghĩa trong đa số các hệ xử lý ngôn ngữ tự nhiên là để khử nhập nhằng ngữ nghĩa ở mức cần thiết chứ không phải cho mục đích hiểu (cần có tri thức chi tiết về thế giới thực)

nên không cần phải phân giải ngữ nghĩa chi tiết như trong WordNet. Với số

lượng nhãn quá lớn như trong WordNet, thì chúng ta không thể xây dựng

được đủ ngữ liệu huấn luyện tổng quát cho tất cả các từ (cần ngữ liệu hàng tỷ từ).

Hệ thống nhãn CoreLex được xây dựng từ các lớp cơ bản của WordNet, có

khả năng phân biệt được từ đồng nghĩa (homonym) và từ đồng tự (homograph) trong khi đó WordNet thì không. Ngoài ra, CoreLex chỉ bao gồm 39 nhãn cơ bản và 126 lớp dẫn xuất với khoảng 40,000 danh từ nên khó áp dụng vào một hệ thống mới với các danh từ không có trong danh sách đó.

Kết luận : Tùy vào mục đích sử dụng mà ta có thể chọn các hệ thống nhãn ngữ nghĩa cho phù hợp :

Nếu để phân tích và hiểu sâu, ta nên sử dụng hệ thống nhãn WordNet.

Để khử nhập nhằng ở mức tương đối ta có thể dùng LLOCE hay LDOCE.

Để gán nhãn ở mức độ thô, dễ hiểu, dễ nhơ, nên dùng nhãn CoreLex và các nhãn ở tầng sơ cấp (primitives) của WordNet.

3.1.4 CÁC NGUỒN TRI THỨC CHO GÁN NHÃN NGỮ NGHĨA

Page 18: Bai Toan Gan Nhan Ngu Nghia

Để xử lý ngữ nghĩa, người ta phải kết hợp nhiều nguồn tri thức : tri thức ngôn ngữ (hình thái, ngữ pháp, ngữ nghĩa) và tri thức ngoài ngôn ngữ (tri thức về thế giới thực). Sau khi phân tích những nguồn tri thức hiệu quả, chúng ta có thể đánh giá và chọn lựa những nguồn tri thức hữu hiệu nhất để khai thác nhằm đạt kết quả khử nhập

nhằng ngữ nghĩa tốt nhất.Các nguồn tri thức đó thường bao gồm :

3.1.4.1 TRI THỨC VỀ TỪ LOẠI

Đối với các trường hợp từ đa nghĩa, mỗi từ loại ứng với một nghĩa duy nhất, thì nhờ thông tin từ loại, chúng ta có thể xác định được chính xác nghĩa của chúng. Ví dụ: từ “can” có nghĩa là “có thể” (trợ động từ), “cái hộp” (danh từ), “đóng hộp” (động từ).

Vì vậy, với các trường hợp này, nếu biết được chính xác từ loại, chúng ta hoàn toàn

khử được nhập nhằng ngữ nghĩa của chúng.

Trên thực tế, đa số các mục từ thuộc dạng đa nghĩa, ứng với các từ loại khác nhau. Theo thống kê trong từ điển LLOCE, có tới 88% mục từ thuộc dạng nói trên và 7% mục từ (tập các từ đồng tự) có nhiều từ loại, mỗi từ loại có thể có nhiều nghĩa khác

nhau, nhưng trong đó có ít nhất một từ loại có duy nhất một nghĩa. Đối với trường hợp này, ta có thể gán ngữ nghĩa nếu từ loại của nó (trong ngữ cảnh) chính là từ loại mà chỉ có một nghĩa.

3.1.4.2 TRI THỨC VỀ QUAN HỆ CÚ PHÁP VÀ RÀNG BUỘC NGỮ NGHĨA

Đối với các trường hợp cùng từ loại nhưng có nhiều hơn một nghĩa thì thông tin từ loại không đủ để xử lý việc gán ngữ nghĩa. Ví dụ : từ “bank” có hai từ loại là danh từ và động từ. Với danh từ, ta có các ngữ nghĩa “ngân hàng”, “bờ sông”, … Trong

trường hợp này ta cần phải sử dụng thêm các tri thức về thế giới thực thông qua các ràng buộc ngữ nghĩa (selectional restriction) giữa các thành phần cú pháp (S – V – O – M) trong câu.

3.1.4.3 TRI THỨC VỀ NGÔN TỪ

Sự ràng buộc về ngữ nghĩa giữa các thành phần cú pháp không phải lúc nào

cũng giải quyết được mọi nhập nhằng, vì có những quan hệ tiềm ẩn về logic, về ngữ nghĩa hay thậm chí do thói quen mà việc nhận biết phải đòi hỏi những tri thức thế giới

thực mà đến nay người ta cũng không thể tích hợp hết vào từ điển hay các cơ sở trí thức khác trong máy tính.

Ví dụ : Danh từ “bank” trong câu “I go to the bank …” có nghĩa gì : “ngân hàng / bờ (sông) / dãy” ? Rõ ràng nếu chỉ xét đến các yếu tố ngữ pháp thì ta không có cách gì

nhận biết được ngữ nghĩa của từ “bank” trong câu này.

Vì vậy, để khử nhập nhằng trong các trường hợp này, người ta thường xét đến hình thái và ngữ nghĩa của các từ lân cận hay còn gọi là ngôn từ (collocation). Chẳng hạn, khi thấy “bank” đi cùng với “river” thì ta biết ngay là đang nói về “bờ sông” còn nếu “bank” đi cùng với “account, money” thì đấy là đang nói về “ngân hàng”. Thông

Page 19: Bai Toan Gan Nhan Ngu Nghia

tin về các từ có quan hệ ngữ nghĩa như trên có thể tìm thấy trong các từ điển dạng Thesaurus của Roget hoặc LLOCE. Khi đó, phạm vi lân cận của từ cần khử ngữ nghĩa có thể là bên trái 1, 2 hay n từ và bên phải 1, 2 hay n từ.

3.1.4.4 TRI THỨC VỀ CHỦ ĐỀ

Trong một số trường hợp nhập nhằng, chúng ta có thể xác định được nghĩa đúng

của từ nếu ta biết được chủ đề của văn bản. Lấy ví dụ, từ “bank”, nếu đang nói về lĩnh

vực “tài chính” thì nó thường có nghĩa là “ngân hàng”; từ “driver” có nghĩa là “trình

điều khiển” nếu chủ đề là lĩnh vực tin học; … Để xác định được chủ đề của văn bản đang cần dịch, ta cần xem xét sự xuất hiện của một số từ chuyên môn trong lãnh vực đó.

Chẳng hạn, nếu trong văn bản ta thấy xuất hiện các từ như “ellipsis” (tỉnh lược), “bilingual” (song ngữ), “anaphora” (thế đại từ), “phrase” (ngữ), … thì ta có thể đoán

nhận văn bản này đang nói về chủ đề “ngôn ngữ học”; tương tự cho các từ “computer”, “memory”, “peripherals”, “CPU”, … thì chủ đề có thể là “tin học”; …

Chính vì vậy, trong từ điển LLOCE hay LDOCE đều có mã số chủ đề cho các từ

chuyên môn này. Chúng ta có thể xác định được chủ đề một cách tự động bằng cách xem xét các từ chuyên môn lân cận từ đang cần xử lý nhập nhằng ngữ nghĩa gần với chủ đề nào nhất.

3.1.4.5 TRI THỨC VỀ TẦN SUẤT NGHĨA CỦA TỪ

Ta có nhận xét là không phải từ nào cũng thuộc về một chủ đề nào đó (trong từ điển LDOCE, hơn 56% từ thuộc dạng này), vì vậy tính thông dụng của một nghĩa nào

đó còn được dựa trên độ đo về tần suất (frequency) xuất hiện của từ đó với nghĩa cụ thể đó. Chẳng hạn, danh từ “pen” sẽ có nghĩa thông dụng nhất là “bút/viết” (bên cạnh

các nghĩa ít thông dụng hơn, như “chuồng”, “lông chim”); “ball” có thường có nghĩa là “quả banh/hòn bi” hơn là “buổi khiêu vũ”, …

Độ đo tần suất xuất hiện của mỗi nghĩa của mỗi từ được thống kê trên những ngữ liệu rất lớn thuộc nhiều loại văn bản khác nhau. Chính vì vậy, trong WordNet và

trong LDOCE, các nghĩa được sắp xếp theo thứ tự giảm dần (nghĩa thông dụng nhất sẽ

được liệt kê đầu tiên).

3.1.5 WORDNET

3.1.5.1 GIỚI THIỆU WORDNET

Năm 1980, Miller và cộng sự tại trường Đại học Princeton (Mỹ) đã xây dựng nên một hệ cơ sở tri thức ngữ nghĩa từ vựng mang tên WordNet. WordNet là một cơ sở dữ liệu tri thức ngữ nghĩa từ vựng bằng tiếng Anh. Người ta xây dựng Wordnet dựa trên những lý thuyết về ngôn ngữ - tâm lý theo cách liên tưởng từ ngữ của con người. Từ trong Wordnet được phân loại thành danh từ, động từ, tính từ, và phó từ. Chúng được tổ chức thành những tập đồng nghĩa (synset), mỗi tập đồng nghĩa miêu tả, tượng trưng cho một ý niệm cơ bản. Mỗi synset được nối với nhau bởi nhiều loại quan hệ (relation)

Page 20: Bai Toan Gan Nhan Ngu Nghia

khác nhau. Hiện nay WordNet đã phát triển lên đến version 2.0 bao gồm hơn 110.000 synset với hơn 150.000 từ và hệ cơ sở tri thức này miễn phí ( cung cấp cả chức năng online và offline ) cho các công tác học tập và nguyên cứu. Wordnet là một kho tàng tri thức ngữ nghĩa từ vựng khổng lồ và đã được rất nhiều các nhà ngôn ngữ học và ngôn ngữ học – máy tính khai thác, ứng dụng thành công trong nhiều bài toán xử lý ngữ nghĩa. Hiện nay, Wordnet đang được các nhà khoa học về ngôn ngữ, tâm lý, máy tính trên toàn thế giới tiếp tục khai thác, đóng góp để cải tiến ngày càng hoàn thiện hơn. Wordnet có nhiều ưu điểm như: tính khoa học, tính hệ thống, tính mở (open), tính dễ sử dụng, tính phổ thông, tính phát triển … Chính vì vậy, đến nay, đã có một số công trình bản địa hóa Wordnet theo ngôn ngữ của một số nước (Pháp, Nhật, Tây Ban Nha, Hoa, ..).

3.1.5.2 MÔ HÌNH WORDNET

WordNet là một loại từ điển tương tự như từ điển đồng nghĩa. WordNet phân chia từ vựng thành năm loại : noun, verb, adjective, adverb và function words, nhưng thực tế nó chỉ chứa noun, verb, adjective, adverb.

- Danh từ được tổ chức thành các hệ thống phân cấp.

- Động từ được tổ chức theo các mối quan hệ thừa kế có thứ tự.

- Tính từ và trạng từ được tổ chức siêu không gian n chiều(N-dimensional hyperspace).

WordNet phân biệt hai mối quan hệ : quan hệ ngữ nghĩa và quan hệ từ vựng.

- Mối quan hệ ngữ nghĩa là mối quan hệ theo nghĩa với nhau, các nghĩa này biểu hiện bằng các synset.

- Một quan hệ từ vựng là quan hệ giữa các hình thức từ với nhau.

3.1.5.3 MA TRẬN TỪ VỰNG

WordNet không chỉ đơn thuần là nhóm các từ đồng nghĩa hay các từ có quan hệ ngữ nghĩa với nhau thành từng lớp như một số từ điển LDOCE, LLOCE,.. mà WordNet còn là một hệ thống các ý niệm có quan hệ nhiều mặt với nhau, tạo thành một mạng lưới phức tạp. Mục tiêu cơ bản của WordNet là chứa các thông tin về ngữ nghĩa của từ, mà hễ nói đến khái niệm hay định nghĩa về “từ ” thì chắc chắn lại dẫn đến nhiều ý kiến khác nhau. Chính vì vậy, ngay từ đầu, ta phải xác định cách hiểu về đơn vị từ trong WordNet là như thế nào, sau đó ta tìm hiểu về tập đồng nghĩa (synset) – một thành phần cơ bản của WordNet để áp dụng vào tiếng Việt.

Page 21: Bai Toan Gan Nhan Ngu Nghia

Bảng 2-3: Ma trận từ vựng trong WordNet

Từ Nghĩa

Dạng thức từ

F1 F2 F3 … Fn

M1 E1,1 E1,2

M2 E2,2

M3 E3,3

… …

Mm E

m,n

Ta thử xem xét một ma trận từ vựng (lexical matrix) như trong Bảng 2-4 trên đây. Mỗi hàng M1, M2, …, Mm là các nghĩa khác nhau của một dạng từ (word form) F nào đó. Các cột F1, F2, …, Fn là các dạng thể hiện khác nhau của cùng một nghĩa từ (word meaning) M nào đó. Giao giữa hàng M và cột F cho ta một mục E có nghĩa là dạng từ F đó dùng để thể hiện nghĩa M đó. Ví dụ: E1,2 là dạng từ F2 dùng để thể hiện nghĩa M1. Nếu cột F nào có nhiều hơn hai mục E thì ta nói dạng từ đó là đa nghĩa (polysemous). Nếu hai mục E cùng nằm trên một hàng M thì ta nói hai dạng từ đó đồng nghĩa (synonym) với nhau. Ví dụ: Bảng 2-4 trên, thì F2 là đa nghĩa, F1 và F2 là đồng nghĩa.

3.1.5.4 CÁC QUAN HỆ TRONG WORDNET

Vì trọng tâm của WordNet là ngữ nghĩa, nên các quan hệ trong WordNet cũng chủ yếu là các quan hệ liên quan đến nghĩa, nhưng vì nghĩa của từ trong WordNet thì được biểu diễn bởi các synset (thành phần cơ bản trong WordNet), chính vì vậy quan hệ ngữ nghĩa trong WordNet cũng chính là các quan hệ giữa các synset. Dưới đây là các quan hệ được sử dụng trong WordNet:

Quan hệ đồng nghĩa (synonymy)

Quan hệ trái nghĩa (antonymy)

Quan hệ hạ danh (thuộc cấp, hyponym) và quan hệ thượng danh (bao hàm, hypernym)1

Quan hệ bộ phận (meronymy / holonymy)

Quan hệ kéo theo (entailment)

Quan hệ cách thức đặc biệt (troponymy)

1

Page 22: Bai Toan Gan Nhan Ngu Nghia

Tất nhiên, với mỗi từ loại sẽ có một số các quan hệ mà từ loại khác không thể có được. Ví dụ danh từ trong WordNet có hai mối quan hệ : quan hệ ngữ nghĩa và quan hệ từ vựng. Mối quan hệ ngữ nghĩa là mối quan hệ theo nghĩa với nhau, các nghĩa này biểu hiện bằng các synset: quan hệ hạ danh, quan hệ thượng danh, quan hệ bộ phận. Ngoài mối quan hệ ngữ nghĩa, danh từ trong WordNet cón có quan hệ từ vựng (là quan hệ giữa các hình thức từ) với nhau: quan hệ trái nghĩa (antonyms). Trong khi đó, động từ trong WordNet lại phổ biến các mối quan hệ kéo theo, cách thức đặc biệt …

3.1.5.5 DANH TỪ TRONG WORDNET

Hiện nay, WordNet đã bao gồm hơn 110.000 danh từ được phân chia vào gần 80.000 synset. Rất nhiều từ trong số đó là từ ghép và có một số danh từ riêng thông dụng. WordNet được xây dựng dựa trên các nguyên tắc về tâm lý học. do đó nó hơi khác so với các từ điển thông thường. Các từ điển thông thường cung cấp cho chúng ta các thông tin về cách phát âm, định nghĩa, các dạng dẫn xuất và biến cách của từ, từ loại, định nghĩa … Tuy nhiên WordNet được tổ chức theo một cách khácWordNet là một hệ thống kế thừa từ vựng

Ví dụ:

oak @ tree @ plant @ organism

(cây sồi @ cây @thực vật @sinh vật)

Quan hệ ngữ nghĩa này bằng ký hiệu @, nó dùng để chỉ một từ đến từ tổng quát hơn nó. Đây là quan hệ có tính chất bắc cầu và không đối xứng. Quan hệ này được đọc là “is-a” hay “is a kind of”, nó đi từ cụ thể đến tổng quát (quá trình này gọi là tổng quát hóa). Cách thiết kế này tạo ra một hệ thống các cấp bậc, phân cấp, đi từ các thành phần chi tiết đến các thành phần tổng quát hơn ở phía trên. Đây chính là quan hệ thượng danh (hypernym) trong WordNet, quan hệ này chỉ đến thành phần tổng quát hơn.

WordNet được xây dựng theo kiểu hệ thống thừa kế từ vựng như thế. Hệ thống này xây dựng dựa trên các liên kết giữa các thành phần con (hyponym) và các thành phần cha (superordinate) và ngược lại. Trong cơ sở dữ liệu WordNet, một mục từ (entry) cho từ “tree” sẽ chứa một tham chiếu (hay còn gọi là con trỏ “@”) đến mục từ “plant”: Con trỏ đuợc gán nhãn “cấp trên” bởi ký hiệu “@”. Do đó, synset “tree” sẽ có dạng như sau:

{tree , plant , @ conifer, alder, ~…}

với ‘…’ biểu thị nhiều con trỏ hyponym nữa. Trong cơ sở dữ liệu WordNet, con trỏ “@” trỏ từ “tree” tới cấp cha “plant” và sẽ có ánh xạ ngược là con trỏ ”~” từ “plant” tới “tree” trong synset “plant”; con trỏ “” được gọi là con trỏ “hyponym”:

{plant, flora, organism, @ tree, …}

và {tree} không chỉ là cấp con duy nhất của {plant, flora}. Tất nhiên, thứ tự sắp xếp khi liệt kê các con trỏ này không quan trọng.

Page 23: Bai Toan Gan Nhan Ngu Nghia

3.1.5.5.1 Ý NIỆM NGUYÊN THỦY

Chúng ta giả sử hệ thống WordNet là một hệ thống kế thừa, như thế thành phần cao nhất, tổng quát nhất sẽ không mang ý nghĩa gì cả. Thật vậy, nếu chúng ta sử dụng {entity} làm ý niệm gốc duy nhất, sau đó các ý niệm kế thừa từ ý niệm gốc là {object, thing} và {idea} thì hệ thống phân cấp của chúng ta rất lớn. Hơn nữa, với cách trình bày như vậy, các ý niệm gốc sẽ mang rất ít thông tin và các ý niệm con sẽ rất nặng nề về các thuộc tính.

Do đó, WordNet được tổ chức thành 25 ý niệm gốc. Việc chia nhỏ như vậy còn tạo điều kiện cho việc biên soạn từ điển, làm giảm kích thước của các tập tin mà các nhà làm từ điển biên sọan, tạo điều kiện cho nhiều nhà từ điển làm việc song song với nhau.

Bảng 2-4: Danh sách 25 ý niệm nguyên thủy cho các file danh từ

{act, activity} {food} {possesion}

{animal , fauna} {group, grouping} {process}

{artifact} {location } {quantity, amount}

{attribute } {motivation, motive} {relation}

{body } {natul object} {shape}

{cognition, knowledge} {natural phenomenon} {state }

{communication} {person, human being} {substance}

{event, happening} {plant, flora} {time}

{feeling, emotion}

Bảng 2-5: Sơ đồ của việc giảm 25 file danh từ gốc thành 11 ý niệm cơ bản (các ý niệm cơ bản được in nghiêng)

Entity

Organism

Animal

Person

Plant

Object

Artifact

Natural Object Body

Substance Food

Page 24: Bai Toan Gan Nhan Ngu Nghia

Abstraction

Attribute

Quantity

Relation Communication

Time

Psychol, feature

Cognition

Feeling

Motivation

Natural Phenonmenon Process

Activity

Event

Group

Location

Possession

Shape

State

Khi chọn 25 ý niệm cơ bản, độ sâu của cây kế thừa thu được ở mức chấp nhận được (10-12 cấp) và các từ ở cấp thấp thông thường chỉ là các từ chuyên môn, chúng ta ít sử dụng các từ này thường ngày. Ví dụ: Sheland pony @ pony @ horse @ quid @odd-toed ungulate @ placental mammal @ mammal @ vertebrate @ chordate @ animal @ organism @ entity (ngựa nhỏ Sheland @ ngựa nhỏ @ ngựa @ họ ngựa @ loài có móng guốc lẻ @ động vật có vú mang thai @ động vật có vú @ động vật có xương sống @ động vật có dây sống @ động vật @ sinh vật @ thực thể): 12 cấp độ , một nữa trong số chúng là từ chuyên môn (kỹ thuật ).

3.1.5.5.2 Quan hệ Bộ phận (parts and meronymy)

Ngoài hai quan hệ formal (hình thức) và chức năng (telic) đề cập ở trên, Pustejovsky (1991) còn đưa ra mối quan hệ đóng vai trò “constitutive” (“cấu thành”). Quan hệ này chỉ ra mối quan hệ giữa đối tượng và các thành phần của nó. Quan hệ này sẽ liên kết giữa một danh từ biểu thi toàn thể và một danh từ biểu thị bộ phận.

Quan hệ bộ phận-toàn thể giữa các danh từ là một quan hệ ngữ nghĩa gọi là meronymy. Quan hệ này khác với các quan hệ synonym, antonym và hyponym. Quan hệ này có tính chất phản xạ tức là nếu wm là meronym của wh thì wh là holonym của wm. Chúng ta có thể sử dụng thuật ngữ IS_A_PART_OF và HAS_A để chỉ quan hệ

Page 25: Bai Toan Gan Nhan Ngu Nghia

meroym và holonym. Cụ thể nếu wh là has is part of wh thì wm là meronym của wh. nếu wh has a wm thì wh là holonym của wm.

Quan hệ Meronym giống với quan hệ hyponym ở đặc điểm cả hai đều có tính chất không đối xứng, bắc cầu và cả hai đều là quan hệ có tính chất kế thừa.

Thí dụ:

Mỏ và cánh là meronym của chim, nếu chim hoàng yến là hyponym của chim, theo sự thừa kế thì mỏ và cánh là meronym của chim hoàng yến.

Tuy nhiên quan hệ meronmy có nhiều loại, thí dụ như một ngón tay là bộ phận của bàn tay, bàn tay là bộ phận của cánh tay, cánh tay là bộ phận của con ngưòi có nghĩa là ngón tay là meronym của bàn tay, bàn tay là meronym của cánh tay, cánh tay là meronym của cơ thể. Khi đó chúng ta có thể nói ngón tay là bộ phận của cơ thể. Nếu chúng ta bắt đầu từ ý niệm tổng quát như {automobike} (xe máy) hay {human_body} (cơ thể con người) thì sẽ có nhiều cấp của quan hệ meronym. Nhưng các meronym này sẽ lại là meronym cho ý niệm tổng quát hơn nữa. Quan hệ kế thừa theo kiểu “tangle”(rối) này hiếm khi xuất hiện trong mối quan hệ hyponym nhưng lại phổ biến trong quan hệ meronym.

Quan hệ meronym và hyponym có quan hệ mật thiết với nhau. Ví dụ: {mỏ chim} (beck) và {cánh chim} (wing) là meronym của {chim} (bird), và nếu {chim cổ đỏ} (robin) là hyponym của {chim} (bird) thì nó sẽ được kế thừa các quan hệ meronym với ý niệm {cánh chim} (wing) và {mỏ chim} (beck).

Tuy nhiên, cấu trúc của IS_PART_OF không phải lúc nào cũng là quan hệ meronym. Chúng ta có thể sử dụng quan hệ IS_PART_OF để chỉ quan hệ IS_ATTACHED_TO (thành phần) , nhưng quan hệ IS_PART_OF là quan hệ có tính bắc cầu, còn quan hệ IS_ATTACHED_TO không có tính chất đó. Lấy lại ví dụ của Lyons ở trên, nếu chúng ta nói “Căn nhà có cái tay nắm cửa” hợp lý hơn bởi vì tay nắm cửa có quan hệ IS_ATTACHED_TO với căn nhà.

Do đó, Winston đưa ra 6 loại meronym:

- Component-object (ví dụ: branch / tree)

- Member-collection (ví dụ: tree / forest )

- Portion-mass (ví dụ: slice / cake)

- Stuff-object (ví dụ: aluminum / airplane)

- Feature-activity (ví dụ: paying / shopping)

- Place-area (ví dụ: Princeton / New Jersey)

Nhưng trong WordNet chỉ có 3 loại meronym

wm #p wh : wm là component của wh.

wm #m wh : wm là member của wh.

Page 26: Bai Toan Gan Nhan Ngu Nghia

wm #s wh : wm là stuff của wh được làm từ.

Một trong ba meronym thì meronym #p (IS_A_COMPONENT_OF) được sử dụng nhiều nhất.

3.1.5.6 TÍNH TỪ TRONG WORDNET

WordNet chia tính từ thành hai lớp chính: mô tả và quan hệ.

Lớp mô tả: đi vào trong những nhóm từ dựa vào sự trái nghĩa.

Lớp quan hệ: tương tự như danh từ để bổ nghĩa.

Synset tính từ trong WordNet hầu hết chứa tính từ, ngoài ra chỉ có một số từ có chức năng như tính từ là hình thức quá khứ phân từ của động từ hay danh từ .

Tính từ có chức năng bổ nghĩa cho danh từ. Tổ chức từ vựng của tính từ là duy nhất, chúng khác hẳn so với các loại cú pháp khác như là danh từ, động từ.

Trong WordNet nếu tính từ trái nghĩa trực tiếp được thể hiện bằng con trỏ “ !”, ngược lại trái nghĩa gián tiếp được thể hiện bằng con trỏ “&”

Thí dụ:

Heavy ! light

Wet ! dry

Moist & wet dry

Đôi khi có một số tính từ có nhiều nghĩa, chẳng hạn như tính từ old, right, ….sẽ xảy ra đối với một số danh từ, với từ old nếu chủ từ là man thì nó có nghĩa là not young ,danh từ là house nó có nghĩa là not new, do đó tùy theo ngữ cảnh của danh từ mà ta sẽ giảm bớt sự nhập nhằng về nghĩa. Tính từ được chọn theo xu hướng của danh từ mà chúng bổ nghĩa.

WordNet còn có một số tính từ , những tính từ này được dẫn xuất từ những tính từ quan hệ khác qua một số tiếp đầu ngữ.

3.1.5.7 ĐỘNG TỪ TRONG WORDNET

Động từ là một từ loại quan trọng trong ngôn ngữ. Dựa trên đặc điểm của động từ, chúng ta có thể phán đoán được cấu trúc của câu. Trong tiếng Anh, số lượng động từ chỉ bằng một phần ba danh từ nhưng động từ lại mang nhiều nghĩa hơn. Động từ trong tiếng Anh được chia làm 15 loại và được phân thành 3 nhóm sau: biến cố, hành động, trạng thái.

Do động từ trong tiếng Anh nói riêng, và trong ngôn ngữ học nói chúng rất khó được phân chia thành các synset nên trong WordNet, người ta sử dụng phương pháp phân rã để tạo nên các synset cho động từ.

Page 27: Bai Toan Gan Nhan Ngu Nghia

3.1.5.8 SỐ LUỢNG TỪ , SYNSET TRONG WORDNET

Bảng 2-6: Số lượng từ, synset trong WordNet 2.0

Từ loại Số từ Số synset Tổng số mục từ

Danh từ 114.648 79.689 141.690

Động từ 11.306 13.508 24.632

Tính từ 21.436 18.563 31.015

Phó từ 4.669 3.664 5.808

Tổng cộng 152.059 115.424 203.145

3.1.5.9 THÔNG TIN VỀ TÍNH ĐA NGHĨA

Bảng 2-7: Số luợng từ và nghĩa của WordNet 2.0

Từ loại Đơn nghĩa Đa nghĩa

Số lượng từ và nghĩa Số lượng từ Số lượng nghĩa

Danh từ 99524 15124 42325

Động từ 6256 5050 18522

Tính từ 16103 5333 14979

Phó từ 3901 768 1913

Tổng cộng 125784 26275 77739

Bảng 2-8: Bảng trung bình từ / nghĩa

Từ loại Trung bình từ /nghĩa

Kể cả các từ đơn nghĩa Không kể các từ đơn nghĩa

Danh từ 1.23 2.79

Động từ 2.17 3.66

Tính từ 1.44 2.80

Phó từ 1.24 2.49

3.1.6 NGỮ LIỆU NGỮ NGHĨA SEMCOR

3.1.6.1 GIỚI THIỆU

Ngữ liệu SemCor là bộ ngữ liệu gán nhãn ngữ nghĩa được xây dựng bởi nhóm nghiên cứu dự án WordNet, trường đại học Princeton. SemCor được rút ra từ kho ngữ

Page 28: Bai Toan Gan Nhan Ngu Nghia

liệu Brown 1,000,000 từ. Đây là kho ngữ liệu mở về ngữ nghĩa lớn nhất từ trước tới nay.

SemCor là kho ngữ liệu dạng văn bản, chứa các mối quan hệ về từ vựng, cú pháp và ngữ nghĩa. Việc gán nhãn ngữ nghĩa được xây dựng hoàn toàn bằng tay. Ngữ liệu thô được chuẩn hóa và gán nhãn từ loại bằng thuật toán Eric Brill's PoS tagger trước khi gán nhãn ngữ nghĩa. Sau đó, dữ liệu sẽ được định dạng lại bằng các thẻ trong SGML (trình bày dưới đây). Các công cụ liên quan đến quá trình xây dựng SemCor không được nhóm xây dựng công bố.

3.1.6.2 TỔ CHỨC KHO NGỮ LIỆU

SemCor được tổ chức thành 3 phần dựa trên những gì được gán nhãn, chứa 352 file văn bản, trong đó có 186 file chứa tất cả từ loại (trong đó có 192639 danh từ, động từ, tính từ, trạng từ) và được gán nhãn PoS, lemma và synset của WordNet. 166 file văn bản còn lại chỉ chứa động từ (41,497 từ) và được gán lemma, synset. Mỗi phần được liệt kê theo bảng sau:

Tên thư mục Số lượng file Các lớp được gán nhãnBrown1 103 file ngữ liệu Brown Tất cả các lớpBrown2 83 file ngữ liệu Brown Tất cả các lớpBrownv 166 file ngữ liệu Brown Động từ

Cấu trúc của một file SemCor

Dữ liệu trong các file thuộc ngữ liệu SemCor được xây dựng bằng ngôn ngữ SGML, sử dụng các phần từ và cặp thuộc tính / giá trị để lưu lại thông tin về file, đoạn, câu. Mỗi phần tử SGML đều yêu cầu thẻ mở và đóng, phân tách theo dòng.

<contextfile concordance= conc >

Phần tử mở đầu cho một file, giá trị conc chứa thông tin về ngữ liệu mà file này thuộc về. Ở đây là kho ngữ liệu Brown.

<context filename=filename paras=yes>

Phần tử mở đầu cho một file, chứa tên file.

<p pnum=paragraph_number >

Phần tử bắt đầu cho một đoạn văn. Thuộc tính paragraph_number là một số nguyên bắt đầu bằng 1.

<s snum=sentence_number >

Phần tử mở đầu cho một câu. Thuộc tính sentence_number là một số nguyên bắt đầu bằng 1. Lưu ý rằng sentence_number tăng liên tục trong một file và không quay lại 1 với từng đoạn mới.

<wf attribute/value_pairs > word </wf>

Page 29: Bai Toan Gan Nhan Ngu Nghia

Phần tử này cho biết thông tin về từng từ. Thuộc tính word chứa từ gốc xuất hiện trong đoạn văn, trong khi các cặp thuộc tính / giá trị chứa thông tin về từ loại, từ vựng, ngữ nghĩa của từ đang xét.

Thuộc tính cmd cho biết trạng thái của phần tử wf đang xét.

cmd Ý nghĩatag Từ sẽ được gán nhãndone Từ đã được gán nhãnignore Từ bỏ qua gán nhãnupdate Chỉ sử dụng trong trường hợp phát triển ngữ liệuretag Chỉ sử dụng trong trường hợp phát triển ngữ liệu

Thuộc tính pos chứa từ loại được gán bằng thuật toán Eric Brill's PoS tagger (xem chi tiết bảng phụ lục Danh sách nhãn tiếng Anh).

Thuộc tính lemma chứa hình thái cơ bản của từ. Đây là chuỗi được sử dụng tìm kiếm trong cơ sở dữ liệu WordNet.

Thuộc tính lexsn chứa giá trị nghĩa (số nguyên) theo nghĩa trong WordNet.

Thuộc tính ot biểu thị các từ không thể sử dụng các thuộc tính nêu lên ở trên, mang hàm ý OTHER_TAG.

Ví dụ:

<contextfile concordance=brown>

<context filename=br-a01 paras=yes>

<p pnum=1>

<s snum=1>

<wf cmd=ignore pos=DT>The</wf>

<wf cmd=done rdf=group pos=NNP lemma=group wnsn=1 lexsn=1:03:00:: pn=group>Fulton_County_Grand_Jury</wf>

<wf cmd=done pos=VB lemma=say wnsn=1 lexsn=2:32:00::>said</wf>

<wf cmd=done pos=NN lemma=friday wnsn=1 lexsn=1:28:00::>Friday</wf>

<wf cmd=ignore pos=DT>an</wf>

<wf cmd=done pos=NN lemma=investigation wnsn=1 lexsn=1:09:00::>investigation</wf>

<wf cmd=ignore pos=IN>of</wf>

<wf cmd=done pos=NN lemma=atlanta wnsn=1 lexsn=1:15:00::>Atlanta</wf>

<wf cmd=ignore pos=POS>'s</wf>

Page 30: Bai Toan Gan Nhan Ngu Nghia

<wf cmd=done pos=JJ lemma=recent wnsn=2 lexsn=5:00:00:past:00>recent</wf>

<wf cmd=done pos=NN lemma=primary_election wnsn=1 lexsn=1:04:00::>primary_election</wf>

<wf cmd=done pos=VB lemma=produce wnsn=4 lexsn=2:39:01::>produced</wf>

<punc>``</punc>

<wf cmd=ignore pos=DT>no</wf>

<wf cmd=done pos=NN lemma=evidence wnsn=1 lexsn=1:09:00::>evidence</wf>

<punc>''</punc>

<wf cmd=ignore pos=IN>that</wf>

<wf cmd=ignore pos=DT>any</wf>

<wf cmd=done pos=NN lemma=irregularity wnsn=1 lexsn=1:04:00::>irregularities</wf>

<wf cmd=done pos=VB lemma=take_place wnsn=1 lexsn=2:30:00::>took_place</wf>

<punc>.</punc>

</s>

</p>

</contextfile >

</context >

Chỉ có danh từ, động từ, tính từ, trạng từ mới được gán nhãn ngữ nghĩa. Danh từ riêng tuy không tồn tại trong WordNet nhưng sẽ được gán vào một trong bốn nhãn ngữ nghĩa sau đây

Attribute/Value Pair WordNet Sense Sense Keypn=person 1 person%1:03:00::pn=location 1 location%1:03:00::pn=group 1 group%1:03:00::pn=other n/a n/a

3.1.6.3 THÔNG SỐ THỐNG KÊ

CategorySemantic Concordance

brown1 brown2 brownv Total

Miscellaneous

total word forms (<wf> ) 198796 160936 316814 676546

Page 31: Bai Toan Gan Nhan Ngu Nghia

word forms with cmd=done including ot= 122724 98235 53421 274380

word forms with cmd=done excluding ot=notag 107118 86255 41607 234980

word forms with semantic pointers (wnsn= ) 106639 86000 41497 234136

word forms tagged to multiple senses 115 551 37 703

total semantic pointers (including multiple senses) 106725 86414 41525 234664

untagged word forms (cmd=ignore + ot= ) 92154 74936 135684 302774

Number of Semantic Pointers

semantic pointers to nouns 48835 39477 0 88312

semantic pointers to verbs 26686 21804 41525 90015

semantic pointers to adjectives 9886 7539 0 17425

semantic pointers to adverbs 11347 9245 0 20592

semantic pointers to adjective satellites 9970 8347 0 18317

Total semantic pointers 106724 86412 41525 234661

Pointers to Proper Nouns

pointers to pn=person 3815 2783 0 6598

pointers to pn=location 600 363 0 963

pointers to pn=group 740 440 0 1180

pointers to pn=other 447 489 7 943

Total pointers to proper nouns 5602 4075 7 9684

Unique WordNet Senses/TR>

senses pointed to by nouns 11399 9546 0 20945

senses pointed to by verbs 5334 4790 6520 16644

senses pointed to by adjectives 1754 1463 0 3217

senses pointed to by adverbs 1455 1377 0 2832

senses pointed to by adjective satellites 3451 3051 0 6502

Total senses 23393 20227 6520 50140

3.2 CƠ SỞ TIN HỌC

3.2.1 XÂY DỰNG KHO NGỮ LIỆU

Trong phần này, chúng ta sẽ nói sơ về quy cách xây dựng kho ngữ liệu. Kho ngữ

liệu ở đây, như đã đề cập ở phần mở đầu, là ngữ liệu song ngữ và đơn ngữ. Theo cách

tiếp cận trình bày trong luận văn này, ngữ liệu song ngữ cần phải được đối sánh ở

mức câu còn ngữ liệu đơn ngữ cần được phân ra theo từng văn bản (có nội dung nhất quán). Ở đây, bài toán mà chúng ta quan tâm là xử lý nhập nhằng ngữ nghĩa trong dịch máy Anh – Việt nên dĩ nhiên ngữ liệu song ngữ mà chúng ta đề cập ở đây là ngữ liệu song ngữ Anh – Việt, còn ngữ liệu đơn ngữ là tập hợp các văn bản tiếng Anh đã

được tách ra thành từng câu.

Page 32: Bai Toan Gan Nhan Ngu Nghia

Như vậy, vấn đề chủ yếu của việc xây dựng kho ngữ liệu cho xử lý nhập nhằng ngữ nghĩa liên quan đến ngữ liệu song ngữ Anh – Việt vì việc chuẩn bị ngữ liệu đơn

ngữ tiếng Anh căn bản không có gì đáng nói, do những nguồn tài nguyên như vậy

được công bố miễn phí trên nhiều website về xử lý ngôn ngữ tự nhiên.

3.2.2 TIÊU CHÍ CHỌN NGỮ LIỆU

Đối với ngữ liệu đơn ngữ, chúng ta có thể thu thập dữ liệu từ nhiều nguồn như :

Nguồn Internet : đây là nguồn ngữ liệu khổng lồ, đã tồn tại sẵn dưới dạng điện tử (nên không phải nhập liệu lại bằng tay). Kho này có vô vàn các lĩnh vực / phong cách khác nhau (cần lọc lại).

Nguồn sách điện tử (E-books) : bao gồm các sách chuyên ngành khác nhau,

như : Tin học, Điện tử, Kinh tế, …

Nguồn từ điển : trong mỗi từ điển, ở mỗi mục từ, thường chứa các ví dụ mẫu

hướng dẫn sử dụng từ đó. Ngôn ngữ trong từ điển là đúng chuẩn ngôn ngữ. Nội dung trong từ điển cũng rất phong phú bao quát.

Ngữ liệu huấn luyện : đây là những kho ngữ liệu điện tử (thường là tiếng

Anh) được xây dựng bởi các nhà ngôn ngữ học – máy tính nước ngoài, như PTB (Penn Tree Bank), SUSANNE, …

Đối với ngữ liệu song ngữ, hiện nay đã có rất nhiều nguồn ngữ liệu điện tử của

các tổ chức dịch ngữ liệu điện tử quốc tế được dịch ra nhiều thứ tiếng. Tuy nhiên,

điểm bất lợi là các bản dịch đó thường là dịch thoát ý, dịch ý chính, không dịch 1 – 1 (nhất là những văn bản không phải thuộc lĩnh vực khoa học – kỹ thuật). Nói tóm lại,

ngữ liệu song ngữ tinh chế không thể thu được đơn giản từ Internet. Trong nghiên cứu này, bộ ngữ liệu song ngữ đem vào sử dụng là ngữ liệu EVC của nhóm VCL. Ngữ liệu

song ngữ này bao gồm 400, 000 cặp câu dịch Anh – Việt đã được thu thập, tinh chỉnh

qua nhiều bước và thỏa mãn những tiêu chuẩn sau đây :

Chuẩn ngôn ngữ : Ngữ liệu đều là những văn bản với những câu được xem là chuẩn mực, nghĩa là đúng ngữ pháp và thông dụng. Những văn bản hay bản dịch có

tính cá nhân sẽ không được xem xét do không đáp ứng tính thực tế của ngữ liệu.

Phong cách và lĩnh vực của ngữ liệu : Tiêu chuẩn này tùy thuộc vào mục đích nghiên cứu. Nếu thu thập ngữ liệu để xây dựng từ điển tần số hay phân loại văn bản thì chúng ta cần thu thập nhiều lĩnh vực, phong cách khác nhau. Nếu thu thập để huấn luyện xử lý tự động, ta chỉ cần giới hạn trong một lĩnh vực cụ thể của khoa

học kỹ thuật, chứ không nên chọn những lĩnh vực kiểu như văn học (vì lĩnh vực

này đến nay máy tính vẫn chưa thể xử lý tự động được).

Dung lượng và độ phong phú của ngữ liệu : Đơn vị thu thập ngữ liệu phải là văn bản (văn bản không đơn thuần là tập hợp các câu mà là một hệ thống các câu). Độ

dài của một văn bản nên ở mức trung bình (khoảng vài ngàn từ, như PTB,

Page 33: Bai Toan Gan Nhan Ngu Nghia

SUSANNE chọn khoảng 2000 từ / văn bản). Kho ngữ liệu thu thập được phải

chứa hầu hết (hơn 80%) vốn từ, số lượng kết cấu ngữ pháp khác nhau trong một hay nhiều lĩnh vực nghiên cứu.

Cách dịch 1 – 1 : Riêng với các ngữ liệu song ngữ, chúng phải thực sự là bản dịch

1 – 1 của nhau, không dịch thoát ý, tóm lược, tương đương hay dịch theo kiểu giải thích diễn giải. Lý do là nếu không phải là dịch 1 – 1, thì máy tính rất khó liên kết

từ một cách tự động cho song ngữ đó được. Ngoài ra, bản dịch 1 – 1 còn cần thiết để có thể so sánh, đối chiếu trên từng cấp độ giữa hai ngôn ngữ.

Ngữ liệu dạng điện tử : Ngoài ba tiêu chuẩn bắt buộc trên, chúng ta sẽ ưu tiên

chọn những ngữ liệu nào đang tồn tại dưới dạng điện tử, hoặc có thể chuyển tự

động tương đối về dạng điện tử (như các sách in còn rõ), như vậy đỡ tốn công sức nhập liệu bằng tay vào máy tính.

3.2.3 CHUẨN HÓA NGỮ LIỆU

3.2.3.1 TÁCH TỪ TIẾNG VIỆT

3.2.3.1.1 Giới thiệu

Cũng giống như các ngôn ngữ ở phương Tây, tiếng Việt cũng sử dụng hệ thống chữ lating (alphabetic). Nhưng không giống với các ngôn ngữ khác, trong tiếng Việt khống sử dụng kí tự “cách trống” để phân biệt giữa các từ, các từ trong tiếng Việt có thể tạo bởi nhiều âp tiết. Vì thế cũng giống như trong tiếng Trung và các nước châu Á khác việc tách từ là một vấn đề cần được xem xét trong xử lý ngôn ngữ tự nhiên. Bài toán về tách từ đã được đặt ra từ lâu và đã được giải quyết tốt trong tiếng việt với hiệu suất cao.

Tách từ là một quá trình xử lý nhằm mục đích xác định ranh giới của các từ trong câu văn, cũng có thể hiểu đơn giản rằng tách từ là quá trình xác định các từ đơn, từ ghép… có trong câu. Đối với xử lý ngôn ngữ, để có thể xác định cấu trúc ngữ pháp của câu, xác định từ loại của một từ trong câu, yêu cầu nhất thiết đặt ra là phải xác định được đâu là từ trong câu. Vấn đề này tưởng chừng đơn giản với con người nhưng đối với máy tính, đây là bài toán rất khó giải quyết.

Chính vì lý do đó tách từ được xem là bước xử lý quan trọng đối với các hệ thống Xử Lý Ngôn Ngữ Tự Nhiên, đặc biệt là đối với các ngôn ngữ thuộc vùng Đông Á theo loại hình ngôn ngữ đơn lập, ví dụ: tiếng Trung Quốc, tiếng Nhật, tiếng Thái, và tiếng Việt. Với các ngôn ngữ thuộc loại hình này, ranh giới từ không chỉ đơn giản là những khoảng trắng như trong các ngôn ngữ thuộc loại hình hòa kết như tiếng Anh…, mà có sự liên hệ chặt chẽ giữa các tiếng với nhau, một từ có thể cấu tạo bởi một hoặc nhiều tiếng. Vì vậy đối với các ngôn ngữ thuộc vùng Đông Á, vấn đề của bài toán tách từ là khử được sự nhập nhằng trong ranh giới từ. [Blog Ngô Quốc Hưng]

Ví dụ :

Page 34: Bai Toan Gan Nhan Ngu Nghia

Liên_Đoàn Bóng_Đá Việt_Nam (VFF) đặt mục_tiêu nhận tài_trợ 500.000 đô_la từ FIFA để hoàn_thành mục_tiêu xây_dựng trung_tâm phát_triển bóng đá trẻ tại Hà Nội.

Một cách tổng quát có thể thấy rằng bài toán tách từ có 3 phương pháp tiếp cận chính :

· Tiếp cận dựa vào từ điển cố định.

· Tiếp cận dựa vào thống kê thuần túy.

· Tiếp cận dựa trên cả hai phương pháp trên.

Các phương pháp được sử dụng

· So khớp từ dài nhất (Longest Matching)

· So khớp cực đại (Maximum Matching)

· Mô hình Markov ẩn (Hidden Markov Models- HMM)

· Học dựa trên sự cải biến (Transformation-based Learning – TBL)

· Chuyển đổi trạng thái trọng số hữu hạn (Weighted Finite State Transducer – WFST)

· Độ hỗn loạn cực đại (Maximum Entropy – ME)

· Máy học sử dụng vectơ hỗ trợ (Support Vector Machines)

Hoặc có thể kết hợp những phương pháp trên

Bài toán tách từ là bài toán cơ bản đầu tiên trong các bài toán đặt ra cho xử lý ngôn ngữ sau : Phân tích hình thái (morphological analysis), phân tích phụ tố, Nhận diện tên riêng, nhận diện ranh giới ngữ, phân tích ngữ pháp (PARSER), gán nhãn từ loại, gán nhãn ranh giới ngữ, gán nhãn quan hệ cú pháp. Trong xử lý văn bản như : kiểm lỗi chính tả, kiểm lỗi văn phạm, phân loại văn bản, tóm tắt văn bản, hiểu văn bản, khai khoáng văn bản

3.2.3.1.2 Từ điển tiếng Việt (Vietnamese Lexicon)

Từ điển Vietnamese lexicon chứa 40,181 từ, được xây dựng bởi Trung tâm từ điển tin học (Vietlex) . Các từ có trong từ điển được sử dụng rộng rãi trong giao tiếp hàng ngày, báo chí, các tác phẩm văn học… Chúng được tạo nên từ 7,729 âm tiết. Sau đây là bảng thống kê chiều dài của các từ được tạo lên từ các âm tiết.

Page 35: Bai Toan Gan Nhan Ngu Nghia

Length Số lượng Phần tram (%)1 6,303 15,692 28,416 70,723 2,259 5,624 2,784 6,935 419 1,04Total 40,181 100

(Bảng thống kê chiều dài của các từ)

3.2.3.1.3 vnTockenizer (Tool tách từ Tiếng Việt tự động)

vnTokenizer là chương trình tách từ tiếng Việt tự động được viết bằng ngôn ngữ lập trình Java thực hiện bởi một nhóm GV thuộc Khoa Toán Cơ Tin học, trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội thực hiện. Phiên bản đầu tiên của chương trình được viết từ năm 2001, phiên bản mới nhất hiện giờ là 4.1.

Đây là chương trình được nhóm sử dụng trong giai đoạn tiền xử lý văn bản tiếng Việt, ngoài ra cũng có nhiều chương trình khác tách từ có hiệu suất cao.

Các phiên bản vnTokenizer có các tính năng chính sau :

1. Tách các đơn vị từ vựng trong từ điển kèm thông tin từ loại.

2. Tách các dấu chấm câu, các ký hiệu chữ và số,

3. Tách các tên riêng, ngày tháng, các số (nguyên, thập phân)

4. Các mẫu tự cần tách được chỉ định trong tệp ngoài. Tệp này sử dụng các biểu thức chính quy (regular expressions) để định nghĩa các mẫu cần tách, do đó việc mở rộng tính năng cho chương trình để tách các mẫu chưa gặp rất dễ dàng, chỉ cần thêm định nghĩa cho mẫu chưa gặp vào tệp này.

Chương trình cài đặt thuật toán tách từ tự động cho phép liệt kê mọi phương án tách từ có thể của một câu tiếng Việt (nếu nó có nhiều cách tách), tuy nhiên hiện tại, việc chọn phương án tách từ nào cho đúng thì cần sự can thiệp của người sử dụng.

3.2.3.2 GÁN NHÃN TỪ LOẠI

Page 36: Bai Toan Gan Nhan Ngu Nghia

3.2.3.2.1 Giới thiệu

Một trong các vấn đề nền tảng của phân tích ngôn ngữ là việc phân loại các từ thành các lớp từ loại dựa theo thực tiễn hoạt động ngôn ngữ. Mỗi từ loại tương ứng với một hình thái và một vai trò ngữ pháp nhất định. Các bộ chú thích từ loại có thể thay đổi tuỳ theo quan niệm về đơn vị từ vựng và thông tin ngôn ngữ cần khai thác trong các ứng dụng cụ thể. Mỗi từ trong một ngôn ngữ nói chung có thể gắn với nhiều từ loại, và việc giải thích đúng nghĩa một từ phụ thuộc vào việc nó được xác định đúng từ loại hay không. Công việc gán nhãn từ loại cho một văn bản là xác định từ loại của mỗi từ trong phạm vi văn bản đó. Khi hệ thống văn bản đã được gán nhãn, hay nói cách khác là đã được chú thích từ loại thì nó sẽ được ứng dụng rộng rãi trong các hệ thống tìm kiếm thông tin, trong các ứng dụng tổng hợp tiếng nói, các hệ thống nhận dạng tiếng nói cũng như trong các hệ thống dịch máy.

Đối với các văn bản Việt ngữ, việc gán nhãn từ loại có nhiều khó khăn, đặc biệt là bản thân việc phân loại từ tiếng Việt cho đến nay vẫn là một vấn đề còn nhiều tranh cãi, chưa có một chuẩn mực thống nhất. Nghiên cứu của nhóm chúng tôi phục vụ đồng thời hai mục đích: một mặt thực hiện nỗ lực nhằm xây dựng các công cụ cho việc xử lí văn bản tiếng Việt trên máy tính phục vụ cho các ứng dụng công nghệ, mặt khác các công cụ này cũng hỗ trợ tích cực cho các nhà ngôn ngữ nghiên cứu tiếng Việt.

3.2.3.2.2 Các kĩ thuật gán nhãn từ loại

Các kĩ thuật gán nhãn từ loại và các bước giải quyết bài toán gán nhãn từ loại cho văn bản tiếng Việt. Quá trình gán nhãn từ loại có thể chia làm 3 bước.

- Phân tách xâu kí tự thành chuỗi các từ. Giai đoạn này có thể đơn giản hay phức tạp tuỳ theo ngôn ngữ và quan niệm về đơn vị từ vựng. Chẳng hạn đối với tiếng Anh hay tiếng Pháp, việc phân tách từ phần lớn là dựa vào các kí hiệu trắng. Tuy nhiên vẫn có những từ ghép hay những cụm từ công cụ gây tranh cãi về cách xử lí. Trong khi đó với tiếng Việt thì dấu trắng càng không phải là dấu hiệu để xác định ranh giới các đơn vị từ vựng do tần số xuất hiện từ ghép rất cao.

- Gán nhãn tiên nghiệm, tức là tìm cho mỗi từ tập tất cả các nhãn từ loại mà nó có thể có. Tập nhãn này có thể thu được từ cơ sở dữ liệu từ điển hoặc kho văn bản đã gán nhãn bằng tay. Đối với một từ mới chưa xuất hiện trong cơ sở ngữ liệu thì có thể dùng một nhãn ngầm định hoặc gắn cho nó tập tất cả các nhãn. Trong các ngôn ngữ biến đổi hình thái người ta cũng dựa vào hình thái từ để đoán nhận lớp từ loại tương ứng của từ đang xét.

- Quyết định kết quả gán nhãn, đó là giai đoạn loại bỏ nhập nhằng, tức là lựa chọn cho mỗi từ một nhãn phù hợp nhất với ngữ cảnh trong tập nhãn tiên nghiệm. Có nhiều phương pháp để thực hiện việc này, trong đó người ta phân biệt chủ yếu các phương pháp dựa vào quy tắc ngữ pháp mà đại diện nổi bật là phương pháp Brill và các phương pháp xác suất . Ngoài ra còn có các hệ thống

Page 37: Bai Toan Gan Nhan Ngu Nghia

sử dụng mạng nơ-ron, các hệ thống lai sử dụng kết hợp tính toán xác suất và ràng buộc ngữ pháp, gán nhãn nhiều tầng.

Về mặt ngữ liệu, các phương pháp phân tích từ loại thông dụng hiện nay dùng một trong các loại tài nguyên ngôn ngữ sau:

- Từ điển và các văn phạm loại bỏ nhập nhằng.

- Kho văn bản đã gán nhãn [4], có thể kèm theo các quy tắc ngữ pháp xây dựng bằng tay.

- Kho văn bản chưa gán nhãn, có kèm theo các thông tin ngôn ngữ như là tập từ loại và các thông tin mô tả quan hệ giữa từ loại và hậu tố.

- Kho văn bản chưa gán nhãn, với tập từ loại cũng được xây dựng tự động nhờ các tính toán thống kê [11]. Trong trường hợp này khó có thể dự đoán trước về tập từ loại.

Các bộ gán nhãn từ loại dùng từ điển và văn phạm gần giống với một bộ phân tích cú pháp. Các hệ thống học sử dụng kho văn bản để học cách đoán nhận từ loại cho mỗi từ. Từ giữa những năm 1980 các hệ thống này được triển khai rộng rãi vì việc xây dựng kho văn bản mẫu ít tốn kém hơn nhiều so với việc xây dựng một từ điển chất lượng cao và một bộ quy tắc ngữ pháp đầy đủ. Một số hệ thống sử dụng đồng thời từ điển để liệt kê các từ loại có thể cho một từ, và một kho văn bản mẫu để loại bỏ nhập nhằng. Bộ gán nhãn của chúng tôi nằm trong số các hệ thống này. Các bộ gán nhãn thường được đánh giá bằng độ chính xác của kết quả: [số từ được gán nhãn đúng] / [tổng số từ trong văn bản]. Các bộ gán nhãn tốt nhất hiện nay có độ chính xác đạt tới 98% [15].

3.2.3.2.3 Các phương pháp gán áp dụng trong gán nhãn từ loại

- Phương pháp Maximum Entropy

Đối với bài toán phân lớp dữ liệu, entropy Cực đại là một kỹ thuật dùng để ước lượng xác suất các phân phối từ dữ liệu. Tư tưởng chủ đạo của nguyên lý Entropy cực đại là “mô hình phân phối đối với mỗi tập dữ liệu và tập các ràng buộc đi cùng phải đạt được độ cân bằng đều nhất có thể ” – (có Entropy cực đại) [K. Nigam 1999]. Tập dữ liệu được học (đã được gán nhãn) được sử dụng để tìm ra các ràng buộc cho mô hình - là cơ sở để ước lượng phân phối cho từng lớp cụ thể. Những ràng buộc này được thể hiện bởi các giá trị ước lượng được của các đặc trưng. Từ các ràng buộc sinh ra bởi tập dữ liệu này, mô hình sẽ tiến hành tính toán để có được một phân phối với Entropy cực đại.

Ví dụ về mô hình Entropy cực đại: “giả sử với bộ phân lớp bài báo của báo điện từ Vnexpress. Bốn lớp chính chỉ ra đó là pháp_luật, thể_thao, quốc_tế, văn_hóa. Các thống kê trên tập dữ liệu mẫu chỉ ra rằng trung bình 70% các tài liệu trong lớp

Page 38: Bai Toan Gan Nhan Ngu Nghia

thể_thao có chứa từ bóng_đá. Như vậy một cách trực quan có thể thấy rằng nếu một tài liệu D có chứa từ bóng_đá thì xác suất được phân vào lớp thể_thao là 70% và xác suất phân vào ba lớp còn lại 10% ( bằng nhau giữa các lớp) và nếu D không chứa từ thể_thao thì xác suất phân phối của D là đều cho bốn lớp (mỗi lớp 25%).” Trong ví dụ trên thì “tài liệu chứa cụm bóng_đá thì có xác suất phân vào lớp thể_thao là 70%” là một ràng buộc của mô hình.

- Phương pháp Conditional Random Fields

Kí hiệu X là biến ngẫu nhiên có tương ứng với chuỗi dữ liệu cần gán nhãn và Y là biến ngẫu nhiên tương ứng với chuỗi nhãn. Mỗi thành phần Yi của Y là một biến ngẫu nhiên nhận trá trị trong tập hữu hạn các trạng thái S. Ví dụ trong bài toán phân đoạn từ, X nhận giá trị là các câu trong ngôn ngữ tự nhiên, còn Y là chuỗi nhãn tương ứng với các câu này. Mỗi thành phần Yi của Y là một nhãn xác định phạm vi của một từ trong câu (bắt đầu một từ, ở trong một từ và kết thúc một từ). Cho một đồ thị vô hướng không có chu trình G = (V,E), trong đó E là tập các cạnh vô hướng của đồ thị, V là tập

các đỉnh của đồ thị sao cho Y = { Yv | v∈V}. Nói cách khác là tồn tại ánh xạ một – một giữa một đỉnh đồ thị và một thành phần Yv của Y. Nếu mỗi biễn ngẫu nhiên Yv tuân theo tính chất Markov đối với đồ thị G – tức là xác suất của biến ngẫu nhiên Yv cho

bởi X và tất cả các biến ngẫu nhiên khác Y{u|u ≠ v, {u,v} ∈V}: p(Yv | X, Yu, u ≠ v,

{u,v}∈V) bằng xác suất của biến ngẫu nhiên Yv cho bởi X và các biến ngẫu

nhiên khác tương ứng với các đỉnh kề với đỉnh v trong đồ thị: p(Yv | X, Yu, (u,v) ∈E), thì ta gọi (X,Y) là một trường ngẫu nhiên điều kiện (Conditional Random Field)

Như vậy, một CRF là một trường ngẫu nhiên phụ thuộc toàn cục vào chuỗi quan sát X. Trong bài toán phân đoạn từ nói riêng và các bài toán xử lý dữ liệu dạng chuỗi nói chung, thì đồ thì G đơn giản chỉ là dạng chuỗi, V= {1, 2, … m}, E= {(i, i+1)}

Kí hiệu X= (X1, X2, ... Xn) và Y = (Y1, Y2, …Yn) thì mô hình đồ thị G có dạng sau :

(Mô hình CRFs)

Gọi C là tập các đồ thị con đầy đủ của G . Vì G có dạng chuỗi nên đồ thị con đầy đủ thực ra chỉ là một đỉnh hoặc một cạnh của đồ thị G. Áp dụng kết quả của Hammerley- Clifford [13] cho các trường ngẫu nhiên Markov thì phân phối của chuỗi nhãn Y với chuỗi quan sát X cho trước có dạng

Page 39: Bai Toan Gan Nhan Ngu Nghia

Ψ Trong đó A gọi là hàm tiềm năng, nhận giá trị thực- dương. Lafferty xác định hàm tiềm năng này dựa trên nguyên lý cực đại entropy. Việc xác định một phân phối theo nguyên lý cực đại entropy có thể hiểu là ta phải xác định một phân phối sao cho “phân phối đó tuân theo mọi giải thiết suy ra từ thực nghiệm, ngoài ra không đưa thêm bất kì giả thiết nào khác” và gần nhất với phân phối đều. Entropy là độ đo thể hiện tính không chắc chắn, hay độ không đồng đều của phân phối xác suất. Độ đo entropy điều kiện H(Y|X) được cho bởi công thức

Với ~p (x, y) là phân phối thực nghiệm của dữ liệu. Theo cách trên, Lafferty đã chỉ ra hàm tiềm năng của mô hình CRFs có dạng

Trong đó λk là thừa số Lagrangian ứng với thuộc tính fk . Ta cũng có thể xem như λk là trọng số xác định độ quan trọng của thuộc tính fk trong chuỗi dữ liệu. Có hai loại thuộc tính là thuộc tính chuyển (kí hiệu là f) và thuộc tính trạng thái (kí hiệu là g) tùy thuộc vào A là một đỉnh hay một cạnh của đồ thị. Thay công thức hàm tiềm năng vào công thức (2.1) và thêm thừa số chuẩn hóa để đảm bảo thỏa mãn điều kiện xác suất ta được

Ở đây, x là chuỗi dữ liệu, y là chuỗi trạng thái tương ứng. fk(yi-1,y,x) là thuộc tính của chuỗi quan sát ứng và các trạng thái ứng với vị trí thứ i và i-1 trong chuỗi trạng thái. g(yi,x) là thuộc tính của chuỗi quan sát và trạng thái ứng với trí thứ i trong chuỗi trạng thái.

Các thuộc tính này được rút ra từ tập dữ liệu và có giá trị cố định. Ví dụ:

Fi = {1Nếu x (1−i) là Học , x ( i ) làsinh và y ( i−1 ) là BW và y ( i )=iW

0 nếungược lại

Gi = {1 Nếu x ( i ) làHọc , y ( i )=BW

0 nếungược lại

Vấn đề của ta bây giờ là phải ước lượng được các tham số ( λi, µi) từ tập dữ liệu huấn luyện.

Page 40: Bai Toan Gan Nhan Ngu Nghia

3.2.3.2.4 Công cụ JvnTagger (Công cụ gán nhãn từ loại tiếng Việt)

JVnTagger là công cụ gán nhãn từ loại tiếng Việt dựa trên Conditional Random Fields (Lafferty et al., 2001) và Maximum Entropy (Nigam et al., 1999). JVnTagger được xây dựng trong khuôn khổ đề tài cấp nhà nước VLSP với dữ liệu huấn luyện khoảng 10.000 câu của Viet Treebank. Thử nghiệm với phương pháp 5-fold cross validation cho thấy kết quả gán nhãn với CRFs có thể đạt giá trị F1 lớn nhất là 90.40% và Maxent đạt giá trị F1 lớn nhất là 91.03%. Công cụ này cũng thuộc bộ công cụ được cung cấp từ đề tài VNSP, được sử dụng trong luận văn này.

Page 41: Bai Toan Gan Nhan Ngu Nghia

CHƯƠNG 4 : MÔ HÌNH THUẬT TOÁN

4.1 Mô hình đề xuất cho xây dựng bộ ngữ liệu ngữ nghĩa

4.1.1 Dịch từ ngữ liệu SemCor

4.1.2 Sử dụng ngữ liệu song ngữu Anh – Việt

4.2 Tìm kiếm ngữ liệu song ngữ

4.2.1 Xây dựng dữ liệu thô

4.2.2 Tách từ

4.2.3 Gán nhãn từ loại (Pos Tagger)

4.2.4 Liên kết từ

4.2.5 Gán nhãn ngữ nghĩa cho tiếng Anh

4.2.6 Xây dựng bộ nhãn ngữ nghĩa

Nhãn ngữ nghĩa

Phương pháp xây dựng bộ nhãn ngữ nghĩa

Tổ chức bộ nhãn ngữ nghĩa theo WordNet

Page 42: Bai Toan Gan Nhan Ngu Nghia

CHƯƠNG 5 : THIẾT KẾ CÀI ĐẶT

Page 43: Bai Toan Gan Nhan Ngu Nghia

CHƯƠNG 6 : KẾT QUẢ - ĐÁNH GIÁ

Tài liệu tham khảo

[4] Đinh Điền (2004). Xây dựng và khai thác kho ngữ liệu song ngữ Anh Việt điện tử. Luận án Tiến Sĩ Ngữ Văn chuyên ngành Ngôn Ngữ Học So Sánh. ĐH KHXH&NV Tp HCM.

[13]. Nancy Ide, Jean Véronis (1998). Introduction to the special issue on

Word sense disambiguation : the State of the Art. Computational Linguistics,

Vol.24, Number 1, pp 1-40.

PHỤ LỤC

A. DANH SÁCH NHÃN NGỮ PHÁP TIẾNG ANH

STT Nhãn

Mô tả Ví dụ

1. CC Coordinating conjunction (liên từ) and, or, but, … 1,2. CD Cardinal number (số từ) 2, one, two, …3. CD Determiner (định từ) the, a, an, …4. EX Existential “there” (“có”) There5. FW Foreign word (từ nước ngoài)6. IN Preposition or subordinating conjunction

(giới từ)in, on, at,

7. JJ Adjective (tính từ) big, good, hard, …8. JJR Adjective, comparative (tính từ so sánh

hơn)bigger, better, …

9. JJS Adjective, superlative (tính từ so sánh nhất) biggest, best, …10. LS List item marker (dấu liệt kê) :11. MD Modal (từ tình thái) can, may, might12. NN Noun, singular / mass (danh từ số ít, không đếm

được)book, sugar, action

13. NNS Noun, plural (danh từ số nhiều) books, children14. NP Proper noun, singular (danh từ riêng số ít) John, Hanoi15. NPS Proper noun, plural (danh từ riêng số nhiều) IBMs, Fords, ...16. PDT Pre-determiner (tiền chỉ định từ) this, each, some ...17. POS Possesive ending (dấu cuối của sở hữu

cách)„s

18. PP Personal pronoun (đại từ nhân xưng) I, you, he19. PP$ Possesive pronoun (đại từ sở hữu) mine, yours, his20. RB Adverb (trạng từ) slow, hardly21. RB Adverb, comparative (trạng từ so sánh hơn) slower, faster22. RBS Adverb, superlative (trạng từ so sánh nhất) slowest, fastest23. RP Particle (tiểu từ) on, off24. SYM Symbol (ký hiệu)

Page 44: Bai Toan Gan Nhan Ngu Nghia

25. TO “to” (từ “to”)26. UH Interjection (thán từ) oh !27. VB Verb, base form (động từ nguyên thể) work, write28. VBD Verb, past tense (động từ quá khứ) worked, wrote29. VBG Verb, gerund or present participle (động từ hiện

tại)working, writing

30. VBN Verb, past participle (động từ quá khứ) worked, written31. VBP Verb, non 3rd person singular present (động từ

không phải ngôi thứ 3 số ít hiện tại)work, write

32. VBZ Verb, 3rd person singular present (động từ ngôi thứ 3, số ít hiện tại)

works, writes

33. WDT Wh-determiner (định từ bắt đầu bằng Wh) which, what34. WP Wh-pronoun (đại từ bắt đầu bằng Wh) who, where35. WP$ Possessive Wh-pronoun (đại từ sở hữu bắt đầu

bằng Wh)whose

36. WRB Wh-adverb (trạng từ bắt đầu bằng Wh) when, where

B. HỆ THỐNG NHÃN NGỮ NGHĨA LLOCE

LLOCE được phân thành 3 cấp: cấp 1 gồm 14 chủ đề, cấp 2 gồm 129 nhóm, cấp 3 gồm 2449 lớp ngữ nghĩa với tổng số 16,000 mục từ và 25,000 ngữ nghĩa. Mỗi lớp ngữ nghĩa gồm các từ đồng nghĩa hoặc có quan hệ ngữ nghĩa với nhau và mang ngữ nghĩa là tên lớp đó.

Chủ đề Mô tảA Life and living things – Sự sống và các sinh vậtB The Body : its Functions and Welfare – Cơ thể, chức năng và việc chăm sócC People and the Family – Con người và gia đìnhD Buildings, Houses, Clothes, Belongings, Personal Care – Công trình xây

dựng, nhà cửa quần áo, đồ đạc và tiện nghi cá nhânE Food, Drink and Farming – Thực phẩm, đồ uống và nghề nôngF Feelings, Emotions, Attributes and Sensations – Cảm xúc, xúc cảm, thái

độ và cảm giácG Thought and Communication, Language and Grammar – Tư duy và thông

tin, ngôn ngữ và văn phạmH Substances, Material, Objects and Equipment – Chất liệu, vật liệu, đồ vật

và trang thiết bịI Arts and Craft, Science and Technology, Industry and Education – Nghệ

thuật và nghề thủ công, khoa học và công nghệ, công nghiệp, giáo dụcJ Numbers, Measurement, Money and Commerce – Số, đo lường, tiền tệ và

thương mạiK Entertainment, Sports and Games – Giải trí, Thể thao và các môn thi đấuL Space and Time – Không gian và Thời gianM Movement, Location, Travel and Transport – Dịch chuyển, vị trí, du hành

và vận tảiN General and Abstract Terms – Các thuật ngữ khái quát và trừu tượng

Page 45: Bai Toan Gan Nhan Ngu Nghia