Upload
phungnhu
View
217
Download
0
Embed Size (px)
Citation preview
1
Chương 7. Xử lý ngôn ngữ tự nhiên
Lê Thanh HươngKh CNTT ĐHBKHN
1
Khoa CNTT - ĐHBKHN
7.1. Xử lý NNTN là gì?
• Mục đích: hiểu được nhiều ngôn ngữ• Không chỉ đơn giản là xử lý xâu hoặc so khớp từ khoáỨng dụng:
2
Ứng dụng:• Khó: xử lý tiếng nói (speech processing), dịch máy (machine
translation), trích rút thông tin (information extraction), giao diện hội thoại = NNTN (dialog interface), hỏi đáp (question answering)
• Ứng dụng hiện nay: sửa lỗi chính tả, phân loại văn bản, …
Lê Thanh Hương – Khoa CNTT - ĐHBKHN
7.2. Phân tích ngôn ngữ
Gồm nhiều tầng:Gồm nhiều tầng:• Âm vị (Phonology)• Âm tiết (Morphology)• Cú pháp (syntactics)• Ngữ nghĩa (semantics)
3
• Ngữ nghĩa (semantics)• Thực chứng (pragmatics)• Cấu trúc diễn ngôn (discourse)
Lê Thanh Hương – Khoa CNTT - ĐHBKHN
Mức âm tiếtEnglish: ngôn ngữ biến hình (metamorphosis), đa âm tiết
(multisyllable)ki k ki k ki k d ki ki• kick, kicks, kicked, kicking
• sit, sits, sat, sitting• murder, murders
Nhưng không hẳn chỉ là thêm/bớt đuôi • gorge, gorgeous
arm army
rực rỡ
v: nhồi nhét; n: những cái đã ăn, hẻm núi
4
• arm, army
Vietnamese: không biến hình, đơn âm tiết tách từCánh tay Quân đội
Lê Thanh Hương – Khoa CNTT - ĐHBKHN
2
Tri thức về ngôn ngữ?
• Một số có qui luật:• Một số có qui luật:– Singing → Sing+ing; Bringing → bring+ing
• Duckling → ?? Duckl +ing• Cần biết duckl không phải một từ
5
• Cần biết duckl không phải một từ• Không thể nhớ tất cả vì có quá nhiều
trường hợp như vậy
Lê Thanh Hương – Khoa CNTT - ĐHBKHN
Tách từ (word segmentation)
• Một câu có nhiều cách tách, nhưng chỉ có 1 cách tách đúngtách đúng
• Giải pháp đơn giản nhất: lấy xâu dài nhất từ vị trí hiện tại và có trong từ điển
• Vấn đề: các từ có thể chồng nhau– Học sinh | học sinh | học.– Học sinh | học | sinh học.
6
| |Liệt kê tất cả các khả năng và đưa ra chiến lược chọn giải pháp chính xác nhất
Lê Thanh Hương – Khoa CNTT - ĐHBKHN
Phân tích cú pháp
The boy threw a ball to the brown dog.
• The/DT boy/NN threw/VBD a/DT ball/NN to/IN the/DTbrown/JJ dog/NN./.
DT – từ hạn định NN – danh từ
7
DT – từ hạn định NN – danh từVBD – động từ quá khứ IN – giới từJJ – tính từ . – dấu kết thúc câu
Lê Thanh Hương – Khoa CNTT - ĐHBKHN
Nhập nhằng (ambiguity)Time flies like an arrow.Time // flies like an arrow.
ĐgT giới từTime flies // like an arrow.
D.Ngữ ĐgTÔng già đi nhanh quá. Ông già // đi nhanh quá.
DT Đ T
8
DT ĐgTÔng // già đi nhanh quá.DT TT Phó từ
Lê Thanh Hương – Khoa CNTT - ĐHBKHN
3
Cú pháp không cung cấp nhiều thông tin ngữ nghĩa
• Colorless green ideas sleep furiously. [Chomsky]
• fire match arson hotel• plastic cat food can cover
9
p
Lê Thanh Hương – Khoa CNTT - ĐHBKHN
Ngữ nghĩa: nhập nhằng từ vựng(lexical ambiguity)
• I walked to the bankI walked to the bank ...of the river.to get money.
• The bug in the room ...was planted by spies.flew out the window.
10
flew out the window.• I work for John Hancock ...
and he is a good boss.which is a good company.
Lê Thanh Hương – Khoa CNTT - ĐHBKHN
Diễn ngôn: đồng tham chiếu(coreference)
President John F Kennedy was assassinatedPresident John F. Kennedy was assassinated.The president was shot yesterday.Relatives said that John was a good father.JFK was the youngest president in history.His family will bury him tomorrow.Friends of the Massachusetts native will hold a
11
candlelight service in Mr. Kennedy’s home town.
Lê Thanh Hương – Khoa CNTT - ĐHBKHN
Thực chứng
Bạn phản ứng như thế nào trước nhữngBạn phản ứng như thế nào trước những điều tôi nói?
Hội thoại• Bạn có thể cho tôi biết mấy giờ rồi
khô ?
12
không?• Bạn có thể đưa tôi lọ muối không?
Lê Thanh Hương – Khoa CNTT - ĐHBKHN
4
Tri thức thế giới
John went to the diner. He ordered a steak. He left a tip and went home.
– What did John eat for dinner?Wh b ht J h hi f d?
13
– Who brought John his food?– Who cooked the steak?– Did John pay his bill?
Lê Thanh Hương – Khoa CNTT - ĐHBKHN
Câu hỏi LSAT / (former) GRE• Six sculptures – C, D, E, F, G, H – are to be exhibited in rooms 1, 2,
and 3 of an art gallery.S l t C d E t b hibit d i th– Sculptures C and E may not be exhibited in the same room.
– Sculptures D and G must be exhibited in the same room.– If sculptures E and F are exhibited in the same room, no other
sculpture may be exhibited in that room.– At least one sculpture must be exhibited in each room, and no
more than three sculptures may be exhibited in any room.• If sculpture D is exhibited in room 3 and sculptures E and F are
14
exhibited in room 1, which of the following may be true?A. Sculpture C is exhibited in room 1B. Sculpture H is exhibited in room 1C. Sculpture G is exhibited in room 2D. Sculptures C and H are exhibited in the same roomE. Sculptures G and F are exhibited in the same room
U: Where is A Bug’s Life playing in Mountain View?
Phân tích đồng tham chiếu (Reference Resolution)
S: A Bug’s Life is playing at the Summit theater.U: When is it playing there?S: It’s playing at 2pm, 5pm, and 8pm.U: I’d like 1 adult and 2 children for the first show.
How much would that cost?
ồ ế
15
• Các nguồn tri thức thế giới:– Tri thức miền (domain knowledge)– Tri thức diễn ngôn (discourse knowledge)– Tri thức thế giới (world knowledge)
Lê Thanh Hương – Khoa CNTT - ĐHBKHN
Vấn đề xử lý ngôn ngữ• Các công cụ cần:
T i thứ ề ô ữ– Tri thức về ngôn ngữ– Tri thức về thế giới– Cách kết hợp các nguồn tri thức đó
• Giải pháp tiềm năng:ô hì h á ất â d từ dữ liệ
16
– mô hình xác suất xây dựng từ dữ liệu• P(“maison” → “house”) cao• P(“L’avocat general” → “the general avocado”)
thấpLê Thanh Hương – Khoa CNTT - ĐHBKHN
5
7.3. Các vấn đề mở
• Dịch máy• Dịch máy• Trích rút thông tin• Nhận dạng tiếng nói• Hiểu nội dung
17Lê Thanh Hương – Khoa CNTT - ĐHBKHN
Dịch máy
Ví dụ:
• Au sortir de la saison 97/98 et surtout au debut de• Au sortir de la saison 97/98 et surtout au debut de cette saison 98/99…
• With leaving season 97/98 and especially at the beginning of this season 98/99…
Các hệ thống dịch ghi nhớ các thông tin sau:• Làm sao để viết trôi chảy
18
• Làm sao để viết trôi chảy• Sự tương ứng giữa 2 ngôn ngữ• Với 2 ngôn ngữ gần tương đồng thì bản dịch chấp
nhận được. Hiện nay dịch máy hỗ trợ người dịch là chính
Lê Thanh Hương – Khoa CNTT - ĐHBKHN
Trích rút thông tin
Quảng cáo cho thuê nhà• Thường là văn bản không có các thẻ xml hoặc html• Thường là văn bản không có các thẻ xml hoặc html
<ADNUM> 2067206v1 </ADNUM><DATE>March, 02 </DATE><ADTITLE> MADDINGTON $89,000</ADTITLE><ADTEXT>OPEN 1.00-1.45<BR> U 11/10 BERTRAM
19
ADTEXT OPEN 1.00 1.45 BR U 11/10 BERTRAM ST<BR> NEW TO MARKET Beautiful <BR> 3brm freestanding <BR> villa, close to shops & bus<BR> ideally suit 1st home buyer,<BR>investor & 55 and over.<BR> </ADTEXT>
Lê Thanh Hương – Khoa CNTT - ĐHBKHN
Trích rút thông tin
• Thông tin cần tìm:Vị t í– Vị trí:
• 1 cụm từ: “chỉ đi mất 45’ từ Parramatta”– Tiền: $120K < M < $200K
• Nhiều giá: trước là $155K, bây giờ là $145– Số phòng (bedrooms): các cách viết khác
h (b bd b d B/R)
20
nhau (br, bdr, beds, B/R)
Lê Thanh Hương – Khoa CNTT - ĐHBKHN
6
Trích rút thông tinĐiền các đoạn trong văn bản vào các trường trong CSDLNhiệm vụ:
October 14 2002 4:00 a m PTOctober 14, 2002, 4:00 a.m. PT
For years, Microsoft Corporation CEO Bill Gates railed against the economic philosophy of open-source software with Orwellian fervor, denouncing its communal licensing as a "cancer" that stifled technological innovation.
Today, Microsoft claims to "love" the open-source concept, by which software code is made public to encourage improvement and development by outside programmers. Gates himself says Microsoft will gladly disclose its
NAME TITLE ORGANIZATIONBill Gates CEO MicrosoftBill Veghte VP MicrosoftRichard Stallman founder Free Soft..
IE
21
crown jewels--the coveted code behind the Windows operating system--to select customers.
"We can be open source. We love the concept of shared source," said Bill Veghte, a Microsoft VP. "That's a super-important shift for us in terms of code access.“
Richard Stallman, founder of the Free Software Foundation, countered saying…
Hệ thống hỏi đápCâu hỏi dựa trên việc
hiểu một tập tài liệu
• Dễ: “Thủ đô của Việt Nam là gì?”
• Khó hơn: “Có bao nhiêu thành phố lớn ở Mĩ ?”
• Khó: “Các vấn đề hí h t ộ t h
22
chính trong cuộc tranh cãi về hiện tượng nóng lên của trái đất?”
Lê Thanh Hương – Khoa CNTT - ĐHBKHN
7.4. Mô hình ngôn ngữCó 2 cách chính để mô hình hoá ngôn ngữ: Có các c để ô oá gô gữ• Mô hình ngôn ngữ: mỗi câu s được gắn với 1 xác
suất phân phối P(s)– Tiện lợi khi muốn mô hình hoá 1 cách trôi chảy trong 1 hệ
thống có nhiễu giống như dịch máy– Thường là các mô hình đơn giản, luyện trên nhiều dữ liệu
• Phân tích ngôn ngữ: quyết định cấu trúc và/hoặc ý nghĩa của câu
23
nghĩa của câu– Tiện lợi khi cần xử lý văn bản ở mức sâu hơn như trích rút
thông tin hoặc hỏi đáp– Đầu tiên được dùng trong dịch máy
Lê Thanh Hương – Khoa CNTT - ĐHBKHN
7.4.1. Mô hình ngôn ngữ
24
7
Xử lý tiếng nói• Ta cần đọc 1 câu khi biết chuỗi ký hiệu
âm thanh của nó:
• Cách tiếp cận đối với kênh có nhiễu:– Xây dựng mô hình tổng quát dựa trên tích
(mã hoá)P(A,s) = P(s) P(A|s)
– Để giải mã, sử dụng luật Bayes
25
– Tìm 1 câu nhằm tối đa tích này
Lê Thanh Hương – Khoa CNTT - ĐHBKHN
Mô hình ngôn ngữ dựa trên N-gram
• Không giảm tính tổng quát tính xác suất câu trên cơKhông giảm tính tổng quát, tính xác suất câu trên cơ sở xác suất các từ
• Phụ thuộc quá nhiều vào các từ trước• Giải pháp L giả thiết mỗi từ chỉ phụ thuộc vào 1 số
26
giới hạn các từ trước
Lê Thanh Hương – Khoa CNTT - ĐHBKHN
Unigram
• Quá trình thực hiện: chọn 1 từ, rồi từ khác … :Quá trình thực hiện: chọn 1 từ, rồi từ khác … :
• Cần có 1 ký tự đặc biệt đánh dấu kết thúc xâu. Ví dụ:• [after, any, on, consistently, hospital, lake, of, of, other, and, factors,
raised, analyst, too, allowed, mexico, never, consider, fall, bungled,
27
y gdavison, that, obtain, price, lines, the, to, sass, the, the, further, board, a, details, machinists, the, companies, which, rivals, an, because, longer, oakes, percent, a, they, three, edward, it, currier, an, within, in, three, wrote, is, you, s., longer, institute, dentistry, pay, however, said, possible, to, rooms, hiding, eggs, approximate, financial, canada, the, so, workers, advancers, half, between, nasdaq]
Lê Thanh Hương – Khoa CNTT - ĐHBKHN
BigramVấn đề với unigrams:
P(the the the the) >> P(I like ice cream)P(the the the the) P(I like ice cream)
Điều kiện:
28Lê Thanh Hương – Khoa CNTT - ĐHBKHN
8
BigramVí dụ:
Eat ice-cream (tần suất cao)Eat John (thấp)Eat John (thấp)
Nhược:• P(John decided to bake a) có tần suất cao• Xét:
P(w3) = P(w3|w2w1)=P(w3|w2)P(w2|w1)P(w1)→ Quá phụ thuộc, chủ ngữ có thể chọn vị ngữsử dụng cấu trúc ngữ pháp để ngăn chặn
29
sử dụng cấu trúc ngữ pháp để ngăn chặn• Xét Fred watered his mother’s small garden. Pr(garden)?
– Pr (garden|mother’s small) thấp ⇒ trigram không thích hợp– Pr(garden | X is head of object NP to water) cao
sử dụng bigram + quan hệ ngữ pháp
Lê Thanh Hương – Khoa CNTT - ĐHBKHN
7.4.2. Phân tích ngôn ngữ
30
Phân tích cấu trúc đoạn (Phrase Structure Parsing)
• Câu được chia thành các đoạn, phân cách bằng các dấu ngoặc
Sphân cách bằng các dấu ngoặc.
Ví dụ:(S (NP Tôi)
(VP (VB đọc)(NP sách))
Tôi đọc sách
VBNP NP
VP
31
))
Vấn đề:• Nhập nhằng: 1 câu - nhiều cách biểu diễn
Lê Thanh Hương – Khoa CNTT - ĐHBKHN
Nhập nhằng
S Nhập nhằng giới từ (Preposition
Mai thấy Hải ở tầng hai. S
NP
0 Mai
VP
PPVB NP
2 Hải
Nhập nhằng giới từ (Preposition – PP) có thể gắn ở 2 nơi(với VP hoặc NP)
1 thấy
32
0 a PP
NP3 ở
4 tầng 5 hai 6
1 thấy
Lê Thanh Hương – Khoa CNTT - ĐHBKHN
9
Ngôn ngữ phi ngữ cảnh (Context-Free Grammar)Luật cú pháp:
R: X → γ , X là 1 ký hiệu không kết thúc; γ là chuỗi các ký hiệu kết thúc và không kết thúc
Ngôn ngữ cảm ngữ cảnh: R: αAγ ⇒ αβγ
33Lê Thanh Hương – Khoa CNTT - ĐHBKHN
Phân tích cú pháp kiểu top-down• Hướng đích• Khởi tạo với 1 d/s các phần tử
S
NP VPạ pcần xây dựng
• Viết lại các đích:– tìm luật có vế trái giống đích– mở rộng đích = VP luật
• Nếu có nhiều cách triển khai đích, chọn 1 luật
…….
34
Nếu có nhiều cách triển khai đích, chọn 1 luật để áp dụng (vấn đề tìm kiếm)
• Có thể dùng tìm kiếm rộng hoặc tìm kiếm sâu.
Lê Thanh Hương – Khoa CNTT - ĐHBKHN
Phân tích cú pháp kiểu top-down
• S→ NP VP→ NP VP→ DT NNS VBD→ The children slept
• S→ NP VP
35
→ DT NNS VBD NP→ DT NNS VBD DT NN→ The children ate the cake
Lê Thanh Hương – Khoa CNTT - ĐHBKHN
Phân tích cú pháp kiểu bottom-up
• Hướng dữ liệu
S
NP VPHướng dữ liệu• Bắt đầu với xâu cần phân tích• Nếu xâu trong danh sách các đích khớp
với VP của luật, thay nó = VT của luật• Kết thúc khi d/s đích = {S}.
Nế hiề l ật ó VP khớ ới đí h h
NP VP
36
• Nếu nhiều luật có VP khớp với đích, chọn 1 luật để áp dụng
• Có thể dùng TKR hoặc TKS.
Lê Thanh Hương – Khoa CNTT - ĐHBKHN
10
CFG
37Lê Thanh Hương – Khoa CNTT - ĐHBKHN
Thuật toán CYK
1 2 3 4 5
“ The children ate the cake”
0 DT NP S
1 NN
2 VBD VP
38
3 DT NP
4 NN
Lê Thanh Hương – Khoa CNTT - ĐHBKHN
Bài tậpCho văn phạm phi ngữ cảnh sau đây:
S → NP VP NP → Det NounNP → NameVP → Verb VP → Verb That S
Name → CharlesDet → theNoun → roomVerb →thinksVerb → smellsThat → that
39
Ap dụng thuật toán PTCP CYK, hãy vẽ bảng minh họa quá trình phân tích cú pháp của câu
Charles thinks that the room smells.
Bài tập
C ủ
Cho văn phạm phi ngữ cảnh sau đây:
1. <Câu> <chủ ngữ> <vị ngữ>2. <chủ ngữ> <danh ngữ>3. <vị ngữ> <động ngữ>4. <danh ngữ> <Loại từ> <danh từ> 5. <danh ngữ> <danh từ> <tính từ>6. <danh ngữ> <loại từ> <danh ngữ>
7. <động ngữ> <động từ> <danh ngữ>
8. <động ngữ> <động từ> 9. <loại từ> con10.<danh từ> ngựa11.<tính từ> đá12.<động từ> đá
40
Ap dụng thuật toán PTCP CYK, hãy vẽ bảng minh họa quá trình phân tích cú pháp của câu
Con ngựa đá con ngựa đá.
11
Bài tập
8 í í í
Cho văn phạm phi ngữ cảnh sau đây:
1. <Câu> <chủ ngữ> <vị ngữ>2. <chủ ngữ> <danh từ>3. <chủ ngữ> <đại từ>4. <vị ngữ> <động ngữ>5. <vị ngữ> <tính ngữ>6. <tính ngữ> <tính từ> <phó từ>7. <động ngữ> <động từ> <tính ngữ>
8. <tính ngữ> <tính ngữ> <tính ngữ>9. <danh từ> ông già10. <đại từ> ông11. <tính từ> già12. <động từ> đi13. <phó từ> đi14. <tính từ> nhanh15. <phó từ> quá
41
Ap dụng thuật toán PTCP CYK, hãy vẽ bảng minh họa quá trình phân tích cú pháp của câu
Ông già đi nhanh quá.
Tập ngữ liệu
• là tập các văn bản được chú thích theo 1 địnhlà tập các văn bản được chú thích theo 1 định dạng nào đó
• đôi khi chỉ có 1 số lượng lớn từ không được đánh dấu
Ví dụ: • Newswire: trên 500 triệu từ
42
• Brown: 1 triệu từ đã được gán nhãn • Penn Treebank: 1 triệu từ đã được gán nhãn
cú pháp
Lê Thanh Hương – Khoa CNTT - ĐHBKHN
Một cây cú pháp trong Penn Treebank
43Lê Thanh Hương – Khoa CNTT - ĐHBKHN
Phương pháp dựa trên tập ngữ liệu
44Lê Thanh Hương – Khoa CNTT - ĐHBKHN
12
Phương pháp dựa trên tập ngữ liệu
• Cần 1 bộ PTCP dựa trên xác suất để có kết quả hội tụ• Có thể xây dựng 1 bộ luật cú pháp ngay từ 1 cây cú pháp
(nhưng không tốt lắm):
45
• Cải thiện bằng cách làm phong phú thêm bộ luật (như đưa thêm thông tin về từ vựng)
• Cũng có thể đạt được độ chính xác chấp nhận được mà không cần đến thông tin từ vựng
Lê Thanh Hương – Khoa CNTT - ĐHBKHN
7.5. Phân tích ngữ nghĩa
Ví dụ:Ví dụ:• “Bob thích Alice.”• “Tôi nghĩ tôi là một con gấu.”Phân tích ngữ nghĩa cho biết:
– 1 phát biểu đúng hay sai.– điều kiện để phát biểu có giá trị đúng
46
ệ p g ị g– Có thể hành động phù hợp với phát biểu đó.
• “Bob thích ai?”• “Đóng cửa lại!”
Lê Thanh Hương – Khoa CNTT - ĐHBKHN
7.5. Phân tích ngữ nghĩaTên riêng: Chỉ một số thực thểVí dụ: Bob: bobCâu: Trả về kết quả đúng hoặc sai• Bob sings : sings(bob)Động từ: sử dụng hàm• sings : λx.sings(x)Kết hợp ngữ nghĩa• S: β(α) → NP:α VP: β• VP: λx . α(x) ∧ β(x) → VP:α and: VP:β (phép giao)
47
7.5. Phân tích ngữ nghĩa
S (IP) VP(NP )= ate (john iceS (IP)
NP VP
V NPJohn
V(NP )= λy.ate (y, ice-cream )
VP(NP )= ate (john , ice-cream )
ice-cream
john
λxλy ate(y
48
John
ate ice-cream
λxλy.ate(y ,x)
13
Cách biểu diễn vị từ• Gilly swallowed a goldfish
– swallowed(Gilly, goldfish)swallowed(Gilly, goldfish)• goldfish không phải là tên một đối tượng duy
nhất như là Gilly
• Vấn đềGilly swallowed a goldfish and Milly
ll d ldfi h
49
swallowed a goldfishchuyển thành:swallowed(Gilly, goldfish) AND swallowed(Milly, goldfish)nhưng không phải cùng 1 goldfish …
Sử dụng lượng từ• Gilly swallowed a goldfish
swallowed(Gilly goldfish)– swallowed(Gilly, goldfish)
• Tốt hơn: ∃g goldfish(g) AND swallowed(Gilly, g)• Hoặc sử dụng vị từ lượng từ:
– exists(λg goldfish(g), λg swallowed(Gilly,g)) – tương đương: exists(goldfish, swallowed(Gilly))
“ ố ở G
50
• “trong tập cá có 1 con cá bị nuốt bởi Gilly”
– Mai likes small cats.– Mai likes the cat whose name is Tom.
Thời• Gilly swallowed a goldfish
i t ( ldfi h λ ll d(Gill ))– exists(goldfish, λg swallowed(Gilly,g))• Cải tiến:
– swallowed(Gilly,g) chuyển thành swallow(t,Gilly,g), t là thời gian
– ∃t past(t) AND exists(λg goldfish(g), λg swallow(t,Gilly,g))– “Có lúc nào đó trong quá khứ con cá là 1 trong các vật bị
51
Có lúc nào đó trong quá khứ, con cá là 1 trong các vật bị Gilly nuốt”
Các thuộc tính về sự kiện• Gilly swallowed a goldfish– ∃t past(t) AND exists(goldfish, swallow(t,Gilly))
• Một phát biểu có thể có các thuộc tính khác nữa:– [Gilly] swallowed [a goldfish] [on a dare] [in a telephone booth] [with 30 other freshmen] [after many bottles of vodka had been consumed].
– xác định ai? làm gì? tại sao? khi nào? (who what why h )
52
when)• Thay biến thời gian t với biến sự kiện e
– ∃e past(e), act(e,swallowing), swallower(e,Gilly), exists(goldfish, swallowee(e)), exists(booth, location(e)), …• Có thể biểu diễn quá khứ bằng λe ∃t before(t,now), ended-
at(e,t)
14
Trật tự của lượng từ• Ví dụ– In this country a woman gives birthIn this country a woman gives birth every 15 min. Our job is to find that woman and stop her.
– ∃woman (∀15min gives-birth-during(woman, 15min))
– ∀15min (∃woman gives-birth-during(15min
53
– ∀15min (∃woman gives-birth-during(15min, woman))
Danh ngữ• Expert λg expert(g)• big fat expert λg big(g), fat(g), expert(g)big fat expert λg big(g), fat(g), expert(g)
1. Phân tích cú pháp2 Tì ữ hĩ ủ từ từ
Phân tích ngữ nghĩa câu2. Tìm ngữ nghĩa của từng từ3. Xác định ngữ nghĩa cho mỗi thành phần ngữ
pháp, thực hiện từ dưới lên
55
Ngữ nghĩa thành phần
S
START
Punc
assert(every(nation, λx ∃e present(e), act(e,wanting), wanter(e,x), wantee(e, λe’ act(e’,loving),
lover(e’ G) lovee(e’ L))))
every(nation, λx ∃e present(e), act(e,wanting), wanter(e,x), wantee(e, λe’ act(e’,loving),
lover(e’,G), lovee(e’,L)))
Sinf
VPstem
Vstemwant
VPfin
T-s
Sfin
NP
Nnation
DetEvery
Punc.
λv λx ∃e present(e) v(x)(e)
every nation
λs assert(s)
lover(e’,G), lovee(e’,L))))λp every(nation, p)
56
NPLaura
Vstemlove
VPstem
VPinf
Tto
NPGeorge
G
λa a
λy λx λe act(e,loving), lover(e,x), lovee(e,y)
L
λy λx λe act(e,wanting), wanter(e,x), wantee(e,y)
λv λx ∃e present(e),v(x)(e)
15
• Thêm thuộc tính “sem” cho mỗi luật phi ngữ cảnh – S → NP loves NP
Ngữ nghĩa thành phần
S → NP loves NP– S[sem=loves(x,y)] → NP[sem=x] loves NP[sem=y]– Nghĩa của S phụ thuộc vào nghĩa của NP
• TAG version:
VP
S
NPx
loves(x,y)
57
NPVloves
x
y
Điền mẫu: S[sem=showflights(x,y)] →I want a flight from NP[sem=x] to NP[sem=y]
• Thay S → NP loves NP– S[sem=loves(x,y)] → NP[sem=x] loves NP[sem=y]
Ngữ nghĩa thành phần
• Luật tổng quát S → NP VP:– V[sem=loves] → loves– VP[sem=v(obj)] → V[sem=v] NP[sem=obj]– S[sem=vp(subj)] → NP[sem=subj] VP[sem=vp]
• George loves Laura có sem=loves(Laura)(George)
• Trong phần này ta:
58
Trong phần này, ta:– tính ngữ nghĩa từ dưới lên– Ngữ pháp ở dạng chuẩn Chomsky– Mỗi nút có 2 con: 1 hàm và 1 tham số– Để lấy ngữ nghĩa của nút, áp dụng hàm vào tham số
Ngữ nghĩa thành phần
START assert(loves(L,G))M ố diễ đ t G l L
AdjP
VPfin
Sfin Punc.
NPGeorge
V
λs assert(s)
G
λy loves(L,y)
loves(L,G)
Muốn diễn đạt G loves L
59
AdjPLaura
Vpresloves
loves =λx λy loves(x,y)
L
G
Ngữ nghĩa thành phần
START∃e present(e) act(e loving)
AdjP
VPfin
Sfin Punc.
NPGeorge
VG
λy loves(L,y)
loves(L,G)
∃e present(e), act(e,loving), lover(e,G), lovee(e,L)
λy ∃e present(e), act(e,loving),
lover(e,y), lovee(e,L)
60
AdjPLaura
Vpresloves
loves =λx λy loves(x,y)
L
G
λx λy ∃e present(e), act(e,loving),
lover(e,y), lovee(e,x)
16
Cách biểu diễn ngữ nghĩa cơ bản
• Sử dụng “Event”• Sử dụng Event• (EVENT :condition1 val1 :condition2 val2… :condn valn)
• Ví dụ:• (see :agent John :patient Mary :tense
61
past)
Luật cú pháp/ngữ nghĩaThành phần/luật Dịch nghĩaThành phần/luật Dịch nghĩaVerb ate λxλy.ate(y, x)N NV VS S*= VP*(NP*)
62
S S*= VP*(NP*)NP N*VP V*(NP*)
Ý nghĩa của câu• λ form ứng với VP gắn với λ form đi với NP• λ form ứng với VP gắn với λ form đi với NP• Từ là các giá trị• Cho cây cú pháp, phân tích từ dưới lên để có
ngữ nghĩa của câu ate(John, ice-cream)• Vị từ này có thể được đánh giá dựa trên
CSDL để trả ề 1 giá trị hoặc T/F
63
CSDL để trả về 1 giá trị hoặc T/F.
Ví dụ • Phân tích ngữ nghĩa của các câu sau• Phân tích ngữ nghĩa của các câu sau.
– Tâm đã gặp An.– Tôi biết Tâm đã gặp An.– Tâm đã gặp An ở trường.
64
17
Ví dụ • Đưa ra cách biểu diễn ngữ nghĩa dựa• Đưa ra cách biểu diễn ngữ nghĩa dựa
trên sự kiện cho các câu sau:– Willy wants Lilly to get married
65