Đồ án tốt nghiệp Nghiên cứu các kỹ thuật phân tích câu hỏi và sinh câu trả lời

Trong đồ án tốt nghiệp này bao gồm các vấn đề sau:  Tìm hiểu về kiến trúc của hệ thống hỏi đáp  Phân tích câu hỏi dựa vào trie  Tìm hiểu về một hệ thống cụ thể là IBiS1 issue-based in

Trang 1

DANH MỤC CÁC TỪ VIẾT TẮT 4

DANH MỤC CÁC HÌNH VẼ 5

DANH MỤC CÁC BẢNG 6

TÓM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP 8

Chương I TỔNG QUAN 9

1 Giới thiệu chung về hệ thống hỏi đáp 9

2 Khó khăn trong xử lý ngôn ngữ tự nhiên 11

2.1 Cấu trúc ngữ pháp và các thành phần cấu tạo câu 11

2.2 Phép lặp từ 11

2.3 Câu tỉnh lược 12

Chương II KIẾN TRÚC CHUNG HỆ THỐNG HỎI ĐÁP 13

1 Kỹ thuật nhận dạng câu hỏi và trả lời 14

1.1 Phân tích câu hỏi 14

1.2 Luật phân tích từ ngữ 15

1.2.1 Xác suất ngữ nghĩa (Sense probability) 15

1.2.2 Dạng của từ 16

1.2.3 Khoảng cách của từ (Word Distance) 16

1.2.4 Thay thế từ ngữ 16

1.3 Luật viết dạng câu trả lời - query reformulation & query expansion 17

1.3.1 Viết lại dạng truy vấn - Query reformulation 17

1.3.2 Mở rộng truy vấn - Query expansion 17

2 Kỹ thuật trích rút dữ liệu - retrieve document & answer extraction 18

2.1 Trích rút thông tin - Retrieve document 18

2.2 Trích rút câu trả lời - Answer extraction 19

2.3 Kỹ thuật xử lý đại từ thay thế 20

2.4 Tổ chức cơ sở dữ liệu độc lập 21

2.4.1 Bảng ngữ nghĩa câu - Semantic tables 21

2.4.2 Bảng dữ liệu cơ bản 23

2.4.3 Ánh xạ giữa 2 loại bảng 23

Chương III PHÂN TÍCH CÂU HỎI DỰA VÀO TRIE 24

1 Cấu trúc cây Trie 24

2 Phân tích câu hỏi dựa vào cấu trúc trie 26

3 Câu nghi vấn và cấu trúc câu nghi vấn trong tiếng việt 28

4 Trie trong phân tích câu hỏi tiếng Việt 31

Chương IV HỆ THỐNG HỎI ĐÁP HƯỚNG CHỦ ĐỀ - ISSUED -BASED INFORMATION SYSTEM – IBiS 33

1 Tổng quan về IBiS1 33

1.1 Kiến trúc IBiS1 33

1.2 Một số giả định 34

1.3 IBiS1 Datatype 35

2 Các cấu trúc cú pháp, ngữ nghĩa trong IBiS1 36

2.1 Các dạng thay thế ngữ pháp 36

2.2 Mệnh đề 37

2.3 Câu hỏi 38

Trang 2

2.4 Short Answer - các câu trả lời ngắn 38

2.5 Giới hạn phân loại ngữ nghĩa 39

2.6 Mối liên hệ giữa câu hỏi và câu trả lời 39

2.7 Kết hợp câu hỏi và câu trả lời tạo thành các mệnh đề - Proposition 41

3 Dialogue moves - các bước thực hiện hỏi đáp trong IBiS1 42

4 Giới thiệu về dialogue plans - kế hoạch hội thoại trong IBiS1 43

4.1 Domain plans - các kế hoạch hội thoại theo lĩnh vực và dialogue plans - kế hoạch 43

4.2 Cấu trúc của kế hoạch (plans) 43

5 Tất cả các trạng thái thông tin – Total Information State trong IBiS1 44

5.1 Trạng thái thông tin - Information State trong IBiS1 44

5.2 Khởi tạo IS 46

5.3 Resource interfaces – các biến tài nguyên 46

5.4 Module interface variables – các biến module 47

6 IBiS update module 48

6.1 Luật để lấy thông tin về phát biểu cuối 48

6.2 Các vấn đề liên quan đến ask-move 48

6.3 Tích hợp answer-move 51

6.4 Downdating QUD – Làm gọn QUD 51

6.5 Tích hợp greet và quit-move 52

6.6 Quản lý kế hoạch 53

6.7 Update algorithm – Giải thuật cập nhật cho IBiS1 54

7 IBiS1 select module 54

7.1 Chọn hành động từ kế hoạch 54

7.2 Chọn ask-move 55

7.3 Chọn respond 55

7.4 Chọn answer-move 56

8 Các module khác 56

Chương V CHƯƠNG TRÌNH CÀI ĐẶT THỬ NGHIỆM VÀ ĐÁNH GIÁ 57

1 Cài đặt thuật toán phân tích câu hỏi sử dụng Trie 57

1.1 Xác định loại câu hỏi và câu trả lời mong đợi cho chương trình 57

1.2 Thiết kế câu hỏi 58

1.3 Tổ chức cấu trúc Trie 59

1.4 Tổ chức cơ sở dữ liệu 59

1.5 Các hàm xây dựng 62

1.6 Sơ đồ khối cho việc hỏi - trả lời sử dụng trie 64

1.7 Quá trình duyệt trie 64

1.8 Nhận xét, đánh giá 66

2 Ứng dụng IBiS1 vào lĩnh vực phòng tranh – viện bảo tàng 67

2.1 Domain resource tài nguyên miền 67

2.2 Lexicon resource - từ điển ngôn ngữ 68

2.3 Database resource - CSDL 68

2.4 Ví dụ về hội thoại sử dụng IBiS1 69

Chương VI KẾT LUẬN 72

TÀI LIỆU THAM KHẢO 73

Trang 3

DANH MỤC CÁC TỪ VIẾT TẮT

2 IBiS Issue-Based Information System Hệ thống hỏi đáp hướng chủ đề

nhiên

Trang 4

DANH MỤC CÁC HÌNH VẼ

Hình 1 Kiến trúc một hệ thống QA 10

Hình 2 Lược đồ hệ thống hỏi đáp 13

Hình 3 Hệ thống QALC 18

Hình 4 Nghĩa của từ "ship" 22

Hình 5 Cấu trúc trie xác định thực thể 25

Hình 6 Duyệt trie 26

Hình 7 Cấu trúc trie không xác định loại thực thể 27

Hình 8 Kiến trúc IBiS1 33

Hình 9 Các thành phần của IS 45

Hình 10 Resource interfaces – các biến tài nguyên 47

Hình 11 Sơ đồ khối cho việc phân tích câu hỏi sử dụng trie 64

Hình 12 Cài đặt thuật toán duyệt trie 65

Trang 5

DANH MỤC CÁC BẢNG

Bảng 1 Sự khác nhau giữa QA và hệ thống tìm kiếm 9

Bảng 2 Các câu hỏi mẫu 24

Bảng 3 Thông tin về các node trong trie 25

Bảng 4 Mối quan hệ resolves giữa câu hỏi – câu trả lời 40

Bảng 5 Mối quan hệ relevant giữa câu hỏi – câu trả lời 41

Bảng 6 Mệnh đề thu được khi kết hợp câu hỏi- câu trả lời 42

Bảng 7 Một số câu hỏi ví dụ khi cài đặt chương trình dùng trie 58

Bảng 8 Chú thích các EAT 58

Bảng 9 Chú thích ngoại lệ 59

Bảng 10.Bảng ARTIST - Lưu trữ thông tin hoạ sĩ 60

Bảng 11.Bảng PAINT – Thông tin về tranh trong phòng triển lãm 61

Bảng 12 Bảng GENRE –Thông tin về trường phái hội hoạ 61

Bảng 13 Bảng OWNER - Lưu trữ thông tin của người chủ có tranh được triển lãm 62

Bảng 14.Các ràng buộc trong lĩnh vực phòng tranh-viện bảo tàng 68

Bảng 15 Các từ đồng nghĩa 68

Bảng 16 Mối liên hệ giữa các câu trả lời ngắn và các dialogue move 68

Trang 6

LỜI CẢM ƠN

Trước hết em xin chân thành gửi lời cảm ơn sâu sắc tới các thầy cô trong trường Đại học Bách khoa Hà Nội nói chung và các thầy cô trong khoa

Công nghệ thông tin, bộ môn Hệ thống thông tin nói riêng đã tận tình giảng

dạy, truyền đạt cho em những kiến thức, những kinh nghiệm quý báu trong

suốt quá trình năm năm học tập và rèn luyện tại trường

Em xin gửi lời cảm ơn đến cô Lê Thanh Hương – giảng viên bộ môn

Hệ thống thông tin, khoa Công nghệ thông tin, trường Đại học Bách khoa Hà

Nội đã hết lòng giúp đỡ, hướng dẫn và chỉ dạy tận tình trong quá trình em

Trang 7

TÓM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP

Cùng với sự phát triển không ngừng của kinh tế - xã hội, cũng như khoa học kỹ thuật,lượng thông tin ngày càng khổng lồ, thế giới bước vào kỷ nguyên mới, kỷ nguyên về sự bùng

nổ thông tin số Ở đó ai nắm bắt được nhiều thông tin hơn thì cơ hội để trở thành “người chiếnthắng” sẽ cao hơn Chính vì vậy mà nhu cầu tìm thông tin nhanh gọn, chính xác và tiện lợingày một cao

Để đáp ứng nhu cầu đó ta cần xây dựng một hệ thống trích rút thông tin lý tưởng là hệthống có khả năng thực hiện các giao tiếp, hiểu ngôn ngữ như con người Nó cho phép người

sử dụng đưa ra yêu cầu thông tin, những câu hỏi dưới dạng ngôn ngữ tự nhiên (naturallanguge), hệ thống phải hiểu được các thông tin đó ở mức độ như con người: khi nhận đượcyêu cầu thông tin hay câu hỏi, nó phải trả về đúng thông tin người sử dụng cần, không thiếu,không thừa

Hiện nay, mặc dù chưa có một hệ thống trích rút thông tin nào đạt đến mức độ lý tưởngnhư con người mong muốn nhưng đã có một số hệ thống phát triển đạt được những kết quảkhả quan Đó chính là hệ thống hỏi đáp (Question Answering System - QA)

Trong đồ án tốt nghiệp này bao gồm các vấn đề sau:

 Tìm hiểu về kiến trúc của hệ thống hỏi đáp

 Phân tích câu hỏi dựa vào trie

 Tìm hiểu về một hệ thống cụ thể là IBiS1 (issue-based information system - hệthống hội thoại hướng chủ đề)

 Cài đặt

 Phân tích câu hỏi dựa vào trie ứng dụng trong bảo tàng

 Cài đặt hệ thống hội thoại ứng dụng trong bảo tàng

Trang 8

Chương I. TỔNG QUAN

1 Giới thiệu chung về hệ thống hỏi đáp

Trong lĩnh vực trích rút thông tin, hệ thống hỏi đáp (Question-Answering, viết tắt

là QA) đảm nhận việc tự động trả lời các câu hỏi được nhập vào ở dạng ngôn ngữ tựnhiên Hệ thống dựa vào cơ sở dữ liệu hay các văn bản ngôn ngữ tự nhiên có sẵn, đưa

ra câu trả lời phù hợp theo ngôn ngữ tự nhiên

QA đòi hỏi các kỹ thuật xử lý ngôn ngữ tự nhiên (natural language processing NLP) hơn các dạng trích rút thông tin khác, ví dụ như: trích rút văn bản (documentretrieval)

-QA là nền móng để phát triển hệ thống hội thoại, kết hợp -QA với các cơ chế quản

lý hội thoại (Dialogue Management), ta sẽ được một hệ thống hội thoại hoàn chỉnh, hệthống và người dùng đều giao tiếp hỏi – trả lời

Cách trích rút thông tin tuyền thống là dựa vào ý tưởng coi tập văn bản nhưnhững nhóm từ riêng biệt, nhờ đó, nội dung ngữ nghĩa của văn bản tương đương vớitập từ khoá (keyword) nó chứa mà không quan tâm đến trật tự từ hay mối quan hệtrong câu Tuy nhiên, chỉ có từ khoá thôi thì chưa đủ, trật tự từ và quan hệ ngữ pháp rấtquan trọng trong việc quyết định nghĩa của câu Hệ thống hỏi đáp dựa trên cách tiếpcận chú trọng hơn đến ngữ pháp câu thông qua việc cho phép người dùng nhập câu hỏidưới dạng ngôn ngữ tự nhiên, đưa ra câu trả lời ngắn gọn theo ngôn ngữ tự nhiên

Bảng 1 Sự khác nhau giữa QA và hệ thống tìm kiếm

Thực tế đã có nhiều hệ thống hỏi đáp được xây dựng, về cấu trúc của các hệthống này có thể khác nhau, nhưng nhìn chung, đều có những vấn đề chính cần quantâm xử lý là:

 Phân loại câu hỏi

 Xử lý câu hỏi

 Tổ chức cơ sở dữ liệu

Trang 9

 Trích rút thông tin từ văn bản

 Sinh câu trả lời

Hình 1 Kiến trúc một hệ thống QA

Một vài hệ thống hỏi đáp tự động tiêu biểu trong thực tế như:

 PiQASso (Attardi et al., 2001)

 Ask MSR (Brill et al., 2002)

 TREC (Text REtrieval Conference, từ 1990 đến nay )

PiQASso là hệ thống hỏi đáp dựa trên sự kết hợp của các kỹ thuật trích rút thôngtin hiện đại với các bộ lọc ngôn ngữ để lựa chọn đoạn văn bản chứa thông tin phù hợp

để trả lời Bộ lọc ngôn ngữ được dựa trên rất nhiều công cụ xử lý ngôn ngữ tự nhiên

như: POS tagger (Part-Of-Speech Tagger - nhận diện loại từ), NE tagger (Name Entity Tagger – nhận diện thực thể) và cả CSDL về ngôn ngữ Nó phân tích câu hỏi để tìm ra

từ khóa để truy vấn và tìm ra EAT, phân tích các đoạn văn bao gồm cả việc kiểm tra sự

có mặt của các thực thể của EAT và mối quan hệ giữa các từ

AskMSR là hệ thống hỏi đáp có độ chính xác cao dựa vào việc phân tích lượng

dữ liệu online lớn mà nó thu được hơn là dựa vào các kỹ thuật xử lý ngôn ngữ tự nhiên.Đây là hệ thống đơn giản nhưng hiệu quả

Trang 10

TREC thực hiện lưu trữ các câu hỏi được phân theo từng loại cụ thể (ví dụ: tổchức, sự kiện,…) Việc phân loại câu hỏi và câu trả lời dựa trên tìm thông tin từ một sốlượng lớn các văn bản, tài liệu.

2 Khó khăn trong xử lý ngôn ngữ tự nhiên

2.1 Cấu trúc ngữ pháp và các thành phần cấu tạo câu

Trong nghiên cứu về ngữ pháp tiếng Việt chúng ta có thể thấy rằng chưa có mộtđịnh nghĩa chuẩn về cách gọi của loại từ cũng như ngữ pháp câu tiếng Việt

Trong tiếng Việt trật tự sắp đặt các từ là phương tiện chính để biểu thị quan hệngữ pháp – tức là quan hệ cú pháp – giữa các từ trong một câu Trật tự các yếu tố cấuthành được quy định bằng một vị trí nhất định Khi vị trí thay đổi thì nghĩa có thể thayđổi theo

Từ trong tiếng Việt có thể có một tiếng hay gồm nhiều tiếng Hơn nữa, trongtiếng Việt, những từ nhiều tiếng lại có thể được ghép bởi những tiếng hay từ khác cónghĩa Ví dụ hai từ một tiếng đất, nước có thể được ghép với nhau thành một từ có ýnghĩa trừu tượng hơn là đất nước

Ngoài ra còn có các cụm danh từ, động từ và tính từ với nhiều thành phần cấu tạo,đảm nhiệm các chức năng khác nhau trong câu

2.2 Phép lặp từ

Các đại từ, đại từ sở hữu hay danh từ thường được sử dụng để chỉ đến những trithức đã được nhắc đến trong các câu hỏi trước, phép ngữ pháp như vậy gọi là phép lặp

từ (anaphora) Xét đoạn hội thoaị sau:

> Quyển sách bìa đỏ kia là sách tham khảo à?

Đúng vậy.

> Nó bao nhiêu tiền?

[Quyển sách màu đỏ kia] bao nhiêu tiền ?

20.000 đồng.

Hệ thống phải hiểu được “nó” ở đây chính là “quyển sách màu đỏ kia” Mộtphương pháp đơn giản để xử lý loại câu này là lưu trữ danh sách các tri thức đã đượcnêu trước đó Khi gặp phải một đại từ, hệ thống kiểm tra lại danh sách từ điểm mớinhất và thay thế đại từ với tri thức gần nhất thỏa mãn ngữ pháp và giới hạn câu Phéplặp từ là vấn đề phổ biến trong xử lý ngôn ngữ tự nhiên

Trang 11

2.3 Câu tỉnh lược

Hàng ngày, con người thường xuyên sử dụng câu không hoàn chỉnh (câu tỉnhlược) trong hội thoại, mà nghĩa của những câu đó phụ thuộc vào những đoạn hỏi đápthực hiện trước đó

Xử lý những trường hợp phức tạp của câu tỉnh lược đòi hỏi hệ thống phải duy trìmột model hội thoại, điều này không phải lúc nào cũng dễ dàng mặc dù việc bắt buộcphải hỏi câu hỏi đầy đủ khá là khó chịu với người sử dụng

Trang 12

Chương II KIẾN TRÚC CHUNG HỆ THỐNG HỎI ĐÁP

Như đã nói ở phần trước, các hệ thống hỏi đáp thực tế có thể có cấu trúc sai khácnhau nhưng đều phải tập trung xử lý các vấn đề cơ bản

 Phân loại và xử lý câu hỏi

Về kiến trúc của hệ thống hỏi đáp, có thể chia thành 2 nhóm chính để tiếp cận:nhóm liên quan đến xử lý câu hỏi và câu trả lời (information extraction & syntacticanalysis), nhóm liên quan đến truy nhập, trích rút thông tin theo từ khóa (informationretrieval) Vì thế, ta sẽ tiếp cận hệ thống hỏi đáp theo 2 hệ thống con như trên

Trang 13

1 Kỹ thuật nhận dạng câu hỏi và trả lời

Khi một câu hỏi được đặt ra cho một người hay một hệ thống trả lời tự động,nhiệm vụ đầu tiên phải giải quyết nhằm đưa ra được câu trả lời là phải hiểu được câuhỏi

Quá trình xử lý một câu hỏi bao gồm các bước con như sau:

 Phân tích câu hỏi

 Phân tích ngữ pháp của câu, viết dạng câu trả lời

Quá trình lọc dạng câu có nhiệm vụ kiểm tra các ứng viên câu trả lời có chứanhững thực thể cần có ở câu trả lời mong đợi hay không và loại bỏ những câu khôngthích hợp Bộ lọc câu có nhiệm vụ nhận biết các mối quan hệ giữa các thành phần từkhóa của câu hỏi, và tìm kiếm mối quan hệ tương tự trong những ứng viên câu trả lời.Điều này thường được thực hiện đựa vào một cây phụ thuộc mà cấu trúc do hệ thốngquyết định “Khoảng cách” giữa câu hỏi và câu trả lời được tính toán để xác định trật tựcác ứng viên câu trả lời Câu trả lời được đánh giá cao nhất là câu trả lời được hệ thốnglựa chọn

1.1 Phân tích câu hỏi

Tác vụ phân tích câu hỏi có thể không rõ ràng đối với con người khi trả lời câuhỏi, tuy nhiên đối với một hệ thống trả lời tự động nó đóng vai trò cốt yếu quyết định

độ chính xác của hệ thống

Chắt lọc thông tin ẩn chứa trong câu hỏi giữ vai trò quan trọng, căn bản, cho phép

hệ thống thực thi đúng lệnh để đưa ra được câu trả lời đúng đắn cho câu hỏi đó.Khiviệc phân tích câu hỏi thất bại, rất khó và gần như là không thể cho hệ thống hỏi đápthực hiện nhiệm vụ của nó

Trang 14

Cách tiếp cận căn bản nhất để phân tích câu hỏi là chia nhiệm vụ thành 2 phần:tìm kiếm dạng câu trả lời mong đợi và tìm kiếm trọng tâm của câu hỏi Rất nhiều các

hệ thống (Mollá-Aliod 2003, Chen et al 2001…) sử dụng một tập các luật do người lậptrình tự tạo để tìm kiếm dạng câu trả lời mong đợi (EAT).Thường thì các luật được viếtdưới dạng các biểu thức chính quy (RE) và nhiệm vụ tìm kiếm dạng câu trả lời là việckiểm tra sự hòa hợp giữa câu hỏi và các biểu thức đó Mọi biểu thức đều tương thíchvới một dạng câu trả lời mong đợi và được gắn cho câu hỏi phù hợp với định dạng.Cách tiếp cận đơn giản nhất để tìm được trọng tâm của câu hỏi đó là loại bỏ tất cảcác từ dừng (không có nghĩa quan trọng, chỉ có tác dụng về mặt ngữ pháp) khỏi câu vàcoi những từ còn lại đại diện cho trọng tâm câu hỏi (từ khóa)

Một trong những kỹ thuật được sử dụng, đó là sử dụng cây trie (một dạng cây phụthuộc) Vấn đề này sẽ được làm rõ trong chương sau

Trích rút từ khóa (keyword)

Đây là bước đầu cho việc lựa chọn từ ngữ để sinh câu trả lời phù hợp

Hệ thống coi từ khóa là tất cả các danh từ, động từ, tính từ, phó từ trong câu hỏi,loại trừ danh sách các từ bao gồm (quyết định dựa vào kinh nghiệm của người thiết kế).Các từ mà module phân tích cú pháp không coi là một phần của từ, cụm từ ngôn ngữhọc cũng bị loại bỏ

Việc phân tích câu hỏi trong hệ thống QA đóng vai trò quan trọng Module phântích câu hỏi (question analysis) cho ta đầu ra là các thông tin như :

 Định dạng câu trả lời mong đợi

 Loại câu hỏi

 Tập từ khóa

1.2 Luật phân tích từ ngữ.

Cách tiếp cận hệ của hệ thống QA dựa trên những công cụ xử lý ngôn ngữ tựnhiên, mà độ chính xác và chất lượng bị giới hạn và phụ thuộc vào kiến trúc tổng thểcủa toàn hệ thống Đó là những công cụ như Minipar, WordNet, Name Entity target…Trong ngôn ngữ tồn tại những từ có nhiều nghĩa hoặc nhiều từ đồng nghĩa, gầnnghĩa… Vì vậy, trong hệ thống cần xây dựng trước những luật để quyết định từ loạicủa từ để phục vụ cho quá trình phân tích câu hỏi và sinh câu trả lời Một trong nhữngcách tiếp cận, đó là xây dựng WordNet

1.2.1 Xác suất ngữ nghĩa (Sense probability).

Trang 15

Trong quá trình phân tích câu, hệ thống thường phải quyết định xem một từ cóthuộc một loại từ nhất định nào không (như trong quá trình tìm dạng câu trả lời mongđợi) Điều này có thể thực hiện được dựa vào tính toán xác suất ngữ nghĩa của từ nằmtrong một dạng WordNet (ví dụ như xác suất của từ “cat” nằm cao ở mục “animal”trong WordNet) WordNet sắp xếp nghĩa của từ theo chuỗi Ví dụ, cho một danh sáchsắp xếp ngữ nghĩa của từ w là {s0,…,sn} ta tính toán xác xuất nghĩa của từ thuộc vàomục C như sau :

1.2.3 Khoảng cách của từ (Word Distance)

Việc tính toán khoảng cách của từ được sử dụng để tính toán khoảng cách giữa 2câu, cụ thể, giữa đoạn trả lời và câu hỏi

Khoảng cách giữa hai từ trái nghĩa phụ thuộc vào khoảng cách ngữ nghĩa ở cùng

độ sâu trong phân loại WordNet Chênh lệch độ sâu của tất cả các cặp ngữ nghĩa củahai từ được đo đạc dựa vào xác suất của cặp ngữ nghĩa của 2 từ tính riêng và kết hợplại

Khoảng cách giữa hai từ đồng nghĩa cũng được tính toán dựa trên tất cả các ngữnghĩa của từ, tùy theo xác suất Khoảng cách giữa hai từ, ký hiệu là dist(w1,w2) đượcđịnh nghĩa là khoảng cách đồng nghĩa hoặc trái nghĩa tùy vào 2 từ đó là đồng nghĩahay trái nghĩa

1.2.4 Thay thế từ ngữ.

Việc thay thế một từ nào đó có thể cần thiết trong quá trình mở rộng query, đượctính toán dựa trên tập W tất cả các tập đồng nghĩa của từ w Tập các từ thay thế cho wđược định nghĩa là:

Trang 16

Trong đó “th” là một giới hạn cố định, sử dụng để tránh trường hợp một từ gầnnghĩa với w có những nghĩa không thực sự gắn với w (ví dụ như “computer” với

“machine”)

1.3 Luật viết dạng câu trả lời - query reformulation & query expansion

1.3.1 Viết lại dạng truy vấn - Query reformulation

Khi một câu hỏi được đặt ra, hệ thống sẽ tự động sinh ra một hoặc vài chuỗi cókhả năng là câu trả lời cho câu hỏi

Đối với các câu hỏi trong tiếng Việt thì cách tốt nhất là giữ nguyên cấu trúc câu,thay vào vị trí của từ để hỏi bằng lời giải

Ví dụ như: “Tác giả của bức tranh Thiếu nữ bên hoa huệ là ai?”

Câu trả lời đơn giản nhất sẽ là “Tác giả của bức tranh Thiếu nữ bên hoa huệ là

<NAME>”

Cách thứ hai là viết lại câu: “<NAME> đã vẽ bức tranh Thiếu nữ bên hoa huệ”

Để tiến hành trả lời được theo cách thứ 2 ta phải thêm vào động từ sao cho phùhợp với nội dung câu hỏi mặc dù câu hỏi không chứa động từ nào Chính vì vậy nêncâu trả lời tốt nhất cho câu hỏi trong tiếng Việt là theo dạng 1

1.3.2 Mở rộng truy vấn - Query expansion

Các từ khoá tìm được trong quá trình phân tích câu hỏi được đưa vào query Quytrình này cần thiết để có thể tự động trích rút dữ liệu sinh câu trả lời EAT

Bước đầu tiên trong việc mở rộng query là việc phải xử lý hình thái đa ngữ nghĩacủa từ ngữ, bằng việc thay thế các từ khoá bằng những từ đồng nghĩa tương ứng (trongtệp cơ sở dữ liệu) nếu cần thiết  xác định trọng tâm câu trả lời Một vài tiền tốthường xuyên xuất hiện trong câu hỏi như “vị trí”, “ở”, “tại” mong đợi câu trả lời vềđịa điểm; “ngày”, “lúc”, “khi” mong đợi câu trả lời về thời gian… Sau xử lý, chúng bịloại bỏ khỏi query

Vòng tiếp theo, ta cần mở rộng việc tìm kiếm bằng việc thêm vào (trong trườnghợp “or”) các từ đồng nghĩa với cụm từ cần tìm kiếm

Bước tiếp theo là việc xử lý các trạng từ, bổ ngữ một cách thích hợp và loại bỏchúng khỏi những cụm từ cần tìm kiếm (xử lý) tiếp

Trong vòng xử lý cuối, nếu query còn chứa nhiều hơn 3 từ khoá dưới dạng liên

từ, động từ cũng như tên người (nếu có cả họ và tên) bị loại bỏ Nếu ngay cả sau sự cắt

Trang 17

tỉa như vậy mà vẫn còn tồn tại nhiều hơn 3 từ khoá liên từ, chúng ta cũng sẽ loại bỏ nốtnhững từ khoá liên quan trực tiếp đến những từ khoá đã được xử lý ở phần trước (cóthể thông qua cây phụ thuộc để phân tích cấu trúc ngôn ngữ)

2 Kỹ thuật trích rút dữ liệu - retrieve document & answer extraction

2.1 Trích rút thông tin - Retrieve document

Dĩ nhiên, điều không thể thiếu trong một hệ thống hỏi đáp tự động là phải định

vị được tập tài liệu chứa dữ liệu mà câu hỏi cần có Trong quá trình này, sự sai khácgiữa các định dạng câu hỏi và các ứng viên câu trả lời cần được xem xét, sự lựa chọnphải đủ lớn để đảm bảo độ chính xác cao nhưng phải kiểm soát được sự nhiễu do việcviết lại định dạng câu (reformulation) Hệ thống QA đã tái sử dụng hệ thống trích rútthông tin để thực hiện điều này

Ví dụ như hệ thống QALC (Question-Answering program of the Language andCognition):

Hình 3 Hệ thống QALC

Trang 18

Module phân tích câu hỏi quyết định các thông tin như: định dạng câu trả lờimong đợi, nhóm của câu hỏi, từ khoá… Thông tin này sẽ được sử dụng để trích rút dữliệu thông qua bộ tìm kiếm.

Thông tin hay đoạn văn mà câu trả lời đang tìm kiếm là kết quả của một vài quátrình chọn lựa thành công, gồm có:

 Lựa chọn đầu tiên dựa vào các từ có ý nghĩa (từ khóa) của câu hỏi tìm kiếm tệp

2.2 Trích rút câu trả lời - Answer extraction

Trích rút câu trả lời - Answer extraction, hay còn gọi là bước xử lý cú pháp, là

bước tiếp theo sau việc trích rút dữ liệu để đưa ra được câu trả lời mong muốn Tạibước này, các câu trả lời tiềm năng được tách ra và đánh giá

Hai cách phổ biến để trích ra câu trả lời, đó là:

 Phân tích dạng câu trả lời (Answer type analysis)

 Tiếp cận theo hướng học máy (Pattern learning approach)

Phân tích dạng câu trả lời -Answer type analysis:

 Xây dựng tập các dạng câu trả lời

 Phân loại câu trả lời

 Các khuôn dạng được gắn vói dạng câu trả lời tương ứng

 Cách này có tính chính xác cao nhưng không trả lời được các câu hỏi ngoàikhuôn dạng (không gán nhãn được)

Tiếp cận theo hướng học máy -Pattern learning approach

 Dạng câu hỏi có thể được “học” nếu sử dụng cặp câu hỏi-trả lời như một kiểu

dữ liệu liên tục

Trang 19

 Thuật toán

 Khuôn chứa đối tượng, văn cảnh và câu hỏi được đưa ra bộ tìm kiếm Ví dụ:callories, Big Mac, 560

 Tất cả các tên thực thể được thay thế bằng dạng của chúng

 Một vài khuôn dạng cùng loại được dùng để “học” về vài dạng sở hữu đặctrưng

 Thực hiện tổng quát hoá (theo dạng thực thể và các lựa chọn token khác)

 Sử dụng “độ tin tưởng” để đánh giá câu trả lời Độ tin tưởng được tính băngcông thức (TH đúng/ TH đúng+sai)

Giai đoạn này có thể được phân rã giai đoạn này thành 4 giai đoạn con

 Tìm ra các thực thể - Entity Extraction: Nhiệm vụ của giai đoạn là rút ra mộttập ứng viên câu trả lời từ tài liệu Có thể thấy ngay rằng, nếu sử dụng cây trie,quá trình duyệt cây kết thúc, ta sẽ thu được dạng câu trả lời mong muốn Từdạng câu mong muốn, sinh ra tập hợp các thực thể sắp xếp theo các luật viết lạicâu (reformulation)

 Phân loại các thực thể - Entity classification: Tập thực thể thu được ở giai đoạntrước có thể được phân vào một số nhóm nhất định Các loại thực thể có thể có:

 Người, vị trí, tổ chức…

 Ngày tháng, thời gian

 Định lượng, số lượng

 Chu kỳ, phép đo

Mỗi dạng thực thể yêu cầu cách sắp câu và xử lý tương ứng

 Phân loại truy vấn - Query Classification: Dùng để xác định luật cú pháp cầndung để viết câu trả lời từ câu hỏi đã được phân loại ở giai đoạn trước

 So sánh các thực thể - Entity Ranking: Quyết định dạng thực thể có phù hợpdạng câu hỏi không Bước này có thể xử lý chung khi phân tích câu hỏi nếu sửdụng cấu trúc cây phân tích Sử dụng bộ lọc câu để xác định, đánh giá câu trả lờitương thích với câu hỏi, công thức cho điểm được lấy từ TREC

2.3 Kỹ thuật xử lý đại từ thay thế

Ví dụ: Khi câu hỏi sau được nhập vào: “Bức tranh to nhất được vẽ năm nào?”

Trang 20

Hệ thống cần phải hiểu “Bức tranh to nhất” là đại từ thay thế Hệ thống phải tiếnhành tìm kiếm trong CSDL để tìm ra tên bức tranh có thuộc tính kích thích đạt lớnnhất, sau đó thể vào câu hỏi, đưa câu hỏi về dạng đơn giản hơn: “Bức tranh $PIC được

vẽ năm nào? ”

2.4 Tổ chức cơ sở dữ liệu độc lập

Cơ sở dữ liệu cũng là một vấn đề cần quan tâm của hệ thống Trong phân tích câuhỏi, đại đa số các hệ thống hỏi đáp hiện nay dựa vào đầu vào ngữ pháp là tập cơ sở dữliệu của WordNet và TREC Nguồn dữ liệu lưu trữ thông tin, tuỳ hệ thống có thể làchưa sắp xếp hoặc sắp xếp một phần Các hệ thống cơ sở dữ liệu chuyên nghiệp hiệnnay như SQL server, Orcale sử dụng lưu trữ cơ sở dữ liệu trên các bảng

Vấn đề đặt ra là cách tương ứng giữa những bảng dữ liệu này với hệ thống cúpháp và bộ lọc câu phù hợp hệ ngôn ngữ tự nhiên đã nói ở phần trên Có thể tham khảocách tổ chức của EUFID (End-User Friendly Interface to Data Management), tại đó tổchức dữ liệu được tổ chức độc lập với phần ứng dụng Dữ liệu trong những hệ thốngliên quan đến ngôn ngữ tự nhiên thường bao gồm 3 thành phần là:

 Các bảng ngữ nghĩa ngữ tự nhiên

 Các bảng lưu trữ dữ liệu

 Ánh xạ giữa 2 bảng ngữ pháp và bảng dữ liệu

2.4.1 Bảng ngữ nghĩa câu - Semantic tables

Đây là loại dữ liệu thể hiện cách nhìn của chuyên gia về mặt ngôn ngữ tự nhiên,tại đó, tập hợp từ được phát triển và cấu trúc câu cơ bản được định nghĩa Từ ngữ đượcphân loại như:

Trang 21

Một thực thể gần tương tự như một danh từ và sự kiện thì thường gắn với mộtđộng từ Thành phần liên kết là tiền tố sẽ được loại bỏ sau khi câu được phân tích.Quán từ (systen word) , liên từ, bổ nghĩa góp phần quyết định nghĩa của câu nhưngkhông liên quan đến phần dữ liệu căn bản Đại từ là những từ nhắc lại cho cụm từ đãđược nhắc đến trước đó, đại từ là những từ sẽ bị thay thế trong qua trình phân tích câu.Tóm lại, chỉ có những từ liên quan đến dữ liệu cơ bản là từ thuộc nhóm thực thể, sựkiện, chức năng

Thực thể và sự kiện được định nghĩa dựa theo cấu trúc “case” (tình huống lựachọn) biểu thị sự kết hợp giữa cú pháp và ngữ nghĩa Phần tử từ vựng mà có thể kếthợp với một thực thể khác tạo thành cụm danh từ, hoặc kết hợp với một động từ tạothành cụm động từ, sẽ thuộc trường hợp thực thể hoặc sự kiện Một “case” có thể đượcđánh dấu là bắt buộc hoặc tuỳ chọn Ngữ nghĩa của một thực thể hoặc sự kiện đượcđịnh nghĩa bởi một tập các trường hợp (“case”), phan biệt dạng động từ và dạng danh

từ Ví dụ, ba nghĩa của từ “ship” được minh hoạ dưới đây:

Hình 4 Nghĩa của từ "ship"

Trang 22

2.4.2 Bảng dữ liệu cơ bản.

Bảng dữ liệu cơ bản thể hiện cấu trúc dữ liệu theo cách nhìn của một hệ thốngquản lý dữ liệu Vì tất cả các hệ quản trị cơ sở dữ liệu xử lý các thành phần dữ liệubằng cách tổ chức những “nhóm” liên kết thực thể Việc có một định dạng bảng chung

là hoàn toàn khả dĩ với với bất kỳ hệ quản trị cơ sở dữ liệu nào

Bảng dữ liệu cơ bản gồm 2 thành phần, một loại chứa các thông tin của “nhóm”

và các thành phần dữ liệu Nhóm được định nghĩa bằng tên nhóm Thành phần còn lạichứa mối liên kết giữa các nhóm

2.4.3 Ánh xạ giữa 2 loại bảng.

Thành phần này có chức năng chỉ dẫn cho chương trình cách thức đi từ một nútngữ nghĩa (trong từ điển ngữ nghĩa) tới tên của vùng dữ liệu cơ bản

Trang 23

Chương III PHÂN TÍCH CÂU HỎI DỰA VÀO TRIE

1 Cấu trúc cây Trie.

Một cây Trie , theo Clément et al.(1998), là một cấu trúc dữ liệu được định nghĩabởi một luật đệ quy T(S) = <T(S/a1),T(S/a2),…,T(S/ar)>, với S là một tập hợp các xâualphabet A = {aj}rj=1 , và S/an là tất cả các chuỗi của S bắt đầu với an

Trong hệ thống này, ta sử dụng cấu trúc trie với các “chuỗi” là các định dạng câuhỏi và “alphabet” là tập các từ để hỏi và các dạng thực thể Một định dạng câu hỏi làmột đại diên của biểu thức RE với phần bắt đầu và kết thúc được đánh dấu, phần cònlại được đại diện bằng các dạng thực thể

Ví dụ: <Q AT=’NAME’> Who is the

<ENAME type =”POS”> dean</ENAME> of

<ENAME type = “ORG”> Macquarie University </ENAME> ? </Q>

Có thể được viết lại thành : “^Who is the !POS of !ORG $” (1)

Biểu diễn của câu hỏi trie tương đối giống biểu diễn của một từ điển trie, tuynhiên, việc lưu trữ thông tin, sử dụng dấu hiệu (token)… là khác biệt Trong biểu diễntrie, mỗi khi một nút được thăm hoặc tạo mới, tần suất EAT của nó được ghi lại Vìmột nút trong trie có thể đến được qua nhiều dạng câu khác nhau, mỗi nút có lưu trữtần số và phân loại Giả sử có một tập các câu hỏi, ta phân tích chúng thành các khuôndạng cụ thể như sau:

Bảng 2 Các câu hỏi mẫu

Trang 24

Hình dưới chỉ ra cách dữ liệu được tổ chức và lưu trữ tương ứng với tập chuỗiđịnh dạng câu hỏi ở bảng trên Có thể nhận thấy rằng, mỗi nút của trie lưu trữ một haynhiều EAT.

Hình 5 Cấu trúc trie xác định thực thể

Bảng 3 Thông tin về các node trong trie

Trang 25

Bước đầu tiên trong việc phân tích câu hỏi, đó là chuyển câu hỏi về những địnhdạng giống như (1) Những định dạng như vậy đòi hỏi đánh dấu phần bắt đầu và kếtthúc của câu hỏi, và có thể biết được dạng thay thế của một số mẫu câu hỏi dựa vàothực thể của chúng.

Sử dụng các định dạng câu hỏi, ta cố gắng tìm kiếm sự tương thích giữa biểu diễn(token) đầu tiên của câu hỏi với nút của trie Nếu tìm được, token tiếp theo sẽ được tìmkiếm trong những nút gắn với nút đầu tiên đó Quá trình này lặp lại cho đến khi khôngcòn token nào phải kiểm tra hoặc token hiện tại không thể tìm được trong dãy nút trieđang tìm Quá trình này trả về EAT với tần số cao nhất của nút trie cuối cùng đượcviếng thăm Thông tin này sẽ được sử dụng làm EAT của câu hỏi đang được phân tích.Nếu token hiện tại không thỏa mãn bất kỳ nút nào, token tiếp theo sẽ được kiểmtra với các nút trie trong dãy Hình dưới thể hiện việc tìm kiếm “bỏ qua” trong quátrình phân tích câu hỏi “Who is John Smith of Macquarie University?” và “Who isJohn Smith ?”

Hình 6 Duyệt trie

Việc phân tích câu hỏi “Who is John Smith ?” được thực hiện bằng việc kiểm tratoken mở đầu câu với từ “who” và “is” Để ý rằng từ “John” và “Smith” trong “JohnSmith” không được thay thế bằng dạng thực thể của chúng, bởi vì tên không được biếtbởi Gazetteer Từ khóa “John” không được tìm thấy ở nút tiếp theo nút “is” (nút 13), vìthế từ tiếp theo của câu hỏi (“Smith”) được tìm kiếm ở nút tiếp theo (nút 14, 15)-những nút cách nút gần nhất tìm được 2 bước Nếu nút tìm được, tất cả các từ khôngtìm thấy ở phía trước đều được gắn cùng loại với các nút ở giữa 2 nút tìm được

Nếu tìm được hơn 2 nút phù hợp thì con đường với tần suất lớn hơn sẽ chiếm ưuthế Trong quá trình này, các nút nằm giữa các nút phù hợp được tìm thấy sẽ định nghĩadạng thực thể của những cụm từ không phù hợp trong dạng câu hỏi Nếu tất cả cáctoken được kiểm tra mà vẫn không nhận diện được nút phù hợp thì nút cuối cùng phùhợp sẽ định nghĩa dạng EAT

Trang 26

Hình 7 Cấu trúc trie không xác định loại thực thể

Trọng tâm của câu hỏi được chỉ ra nhờ vào phần thực thể của thể hiện dạng địnhdạng câu hỏi Sự thay thế một vài cụm từ trong câu hỏi bằng các dạng thực thể có thểđược thực hiện trước hoặc trong quá trình duyệt trên cây trie Phương pháp này quantâm đến cả việc không thể tìm thấy sự phù hợp giữa trie và câu hỏi Nếu trường hợp đóxảy ra, EAT với tần số cao nhất của nút cuối cùng được thăm sẽ được gán cho câu hỏi

Ví dụ: EAT có xác suất cao nhất ở nút 6 sẽ được gán cho câu hỏi “Who?”

Phương pháp tìm kiếm EAT không nhất thiết yêu cầu việc đánh dấu của các thựcthể Trong trường hợp này, trie được xây dựng chỉ dựa vào thông tin chứa trong các từcủa câu hỏi Khi các thực thể và dạng thực thể không được đánh dấu, quá trình phântích câu hỏi vẫn thực hiện tiến trình tìm kiếm bỏ qua như mô tả ở trên, tuy nhiên, trongtrường hợp này, tiến trình không định nghĩa bằng một nhóm thực thể mà bằng mốiquan hệ chưa biết giữa một từ trong xâu với một từ hay cụm từ khác trong câu hỏi đangđược phân tích

Để làm sáng tỏ vấn đề này, xét ví dụ: “Who is the administrative assistant ofMacquarie University?” Vì cả “administrative” và “assistant” đều không tìm đượctrong trie ở hình trên Tiến trình xử lý (tìm kiếm bỏ qua) gắn từ “of” với nút 10, mặcđịnh rằng có mối quan hệ giữa “administrative assistant” vói “dean” Tương tự giữa

“Macquarie University” với “ICS”

Việc đi từ nút này sang nút khác của trie không nhất thiết bằng 1 từ, mà có thểbằng một nhóm từ đồng nghĩa hoặc đồng chức năng ngữ pháp được định nghĩa từ trước(có thể nhờ WordNet hoặc một loại file tương tự)

Cây trie không chỉ có tác dụng phân tích câu hỏi mà do đặc điểm cấu trúc cây,giúp ta có thể phân loại được các loại câu hỏi để thực hiện trích rút thông tin sau này.Hiệu quả của hệ thống sẽ phụ thuộc trực tiếp vào sự chính xác và đầy đủ của câytrie, tính hợp lý, chính xác, đầy đủ của trie lại phụ thuộc vào khả năng đoán nhận, dự

Trang 27

báo và phân tích của người thiết kế Trong hệ thống vừa và nhỏ, việc bao quát toàn bộdạng câu hỏi là hoàn toàn có thể được, với những hệ thống lớn (nhiều dạng câu hỏi) thìvẫn có thể sử dụng ý tưởng phân loại bằng trie nhưng dạng câu hỏi có thể được lưu trữbằng một danh sách tham chiếu (hoặc một cơ sở dữ liệu câu hỏi) thay vì lưu trữ dướidạng cây ( TREC).

3 Câu nghi vấn và cấu trúc câu nghi vấn trong tiếng việt

Câu nghi vấn thường được dùng để nêu lên điều chưa biết hoặc còn hoài nghi vàchờ đợi sự trả lời, giải thích của người tiếp nhận câu đó Câu hỏi được chia thành hailoại lớn:

 Hỏi trống

 Hỏi có dự kiến chọn lựa để trả lời Trong loại này còn có thể chia thành mấykiểu nhỏ:

 Chọn lựa xác định mang tính chất khẳng định hay phủ định

 Chọn lựa không xác định, tức là chọn từ hàng loạt khả năng khácnhau

Thực chất việc phân chia này là dựa vào “cái không rõ” nằm ở thành phần nàocủa câu hỏi tương ứng với câu trả lời

Câu nghi vấn trong tiếng Việt được cấu tạo nhờ các phương tiện sau đây:

 Các đại từ nghi vấn: ai, gì, nào, thế nào, sao, bao nhiêu, mấy, bao giờ, bao lâu,

đâu… Câu nghi vấn dùng đại từ nghi vấn được dùng để hỏi vào những điểm xác định

trong câu điểm hỏi là điểm chứa đại từ nghi vấn Do đó ngay cả khi câu bị tách khỏitình huống nói và ngữ cảnh cũng có thể nhận biết được điểm hỏi Có thể gọi đây là câunghi vấn rõ trọng điểm

Vì sao lại thế?

Bao giờ anh đi?

Họ vẫn chưa đến?

Tên của anh ấy là gì?

Cái này là cái gì?

Mô hình tổng quát:

<câu hỏi> = <chủ ngữ> < động từ “là”> <đại từ nghi vấn> ?

<câu hỏi> = <đại từ chỉ định> <động từ “là”> <đại từ nghi vấn> ?

Trang 28

<câu hỏi> = <đại từ nghi vấn> <vị ngữ> ?

 Kết từ “ hay”: Câu nghi vấn có kết từ hay dùng để hỏi có hạn chế trong khả năngtrả lời một trong những đề nghị được đưa ra Vì vậy kiểu câu nghi vấn này còn đượcgọi là câu nghi vấn lựa chọn

<câu hỏi> = <câu> hay <câu> ?

(vd, Anh đi hay tôi đi?)

<câu hỏi> = <chủ ngữ> <động/tính từ> hay <động/tính từ> ?

(vd, Ông ấy đã đến hay chưa?)

<câu hỏi> = <động/tính từ> hay không <động/tính từ> ?

Anh có tìm được cây bút không?

Có quyển sách nào trong ngăn kéo không?

<câu hỏi> = <chủ ngữ> (có*) <vị ngữ> không ?

<câu hỏi> = (có*) <động từ> không? (vd, đi không?)

<câu hỏi> = Có <chủ ngữ> <đại từ nghi vấn> <vị ngữ> không ?

2 có phải không?

Có phải anh này không?

Có phải em vẽ tranh này không?

Trang 29

<câu hỏi> = Có phải <danh từ/ngữ> <đại từ xác định> không ?

<câu hỏi> = Có phải <câu> không ?

3 đã chưa?

Anh hai đã đi chưa?

Con đã làm bài tập chưa?

<câu hỏi> = <chủ ngữ> đã <vị ngữ> chưa ?

4 xong ( rồi, xong rồi) chưa?

Anh làm xong bài tập chưa?

<câu hỏi> = <chủ ngữ> <vị ngữ> chưa/xong chưa ?

 Các tiểu từ chuyên dụng: câu nghi vấn có tiểu từ chuyên dụng nếu không được

dùng kèm vói các phương tiện khác thì điểm hỏi trong câu sẽ rất mơ hồ Có thể gọi đây

là kiểu câu nghi vấn không rõ trọng điểm Một số tiểu từ chuyên dụng là à, đấy à, nhỉ,

ư, hả, hở, hử, chăng, không, sao,

Hôm qua bác về nhà đấy à?

Bác lấy quyển sách này ạ?

<câu hỏi> = <câu> <tiểu từ nghi vấn>

 Ngữ điệu: Tiếng Việt là một ngôn ngữ đa thanh, vì vậy việc sử dụng ngữ điệu để

phân biệt câu theo mục đích nói là khá hạn chế Trong phạm vi xử lý văn bản, chúngtôi không xử lý thông tin này

Nếu xét về mặt quan hệ cấu trúc nội tại của câu hỏi, ta có thể thấy một loại câuhỏi mà trong đó có hai cái không rõ cùng có quan hệ với nhau Trong một câu có hai từ

để hỏi: một từ chuyên dùng hỏi về cái không rõ và ứng với thành phần câu, một từ đệmthêm để bổ sung cho câu hỏi, nhằm khẳng định hoặc hoài nghi cho cái không rõ của vếhỏi chính

Ví dụ:

Có ai nghe thấy tiếng gì rộn rã trong pháo giao thừa đêm nay? (L.Q.K)

Cái gì ở Bắc Việt đã thay đổi tâm tình của bà như thế? (L.Q.K)

Trang 30

Các câu hỏi có sự liên hợp những cái không rõ thường là những câu có bổ ngữ.

Bổ ngữ là một câu hỏi chính Ví dụ:

Tôi không biết nó muốn gì?

Loại câu này thường được xây dựng trên cơ sở câu kể ở phần chủ-vị của toàncâu Những câu này là câu có cấu trúc câu hỏi phụ thuộc Các cấu trúc chính của dạngcâu hỏi phụ thuộc là:

1. Chủ ngữ và bổ ngữ đối tượng

Ví dụ: Tôi không biết nó muốn gì?

2. Tổ hợp giới từ

Ví dụ: Tôi sẽ đến hay không tùy thuộc vào việc cô ta có mời tôi hay không?

3. Danh từ và cấu trúc giải thích hoặc cấu trúc đồng vị

Ví dụ: Vấn đề liệu anh có nên trở về quê cũ không đã đè nặng tâm hồn anh.

4. Cấu trúc nhượng bộ

Ví dụ: Cái gì đến nó sẽ đến cho dù chúng ta có ngăn cản hay không?

Tôi sẽ kể anh nghe cho dù anh có thích hay không?

Những động từ, tính từ thường có bổ ngữ là câu hỏi là:

 Những động từ có ý nghĩa hỏi han: hỏi, đòi, nhắn, yêu cầu, điều tra, thăm viếng, nói, v.v

 Những động từ có ý nghĩa thông báo: báo, nghe, thấy, thuyết minh, trình bày, v.v

 Những động từ có ý nghĩa trạng thái tinh thần hoặc quá trình nhận thức: quyết tâm, nhận được, gặp gỡ, tuân thủ, hiểu rõ, v.v

 Những tính từ: chắc chắn, thích hợp, quan trọng, để ý, quan tâm, v.v

4 Trie trong phân tích câu hỏi tiếng Việt.

Vấn đề phân tích câu hỏi tiếng Việt phức tạp hơn nhiều so với phân tích câu hỏitiếng Anh nếu như trong tiếng Anh, đại đa số câu hỏi thông dụng có từ để hỏi ở ngayđầu câu thì trong câu hỏi tiếng Việt, như trong phần trên đã phân tích, từ để hỏi có thểnằm ở đầu hoặc cuối câu, ngoài ra các câu hỏi lựa chọn thì từ để hỏi hay lại nằm ở giữacâu Ví dụ như:

 “Ai vẽ bức tranh nàng Mona Lisa?”  Từ để hỏi “ai” nằm ở đầu câu

Trang 31

 “Người vẽ bức tranh nàng Mona Lisa là ai?”  Từ để hỏi “ai” lại nằm ở cuốicâu.

Hai câu hỏi trên hoàn toàn hợp lệ trong ngữ pháp tiếng Việt, có cùng nội dungquan tâm nhưng cấu trúc câu lại hoàn toàn khác nhau Xác suất từ để hỏi ở đầu câu vàcuối câu trong tiếng Việt không chênh lệch là bao

Để phân tích câu hỏi tiếng Việt, ta có thể thực hiện như sau :

 Xây dựng trie theo các dạng câu hỏi đã phân tích ở phần trên kết hợp vớiviệc chọn keyword trong mỗi câu hỏi

 Tương ứng với mỗi câu hỏi là 1 EAT (dạng câu trả lời mong đợi)

Vì cấu trúc ngữ pháp tiếng Việt không chặt chẽ như tiếng Anh nên dù dùng triehay một cấu trúc nào khác thì việc phân tích và kiểm soát câu hỏi tiếng Việt luôn rấtphức tạp và dễ bỏ sót trường hợp Cách phân tích trên (dùng trie) rất phù hợp vớinhững hệ thống vừa và nhỏ

Trang 32

Chương IV HỆ THỐNG HỎI ĐÁP HƯỚNG CHỦ ĐỀ ISSUED

-BASED INFORMATION SYSTEM – IBiS

Như trong chương II đã nói, sau khi tìm hiểu kiến trúc chung của hệ thống hỏi đáp, trong chương này ta sẽ đi vào tìm hiều kiến trúc của một hệ thống hỏi đáp cụ thể

là IBiS1 Đây là hệ thống nằm trong 4 phiên bản về hệ thống IBiS (Issued-based

Information System - Hệ thống hỏi đáp hướng chủ đề) được nghiên cứu bởi viện ngôn ngữ của đại học Goteborg, Thụy Điển

- Information State ( IS ) : Trạng thái thông tin

- Các module độc lập về các lĩnh vực, được đưa ra dựa trên thuật toán

- Dialogue Move Engine( DME ): bao gồm 2 module ( Update và Select); DME

có chức năng cập nhật IS dựa trên các bước đã tiến hành, và lựa chọn bước tiếptheo sẽ diễn ra cho hệ thống

Trang 33

- Controller, kết hợp cùng các module khác theo kiểu có thứ tự hoặc không đồngbộ.

- Ba nguồn về các lĩnh vực có liên quan: Database (CSDL), Lexicon (Từ điểnngôn ngữ), và Domain Knowledge (tri thức liên quan đến lĩnh vực)

Kiến trúc này cũng được dùng cho IBiS2 và IBiS3, còn IBiS4 sẽ có kiến trúckhác

Control algorithm: Giải thuật điều khiển

Control algorithm được mô tả như sau:

Hệ thống IBiS sử dụng các module trong TrindiKit package cho đầu vào, phântích đầu vào, phát sinh bước tiếp theo và đầu ra

Hệ thống vận hành theo luật: nếu tìm ra được bước tiếp theo, hệ thống sẽ sinh ramột giao tiếp (câu hỏi hoặc câu trả lời), đưa nó đến đầu ra (giao tiếp với người dùng).TIS sẽ cập nhật và đưa ra biến PROGRAM_STATE với giá trị vẫn được giữ là run, hệthống đọc đầu vào cung cấp bởi người dùng, phân tích nó và lại thực hiện cập nhật TIS.Nếu không tìm được bước tiếp theo để tiến hành xử lý thì các bước tiếp theo phụ thuộcvào người dùng

1.2 Một số giả định

Để bắt đầu, ta đưa ra một số giả định để đơn giản hóa vấn đề, nó giúp cho hệthống ít phải xử lý các khó khăn, các trường hợp đặc biệt của hội thoại Sau này, ta cóthể bỏ đi một số giả định và phát triển hệ thống tương ứng Các giả định này làm choviệc đưa ra tập luật cơ bản về việc cập nhật IS

 Tất cả các phát biểu (các câu hội thoại) đều được hiểu và chấp nhận

 Việc hiểu các câu hội thoại không liên quan đến sự nhận dạng của vật/việc đượcnói đến và vật/việc được nói đến này không có mặt trong IS

 Không sử dụng các cấu trúc cú pháp, ngữ nghĩa phức tạp trong ví dụ hội thoại

Trang 34

1.3 IBiS1 Datatype

Loại liên quan đến ngữ pháp, ngữ nghĩa

 Câu hỏi:

+ Câu hỏi có từ để hỏi WHQ

+ Câu hỏi đúng sai YNQ

+ Các câu hỏi thay thể ALTQ (các câu hỏi lựa chọn – 1 tập hợp các YNQ)

 Participant (người tham gia hội thoại)

 ProgramState (trạng thái chương trình)

Hai loại đầu sẽ được giải thích trong các chương sau Hai loại cuối được mô tả như sau

2 Các cấu trúc cú pháp, ngữ nghĩa trong IBiS1

Trang 35

Để phân biệt các loại câu hỏi, ta căn cứ vào các ý: dấu hỏi (đối với câu YNQ) vàlambda (khái niêm trừu tượng đưa ra thay thế cho dấu hỏi trong câu WHQ và ALTQ)

Predn, với n=0 hoặc n=1: trong đó n các tham số: dest-city, month,

Ind: Individualconstants – các hằng đơn, ví dụ: paris, april

Var: Variables: ví dụ : x,y, ,Q,P,

• Expr = pred1 (arg), trong đó arg : Ind và pred1 : Pred1

• Expr = ¬P , trong đó P : Proposition

• Expr = fail(q), trong đó q : Question

Expr : Question nếu

• Expr : YNQ

• Expr : WHQ

• Expr : ALTQ

?P : YNQ nếu P : Proposition

?x.pred1 (x) : WHQ nếu x : Var và pred1 : Pred1

{ynq1 , , ynqn } : ALTQ nếu ynqi : YNQ với mọi i ,1 ≤ i ≤ n

Expr : ShortAns nếu

Trang 36

Mệnh đề là các cấu trúc logic cơ bản bao gồm n-tham số, với các hằng số được

thay vào vị trí tham số Ví dụ: Loves (john, marry).

Trong hệ thống hội thoại, domain có kích thước giới hạn nên việc lưu lại toàn bộcấu trúc ngữ pháp của các câu hội thoại là không cần thiết Ví dụ: Khi người dùng nói

“I want to go to Paris” ta có thể thay bằng mô tả thay thế want (user, go-to(user, paris)) hay want(u, go-to(u,p)) & name(p, paris) & user(u)

Nhờ có sự phụ thuộc miền, ta có thể làm gọn mô tả thay thế Ví dụ ở trên có thể

viết gọn lại thành dest-city(paris) Việc đưa ra cấu trúc thay thế thu gọn này là một

phần trong việc tìm, xác định từ khóa trong các phát biểu, nhưng nó còn có thể dựa vàonhững tính chất cụ thể của domain task Như trong ví dụ trên, đối với domain của mộthãng du lịch, thì luôn mặc định user (customer) là người muốn đi Paris, không thể là hệthống được

Trong việc đưa ra cấu trúc thay thế thu gọn (reduced semantics) , đưa kèm vào

dạng không tham số sẽ có ích hơn cho hệ thống Ví dụ: return: có nghĩa là “the user wants a return ticket” - “người dùng muốn có vé khứ hồi” Dạng này có thể xuất hiện trong các cấu trúc cú pháp đầy đủ, ví dụ: “It’s raining” có thể biểu diễn dưới dạng không quan tâm đến trình tự thời gian (non-temporal logic) là rain (Đương

nhiên dạng không quan tâm đến trình tự thời gian này cũng có thể coi là một dạngcủa cấu trúc thay thế thu gọn)

Tác dụng của việc sử dụng cấu trúc thay thế là làm cho cấu trúc cú pháp, ngữnghĩa về một domain cụ thể trở nên đơn giản hơn, tránh được các vấn đề phức tạp về

xử lý ngôn ngữ Mặt khác nó hạn chế khả năng phân tích, dẫn đến liên quan đến cácdomain khác

Nếu không tìm thấy câu trả lời cho câu hỏi q thì có kết quả mệnh đề thu được là fail(q) Cách biểu diễn này được lựa chọn vì nó đưa ra cách ngắn gọn để mã hóa lỗi trong việc tìm câu trả lời cho câu hỏi q trong CSDL.

2.3 Câu hỏi

Định dạng
Số trang	73
Dung lượng	1,18 MB