Ứng dụng trích rút thông tin vào xây dựng hệ thống hỏi đáp từ tập dữ liệu dạng văn bản

Các kĩ thuật mới đòi hỏi tốc độ cao, khả năng xử lý lượng dữ liệu web lớn đang rất được quan tâm.Việc xây dựng một hệ thống hỏi đáp tự động trả lời được tất cả các câu hỏi về tất cả các

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

──────── * ───────

Họ và tên tác giả luận văn: Hoàng Thị Thu Hiền

ỨNG DỤNG TRÍCH RÚT THÔNG TIN VÀO XÂY DỰNG

HỆ THỐNG HỎI ĐÁP TỪ TẬP DỮ LIỆU DẠNG VĂN BẢN

LUẬN VĂN THẠC SĨ KỶ THUẬT NGÀNH CÔNG NGHỆ THÔNG TIN

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

──────── * ───────

Họ và tên tác giả luận văn: Hoàng Thị Thu Hiền

ỨNG DỤNG TRÍCH RÚT THÔNG TIN VÀO XÂY DỰNG

HỆ THỐNG HỎI ĐÁP TỪ TẬP DỮ LIỆU DẠNG VĂN BẢN

LUẬN VĂN THẠC SĨ KỶ THUẬT NGÀNH CÔNG NGHỆ THÔNG TIN

Người hướng dẫn khoa học: PGS.TS Lê Thanh Hương

Hà nội - năm 2016

Trang 3

MỤC LỤC

Trang

LỜI CẢM ƠN! 4

LỜI CAM DOAN 5

DANH MỤC CÁC TỪ VIẾT TẮT 6

DANH MỤC CÁC BẢNG 7

DANH MỤC HÌNH VẼ 8

LỜI MỞ ĐẦU 9

PHẦN 1 : ĐẶT VẤN ĐỀ VÀ ĐỊNH HƯỚNG GIẢI PHÁP 11

CHƯƠNG I GIỚI THIỆU VỀ HỆ THỐNG HỎI ĐÁP TỰ ĐỘNG 11

1 Hệ thống hỏi đáp tự động 11

2 Phân loại hệ thống hỏi đáp tự động 13

2.1 Phân loại theo miền ứng dụng 13

2.2 Phân loại theo khả năng trả lời câu hỏi 14

2.3 Phân loại theo hướng tiếp cận 15

3 Các bước cơ bản của hệ thống hỏi đáp tự động 16

4 Một số vấn đề quan tâm khi thiết kế hệ thống Q&A 16

5 Một số hệ thống hỏi đáp tiêu biểu 17

CHƯƠNG II: NGHIÊN CỨU CÁC KỶ THUẬT PHÂN TÍCH CÂU HỎI THEO NGÔN NGỮ TỰ NHIÊN 19

1 Nội dung của phân tích câu hỏi 19

2 Khó khăn của phân tích câu hỏi 19

3 Khảo sát các phương pháp phân tích câu hỏi cho các loại câu hỏi khác nhau 20

3.1 Câu hỏi đơn giản (factual-base) 20

Trang 4

3.2 Câu hỏi định nghĩa (definition question) 23

4 Một số phương pháp phân tích câu hỏi 25

4.1 Phương pháp phân lớp sử dụng học máy thống kê 25

4.2 Phương pháp phân tích câu hỏi bằng cách xử lí ngôn ngữ tự nhiên 26

4.3 Phương pháp xác định loại câu hỏi sử dụng mẫu quan hệ 28

CHƯƠNG 3 NGHIÊN CỨU CÁC KỶ THUẬT TRÍCH RÚT THÔNG TIN DỰA TRÊN QUAN HỆ NGỮ NGHĨA 30

1 Khái quát bài toán trích rút quan hệ ngữ nghĩa 30

1.1 Quan hệ ngữ nghĩa 30

1.2 Các loại quan hệ ngữ nghĩa 30

1.3 Bài toán trích rút mối quan hệ ngữ nghĩa 34

2 Các phương pháp trích rút mẫu quan hệ 34

2.1 Phương pháp DIPRE 34

2.2 Phương pháp Snowball 37

2.3 Phương pháp trích xuất mẫu tự động sử dụng máy tìm kiếm 39

2.4 Phương pháp KnowItAll 40

2.5 Phương pháp TextRunner 42

2.6 So sánh 43

PHẦN 2 : KẾT QUẢ ĐẠT ĐƯỢC 45

CHƯƠNG 4: THỰC NGHIỆM XÂY DỰNG HỆ THỐNG HỎI ĐÁP PHÒNG VÀ CHỮA BỆNH Ở TRẺ EM 45

1 Đặt vấn đề và giải pháp: 45

3 Xây dựng cơ sở dữ liệu: 52

3.1 Dữ liệu về danh sách các loại bệnh: 56

3.2 Dữ liệu về định nghĩa các loại bệnh: 57

Trang 5

3.3 Dữ liệu về nguyên nhân gây ra bệnh: 57

3.4 Dữ liệu về triệu chứng các loại bệnh: 58

3.5 Dữ liệu về cách phòng các loại bệnh: 58

3.6 Dữ liệu về cách chữa các loại bệnh: 59

4 So khớp mẫu 59

4.1 Tạo mẫu câu hỏi 59

4.2 Tìm từ khóa 60

5 So khớp mẫu câu hỏi 62

6 Trích xuất câu trả lời: 62

7.Kết quả và đánh giá 63

7.1 Giao diện chương trình 63

7.3 Nhận xét, đánh giá 68

KẾT LUẬN 69

TÀI LIỆU THAM KHẢO 71

Trang 7

LỜI CAM DOAN

Tôi xin cam đoan đây là công trình nghiên cứu của bản thân dưới sự hướng dẫn khoa học của PGS.TS Lê Thanh Hương, xuất phát từ yêu cầu phát sinh trong cuộc sống hàng ngày để hình thành hướng nghiên cứu Các số liệu có nguồn gốc rõ ràng tuân thủ đúng nguyên tắc và kết quả trình bày trong luận văn được thu thập trong quá trình nghiên cứu là trung thực chưa từng được ai công bố trước đây

Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn chịu trách nhiệm về nội dung luận văn của mình

Hà Nội, tháng 10 năm 2016

Tác giả luận văn

Hoàng Thị Thu Hiền

Trang 8

DANH MỤC CÁC TỪ VIẾT TẮT

1 Q&A Question and answer Hệ thống hỏi đáp

2 NP Noun Phrase Cụm danh từ

3 UMLS Unified Medical

Language System

Thống nhất hệ thống ngôn ngữ y tế

4 IR information retrieval Truy vấn thông tin

5 PMI pointwise mutual

information

Thông tin chung dựa trên điểm

6 SEI Search Engine

Interface máy tìm kiếm Giao diện

7 SVM Support Vector

Machines Máy hỗ trợ Vector

8 kNN k Near Neighbors Láng giềng gần nhất

Trang 9

DANH MỤC CÁC BẢNG

Bảng 1 Bảng mối quan hệ ngữ nghĩa trong WordNet 33

Bảng 2 Ví dụ trích rút mẫu 35

Bảng 3 So sánh các phương pháp trích rút mẫu 43

Bảng 4 Từ điển định nghĩa mối quan hệ với các loại bệnh 48

Bảng 5 Tập quan hệ cùng các mẫu tương ứng 49

Bảng 6 Một số kết quả thử nghiệm chương trình hỏi đáp chữa bệnh cho trẻ em 64

Bảng 7 Đánh giá độ chính xác hệ thống cho từng loại câu hỏi 67

Trang 10

DANH MỤC HÌNH VẼ

Hình 1 Xu hướng nghiên cứu về Q&A 14

Hình 2 Các bước của hệ thống Q&A 16

Hình 3 Kiến trúc cho xử lý các câu hỏi factual-base 21

Hình 4 Xác định loại câu hỏi sử dụng kĩ thuật xử lý ngôn ngữ tự nhiên 27

Hình 5 Mối liên hệ giữa từ “car” với các từ khác thông qua các mối quan hệ 32

Hình 6 Kiến trúc hệ thống Snowball 37

Hình 7 Các thành phần chính của KnowItAll 40

Hình 8 Mô hình của hệ thống hỏi đáp tự động 46

Hình 9 Mô hình xử lí cho pha phân tích câu hỏi và trích xuất câu trả lời 49

Hình10 Cơ sở dữ liệu cách phòng và chữa bệnh ở trẻ em 52

Hình 11 Giao diện chương trình hỏi đáp phòng và chữa bệnh cho trẻ em 63

Trang 11

LỜI MỞ ĐẦU

Nghiên cứu về hệ thống hỏi đáp tự động (Q&A) đã được quan tâm từ rất lâu trên thế giới Ngay từ những năm 1960, các hệ thống hỏi đáp đầu tiên sử dụng cơ sở dữ liệu đã được ra đời Đến những năm 1970-1980, rất nhiều dự án lớn hướng đến việc

“hiểu văn bản” và xây dựng hệ thống hỏi đáp dựa trên các mô hình ngôn ngữ thống kê Cuối những năm 1990, World Wide Web ra đời và phát triển nhanh chóng trở thành một kho ngữ liệu khổng lồ Các nhà nghiên cứu về hệ thống hỏi đáp cũng bắt đầu khai thác web như là một nguồn dữ liệu cho việc tìm kiếm câu trả lời Các kĩ thuật mới đòi hỏi tốc độ cao, khả năng xử lý lượng dữ liệu web lớn đang rất được quan tâm.Việc xây dựng một hệ thống hỏi đáp tự động trả lời được tất cả các câu hỏi về tất cả các lĩnh vực rất khó thực hiện vì hệ thống tri thức quá rộng do đó thường tập trung vào một lĩnh vực nào đó, khóa luận đã hướng tới một lĩnh vực cụ thể đó là hỏi đáp về phòng và chữa bệnh ở trẻ em

Khóa luận tập trung vào nghiên cứu các kỷ thuật phân tích câu hỏi ngôn ngữ

tự nhiên và nghiên cứu các kỷ thuật trích rút thông tin Từ đó, đưa ra một phương pháp trích rút mối quan hệ ngữ nghĩa cho ngôn ngữ tiếng Việt bằng cách kết hợp giữa phương pháp trích rút mối quan hệ ngữ nghĩa sử dụng máy tìm kiếm và phương pháp DIPRE Bên cạnh đó, khoá luận cũng áp dụng phương pháp trích rút mối quan hệ ngữ nghĩa để giải quyết cho bài toán mà cũng đang nhận được sự quan tâm không kém – đó là xây dựng hệ thống hỏi đáp Thông qua việc xây dựng hệ thống hỏi đáp tự động (question answering), hệ thống cũng đánh giá được hiệu quả của phương pháp cho bài toán trích rút mối quan hệ ngữ nghĩa mà khoá luận đưa ra

Nội dung của khoá luận được chia thành các chương như sau:

Chương 1: Giới thiệu về hệ thống hỏi đáp tự động Trong chương này đề cập

tới khái niện hệ thống hỏi đáp, phân loại hệ thống hỏi đáp tự động, Các bước cơ bản của hệ thống hỏi đáp tự động bao gồm phân tích câu hỏi và trích chọn tài liệu liên quan sau đó đưa ra câu trả lời

Trang 12

Chương 2: Nghiên cứu các kỷ thuật phân tích câu hỏi theo ngôn ngữ tự

nhiên Đây là chương đề cập tới những khó khăn trong việc phân tích câu hỏi đồng thời đưa ra phương pháp khảo sát và cách phân tích các loại câu hỏi khác nhau từ câu hỏi đơn giản đến câu hỏi phức tạp

Chương 3:Nghiên cứu các kỷ thuật trích rút thông tin dựa trên quan hệ ngữ

nghĩa Trình bày khái niệm mẫu quan hệ ngữ nghĩa, các phương pháp trích rút mẫu

quan hệ ngữ nghĩa Đồng thời đưa ra phương pháp trích rút mẫu quan hệ ngữ nghĩa phù hợp nhất đối với tài liệu tiếng Việt

Chương 4: Thực nghiệm xây dựng hệ thống hỏi đáp phòng và chữa bệnh ở trẻ

em Trong chương trình bày kết quả đã đạt được từ xây dựng hệ thống CSDL, ứng dụng phương pháp trích rút mối quan hệ ngữ nghĩa sử dụng máy tìm kiếm và phương pháp DIPRE để trích rút thông tin trên trang wiki, google , và cách xác định tập seed, mẫu, tìm từ khóa để hỏi đến trích xuất ra câu trả lời Đồng thời trong chương cũng trình bày một số kết quả câu hỏi đáp theo ngôn ngữ tự nhiên đã đạt được

Phần kết luận và hướng phát triển khoá luận: Tóm lược những điểm

chính của khoá luận Chỉ ra những điểm cần khắc phục, đồng thời đưa ra những hướng nghiên cứu trong thời gian sắp tới

Trang 13

Nghiên cứu về hệ thống hỏi đáp tự động hiện đang thu hút sự quan tâm của rất nhiều các nhà nghiên cứu từ các trường đại học, các viện nghiên cứu và cả các doanh nghiệp lớn trong ngành công nghệ thông tin Từ những năm 1960, các hệ thống hỏi đáp đầu tiên đã được ra đời Điểm chung trong các hệ thống này là sử dụng cơ sở dữ liệu được thiết kế bằng tay bởi các chuyên gia trong lĩnh vực được chọn Giai đoạn những năm 1970- 1980, có nhiều dự án lớn hướng đến việc “hiểu văn bản” và xây dựng hệ thống hỏi đáp dựa trên các mô hình ngôn ngữ thống kê Hội nghị TREC diễn ra hàng năm (bắt đầu từ cuối những năm 1990) thu hút sự tham gia của rất nhiều các nhóm nghiên cứu cũng đã góp phần rất lớn trong việc thúc đẩy các nghiên cứu về hệ thống hỏi đáp Cuối những năm 1990, world wide web ra đời và nhanh chóng phát triển bùng nổ trở thành một kho ngữ liệu khổng lồ Các nhà nghiên cứu về hệ thống hỏi đáp cũng bắt đầu khai thác web như là một nguồn cho việc tìm kiếm câu trả lời Các kĩ thuật mới đòi hỏi tốc độ cao, khả năng

xử lý lượng dữ liệu web lớn đang rất được quan tâm

Trang 14

 Khái niện hệ thống hỏi đáp : Là hệ thống được xây dựng để thực hiện việc tìm kiếm tự động câu trả lời từ một tập lớn các tài liệu cho câu hỏi đầu vào một cách chính xác và ngắn gọn

Năm 2000, Carbonell và các đồng nghiệp trong bài báo The Vision Statement

to Guide Research in Question Answering and Text Summarization [13] đã đưa ra các tư tưởng chung cho việc nghiên cứu Q&A Theo đó một hệ thống hỏi đáp được người dùng đánh giá là hữu ích nếu đáp ứng được các tiêu chuẩn: ™

- Tính hợp lý về thời gian (Timeliness): Câu trả lời phải được đưa ra trong

thời gian ngắn, ngay cả khi có hàng ngàn người dùng cùng truy nhập hệ thống một lúc Các nguồn dữ liệu mới cần phải được tích hợp vào hệ thống ngay khi chúng sẵn sàng để có thể cung cấp cho người dùng câu trả lời cho những câu hỏi về các sự kiện có tính thời sự ™

- Tính chính xác: Tính chính xác của hệ thống hỏi đáp tự động là cực kì quan

trọng bởi việc đưa ra câu trả lời sai còn tai hại hơn nhiều là không đưa ra câu trả lời Nghiên cứu về Q&A cần tập trung vào việc đánh giá tính đúng đắn của câu trả lời đưa ra, bao gồm cả phương thức để phát hiện các trường hợp mà dữ liệu hiện thời không chứa câu trả lời cho câu hỏi Các thông tin mâu thuẫn trong dữ liệu cũng cần được tìm ra và các thông tin này cần được xử lý theo một cách phù hợp, nhất quán

Để đạt được sự chính xác, hệ thống Q&A cần được tích hợp các nguồn tri thức (world knowledge ) và cơ chế “bắt chước” việc suy luận thông thường (việc bắt chước có thể hiểu như là một quá trình học)

- Tính khả dụng: Hệ thống Q&A cần đáp ứng được các yêu cầu cụ thể của

một người dùng Các ontology trên từng miền cụ thể và ontology trên miền mở cần được tích hợp trong hệ thống Hệ thống Q&A cần có khả năng khai phá câu trả lời 5

từ bất kì dạng dữ liệu gì (văn bản, web, cơ sở dữ liệu, …) và đưa ra câu trả lời dưới định dạng mà người dùng mong muốn, cho phép người dùng miêu tả ngữ cảnh của câu hỏi và cung cấp các thông tin giải thích, trích dẫn nguồn cho câu trả lời ™

Trang 15

- Tính hoàn chỉnh: Câu trả lời hoàn chỉnh cho câu hỏi của người dùng là

điều mà các hệ thống Q&A hướng tới Trong nhiều trường hợp (câu hỏi về danh sách, nguyên nhân, cách thức…), các phần của câu trả lời nằm rải rác trong một văn bản, thậm chí trong nhiều văn bản Vì vậy cần phải hợp nhất các phần này dựa trên các thông tin liên kết để tạo ra câu trả lời hoàn chỉnh ™

- Tính thích hợp của câu trả lời: Trong ngôn ngữ tự nhiên, câu hỏi đưa ra

luôn gắn với ngữ cảnh nào đó và câu trả lời cũng nằm trong một ngữ cảnh nhất định Câu trả lời mà hệ thống Q&A đưa ra phải phù hợp ngữ cảnh với câu hỏi Một hệ thống Q&A có khả năng giao tiếp (interactive Q&A) là cần thiết trong nhiều trường hợp bởi chuỗi các câu hỏi liên quan đến một vấn đề sẽ giúp làm sáng tỏ thông tin mà người dùng đang hỏi Việc đánh giá một hệ thống Q&A cần hướng người dùng bởi ý kiến người dùng là đánh giá tốt nhất cho tính thích hợp của câu trả lời

Các tiêu chuẩn trên được đặt ra với mong muốn xây dựng được một hệ thống Q&A hoàn chỉnh Tuy nhiên, không phải hệ thống nào cũng có khả năng thông minh và hoàn thiện như thế Các nghiên cứu về Q&A hiện nay đang tập trung vào xây dựng hệ thống hỏi đáp có tính chính xác cao và có khả năng sử dụng nguồn dữ liệu web khổng lồ trên Internet

2 Phân loại hệ thống hỏi đáp tự động

Có nhiều cách phân loại hệ thống hỏi đáp dựa trên các tiêu chí khác nhau như: phân loại theo miền ứng dụng, theo khả năng trả lời câu hỏi, theo cách tiếp cận giải quyết bài toán…

2.1 Phân loại theo miền ứng dụng

 Hệ thống hỏi đáp miền mở (open domain Question answering): Hệ thống trả lời

bất kỳ câu hỏi nào được đưa vào Khó khăn cho hệ thống miền mở đó chính là việc xây dựng các tri thức cho việc trả lời cũng như phân tích câu hỏi, các phương pháp hiện nay thường sử dụng một số các ontology khái quát hay các mạng tri thức như: wikipedia, bách khoa từ điển Tuy nhiên, dữ liệu cho việc trích rút câu trả lời là phong

Trang 16

 Hệ thống hỏi đáp miền đóng (close domain Question answering): Hệ thống

tập trung vào trả lời các câu hỏi liên quan đến một miền cụ thể (giáo dục, y tế, thể thao ) Xây dựng hệ thống hỏi đáp miền đóng được coi là bài toán dễ hơn so với xây dựng hệ thống hỏi đáp miền mở vì có thể sử dụng các tri thức miền (thường là ontology của miền cụ thể)

Hệ thống hỏi đáp

Miền đóng Miền mở

Dữ liệu có cấu trúc Dữ liệu phi cấu trúc

Web Tập dữ liệu lớn Văn bản đơn

Hình 1 Xu hướng nghiên cứu về Q&A

Các nghiên cứu hiện nay về Q&A khi nghiên cứu vào xây dựng hệ thống hỏi đáp trên miền mở, sử dụng nguồn dữ liệu phi cấu trúc (kho văn bản lớn hay dữ liệu web) để tìm câu trả lời Các nghiên cứu mới và cải tiến những phương pháp cũ để

có thể áp dụng cho nguồn dữ liệu web vốn đa dạng, nhiều “nhiễu” và trùng lặp đang rất được quan tâm

2.2 Phân loại theo khả năng trả lời câu hỏi

Hệ thống có khả năng trả lời các câu hỏi liên quan đến sự vật, hiện tượng, dựa trên việc trích ra câu trả lời có sẵn trong tập tài liệu Câu trả lời là các chuỗi ký

tự trong một tài liệu Kỷ thuật chính được sử dụng là xử lý chuỗi và từ khóa

Hệ thống có cơ chế lập luận đơn giản: Trích xuất các câu trả lời có sẵn trong tập tài liệu sau đó sử dụng các suy luận để tìm mối liên kết giữa câu trả lời và câu

Trang 17

hỏi Hệ thống sử dụng các nguồn tri thức như ontology về từng miền cụ thể và ontology chung

Hệ thống trả lời các câu hỏi yêu cầu khả năng tổng hợp: Các phần của câu trả lời được trích rút từ nhiều tài liệu sau đó được tổng hợp lại thành câu trả lời hoàn chỉnh Câu hỏi thường là về danh sách, về cách thức, nguyên nhân

Hệ thống có khả năng giao tiếp với người dùng: Trả lời chuỗi các câu hỏi của người dùng về cùng một vấn đề Ví dụ các câu hỏi của người dùng như: “Giáo sư A sinh năm nào? Ở đâu? Ông ấy đang công tác ở đâu?”

Hệ thống có khả năng lập luận tương tự: Có thể trả lời các câu hỏi có tính chất suy đoán, câu trả lời ẩn trong tập tài liệu Hệ thống cần trích ra các luận chứng và

sử dụng lập luận tương tự để tìm ra câu trả lời

2.3 Phân loại theo hướng tiếp cận:

Hướng tiếp cận nông (shalow): Nhiều phương pháp sử dụng trong Q&A dùng

các kĩ thuật dựa trên từ khóa để định vị các câu, đọan văn có khả năng chứa câu trả lời từ các văn bản được trích chọn về Sau đó giữ lại các câu, đoạn văn có chứa chuỗi ký tự cùng loại với loại câu trả lời mong muốn (ví dụ các câu hỏi về tên người, địa danh, số lượng…)

Hướng tiếp cận sâu (deep): Trong những trường hợp khi mà hướng tiếp cận

bề mặt không thể tìm ra câu trả lời, những quá trình xử lý về ngữ pháp, ngữ nghĩa

và ngữ cảnh là cần thiết để trích xuất hoặc tạo ra câu trả lời Các kĩ thuật thường dùng như nhận dạng thực thể (named-entity recognition), trích xuất mối quan hệ, loại bỏ nhập nhằng ngữ nghĩa,… Hệ thống thường sử dụng các nguồn tri thức như Wordnet, ontology để làm giàu thêm khả năng lập luận thông qua các định nghĩa và mối liên hệ ngữ nghĩa Các hệ thống hỏi đáp dựa theo mô hình ngôn ngữ thống kê cũng đang ngày càng phổ biến

Trang 18

3 Các bước cơ bản của hệ thống hỏi đáp tự động

 Bước 1: Phân tích câu hỏi Bước phân tích câu hỏi tạo truy vấn cho

bước trích chọn tài liệu liên quan và tìm ra những thông tin hữu ích cho bước trích xuất câu trả lời

 Bước 2: Trích chọn tài liệu liên quan Bước này sử dụng câu truy

vấn được tạo ra ở bước phân tích câu hỏi để tìm các tài liệu liên quan đến câu hỏi

 Bước 3 : Đưa ra câu trả lời Bước này phân tích tập tài liệu trả về từ

bước 2 và sử dụng các thông tin hữu ích do bước phân tích câu hỏi cung cấp để đưa

ra câu trả lời chính xác nhất

CÂU HỎI

Ư

CÂU TRẢ LỜI

Hình 2 Các bước của hệ thống Q&A

4 Một số vấn đề quan tâm khi thiết kế hệ thống Q&A

 Loại câu hỏi: Câu hỏi trong ngôn ngữ tự nhiên rất đa dạng, nhập nhằng và

phụ thuộc vào ngữ cảnh Một số loại câu hỏi đang được quan tâm trong hệ hống hỏi đáp như câu hỏi về sự vật, sự kiện, định nghĩa, danh sách, quá trình, cách thức, lí do…Mỗi loại câu hỏi có những đặc trưng và khó khăn trong việc giải quyết, đòi hỏi phải có các chiến lược để trả lời chúng

 Xử lí câu hỏi: Một câu hỏi có thể được diễn đạt bằng nhiều cách khác nhau

Vì thế, xử lí câu hỏi là phải xác định được các câu hỏi tương tự, đồng thời có thể chuyển một câu hỏi phức tạp thành chuỗi các câu hỏi đơn giản hơn

PHÂN TÍCH CÂU HỎI

TRÍCH CHỌN TÀI LIỆU

TRÍCH XUẤT CÂU TRẢ LỜI

Trang 19

 Ngữ cảnh: Câu hỏi thường được gắn với ngữ cảnh và câu trả lời cũng được

đưa ra trong một ngữ cảnh xác định Việc sử dụng các thông tin về ngữ cảnh giúp

hệ thống hỏi đáp hiểu câu hỏi một cách rõ ràng, loại bỏ được các nhặp nhằng và tăng tính chính xác khi trả lời câu hỏi

 Nguồn dữ liệu: Nguồn dữ liệu cho hệ thống hỏi đáp rất phong phú, có thể là

sách, báo chí hay các trang web Tuy nhiên cần đảm bảo nguồn dữ liệu có độ tin cậy và thông tin chính xác cao

 Trích xuất câu trả lời: Việc trích xuất câu trả lời phụ thuộc vào nhiều yếu tố:

độ phức tạp của câu hỏi, loại câu hỏi có được từ quá trình xử lí câu hỏi, dữ liệu chứa câu trả lời, phương pháp tìm kiếm và ngữ cảnh, Câu trả lời cho người dùng cần phải đảm bảo chính xác

5 Một số hệ thống hỏi đáp tiêu biểu

Cùng với sự phát triển bủng nổ của world wid web và sự quan tâm của các nhà nghiên cứu, đã có rất nhiều hệ thống hỏi đáp được ra đời Một số hệ thống hỏi đáp tiêu biểu được biết đến như sau: Answer.com (www.answers.com), START (www.ai.mit.edu/projects/infolab), Ask Jeeves (www.ask.com), Webclopedia and MURAX Trong đó, một số hệ thống hỏi đáp đ sử dụng phương pháp trích rút mối quan hệ như: Webclopedia, OntotripleQA …

- Năm 2000, Hovy, Gerber và Hermjakob đã giới thiệu hệ thống hỏi đáp tự động Webclopedia Với mỗi câu hỏi đầu vào, hệ thống sẽ xác định câu hỏi thuộc loại nào, từ đó đưa ra một tập các mẫu cho loại câu hỏi đó và một tập các mẫu cho câu trả lời tương ứng Sau đó, sử dụng tập mẫu câu trả lời để t.m ra những đoạn văn, những câu có chứa các thông tin liên quan và trích xuất ra câu trả lời cuối cùng đáp ứng yêu cầu người dùng

- Năm 2002, Ravichandran và Hovy cũng đưa ra một phương pháp trích rút mối quan hệ tự động cho hệ thống hỏi đáp tự động Nhận đầu vào là những ví dụ của một loại câu hỏi (bao gồm những khái niệm là câu hỏi và câu trả lời), từ đó cho

Trang 20

tiến hành học để trích rút mẫu và những ví dụ mới cho loại câu hỏi đó Sau đó sẽ tiến hành trả lời dựa trên tập mẫu đ được xây dựng

- Năm 2004, Kim, Lewis, Martinez và Goodall cũng đưa ra một hệ thống hỏi đáp OntotrileQA sử dụng kĩ thuật trích rút mối quan hệ ngữ nghĩa cho các thực thểtrên ontoloty đã được gán nhãnn bằng tay

- Năm 2009, một hệ thống hỏi đáp đã được xây dựng dựa vào việc trích xuất

tự độngcác từ, khái niệm và mối quan hệ Ở đây, Fahmi đ tăng độ bao phủ các mối quan hệ bằng việc cho việc học bán giám sát để sinh tự động các mẫu quan hệ từ một tập dữ liệu lớn Mục đích của ông là làm tăng độ chính xác bằng việc sử dụng những thông tin từ Unified Medical Language System (UMLS) và sử dụng việc lựa chọn những mối quan hệ liên quan tới các từ trong lĩnh vực y tế

Như vậy, phương pháp trích rút mối quan hệ ngữ nghĩa cũng được sử dụng nhiều có việc xây dựng hệ thống hỏi đáp Đồng thời, qua quá trình khảo sát và nghiên cứu, chúng tôi nhận thấy phương pháp này hầu như đều tiến hành bằng việc trích rút các mẫu quan hệ cho những mối quan hệ ngữ nghĩa đã được xác định trước

Trang 21

CHƯƠNG II : NGHIÊN CỨU CÁC KỸ THUẬT PHÂN TÍCH CÂU HỎI

THEO NGÔN NGỮ TỰ NHIÊN

1 Nội dung của phân tích câu hỏi

Bài toán phân tích câu hỏi: Phân tích câu hỏi nhận đầu vào là câu hỏi dưới dạng

ngôn ngữ tự nhiên của người dùng, đưa ra câu truy vấn cho bước trích chọn tài liệu liên quan và các thông tin cần thiết cho bước trích rút câu trả lời

Câu truy vấn là dạng tổ hợp của các từ khóa quan trọng trong câu hỏi (và các từ khóa mở rộng) với các phép toán tập hợp AND, OR

Các thông tin cần thiết để trích xuất câu trả lời là rất đa dạng, tùy phuộc vào phương pháp trích xuất câu trả lời Thông thường các thông tin đó là mục đích của câu hỏi (ví dụ mục đích hỏi để khẳng định một điều, để so sánh hay để tìm kiếm thông tin,

để hỏi về định nghĩa, cách thức…), loại câu trả lời mong đợi (question target hay answer type) Ví dụ câu hỏi “Dân số Việt Nam là bao nhiêu”, câu trả lời được mong đợi là một

“con số” hay câu hỏi “Ai là tổng thống Mỷ” thì loại câu trả lời là một “tên người”

2 Khó khăn của phân tích câu hỏi

Câu hỏi đầu vào của hệ thống hỏi đáp tự động là câu hỏi dưới dạng ngôn ngữ tự nhiên của người dùng Vì vậy việc phân tích câu hỏi cũng gặp những khó khăn của xử

lý ngôn ngữ tự nhiên Cái khó nằm ở chỗ làm sao cho máy tính được hiểu ngôn ngữ con người, từ việc hiểu nghĩa từng từ trong mỗi hoàn cảnh cụ thể, đến việc hiểu nghĩa của cả câu hỏi, hiểu câu hỏi đang hỏi về cái gì và người hỏi mong muốn cái gì Mấu chốt ở đây là bản chất phức tạp của ngôn ngữ của con người, đặc biệt là sự đa nghĩa và nhập nhằng ngữ nghĩa của ngôn ngữ Thêm nữa, có một khác biệt sâu sắc là con người ngầm hiểu và dùng quá nhiều lẽ thường (common sense) trong ngôn ngữ, như khi hỏi

về “thời tiết” thì tức là hỏi về “nhiệt độ, độ ẩm, mưa, nắng …”, hay biết “sợi dây” thì dùng để kéo chứ không dùng để đẩy hay khều các vật, trong khi rất khó làm cho máy hiểu các lẽ thường này

Trang 22

Cùng hỏi về một thông tin nhưng câu hỏi có thể được diễn đạt theo nhiều cách khác nhau, sử dụng từ ngữ, cấu trúc câu khác nhau, lúc ở dạng nghi vấn, lúc lại ở dạng khẳng định Vì vậy cần thiết phải có một mô hình ngữ nghĩa để hiểu và xử lý câu hỏi, có khả năng nhận diện được các câu hỏi tương đương bất kể nó ở dạng khẳng định, nghi vấn hay các từ ngữ và quan hệ ngữ pháp giữa chúng khác nhau hoặc các dạng thành ngữ,

tu từ Mô hình này cũng cần có khả năng chuyển đổi các câu hỏi phức tạp thành chuỗi các câu hỏi đơn giản hơn, có thể xác định được các nhập nhằng và xử lý chúng theo ngữ cảnh hoặc sử dụng cách thức giao tiếp với người dùng để làm rõ ngữ nghĩa

Xử lý câu hỏi cũng cần phải có cơ chế để xử lý các câu hỏi tiếp sau liên quan đến cùng một vấn đề của câu hỏi trước, sử dụng các thông tin thu được ở câu hỏi trước để làm sáng tỏ câu hỏi tiếp sau, cao hơn nữa là có thể đối thoại với người dùng theo chuỗi các câu hỏi và câu trả lời

3 Khảo sát các phương pháp phân tích câu hỏi cho các loại câu hỏi khác nhau

Trong hội nghị TREC, các câu hỏi được chia thành một số loại sau: câu hỏi đơn giản (factual-base question), câu hỏi định nghĩa (definition question), câu hỏi danh sách (list question), câu hỏi phức tạp (complex question),… Mỗi loại câu hỏi

có những đặc trưng riêng và hướng tiếp cận khác nhau

3.1 Câu hỏi đơn giản (factual-base)

Câu hỏi factual-base là những câu hỏi về các sự vật, sự kiện đơn lẻ, có câu trả lời là những đoạn văn bản ngắn nằm sẵn trong tài liệu Kiến trúc thông thường để

xử lý loại câu hỏi này như sau (Hình 3): Câu hỏi đầu vào được phân lớp theo loại ngữ nghĩa của câu trả lời và biến đổi sang dạng truy vấn Câu truy vấn được sử dụng để tìm kiếm các tài liệu có liên quan đến câu hỏi, loại câu hỏi được sử dụng trong phần trích xuất câu trả lời nhằm thu hẹp không gian tìm kiếm và kiểm tra câu trả lời có chính xác hay không

Trang 23

Hình 3 Kiến trúc cho xử lý các câu hỏi factual-base

Như vậy, hai công việc chính của pha xử lý câu hỏi với loại câu hỏi này là xác định loại câu hỏi và tạo truy vấn cho hệ IR (information retrieval) trích chọn tài liệu liên quan Xác định loại câu hỏi

Xác định loại câu hỏi

Có ý nghĩa rất quan trọng trong phân tích các câu hỏi factual base, đặc biệt là việc phân loại câu hỏi theo loại ngữ nghĩa của câu trả lời Có nhiều cách để xác định loại câu hỏi như: xây dựng bộ phân lớp câu hỏi sử dụng học máy thống kê, xác định câu hỏi sử dụng các kỷ thuật của xử lý ngôn ngữ tự nhiên, xác định loại câu hỏi dựa vào so khớp với các mẫu quan hệ có sẵn Nội dung chi tiết của các phương pháp này được trình bày ở chương 3

Tạo truy vấn từ câu hỏi

Vấn đề của tạo truy vấn là lựa chọn các từ khóa trong câu hỏi và kết hợp chúng để tạo ra câu truy vấn không quá chung chung, cũng không quá chi tiết Chiến lược được sử dụng để trích ra các từ khóa quan trọng là sử dụng độ ưu tiên:

Độ ưu tiên cao nhất được gán cho các từ trong dấu nháy kép hoặc nháy đơn, tiếp đến là các cụm danh từ, động từ, tính từ, trạng từ Các từ dừng, giới từ, trợ động từ được bỏ qua

Trang 24

Nhiều hệ thống Q&A có độ hồi tưởng (tỉ lệ câu trả lời đưa ra trên câu hỏi đầu vào) rất thấp Một số nguyên nhân chính bao gồm: module phân tích câu hỏi không nhận diện được câu hỏi thuộc loại nào hoặc không tìm được các mẫu khớp với câu hỏi, module trích chọn thông tin (IR) không tìm ra được các tài liệu có chứa câu trả lời, module trích xuất câu trả lời không thể tìm ra câu trả lời thỏa đáng cho câu hỏi

Vì vậy với module trích chọn thông tin trong hệ thống Q&A, độ hồi tưởng là quan trọng hơn so với độ chính xác bởi các module sau có thể lọc ra các tài liệu không liên quan, nhưng không thể tìm ra được câu trả lời nếu các tài liệu chứa câu trả lời không được trả về từ IR [34] Các nghiên cứu trước đây nhằm làm tăng độ hồi tưởng của IR đều tập trung vào việc thu nhỏ sự khác biệt về mặt hình thái, từ vựng

và ngữ nghĩa giữa các từ xuất hiện trong truy vấn và trong tài liệu chứa câu trả lời Các nghiên cứu trước đây nhằm làm tăng độ hồi tưởng của IR đều tập trung vào việc thu nhỏ sự khác biệt về mặt hình thái, từ vựng và ngữ nghĩa giữa các từ xuất hiện trong truy vấn và trong tài liệu chứa câu trả lời

- Áp dụng kĩ thuật stemming cho tập dữ liệu được đánh chỉ mục và các từ trong truy vấn (stemming là chuyển tất cả các dạng biến thể của một từ thành từ gốc, ví dụ “expand”, “expanded”, “expansion”, “expandable”… đều được chuyển thành “expand”)

- Đánh chỉ mục cho các từ trong tài liệu mà không sử dụng stemming Sử dụng kĩ thuật mở rộng hình thái (morphological expansion– ví dụ từ “expands” được mở rộng thành {“expands”,“expand”, “expanded”, “expansion”,

“expandable” , … }) cho các từ khóa trong câu hỏi khi tạo truy vấn

Về mặt từ vựng và ngữ nghĩa, phương pháp hay được sử dụng đó là: các từ trong truy vấn được mở rộng bởi tập các từ đồng nghĩa, các khái niệm có nghĩa khái quát hơn hoặc chuyên môn hơn, chi tiết hơn hoặc bởi các từ liên quan Phương pháp này đòi hỏi phải có các nguồn tri thức vềngôn ngữ, từ vựng như Wordnet hoặc Ontology

Trang 25

3.2 Câu hỏi định nghĩa (definition question)

Câu hỏi định nghĩa hỏi về định nghĩa hoặc mô tả về một điều, một khái niệm

“… George W Bush, the 43rd President of the United States…”

“George W Bush defeated Democratic incumbent Ann Richards to become the 46th Governor of the State of Texas…”

……

Với loại câu hỏi định nghĩa, phương pháp thường hay được sử dụng là so khớp mẫu (pattern matching) [17]

Ví dụ về các mẫu câu hỏi và mẫu câu trả lời

Mẫu câu hỏi What <be> a <Q> ? <Q> là gì?

Who <be> <Q> ? <Q> là ai?

Mẫu trả lời <Q>, the <A> <Q> - <A>

<Q> is a|the <A> <Q> là <A> …

Ưu điểm: Có độ chính xác khá cao

Nhược điểm: Các mẫu khó có thể bao quát được hết các trường hợp đa dạng

của câu hỏi và câu trả lời

3.3 Câu hỏi phức tạp, có ràng buộc về thời gian

Nhiều câu hỏi phức tạp đòi hỏi phải phát hiện ra các thuộc tính về thời gian hoặc thứ tự diễn ra của sự kiện Ví dụ“Ai là tổng bí thư Đảng Cộng Sản Việt Nam trong chiến thắng lịch sử Điện Biên Phủ”

Câu hỏi liên quan đến thời gian được chia làm 4 loại [33]:

Trang 26

Loại 1: Câu hỏi về một sự kiện đơn lẻ, không có biểu đạt về thời gian

(temporal expressions)

“Đại học Công Nghệ thành lập khi nào ?”

Loại 2: Câu hỏi về một sự kiện đơn lẻ, có biểu đạt về thời gian

“Đội tuyển nào của Đại học công nghệ tham dự cuộc thi ACM quốc tế năm 2009” Ràng buộc thời gian: năm 2009

Loại 3: Câu hỏi có nhiều sự kiện, có biểu đạt về thời gian

“Việt Nam đạt được những thành tựu gì sau khi chính sách mở cửa năm 1987 được thông qua ? ”

Tín hiệu thời gian: sau khi

Ràng buộc thời gian: năm 1987

Loại 4: Câu hỏi có nhiều sự kiện, không có biểu đạt về thời gian

“Dân số thế giới là bao nhiêu trước chiến tranh thế giới thứ 2”

Tín hiệu thời gian: trước

Các tín hiệu thời gian trong Tiếng Việt như: sau, sau khi, trước, trước khi, trong khi, khi, trong thời gian, …Các biểu đạt về thời gian là các từ về ngày, tháng,

năm, thế kỉ,…

Phương pháp xử lý: Gồm 4 bước sau:

- Phân tích câu hỏi thành các các câu hỏi factual-base đơn giản hơn

“Dân số thế giới là bao nhiêu trước chiến tranh thế giới thứ 2 ?”

1) “Dân số thế giới là bao nhiêu ?”

2) “Chiến tranh thế giới thứ 2 xảy ra khi nào ?”

- Tìm câu trả lời cho câu hỏi thứ nhất

- Tìm câu trả lời cho câu hỏi thứ hai

- Đưa ra câu trả lời mà vừa trả lời câu hỏi thứ nhất, vừa có giá trị thời gian thích hợp với câu trả lời cho câu hỏi thứ hai

Trang 27

4 Một số phương pháp phân tích câu hỏi

4.1 Phương pháp phân lớp sử dụng học máy thống kê

Có hai hướng tiếp cận được sử dụng rộng rãi trong việc phân lớp câu hỏi đó là hướng tiếp cận dựa trên luật (rule-base approach) và hướng tiếp cận dựa trên xác suất thống kê

Hướng tiếp cận dựa trên luật:

Hướng tiếp cận này yêu cầu phải có các chuyên gia ngôn ngữ cung cấp các luật, các biểu thức chính quy (regural expression), các từ khóa cho từng lớp câu hỏi… để hệ thống hoạt động

Các hạn chế của hướng tiếp cận này :

 Xây dựng mô hình cho phương pháp này rất tốn thời gian và công sức, cần có sự cộng tác của những chuyên gia trong lĩnh vực ngôn ngữ học khi xây dựng các mẫu câu hỏi và văn phạm cho từng loại câu hỏi đó

 Các luật ngữ pháp viết tay và văn phạm của từng loại câu hỏi rất cứng nhắc, không linh động Khi một dạng câu hỏi mới xuất hiện, mô hình theo hướng này không thể xử lý Muốn xử lý được mô hình cần phải được cung cấp những luật mới

 Vấn đề nhập nhằng của các văn phạm ngữ pháp rất khó xử lý, kiểm soát và phụ thuộc vào đặc điểm của từng ngôn ngữ

 Khi tập câu trả lời được mở rộng hoặc thay đổi kéo theo việc phải viết lại hoàn toàn các luật trước đó nên hệ thống rất khó mở rộng

Hướng tiếp cận dựa trên xác suất thống kê:

Phương pháp học máy: Sử dụng một tập đủ lớn các câu hỏi đã được gán nhãn

lớp để huấn luyện một mô hình có thể tự động nắm bắt được các mẫu có ích trong việc phân lớp câu hỏi Cụ thể hơn, các thuật toán của hướng tiếp cận này sẽ tính toán xác suất phân lớp cho câu hỏi dựa trên những đặc trưng hay những mối quan

Trang 28

Support Vector Machines (SVM), láng giềng gần nhất (Near Neighbors – kNN),

Naive Bayes (NB), Entropy cực đại, …

Phương pháp sử dụng mô hình ngôn ngữ: Xây dựng một mô hình ngôn ngữ

thống kê để ước lượng được phân phối của ngôn ngữ tự nhiên chính xác nhất có thể Cụ thể với bài toán phân lớp câu hỏi là việc ước lượng xác suất có điều kiện p(a|b) của “loại câu hỏi” a xuất hiện trong “ngữ cảnh” câu hỏi tự nhiên b Bài toán đặt ra là chúng ta phải tìm một phương pháp ước lượng (có thể tin tưởng được) mô hình xác suất có điều kiện p(a|b)

4.2 Phương pháp phân tích câu hỏi bằng cách xử lí ngôn ngữ tự nhiên

Các bước tiến hành:

 Câu hỏi được phân tích ngữ pháp và biểu diễn dưới dạng cây cú pháp

 Các nút lá của cây được gán nhãn là các từ tương ứng và được chia làm hai loại: non-skip và skip Các lá non-skip là lá mà nhãn là danh từ, động

từ, tính từ, trạng từ Các lá còn lại thuộc loại skip

 Duyệt cây theo thứ tự bottom-up, gán nhãn cho các nút cha theo nhãn của các nút con non-skip dựa theo các luật xác định Một luật căn cứ vào nhãn ngữ pháp của nút cha để chọn ra một nút con thích hợp và lan truyền nhãn của nút con này lên mức kế tiếp của cây Nút con được chọn được coi là nút có mối liên hệ với các nút anh em nonskip khác Quá trình lan truyền được thực hiện cho đến khi gốc của cây cú pháp được gán nhãn Một đồ thị ngữ nghĩa cũng được tạo ra trong khi quá trình lan truyền nhãn và từ

có số lượng mối liên hệ nhiều nhất với các từ khác được xem là từ trọng tâm (focus word)

 Để xác định loại câu hỏi, người ta sử dụng một cây phân cấp các loại câu hỏi dựa trên Wordnet Loại câu hỏi là các nút cha (hypermym) của từ trọng tâm trong WordNet

Trang 29

Hình 4 Xác định loại câu hỏi sử dụng kĩ thuật xử lý ngôn ngữ tự nhiên

- Chưa xử lý với trường hợp từ trọng tâm không có trong WordNet

- Phải cần tới các công cụ xử lý và các nguồn tài nguyên ngôn ngữ

Trang 30

4.3 Phương pháp xác định loại câu hỏi sử dụng mẫu quan hệ

Một phương pháp khác hay được sử dụng để xác định loại câu hỏi là dựa trên tập mẫu Yếu tố quyết định hiệu quả của phương pháp này là cần có một tập mẫu tốt, có khả năng bao quát được các trường hợp đa dạng của câu hỏi

Ý tưởng chính của hướng tiếp cận này là “Trong nhiều trường hợp, câu trả lời

và câu hỏi thường có sự tương đồng khá lớn, nhiều khi câu trả lời là sự sắp xếp lại các từ khóa trong câu hỏi” Ví dụ như câu hỏi “ X là gì” thì câu trả lời thường có dạng “X là Y”

Một thông tin trong ngôn ngữ tự nhiên có thể được diễn đạt theo nhiều cách khác nhau Vì vậy nếu chúng ta có thể sử dụng nguồn dữ liệu phong phú, đa dạng,

dư thừa và nhiều trùng lặp trên Web để học ra các mẫu trả lời của một loại câu hỏi thì khả năng tập mẫu này bao phủ được các trường hợp của câu hỏi là cao Khó khăn của phương pháp này là cần có một cơ chế đánh giá độ tin cậy của các mẫu sinh ra một cách hợp lý, tuy nhiên việc cài đặt là khá dễ dàng và chỉ tốn ít công sức làm dữ liệu mồi cho quá trình học boostraping

Phương pháp Snowball là một phương pháp học boostraping dựa trên ý tưởng của phương pháp DIPRE dùng để trích ra các mẫu quan hệ và tập dữ liệu cho một

quan hệ từ một tập hạt giống nhỏ ban đầu Bài toán mà Snowball giải quết được phát biểu ngắn gọn như sau: Cho một mối quan hệ (ví dụ <ORGANIZATION, LOCATION> - “tổ chức A có trụ sở tại địa điểm B” ) và một số thể hiện của quan

hệ đó, gọi là tập hạt giống– seed

Ví dụ:

MICROSOFT REDMOND

BOEING SEATTLE INTEL SANTA CLARA

Trang 31

Nhiệm vụ đặt ra là: Tìm các mẫu quan hệ biểu diễn mối quan hệ này, sau đó sử dụng các mẫu này để tự động tìm ra các thể hiện khác của quan hệ Kết quả là một cơ

sở dữ liệu lớn các thể hiện của quan hệ được sinh ra từ tập hạt giống nhỏ ban đầu

Trang 32

CHƯƠNG 3 NGHIÊN CỨU CÁC KỸ THUẬT TRÍCH RÚT THÔNG TIN

DỰA TRÊN QUAN HỆ NGỮ NGHĨA

1 Khái quát bài toán trích rút quan hệ ngữ nghĩa

Để hiểu và giải quyết được bài toán trích rút quan hệ ngữ nghĩa, chúng ta cần phải nắm vững được định nghĩa quan hệ ngữ nghĩa là gì, các đặc trưng của quan hệ ngữ nghĩa, các loại quan hệ ngữ nghĩa,…

1.1 Quan hệ ngữ nghĩa

Quan hệ ngữ nghĩa (semantic relation) là một khái niệm trong ngôn ngữ học Việc xác định quan hệ ngữ nghĩa nhận được sự rất nhiều quan tâm từ các nhà nghiên cứu về ngôn ngữ học cũng như xử lí ngôn ngữ tự nhiên

Có rất nhiều khái niệm hay định nghĩa về quan hệ ngữ nghĩa đã được đưa ra

Theo nghĩa hẹp, định nghĩa quan hệ ngữ nghĩa: Là mối quan hệ về mặt ngữ nghĩa

giữa hai hay nhiều khái niệm Trong đó, khái niệm được biểu diễn dưới dạng từ hay cụm

Ví dụ : “Ngo Tat To compose Tat den”

 (Ngo Tat To, Tat den) có mỗi quan hệ là compose

Xác định các mối quan hệ ngữ nghĩa giữa các khái niệm là một vấn đề quan trọng trong tìm kiếm thông tin Việc làm rõ mối quan hệ giữa các khái niệm sẽ làm tăng tính ngữ nghĩa cho câu hay tập tài liệu Đồng thời, khi tìm kiếm thông tin một vấn đề nào đó, ta có thể có được những thông tin về các vấn đề khác liên quan tới

nó Vì vậy, để tìm kiếm được những thông tin chính xác, chúng ta cần biết các loại mối quan hệ giữa các khái niệm và đồng thời tìm hiểu các phương pháp để xác định được mối quan hệ đó

1.2 Các loại quan hệ ngữ nghĩa

Quan hệ ngữ nghĩa thể hiện mối quan hệ giữa các khái niệm, khái niệm ở đây

có thể là một từ hoặc một cụm danh từ Chúng được biểu diễn dưới dạng cấu trúc

Trang 33

phân cấp thông qua các mối quan hệ Dựa vào những đặc trưng và đặc tính ngữ nghĩa, ta có thể phân thành nhiều loại mối quan hệ khác nhau

- Hyponymy: Là một quan hệ thượng hạ vị (quan hệ giữa hai từ, trong đó một

từ luôn bao gồm ngữ nghĩa của từ kia, nhưng không ngược lại) Đây là mối quan hệ ngữ nghĩa cơ bản, được sử dụng với mục đích phân loại những thực thể khác nhau

để tạo ra các ontology có phân cấp

Ví dụ: “Động vật” bao gồm cả “con chó”

- Meronymy: Là một quan hệ ngữ nghĩa thể hiện mối quan hệ bộ phận – toàn

phần (part-whole) giữa hai khái niệm Mối quan hệ ngược lại được gọi là holonymy

Ví dụ: “tay” là một phần của “cơ thể con người” (“hand” is a part of the

“human body”) “Cơ thể con người” có một phần là “tay” (“human body” is a holonymy of “hand”)

- Synonymy: Hai từ được xem là synonymy nếu chúng cùng đề cập tới một

khái niệm ngữ nghĩa, hay chúng đồng nghĩa với nhau

Ví dụ: “Hoa hồng” và “Phần trăm” đều chỉ về tiền trả cho người làm trung gian, mô giới trong việc giao dịch, mua bán

- Antonyms: Chúng biểu diễn mối quan hệ của hai khái niệm trái ngược nhau

Ví dụ: Lạnh – Ấm, Mua – bán, thành công – thất bại,…

Synonymy và antonymy đóng vai trò quan trọng trong ngôn ngữ tự nhiên Nó giúp cho việc diễn tả tránh sự lặp lại giữa các câu khi nói về cùng một sự việc bằng cách sử dụng từ đồng nghĩa (synonymy) hoặc từ trái nghĩa (antonyms) để thể hiện

Trang 34

quan hệ khác nhau để biểu diễn chúng Ví dụ: WordNet là một từ điển trực tuyến trong Tiếng Anh, được phát triển bởi các nhà từ điển học trường đại học Princeton WordNet bao gồm 100.000 khái niệm bao gồm danh từ, động từ, tính từ, phó từ liên kết với nhau thông qua 17 mối quan hệ Thông thường, người ta thường hay sử dụng WordNet cho việc tìm kiếm các mối quan hệ ngữ nghĩa Đồng thời, dựa vào các mối quan hệ này, một từ trong WordNet có thể tìm được các mối liên hệ với các khái niệm khác

Ví dụ: Từ “car” trong WordNet có thể tìm được mối liên hệ với các từ như:

Vehicle, Owner, Wheels, high,… thông qua các mối quan hệ như: is-a, has part, hasOwner, hasSpeed,… (như hình 5)

Hình 5 Mối liên hệ giữa từ “car” với các từ khác thông qua các mối quan hệ

Các từ được tổ chức dưới dạng synset, tức là một tập hợp gồm các từ đồng nghĩa (synonyms), hay một nhóm các khái niệm có liên quan với nhau

Ví dụ, “exploration” và “geographic expedition” là các từ đồng nghĩa (synonym), vì thế chúng được nhóm với nhau trong một synset {exploration, geographic expedition}

Trang 35

Wordnet bao gồm những từ và các quan hệ phổ biến trong tiếng Anh Ngoài các mối quan hệ giữa các danh từ là hypernymy/hyponymy(is-a), meronymy/holonymy (a-part), synonymy, antonymy Mối quan hệ ngữ nghĩa còn có giữa các động từ, thể hiện qua các mối quan hệ là cause-to, entail Ngoài ra, attribute thể hiện mối quan hệ ngữ nghĩa giữa tính từ và danh từ

Bảng 1 Mối quan hệ ngữ nghĩa trong WordNet

Mối quan hệ Các khái niệm đƣợc liên kết

Hypernymy

(is - a)

Danh từ - Danh từ

Động từ - Động từ

Cat is-a feline

Manufacture is-a make

Hyponymy

(reverse is-a)

Danh từ - Danh từ

Động từ - Động từ

Feline reverse is-a cat

Manufacture reverse is-a make Is-part-of Danh từ - Danh từ Leg is-part-of table

Has-part Danh từ - Danh từ Table has-part leg

Is-member-of Danh từ - Danh từ UK is-member-of NATO

Has-member Danh từ - Danh từ NATO has-member UK

Is-suff-of Danh từ - Danh từ Carbon is-stuff-of coal

Has-stuff Danh từ - Danh từ Coal has-stuff carbon

Cause-to Động từ - Động từ To develop cause-to to grow Entail Động từ - Động từ To snore entail to sleep

Atribute Tính từ - Danh từ Hot attribute temperature

Synonymy

(synset)

Danh từ - Danh từ Động từ - Động từ

Car synonym automobile

To notice synonym to observe Tính từ - Tính từ

Happines antonymy unhappiness

To inhale antonymy to exhale Sincere antonymy insincere Always antonymy never Similarity Tính từ - Tính từ Abridge similarity shorten

See-also Động từ - Động từ Touch see-also touch down

Trang 36

1.3 Bài toán trích rút mối quan hệ ngữ nghĩa

Như đã giới thiệu, các khái niệm có chứa trong một tập câu hay tập tài liệu luôn có mối liên hệ với nhau thông qua các mối quan hệ ngữ nghĩa Các mối quan

hệ này thường được ẩn giấu trong các câu, việc tìm ra các mối quan hệ ngữ nghĩa là rất cần thiết, nhằm phục vụ cho các bài toán xử lí ngôn ngữ Vì thế, bài toán trích rút mối quan hệ ngữ nghĩa được đặt ra và yêu cầu cần phải được giải quyết

Bài toán : Nhận đầu vào là các khái niệm hay thực thể, thông qua tập tài liệu không có cấu trúc như các trang web, các tài liệu, tin tức,… ta cần phải xác định được các mối quan hệ ngữ nghĩa giữa chúng

2 Các phương pháp trích rút mẫu quan hệ

Các bước của phương pháp DIPRE :

- Xây dựng tập seed ban đầu ( tập dữ liệu mồi ) để gán nhãn cho một số dữ liệu Kí hiệu tập seed ban đầu là <A, B>

- Tìm được một tập các câu có chứa đủ các thành phần của tập seed ban đầu

- Dựa vào tập câu đã tìm được, tiến hành tìm các mẫu quan hệ giữa các thành phần của seed ban đầu Brin định nghĩa mẫu ban đầu rất đơn giản, bằng việc giữ lại khoảng 10 kí tự trước thành phần seed đầu tiên và giữ lại phía sau thành phần thứ hai 10 kí tự Mẫu quan hệ được biểu diễn dưới dạng sau:

[order, author, book, prefix, suffix, middle]

- Từ những mẫu mà chưa được gán nhãn ta thu được một tập các seed (author, book) mới và thêm những seed mới vào tập seed cho mối quan hệ đó

- Quay lại bước 2 để tìm ra những seed và mẫu mới

Định dạng
Số trang	73
Dung lượng	1,21 MB