1. Trang chủ
  2. » Giáo Dục - Đào Tạo

“Nghiên cứu, tìm hiểu mô hình phân lớp câu hỏi và ứng dụng trên hệ thống hỗ trợ sinh viên của viện đại học mở hà nội

73 154 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 73
Dung lượng 2 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Trong phạm vi đề tài, tác giả tập trung tìm hiểu và nghiên cứu những vấn đề cơ bản trong mô hình phân lớp câu hỏi và ứng dụng trên hệ thống của Viện Đại học Mở Hà Nội với tên đề tài “Ngh

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN ĐẠI HỌC MỞ HÀ NỘI

LUẬN VĂN THẠC SỸ

CHUYÊN NGÀNH CÔNG NGHỆ THÔNG TIN

NGHIÊN CỨU, TÌM HIỂU MÔ HÌNH PHÂN LỚP CÂU HỎI

VÀ ỨNG DỤNG TRÊN HỆ THỐNG HỖ TRỢ SINH VIÊN

CỦA VIỆN ĐẠI HỌC MỞ HÀ NỘI

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN ĐẠI HỌC MỞ HÀ NỘI

LUẬN VĂN THẠC SỸ

NGHIÊN CỨU, TÌM HIỂU MÔ HÌNH PHÂN LỚP CÂU HỎI

VÀ ỨNG DỤNG TRÊN HỆ THỐNG HỖ TRỢ SINH VIÊN

CỦA VIỆN ĐẠI HỌC MỞ HÀ NỘI

Trang 3

i

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn là công trình nghiên cứu của riêng cá nhân tôi, không sao chép của ai do tôi tự nghiên cứu, đọc, dịch tài liệu, tổng hợp và thực hiện Nội dung lý thuyết trong trong luận văn tôi có sử dụng một số tài liệu tham khảo như đã trình bày trong phần tài liệu tham khảo Các số liệu, chương trình phần mềm và những kết quả trong luận văn là trung thực và chưa được công bố trong bất kỳ một công trình nào khác

Hà Nội, ngày tháng năm 2017

Học viên thực hiện

Nguyễn Thị Khánh Quyên

Trang 4

ii

LỜI CẢM ƠN

Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Thầy giáo,

TS Đinh Tuấn Long đã tận tình chỉ bảo, hướng dẫn và giúp đỡ tôi trong suốt quá trình thực hiện bài luận văn tốt nghiệp này

Tôi xin gửi lời cảm ơn tới các thầy, cô Viện Đại học Mở Hà Nội, những người

đã tận tâm chỉ dạy những kiến thức quý báu, giúp đỡ và góp ý cho tôi trong suốt thời gian học tập và nghiên cứu tại trường

Bên cạnh đó, tôi cũng xin gửi lời cảm ơn chân thành tới các anh chị, các bạn học viên cùng học tập nghiên cứu tại Viện Đại học Mở Hà Nội đã hỗ trợ và đồng hành cùng tôi trong quá trình học tập cũng như thực hiện bài luận văn này

Cuối cùng, tôi xin gửi lời cảm ơn sâu sắc tới gia đình, bạn bè và đồng nghiệp, những người thân yêu luôn bên cạnh, quan tâm, động viên và khuyến khích tôi trong suốt học tập và cuộc sống

Tôi xin chân thành cảm ơn!

Hà Nội, ngày tháng năm 2017

Học Viên

Nguyễn Thị Khánh Quyên

Trang 5

iii

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

MỤC LỤC iii

DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT v

DANH SÁCH BẢNG vi

DANH SÁCH HÌNH VẼ vii

MỞ ĐẦU 1

CHƯƠNG 1: TỔNG QUAN VỀ PHÂN LỚP CÂU HỎI 3

1.1 Tổng quan về hệ thống hỏi đáp 3

1.1.1 Đặt vấn đề 3

1.1.2 Hệ thống hỏi đáp (Question Answering System) 4

1.2 Bài toán phân lớp câu hỏi 8

1.2.1 Định nghĩa phân lớp câu hỏi 8

1.3 Biểu diễn câu hỏi 9

1.4 Taxonomy câu hỏi 9

1.5 Các đặc trưng phân lớp 13

1.5.1 Các đặc trưng về từ vựng 13

1.5.2 Các đặc trưng về cú pháp 15

1.5.3 Các đặt trưng về ngữ nghĩa 18

1.6 Kết luận chương 19

CHƯƠNG 2: MỘT SỐ MÔ HÌNH PHÂN LỚP CÂU HỎI VÀ GIẢI THUẬT 20

2.1 Tiếp cận bài toán phân lớp câu hỏi 20

2.1.1 Tiếp cận dựa trên luật 20

2.1.2 Tiếp cận dựa trên học máy 21

2.2 Mô hình phân lớp câu hỏi 23

2.2.1 Mô hình phân lớp phẳng 23

Trang 6

iv

2.2.2 Mô hình phân lớp phân cấp 25

2.3 Một số giải thuật phân lớp câu hỏi 26

2.3.1 Giải thuật học máy có giám sát 26

2.3.2 Giải thuật học máy bán giám sát 34

2.4 Kết luận chương 40

CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ 41

3.1 Ứng dụng mô hình phân lớp 41

3.1.1 Thực trạng 41

3.1.2 Mô hình phân lớp câu hỏi ứng dụng 41

3.1.3 Mô hình xử lý dữ liệu 43

3.2 Tình trạng hệ thống hỏi đáp 48

3.3 Thực nghiệm với dữ liệu trên hệ thống hỗ trợ sinh viên trực tuyến Viện Đại học Mở Hà Nội 50

3.3.1 Thu thập dữ liệu 50

3.3.2 Xử lý dữ liệu 51

3.3.3 Kết quả thực nghiệm 57

3.3 Kết luận 58

KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO 59

TÀI LIỆU THAM KHẢO 60

PHỤ LỤC 62

Trang 7

v

DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT

Trang 8

vi

DANH SÁCH BẢNG

Bảng 1.1 Taxonomy câu hỏi của Li và Roth 11

Bảng 2.1 Bộ phân lớp câu hỏi của Dragomir Radev 24

Bảng 2.2 Bảng dữ liệu huấn luyện của ví dụ người chơi tennis 30

Bảng 3 1: Môi trường thực nghiệm 43

Bảng 3.2: Bộ phân lớp câu hỏi trên hệ thống hỗ trợ sinh viên 51

Bảng 3.3: Bộ phân lớp câu hỏi chia theo ngành học 52

Bảng 3.4: Thống kê kết quả tìm kiếm nhãn lớp có độ phân lớp chính xác cao với dữ liệu tại hệ thống hỗ trợ sinh viên Viện ĐH Mở Hà Nội 55

Bảng 3.5: Thống kê câu hỏi sinh viên theo ngành học 56

Bảng 3.6: Kết quả thực nghiệm với dữ liệu tại hệ thống hỗ trợ sinh viên trực tuyến Viện Đại học Mở Hà Nội 58

Trang 9

vii

DANH SÁCH HÌNH VẼ

Hình 1.1 Mô hình hệ thống hỏi đáp với các lĩnh vực liên quan 5

Hình 1.2 Kiến trúc của một hệ thống hỏi đáp 6

Hình 2.1 Mô hình giai đoạn huấn luyện 22

Hình 2.2 Chi tiết giai đoạn huấn luyện 23

Hình 2.3 Mô hình giai đoạn phân lớp 23

Hình 2.4 Bộ phân lớp đa cấp của Li và Roth 26

Hình 2.5 Mô hình phân lớp câu hỏi với SVM 28

Hình 2.6 Sơ đồ thực hiện giải thuật Sefl-training 36

Hình 2.7 Sơ đồ giải thuật Co-training 37

Hình 2.8 Sơ đồ giải thuật Tri-training 39

Hình 3.1 Mô hình phân lớp áp dụng 42

Hình 3.2 Chương trình xử lý dữ liệu 43

Hình 3.3 Sơ đồ giải thuật tham lam loại bỏ nhãn lớp có độ phân lớp chính xác cao 47

Hình 3.4 Mô hình xử lý của hệ thống H113 hiện tại 48

Hình 3.5 Nội dung file câu hỏi đã được gán nhãn từ loại 53

Hình 3.6 Ánh xạ đặc trưng câu hỏi gán nhãn lớp 54

Hình 3.7 Nội dung file theo định dạng SVM 54

Hình 3.8 Biểu đồ chính các theo lớp câu hỏi 56

Hình 3.9 Biểu đồ thống kê độ chính xác câu hỏi theo ngành 57

Trang 10

1

MỞ ĐẦU

1 Tính cấp thiết của đề tài

Trong thời đại công nghệ phát triển hiện nay, sự bùng nổ mạnh mẽ của Internet toàn cầu cùng với các nhu cầu tìm kiếm thông tin ngày càng cao của con người Chỉ cần một thao tác tìm kiếm đơn giản trên Internet, người dùng đã có thể nhận về một khối lượng khổng lồ những thông tin liên quan tới nội dung tìm kiếm Tuy nhiên, chính vì thế mà sự dễ dàng đó mang đến cho người dùng nhiều khó khăn trong việc chiết lọc những thông tin thực sự hữu ích Vậy nên, hệ thống hỏi đáp tự động đã ra đời nhằm mục đích phục vụ tốt hơn những nhu cầu của con người

Hệ thống hỏi đáp đã nhận được sự quan tâm đặc biệt của các nhà nghiên cứu, các công ty lớn (như Google, Microsoft, IBM…), các hội nghị lớn về trích chọn thông tin, xử lý ngôn ngữ tự nhiên (TREC, ACL…) và đã đạt được những kết quả nhất định Quy trình hoạt động của một hệ thống hỏi đáp tự động có nhiều bước, trong đó bước phân lớp câu hỏi đóng một vai trò quan trọng trong việc làm giảm thông tin tìm kiếm và tăng độ chính xác của kết quả tìm kiếm

Tuy nhiên, việc nghiên cứu về hệ thống hỏi đáp nói chung và bài toán phân lớp câu hỏi là một nhiệm vụ gặp không ít khó khăn Các hướng tiếp cận, mô hình phân lớp hay những giải thuật phân lớp sử dụng trong quá trình nghiên cứu và thực hiện đều có những ưu điểm và nhược điểm nhất định Trong phạm vi đề tài, tác giả tập trung tìm hiểu và nghiên cứu những vấn đề cơ bản trong mô hình phân lớp câu

hỏi và ứng dụng trên hệ thống của Viện Đại học Mở Hà Nội với tên đề tài “Nghiên cứu, tìm hiểu mô hình phân lớp câu hỏi và ứng dụng trên hệ thống hỗ trợ sinh viên của Viện Đại học Mở Hà Nội”

2 Mục tiêu của luận văn

Đề tài nhằm mục tiêu

 Tìm hiểu các kiến thức cơ bản của bài toán phân loại câu hỏi

 Ứng dụng các mô hình học máy để giải quyết bài toán phân loại câu hỏi

3 Bố cục của luận văn

Nội dung của đề tài gồm 3 chương chính sau:

Trang 11

2

Chương 1: Tổng quan về phân lớp câu hỏi

Trong chương này sẽ giới thiệu về hệ thống hỏi đáp, trình bày tổng quan về bài toán phân lớp câu hỏi, cách tiếp cận bài toán câu hỏi và các đặc trưng phân lớp câu hỏi

Chương 2: Một số mô hình phân lớp câu hỏi và giải thuật

Chương này sẽ trình bày tổng quan về các cách tiếp cận bài toán câu hỏi, một

số mô hình phân lớp câu hỏi và các giải thuật học máy sử dụng trong bài toán phân lớp câu hỏi

Chương 3: Thực nghiệm và đánh giá

Ứng dụng mô hình phân lớp câu hỏi, trình bày các kết quả thực nghiệp khi áp dụng mô hình phân lớp câu hỏi với dữ liệu câu hỏi thực nghiệm tại hệ thống hỗ trợ sinh viên Viện Đại học Mở Hà Nội, trình bày những đánh giá và kết luận sau thực nghiệm

Trang 12

Trong giai đoạn xử lý câu hỏi của hệ thống hỏi đáp, việc phân lớp câu hỏi là một nhiệm vụ rất quan trọng Nhiệm vụ của phân lớp câu hỏi như sau: Cho một câu hỏi, ánh xạ câu hỏi đó tới trong k lớp, các lớp đó cung cấp một gợi ý ngữ nghĩa về câu trả lời sau khi được tìm kiếm Mục đích của sự phân lớp này là giảm thiểu các câu trả lời không có tiềm năng, giai đoạn này được xử lý tại quá trình hạ lưu để lựa chọn câu trả lời chính xác từ một lượn các câu trả lời có tiềm năng

Phân lớp câu hỏi trong hệ thống hỏi đáp có 2 yêu cầu chính Thứ nhất, nó cung cấp các gợi ý về loại câu trả lời mà cho phép tiếp tục xử lý để xác định vị trí chính xác và xác minh câu trả lời Thứ hai, nó cung cấp thông tin trong quá trình xử lý hạ lưu được sử dụng để lựa chọn các chiến lược cho từng câu trả lời cụ thể

Hãy xem xét ví dụ cụ thể sau đây để hiểu hơn về các khía cạnh của việc phân lớp câu hỏi:

Câu hỏi 1: “Quy định khen thưởng cho sinh viên Viện Đại học Mở như thế nào?” Những từ khóa như “Quy định”, “Khen thưởng”, “sinh viên Viện Đại học Mở”

là cơ sở để tìm ra những câu trả lời phù hợp Mục đích của câu hỏi này là tìm ra được những quy định, quy chế để có thể công nhận khen thưởng cho sinh viên tại Viện Đại học Mở Hà Nội

Câu hỏi 2: “Chương trình đào tạo của Viện Đại học Mở Hà Nội hoạt động theo quy chế nào?” Xem xét câu hỏi trên, ta nhận thấy rằng một câu trả lời liên quan đến

Trang 13

4

lớp “quy chế đào tạo chính quy” hay “quy chế đào tạo hệ từ xa” sẽ có ích hơn là chỉ biết đến lớp “quy chế” Viện Đại học Mở Hà Nội hiện nay đào tạo theo rất nhiều hệ: chính quy, từ xa Quy chế bao gồm rất nhiều loại như quý chế đào tạo, quy chế học tập, quy chế tuyển sinh…Nếu hệ thống đã xác định được mục đích câu hỏi là về quy chế đào tạo thuộc hệ đào tạo nào thì không gian tìm kiếm để đưa ra câu trả lời sẽ nhanh và chính xác hơn nhiều

Trong phân lớp câu hỏi, việc xác định ngữ nghĩa rõ ràng của câu hỏi mang lại những lợi ích to lớn Tuy nhiên câu hỏi không phải lúc nào cũng đơn giản, mà chúng thường rất phức tạp, có nhiều ngữ nghĩa mập mờ, khó xác định Trong quá trình phân lớp câu hỏi, nếu hệ thống hạn chế được số lượng lớp phải dự đoán thì hiệu suất phân lớp sẽ tăng lên Vì vậy, ngoài việc xác định ngữ nghĩa câu hỏi, thì việc lựa chọn sử dụng mô hình phân lớp nào cũng rất quan trọng Đó là bước đầu thực sự cần trong nhiệm vụ phân lớp

1.1.2 Hệ thống hỏi đáp (Question Answering System)

1.1.2.1 Giới thiệu hệ thống hỏi đáp

Hệ thống hỏi đáp đầu tiên được ra đời từ những năm 1960 Ví dụ tiêu biểu cho

hệ thống hỏi đáp trong thời gian đó là hệ thống BASEBALL được phát triển năm

1961 do nhóm tác giả Green, Chomsky, và Laughery Hệ thống này dùng để trả lời các câu hỏi viết bằng ngôn ngữ tự nhiên trong một lĩnh vực đặc biệt là về trò chơi bóng chày trong ở giải đấu của Mỹ trong một mùa giải Một hệ thống khác tương tự như BASEBALL đã được phát triển bởi Woods năm 1973 và được đặt tên là LUNAR LUNAR có thể trả lời các câu hỏi liên quan đến các mẫu đas trở về từ tàu thăm dò trên mặt trăng Apolo Hệ thống này dịch các câu hỏi trong ngôn ngữ tự nhiên thành một câu truy vấn tương ứng trong cơ sở dữ liệu

Hầu hết các nghiên cứu trước đây chủ yếu là các hệ thống hỏi đáp trong một lĩnh vực đặc biệt hoặc là có sự giới hạn trong việc hỏi đáp Do thiếu kiến thức để cung cấp câu trả lời cho câu hỏi miền mở, các nghiên cứu về hệ thống hỏi đáp nằm im trong vài thập kỷ cho đến khi sự xuất hiện của các trang web Với số lượng lớn của các dữ liệu trên web, cần phải thực hiện các truy vấn web, do đó các nhiệm vụ về hỏi

Trang 14

5

đáp lại được tập trung nghiên cứu Sự tập trung nghiên cứu về hỏi đáp đặc biệt tăng khi hội nghị truy hồi văn bản (Text REtrieval Conference-Trec) bắt đầu một chủ để

về hỏi đáp vào năm 1990

Một vài kĩ thuật từ truy hồi thông tin, xử lý ngôn ngữ tự nhiên và học máy đã được dùng trong các hệ thống hỏi đáp Các nghiên cứu gần đây trên các hệ thống hỏi đáp miền mở điển hình thường dựa trên các kĩ thuật truy hồi thông tin (Information Retrieval-IR) Các hệ thống hỏi đáp dựa trên truy hồi thông tin cố gắng tìm kiếm câu trả lời cho câu hỏi bằng cách xử lý các tài liệu, thường từ web và tìm kiếm một phần của văn bản đó có thể là câu trả lời cho câu hỏi

Khái niệm về hệ thống hỏi đáp (Question Answering – QA) được hiểu như sau: QA là một hệ thống được xây dựng để thực hiện việc tìm kiếm câu trả lời cho một câu hỏi của người dùng Hệ thống hỏi đáp liên quan đến 3 lĩnh vực lớn đó là xử

lý ngôn ngữ tự nhiên (Natural Language Processing), tìm kiếm thông tin (Information Retrieval) và rút trích thông tin (Information Extraction)

Hình 1.1 : Mô hình hệ thống hỏi đáp với các lĩnh vực liên quan

Hệ thống hỏi đáp có 2 loại:

 Hệ thống hỏi đáp miền đóng (Closed-domain Question Answering): Hệ thống này liên quan đến các câu hỏi trong một lĩnh vực cụ thể, chẳng hạn như lĩnh vực y học hay lĩnh vực khoa học

Trang 15

6

 Hệ thống hỏi đáp miền mở (Open-domain Question Answering): hệ thống này liên quan đến các câu hỏi gần như về tất cả mọi thứ

1.1.2.2 Cấu trúc của một hệ thống hỏi đáp

Thông thường hệ thống hỏi đáp xử lý 3 nhiệm vụ quan trọng chính: xử lý câu hỏi, xử lý tài liệu và xử lý câu trả lời

Hình 1.2: Kiến trúc của một hệ thống hỏi đáp

 Xử lý câu hỏi:

Xử lý câu hỏi thông thường bao gồm các công việc như biểu diễn câu hỏi, dẫn xuất đến loại câu trả lời mong đợi và trích xuất từ khóa Phân tích được thực hiện để xây dựng xấu trúc câu hỏi Thông thường, cấu trúc biểu diễn câu hỏi là một cây cú pháp hoặc cây phụ thuộc Sau đó cấu trúc này được sử dụng để xác định vị trí và xác minh các câu trả lời trong các tài liệu hay đoạn văn đã được trích xuất

 Xử lý tài liệu:

Bước này sử dụng câu truy vấn được tạo ra ở bước xử lý câu hỏi để tìm các tài liệu liên quan đến câu hỏi Giao đoạn này bao gồm mở rộng từ khóa, trích chọn tài

Trang 16

7

liệu, và xác định đoạn văn liên quan Mở rộng từ khóa là sử dụng các từ khóa được trích xuất trong giai đoạn xử lý câu hỏi ở trên và tìm kiếm chúng trong một từ điển đồng nghĩa hoặc các tài nguyên khác, và thêm các điều kiện tìm kiếm để lấy ra càng nhiều tài liệu liên quan càng tốt Ví dụ từ khóa “kill” có thể được mở rộng thành

“murder” và “assassinate” Các tài liệu được trích chọn dựa trên các từ khóa mở rộng

Từ đó, một đoạn hoặc một phần của mỗi tài liệu này có chứa câu trả lời tiềm năng sẽ được xác định Phân loại câu hỏi được sử dụng ở đây: nó có thể xác định chiến lược tìm kiếm để tìm kiếm các ứng viên đúng Tùy thuộc vào các lớp câu hỏi, truy vấn tìm kiếm có thể được chuyển đổi thành một hình thức mà là thích hợp nhất cho việc tìm kiếm câu trả lời

 Xử lý câu trả lời:

Bước này phân tích tập tài liệu trả về từ bước xử lý tài liệu và sử dụng các thông tin hữu ích do bước xử lý câu hỏi cung cấp để đưa ra câu trả lời chính xác nhất Các ứng cử viên câu trả lời được xếp hạng theo khả năng của mình trong việc trong cùng một lớp như lớp câu hỏi và câu trả lời xếp hạng cao nhất sẽ được coi là câu trả lời cuối cùng của câu hỏi

1.1.2.3 Mục đích của việc phân lớp câu hỏi

Như đã phân tích ở trên, hiệu suất của việc phân lớp câu hỏi có ảnh hướng đáng kể đến hiệu suất tổng thể của hệ thống hỏi đáp Việc phân lớp câu hỏi càng hiệu quả thì hiệu suất của hệ thống hỏi đáp càng cao

Có hai động cơ thúc đẩy chính về việc phân lớp câu hỏi đó là: xác định câu trả lời và lựa chọn chiến lược tìm kiếm

Xác định câu trả lời: Khi biết được loại câu hỏi không chỉ có thể thu gọn được không gian tìm kiếm cần tìm câu trả lời, nó còn có thể tìm kiếm chính xác câu trả lời trong một tập lớn các ứng viên trả lời Ví dụ cùng xem xét câu hỏi sau: “Ai là Viện trưởng của Viện Đại học Mở Hà Nội” Chúng ta cùng thấy đây là dạng câu hỏi liên quan đến ai, con người, hệ thống sẽ đưa ra các câu trả lời liên quan đến thực thể có được xác định là người mà không cần phải kiểm tra toàn bộ các đoạn văn bản để tìm

ở đâu có thể chứa câu trả lời hoặc không

Trang 17

8

Lựa chọn chiến lược tìm kiếm: Lớp câu hỏi có thể có được sử dụng để lựa chọn chiến lược tìm kiếm khi câu hỏi được viết dưới dạng một truy vấn để tìm kiếm trên máy tìm kiếm Cho ví dụ đưa ra câu hỏi: “Địa điểm chính của Viện Đại học Mở

Hà Nội ở đâu?” Xác định được lớp câu hỏi này là “nơi trốn”, các mẫu tìm kiếm cho việc xác định câu trả lời có thể dùng là “Địa chỉ của Viện Đại học Mở Hà Nội là ở….” Hay “Viện Đại học Mở Hà Nội ở…” Việc lựa chọn chiến lược tìm kiếm theo các lớp như vậy tốt hơn nhiều việc tìm kiếm đơn giản thông thường

1.2 Bài toán phân lớp câu hỏi

1.2.1 Định nghĩa phân lớp câu hỏi

Phân lớp câu hỏi được định nghĩa theo nhiều cách khác nhau, áp dụng định nghĩa phân lớp văn bản, Hakhan Sundblad đã đưa ra một số định nghĩa phân lớp câu hỏi như sau:

Phân lớp câu hỏi [5, tr.9-10] là nhiệm vụ gán 1 giá trị đúng hoặc sai tới mỗi cặp (𝑞𝑗, 𝑐𝑖) ∈ 𝑄 × 𝐶, trong đó Q là miền các câu hỏi và 𝐶 = {𝐶1, 𝐶2, … , 𝐶|𝐶|} là tập các lớp đã được định nghĩa trước

Cặp (qj,ci) được gán cho giá trị là T chỉ ra rằng câu hỏi qj thuộc phân loại ci

và được gán cho giá trị là F nếu qj không thuộc phân loại ci

Phân lớp câu hỏi là một bước xử lý quan trọng trong các hệ thống hỏi đáp Mục đích của hệ thống hỏi đáp là đưa ra được một câu trả lời ngắn gọn, súc tích hơn

là những tài liệu liên quan chứa câu trả lời Trong ngôn ngữ tự nhiên, một câu hỏi có thể liên quan và ảnh hưởng bởi nhiều lĩnh vực khác nhau nên lượng câu trả lời liên quan cũng rất lớn Việc phân lớp câu hỏi sẽ cung cấp các thông tin ràng buộc về loại câu trả lời Nhờ đó, hệ thống đưa ra một hoặc nhiều chiến lược làm giảm không gian tìm kiếmcác câu trả lời tiềm năng trong kho ngữ liệu khổng lồ

Phát biểu bài toán phân lớp câu hỏi

Bài toán phân loại câu hỏi có thể được phát biểu như sau:

Input:

- Cho trước một tập các câu hỏi

- Tập các chủ đề (phân loại) được định nghĩa

Trang 18

9

Output:

- Nhãn ci của câu hỏi qj

1.3 Biểu diễn câu hỏi

Xác định loại câu hỏi mang một ý nghĩa to lớn trong việc phân tích các câu hỏi bởi mỗi loại câu hỏi sẽ có những đặc trưng và cách tiếp cận khác nhau, từ đó lựa chọn một mô hình biểu diễn câu hỏi thích hợp Có nhiều loại câu hỏi như: câu hỏi định nghĩa, mô tả, tổng hợp, đánh giá, liệt kê Trong câu hỏi, người ta có thể sử dụng từ ngữ phức tạp và đa dạng để diễn đạt cùng nội dung làm cho việc xác định lớp câu hỏi phù hợp trở nên khó khăn Các loại câu hỏi này nên đưa về những dạng cây hỏi đơn giản hoặc loại câu hỏi phức tạp Mỗi loại câu hỏi cần có những chiến lược phân lớp phù hợp cũng như biểu diễn bởi các mô mình riêng Một trong những mô hình đơn giản và thường được sử dụng là mô hình không gian vector

Trong mô hình này, các câu hỏi được thể hiện trong một không gian có số chiều lớn, trong đó mỗi chiều của không gian tương ứng với một từ trong câu hỏi Phương pháp này có thể biểu diễn một cách hình tượng như sau: mỗi câu hỏi được biểu diễn dưới dạng 𝑥⃗ (vector đặc trưng của câu hỏi đó) Trong đó, 𝑥⃗ = (x1, x2….,xn) và n là số lượng đặc trưng hay số chiều của vector câu hỏi, xi là trọng số của đặc trưng thứ i với

I ≤ 1 ≤ n

1.4 Taxonomy câu hỏi

Trong Q&A Roadmap đã chỉ ra rằng taxonomy câu hỏi là rất cần thiết trong nghiên cứu về Q&A Các nghiên cứu về taxonomy câu hỏi đã được nhiều nhà nghiên cứu quan tâm, trên các mặt về ngôn ngữ học, triết học, xã hội học, có nền tảng lý thuyết lẫn thực nghiệm

Khái niệm taxonomy mang nhiều ý nghĩa khác nhau, nhưng về bản chất, taxonomy là sự định danh, phân loại một số tính chất, đặc điểm Taxonomy được xem

là một hình thức của hệ phân cấp và có chứa các phần tử gọi là các nút Mối quan hệ chủ yếu giữa các nút là quan hệ cha – con và giữa các nút con đồng cấp với nhau thì không tồn tại mối quan hệ nào

Trang 19

10

Một taxonomy được mô tả theo cấu trúc hình cây, trên đỉnh của cấu trúc là nút gốc và dưới nó là các nút con, tập nút con của các nút cha không giao nhau Khi duyệt cây từ nút cha đến các nút con, thông tin tại các nút con chi tiết và rõ ràng hơn nút cha Khi xác định được nút cha, các nút con cũng sẽ được xác định Điều này mang lại hiệu quả trong tìm kiếm, truy vấn dữ liệu vì dựa vào nút cha, việc xác định miền thông tin cần tìm rõ ràng hơn và được giới hạn

Năm 1972, Robinson và Rackstraw đã nghiên cứu về cách sử dụng các từ để hỏi trong tiếng Anh, theo đó “the Five Ws” (Who, What, When, Where, Why, và How) là cách phân loại câu hỏi thông thường và đơn giản nhất Có lẽ bởi “the Five Ws” là cách suy nghĩ rất tự nhiên khi đặt câu hỏi của người dùng tiếng Anh nên nó rất phổ biến trong các tài liệu và trong hỏi đáp thông thường Robinson và Rackstraw

đã dành 2 tập sách [8,9] để khảo sát về words, hình thức câu hỏi dựa vào words và câu trả lời cho các câu hỏi này Robinson và Rackstraw định nghĩa wh-words là “tập hoàn toàn của các từ để hỏi về mặt từ vựng” (“the total set of lexically marked interrogative words”) Họ đưa ra một taxonomy câu hỏi 7 lớp bao gồm:Who, Which, What, When, Where, Why, How

wh-Có hai vấn đề với taxonomy trên là: Câu hỏi không nhất thiết phải là câu có sử dụng từ để hỏi wh-words và không phải câu nào có sử dụng từ để hỏi wh-words cũng đều là câu hỏi Một câu hỏi có dạng của một câu phát biểu nhưng có thể được hiểu

và chấp nhận như là một câu hỏi Ví dụ xem xét câu sau: “I’m looking for the name

of the General Secretary of the United Nations” tương đương với câu “Who was the General Secretary of the United Nations?” Các cách nói tu từ, biểu cảm rất hay sử dụng các từ wh-words ví dụ câu “What a beautiful house!” hay “Why not?” đều không phải là các câu có mục đích hỏi

Một vài hệ thống Q&A trong hội nghị TREC sử dụng wh-words như là các tiêu chuẩn chính trong phân tích và biểu diễn logic của câu hỏi [11,12] Một số hệ thống chia nhỏ các lớp câu hỏi wh-words thành các lớp con nhằm cho phép hệ thống Q&A có thể nhận diện được “kiểu ngữ nghĩa (semantic types) của câu trả lời mong muốn” Dan Moldovan và đồng nghiệp đưa ra một taxonomy phân loại câu hỏi phân cấp theo cả từ để hỏi lẫn loại câu trả lời mong muốn tương ứng

Trang 20

11

Ngoài ra, cùng với nghiên cứu về vấn đề này, Li và Roth [12, 13] đã đưa ra taxonomy phân cấp theo sự phân loại ngữ nghĩa tự nhiên của câu trả lời cho các câu hỏi được khảo sát từ hội nghị TREC Cấu trúc phân cấp bao gồm 6 lớp câu hỏi thô (coarse classes) là ABBREVIATION (viết tắt), ENTITY (thực thể), DESCRIPTION (mô tả), HUMAN (con người), LOCATION (địa điểm) và NUMERIC VALUE (giá trị số) Mỗi lớp câu hỏi thô lại được phân chia thành các lớp con (fine class) Taxonomy câu hỏi của Li và Roth được trình bày chi tiết trong bảng dưới đây Taxonomy này cùng bộ dữ liệu câu hỏi đã gán nhãn của Li và Roth được nhiều nhóm nghiên cứu sử dụng lại bởi nó bao phủ được hầu hết các loại câu hỏi thường gặp trong thực tế

Trang 22

1.5.1 Các đặc trưng về từ vựng

Các đặc trưng từ vựng của một câu hỏi thường được rút trích dựa trên ngữ cảnh của các từ của câu hỏi, nghĩa là, các từ đó xuất hiện trong một câu hỏi Trong nhiệm vụ phân loại câu hỏi, một câu hỏi được biểu diễn giống như biểu diễn tài liệu trong mô hình không gian vectơ, tức là, một câu hỏi là một vectơ mà được mô tả bởi các từ bên trong nó Do đó một câu hỏi x có thể được biểu diễn như sau:

Trang 23

14

x = (x1, x2, ,xn) (1)

Trong đó: xi là tần số xuất hiện của từ i trong câu hỏi x và N là tổng số các từ

Do sự thưa thớt của các đặc trưng, chỉ các đặc trưng có giá trị khác không mới được giữ lại trong vectơ đặc trưng Vì vậy đôi khi các câu hỏi cũng được biểu diễn dưới hình thức sau:

x = {(t1, f1), (t2, f2),…,(tn,fn)} (2)

Trong đó ti là thứ i trong câu hỏi x và fi là tần số xuất hiện của ti trong câu hỏi

x Không gian đặc trưng này được gọi là các đặc trưng bag-of-word và thứ tự của các

từ trong câu hỏi là không quan trọng trong cách biểu diễn Việc biểu diễn các câu hỏi theo công thức (2) làm cho kích thước của tập mẫu tương đối nhỏ mặc dù kích thước của không gian đặc trưng rất lớn Ví dụ cùng xem xét câu hỏi sau:“Viện Đại học Mở

Hà Nội được thành lập từ năm nào“ được biểu diễn như sau:

x = {(Viện, 1), (Đại, 1), (học,1), (Mở, 1), (Hà, 1), (Nội, 1), (được, 1), (thành, 1), (lập, 1), (từ, 1), (năm, 1), (nào, 1)}

Tần số xuất hiện của các từ trong câu hỏi (các giá trị của đặc trưng) có thể được xem như là giá trị trọng số, nó biểu thị cho tầm quan trọng của một từ trong câu hỏi

Không gian đặc trưng bag-of-word còn được gọi là unigram Unigram là một trường hợp đặc biệt của các đặc trưng n-gram Để trích xuất các đặc trưng n-gram, bất kỳ n từ liên tiếp nhau trong một câu hỏi sẽ được xem như là một đặc trưng Ngoài unigram, còn có thêm 2 loại n-gram thường được gọi là bigram, trigram Cụ thể:

+ Bigram: lấy lần lượt 2 từ liên tiếp nhau trong câu

+ Trigram : lấy lần lượt 3 từ liên tiếp nhau trong câu

Ví dụ như câu hỏi sau:“Vì sao bạn chọn học E-learning tại Viện Đại học Mở Hà Nội?”, từ hỏi “Vì sao” là một đặc trưng Bigram và có thể được thêm vào vector đặc trưng Tất cả các đặc trưng về từ vựng, cú pháp và ngữ nghĩa có thể được thêm vào không gian đặc trưng và mở rộng vector đặc trưng trên

Các vector đặc trưng vẫn có thể được biểu diễn theo (2), trong khi các đặc trưng mới

có thể được coi như từ loại mới Chẳng hạn đặc trưng bigram “Vì sao” có thể được xem như một từ loại mới và cặp {(Vì sao), 1)} sẽ được thêm vào vector đặc trưng khi

Trang 24

15

đặc trưng bigram được trích xuất Tuy nhiên, điều này sẽ làm tăng kích thước của không gian đặc trưng và các câu hỏi sẽ được biểu diễn với số chiều cao Ngoài ra, trong đặc trưng bigram cứ 2 từ liên tiếp trong tập dữ liệu được xem là đặc trưng, nhưng hầu hết trong đó lại dư thừa và không hiển thị trong dữ liệu Vì vậy, chúng ta chỉ nên xem xét hai từ đầu tiên của một câu hỏi là đặc trưng bigram và như vậy, kích thước của không gian đặc trưng sẽ nhỏ hơn rất nhiều Như trong ví dụ vừa nêu ra “Vì sao bạn chọn học E-learning tại Viện Đại học Mở Hà Nội?”, chỉ có ý nghĩa bigram trong câu hỏi này là “Vì sao” trong khi các phần còn lại là không hữu ích

Trong nghiên cứu của mình, nhóm tác giả Huang đã giới thiệu đặc trưng từ hỏi word Đặc trưng wh-word được hiểu các câu hỏi bắt đầu bằng “wh” (đối với hệ thống tiếng Anh) Ví dụ “Where is Hanoi Open University?” thì wh-word của câu hỏi trên

wh-là “where” Đã có 8 loại wh-word được nêu ra: what, which, when, where, who, how, why, và rest, với rest được hiểu là các loại câu hỏi còn lại không thuộc 8 loại trên Ví

dụ câu hỏi “Name a food high in zinc” là một câu hỏi thuộc loại rest

Nhóm tác giả Huang còn giới thiệu một đặc trưng từ vựng khác là word shapes (khuôn dạng từ) Loại đặc trưng này dùng để chỉ tính chi tiết của các đơn từ Có 5 loại đặc trưng word shapes được giới thiệu là: all digits, all lower case, all upper case, mixed case and other

1.5.2 Các đặc trưng về cú pháp

Các đặc trưng về cú pháp chính là các quan hệ cấu trúc giữa các từ, xem các

từ đi với nhau như thế nào để tạo ra một câu hoàn chỉnh, đúng nghĩa Dưới đây là một

số loại đặc trưng thường được sử dụng nhất

1.5.2.1 POS Tags và Tagged Unigrams

POS tags cho biết nhãn từ loại của mỗi từ trong câu hỏi như NN (Nound-danh từ), JJ (adjective- tính từ), RB (Adverb – trạng từ),…Việc gán nhãn từ loại (POS tags) đóng một vai trò quan trọng trong việc phân loại câu hỏi Các danh từ trong câu hỏi đại diện cho các đối tượng hay các thực thể cần nói tới Vì thế, ta cần các định từ loại của các từ trong câu hỏi

Một vài nghiên cứu trong phân loại câu hỏi thêm tất cả các POS tags của câu hỏi vào vector đặc trưng Không gian đặc trưng này đôi khi được gọi là bag-of-POS

Trang 25

16

tags Ví dụ các đặc trưng bag-of-POS tags của câu hỏi “Where is Hanoi Open University?” như sau:

Where_WRB is_MD Hanoi_NN Open_NN University_NN

Việc gán nhãn từ loại (POS tags) cũng đóng một vai trò quan trọng trong việc phân loại câu hỏi Các danh từ trong câu hỏi đại diện cho các đối tượng hay các thực thể cần hỏi tới Vì thế, ta cần xác định từ loại của các từ trong câu hỏi Có một vài nghiên cứu trong phân loại câu hỏi thêm tất cả các POS tags của câu hỏi vào vectơ đặc trưng Không gian đặc trưng này đôi khi được gọi như bag-of-POS tags Các đặc trưng bag-of-POS tags của câu hỏi trên như sau:

{(WRB,1), (MD,1), (NN,1), (NN,1), (NN,1)}

Bên cạnh đó, có một đặc trưng khác tên là tagged unigram Đặc trưng này đơn giản là unigrams tăng cường với POS tags Xét tagged unigram thay vì unigrams bình thường có thể giúp bộ phân loại phân biệt một từ với các thẻ khác như là hai đặc trưng khác nhau Ví dụ trên được biểu diễn với các đặc trưng tagged unigram trên như sau:

(University_NN,1)}

1.5.2.2 Từ đầu (head word)

Cách khai thác từ đầu của Li và Rod là lấy danh từ và động từ đầu tiên của một đoạn văn bản và coi như những từ đầu của một câu hỏi, họ sử dụng đặc trưng head chuck như đặc trưng cú pháp cho cách tiếp cận của mình Head chuck được định nghĩa là cụm danh từ và cụm động từ đằng sau từ để hỏi Xét ví dụ “What is the best

university in Hanoi” thì head chuck là cụm danh từ “the best university in Hanoi”

Theo nghiên cứu của Krishman (2005), ông cũng sử dụng đặc trưng gọi là informer span Đặc trưng này có thể được biểu diễn là một cụm từ mà cung cấp đủ thông tin

để giúp phân loại câu hỏi Cũng với ví dụ của câu hỏi “What is the best university in Hanoi” thì imformer span được xác định là “the best university”

Nhận thấy rằng 2 cách tiếp cận này đều được chứng minh là chứa thông tin nhiễu Chẳng hạn với câu hỏi Nhóm tác giải Huang đã đề xuất đặc trưng headword dựa trên ý tưởng một từ trong câu hỏi đại diện cho một đối tượng cần hỏi đến để giải quyết vấn đề này Xác định chính xác từ đầu có thể cải thiện đáng kể độ chính xác

Trang 26

17

của việc phân loại do nó là từ chứa thông tin nhất trong câu hỏi Ví dụ cho câu hỏi

“What is the best university in Hanoi”, từ đầu là “university” Từ “university” trong câu hỏi trên có thể có đóng góp cao cho bộ phân loại để phân loại câu hỏi này LOC:other

1.5.2.3 Biểu thức chính quy

Không phải bất kỳ câu hỏi nào cũng có từ đầu Chẳng hạn như với câu hỏi

“What is environment?”, không có từ đầu nào phù hợp để góp phần phân loại như là

“definition” Vấn đề tương tự cũng xuất hiện trong câu hỏi “why is the sun red?”, không có các từ nào trong câu hỏi này ngoại trừ từ để hỏi giúp bộ phân loại phân loại câu hỏi này là “reason”

Để định nghĩa một đặc trưng thay thế cho từ đầu của câu hỏi, nhóm tác giả Huang đã giới thiệu một vài mẫu biểu thức chính quy để ánh xạ các kiểu của câu hỏi tới một mẫu và sau đó sử dụng mẫu tương ứng như là đặc trưng Danh sách các mẫu của Huang [16] như sau:

DESC:def pattern 1 Các câu hỏi bắt đầu bằng what is/are, không bắt buộc

theo sau nó là a, an, hoặc the và tiếp theo là 1 hoặc nhiều từ

DESC:def pattern 2 Các câu hỏi bắt đầu bằng what do/does và kết thúc là

mean

ENTY:substance pattern Các câu hỏi bắt đầu là what is/are và kết thúc là

composed of/made of/made out of

DESC:desc pattern Các câu hỏi bắt đầu với what does và kết thúc là do

ENTY:term Các câu hỏi bắt đầu là what do you call

DESC:reason pattern 1 Các câu hỏi bắt đầu là what causes/cause

DESC:reason pattern 2 Các câu hỏi bắt đầu bằng What is/are và kết thúc

là used for

ABBR:exp pattern Các câu hỏi bắt đầu bằng What does/do và kết thúc với

stand for

HUM:desc pattern Các câu hỏi bắt đầu với Who is/was và theo sau nó là

một từ bắt đầu là một kí tự viết hoa

Trang 27

18

Nếu một câu hỏi so khớp với một vài các luật trên thì đặc trưng tương ứng sẽ được sử dụng Biểu diễn các đặc trưng tương tự công thức (2), do đó tên mẫu có thể được xem xét như là một phần tử và giá trị đặc trưng sẽ là 1 nếu câu hỏi so khớp với một mẫu Ví dụ cho câu hỏi “What is environment?”, các đặc trưng có thể được biểu diễn như sau:

{(DESC:def-pattern1, 1)}

1.5.3 Các đặt trưng về ngữ nghĩa

Các đặc trưng ngữ nghĩa được trích rút dựa trên ngữ nghĩa của các từ trong câu hỏi Chúng tôi trích rút các kiểu khác nharu của các đặc trưng ngữ nghĩa Hầu hết các đặc trưng ngữ nghĩa đòi hỏi nguồn dữ liệu thứ 3 như là WordNet (Fellbaum, 1998), hoặc là một từ điển để trích rút thông tin ngữ nghĩa cho các câu hỏi

WordNet là một kho từ vựng tiếng anh lớn, trong đó có một tập hợp các từ đồng nghĩa được nhóm lại với nhau gọi là synset Wordnet là một công cụ hữu ích để phân tích ngữ nghĩa của từ và được sử dụng rộng rãi trong phân loại câu hỏi

Sử dụng WordNet để phân loại câu hỏi thông qua hypernyms: Y là một hypernyms của X nếu ý nghĩa của Y bao hàm ý nghĩa của một hoặc nhiều từ khác cùng loại của X

Hypernyms cho phép biểu diễn trừu tượng hơn các từ cụ thể, nó có thể là các đặc trưng hữu ích cho phân loại câu hỏi.Tuy nhiên trích rút hypernyms không phải

dễ dàng Có 4 thách thức cần phải được giải quyết để đạt được các đặc trưng hypernyms:

1 Từ (các từ) nào trong câu hỏi mà chúng ta nên tìm hypernyms?

2 Đối với các từ (các từ) ứng viên, thẻ từ loại nào nên được xem xét?

3 Đối với các từ ứng viên, tăng cường với thẻ từ loại của chúng có thể có ý nghĩa khác nhau trong WordNet Vậy, nghĩa nào là nghĩa mà được sử dụng trong câu hỏi?

4 Để có kết quả hypernyms tốt nhất, nên xét độ sâu hypernyms là bao nhiêu?

Có 2 kịch bản khác nhau được đưa ra để giải quyết thách thức đầu tiên: xem xét headword như là một ứng cử viên cho việc mở rộng từ hoặc mở rộng tất cả các từ

Trang 28

19

trong câu hỏi Cách tiếp cận thứ 2 đã được chứng minh gây nhiễu thông tin và như vậy, headword sẽ được giới thiệu như là một từ mà chúng ta nên tìm hypernyms

Vấn đề thứ 2 được giải quyết như sau: ánh xạ nhãn từ loại của từ đầu được đưa

ra vào nhãn từ loại của nó trong Wordnet (các nhãn từ loại trong Wordnet gồm: POS.NOUN và POS.ADJECTIVE, POS.ADVERB và POS.VERB)

Việc giải quyết câu hỏi thứ 3 thực chất là vấn đề định hướng ngữ nghĩa của từ (word sense disambiguation-WSD).Thuật toán Lesk (Lesk, 1986) là một thuật toán cổđiển sử dụng cho WSD Thuật toán dựa trên giả định rằng: các từ trong bối cảnh

có xu hướng chia sẻ một chủ để phổ biến nào đó Nhóm tác giả Huang[13] đã giới thiệu thuật toán Lesk‟s WSD để xác định ngữ nghĩa đúng của từ

Với câu hỏi thứ 4, Huang[14] đã chứng minh được rằng việc mở rộng hypernyms của headword đạt kết quả tốt nhất ở mức thứ 6 của cây hypernyms

1.6 Kết luận chương

Phân lớp câu hỏi đóng một vai trò quan trọng trong hệ thống hỏi đáp Chương

1 đã trình bày tổng quan về hệ thống hỏi đáp, nêu bài toán phân lớp câu hỏi cũng như các đặc trưng về phân lớp câu hỏi Trong nội dung tiếp theo của luận văn, tác giả sẽ trình bày các hướng tiếp cận bài toán phân lớp, một số mô hình phân lớp câu hỏi và giải thuật phân lớp câu hỏi

Trang 29

20

CHƯƠNG 2: MỘT SỐ MÔ HÌNH PHÂN LỚP CÂU HỎI

VÀ GIẢI THUẬT 2.1 Tiếp cận bài toán phân lớp câu hỏi

Có 2 cách để tiếp cận bài toán lớp câu hỏi: dựa trên luật (rule-based) và dựa trên học máy (machine learning based) Ngoài ra cũng có một vài cách tiếp cận khác

là sự kết hợp của tiếp cận dựa trên luật và học máy

2.1.1 Tiếp cận dựa trên luật

Tiếp cận dựa trên luật được cho là đơn giản nhất để giải quyết bài toán phân lớp câu hỏi Hướng tiếp cận này yêu cầu phải có các chuyên gia ngôn ngữ cung cấp các luật, các biểu thức chính quy (regural expression), các từ khóa cho từng lớp câu hỏi … để hệ thống hoạt động

Nhóm tác giải Singal (1999) dựa trên các quy tắt hoạt động của từ đã giới thiệu một số luật như sau [7]:

• Truy vấn bắt đầu bằng “Who” hoặc “Whom” được đưa đến loại “person”

• Truy vấn bắt đầu bằng “Where”, “Whence”, hoặc “Whither” được đưa về loại “location”

• Truy vấn bắt đầu với “How few”, “How great”, “How little”, “How many“ hoặc “How much” được đưa về loại “quantity”

• Truy vấn bắt đầu bằng “Which” hoặc “What” thì tìm kiếm danh từ chính (head noun) trong từ điển để xác định loại câu trả lời

Tuy nhiên cách tiếp cận này cũng có một vài hạn chế [6]

• Xây dựng mô hình cho phương pháp này rất tốn thời gian và công sức, cần

có sự cộng tác của những chuyên gia trong lĩnh vực ngôn ngữ học khi xây dựng các mẫu câu hỏi và văn phạm cho từng loại câu hỏi đó

• Các luật ngữ pháp viết tay và văn phạm của từng loại câu hỏi rất cứng nhắc, không linh động Khi một dạng câu hỏi mới xuất hiện, mô hình theo hướng này không thể xử lý Muốn xử lý được mô hình cần phải được cung cấp những luật mới

Trang 30

- What tourist attractions are there in Reims?

- What are the names of the tourist attractions in Reims?

- What do most tourist visit in Reims?

- What attracts tourists to Reims?

- What is worth seeing in Reims?

Các câu hỏi trên được viết bằng các định dạng cú pháp khác nhau nhưng đều đưa ra một câu trả lời Các câu hỏi đĩ cùng đề cập đến một lớp trong khi các cú pháp

cĩ định dạng khác nhau, do đĩ chúng cần so khớp các luật với nhau Vì vậy với sự giới hạn về số lượng các luật nên việc phân lớp câu hỏi là việc rất khĩ khăn

2.1.2 Tiếp cận dựa trên học máy

Tiếp cận dựa trên học máy cĩ thể được coi là phương thức được sử dụng phổ biến và tối ưu để giải quyết bài tốn phân lớp câu hỏi Cách tiếp cận này sẽ thay thế các kiến thức chuyên mơn bằng một tập lớn các câu hỏi được gán nhãn (được gọi là tập dữ liệu mẫu) Dử dụng tập này, một bộ phân lớp sẽ được huấn luyện cĩ giám sát Một số thuật tốn thường được sử dụng như: Tính xác suất Nạve Bayes, Maximum Entropy, cây quyết định (decision tree), thuật tốn lân cận (Nearest-Neighbors), Mạng lọc thưa (Spare network of winows – SnoW), máy vector hỗ trợ (Support Vector machine – SVM)…

Cách tiếp cận dựa trên học máy đã giải quyết được những hạn chế trong cách tiếp cận dựa trên luật Hướng tiếp cận này cĩ những thuận lợi như sau:

 Thời gian tạo dựng ngắn vì khơng phải tốn thời gian đề ra các luật

 Bộ phân loại được tạo ra tự động thơng qua việc học từ một tập dữ liệu huấn luyện, việc cung cấp các luật giờ khơng cần thiết nữa

Trang 31

Giai đoạn huấn luyện

Đầu vào: Tập dữ liệu huấn luyện và thuật toán huấn luyện

Đầu ra: Mô hình phân lớp (Một bộ phân lớp – classifier)

Hình 2.1: Mô hình giai đoạn huấn luyện

Giai đoạn huấn luyện được mô tả chi tiết như sau:

- Tập dữ liệu huấn luyện: Một tập dữ liệu được thu thập từ nhiều nguồn tin cậy khác nhau để đưa vào sử dụng huấn luyện

- Tiền xử lý: Các dữ liệu sẽ được chuyển đổi trong tập huấn luyện thành một hình thức phù hợp để phân loại

- Vector hóa: Các câu hỏi trong tập dữ liệu sẽ được mã hóa bởi mô hình không gian vector

- Trích chọn đặc trưng: Các dữ liệu sẽ được xử lý loại bỏ những đặc trưng (từ) không mang ý nghĩa thông tin nhằm nâng cao hiệu suất phân loại và giảm độ phức tạp của thuật toán huấn luyện

Trang 32

23

- Thuật toán huấn luyện: Sử dụng thuật toán huấn luyện bộ phân loại để tìm

ra các tham số tối ưu Tại bước này có thể được thực thi lặp lại nhiều lần

để tìm một tập các tham số tối ưu sau mỗi lần lặp

- Đánh giá: Sau cùng của giai đoạn huấn luyện sẽ đánh giá hiệu suất (chất lượng) của bộ phân loại

Hình 2.2: Chi tiết giai đoạn huấn luyện

Giai đoạn phân lớp

Đầu vào: Các vector đặc trưng của câu hỏi và mô hình phân lớp câu hỏi được sử dụng Đầu ra: Nhãn/phân lớp của câu hỏi

Hình 2.3: Mô hình giai đoạn phân lớp

2.2 Mô hình phân lớp câu hỏi

2.2.1 Mô hình phân lớp phẳng

Trong các mô hình phân lớp, mô hình phân lớp phẳng có thể được coi là hướng tiếp cận bài toán phân lớp câu hỏi đơn giản Trong sử dụng mô hình này, các mối

Trang 34

25

dựng Một số trường hợp đặc biệt khác có thể xảy ra và ảnh hưởng nhiều đến quá trình phân lớp Đó là khi các thuộc tính phân biệt rất tốt nhưng không mang lại hiệu quả trong việc phân lớp

2.2.2 Mô hình phân lớp phân cấp

Mô hình phân lớp phân cấp đã có nhiều cải tiến hơn so với các mô hình phân lớp khác Mô hình này có nhiều ưu điểm về độ chính xác và cách tổ chức thông tin

Ý tưởng cơ bản của mô hình là giảm số lượng các nhãn lớp phải dự đoán cho mỗi câu hỏi trong từng cấp Đầu ra của phân lớp cấp một là một tập con nhãn lớp được sử dụng làm bộ phân lớp tiếp theo Phân lớp cấp một dự đoán câu hỏi vào các nhãn lớp tổng thể, các nhãn lớp này có độ bao quát lớn nên sẽ gặp ít rủi ro hơn nếu có nhiều đặc trưng mới

Theo Li và Roth [13] đã đề xuất áp dụng mô hình phân lớp hai cấp cùng với

bộ phân lớp Mô hình kết hợp hai phân lớp liên tiếp, theo thứ tự Đầu tiên, câu hỏi sẽ được đưa vào phân lớp cấp một (gọi là phân lớp thô), phân lớp này gồm 6 lớp là

NUMBERIC VALUE Mỗi lớp thô này lại chứa một số lớp con chi tiết hơn bên

trong Các lớp mịn này chỉ thuộc vào duy nhất một lớp thô Tổng số lượng lớp mịn trong mô hình phân lớp phân cấp là 50 lớp đã được trình bày trong Bảng 1.1 Phân lớp cấp hai (gọi là phân lớp mịn) phải dựa vào phân lớp cấp một để khi câu hỏi đi qua phân lớp cấp hai, vấn đề không rõ ràng trong câu hỏi sẽ được giải quyết

Mô hình xử lý phân lớp được trình bày cụ thể như sau: Ban đầu, định nghĩa một tập của tất cả các lớp thô C0 = {c1, c2, c3, , cn} cho câu hỏi q bất kỳ Phân lớp thô xác định một tập nhãn con C1

𝐶1 = 𝐶𝑜𝑎𝑟𝑠𝑒_𝐶𝑙𝑎𝑠𝑠𝑖𝑓𝑖𝑒𝑟 (𝐶0, 𝑞), 𝐶1 ⊂ 𝐶0 và |𝐶1| ≤ 5

Sau đó, mỗi lớp thô trong C1 sẽ mở rộng thành tập hợp các lớp min đã định nghĩa trước trong phân lớp cấp bậc Giả sử, lớp thô C1 được ánh xạ thành tập c’i = {fi1, fi2, fi3, , fim} lớp mịn, tập C2 là tập hợp của tất cả các lớp mịn được xác định bởi lớp thô trong C1 Phân lớp mịn xác định một tập hợp nhãn con C3 dựa vào C2

𝐶3 = 𝐹𝑖𝑛𝑒_𝐶𝑙𝑎𝑠𝑠𝑖𝑓𝑖𝑒𝑟 (𝐶2, 𝑞), 𝐶3 ⊂ 𝐶2 và |𝐶3| ≤ 5

Trang 35

26

C1 và C3 là kết quả đầi ra được sử dụng cho quá trình tìm câu trả lời

Hình 2.4: Bộ phân lớp đa cấp của Li và Roth

2.3 Một số giải thuật phân lớp câu hỏi

Về cơ bản, phân lớp câu hỏi thường sử dụng 2 hướng tiếp cận chính là tiếp cận dựa trên luật và hướng tiếp cận dựa trên học máy (như đã trình bày trong phần 2.1) Hướng tiếp cận dựa trên học máy gần như đối lập với hướng tiếp cận dựa trên luật trong việc lựa chọn các đặc trưng để xây dựng bộ phân lớp Rõ ràng bài toán phân lớp câu hỏi dựa trên mô hình học máy có nhiều ưu điểm hơn và các thực nghiệm áp dụng hướng tiếp cận này cũng đã thành công và được công bố rộng rãi trong nhiều bài báo Trong luận văn này, tác giả cũng xin trình bày chủ yếu về hướng tiếp cận dựa trên học máy này

2.3.1 Giải thuật học máy có giám sát

Trong học máy có giám sát, chương trình học sẽ được cung cấp hai tập dữ liệu, một tập dữ liệu huấn luyện và một tập dữ liệu kiểm tra Ý tưởng của phương pháp này là chương trình học sẽ “học” từ những dữ liệu đã được gán nhãn lớp trong tập dữ

Trang 36

27

liệu huấn luyện để phát hiện ra một quy luật, một chương trình hay một thủ tục phân loại những dữ liệu mới

Ban đầu, tập dữ liệu huấn luyện sẽ chứa n cặp (x1, y1), (x2, y2), (xn, yn), trong

đó mỗi xi là một tập các đặc trưng cho từng dữ liệu huấn luyện riêng, yi là nhãn lớp

đã gắn cho dữ liệu x1 Ví dụ có một số đặc trưng của sinh viên đang tham gia quá trình học tập như điểm tổng kết, tín chỉ tích lũy, bị kỷ luật, được khen thường, hạnh kiểm yi là nhãn lớp tương ứng cho sinh viên được tốt nghiệp hay không được tốt nghiệp Tập dữ liệu kiểm tra là một tập khác với m đặc trưng mà chưa được gán nhãn Mục đích là gán nhãn cho tập dữ liệu kiểm tra như được tốt nghiệp hoặc không được tốt nghiệp bằng cách suy diễn dựa vào những đặc trưng đã được học trong tập dữ liệu huấn luyện

Để làm được như vậy, ta cần sử dụng các giải thuật kết hợp với mô hình phân lớp cụ thể Mỗi bài toán có thể lựa chọn áp dụng các giải thuật khác nhau Hiện nay, một số giải thuật phân lớp phổ biến được sử dụng trong hướng tiếp cận học máy có giám sát có thể kể tới như Support Vector Machines (SVM), Maximum Entropy Model (MEM), Spare Network of Winnows (SNoW),

2.3.1.1 Giải thuật SVM

Giải thuật SVM (Support Vector Machines) ra đời từ lý thuyết học thống kế được Cortes và Vapnik giới thiệu lần đầu tiên năm 1995 Đây là một giải thuật phân lớp mạnh mẽ, có hiệu quả cao trong việc giải quyết các bài toán có số chiều lớn SVM

là phương pháp phân lớp nhah, giải quyết các vấn đề overfitting tốt và đã được áp dụng trong nhiều lĩnh vực khai phá dữ liệu và nhận dạng Ý tưởng của SVM là tìm tìm ra một siêu phẳng với biên độ cao nhất, tức là siêu phẳng này phải tối ưu, có khoảng cách tới điểm gần nhất là lớn nhất

Cho tập dữ liệu D={(𝑥𝑖, 𝑦𝑖), 𝑖 = 1, … , 𝑛} với 𝑥𝑖 = (𝑥𝑖1, … , 𝑥𝑖ℎ) là mẫu có h chiều và 𝑦𝑖 ∈ {−1, +1} là nhãn tương ứng xác định cho 𝑥𝑖, nó nhận giá trị là dữ liệu dương hay âm Bộ phân lớp tuyến tính được xác định bằng siêu phẳng:

{𝑥: 𝑓(𝑥) = 𝑤𝑇𝑥 + 𝑤0} Một dữ liệu thuộc lớp dương 𝑦𝑖 = +1 nếu 𝑓(𝑥) ≥ +1 và nếu 𝑓(𝑥) ≤ −1 thì dữ

Ngày đăng: 03/09/2018, 16:21

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm