Nghiên cứu phương pháp làm tăng chất lượng phân lớp câu hỏi trong hệ thống hỏi đáp

Rất nhiều nghiên cứu trong những năm về sau của nhiều tác giả trên thế giới đã khá thành công khi áp dụng các giải pháp bằng học máy cho bài toán phân lớp câu hỏi và càng chứng minh sự đ

Trang 1

Ngành: Công nghệ Thông tin

Chuyên ngành: Hệ thống thông tin

Mã số: 60 48 05

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS.NGUYỄN TRÍ THÀNH

Trang 2

MỤC LỤC

MỤC LỤC 2

DANH MỤC CÁC TỪ VIẾT TẮT 4

DANH MỤC CÁC BẢNG 5

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 6

MỞ ĐẦU 7

Chương 1 Giới thiệu bài toán 8

1.1 Hệ thống hỏi đáp 8

1.2 Vị trí của bài toán phân lớp câu hỏi trong hệ thống hỏi đáp 10

1.3 Bài toán phân lớp câu hỏi 11

Chương 2 Các công trình nghiên cứu liên quan 13

2.1 Các đề tài nghiên cứu liên quan 13

2.2 Các hướng giải quyết bài toán phân lớp câu hỏi hiện nay 18

2.3 Lựa chọn định hướng giải quyết bài toán của luận văn 19

Chương 3 Mô hình giải quyết bài toán 20

3.1 Lựa chọn giải pháp và mô hình giải quyết bài toán 20

3.2 Cơ sở lý thuyết 20

3.2.1 Học bán giám sát 20

3.2.2 Các thuật toán học bán giám sát 21

3.2.3 Tri-Train 21

3.2.3.1 Tri-Train gốc 21

3.2.3.2 Tri-Train cải tiến 23

3.3 Giải pháp cải tiến 25

3.3.1 Đề xuất cải tiến 25

3.3.2 Công việc xử lý đặc trưng 26

3.3.2.1 Valuefit 26

3.3.2.2 Related 31

3.3.2.3 N-grams 34

Trang 3

Chương 4 Thực nghiệm 36

4.1 Dữ liệu và công cụ cho thực nghiệm 36

4.2 Kết quả xây dựng các đặc trưng 37

4.2.1 Value Fit 37

4.2.1.1 Các bước thực hiện 37

4.2.1.2 Kết quả 37

4.2.2 Related 38

4.2.2.2 Kết quả 38

4.2.3 N-grams 39

4.2.3.2 Kết quả 39

4.3 Kết quả thực nghiệm Tritrain 40

4.3.1 Các bước thực hiện: 40

4.3.2 Danh sách các bộ dữ liệu đã sử dụng 41

4.3.3 Đánh giá hiệu quả của việc sử dụng Tri-Train 42

4.3.3.1 Hiệu quả cải thiện chất lượng phân lớp thô 43

4.3.3.2 Hiệu quả cải thiện chất lượng phân lớp tinh 43

4.3.3.3 Ảnh hưởng một khung nhìn chất lượng thấp đến hiệu quả phân lớp 44

4.4 Đánh giá chung 45

4.4.1 Kết quả cải tiến chất lượng phân lớp 45

4.4.2 Đóng góp của đặc trưng “ValueFit” 46

4.4.3 Đóng góp của đặc trưng “N-grams” 46

4.4.4 Đóng góp của đặc trưng “Related” 47

KẾT LUẬN 49

TÀI LIỆU THAM KHẢO 50

PHỤ LỤC 52

Trang 4

DANH MỤC CÁC TỪ VIẾT TẮT

QA Question Answering System

TREC Text Retrieval Conference

NN Nearest Neighbors

DT Decision Tree

SNoW Sparse Network of Winnows

SVM Support Vector Machines

MEM Maximum Entropy Model

Trang 5

DANH MỤC CÁC BẢNG Bảng 2.1: Phân lớp 6 mục thô và 50 mục tinh được đưa ra bởi Li và Roth

(2002)

Trang 6

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1: Hệ thống hỏi đáp tự động.

Hình 1.2: Các module chức năng chính của một hệ thống hỏi đáp.

Hình 1.3: Bài toán phân lớp câu hỏi.

Hình 2.1: Mô hình tổng quan hệ thống phân lớp câu hỏi của Kadri Hacioglu

và Wayne Ward

Hình 2.2: Các hướng giải quyết bài toán phân lớp câu hỏi.

Hình 4.1: Hiệu quả phân lớp của ValueFit với tập train 5500 câu hỏi.

Hình 4.2: Hiệu quả phân lớp của Ralated với tập train 5500 câu hỏi.

Hình 4.3: Hiệu quả phân lớp của Ralated với tập train 5500 câu hỏi.

Hình 4.4: Chất lượng của dữ liệu đặc trưng phân lớp thô 4000 câu hỏi.

Hình 4.5: Chất lượng của dữ liệu đặc trưng phân lớp tinh 4000 câu hỏi.

Hình 4.6: Biểu đồ đánh giá hiệu quả cải thiện chất lượng phân lớp thô.

Hình 4.7: Biểu đồ đánh giá hiệu quả cải thiện chất lượng phân lớp tinh.

Hình 4.8: Sự đóng góp của đặc trưng Pos vào chất lượng phân lớp thô trong

Tri-Train

Hình 4.9: Sự đóng góp của đặc trưng Pos vào chất lượng phân lớp tinhtrong

Tri-Train

Hình 4.10: Kết quả cải thiện chất lượng phân lớp.

Hình 4.11: Sự đóng góp của đặc trưng ValueFit vào chất lượng phân lớp thô Hình 4.12: Sự đóng góp của đặc trưng N-grams vào chất lượng phân lớp

tinh

Hình 4.13: Sự đóng góp của đặc trưng Related vào chất lượng phân lớp tinh.

Trang 7

MỞ ĐẦU

Các hệ thống hỏi đáp (Question Answering System) là một trong những hướng quan trọng trong xử lý ngôn ngữ tự nhiên Một trong những thành phần quan trọng của các hệ thống này là module phân lớp câu hỏi Chất lượng của module này có ý nghĩa rất quan trọng vì nó xác định được miền dữ liệu cũng như phương pháp trích chọn câu trả lời cho câu hỏi đưa ra Luận văn tập trung tìm hiểu các phương pháp nhằm làm tăng hiệu năng phân lớp của module phân lớp câu hỏi

Bài toán phân lớp câu hỏi đã được đặt ra và giải quyết từ khá lâu với hai hướng chủ đạo: dựa trên luật và dựa trên xác suất, tuy nhiên cho đến nay nó vẫn

là bài toán được nhiều người quan tâm Luận văn tập trung khảo sát các phương pháp được áp dụng cho phân lớp câu hỏi Trên cơ sở đó lựa chọn nghiên cứu về giải thuật học bán giám sát Trong các giải thuật học bán giám sát, tác giả lựa chọn nghiên cứu cách cải tiến giải thuật Tri-Train áp dụng cho bài toán phân lớp câu hỏi Kế thừa trên một đề xuất cải tiến của Nguyễn Trí Thành và các cộng sự được công bố vào năm 2008, luận văn đưa ra đề xuất cải tiến và thực hiện nhiều thử nghiệm minh họa sau đó thống kê và phân tích đầy đủ các thử nghiệm

Luận văn được tổ chức như sau:

Chương 1: giới thiệu về hệ thống hỏi đáp, tầm quan trọng của module phân lớp câu hỏi và phát biểu bài toán phân lớp câu hỏi

Chương 2: khảo sát các đề tài nghiên cứu liên quan đến phân lớp câu hỏi và những thành tựu nghiên cứu trên thế giới đã đạt được

Chương 3: trình bày sơ lược về học bán giám sát, giải thuật Tri-Train, đưa ra

và trình bày chi tiết đề xuất cải tiến nhằm tăng hiệu quả cho bài toán phân lớp câu hỏi

Chương 4: trình bày quá trình làm thực nghiệm và các kết quả đạt được

Tác giả xin chân thành cảm ơn sự hướng dẫn và chỉ bảo tận tình của thầy Nguyễn Trí Thành, cảm ơn các thầy cô giáo trong khoa Hệ Thống Thông Tin trường Đại học Công nghệ - Đại học Quốc Gia Hà Nội đã tạo điều kiện giúp tác giả hoàn thành luận văn này Cảm ơn gia đình, bạn bè cùng những người thân luôn bên cạnh tác giả giúp tác giả vượt qua những khó khăn trong cuộc sống

Hà Nội, ngày 06 tháng 10 năm 2013 Nguyễn Thị Ngọc Anh

Trang 8

Chương 1 Giới thiệu bài toán

Mở đầu chương này sẽ giới thiệu về hệ thống hỏi đáp nói chung Sau đó chỉ

ra vị trí, vai trò của bài toán phân lớp câu hỏi trong hệ thống hỏi đáp Cuối cùng, phát biểu dưới dạng toán học bài toán phân lớp câu hỏi

Năm 2000, Jaime Carbonell và các cộng sự đã sớm đưa ra các tiêu chuẩn chung cho việc nghiên cứu QA [6] Theo đó, một hệ thống hỏi đáp được người dùng đánh giá là hữu ích nếu đáp ứng được các tiêu chuẩn:

- Tính hợp lý về thời gian: câu trả lời phải được đưa ra trong thời gian ngắn, ngay cả khi có hàng ngàn người dùng cùng truy nhập hệ thống một lúc Các nguồn dữ liệu mới cần phải được tích hợp vào hệ thống ngay khi chúng sẵn sàng để có thế cung cấp cho người dùng câu trả lời cho những câu hỏi về các sự kiện có tính thời sự

- Tính chính xác: thách thức này là cực kì quan trọng bởi việc đưa ra câu trả lời sai còn tai hại hơn nhiều là không đưa ra câu trả lời Nghiên cứu về

QA cần tập trung vào việc đánh giá tính đúng đắn của câu trả lời đưa ra, bao gồm cả phương thức để phát hiện các trường hợp mà dữ liệu hiện thời không chứa câu trả lời cho câu hỏi Các thông tin mâu thuẫn trong dữ liệu cũng cần được tìm ra và các thông tin này cần được xử lý theo một cách phù hợp, nhất quán Để đạt được sự chính xác, hệ thống QA cần được tích hợp các nguồn tri thức và quá trình học suy luận thông thường

- Tính khả dụng: hệ thống QA cần đáp ứng được các yêu cầu cụ thể của một người dùng Các ontology trên từng miền cụ thể và ontology trên miền mở cần được tích hợp trong hệ thống Hệ thống QA cần có khả năng khai phá câu trả lời từ bất kì dạng dữ liệu gì (văn bản, web, cơ sở dữ liệu,

…) và đưa ra câu trả lời dưới định dạng mà người dùng mong muốn, cho phép người dùng miêu tả ngữ cảnh của câu hỏi và cung cấp các thông tin

Trang 9

giải thích, trích dẫn nguồn cho câu trả lời

- Tính hoàn chỉnh: câu trả lời hoàn chỉnh cho câu hỏi của người dùng là điều mà các hệ thống QA hướng tới Trong nhiều trường hợp (câu hỏi về danh sách, nguyên nhân, cách thức…), các phần của câu trả lời nằm rải rác trong một văn bản, thậm chí trong nhiều văn bản Vì vậy cần phải hợp nhất các phần này dựa trên các thông tin liên kết để tạo ra câu trả lời hoàn chỉnh

- Tính thích hợp của câu trả lời: trong ngôn ngữ tự nhiên, câu hỏi đưa ra luôn gắn với ngữ cảnh nào đó và câu trả lời cũng nằm trong một ngữ cảnh nhất định Câu trả lời mà hệ thống QA đưa ra phải phù hợp ngữ cảnh với câu hỏi Một hệ thống QA có khả năng tương tác là cần thiết trong nhiều trường hợp bởi chuỗi các câu hỏi liên quan đến một vấn đề sẽ giúp làm sáng tỏ thông tin mà người dùng đang hỏi Việc đánh giá một hệ thống

QA cần hướng người dùng bởi ý kiến người dùng là đánh giá tốt nhất cho tính thích hợp của câu trả lời

Hệ thống hỏi đáp tự động là hệ thống được xây dựng để thực hiện việc tìm kiếm tự động câu trả lời từ một tập lớn các tài liệu cho câu hỏi đầu vào một cách chính xác QA hiện đang thu hút sự quan tâm của rất nhiều nhà nghiên cứu từ các trường đại học, các viện nghiên cứu cũng như các công ty lớn hàng đầu trên thế giới [15] Nhiều hội nghị lớn về xử lý ngôn ngữ tự nhiên được tổ chức hàng năm như Coling, Text Retrieval Conference (Trec)… đều có những phần dành riêng cho những nghiên cứu liên quan đến hệ thống hỏi đáp

Hình 1.1: Hệ thống hỏi đáp tự động

Trang 10

Bên cạnh đó các sản phẩm thương mại liên quan đến QA (hình 1.1) cũng được các công ty phát triển như: Yahoo Answers của Yahoo

http://vn.answers.yahoo.com/, hệ thống hỏi đáp của Google

http://www.google.com.vn/giaidap/ (phiên bản tiếng Việt được gọi là “Hệ thống giải đáp”), Live QnA của Microsoft http://qna.live.com/ … và đặc biệt là hai sản phẩm Anwsers.com http://www.answers.com/ của Answers Corp doanh thu mỗi năm là 9.5 triệu USD và Ask http://www.ask.com/ của InterActive Corp doanh thu mỗi năm 227 triệu USD

1.2 Vị trí của bài toán phân lớp câu hỏi trong hệ thống hỏi đáp

Hệ thống hỏi đáp ngày càng trở nên phổ biến và phong phú trong nhiều lĩnh vực và ứng dụng trong cuộc sống Phân lớp câu hỏi là một module quan trọng trong hệ thống này (hình 1.2) Do vậy bài toán phân lớp câu hỏi càng trở nên cần thiết và quan trọng Chức năng chính của nó là phân các câu hỏi vào các lớp giúp giảm đáng kể không gian tìm kiếm câu trả lời, độ chính xác của nó đóng vai trò quan trọng trong hiệu quả của hệ thống hỏi đáp

Nhập câu hỏi

Xác định câu hỏi thuộc về lĩnh vực/ miền/ phần nào

Module phân lớp câu hỏi

Biến đổi câu hỏi về dạng chuẩn

của hệ thống

Tìm kiếm câu trả lời trên miền

đã xác định

Hiển thị kết quả tìm kiếm

Module tìm kiếm câu trả lời

Module tiền xử lý câu hỏi

Giao diện Giao diện

Hình 1.2: Các module chức năng chính của một hệ thống hỏi đáp

Trang 11

Hệ thống QA bao gồm nhiều thành phần: thành phần phân tích câu hỏi, thành phần phân lớp câu hỏi, thành phần truy vấn dựa trên những tập tài liệu liên quan đến câu truy vấn,… Trong các thành phần này, thành phần phân lớp câu hỏi đóng vai trò quan trọng Đầu tiên, người dùng đưa vào hệ thống một câu hỏi, sau

đó câu hỏi sẽ được phân tích để tìm từ khóa tìm kiếm hoặc định dạng thành một loại câu truy vấn xuống cơ sở dữ liệu chứa thông tin Kết quả của quá trình đó không thể trả về ngay lập tức một câu trả lời duy nhất và chính xác Trên thực tế

nó sẽ đưa ra một tập các câu trả lời đề cử có liên quan đến vấn đề được hỏi Vậy, công việc chính của phân lớp câu hỏi là lọc và loại bỏ những câu trả lời nào không phù hợp, hơn thế nữa có thể dựa trên một số tiêu chí để đánh giá xếp hạng các câu trả lời theo mức độ liên quan đến câu hỏi Ngoài ra, phân lớp câu hỏi còn có thể giúp ta xác định được kiểu câu trả lời một khi ta biết được phân lớp của nó Việc này giúp hệ thống đưa ra một câu trả lời gần gũi với ngôn ngữ tự nhiên

Håkan Sundblad cũng chỉ ra rằng để có một hệ thống hỏi đáp thành công, việc phân lớp các câu hỏi chính xác là một nhân tố quan trọng [5] Hệ thống phân lớp câu hỏi bao gồm hai thành phần chính: một nguyên tắc phân loại các câu trả lời và một máy phân loại

1.3 Bài toán phân lớp câu hỏi

Phân lớp câu hỏi có thể được hiểu theo cách thông thường là: cho một câu hỏi (đại diện bởi các đặc trưng), gán câu hỏi đó vào một nhóm hoặc một tập nhóm (hình 1.3)

Đầu vào: câu hỏi ở dạng ngôn ngữ tự nhiên

Đầu ra: lĩnh vực/miền/nhóm của câu hỏi

Phát biểu: cho tập hợp N các câu hỏi đã được gán nhãn và danh sách các

nhãn lớp Cho một câu hỏi A bất kỳ, xác định nhãn lớp cho câu hỏi A

Trang 12

A được xếp vào lớp i

Lớp n-1 Lớp n

Lớp 1

Lớp j

Trích chọn các đặc trưng và gán nhãn lớp

Thuật toán luyện và các quy luật phân lớp

Hình 1.3: Bài toán phân lớp câu hỏi

Tuy nhiên bằng cách áp dụng định nghĩa của phân loại văn bản vào vấn đề phân lớp câu hỏi, Håkan Sundblad cũng đã phát biểu lại bài toán phân lớp câu hỏi như sau [5]:

Định nghĩa 1: phân lớp câu hỏi là công việc gán một giá trị kiểu bool cho

Việc gán cho <qj,ci> giá trị T (True = 1) nghĩa là qi được đánh giá là thuộc nhóm ci, và ngược lại nếu <qj,ci> bằng F (Fales=0) nghĩa là qi không thuộc nhóm ci Trong một thiết lập học máy, đây chính là việc gán những hàm mục tiêu chưa biết về hàm xấp xỉ đã biết

Trang 13

Chương 2 Các công trình nghiên cứu liên quan

Trong chương này tác giả sẽ trình bày sơ lược một vài đề tài nghiên cứu liên quan đến bài toán phân lớp câu hỏi theo trình tự thời gian Phần cuối của chương tác giả tổng kết lại khung nhìn chung của các hướng giải quyết bài toán phân lớp câu hỏi hiện nay Dựa trên việc khảo sát những thành tựu và khó khăn của các hướng giải quyết này tác giả đưa ra định hình ban đầu cho việc giải quyết bài toán của mình

2.1 Các đề tài nghiên cứu liên quan

Trong một nghiên cứu được trình bày vào năm 2002 [11], Xin Li và Dan

Roth đã chỉ ra rằng một module phân lớp câu hỏi trong hệ thống hỏi đáp sẽ bao gồm hai yêu cầu chính:

- Cung cấp ràng buộc trong các loại câu trả lời cho phép xử lý thêm để định

vị chính xác và kiểm nghiệm câu trả lời

- Cung cấp thông tin cho quá trình thuận để có thể sử dụng chiến lược lựa chọn loại câu trả lời cụ thể Ví dụ câu hỏi “Ai là người phụ nữ đầu tiên bị giết ở chiến tranh Việt Nam? “, chúng ta không muốn kiểm tra tất cả các cụm danh từ trong câu hỏi để đưa ra câu trả lời Tối thiểu chúng ta có thể xác định được mục tiêu của câu hỏi này là một người Bằng cách đó có thể giảm bớt không gian các đáp án một cách đáng kể

Cũng trong bài báo này tác giả đã đưa ra hướng giải quyết bằng phương pháp học máy cho phân lớp câu hỏi Rất nhiều nghiên cứu trong những năm về sau của nhiều tác giả trên thế giới đã khá thành công khi áp dụng các giải pháp bằng học máy cho bài toán phân lớp câu hỏi và càng chứng minh sự đúng đắn của

hướng giải quyết này Trong nghiên cứu [11] Xin Li và Dan Roth đã phát triển

phân lớp có thứ tự được xây dựng bởi một lớp ngữ cảnh có thứ tự của các loại câu trả lời và sử dụng chúng để phân loại câu hỏi thành các lớp tinh Ngoài ra,

họ còn tiến hành các thực nghiệm chứng minh rằng vấn đề phân lớp câu hỏi có thể được giải quyết khá chính xác bằng phương pháp học và chỉ ra những lợi ích của các đặc trưng nền tảng trong sự phân tích ngữ cảnh

Một đóng góp không nhỏ của Xin Li và Dan Roth trong nghiên cứu của mình

là đã xây dựng một bộ dữ liệu chuẩn sử dụng để kiểm thử tính đúng đắn của các giải pháp phân lớp câu hỏi Dữ liệu được thu thập từ 4 nguồn: 4500 câu hỏi tiếng Anh được công bố bởi USC bao gồm 500 cấu trúc câu hỏi thủ công cho một vài lớp hiếm, 894 câu hỏi TREC 8 sử dụng làm dữ liệu luyện (train) và 500 câu hỏi

từ TREC 10 sử dụng làm dữ liệu kiểm tra (test) Các câu hỏi này được gán nhãn

Trang 14

một cách thủ cơng và để đơn giản, mỗi câu hỏi được gán chính xác bằng một nhãn lớp Các câu hỏi được phân lớp theo 6 mục thơ và 50 mục tinh (bảng 2.1) Các bài báo nghiên cứu sau này về phân lớp câu hỏi cũng đựa trên các mục này

để nghiên cứu và đánh giá

Bảng 2.1: Phân lớp 6 mục thơ và 50 mục tinh được đưa ra bởi Li và Roth

(2002)

ABBR abbreviation, expansion

DESC definition, description, manner, reason

ENTY animal, body, color, creation, currency, disease, event, food,

instrument, language, letter, other, plant, product, religion, sport, subtance, symbol, technique, term, vehicle, word

HUM description, group, individual, title

LOC city, country, mountain, other, state

NUM code, count, date, distance, money, order, other, percent, period,

speed, temperature, size, weight

Bộ dữ liệu nổi tiếng này hiện nay vẫn đang được sử dụng trong các nghiên cứu liên quan đến bài tốn phân lớp câu hỏi, thậm chí cịn được dịch ra nhiều thứ tiếng để phục vụ các nghiên cứu mang tính đặc trưng của ngơn ngữ

Zhang D và Lee W.S năm 2003 đã nghiên cứu và tiến hành cài đặt thử nghiệm cách giải quyết bài tốn phân lớp câu hỏi với 5 thuật tốn học máy: Nearest Neighbors (NN), Nạve Bayes (NB), Decision Tree (DT), Sparse Network of Winnows (SNoW), và Support Vector Machines (SVM) sử dụng hai đặc trưng bag-of-words và bag-ofN-grams Các kết quả nghiên cứu được chỉ ra trong tài liệu [12] cho thấy SVM tỏ ra cĩ hiệu quả nổi trội hơn so với các phương pháp khác Ngồi ra họ cịn đưa ra giải thuật Kernel Tree để nâng cao chất lượng phân lớp của SVM nhờ tận dụng đặc điểm cĩ cấu trúc cú pháp của câu hỏi

Kernel Tree được trình bày ở [12] là một hàm đặc biệt được đề xuất để nhúng vào SVM nhằm mang lại hiệu quả tốt hơn đối với cấu trúc ngữ cảnh của các câu hỏi Theo kết quả thực nghiệm các tác giả của bài báo này đưa ra thì SVM kết hợp với Tree Kernel cĩ thể giảm bớt được 20% lỗi

Cũng trong năm 2003 Kadri Hacioglu và Wayne Ward [8] đã đề cập đến việc lựa chọn giải pháp học máy SVM cho phân lớp câu hỏi để thay thế cách phân lớp bằng các biểu thức chính quy và đưa ra mơ hình tổng quan hệ thống phân

Trang 15

lớp câu hỏi của họ (hình 2.1)

Indexing Dimension

Reduction Tranformation Classifier

Hình 2.1: Mô hình tổng quan hệ thống phân lớp câu hỏi của Kadri Hacioglu và

Wayne Ward

Họ chỉ ra rằng mặc dù các SVM hỗ trợ được phân lớp nhị phân, nhưng có thể

mở rộng việc sử dụng chúng như phân loại đa lớp sử dụng mã nhị phân Đối chiếu với các phương pháp khác cho thấy phương pháp này là lĩnh vực hứa hẹn cho việc cải thiện hiệu quả phân lớp câu hỏi với việc phân tích phi ngôn ngữ Năm 2005, Zhi-Hua Zhou và Ming Li đã đề xuất thuật toán học bán giám sát Tri-Train [13], thuật toán này tạo ra ba bộ phân lớp từ cùng một tập hợp dữ liệu được gán nhãn cho trước, các bộ phân lớp này sẽ được tinh chế lại sử dụng các mẫu chưa được gán nhãn trong quá trình Tri-Train Trong mỗi vòng lặp của Tri-Train, một mẫu chưa được gán nhãn sẽ được gán nhãn nếu hai bộ phân lớp khác đồng ý gán cùng một nhãn cho nó Tri-Train không yêu cầu không gian mẫu được mô tả đầy đủ hay dư thừa cũng không hạn chế bất kỳ thuật toán học có giám sát hay khung nhìn nào, do đó ứng dụng của nó mở rộng hơn thuật toán học bán giám sát Co-Train trước đây

Năm 2007, Nguyễn Trí Thành cùng nhóm nghiên cứu của mình đã đề xuất giải pháp sử dụng phân loại theo cấp bậc câu hỏi nhằm mục đích giảm số lượng các lớp để cải thiện hiệu suất phân lớp khi số lượng lớp là khá lớn Các câu hỏi được phân lớp một cách tuần tự bởi phân lớp thô và một phân lớp tinh Nghiên cứu được công bố trong bài báo [9] Họ cũng đưa ra khuyến cáo: mặc dù một câu hỏi có thể thuộc về nhiều lớp nhưng đề xuất chỉ nên phân câu hỏi vào lớp có xác suất cao nhất trong số các lớp có thể xếp vào

Ngoài ra, bài báo [9] còn đề xuất hướng giải quyết bài toán phân lớp câu hỏi

có thứ tự kết hợp với thuật toán học bán giám sát và đưa ra đề xuất ba phương

án phân lớp:

- Ứng dụng học có giám sát: dễ dàng tạo tập luyện cho phân lớp thô Mỗi

Trang 16

phân lớp tinh cần có một tập con được gán nhãn Có thể chiết xuất phù hợp các tập con cho việc luyện mỗi phân lớp tinh Áp dụng: sử dụng MEM cho tất cả các phân lớp Kết luận: khi kích thước mẫu nhỏ, tỷ lệ lỗi của phân lớp phẳng cao hơn phân lớp tuần tự

- Ứng dụng được kết hợp học có giám sát và bán giám sát: sử dụng bán giám sát cho mức đầu tiên, các phân lớp còn lại vẫn sử dụng thuật toán học có giám sát Áp dụng Tri-Train cải tiến Kết quả: học bán giám sát giúp cải thiện dự báo của phân lớp tinh, khi kích thước tập luyện tăng thì hiệu quả phân lớp tinh của MEM tỏ ra có hiệu quả hơn của SVM

- Ứng dụng bán giám sát: sử dụng học bán giám sát cho tất cả các mức Kết quả thực nghiệm cho thấy không có nhiều hứa hẹn

Kết quả thực nghiệm của họ cho thấy học bán giám sát không cho hiệu quả tốt đối với các phân lớp tinh Do đó không áp dụng học bán giám sát cho các phân lớp tinh và có giám sát cho phân lớp thô Tuy nhiên phương pháp ứng dụng bán giám sát cho phân lớp tinh chưa mang lại kết quả tốt nhưng mở ra một vấn đề mới cho việc nghiên cứu xa hơn

Tiếp nối nghiên cứu [9], năm 2008, Nguyễn Trí Thành cùng nhóm của mình tiếp tục phát triển và thử nghiệm phương án phân lớp “Kết hợp học có giám sát

và bán giám sát” bằng việc cải tiến giải thuật Tri-Train và đưa ra hai đề xuất cải tiến để loại bỏ nhược điểm bootstrap-sample trong giải thuật Tri-Train gốc [10] Trong thực tế, dữ liệu câu hỏi có đặc điểm là thưa và phân bố không đều Do phân bố không đều nên sau thủ tục lấy mẫu Bootstrap-Sampling, mỗi tập gán nhãn mới nhất được tạo ra sẽ bị mất một số câu hỏi so với tập có nhãn ban đầu Nếu những câu hỏi bị mất này lại nằm trong các lớp có rất ít câu hỏi thì tỷ lệ lỗi

sẽ tăng trong mỗi bộ phân lớp khi luyện từ tập dữ liệu này Để khắc phục nhược điểm này, Nguyễn Trí Thành đã đưa ra giải pháp sử dụng nhiều hơn một giải thuật cho ba bộ phân lớp Mỗi bộ phân lớp được khởi tạo từ tập được gán nhãn Thử nghiệm của ông cũng chỉ ra rằng điều kiện cần thiết để tăng hiệu quả của phân lớp là cả ba bộ phân lớp đều phải có hiệu quả phân lớp tương đương nhau Nghiên cứu [3] của Baoli Li, Y Liu và Eugene Agichtein năm 2008 đã giới thiệu hệ thống CoCA cho phân lớp bán giám sát của các câu hỏi và các câu trả lời trong hệ thống thảo luận CQA CoCQA là một nền tảng đồng luyện cho mô hình tương tác nguyên bản trong trao đổi hỏi đáp nó có thể khai thác cấu trúc của các câu hỏi và các câu trả lời phù hợp Ngoài thừa kế sự khó khăn của phân tích chủ quan cho các câu hỏi người dùng thực, họ còn chỉ ra rằng bằng cách ứng dụng CoCQA cho công việc này, giúp cải thiện đáng kể hiệu quả dự báo và

Trang 17

thực chất giảm bớt yêu cầu kích thước dữ liệu luyện

Năm 2009, nhóm tác giả Mohan John Blooma, Dion Hoe-Lian Goh, Alton Yeow Kuan Chua đã trình bày nghiên cứu về phân lớp câu hỏi đơn giản Họ sử dụng phương pháp SVM và đưa ra kết luận rằng SVM là giải pháp mang lại hiệu quả phân lớp tốt nhất trong các nghiên cứu của họ Nghiên cứu [1] đã được ứng dụng để phân lớp theo cấp bậc dựa trên thuật toán học máy SVM với các câu hỏi của người dùng được lấy từ hệ thống hỏi đáp của Yahoo Điểm nổi bật của nghiên cứu này là các tác giả đã cố gắng trực tiếp phân lớp các câu hỏi phức tạp

là các câu hỏi của người dùng thực Họ đã sử dụng cả bộ phân lớp thô và bộ phân lớp tinh để đánh giá hiệu quả của nghiên cứu và đưa ra một ma trận phân tích các kết quả nghiên cứu của mình

Ali Harb, Michel Beigbeder, Kristine Lund và Jean-Jacques Girardot đã trình bày một phương pháp cải thiện chất lượng phân lớp câu hỏi theo định hướng tập trung vào phân tích ngôn ngữ và phương pháp tiếp cận thống kê vào năm 2011 [2] Họ đã đề xuất ra hai phương pháp phân lớp câu hỏi mở rộng Họ đã nghiên cứu về giá trị đại diện các câu hỏi, trọng số và các thuật toán học máy và làm các thực nghiệm trên dữ liệu thực tế Kết quả thực nghiệm cũng đã chỉ ra những dấu hiệu tốt trong việc cải thiện chất lượng phân lớp câu hỏi

Năm 2012, trong bài báo [7], Jinzhong Xu và các cộng sự đã đưa ra một giải pháp phân lớp câu hỏi dựa trên SVM và sự tương tự về ngữ nghĩa của câu hỏi

Nó được ứng dụng thực tế trong một hệ thống hỏi đáp trực tuyến về du lịch Với hai mức phân lớp câu hỏi: SVM được sử dụng để phân lớp các câu hỏi ở mức thô và mô hình tương tự về mặt ngữ nghĩa được sử dụng để phân loại câu hỏi ở mức sâu hơn Nhờ sử dụng khái niệm trọng số của miền dữ liệu họ đã cải thiện được chất lượng của các đặc trưng và mô hình tương tự về ngữ nghĩa của câu hỏi trong nghiên cứu của mình

Trong một nghiên cứu gần đây (8/2013), tác giả David Tomás và José L Vicedo người Tây Ban Nha đã tìm ra hướng tiếp cận giám sát tối thiểu cho các phân lớp tinh của câu hỏi Trong bài báo [4] họ đã đưa ra giải thuật tự động lấy

ra danh sách các trọng số cho mỗi phân lớp Cách xác định này có liên quan nhiều đến các lớp và độ ưu tiên giữa chúng Các danh sách này được sử dụng để phân lớp câu hỏi với cách tiếp cận dựa trên sự phân bố xác suất của các văn bản gốc lấy từ web Do đó, hệ thống hoàn toàn dựa trên các thông tin thống kê, không phân biệt ngôn ngữ Họ đã tiến hành thử nghiệm trên các câu hỏi tiếng Anh và bản dịch sang tiếng Tây Ban Nha và thu được những kết quả cải thiện đáng kể

Trang 18

2.2 Các hướng giải quyết bài toán phân lớp câu hỏi hiện nay

Như hình 2.2 đã chỉ ra, hiện nay bài toán phân lớp câu hỏi được giải quyết theo hai hướng chính: phân lớp dựa trên các luật (Rule - Based) và phân lớp dựa trên xác suất (Statistical) Hướng giải quyết dựa trên các luật đã được nghiên cứu và có những thành công nhất định nhưng gặp phải khó khăn khi mở rộng hệ thống Hướng giải quyết dựa vào xác suất có hai hướng chính là giải quyết dựa vào mô hình ngôn ngữ và học máy Trong đó học máy là hướng giải quyết được quan tâm và đang mở ra nhiều triển vọng Trong các nghiên cứu từ 2002 đến bây giờ, đã có nhiều nghiên cứu, thử nghiệm chứng minh rằng giải thuật SVM tỏ

ra có ưu thế hơn đối với bài toán phân lớp câu hỏi Ngoài ra, với tính chất phong phú, phức tạp, đa nghĩa của các câu hỏi trong hệ thống thực tế, thuật toán học bán giám sát đang tỏ ra có ưu thế hơn cả trong các phương pháp học máy

Các hướng tiếp cận cho phân lớp câu hỏi

Statistical (Xác suất)

Keywords

(Các từ khóa)

Regular expresstions (Các biểu thức chính quy)

Mô hình ngôn ngữ

Học máy

SNoW

SVM DT

MEM NN

NB

Rule-Based (Dựa trên luật)

Hình 2.2: Các hướng giải quyết bài toán phân lớp câu hỏi

Đối với cách tiếp cận dựa trên các luật: việc phân lớp câu hỏi dựa vào một số các luật được thiết lập bằng tay Các luật này có được là do đề xuất từ các chuyên gia Đối với cách tiếp cận này, một loạt các biểu thức thông dụng (regular expression) được tạo ra để so khớp với câu hỏi từ đó quyết định phân lớp của câu hỏi và loại câu trả lời Nhưng nó có một số hạn chế như sau:

- Sự phân lớp dựa trên các luật gặp nhiều khó khăn và tốn nhiều thời gian

xử lý do dựa trên kiến thức chủ quan của con người trên một tập dữ liệu câu hỏi

- Có sự giới hạn về mức độ bao quát và phức tạp trong việc mở rộng phạm

Trang 19

vi của hệ thống

Trong cách tiếp câ ̣n xác suất, học máy là cách tiếp cận được quan tâm và nghiên cứu nhiều nhất Sử dụng học máy, kiến thức chuyên mơn được thay thế bằng mơ ̣t tâ ̣p lớn các câu hỏi được gán nhãn k ết quả sẵn (một tập dữ liệu mẫu) Từ tâ ̣p này , classifier (bơ ̣ phân lớp ) sẽ được học một cách cĩ k iểm soát hoặc khơng kiểm sốt trên tập mẫu Các thuật tốn học máy hay dùng bao gồm: mạng nơ-ron (Neural NetWork), xác suất cĩ điều kiện (Nạve Bayes), mơ hình cực đại Entropy (Maximum Entropy), cây quyết định (decision Tree), người láng giềng gần nhất (Nearest-Neighbors), mạng lọc thưa (Sparse Network of Winnows - SNoW), máy hỗ trợ vector (Support Vector Machine - SVM), Vớ i cách tiếp

câ ̣n học máy, ta dễ dàng thấy nĩ sẽ giải quyết được nhiều ha ̣n chế từ cách tiếp

câ ̣n dựa trên luật

2.3 Lựa chọn định hướng giải quyết bài tốn của luận văn

Như đã phân tích ở phần trước, ngày nay với đặc trưng phong phú của ngơn ngữ và tính khách quan vốn cĩ của nĩ, hướng tiếp cận dựa trên các luật đã bộc

lộ rõ những nhược điểm của mình Trong đĩ nhược điểm lớn nhất khơng thể khắc phục được là khả năng mở rộng hệ thống rất hạn chế Do vậy tác giả quan tâm đến hướng tiếp cận thứ hai – tiếp cận dựa trên xác suất Trải qua hơn 10 năm kể từ khi hướng giải quyết học máy áp dụng cho bài tốn phân lớp câu hỏi được đưa ra, đã cĩ rất nhiều thuật tốn học máy được nghiên cứu áp dụng đồng thời đối chiếu so sánh hiệu quả lẫn nhau Trong hệ thống các giải pháp học máy, định hướng học cĩ giám sát đã đạt được nhiều thành cơng, nhiều nghiên cứu của các tác giả nổi tiếng đã đạt được kết quả phân lớp gần như tuyệt đối Tuy nhiên trong phạm vi luận văn tác giả lựa chọn nghiên cứu học bán giám sát vì đây là định hướng đang mở ra nhiều triển vọng với chi phí thấp và kết quả phân lớp cĩ mức tin cậy đủ chấp nhận được

Trang 20

Chương 3 Mô hình giải quyết bài toán

Trong chương này, tác giả trình bày khái quát về học bán giám sát và điểm

sơ qua một vài phương pháp sử dụng cho học bán giám sát cùng với các ưu nhược điểm của chúng Tiếp theo tác giả trình bày kỹ phần lý thuyết về giải thuật Tri-Train và các đề xuất cải tiến của Nguyễn Trí Thành Tiếp theo tác giả đưa ra đề xuất của mình cải tiến Tri-Train bằng cách thay vì sử dụng hai khung nhìn hai thuật toán thì sử dụng ba khung nhìn cùng với các đề xuất xây dựng các

bộ dữ liệu đặc trưng mới (khung nhìn) nhằm mục đích cải tiến chất lượng các khung nhìn và tạo ra sự phong phú giữa các khung nhìn để phát huy được hết điểm mạnh của Tri-Train Phần cuối cùng, tác giả trình bày kỹ việc tạo ra các khung nhìn mới

3.1 Lựa chọn giải pháp và mô hình giải quyết bài toán

Trong phạm vi luận văn, tác giả lựa chọn học bán giám sát và cải tiến thuật toán Tri-Train để nâng cao chất lượng phân lớp câu hỏi

3.2 Cơ sở lý thuyết

3.2.1 Học bán giám sát

Trong khoa học máy tính, học bán giám sát là một lớp của kỹ thuật học máy,

sử dụng cả dữ liệu đã gán nhãn và chưa gán nhãn để huấn luyện - điển hình là một lượng nhỏ dữ liệu có gán nhãn cùng với lượng lớn dữ liệu chưa gán nhãn Học bán giám sát đứng giữa học không giám sát (không có bất kì dữ liệu có nhãn nào) và có giám sát (toàn bộ dữ liệu đều được gán nhãn) Nhiều nghiên cứu cho thấy dữ liệu không gán nhãn, khi được sử dụng kết hợp với dữ liệu có gán nhãn, có thể cải thiện đáng kể độ chính xác Để gán nhãn dữ liệu cho một bài toán học máy thường đòi hỏi một chuyên viên có kỹ năng để phân loại bằng tay các mẫu huấn luyện Chi phí cho quá trình này khiến tập dữ liệu được gán nhãn hoàn toàn trở nên không khả thi, trong khi dữ liệu gán nhãn thường tương đối rẻ tiền Vì lý do này, học bán giám sát có giá trị thực tiễn lớn lao

Bài toán phân lớp câu hỏi đã được nghiên cứu và giải quyết bằng phương pháp học có giám sát từ cách đây hơn 10 năm, tuy nhiên chi phí cho việc gán nhãn là khá cao và số lượng mẫu cần thiết là khá lớn Năm 2005, Zhi-Hua Zhou

và Ming Li đã đề xuất thuật toán học bán giám sát Tri-Train áp dụng cho việc khai thác dữ liệu chưa được gán nhãn Năm 2008 Nguyễn Trí Thành cùng nhóm nghiên cứu của mình đã công bố giải thuật Tri-Train cải tiến với đề xuất khắc phục nhược điểm của Tri-Train mà Zhou và Li đã đề xuất năm 2005 đồng thời làm các thử nghiệm kiểm tra chất lượng của thuật toán khi đưa vào giải quyết

Trang 21

bài toán phân lớp câu hỏi

3.2.2 Các thuật toán học bán giám sát

Self-Train xuất hiện vào năm 1960, là kỹ thuật học bán giám sát đầu tiên hỗ trợ sử dụng dữ liệu chưa gán nhãn trong phân lớp Với cách thức sử dụng “dự đoán” của nó để luyện chính nó, ban đầu Self-Train huấn luyện một bộ phân lớp bằng một thuật toán học, sau đó lựa chọn các mẫu được gán nhãn có độ tin cậy cao và thêm chúng vào tập mẫu được gán nhãn

Co-Train sử dụng hai bộ phân lớp độc lập được luyện từ hai tập đặc trưng riêng biệt Nó sử dụng hai bộ phân lớp này để phân lớp các dữ liệu chưa được gán nhãn Sau đó, các bộ phân lớp này bổ sung các mẫu được gán nhãn có độ tin cậy cao vào tập mẫu được gán nhãn của mình để luyện cho bộ phân lớp còn lại

Hệ thống CoCA cho phân lớp bán giám sát của CQA trong nghiên cứu [3] của Baoli Li, Y Liu và Eugene Agichtein năm cũng được phát triển từ thuật toán này

Tri-Train được Zhou và Li đề xuất vào năm 2005 sử dụng ba bộ phân lớp với cùng một giải thuật Năm 2008 Nguyễn Trí Thành cùng nhóm nghiên cứu của mình đã đưa ra những đề xuất khắc phục một vài nhược điểm của giải thuật này Trong phạm vi luận văn, tác giả lựa chọn Tri-Train để nghiên cứu, cải tiến và áp dụng vào bài toán phân lớp câu hỏi Do vậy ở phần tiếp theo tác giả sẽ trình bày

kĩ hơn về thuật toán Tri-Train và đưa ra đề xuất cải tiến

3.2.3 Tri-Train

3.2.3.1 Tri-Train gốc

Giải thuật Tri-Train gốc mà Zhou và Li đề xuất [13] sử dụng ba bộ phân lớp với cùng một giải thuật Tri-Train: luyện ba phân lớp với cùng một thuật toán giống nhau Trong giải thuật này, một mẫu chưa được gán nhãn sẽ được gán nhãn nếu hai bộ phân lớp khác đồng ý gán cùng một nhãn cho nó Ba bộ phân lớp h1, h2, h3 được khởi tạo là ba tập được luyện bởi thủ tục Bootstrap-Sampling của cùng một tập nguồn đã được gán nhãn Đối với bất kì bộ phân lớp nào, một mẫu chưa được gán nhãn cũng có thể được gán nhãn giống với nhãn được hai bộ phân lớp còn lại “đồng ý” Ví dụ: nếu h1 và h2 cùng “đồng ý” nhãn của một mẫu x trong tập chưa được gán nhãn U thì x có thể được gán nhãn cho h3 Rõ ràng trong sơ đồ này nếu dự đoán của h1 và h2 là đúng thì h3 cũng được nhận một giá trị mới cho vòng lặp tiếp theo, nếu không thì h3 sẽ nhận một mẫu với nhãn sai Tuy nhiên Zhou và Li đã khẳng định trong trường hợp tệ hơn thì sự gia tăng của tỷ lệ lỗi có thể được bù lại nếu số lượng mẫu được gán nhãn mới là

đủ

Trang 22

Do mỗi bộ phân lớp đều được luyện từ thủ tục Bootstrap-Sampling của cùng một tập nguồn đã được gán nhãn theo một thứ tự tạo ra các bộ phân lớp khác nhau Nếu tất cả các bộ phân lớp được đồng nhất và có thể một trong ba bộ phân lớp vẫn còn các mẫu chưa được gán lại nhãn mới bởi hai bộ phân lớp còn lại thì chẳng khác nào “tự luyện” (self-train) với một bộ phân lớp đơn

Giả mã của thuật toán được mô tả tại tài liệu [10] như sau:

if updatei = TRUE then

Trang 23

Trong giả mã thuật toán trên:

- Learn: là một giải thuật phân lớp

- L: Tập nguồn

- Si: là các tập hợp được gán nhãn từ thủ tục Bootstrap-Sampled từ cùng một tập nguồn L

- hi: là bộ phân lớp thứ i

- ei’: là tỷ lệ lỗi của hi trong lần lặp thứ (t-1) Với giả thuyết tỷ lệ lỗi ban đầu là nhỏ hơn 0.5, ei’ được khởi tạo là 0.5

- ei: là tỷ lệ lỗi của hi tại vòng lặp thứ t

- Li : là tập hợp mẫu được gán nhãn cho hi tại vòng lặp thứ t

- li’: là kích thước của Li tại vòng lặp thứ (t-1), trong vòng lặp đầu tiên, nó được ước lượng bằng (ei/( ei’- ei) +1)

Hàm Subsample (Li,s): có tác dụng ngẫu nhiên loại bỏ (|Li|-s) mẫu từ Li sao cho chất lượng của vòng lặp sau luôn tốt hơn vòng lặp trước Hàm MeasureError(hj&hk) cố gắng ước lượng tỷ lệ lỗi của dự đoán suy ra từ việc kết hợp hj và hk Bởi vì rất khó ước lượng tỷ lệ lỗi cho các mẫu chưa được gán nhãn, thuật toán chỉ ước lượng trong tập đã gán nhãn với giả thuyết rằng cả hai tập đã gán nhãn và chưa gán nhãn có tỷ lệ lỗi giống nhau Trong mỗi vòng lặp,

Li không phải được kết hợp từ tập nguồn đã được gán nhãn L mà nó được đưa vào tập chưa được gán nhãn U làm đầu vào như là một mẫu chưa được gán nhãn

3.2.3.2 Tri-Train cải tiến

Trong nghiên cứu [10], Nguyễn Trí Thành cùng nhóm nghiên cứu của mình

đã đưa các đề xuất cải thiện cho thuật toán Tri-Train như sau:

- Đề xuất sử dụng nhiều hơn một giải thuật cho ba bộ phân lớp, với ràng buộc là cho hiệu quả tương tự nhau đối với cả ba bộ phân lớp

- Đề xuất sử dụng nhiều hơn một khung nhìn, mỗi bộ phân lớp có thể được luyện từ các tập được gán nhãn gốc với với các không gian đặc trưng khác nhau

Trang 24

end for

…

hi ← Learni (L Li); e’i ← ei; l’i ← |Li|

…

Trong giả mã thuật toán trên:

- Learni: là giải thuật phân lớp thứ i

- Các bước thực hiện giống như ở thuật toán Tri-Train gốc (a), chỉ khác ở chỗ thay vì sử dụng hàm BootstrapSample(L) để tạo ra tập Si, rồi sử dụng thuật toán Learn để sinh ra bộ phân lớp hi thì ta sử dụng thuật toán thứ i

để tạo ra hi từ tập nguồn L ban đầu

Trang 25

- Các bước thực hiện giống như ở thuật toán Tri-Train được cải tiến với nhiều giải thuật học (b), chỉ khác ở chỗ thay vì sử dụng thuật toán Learni

để tạo ra hi từ tập nguồn L ban đầu thì ta dùng thuật toán Learni để tạo ra

hi từ Viewi của tập nguồn ban đầu L

Các thực nghiệm của [10] đã sử dụng hai giải thuật SVM và MEM với hai khung nhìn bag-of-word và bag-of-pos&word Hai bộ phân lớp đầu tiên sử dụng giải thuật thứ nhất và hai khung nhìn khác nhau, bộ phân lớp thứ ba sử dụng giải thuật còn lại với đặc trưng bag-of-word:

- Bộ phân lớp thứ nhất: giải thuật SVM, đặc trưng bag-of-word

- Bộ phân lớp thứ hai: giải thuật SVM, đặc trưng bag-of-pos&word

- Bộ phân lớp thứ ba: giải thuật MEM, đặc trưng bag-of-word

Trong đó, of-word: là đặc trưng chỉ bao gồm các từ gốc trong câu, of-pos&word: là đặc trưng bao gồm từ gốc và các cấu trúc của nó

bag-3.3 Giải pháp cải tiến

3.3.1 Đề xuất cải tiến

Luận văn tập trung vào nghiên cứu cách cải thiện chất lượng phân lớp câu hỏi sử dụng học bán giám sát trên cơ sở cải tiến giải pháp Tri-Train mà Nguyễn Trí Thành đã đưa ra ở [10] theo hướng: thay vì sử dụng hai khung nhìn và hai giải thuật khác nhau ta sử dụng ba khung nhìn khác nhau làm các tập dữ liệu đầu vào Ngoài ra một điều kiện để đảm bảo chất lượng phân lớp của Tri-Train được phát huy hiệu quả, cần có các bộ đặc trưng với chất lượng phân lớp tốt và độc lập nhau (khác nhau càng nhiều càng tốt) Ở đây, ngoài các bộ đặc trưng đã được nghiên cứu và sử dụng trước đó: WordRoot, Pos,… tác giả đưa ra ba đề xuất đặc trưng khác, mục đích cuối cùng là chuẩn bị các bộ dữ liệu (các khung nhìn) phong phú và độc lập nhau

Cải tiến của luận văn so với đề xuất của [10] là sử dụng ba khung nhìn cho giải thuật Tri-Train Trong phần thực nghiệm tác giả đã xây dựng chín khung nhìn tổ hợp thành các bộ dữ liệu đầu vào cho Tri-Train để thực hiện các thử nghiệm của mình

Nhược điểm của giải pháp cải tiến mà Nguyễn Trí Thành đưa ra là:

- Với hai giải thuật và hai khung nhìn nhìn khác nhau vẫn chưa đảm bảo được điều kiện độc lập của các bộ dữ liệu mẫu

- Chất lượng các đặc trưng chưa cao

Luận văn đã đưa ra cách giải quyết hai vấn đề trên:

Trang 26

- Sử dụng ba khung nhìn nhìn khác nhau để tăng tính độc lập của các bộ dữ liệu mẫu

- Tập trung nghiên cứu cải thiện chất lượng các đặc trưng với ba cách đề xuất: Valuefit (giá trị phù hợp, đây là cách do tác giả đề xuất), N-grams áp dụng ưu điểm của lý thuyết về N-grams đã có từ trước vào việc phân lớp câu hỏi, Related áp dụng ưu điểm của các từ liên quan và tận dụng sức mạnh của nguồn từ điển Wordnet cung cấp sẵn vào bài toán hỗ trợ phân lớp câu hỏi

Trong quá trình làm các thực nghiệm đánh giá kết quả nghiên cứu của mình, tác giả đã thực hiện chuẩn bị nhiều loại khung nhìn khác nhau Để đánh giá hiệu quả phân lớp của từng khung nhìn, tác giả chọn SVM để đo kết quả Sau khi chuẩn bị kỹ lưỡng các bộ khung nhìn dữ liệu tác giả thực hiện tổ hợp chúng lại với nhau làm các bộ tập hợp dữ liệu đầu vào cho giải thuật Tri-Train Sau đó thực hiện đánh giá kết quả thực nghiệm của các bộ dữ liệu để chứng minh hiệu quả phương pháp cải tiến của mình đối với giải thuật Tri-Train Đồng thời, tác giả cũng làm các phép phân tích, thống kê để đánh giá hiệu quả đóng góp của các khung nhìn nhìn vào chất lượng phân lớp câu hỏi nói chung và chứng minh định hướng của mình là đúng đắn

Phần ngay sau dưới đây tác giả sẽ trình bày cụ thể về ý tưởng, lý thuyết và cách áp dụng các đặc trưng vào bài toán phân lớp câu hỏi

3.3.2 Công việc xử lý đặc trưng



 vf: giá trị đo độ phù hợp của câu trong lớp (ValueFit)

 x: số lượng các từ của câu

 y: số lượng các câu hỏi

Trang 27

 f(q,w): hàm trả ra kết quả 1 nếu câu q chứa từ w và ngược lại sẽ bằng 0

1 if (q c o n ta in w ) f(q ,w ) =

Nếu có hai câu hỏi và một tập câu hỏi đã được gán cùng nhãn, tính giá trị này

ta sẽ biết được câu hỏi nào phù hợp nhất với nhãn câu hỏi của lớp này

b Cách tính ValueFit bằng phương pháp vector

Ý tưởng: đối với mỗi lớp, vector hóa các câu hỏi bằng cách:

- Xem các từ trong câu hỏi đầu vào là từ điển

- Xây dựng các vector của các câu hỏi trong mỗi lớp đối với câu hỏi đầu vào: mỗi tọa độ bằng 0 nếu không chứa từ đó và bằng 1 nếu chứa từ đó

- Tính cos của vector mẫu với các vector còn lại, đây chính là giá trị cần tính Nếu giá trị này càng lớn thì độ khớp giữa hai câu hỏi với nhau càng lớn

Ví dụ tính giá trị phù hợp giữa hai câu hỏi:

Câu hỏi đầu vào: WHO MADE THE ROTARY ENGINE AUTOMOBILE ?

Ta có vector từ điển 6 chiều với nội dung:

Giả sử có các câu hỏi với thứ tự như sau:

Câu 1: WHO IS BURIED IN THE GREAT PYRAMID OF GIZA?

Câu 2: WHO WAS THE GIRL IN PETER SELLERS 'S SOUP ?

Câu 3: WHO TOLD ALL IN BALL FOUR ?

Vector hóa ta được kết quả như sau:

WHO MADE THE ROTARY ENGINE AUTOMOBILE

Định dạng
Số trang	55
Dung lượng	1,69 MB

Nghiên cứu phương pháp làm tăng chất lượng phân lớp câu hỏi trong hệ thống hỏi đáp

Dữ liệu và cơng cụ cho thực nghiệm

Đóng góp của đặc trưng “Related”