Phân tích cảm xúc sử dụng cách tiếp cận học chuyển đổi

Luận văn cũng đề xuất một thuật toán học chuyển đổi sử dụng các tập dữ liệu cảm xúc đã tồn tại để tăng độ chính xác của bài toán phân tích cảm xúc trong một miền khác.. Ngoài ra luận văn

Trang 1

1

LỜI CAM ĐOAN Tôi – Vương Hồng Quang – xin cam kết Luận văn tốt nghiệp là công trình nghiên

cứu của bản thân tôi dưới sự hướng dẫn của PGS.TS Nguyễn Thị Kim Anh, Viện

CNTT, trường Đại học Bách Khoa Hà Nội

Các kết quả nên trong Luận văn tốt nghiệp là trung thực, không sao chép toàn văn của bất kỳ công trình nào khác

Hà Nội, ngày 04 tháng 09 năm 2014

Học viên thực hiện luận văn

Vương Hồng Quang

Trang 2

2

Lời cảm ơn Đầu tiên, em xin được gửi lời cảm ơn chân thành đến các thầy giáo, cô giáo thuộc trường đại học Bách Khoa Hà Nội Đặc biệt là các thầy giáo, cô giáo thuộc Viện Công nghệ Thông tin và Truyền thông Các thầy cô đã trang bị cho em những kiến thức quý báu trong thời gian em học tập và nghiên cứu tại trường

Em cũng xin được gửi lời cảm ơn đặc biệt đến PGS.TS Nguyễn Kim Anh Cô là người đã chỉ dẫn tận tình, cho em những kinh nghiệm quý báu để em có thể hoàn thành luận văn tốt nghiệp này Cô luôn động viên, giúp đỡ em trong quá trình nghiên cứu và hoàn thiện luận văn

Đồng thời em cũng xin gửi lời cảm ơn chân thành đến GS.TS Atsuhiro Takasu, thuộc viện công nghệ thông tin quốc gia, Nhật Thầy đã dìu dắt, chỉ bảo, hướng dẫn,

và chia sẻ kinh nghiệm nghiên cứu khoa học

Em cũng cảm ơn PGS.TS Lê Đình Duy, TS Nguyễn Văn Kiên, TS Trần Minh Quang cùng các anh chị nghiên cứu sinh, thuộc viện công nghệ thông tin quốc gia Nhật, đã đóng góp ý kiến giúp em hoàn thiện luận văn này

Em xin gửi lời cảm ơn tới gia đình, bạn bè Mọi người đã luôn động viên thúc đẩy

và tạo động lực cho em luôn tiến lên phía trước

Trang 3

3

Tóm tắt nội dung

Phân tích cảm xúc là một lĩnh vực quan trọng Nó có khả năng được áp dụng trong

nhiều lĩnh vực thực tế khác nhau như là: phân tích thị trường, phân tích đánh giá của người dùng, khám nghiệm pháp y Trong thực tế, dữ liệu kiểm tra luôn luôn thay đổi, và nó có thể không nằm trong cùng miền với tập huấn luyện Với những

trường hợp này, các cách tiếp cận giải quyết bài toán phân tích cảm xúc trước đây

không cho được độ chính xác như mong muốn Do đó, vấn đề nâng cao độ chính xác trong bài toán phân tích cảm xúc khi dự đoán cảm xúc với các dữ liệu mới đến

là cần được giải quyết

Trong khi đó học chuyển đổi là một phương pháp giúp tăng cường độ chính xác từ

các tập dữ liệu đã có sẵn, ngay cả khi các tập dữ liệu này có phân phối xác suất biên khác nhau Hơn nữa, các dữ liệu đã tồn tại là rất phong phú, và có thể có một phần

nào đó được tận dụng để nâng cao độ chính xác cho bài toán phân tích cảm xúc

Vì các lý do trên, tôi đã chọn đề tài: ―Phân tích cảm xúc sử dụng cách tiếp cận

học chuyển đổi‖

Luận văn đề xuất một phương pháp tiếp cận mới để giải quyết hiệu quả bài toán phân tích cảm xúc Luận văn cũng đề xuất một thuật toán học chuyển đổi sử dụng các tập dữ liệu cảm xúc đã tồn tại để tăng độ chính xác của bài toán phân tích cảm xúc trong một miền khác Ngoài ra luận văn cũng đề xuất một độ đo để đo khả năng

có thể sử dụng của tập dữ liệu cũ cho miền mới, và hai thuật toán để quyết định tập

dữ liệu cảm xúc tốt nhất nên học và để quyết định xem tập dữ liệu có nên được sử dụng để học hay không Đóng góp chính của luận văn là:

1 Luận văn đưa ra một phương pháp mới để giải quyết bài toán phân tích cảm xúc

Trang 4

4

2 Luận văn đề xuất một phương pháp học chuyển đổi mới với chiến lược học tập dữ liệu đã tồn tại, đảm bảo sau quá trình học xác suất của tập huấn luyện

và tập kiểm tra là gần nhau nhất

3 Luận văn đề xuất một độ đo xác định khoảng cách của 2 tập dữ liệu cùng một số ứng dụng của nó

Thử nghiệm chỉ ra rằng, đề xuất thu được kết quả tốt hơn các thuật toán học chuyển đổi với phương pháp tương tự trước đây, và các thuật toán học máy như máy vector

hỗ trợ (SVMs) trong trường hợp tập huấn luyện của dữ liệu tương lai là nghèo nàn, không đủ xây dựng được một hình phân loại tốt cho tập dữ liệu mới

Trang 5

5

Abstract

Sentiment Analysis is an important field Nowaday, It is currently applied into

many different fields in real world as: market analysis, financial, review customer, forensic analysis… However, the domain of target datas always change, and it can

be inconsistent with model built by source domain Therefore, the traditional machine learning approaches for sentiment analysis problem might not be efficient for this case

Within my knowledge, transfer learning can improve the accuracy by using very rich existed data sets, evenwhen their marginal probability distribution are different with new test sets

Because of the above reasons, I chose topic: ―Sentiment Analysis using Transfer

Learning‖

My thesis proposed a novel approach to solve sentiment analysis problem Specifically, I have proposed a method to solve classisify polarity problem (one of sub-problems of sentiment analysis) that use existed sentiment data set to improve the accuracy on new domains of dataset Thesis’s main contributions are as follows

1 We present a novel approach to a formalism for solving the problem by adopting transfer learning

2 We propose a new method that uses a existed sentiment data set, which is labeled to improve performance

3 We propose a measure and a threshold to decide whether the system will learn a data set or not

The experiments show that my proposal has better result than inductive transfer learning, and other machine learning algorithms such as Support vector machin

Trang 6

6 (SVMs) when new training set is not big enough to construct model to classify new data set

Trang 7

7

Mục Lục

Phần I: Phần mở đầu 12

1 Lý do chọn đề tài 12

2 Lịch sử nghiên cứu 12

3, Mục đích nghiên cứu của luận văn, đối tượng, phạm vi nghiên cứu 14

4 Tóm tắt các luận điểm và đóng góp 14

Phần II: Nội dung 17

Chương I Phân tích cảm xúc 17

1 Các nhiệm vụ con của bài toán phân tích cảm xúc 17

2 Các phương thức 18

Chương II Học chuyển đổi 28

1 Lịch sử của học chuyển đổi 28

2 Các ký hiệu và định nghĩa 31

3 Phân loại các kỹ thuật học chuyển đổi 33

Chương III Áp dụng học chuyển đổi cho bài toán phân loại cảm xúc cực 41

1 Thuật toán AdaBoost 41

2 Thuật toán TrAdaBoost .44

3 Thuật toán MulTrAdaBoost 47

4 Thuật toán Unilateral – TrAdaBoost 50

5 Độ đo và giá trị ngưỡng đề xuất 54

6 Cài đặt thử nghiệm và đánh giá 59

Phần III: Kết luận 69

Trang 8

8 Phần IV: Danh mục các tài liệu tham khảo 70

Trang 9

9

Danh sách các từ viết tắt và thuật ngữ

Trang 10

10

Danh sách các hình vẽ

1 Sự khác nhau của các tiến trình học (a) học máy truyền thống (b)

học chuyển đổi ……… 29

2 Tổng quan về sự khác biệt của các loại học chuyển đổi……… 37

3 Thuật toán AdaBoost……… 44

4 Thuật toán TrAdaBoost……… 47

5 Thuật toán MulTrAdaBoost……… 50

6 Chiến lược học của TrAdaBoost và MulTrAdaBoost……… 51

7 Chiến lược học của Unilateral – TrAdaBoost……… 52

8 Thuật toán Unilateral – MulTrAdaBoost……… 54

9 Mối liên hệ khoảng cách phân phối và khả năng học……… 58

10 Thuật toán quyết định xem có nên học hay không……… 58

11 Thuật toán dùng để chọn tập dữ liệu tốt nhất ứng với miền đích…… 59

12 So sánh độ chính xác của Unilateral – TrAdaBoost và MulTrAdaBoost……… 65

13 So sánh độ chính xác của Unilaterial – TrAdaBoost và thuật toán học cơ sở……… 67

Trang 11

11

Danh sách các bảng

1 Mối quan hệ giữa học máy truyền thống các loại học chuyển đổi … 34

2 Sự khác nhau của các loại học chuyển đổi ……… 34

3 Các phương pháp khác nhau để học chuyển đổi ……… 38

4 Các phương pháp khác nhau sử dụng trong các loại học chuyển đổi khác nhau ……… 39

5 Cấu trúc của tập dữ liệu Sanders ……… 61

6 Danh sách các ký tự thể hiện cảm xúc ……… 62

7 Kết quả so sánh độ chính xác khi tập kiểm tra bị thay đổi ………… 67

8 So sánh độ chính xác của SVM (LR) khi ( ) bị thay đổi 69

Trang 12

12

Phần I: Phần mở đầu

1 Lý do chọn đề tài

Phân tích cảm xúc là một lĩnh vực quan trọng Nó đã được áp dụng trong nhiều lĩnh

vực thực tế khác nhau như là: phân tích thị trường, thương mại điện tử, phân tích đánh giá của người dùng, khám nghiệm pháp y Các phương pháp truyền thống dùng để phân tích cảm xúc yêu cầu một giả thiết là phân phối xác suất biên của tập huấn luyện và tập kiểm tra là giống nhau Tuy nhiên, trong các bài toán thực tế, dữ liệu kiểm tra luôn luôn thay đổi, và nó có thể không nằm trong cùng miền với dữ liệu huấn luyện Với những trường hợp này, các cách tiếp cận giải quyết bài toán

phân tích cảm xúc trước đây không cho được độ chính xác như mong muốn Do đó,

vấn đề nâng cao độ chính xác của bài toán phân tích cảm với các dữ liệu mới đến là cần được giải quyết

Trong khi đó học chuyển đổi là một phương pháp giúp tăng cường độ chính xác từ

các tập dữ liệu đã có sẵn, ngay cả khi các tập dữ liệu này có phân phối xác suất biên khác nhau Hơn nữa, các dữ liệu đã tồn tại là rất phong phú, và có thể có một phần

nào đó được tận dụng để nâng cao độ chính xác cho bài toán phân tích cảm xúc

Vì các lý do trên, tôi đã chọn đề tài: ―Phân tích cảm xúc sử dụng cách tiếp cận

học chuyển đổi‖

2 Lịch sử nghiên cứu

Đối với bài toán phân tích cảm xúc, ban đầu, các nhà khoa học quan tâm đến các phương thức phân loại đơn giản, tin cậy vào một phân tích nông dựa vào điểm cảm xúc của từ vựng được xây dựng bằng tay và tập trung vào việc xây dựng các bộ từ điển này [Huettner A et al., 2000], [Tong.R.M, 2001] Gần đây, các nhà khoa học

đã sử dụng các thuật toán phân loại, như là đã được tổng hợp bởi [Sebastiani F, 2002], với các bài toán phân loại cảm xúc cực (PC) hay phân loại quan điểm (OC)

Trang 13

13

Ngoài ra, [Pang L et al., 2002] đã so sánh Naive Bayes, Máy vector hỗ trợ (SVMs)

và Maximum-Entropy-Based trên bài toán phân loại cảm xúc cực (tích cực hay tiêu cực) cho các bài phỏng vấn [Go A et al., 2009] thì lại so sánh trên các câu trạng thái trên mạng xã hội [Melville P et al., 2009] sử dụng kết hợp cả tri thức từ các bộ

từ điển từ vựng và học giám sát để cho kết quả tốt hơn

Tuy nhiên, rất nhiều phương thức học máy chỉ làm việc tốt dưới giả thiết tập huấn luyện và tập kiểm tra được sinh ra từ cùng một không gian đặc trưng và cùng một miền Khi miền của tập kiểm tra khác với tập huấn luyện, thì hầu hết các mô hình thống kê cần phải được xây dựng lại Tuy nhiên công việc này có chi phí khá đắt đỏ thậm chí là không thể [Pan S.J et al., 2010] Bởi vậy bài toán có độ chính xác không ổn định qua các tập kiểm tra khác nhau Nói cách khác, độ chính xác là không thể đoán trước được với tập kiểm tra mới

Học chuyển đổi là một cách tiếp cận để giải quyết vấn đề làm thế nào tận dụng nhiều nhất có thể dữ liệu trong miền nguồn nhưng có liên quan nhất định đến miền đích để giải quyết các bài toán mới và khác trong miền đích Ngay cả khi các vấn đề trong miền nguồn và miền đích là khác nhau, thậm chí được biểu diễn bởi các đặc trưng khác nhau [Pan S.J et al., 2008] Dựa vào các trường hợp khác nhau về mối liên hệ giữa miền đích, miền nguồn và các nhiệm vụ của chúng, chúng ta có thể chia thành ba loại học chuyển đổi như sau: học chuyển đổi quy nạp, học chuyển đổi dẫn nạp [Si S et al., 2010], [Si S et al., 2012], [Blitzer J et al., 2012], [Raina R et al., 2007], và học chuyển đổi không giám sát [Evgeniou T et al., 2004], [Bonilla E

et al., 2008], [Lawrence N.D et al., 2004] Học chuyển đổi qui nạp có thể được tham chiếu đến như là một cách tiếp cận học chuyển đổi dựa trên mẫu [Dai W et al., 2007], [Jiang J et al., 2007], [Zadrozny B, 2004], [Huang J et al.,, 2007], mà giả

sử rằng chắc chắn có các phần của dữ liệu trong miền nguồn có thể được sử dụng lại cho việc học trong miền đích bằng cách đánh lại trọng số Đánh lại trọng số mẫu

và lấy mẫu là hai kỹ thuật chính được sử dụng trong ngữ cảnh này Chúng ta có thể

Trang 14

14

dễ dàng sử dụng học chuyển đổi quy nạp với một tập dữ liệu đã được gán nhãn trong lĩnh vực phân tích cảm xúc để giải quyết bài toán điều tra pháp y

3, Mục đích nghiên cứu của luận văn, đối tượng, phạm vi nghiên cứu

Để giải quyết các bài toán có ý nghĩa thực tế như, khám nghiệm pháp y, phân tích tài chính, đánh giá người dùng …, chúng ta rất cần các đánh giá về cảm xúc cực (tích cực hay tiêu cực) Nhưng chúng ta gặp phải hai vấn đề đó là:

1 Độ chính xác của các thuật toán trên các mạng thực (Twitter, tin nhắn – SMSs) không cho kết quả chính xác cao

2 Các tập dữ liệu kiểm tra (test set) luôn luôn thay đổi (có thể cả về nội dung lẫn miền dữ liệu của tập kiểm tra được lấy)

Do đó, mục đích nghiên cứu là tăng cường độ chính xác của bài toán phân tích cảm

xúc Đối tượng nghiên cứu của tôi ở đây sẽ là các mạng xã hội thực, cụ thể là các tin nhắn trên điện thoại, các dòng trạng thái (status) trên các tiểu blog, các tweet trên Twitter… Phạm vi nghiên cứu của luận văn là đề xuất một thuật toán dựa trên phương pháp học chuyển đổi để giải quyết bài toán phân loại cảm xúc cực – một nhánh của bài toán phân tích cảm xúc để chứng mình tính đúng đắn của phương pháp

4 Tóm tắt các luận điểm và đóng góp

Luận văn đề xuất một phương pháp tiếp cận mới để giải quyết hiệu quả bài toán phân tích cảm xúc Luận văn cũng đề xuất một thuật toán học chuyển đổi mà sử dụng các tập dữ liệu cảm xúc đã tồn tại để tăng độ chính xác Ngoài ra luận văn cũng đề xuất một độ đo, và hai thuật toán để quyết định tập dữ liệu cảm xúc tốt nhất nên học và để quyết định xem tập dữ liệu có nên được sử dụng để học hay không Đóng góp chính của luận văn là:

Trang 15

3 Luận văn đề xuất một độ đo xác định khoảng cách của 2 tập dữ liệu cùng một số ứng dụng của nó

Thử nghiệm chỉ ra rằng, đề xuất thu được kết quả tốt hơn các thuật toán học chuyển đổi với phương pháp tương tự trước đây, và các thuật toán học máy như máy vector

hỗ trợ (SVMs) trong trường hợp tập huấn luyện của dữ liệu tương lai là nghèo nàn, không đủ xây dựng được một hình phân loại tốt cho tập dữ liệu

Phần nội dung chính của luận văn sẽ được tổ chức như sau:

 Phần I: Phần mở đầu

 Phần II: Nội dung

o Chương I: Phân tích cảm xúc

o Chương II: Học chuyển đổi

o Chương III: Áp dụng học chuyển đổi cho bài toán phân loại cảm xúc cực

1 Thuật toán AdaBoost

2 Thuật toán TrAdaBoost

3 Thuật toán MulTrAdaBoost

4 Thuật toán Unilateral – TrAdaBoost

5 Độ đo độ lệch trung bình cực đại (Maximum Mean Discrepancy – MMD) và giá trị ngưỡng độ lệch tới tâm trung bình (Mean Discrepancy of Set – MDS)

6 Cài đặt thử nghiệm và đánh giá

Trang 16

16

 Phần III: Kết luận

 Phần IV: Danh mục các tài liệu tham khảo

Trang 17

Nói chung, phân tích cảm xúc hướng đến việc xác định thái độ của người nói hay người viết đối với một chủ đề nào đó hoặc cảm xúc cực theo ngữ cảnh của tài liệu Thái độ có thể là sự phán đoán hay đánh giá của người đó, hoặc trạng thái tình cảm, hoặc trạng thái cảm xúc trong giao tiếp

1 Các nhiệm vụ con của bài toán phân tích cảm xúc

Một nhiệm vụ cơ bản của phân tích cảm xúc là phân loại các cảm xúc cực của một

văn bản [Turney P, 2002] và [Pang B et al., 2002] đã áp dụng các phương thức khác nhau để phát hiện cảm xúc cực trong các đánh giá sản phẩm và phim Hầu hết trong các phương thức phân loại thống kê, lớp trung lập bị bỏ qua do giả thiết rằng các văn bản trung lập nằm gần biên của phân loại hai lớp Tuy nhiên rất nhiều nhà nghiên cứu đã khuyến nghị rằng, trong tất cả các bài toán phân cực cảm xúc, ba loại cảm xúc phải được phát hiện Hơn nữa nó đã được chứng minh rằng, với các bộ phân loại như là MaxEntropy (Maximum Entropy), SVMs có thể tăng độ chính xác khi có sự có mặt của lớp trung lập

Một nhiệm vụ khác của phân tích cảm xúc đó là xác định chủ quan / khách quan

Theo [Pang B et al., 2008] thì nhiệm vụ này thường định nghĩa như là một bài toán phân loại thành hai lớp chủ quan hoặc khách quan Theo [Mihalcea R et al., 2007] bài toán này đôi khi phức tạp hơn bài toán phân tích cảm xúc cực: tính chủ quan của

từ và cụm từ có thể phụ thuộc vào ngữ cảnh của chúng và tài liệu chứa chúng

Trang 18

Do hầu hết các bài toán con của lĩnh vực phân tích cảm xúc, đều có thể quy về các bài toán phân loại Vì thế, trong luận văn, tôi sẽ chỉ minh họa một phương thức học chuyển đổi cho bài toán phân loại cảm xúc cực

2 Các phương thức

Các phương thức đã và đang tồn tại để phân tích cảm xúc có thể được nhóm lại thành ba loại chính sau:

 Dựa vào từ khóa (lexicon based)

 Dựa vào các phương thức thống kê (statistical methods)

 Dựa vào các kỹ thuật concept-level (concept-level techniques)

a Phương pháp dựa vào từ khoá

Đầu tiên là phương thức dựa vào các từ khóa, theo [Ortony A et al, 1988] thì các phương thức phân loại văn bản loại này phân loại bằng cách dựa vào các từ khóa có ảnh hưởng rõ ràng đến cảm xúc như ―buồn, vui, hạnh phúc, chán, ghét …‖ Các thuật toán dựa vào từ khoá này chỉ sử dụng các phương pháp phân loại đơn giản, kết hợp với các bộ từ điển với các mức độ cảm xúc của các từ Do đó họ chỉ tập trung vào việc xây dựng các bộ từ điển đó [Ding X et al., 2008] đã trình bày phương pháp tổng thể dựa trên từ khoá để thực hiện phân tích cảm xúc trên các đánh giá cho

Trang 19

b Phương thức dựa vào các phương thức thống kê

Đối với các phương pháp thống kê, các nhà khoa học sử dụng các phương pháp học máy như là LSA (Latent Sentiment Analysis), SVMs, túi từ (bag of word), và Semantic Orientation — Pointwise Mutual Information như trong [Turney P, 2002]

đã sử dụng Trong các thuật toán kể trên, SVMs rất hiệu quả để giải quyết các bài toán với dữ liệu có số chiều lớn như các vector biểu diễn văn bản Hơn nữa, đối tượng tiếp cận của chúng ta ở đây là các văn bản Do đó, tôi chọn SVMs như là một thuật toán học xuyên suốt luận văn để học chuyển đổi và tăng cường độ chính xác Phần tiếp theo dưới đây sẽ là mô tả chi tiết về thuật toán SVMs (cả SVMs phân loại nhị phân và SVMs phân loại đa lớp)

Máy vectơ hỗ trợ (SVM - viết tắt tên tiếng Anh support vector machine) là một khái niệm trong thống kê và khoa học máy tính cho một tập hợp các phương pháp học có giám sát để phân loại và phân tích hồi quy SVM dạng chuẩn nhận dữ liệu vào và phân loại chúng vào hai lớp khác nhau Do đó SVM là một thuật toán phân loại nhị phân Với một bộ các ví dụ huấn luyện thuộc hai lớp cho trước, thuật toán SVM huấn luyện xây dựng một mô hình SVM để phân loại các ví dụ khác vào hai lớp đó Một mô hình SVM là một cách biểu diễn các điểm trong không gian và ranh giới phân định giữa hai lớp sao cho khoảng cách từ các ví dụ học tới ranh giới là xa nhất

có thể Các ví dụ mới cũng được biểu diễn trong cùng một không gian và được

Trang 20

20

thuật toán dự đoán thuộc một trong hai lớp tùy thuộc vào ví dụ đó nằm ở phía nào của ranh giới phân định đó

i Tổng quan về máy vectơ hỗ trợ

Một máy vectơ hỗ trợ xây dựng một siêu phẳng hoặc một tập hợp các siêu phẳng trong một không gian nhiều chiều hoặc vô hạn chiều, có thể được sử dụng cho phân loại, hồi quy, hoặc các nhiệm vụ khác Một cách trực quan, để phân loại tốt nhất thì các siêu phẳng nằm ở càng xa các điểm dữ liệu của tất cả các lớp (gọi là hàm lề) càng tốt, vì nói chung lề càng lớn thì sai số tổng quát hóa của thuật toán phân loại càng bé

Trong nhiều trường hợp, không thể phân chia các lớp dữ liệu một cách tuyến tính trong một không gian ban đầu được dùng để mô tả một vấn đề Vì vậy, nhiều khi cần phải ánh xạ các điểm dữ liệu trong không gian ban đầu vào một không gian mới nhiều chiều hơn, để việc phân tách chúng trở nên dễ dàng hơn trong không gian mới

Để việc tính toán được hiệu quả, ánh xạ sử dụng trong thuật toán SVM chỉ đòi hỏi tích vô hướng của các vectơ dữ liệu trong không gian mới có thể được tính dễ dàng

từ các tọa độ trong không gian cũ Tích vô hướng này được xác định bằng một hàm

nhân K(x,y) phù hợp [Press W.H et al., 2009] Một siêu phẳng trong không gian

mới được định nghĩa là tập hợp các điểm có tích vô hướng với một vectơ cố định trong không gian đó là một hằng số Vectơ xác định một siêu phẳng sử dụng trong SVM là một tổ hợp tuyến tính của các vectơ dữ liệu luyện tập trong không gian mới với các hệ số Với siêu phẳng lựa chọn như trên, các điểm x trong không gian

đặc trưng được ánh xạ vào một siêu mặt phẳng là các điểm thỏa mãn:

∑ ( ) ( )

Chú ý rằng nếu K(x,y) nhận giá trị ngày càng nhỏ khi y xa dần khỏi x thì mỗi số hạng của tổng trên được dùng để đo độ tương tự giữa x với điểm tương ứng trong

Trang 21

21

dữ liệu huấn luyện Như vậy, ý nghĩa của tổng trên chính là so sánh khoảng cách

giữa điểm cần dự đoán với các điểm dữ liệu đã biết Lưu ý là tập hợp các điểm x

được ánh xạ vào một siêu phẳng có thể có độ phức tạp tùy ý trong không gian ban đầu, nên có thể phân tách các tập hợp thậm chí không lồi trong không gian ban đầu

ii Lịch sử

Thuật toán SVM ban đầu được đề xuất bởi Vladimir N Vapnik và dạng chuẩn hiện nay sử dụng lề mềm được đề xuất bởi Vapnik và Corinna Cortes năm 1995 [Cortes C et al., 1995] Ban đầu thuạ t toán SVM chỉ sử dụng cho pha n loại nhị phân, sau đó đu ợc cải tiến sử dụng cho pha n loại đa lớp [Crammer K et al., 2000], [Crammer K et al., 2002]

iii SVM phân loại nhị phân (Binary-classification)

Phân loại thống kê là một nhiệm vụ phổ biến trong học máy Trong mô hình học có giám sát, thuật toán được cho trước một số điểm dữ liệu cùng với nhãn của chúng thuộc một trong hai lớp cho trước Mục tiêu của thuật toán là xác định xem một điểm dữ liệu mới sẽ được thuộc về lớp nào Mỗi điểm dữ liệu được biểu diễn dưới dạng một vector p-chiều, và ta muốn biết liệu có thể chia tách hai lớp dữ liệu bằng một siêu phẳng p − 1 chiều (phân loại tuyến tính) Có nhiều siêu phẳng có thể phân loại được dữ liệu Một lựa chọn hợp lý trong chúng là siêu phẳng có lề lớn nhất giữa hai lớp

Ta có một tập huấn luyện gồm n điểm có dạng

{( ) * +}

với mang giá trị 1 hoặc −1, xác định lớp của điểm Mỗi là một vectơ thực

p-chiều Ta cần tìm siêu phẳng có lề lớn nhất chia tách các điểm có =1 và các điểm có = -1 Mỗi siêu phẳng đều có thể được viết dưới dạng một tập hợp các

điểm x thỏa mãn:

Trang 22

22

với ―.‖ kí hiệu cho tích vô hướng và là một vectơ pháp tuyến của siêu phẳng Tham số

‖ ‖ xác định khoảng cách giữa gốc tọa độ và siêu phẳng theo hướng vectơ

pháp tuyến w

Chúng ta cần chọn w và b để cực đại hóa lề, hay khoảng cách giữa hai siêu phẳng

song song ở xa nhau nhất có thể trong khi vẫn phân chia được dữ liệu Các siêu phẳng ấy được xác định bằng:

và

Để ý rằng nếu dữ liệu huấn luyện có thể được chia tách một cách tuyến tính, thì ta

có thể chọn hai siêu phẳng của lề sao cho không có điểm nào ở giữa chúng và sau

đó tăng khoảng cách giữa chúng đến tối đa có thể Bằng hình học, ta tìm được khoảng cách giữa hai siêu phẳng là

‖ ‖ Vì vậy ta muốn cực tiểu hóa giá trị ‖ ‖ Để đảm bảo không có điểm dữ liệu nào trong lề, ta thêm vào các điều kiện sau, với mỗi

i ta có:

hoặc

Có thể viết gọn lại như sau với mọi 1 ≤ i ≤ n:

( ) ( ) Tóm lại, ta có bài toán tối ưu hóa sau:

 Cực tiểu hóa (theo w, b}): ‖ ‖

Trang 23

23

 Với điều kiện (với mọi i = 1, …, n): ( )

Bằng cách thêm các nhân tử Lagrange , bài toán trên trở thành

{ ‖ ‖ ∑ , ( ) -

∑ Chỉ có một vài nhận giá trị lớn hơn 0 Các điểm tương ứng là các vector hỗ trợ nằm trên lề và thỏa mãn ( ) Từ điều kiện này, ta nhận thấy

từ đó ta suy ra được giá trị b Trên thực tế, một cách thức tốt hơn để tính b là tính

giá trị trung bình từ tất cả vectơ hỗ trợ:

∑

Nếu viết điều kiện phân loại dưới dạng đối ngẫu không điều kiện thì sẽ dễ dàng nhận thấy siêu phẳng với lề lớn nhất, và do đó nhiệm vụ phân loại, chỉ phụ thuộc vào các điểm luyện tập nằm trên lề, còn gọi là các vectơ hỗ trợ

Trang 24

với điều kiện (với mọi i = 1, …, n)

và điều kiện sau ứng với việc cực tiểu hóa theo b

Ở đây hàm hạt nhân được định nghĩa là ( )

Sau khi giải xong, có thể tính w từ các giá trị tìm được như sau:

∑ Năm 1995, Corinna C et al đề xuất một ý tưởng mới cho phép thuật toán gán nhãn sai cho một số mẫu huấn luyện Nếu không tồn tại siêu phẳng nào phân tách được hai lớp dữ liệu, thì thuật toán lề mềm sẽ chọn một siêu phẳng phân tách các ví dụ luyện tập tốt nhất có thể, và đồng thời cực đại hóa khoảng cách giữa siêu phẳng với các ví dụ được gán đúng nhãn Phương pháp này sử dụng các biến bù , dùng để đo

độ sai lệch của ví dụ

( ) ( )

Trang 25

25

Hàm mục tiêu có thêm một số hạng mới để phạt khi khác không, và bài toán tối

ưu hóa trở thành việc trao đổi giữa lề lớn và mức phạt nhỏ Nếu hàm phạt là tuyến tính thì bài toán trở thành:

{ ‖ ‖ ∑

}

với điều kiện (với mọi i=1, …,n)

-} ∑ với ,

Còn dạng đối ngẫu của trường hợp lề mềm là:

Cực đại hóa (theo )

với điều kiện (với mọi i = 1, …, n)

và

∑

Trang 26

26

Ưu điểm của việc dùng hàm phạt tuyến tính là các biến bù biến mất khỏi bài toán

đối ngẫu, và hằng số C chỉ xuất hiện dưới dạng một chặn trên cho các nhân tử

Lagrange Cách đặt vấn đề trên đã mang lại nhiều thành quả trong thực tiễn, và Cortes và Vapnik đã nhận được giải Paris Kanellakis của ACM năm 2008 cho đóng góp này Các hàm phạt phi tuyến cũng được sử dụng, đặc biệt là để giảm ảnh hưởng của các trường hợp ngoại lệ, tuy nhiên nếu không lựa chọn hàm phạt cẩn thận thì bài toán trở thành không lồi, và việc tìm lời giải tối ưu toàn cục thường là rất khó

iv SVM phân loại đa lớp

Với ý tưởng xuyên suốt là biến bài toán phân loại n-lớp thành n bài toán phân loại hai lớp Sau đó đánh giá khả năng thuộc và không thuộc của từng lớp để quyết định lớp mà mẫu đó thuộc về Crammer K et al đã đề xuất một phương pháp để giải quyết bài toán đa lớp bằng cách hình thành bài toán gốc sau:

* +* + ∑‖ ‖ ∑

( )

với C > 0 là tham số, là vector trọng số liên kết với lớp m, và nếu nếu Chú ý rằng, trong (3), ràng buộc ứng với tương ứng với ràng buộc không âm Hàm quyết định là

( ) Bài toán đối ngẫu của (3), được phát triển trong [Crammer K et al., 2000], [Crammer K et al.,2002] yêu cầu một vector có các biến đối ngẫu Vector được định nghĩa qua vector như sau:

( ) ∑ ( )

Trang 27

27

Ở các phần được trình bày sau đây, Crammer K et al đơn giản sẽ chỉ viết thay cho ( ) Với nếu , nếu Bài toán đối ngẫu trở thành:

( ) ∑‖ ( )‖ ∑ ∑

( ∑ ) ( )

c Phương thức dựa vào các kỹ thuật mức khái niệm

Phân tích cảm xúc dựa vào các kỹ thuật mức khái niệm tập trung vào phân tích cảm xúc của văn bản qua việc sử dụng các web ontology và các mạng ngữ nghĩa, cho phép tập hợp thông tin về tình cảm và khái niệm liên quan đến các cảm xúc Bằng cách dựa trên các mạng ngữ nghĩa lớn, phân tích cảm xúc mức khái niệm sẽ qua từng bước từ không có thông tin gì về việc sử dụng từ khoá

Các nhà khoa học giới thiệu các cơ chế để phân tích cảm xúc dựa vào các kỹ thuật mức khái niệm, để khai thác các cơ sở tri thức về cảm xúc chung, ví dụ như SenticNet, và / hoặc Linked Data and Semantic Web ontology, ví dụ như DBPedia,

để thực hiện phân tích cảm xúc trên nhiều miền Mục đích là để đi xa hơn một phân tích mức từ và cung cấp các công cụ và kỹ thuật mức khái niệm cùng các kỹ thuật cho phép mà cho phép một lối đi hiệu quả hơn từ ngôn tự nhiên (phi cấu trúc) đến

dữ liệu có thể xử lý bằng mày (có cấu trúc)

Trang 28

28

Chương II Học chuyển đổi

Giả thiết cơ bản xuyên suốt trong nhiều thuật toán học máy và khai phá dữ liệu truyền thống là dữ liệu huấn luyện và dữ liệu kiểm tra phải được biểu diễn trong cùng không gian đặc trưng, được lấy trong cùng một miền và có cùng phân phối xác suất Tuy nhiên, trong nhiều ứng dụng thực tế, giả thiết này có thể không được thoả mãn Cho ví dụ, đôi khi có một nhiệm vụ phân loại trong một miền, như là ―tin thể thao‖, nhưng chúng ta chỉ có dữ liệu huấn luyện phù hợp với một miền sở thích khác, như là ―bài báo khoa học‖, tức là dữ liệu sau này có thể rơi vào một không gian đặc trưng khác hoặc có một phân phối dữ liệu khác Trong những trường hợp này, nếu chuyển đổi tri thức thành công thì sẽ cải thiện cực nhiều hiệu năng của việc học và cũng giảm rất nhiều chi phí để đánh nhãn Những năm gần đây, học chuyển đổi nổi lên như là một cách thức học mới để học chuyển đổi tri thức Luận văn này chỉ quan tâm đến phân loại và tìm hiểu trạng thái hiện tại của các loại học chuyển đổi cho phân loại, hồi quy và phân cụm Trong luận văn chúng tôi bàn đến mối quan hệ giữa học chuyển đổi và các kỹ thuật học máy khác như là biến đổi miền học, học đa nhiệm vụ, và lựa chọn mẫu

1 Lịch sử của học chuyển đổi

Khai phá dữ liệu truyền thống và các thuật toán học máy tạo các dự đoán cho các

dữ liệu tương lai bằng cách sử dụng các mô hình đã được huấn luyện trước đó trên các dữ liệu huấn luyện có hoặc không có nhãn [Yin X, et al., 2006], [Kuncheva L.I

et al., 2007] Phân loại bán giám sát [Zhu X, 2006], [Nigam K et al., 2000], [Blum A et al., 1998], [Joachims T, 1999] giải quyết bài toán mà dữ liệu được gắn nhãn quá ít để xây dựng một bộ phân loại tốt, bằng cách sử dụng thêm một lượng lớn dữ liệu không có nhãn Rất nhiều thuật toán học giám sát và bán giám sát cho các tập dữ liệu không hoàn hảo được nghiên cứu; cho ví dụ, Zhu và Wu, [Zhu.X et al., 2006] đã nghiên cứu cách giải quyết bài toán có dữ liệu có nhãn bị nhiễu Yang

và cộng sự xem xét thuật toán học dễ dàng thay đổi chi phí [Yang Q et al., 2006] khi các tập test truyền thống có thể tạo ra các mẫu tương lai Tuy nhiên, hầu hết chúng giả sử rằng miền, phân phối, tập đặc trưng biểu diễn dữ liệu, và nhiệm vụ của tập dữ liệu có và không có nhãn là giống nhau Học chuyển đổi, ngược lại, cho phép

Trang 29

29

các miền, tập đặc trưng, nhiệm vụ và phân phối được sử dụng trong tập huấn luyện

và tập kiểm tra là khác nhau Trong thế giới thực, chúng ta thu được rất nhiều ví dụ của học chuyển đổi Cho ví dụ, chúng ta có thể thấy rằng việc học về quả táo có thể

có ích trong việc học quả lê Tương tự, học để dùng đàn organ điện tử có thể giúp việc học đàn piano dễ dàng hơn Nghiên cứu học chuyển đổi có động lực từ thực tế rằng con người có thể áp dụng các tri thức đã được học trước đây để giải quyết các vấn đề mới nhanh hơn hoặc tốt hơn Động lực cơ bản trong lĩnh vực học máy đã được bàn bạc trong hội thảo NIPS-95 đó là tập trung vào sự cần thiết cho sự lâu dài của các phương thức học máy tức là giữ lại và tái sử dụng các tri thức đã tồn tại và được học trước đây

Hình 1: Sự khác nhau của các tiến trình học (a) học máy truyền thống (b) học

chuyển đổi

Nghiên cứu học chuyển đổi đã thu hút được nhiều chú ý từ những năm 1995 trong nhiều cái tên khác nhau: học để học (learning to learn), học lâu dài (life-long learning), chuyển đổi tri thức (knowledge transfer), chuyển đổi quy nạp (inductive transfer), học đa nhiệm vụ (multitask learning), sự củng cố tri thức (knowledge consolidation), học các ngữ cảnh dễ bị thay đổi (context-sensitive learning), quy

Trang 30

30

nạp dựa trên tri thức (knowledge-based inductive bias), siêu học (metalearning), học gia tăng/tích luỹ (incremental/cumulative learning) [Thrun S et al., 1998] Trong số này, một kỹ thuật học liên quan nhất đến học chuyển đổi là học đa nhiệm vụ [Caruana R, 1997], nó cố gắng học nhiều nhiệm vụ đồng thời ngay cả khi các nhiệm vụ này là khác nhau Một cách tiếp cận cho học đa nhiệm vụ là khám phá ra các đặc trưng (ẩn) thông thường mà có thể đóng góp cho mỗi nhiệm vụ riêng lẻ Năm 2005, Broad Agency Announcement (BAA) của Defense Advanced Research Projects Agency (DARPA)’s Information Processing Technology Office (IPTO) đã đưa ra một nhiệm vụ của học chuyển đổi đó là: khả năng một hệ thống nhận biết, áp dụng tri thức và các kỹ năng đã được học trong các nhiệm vụ trước đó thành một nhiệm vụ mới Trong định nghĩa này, học chuyển đổi hướng tới việc phân tách tri thức từ một và nhiều nhiệm vụ gốc và áp dụng tri thức vào 1 miền đích Trái ngược với học đa nhiệm vụ, sẽ không học các nhiệm vụ gốc và nhiệm vụ đích đồng thời,

mà học chuyển đổi hầu như chỉ quan tâm đến nhiệm vụ đích Độ quan trọng của miền đích và miền nguồn là không đối xứng trong học chuyển đổi

Hình 1 thể hiện sự khác nhau giữa các kỹ thuật học truyền thống và các kỹ thuật học chuyển đổi Như là chúng ta có thể thấy, các kỹ thuật học truyền thống cố gắng học mỗi nhiệm vụ từ đầu, trong khi học chuyển đổi cố gắng chuyển đổi tri thức từ các nhiệm vụ trước đó đến nhiệm vụ đích khi sau này có một lượng ít dữ liệu huấn luyện tốt

Ngày nay, các phương thức học chuyển đổi xuất hiện rất nhiều nơi, đặc biệt là trong khai phá dữ liệu (cho ví dụ như trong các hội nghị ACM, KDD, IEEE, ICDM và PKDD), học máy (cho ví dụ như trong các hội nghị ICML, NIIPS, ECML, AAAI

và IJCAI) và các ứng dụng của học máy, khai phá dữ liệu (cho ví dụ như trong các hội nghị ACM SIGIR, WWW, và ACL) Trước khi chúng ta phân loại cho học chuyển đổi, chúng ta đầu tiên mô tả các ký hiệu được sử dụng trong phần tiếp theo

Trang 31

Trong luận văn này, 1 miền chứa 2 thành phần: một không gian đặc trưng và

một phân phối xác suất biên P(X), ở đây * + Cho ví dụ, nếu nhiệm vụ học của chúng ta là phân loại tài liệu, và mỗi từ là một giá trị nhị phân,

là không gian vector của tất cả các vector của từ, và là thành phần thứ i của

vector tương ứng với các tài liệu, và X là 1 mẫu học cụ thể Nói chung, nếu 2 miền

là khác nhau, thì chúng có thể có không gian đặc trưng khác nhau hoặc có các phân phối xác suất biên khác nhau

Cho miền xác định * ( )+, một nhiệm vụ * ( )+ chứa 2 thành phần: một không gian nhãn và một hàm dự đoán f(.), và không thể tạo được bộ học phù hợp nhưng có thể được học từ các bộ học đã tồn tại chứa các cặp * +, ở đây và Hàm f(.) có thể được sử dụng để dự đoán nhãn tương ứng, f(x), của mẫu mới x Từ quan điểm xác suất, f(x) có thể được viết thành P(y|x)

Trong ví dụ phân loại tài liệu trên, là tập tất cả các nhãn, và là True, False cho nhiệm vụ phân loại nhị phân, và là ―True‖ hoặc ―False‖

Để đơn giản, trong luận văn này, chúng tôi chỉ xem xét trường hợp chỉ có một miền nguồn , và một miền đích , điều này cũng được dùng trong hầu hết các nghiên cứu Đặc tả hơn, chúng ta ký hiệu dữ liệu miền nguồn như là {( ) /}, ở đây là dữ liệu mẫu và tương ứng là nhãn lớp của mẫu Trong ví dụ phân loại tài liệu trên, có thể là một tập các vector với nhãn lớp của nó Tương tự , chúng ta ký hiệu dữ liệu thuộc miền

Trang 32

32

đích như sau {( ) /}, ở đây và là đầu

ra tương ứng Trong hầu hết các trương hợp 0 ≤

Bây gời chúng tôi đưa ra một định nghĩa thống nhất về học chuyển đổi

Định nghĩa 1 (Học chuyển đổi): Với miền nguồn với nhiệm vụ học , và miền đích với nhiệm vụ học , học chuyển đổi hướng đến việc tăng khả năng học của hàm dự đoán ( ) đích trong sử dụng tri thức trong và , ở đây hoặc

Trong định nghĩa trên, một miền là cặp * ( )+ Do đó, điều kiện nghĩa là hoặc hoặc ( ) ( ) Cho ví dụ, trong ví dụ phân loại tài liệu, điều này có nghĩa là giữa tập tài liệu nguồn và tập tài liệu đích, hoặc các từ đặc trưng là khác nhau giữa 2 tập (tức là, chúng sử dụng các ngôn ngữ khác nhau) hoặc phân phối biên của chúng khác nhau

Tương tự, một nhiệm vụ được định nghĩa như là một cặp * ( )+ Tương ứng, điều kiện nghĩa là hoặc hoặc ( ) ( ) Khi miền nguồn và miền đích giống nhau, nghĩa là , và các nhiệm vụ học của chúng giống nhau, nghĩa là , bài toán học trở thành một bài toán học máy truyền thống Khi các miền khác nhau thì hoặc là 1) không gian đặc trưng giữa các miền khác nhau , hoặc 2) không gian đặc trưng giữa các miền giống nhau nhưng phân phối xác suất biên giữa dữ liệu các miền là khác nhau, nghĩa là, ( ) ( ), ở đây và Như là ví dụ phân loại tài liệu trên, trường hợp 1 tương ứng là khi 2 tập tài liệu được biểu diễn trong các ngôn ngữ khác nhau, trường hợp 2 tương ứng khi các tài liệu miền nguồn và các tài liệu miền đích tập trung vào các chủ đề khác nhau

Cho các miền xác định và , khi nhiệm vụ học và khác nhau, thì hoặc là 1) không gian nhãn giữa các miền là khác nhau, tức là, , hoặc là 2) phân

Trang 33

33

phối xác suất điều kiện giữa các miền khác nhau, tức là, ( ) ( ), ở đây, và Trong ví dụ phân loại trên, trường hợp 1 tương ứng vị trí nơi mà miền nguồn là phân loại nhị phân, miền đích là phân loại tài liệu với 10 lớp Trường hợp 2 vị trí tương ứng của các tài liệu nguồn và đích là không giống nhau Nói chung, khi có tồn tại một số quan hệ, rõ ràng hoặc ẩn, giữa các không gian đặc trưng của 2 miền, chúng ta nói rằng các miền nguồn và đích có liên quan

3 Phân loại các kỹ thuật học chuyển đổi

Trong học chuyển đổi, chúng ta có 3 vấn đề nghiên cứu chính sau:

1) chuyển đổi gì,

2) chuyển đổi như thế nào,

3) chuyển đổi khi nào

Phương pháp học Miền nguồn và đích Các nhiệm vụ nguồn

và đích

Học chuyển đổi

học chuyển đổi qui nạp giống nhau

khác nhau nhưng có liên quan

Học chuyển đổi chuyển nạp

Khác nhau nhưng có liên quan

Học chuyển đổi không giám sát

Khác nhau nhưng có

Bảng 1: Mối quan hệ giữa học máy truyền thống các loại học chuyển đổi

Trang 34

34

―Chuyển đổi gì‖ đó là một phần của tri thức có thể được chuyển đổi giữa các miền

và các nhiệm vụ Một số tri thức là xác định với các miền hoặc nhiệm vụ riêng lẻ,

và một số tri thức có thể là chung giữa các miền, do đó chúng có thể giúp tăng cường hiệu năng cho miền hoặc nhiệm vụ đích Sau khi khám phá tri thức có thể được chuyển đổi, thì các thuật toán học có cần được phát triển để chuyển đổi tri

thức tương ứng với vấn đề ―chuyển đổi như thế nào‖

Học chuyển đổi Các lĩnh vực

liên quan

Dữ liệu có nhãn miền nguồn

Dữ liệu có nhãn miền đích

chuyển nạp

Điều chỉnh

Hồi quy, phân loại

Học chuyển đổi

Phân cụm, giảm chiều Bảng 2: Sự khác nhau của các loại học chuyển đổi

―Chuyển đổi khi nào‖ trong một số trường hợp, các kĩ năng chuyển đổi cần được

thực hiện Cũng giống như thế, chúng ta muốn biết trường hợp, tri thức không cần phải thực chuyển đổi Trong một số hoàn cảnh, khi miền nguồn và miền đích không liên quan đến nhau, chuyển đổi tham lam có thể không thành công Trong trường hợp tồi nhất, nó có thể làm giảm hiệu năng của việc học trong miền đích, đó là 1 trường hợp thường được tham chiếu như là chuyển đổi tiêu cực Hầu hết công việc

Trang 35

35

hiện tại về học chuyển đổi tập trung vào ―chuyển đổi gì‖ và ―chuyển đổi như thế

nào‖, bằng cách giả sử rằng miền nguồn và đích liên quan đến nhau Tuy nhiên làm thế nào để tránh được chuyển đổi tiêu cực là một vấn đề mở quan trọng đã thu hút

ngày càng nhiều sự quan tâm

Dựa trên định nghĩa học chuyển đổi, chúng tôi tổng hợp mối quan hệ giữa học máy truyền thống và các loại học chuyển đổi trong bảng 1 Ở đây tôi phân loại học

chuyển đổi thành 3 loại, học chuyển đổi qui nạp, học chuyển đổi chuyển nạp, và học chuyển đổi không giám sát, dựa trên các tình huống khác nhau giữa dữ liệu miền

đích, dữ liệu miền nguồn và nhiệm vụ miền đích, nhiệm vụ miền nguồn Trong học chuyển đổi qui nạp, nhiệm vụ đích khác với nhiệm vụ nguồn, trong khi miền đích

và nguồn có thể giống hoặc khác nhau

Trong trường hợp này, một số dữ liệu có nhãn trong miền đích được yêu cầu để qui nạp một mô hình dự đoán ( ) để sử dụng trong miền đích Ngoài ra, theo các hoàn cảnh khác nhau của dữ liệu có và không có nhãn trong miền nguồn, chúng ta có thể phân loại xa hơn học chuyển đổi qui nạp thành 2 trường hợp sau:

a Nhiều dữ liệu có nhãn trong miền nguồn sẵn sàng Trong trường hợp này, học chuyển đổi qui nạp là tương tự với học đa nhiệm vụ Tuy nhiên, học chuyển đổi qui nạp chỉ hướng đến đạt được hiệu năng cao trong nhiệm vụ đích trong khi học đa nhiệm vụ cố gắng học nhiệm vụ nguồn và đích đồng thời

b Không có dữ liệu có nhãn trong miền nguồn sẵn sàng Trong trường hợp này, học chuyển đổi qui nạp tương tự như tự học, mà được đề xuất lần đầu bởi Raina và cộng sự [Raina R et al., 2007] Trong tự học, không gian nhãn giữa miền đích và miền nguồn có thể khác nhau, tức là về mặt thông tin miền nguồn có thể không được sử dụng trực

Trang 36

a Các không gian đặc trưng giữa miền nguồn và đích là khác nhau,

b Các không gian đặc trưng giữa các miền là giống nhau, , nhưng phân phối xác suất biên của dữ liệu đầu vào là khác nhau,

Các trường hợp gần đây của học chuyển đổi chuyển nạp liên quan đến

sự điều chỉnh miền để chuyển đổi tri thức trong phân loại văn bản [Daume III H et al., 2006] và lựa chọn mẫu [Zadrozny B, 2004], mà các giả sử của chúng là tương tự

3 Cuối cùng, trong học chuyển đổi không giám sát, tương tự học chuyển đổi qui nạp, nhiệm vụ đích là khác với nhiệm vụ nguồn nhưng có liên quan đến nhau Tuy nhiên, học chuyển đổi không giám sát tập trung giải quyết các nhiệm vụ học không giám sát trong miền đích, như là phân cụm, giảm chiều,

và tối ưu mật độ [Dai W et al., 2008], [Wang Z et al., 2008] Trong trường hợp này, không có dữ liệu có nhãn trong cả hai miền nguồn và đích

Mối quan hệ giữa các loại học chuyển đổi và các lĩnh vực liên quan được tổng hợp trong bảng 2 và hình 2

Trang 37

37

Hình 2: Tổng quan về sự khác biệt của các loại học chuyển đổi

Dựa vào định nghĩa, chúng ta có thể phân loại học chuyển đổi ra thành ba loại như

đã trình bày ở trên Nhưng nếu để trả lời cho câu hỏi ―Chuyển đổi gì‖ thì chúng ta

có thể phân loại thành bốn loại như sau:

 Chuyển đổi mẫu

 Chuyển đổi các đặc trưng

 Chuyển đổi tham số

 Chuyển đổi tri thức quan hệ

Bảng 3 thể hiện 4 trường hợp và mô tả ngắn gọn

Trường hợp đầu tiên có thể được tham chiếu đến như là phương pháp học chuyển đổi dựa trên mẫu (hay còn gọi là chuyển đổi mẫu) [Dai W et al., 2007, [Jiang J et al., 2007], [Zadrozny B, 2004] với giả sử rằng một phần dữ liệu trong miền nguồn

Trang 38

38

có thể được sử dụng lại để học trong miền đích bằng cách đánh lại trọng số Đánh lại trọng số mẫu và lấy mẫu quan trọng là hai kỹ thuật chính trong ngữ cảnh này Học chuyển đổi Mô tả ngắn

Chuyển đổi

tham số

Khai phá các tham số dùng chung hoặc các tiền nghiệm giữa các mô hình của miền nguồn và miền đích, mà có thể đóng góp cho học chuyển đổi [Lawrence N.D et al., 2004], [Bonilla E, 2008] , [Evgeniou T et al., 2004]

Chuyển đổi tri

thức quan hệ

Xây dựng ánh xạ của tri thức quan hệ giữa miền nguồn và miền đích Các miền liên quan đến nhau và giả thiết được làm nới lỏng trong mỗi miền [Mihalkova L et al., 2007], [Mihalkova L et al., 2008], [Davis J et al., 2008]

Bảng 3: Các phương pháp khác nhau để học chuyển đổi Trường hợp thứ 2 có thể được tham chiếu như là phương pháp chuyển đổi cách biểu diễn đặc trưng [Raina R et al., 2007], [Blitzer J et al., 2007] Ý tưởng ẩn sau trường hợp này là để học một cách biểu diễn tốt đối với miền đích Trong trường hợp này, tri thức được sử dụng để chuyển đổi qua các miền được biểu diễn lại vào trong cách biểu diễn mới được học Với cách biểu diễn mới, hiệu năng của nhiệm

vụ đích được kỳ vọng cải thiện đáng kể

Định dạng
Số trang	76
Dung lượng	1,16 MB