Luận văn cũng đề xuất một thuật toán học chuyển đổi sử dụng các tập dữ liệu cảm xúc đã tồn tại để tăng độ chính xác của bài toán phân tích cảm xúc trong một miền khác.. Ngoài ra luận văn
Trang 11
LỜI CAM ĐOAN Tôi – Vương Hồng Quang – xin cam kết Luận văn tốt nghiệp là công trình nghiên
cứu của bản thân tôi dưới sự hướng dẫn của PGS.TS Nguyễn Thị Kim Anh, Viện
CNTT, trường Đại học Bách Khoa Hà Nội
Các kết quả nên trong Luận văn tốt nghiệp là trung thực, không sao chép toàn văn của bất kỳ công trình nào khác
Hà Nội, ngày 04 tháng 09 năm 2014
Học viên thực hiện luận văn
Vương Hồng Quang
Trang 22
Lời cảm ơn Đầu tiên, em xin được gửi lời cảm ơn chân thành đến các thầy giáo, cô giáo thuộc trường đại học Bách Khoa Hà Nội Đặc biệt là các thầy giáo, cô giáo thuộc Viện Công nghệ Thông tin và Truyền thông Các thầy cô đã trang bị cho em những kiến thức quý báu trong thời gian em học tập và nghiên cứu tại trường
Em cũng xin được gửi lời cảm ơn đặc biệt đến PGS.TS Nguyễn Kim Anh Cô là người đã chỉ dẫn tận tình, cho em những kinh nghiệm quý báu để em có thể hoàn thành luận văn tốt nghiệp này Cô luôn động viên, giúp đỡ em trong quá trình nghiên cứu và hoàn thiện luận văn
Đồng thời em cũng xin gửi lời cảm ơn chân thành đến GS.TS Atsuhiro Takasu, thuộc viện công nghệ thông tin quốc gia, Nhật Thầy đã dìu dắt, chỉ bảo, hướng dẫn,
và chia sẻ kinh nghiệm nghiên cứu khoa học
Em cũng cảm ơn PGS.TS Lê Đình Duy, TS Nguyễn Văn Kiên, TS Trần Minh Quang cùng các anh chị nghiên cứu sinh, thuộc viện công nghệ thông tin quốc gia Nhật, đã đóng góp ý kiến giúp em hoàn thiện luận văn này
Em xin gửi lời cảm ơn tới gia đình, bạn bè Mọi người đã luôn động viên thúc đẩy
và tạo động lực cho em luôn tiến lên phía trước
Trang 33
Tóm tắt nội dung
Phân tích cảm xúc là một lĩnh vực quan trọng Nó có khả năng được áp dụng trong
nhiều lĩnh vực thực tế khác nhau như là: phân tích thị trường, phân tích đánh giá của người dùng, khám nghiệm pháp y Trong thực tế, dữ liệu kiểm tra luôn luôn thay đổi, và nó có thể không nằm trong cùng miền với tập huấn luyện Với những
trường hợp này, các cách tiếp cận giải quyết bài toán phân tích cảm xúc trước đây
không cho được độ chính xác như mong muốn Do đó, vấn đề nâng cao độ chính xác trong bài toán phân tích cảm xúc khi dự đoán cảm xúc với các dữ liệu mới đến
là cần được giải quyết
Trong khi đó học chuyển đổi là một phương pháp giúp tăng cường độ chính xác từ
các tập dữ liệu đã có sẵn, ngay cả khi các tập dữ liệu này có phân phối xác suất biên khác nhau Hơn nữa, các dữ liệu đã tồn tại là rất phong phú, và có thể có một phần
nào đó được tận dụng để nâng cao độ chính xác cho bài toán phân tích cảm xúc
Vì các lý do trên, tôi đã chọn đề tài: ―Phân tích cảm xúc sử dụng cách tiếp cận
học chuyển đổi‖
Luận văn đề xuất một phương pháp tiếp cận mới để giải quyết hiệu quả bài toán phân tích cảm xúc Luận văn cũng đề xuất một thuật toán học chuyển đổi sử dụng các tập dữ liệu cảm xúc đã tồn tại để tăng độ chính xác của bài toán phân tích cảm xúc trong một miền khác Ngoài ra luận văn cũng đề xuất một độ đo để đo khả năng
có thể sử dụng của tập dữ liệu cũ cho miền mới, và hai thuật toán để quyết định tập
dữ liệu cảm xúc tốt nhất nên học và để quyết định xem tập dữ liệu có nên được sử dụng để học hay không Đóng góp chính của luận văn là:
1 Luận văn đưa ra một phương pháp mới để giải quyết bài toán phân tích cảm xúc
Trang 44
2 Luận văn đề xuất một phương pháp học chuyển đổi mới với chiến lược học tập dữ liệu đã tồn tại, đảm bảo sau quá trình học xác suất của tập huấn luyện
và tập kiểm tra là gần nhau nhất
3 Luận văn đề xuất một độ đo xác định khoảng cách của 2 tập dữ liệu cùng một số ứng dụng của nó
Thử nghiệm chỉ ra rằng, đề xuất thu được kết quả tốt hơn các thuật toán học chuyển đổi với phương pháp tương tự trước đây, và các thuật toán học máy như máy vector
hỗ trợ (SVMs) trong trường hợp tập huấn luyện của dữ liệu tương lai là nghèo nàn, không đủ xây dựng được một hình phân loại tốt cho tập dữ liệu mới
Trang 55
Abstract
Sentiment Analysis is an important field Nowaday, It is currently applied into
many different fields in real world as: market analysis, financial, review customer, forensic analysis… However, the domain of target datas always change, and it can
be inconsistent with model built by source domain Therefore, the traditional machine learning approaches for sentiment analysis problem might not be efficient for this case
Within my knowledge, transfer learning can improve the accuracy by using very rich existed data sets, evenwhen their marginal probability distribution are different with new test sets
Because of the above reasons, I chose topic: ―Sentiment Analysis using Transfer
Learning‖
My thesis proposed a novel approach to solve sentiment analysis problem Specifically, I have proposed a method to solve classisify polarity problem (one of sub-problems of sentiment analysis) that use existed sentiment data set to improve the accuracy on new domains of dataset Thesis’s main contributions are as follows
1 We present a novel approach to a formalism for solving the problem by adopting transfer learning
2 We propose a new method that uses a existed sentiment data set, which is labeled to improve performance
3 We propose a measure and a threshold to decide whether the system will learn a data set or not
The experiments show that my proposal has better result than inductive transfer learning, and other machine learning algorithms such as Support vector machin
Trang 66 (SVMs) when new training set is not big enough to construct model to classify new data set
Trang 77
Mục Lục
Phần I: Phần mở đầu 12
1 Lý do chọn đề tài 12
2 Lịch sử nghiên cứu 12
3, Mục đích nghiên cứu của luận văn, đối tượng, phạm vi nghiên cứu 14
4 Tóm tắt các luận điểm và đóng góp 14
Phần II: Nội dung 17
Chương I Phân tích cảm xúc 17
1 Các nhiệm vụ con của bài toán phân tích cảm xúc 17
2 Các phương thức 18
Chương II Học chuyển đổi 28
1 Lịch sử của học chuyển đổi 28
2 Các ký hiệu và định nghĩa 31
3 Phân loại các kỹ thuật học chuyển đổi 33
Chương III Áp dụng học chuyển đổi cho bài toán phân loại cảm xúc cực 41
1 Thuật toán AdaBoost 41
2 Thuật toán TrAdaBoost .44
3 Thuật toán MulTrAdaBoost 47
4 Thuật toán Unilateral – TrAdaBoost 50
5 Độ đo và giá trị ngưỡng đề xuất 54
6 Cài đặt thử nghiệm và đánh giá 59
Phần III: Kết luận 69
Trang 88 Phần IV: Danh mục các tài liệu tham khảo 70
Trang 99
Danh sách các từ viết tắt và thuật ngữ
Trang 1010
Danh sách các hình vẽ
1 Sự khác nhau của các tiến trình học (a) học máy truyền thống (b)
học chuyển đổi ……… 29
2 Tổng quan về sự khác biệt của các loại học chuyển đổi……… 37
3 Thuật toán AdaBoost……… 44
4 Thuật toán TrAdaBoost……… 47
5 Thuật toán MulTrAdaBoost……… 50
6 Chiến lược học của TrAdaBoost và MulTrAdaBoost……… 51
7 Chiến lược học của Unilateral – TrAdaBoost……… 52
8 Thuật toán Unilateral – MulTrAdaBoost……… 54
9 Mối liên hệ khoảng cách phân phối và khả năng học……… 58
10 Thuật toán quyết định xem có nên học hay không……… 58
11 Thuật toán dùng để chọn tập dữ liệu tốt nhất ứng với miền đích…… 59
12 So sánh độ chính xác của Unilateral – TrAdaBoost và MulTrAdaBoost……… 65
13 So sánh độ chính xác của Unilaterial – TrAdaBoost và thuật toán học cơ sở……… 67
Trang 1111
Danh sách các bảng
1 Mối quan hệ giữa học máy truyền thống các loại học chuyển đổi … 34
2 Sự khác nhau của các loại học chuyển đổi ……… 34
3 Các phương pháp khác nhau để học chuyển đổi ……… 38
4 Các phương pháp khác nhau sử dụng trong các loại học chuyển đổi khác nhau ……… 39
5 Cấu trúc của tập dữ liệu Sanders ……… 61
6 Danh sách các ký tự thể hiện cảm xúc ……… 62
7 Kết quả so sánh độ chính xác khi tập kiểm tra bị thay đổi ………… 67
8 So sánh độ chính xác của SVM (LR) khi ( ) bị thay đổi 69
Trang 1212
Phần I: Phần mở đầu
1 Lý do chọn đề tài
Phân tích cảm xúc là một lĩnh vực quan trọng Nó đã được áp dụng trong nhiều lĩnh
vực thực tế khác nhau như là: phân tích thị trường, thương mại điện tử, phân tích đánh giá của người dùng, khám nghiệm pháp y Các phương pháp truyền thống dùng để phân tích cảm xúc yêu cầu một giả thiết là phân phối xác suất biên của tập huấn luyện và tập kiểm tra là giống nhau Tuy nhiên, trong các bài toán thực tế, dữ liệu kiểm tra luôn luôn thay đổi, và nó có thể không nằm trong cùng miền với dữ liệu huấn luyện Với những trường hợp này, các cách tiếp cận giải quyết bài toán
phân tích cảm xúc trước đây không cho được độ chính xác như mong muốn Do đó,
vấn đề nâng cao độ chính xác của bài toán phân tích cảm với các dữ liệu mới đến là cần được giải quyết
Trong khi đó học chuyển đổi là một phương pháp giúp tăng cường độ chính xác từ
các tập dữ liệu đã có sẵn, ngay cả khi các tập dữ liệu này có phân phối xác suất biên khác nhau Hơn nữa, các dữ liệu đã tồn tại là rất phong phú, và có thể có một phần
nào đó được tận dụng để nâng cao độ chính xác cho bài toán phân tích cảm xúc
Vì các lý do trên, tôi đã chọn đề tài: ―Phân tích cảm xúc sử dụng cách tiếp cận
học chuyển đổi‖
2 Lịch sử nghiên cứu
Đối với bài toán phân tích cảm xúc, ban đầu, các nhà khoa học quan tâm đến các phương thức phân loại đơn giản, tin cậy vào một phân tích nông dựa vào điểm cảm xúc của từ vựng được xây dựng bằng tay và tập trung vào việc xây dựng các bộ từ điển này [Huettner A et al., 2000], [Tong.R.M, 2001] Gần đây, các nhà khoa học
đã sử dụng các thuật toán phân loại, như là đã được tổng hợp bởi [Sebastiani F, 2002], với các bài toán phân loại cảm xúc cực (PC) hay phân loại quan điểm (OC)
Trang 1313
Ngoài ra, [Pang L et al., 2002] đã so sánh Naive Bayes, Máy vector hỗ trợ (SVMs)
và Maximum-Entropy-Based trên bài toán phân loại cảm xúc cực (tích cực hay tiêu cực) cho các bài phỏng vấn [Go A et al., 2009] thì lại so sánh trên các câu trạng thái trên mạng xã hội [Melville P et al., 2009] sử dụng kết hợp cả tri thức từ các bộ
từ điển từ vựng và học giám sát để cho kết quả tốt hơn
Tuy nhiên, rất nhiều phương thức học máy chỉ làm việc tốt dưới giả thiết tập huấn luyện và tập kiểm tra được sinh ra từ cùng một không gian đặc trưng và cùng một miền Khi miền của tập kiểm tra khác với tập huấn luyện, thì hầu hết các mô hình thống kê cần phải được xây dựng lại Tuy nhiên công việc này có chi phí khá đắt đỏ thậm chí là không thể [Pan S.J et al., 2010] Bởi vậy bài toán có độ chính xác không ổn định qua các tập kiểm tra khác nhau Nói cách khác, độ chính xác là không thể đoán trước được với tập kiểm tra mới
Học chuyển đổi là một cách tiếp cận để giải quyết vấn đề làm thế nào tận dụng nhiều nhất có thể dữ liệu trong miền nguồn nhưng có liên quan nhất định đến miền đích để giải quyết các bài toán mới và khác trong miền đích Ngay cả khi các vấn đề trong miền nguồn và miền đích là khác nhau, thậm chí được biểu diễn bởi các đặc trưng khác nhau [Pan S.J et al., 2008] Dựa vào các trường hợp khác nhau về mối liên hệ giữa miền đích, miền nguồn và các nhiệm vụ của chúng, chúng ta có thể chia thành ba loại học chuyển đổi như sau: học chuyển đổi quy nạp, học chuyển đổi dẫn nạp [Si S et al., 2010], [Si S et al., 2012], [Blitzer J et al., 2012], [Raina R et al., 2007], và học chuyển đổi không giám sát [Evgeniou T et al., 2004], [Bonilla E
et al., 2008], [Lawrence N.D et al., 2004] Học chuyển đổi qui nạp có thể được tham chiếu đến như là một cách tiếp cận học chuyển đổi dựa trên mẫu [Dai W et al., 2007], [Jiang J et al., 2007], [Zadrozny B, 2004], [Huang J et al.,, 2007], mà giả
sử rằng chắc chắn có các phần của dữ liệu trong miền nguồn có thể được sử dụng lại cho việc học trong miền đích bằng cách đánh lại trọng số Đánh lại trọng số mẫu
và lấy mẫu là hai kỹ thuật chính được sử dụng trong ngữ cảnh này Chúng ta có thể
Trang 1414
dễ dàng sử dụng học chuyển đổi quy nạp với một tập dữ liệu đã được gán nhãn trong lĩnh vực phân tích cảm xúc để giải quyết bài toán điều tra pháp y
3, Mục đích nghiên cứu của luận văn, đối tượng, phạm vi nghiên cứu
Để giải quyết các bài toán có ý nghĩa thực tế như, khám nghiệm pháp y, phân tích tài chính, đánh giá người dùng …, chúng ta rất cần các đánh giá về cảm xúc cực (tích cực hay tiêu cực) Nhưng chúng ta gặp phải hai vấn đề đó là:
1 Độ chính xác của các thuật toán trên các mạng thực (Twitter, tin nhắn – SMSs) không cho kết quả chính xác cao
2 Các tập dữ liệu kiểm tra (test set) luôn luôn thay đổi (có thể cả về nội dung lẫn miền dữ liệu của tập kiểm tra được lấy)
Do đó, mục đích nghiên cứu là tăng cường độ chính xác của bài toán phân tích cảm
xúc Đối tượng nghiên cứu của tôi ở đây sẽ là các mạng xã hội thực, cụ thể là các tin nhắn trên điện thoại, các dòng trạng thái (status) trên các tiểu blog, các tweet trên Twitter… Phạm vi nghiên cứu của luận văn là đề xuất một thuật toán dựa trên phương pháp học chuyển đổi để giải quyết bài toán phân loại cảm xúc cực – một nhánh của bài toán phân tích cảm xúc để chứng mình tính đúng đắn của phương pháp
4 Tóm tắt các luận điểm và đóng góp
Luận văn đề xuất một phương pháp tiếp cận mới để giải quyết hiệu quả bài toán phân tích cảm xúc Luận văn cũng đề xuất một thuật toán học chuyển đổi mà sử dụng các tập dữ liệu cảm xúc đã tồn tại để tăng độ chính xác Ngoài ra luận văn cũng đề xuất một độ đo, và hai thuật toán để quyết định tập dữ liệu cảm xúc tốt nhất nên học và để quyết định xem tập dữ liệu có nên được sử dụng để học hay không Đóng góp chính của luận văn là:
Trang 153 Luận văn đề xuất một độ đo xác định khoảng cách của 2 tập dữ liệu cùng một số ứng dụng của nó
Thử nghiệm chỉ ra rằng, đề xuất thu được kết quả tốt hơn các thuật toán học chuyển đổi với phương pháp tương tự trước đây, và các thuật toán học máy như máy vector
hỗ trợ (SVMs) trong trường hợp tập huấn luyện của dữ liệu tương lai là nghèo nàn, không đủ xây dựng được một hình phân loại tốt cho tập dữ liệu
Phần nội dung chính của luận văn sẽ được tổ chức như sau:
Phần I: Phần mở đầu
Phần II: Nội dung
o Chương I: Phân tích cảm xúc
o Chương II: Học chuyển đổi
o Chương III: Áp dụng học chuyển đổi cho bài toán phân loại cảm xúc cực
1 Thuật toán AdaBoost
2 Thuật toán TrAdaBoost
3 Thuật toán MulTrAdaBoost
4 Thuật toán Unilateral – TrAdaBoost
5 Độ đo độ lệch trung bình cực đại (Maximum Mean Discrepancy – MMD) và giá trị ngưỡng độ lệch tới tâm trung bình (Mean Discrepancy of Set – MDS)
6 Cài đặt thử nghiệm và đánh giá
Trang 1616
Phần III: Kết luận
Phần IV: Danh mục các tài liệu tham khảo
Trang 17Nói chung, phân tích cảm xúc hướng đến việc xác định thái độ của người nói hay người viết đối với một chủ đề nào đó hoặc cảm xúc cực theo ngữ cảnh của tài liệu Thái độ có thể là sự phán đoán hay đánh giá của người đó, hoặc trạng thái tình cảm, hoặc trạng thái cảm xúc trong giao tiếp
1 Các nhiệm vụ con của bài toán phân tích cảm xúc
Một nhiệm vụ cơ bản của phân tích cảm xúc là phân loại các cảm xúc cực của một
văn bản [Turney P, 2002] và [Pang B et al., 2002] đã áp dụng các phương thức khác nhau để phát hiện cảm xúc cực trong các đánh giá sản phẩm và phim Hầu hết trong các phương thức phân loại thống kê, lớp trung lập bị bỏ qua do giả thiết rằng các văn bản trung lập nằm gần biên của phân loại hai lớp Tuy nhiên rất nhiều nhà nghiên cứu đã khuyến nghị rằng, trong tất cả các bài toán phân cực cảm xúc, ba loại cảm xúc phải được phát hiện Hơn nữa nó đã được chứng minh rằng, với các bộ phân loại như là MaxEntropy (Maximum Entropy), SVMs có thể tăng độ chính xác khi có sự có mặt của lớp trung lập
Một nhiệm vụ khác của phân tích cảm xúc đó là xác định chủ quan / khách quan
Theo [Pang B et al., 2008] thì nhiệm vụ này thường định nghĩa như là một bài toán phân loại thành hai lớp chủ quan hoặc khách quan Theo [Mihalcea R et al., 2007] bài toán này đôi khi phức tạp hơn bài toán phân tích cảm xúc cực: tính chủ quan của
từ và cụm từ có thể phụ thuộc vào ngữ cảnh của chúng và tài liệu chứa chúng
Trang 18Do hầu hết các bài toán con của lĩnh vực phân tích cảm xúc, đều có thể quy về các bài toán phân loại Vì thế, trong luận văn, tôi sẽ chỉ minh họa một phương thức học chuyển đổi cho bài toán phân loại cảm xúc cực
2 Các phương thức
Các phương thức đã và đang tồn tại để phân tích cảm xúc có thể được nhóm lại thành ba loại chính sau:
Dựa vào từ khóa (lexicon based)
Dựa vào các phương thức thống kê (statistical methods)
Dựa vào các kỹ thuật concept-level (concept-level techniques)
a Phương pháp dựa vào từ khoá
Đầu tiên là phương thức dựa vào các từ khóa, theo [Ortony A et al, 1988] thì các phương thức phân loại văn bản loại này phân loại bằng cách dựa vào các từ khóa có ảnh hưởng rõ ràng đến cảm xúc như ―buồn, vui, hạnh phúc, chán, ghét …‖ Các thuật toán dựa vào từ khoá này chỉ sử dụng các phương pháp phân loại đơn giản, kết hợp với các bộ từ điển với các mức độ cảm xúc của các từ Do đó họ chỉ tập trung vào việc xây dựng các bộ từ điển đó [Ding X et al., 2008] đã trình bày phương pháp tổng thể dựa trên từ khoá để thực hiện phân tích cảm xúc trên các đánh giá cho
Trang 19b Phương thức dựa vào các phương thức thống kê
Đối với các phương pháp thống kê, các nhà khoa học sử dụng các phương pháp học máy như là LSA (Latent Sentiment Analysis), SVMs, túi từ (bag of word), và Semantic Orientation — Pointwise Mutual Information như trong [Turney P, 2002]
đã sử dụng Trong các thuật toán kể trên, SVMs rất hiệu quả để giải quyết các bài toán với dữ liệu có số chiều lớn như các vector biểu diễn văn bản Hơn nữa, đối tượng tiếp cận của chúng ta ở đây là các văn bản Do đó, tôi chọn SVMs như là một thuật toán học xuyên suốt luận văn để học chuyển đổi và tăng cường độ chính xác Phần tiếp theo dưới đây sẽ là mô tả chi tiết về thuật toán SVMs (cả SVMs phân loại nhị phân và SVMs phân loại đa lớp)
Máy vectơ hỗ trợ (SVM - viết tắt tên tiếng Anh support vector machine) là một khái niệm trong thống kê và khoa học máy tính cho một tập hợp các phương pháp học có giám sát để phân loại và phân tích hồi quy SVM dạng chuẩn nhận dữ liệu vào và phân loại chúng vào hai lớp khác nhau Do đó SVM là một thuật toán phân loại nhị phân Với một bộ các ví dụ huấn luyện thuộc hai lớp cho trước, thuật toán SVM huấn luyện xây dựng một mô hình SVM để phân loại các ví dụ khác vào hai lớp đó Một mô hình SVM là một cách biểu diễn các điểm trong không gian và ranh giới phân định giữa hai lớp sao cho khoảng cách từ các ví dụ học tới ranh giới là xa nhất
có thể Các ví dụ mới cũng được biểu diễn trong cùng một không gian và được
Trang 2020
thuật toán dự đoán thuộc một trong hai lớp tùy thuộc vào ví dụ đó nằm ở phía nào của ranh giới phân định đó
i Tổng quan về máy vectơ hỗ trợ
Một máy vectơ hỗ trợ xây dựng một siêu phẳng hoặc một tập hợp các siêu phẳng trong một không gian nhiều chiều hoặc vô hạn chiều, có thể được sử dụng cho phân loại, hồi quy, hoặc các nhiệm vụ khác Một cách trực quan, để phân loại tốt nhất thì các siêu phẳng nằm ở càng xa các điểm dữ liệu của tất cả các lớp (gọi là hàm lề) càng tốt, vì nói chung lề càng lớn thì sai số tổng quát hóa của thuật toán phân loại càng bé
Trong nhiều trường hợp, không thể phân chia các lớp dữ liệu một cách tuyến tính trong một không gian ban đầu được dùng để mô tả một vấn đề Vì vậy, nhiều khi cần phải ánh xạ các điểm dữ liệu trong không gian ban đầu vào một không gian mới nhiều chiều hơn, để việc phân tách chúng trở nên dễ dàng hơn trong không gian mới
Để việc tính toán được hiệu quả, ánh xạ sử dụng trong thuật toán SVM chỉ đòi hỏi tích vô hướng của các vectơ dữ liệu trong không gian mới có thể được tính dễ dàng
từ các tọa độ trong không gian cũ Tích vô hướng này được xác định bằng một hàm
nhân K(x,y) phù hợp [Press W.H et al., 2009] Một siêu phẳng trong không gian
mới được định nghĩa là tập hợp các điểm có tích vô hướng với một vectơ cố định trong không gian đó là một hằng số Vectơ xác định một siêu phẳng sử dụng trong SVM là một tổ hợp tuyến tính của các vectơ dữ liệu luyện tập trong không gian mới với các hệ số Với siêu phẳng lựa chọn như trên, các điểm x trong không gian
đặc trưng được ánh xạ vào một siêu mặt phẳng là các điểm thỏa mãn:
∑ ( ) ( )
Chú ý rằng nếu K(x,y) nhận giá trị ngày càng nhỏ khi y xa dần khỏi x thì mỗi số hạng của tổng trên được dùng để đo độ tương tự giữa x với điểm tương ứng trong
Trang 2121
dữ liệu huấn luyện Như vậy, ý nghĩa của tổng trên chính là so sánh khoảng cách
giữa điểm cần dự đoán với các điểm dữ liệu đã biết Lưu ý là tập hợp các điểm x
được ánh xạ vào một siêu phẳng có thể có độ phức tạp tùy ý trong không gian ban đầu, nên có thể phân tách các tập hợp thậm chí không lồi trong không gian ban đầu
ii Lịch sử
Thuật toán SVM ban đầu được đề xuất bởi Vladimir N Vapnik và dạng chuẩn hiện nay sử dụng lề mềm được đề xuất bởi Vapnik và Corinna Cortes năm 1995 [Cortes C et al., 1995] Ban đầu thuạ t toán SVM chỉ sử dụng cho pha n loại nhị phân, sau đó đu ợc cải tiến sử dụng cho pha n loại đa lớp [Crammer K et al., 2000], [Crammer K et al., 2002]
iii SVM phân loại nhị phân (Binary-classification)
Phân loại thống kê là một nhiệm vụ phổ biến trong học máy Trong mô hình học có giám sát, thuật toán được cho trước một số điểm dữ liệu cùng với nhãn của chúng thuộc một trong hai lớp cho trước Mục tiêu của thuật toán là xác định xem một điểm dữ liệu mới sẽ được thuộc về lớp nào Mỗi điểm dữ liệu được biểu diễn dưới dạng một vector p-chiều, và ta muốn biết liệu có thể chia tách hai lớp dữ liệu bằng một siêu phẳng p − 1 chiều (phân loại tuyến tính) Có nhiều siêu phẳng có thể phân loại được dữ liệu Một lựa chọn hợp lý trong chúng là siêu phẳng có lề lớn nhất giữa hai lớp
Ta có một tập huấn luyện gồm n điểm có dạng
{( ) * +}
với mang giá trị 1 hoặc −1, xác định lớp của điểm Mỗi là một vectơ thực
p-chiều Ta cần tìm siêu phẳng có lề lớn nhất chia tách các điểm có =1 và các điểm có = -1 Mỗi siêu phẳng đều có thể được viết dưới dạng một tập hợp các
điểm x thỏa mãn:
Trang 2222
với ―.‖ kí hiệu cho tích vô hướng và là một vectơ pháp tuyến của siêu phẳng Tham số
‖ ‖ xác định khoảng cách giữa gốc tọa độ và siêu phẳng theo hướng vectơ
pháp tuyến w
Chúng ta cần chọn w và b để cực đại hóa lề, hay khoảng cách giữa hai siêu phẳng
song song ở xa nhau nhất có thể trong khi vẫn phân chia được dữ liệu Các siêu phẳng ấy được xác định bằng:
và
Để ý rằng nếu dữ liệu huấn luyện có thể được chia tách một cách tuyến tính, thì ta
có thể chọn hai siêu phẳng của lề sao cho không có điểm nào ở giữa chúng và sau
đó tăng khoảng cách giữa chúng đến tối đa có thể Bằng hình học, ta tìm được khoảng cách giữa hai siêu phẳng là
‖ ‖ Vì vậy ta muốn cực tiểu hóa giá trị ‖ ‖ Để đảm bảo không có điểm dữ liệu nào trong lề, ta thêm vào các điều kiện sau, với mỗi
i ta có:
hoặc
Có thể viết gọn lại như sau với mọi 1 ≤ i ≤ n:
( ) ( ) Tóm lại, ta có bài toán tối ưu hóa sau:
Cực tiểu hóa (theo w, b}): ‖ ‖
Trang 2323
Với điều kiện (với mọi i = 1, …, n): ( )
Bằng cách thêm các nhân tử Lagrange , bài toán trên trở thành
{ ‖ ‖ ∑ , ( ) -
∑ Chỉ có một vài nhận giá trị lớn hơn 0 Các điểm tương ứng là các vector hỗ trợ nằm trên lề và thỏa mãn ( ) Từ điều kiện này, ta nhận thấy
từ đó ta suy ra được giá trị b Trên thực tế, một cách thức tốt hơn để tính b là tính
giá trị trung bình từ tất cả vectơ hỗ trợ:
∑
Nếu viết điều kiện phân loại dưới dạng đối ngẫu không điều kiện thì sẽ dễ dàng nhận thấy siêu phẳng với lề lớn nhất, và do đó nhiệm vụ phân loại, chỉ phụ thuộc vào các điểm luyện tập nằm trên lề, còn gọi là các vectơ hỗ trợ
Trang 24
với điều kiện (với mọi i = 1, …, n)
và điều kiện sau ứng với việc cực tiểu hóa theo b
Ở đây hàm hạt nhân được định nghĩa là ( )
Sau khi giải xong, có thể tính w từ các giá trị tìm được như sau:
∑ Năm 1995, Corinna C et al đề xuất một ý tưởng mới cho phép thuật toán gán nhãn sai cho một số mẫu huấn luyện Nếu không tồn tại siêu phẳng nào phân tách được hai lớp dữ liệu, thì thuật toán lề mềm sẽ chọn một siêu phẳng phân tách các ví dụ luyện tập tốt nhất có thể, và đồng thời cực đại hóa khoảng cách giữa siêu phẳng với các ví dụ được gán đúng nhãn Phương pháp này sử dụng các biến bù , dùng để đo
độ sai lệch của ví dụ
( ) ( )
Trang 2525
Hàm mục tiêu có thêm một số hạng mới để phạt khi khác không, và bài toán tối
ưu hóa trở thành việc trao đổi giữa lề lớn và mức phạt nhỏ Nếu hàm phạt là tuyến tính thì bài toán trở thành:
{ ‖ ‖ ∑
}
với điều kiện (với mọi i=1, …,n)
-} ∑ với ,
Còn dạng đối ngẫu của trường hợp lề mềm là:
Cực đại hóa (theo )
với điều kiện (với mọi i = 1, …, n)
và
∑
Trang 26
26
Ưu điểm của việc dùng hàm phạt tuyến tính là các biến bù biến mất khỏi bài toán
đối ngẫu, và hằng số C chỉ xuất hiện dưới dạng một chặn trên cho các nhân tử
Lagrange Cách đặt vấn đề trên đã mang lại nhiều thành quả trong thực tiễn, và Cortes và Vapnik đã nhận được giải Paris Kanellakis của ACM năm 2008 cho đóng góp này Các hàm phạt phi tuyến cũng được sử dụng, đặc biệt là để giảm ảnh hưởng của các trường hợp ngoại lệ, tuy nhiên nếu không lựa chọn hàm phạt cẩn thận thì bài toán trở thành không lồi, và việc tìm lời giải tối ưu toàn cục thường là rất khó
iv SVM phân loại đa lớp
Với ý tưởng xuyên suốt là biến bài toán phân loại n-lớp thành n bài toán phân loại hai lớp Sau đó đánh giá khả năng thuộc và không thuộc của từng lớp để quyết định lớp mà mẫu đó thuộc về Crammer K et al đã đề xuất một phương pháp để giải quyết bài toán đa lớp bằng cách hình thành bài toán gốc sau:
* +* + ∑‖ ‖ ∑
( )
với C > 0 là tham số, là vector trọng số liên kết với lớp m, và nếu nếu Chú ý rằng, trong (3), ràng buộc ứng với tương ứng với ràng buộc không âm Hàm quyết định là
( ) Bài toán đối ngẫu của (3), được phát triển trong [Crammer K et al., 2000], [Crammer K et al.,2002] yêu cầu một vector có các biến đối ngẫu Vector được định nghĩa qua vector như sau:
( ) ∑ ( )
Trang 2727
Ở các phần được trình bày sau đây, Crammer K et al đơn giản sẽ chỉ viết thay cho ( ) Với nếu , nếu Bài toán đối ngẫu trở thành:
( ) ∑‖ ( )‖ ∑ ∑
( ∑ ) ( )
c Phương thức dựa vào các kỹ thuật mức khái niệm
Phân tích cảm xúc dựa vào các kỹ thuật mức khái niệm tập trung vào phân tích cảm xúc của văn bản qua việc sử dụng các web ontology và các mạng ngữ nghĩa, cho phép tập hợp thông tin về tình cảm và khái niệm liên quan đến các cảm xúc Bằng cách dựa trên các mạng ngữ nghĩa lớn, phân tích cảm xúc mức khái niệm sẽ qua từng bước từ không có thông tin gì về việc sử dụng từ khoá
Các nhà khoa học giới thiệu các cơ chế để phân tích cảm xúc dựa vào các kỹ thuật mức khái niệm, để khai thác các cơ sở tri thức về cảm xúc chung, ví dụ như SenticNet, và / hoặc Linked Data and Semantic Web ontology, ví dụ như DBPedia,
để thực hiện phân tích cảm xúc trên nhiều miền Mục đích là để đi xa hơn một phân tích mức từ và cung cấp các công cụ và kỹ thuật mức khái niệm cùng các kỹ thuật cho phép mà cho phép một lối đi hiệu quả hơn từ ngôn tự nhiên (phi cấu trúc) đến
dữ liệu có thể xử lý bằng mày (có cấu trúc)
Trang 2828
Chương II Học chuyển đổi
Giả thiết cơ bản xuyên suốt trong nhiều thuật toán học máy và khai phá dữ liệu truyền thống là dữ liệu huấn luyện và dữ liệu kiểm tra phải được biểu diễn trong cùng không gian đặc trưng, được lấy trong cùng một miền và có cùng phân phối xác suất Tuy nhiên, trong nhiều ứng dụng thực tế, giả thiết này có thể không được thoả mãn Cho ví dụ, đôi khi có một nhiệm vụ phân loại trong một miền, như là ―tin thể thao‖, nhưng chúng ta chỉ có dữ liệu huấn luyện phù hợp với một miền sở thích khác, như là ―bài báo khoa học‖, tức là dữ liệu sau này có thể rơi vào một không gian đặc trưng khác hoặc có một phân phối dữ liệu khác Trong những trường hợp này, nếu chuyển đổi tri thức thành công thì sẽ cải thiện cực nhiều hiệu năng của việc học và cũng giảm rất nhiều chi phí để đánh nhãn Những năm gần đây, học chuyển đổi nổi lên như là một cách thức học mới để học chuyển đổi tri thức Luận văn này chỉ quan tâm đến phân loại và tìm hiểu trạng thái hiện tại của các loại học chuyển đổi cho phân loại, hồi quy và phân cụm Trong luận văn chúng tôi bàn đến mối quan hệ giữa học chuyển đổi và các kỹ thuật học máy khác như là biến đổi miền học, học đa nhiệm vụ, và lựa chọn mẫu
1 Lịch sử của học chuyển đổi
Khai phá dữ liệu truyền thống và các thuật toán học máy tạo các dự đoán cho các
dữ liệu tương lai bằng cách sử dụng các mô hình đã được huấn luyện trước đó trên các dữ liệu huấn luyện có hoặc không có nhãn [Yin X, et al., 2006], [Kuncheva L.I
et al., 2007] Phân loại bán giám sát [Zhu X, 2006], [Nigam K et al., 2000], [Blum A et al., 1998], [Joachims T, 1999] giải quyết bài toán mà dữ liệu được gắn nhãn quá ít để xây dựng một bộ phân loại tốt, bằng cách sử dụng thêm một lượng lớn dữ liệu không có nhãn Rất nhiều thuật toán học giám sát và bán giám sát cho các tập dữ liệu không hoàn hảo được nghiên cứu; cho ví dụ, Zhu và Wu, [Zhu.X et al., 2006] đã nghiên cứu cách giải quyết bài toán có dữ liệu có nhãn bị nhiễu Yang
và cộng sự xem xét thuật toán học dễ dàng thay đổi chi phí [Yang Q et al., 2006] khi các tập test truyền thống có thể tạo ra các mẫu tương lai Tuy nhiên, hầu hết chúng giả sử rằng miền, phân phối, tập đặc trưng biểu diễn dữ liệu, và nhiệm vụ của tập dữ liệu có và không có nhãn là giống nhau Học chuyển đổi, ngược lại, cho phép
Trang 2929
các miền, tập đặc trưng, nhiệm vụ và phân phối được sử dụng trong tập huấn luyện
và tập kiểm tra là khác nhau Trong thế giới thực, chúng ta thu được rất nhiều ví dụ của học chuyển đổi Cho ví dụ, chúng ta có thể thấy rằng việc học về quả táo có thể
có ích trong việc học quả lê Tương tự, học để dùng đàn organ điện tử có thể giúp việc học đàn piano dễ dàng hơn Nghiên cứu học chuyển đổi có động lực từ thực tế rằng con người có thể áp dụng các tri thức đã được học trước đây để giải quyết các vấn đề mới nhanh hơn hoặc tốt hơn Động lực cơ bản trong lĩnh vực học máy đã được bàn bạc trong hội thảo NIPS-95 đó là tập trung vào sự cần thiết cho sự lâu dài của các phương thức học máy tức là giữ lại và tái sử dụng các tri thức đã tồn tại và được học trước đây
Hình 1: Sự khác nhau của các tiến trình học (a) học máy truyền thống (b) học
chuyển đổi
Nghiên cứu học chuyển đổi đã thu hút được nhiều chú ý từ những năm 1995 trong nhiều cái tên khác nhau: học để học (learning to learn), học lâu dài (life-long learning), chuyển đổi tri thức (knowledge transfer), chuyển đổi quy nạp (inductive transfer), học đa nhiệm vụ (multitask learning), sự củng cố tri thức (knowledge consolidation), học các ngữ cảnh dễ bị thay đổi (context-sensitive learning), quy
Trang 3030
nạp dựa trên tri thức (knowledge-based inductive bias), siêu học (metalearning), học gia tăng/tích luỹ (incremental/cumulative learning) [Thrun S et al., 1998] Trong số này, một kỹ thuật học liên quan nhất đến học chuyển đổi là học đa nhiệm vụ [Caruana R, 1997], nó cố gắng học nhiều nhiệm vụ đồng thời ngay cả khi các nhiệm vụ này là khác nhau Một cách tiếp cận cho học đa nhiệm vụ là khám phá ra các đặc trưng (ẩn) thông thường mà có thể đóng góp cho mỗi nhiệm vụ riêng lẻ Năm 2005, Broad Agency Announcement (BAA) của Defense Advanced Research Projects Agency (DARPA)’s Information Processing Technology Office (IPTO) đã đưa ra một nhiệm vụ của học chuyển đổi đó là: khả năng một hệ thống nhận biết, áp dụng tri thức và các kỹ năng đã được học trong các nhiệm vụ trước đó thành một nhiệm vụ mới Trong định nghĩa này, học chuyển đổi hướng tới việc phân tách tri thức từ một và nhiều nhiệm vụ gốc và áp dụng tri thức vào 1 miền đích Trái ngược với học đa nhiệm vụ, sẽ không học các nhiệm vụ gốc và nhiệm vụ đích đồng thời,
mà học chuyển đổi hầu như chỉ quan tâm đến nhiệm vụ đích Độ quan trọng của miền đích và miền nguồn là không đối xứng trong học chuyển đổi
Hình 1 thể hiện sự khác nhau giữa các kỹ thuật học truyền thống và các kỹ thuật học chuyển đổi Như là chúng ta có thể thấy, các kỹ thuật học truyền thống cố gắng học mỗi nhiệm vụ từ đầu, trong khi học chuyển đổi cố gắng chuyển đổi tri thức từ các nhiệm vụ trước đó đến nhiệm vụ đích khi sau này có một lượng ít dữ liệu huấn luyện tốt
Ngày nay, các phương thức học chuyển đổi xuất hiện rất nhiều nơi, đặc biệt là trong khai phá dữ liệu (cho ví dụ như trong các hội nghị ACM, KDD, IEEE, ICDM và PKDD), học máy (cho ví dụ như trong các hội nghị ICML, NIIPS, ECML, AAAI
và IJCAI) và các ứng dụng của học máy, khai phá dữ liệu (cho ví dụ như trong các hội nghị ACM SIGIR, WWW, và ACL) Trước khi chúng ta phân loại cho học chuyển đổi, chúng ta đầu tiên mô tả các ký hiệu được sử dụng trong phần tiếp theo
Trang 31Trong luận văn này, 1 miền chứa 2 thành phần: một không gian đặc trưng và
một phân phối xác suất biên P(X), ở đây * + Cho ví dụ, nếu nhiệm vụ học của chúng ta là phân loại tài liệu, và mỗi từ là một giá trị nhị phân,
là không gian vector của tất cả các vector của từ, và là thành phần thứ i của
vector tương ứng với các tài liệu, và X là 1 mẫu học cụ thể Nói chung, nếu 2 miền
là khác nhau, thì chúng có thể có không gian đặc trưng khác nhau hoặc có các phân phối xác suất biên khác nhau
Cho miền xác định * ( )+, một nhiệm vụ * ( )+ chứa 2 thành phần: một không gian nhãn và một hàm dự đoán f(.), và không thể tạo được bộ học phù hợp nhưng có thể được học từ các bộ học đã tồn tại chứa các cặp * +, ở đây và Hàm f(.) có thể được sử dụng để dự đoán nhãn tương ứng, f(x), của mẫu mới x Từ quan điểm xác suất, f(x) có thể được viết thành P(y|x)
Trong ví dụ phân loại tài liệu trên, là tập tất cả các nhãn, và là True, False cho nhiệm vụ phân loại nhị phân, và là ―True‖ hoặc ―False‖
Để đơn giản, trong luận văn này, chúng tôi chỉ xem xét trường hợp chỉ có một miền nguồn , và một miền đích , điều này cũng được dùng trong hầu hết các nghiên cứu Đặc tả hơn, chúng ta ký hiệu dữ liệu miền nguồn như là {( ) /}, ở đây là dữ liệu mẫu và tương ứng là nhãn lớp của mẫu Trong ví dụ phân loại tài liệu trên, có thể là một tập các vector với nhãn lớp của nó Tương tự , chúng ta ký hiệu dữ liệu thuộc miền
Trang 3232
đích như sau {( ) /}, ở đây và là đầu
ra tương ứng Trong hầu hết các trương hợp 0 ≤
Bây gời chúng tôi đưa ra một định nghĩa thống nhất về học chuyển đổi
Định nghĩa 1 (Học chuyển đổi): Với miền nguồn với nhiệm vụ học , và miền đích với nhiệm vụ học , học chuyển đổi hướng đến việc tăng khả năng học của hàm dự đoán ( ) đích trong sử dụng tri thức trong và , ở đây hoặc
Trong định nghĩa trên, một miền là cặp * ( )+ Do đó, điều kiện nghĩa là hoặc hoặc ( ) ( ) Cho ví dụ, trong ví dụ phân loại tài liệu, điều này có nghĩa là giữa tập tài liệu nguồn và tập tài liệu đích, hoặc các từ đặc trưng là khác nhau giữa 2 tập (tức là, chúng sử dụng các ngôn ngữ khác nhau) hoặc phân phối biên của chúng khác nhau
Tương tự, một nhiệm vụ được định nghĩa như là một cặp * ( )+ Tương ứng, điều kiện nghĩa là hoặc hoặc ( ) ( ) Khi miền nguồn và miền đích giống nhau, nghĩa là , và các nhiệm vụ học của chúng giống nhau, nghĩa là , bài toán học trở thành một bài toán học máy truyền thống Khi các miền khác nhau thì hoặc là 1) không gian đặc trưng giữa các miền khác nhau , hoặc 2) không gian đặc trưng giữa các miền giống nhau nhưng phân phối xác suất biên giữa dữ liệu các miền là khác nhau, nghĩa là, ( ) ( ), ở đây và Như là ví dụ phân loại tài liệu trên, trường hợp 1 tương ứng là khi 2 tập tài liệu được biểu diễn trong các ngôn ngữ khác nhau, trường hợp 2 tương ứng khi các tài liệu miền nguồn và các tài liệu miền đích tập trung vào các chủ đề khác nhau
Cho các miền xác định và , khi nhiệm vụ học và khác nhau, thì hoặc là 1) không gian nhãn giữa các miền là khác nhau, tức là, , hoặc là 2) phân
Trang 3333
phối xác suất điều kiện giữa các miền khác nhau, tức là, ( ) ( ), ở đây, và Trong ví dụ phân loại trên, trường hợp 1 tương ứng vị trí nơi mà miền nguồn là phân loại nhị phân, miền đích là phân loại tài liệu với 10 lớp Trường hợp 2 vị trí tương ứng của các tài liệu nguồn và đích là không giống nhau Nói chung, khi có tồn tại một số quan hệ, rõ ràng hoặc ẩn, giữa các không gian đặc trưng của 2 miền, chúng ta nói rằng các miền nguồn và đích có liên quan
3 Phân loại các kỹ thuật học chuyển đổi
Trong học chuyển đổi, chúng ta có 3 vấn đề nghiên cứu chính sau:
1) chuyển đổi gì,
2) chuyển đổi như thế nào,
3) chuyển đổi khi nào
Phương pháp học Miền nguồn và đích Các nhiệm vụ nguồn
và đích
Học chuyển đổi
học chuyển đổi qui nạp giống nhau
khác nhau nhưng có liên quan
Học chuyển đổi chuyển nạp
Khác nhau nhưng có liên quan
Khác nhau nhưng có liên quan
Học chuyển đổi không giám sát
Khác nhau nhưng có
Bảng 1: Mối quan hệ giữa học máy truyền thống các loại học chuyển đổi
Trang 3434
―Chuyển đổi gì‖ đó là một phần của tri thức có thể được chuyển đổi giữa các miền
và các nhiệm vụ Một số tri thức là xác định với các miền hoặc nhiệm vụ riêng lẻ,
và một số tri thức có thể là chung giữa các miền, do đó chúng có thể giúp tăng cường hiệu năng cho miền hoặc nhiệm vụ đích Sau khi khám phá tri thức có thể được chuyển đổi, thì các thuật toán học có cần được phát triển để chuyển đổi tri
thức tương ứng với vấn đề ―chuyển đổi như thế nào‖
Học chuyển đổi Các lĩnh vực
liên quan
Dữ liệu có nhãn miền nguồn
Dữ liệu có nhãn miền đích
chuyển nạp
Điều chỉnh
Hồi quy, phân loại
Học chuyển đổi
Phân cụm, giảm chiều Bảng 2: Sự khác nhau của các loại học chuyển đổi
―Chuyển đổi khi nào‖ trong một số trường hợp, các kĩ năng chuyển đổi cần được
thực hiện Cũng giống như thế, chúng ta muốn biết trường hợp, tri thức không cần phải thực chuyển đổi Trong một số hoàn cảnh, khi miền nguồn và miền đích không liên quan đến nhau, chuyển đổi tham lam có thể không thành công Trong trường hợp tồi nhất, nó có thể làm giảm hiệu năng của việc học trong miền đích, đó là 1 trường hợp thường được tham chiếu như là chuyển đổi tiêu cực Hầu hết công việc
Trang 3535
hiện tại về học chuyển đổi tập trung vào ―chuyển đổi gì‖ và ―chuyển đổi như thế
nào‖, bằng cách giả sử rằng miền nguồn và đích liên quan đến nhau Tuy nhiên làm thế nào để tránh được chuyển đổi tiêu cực là một vấn đề mở quan trọng đã thu hút
ngày càng nhiều sự quan tâm
Dựa trên định nghĩa học chuyển đổi, chúng tôi tổng hợp mối quan hệ giữa học máy truyền thống và các loại học chuyển đổi trong bảng 1 Ở đây tôi phân loại học
chuyển đổi thành 3 loại, học chuyển đổi qui nạp, học chuyển đổi chuyển nạp, và học chuyển đổi không giám sát, dựa trên các tình huống khác nhau giữa dữ liệu miền
đích, dữ liệu miền nguồn và nhiệm vụ miền đích, nhiệm vụ miền nguồn Trong học chuyển đổi qui nạp, nhiệm vụ đích khác với nhiệm vụ nguồn, trong khi miền đích
và nguồn có thể giống hoặc khác nhau
Trong trường hợp này, một số dữ liệu có nhãn trong miền đích được yêu cầu để qui nạp một mô hình dự đoán ( ) để sử dụng trong miền đích Ngoài ra, theo các hoàn cảnh khác nhau của dữ liệu có và không có nhãn trong miền nguồn, chúng ta có thể phân loại xa hơn học chuyển đổi qui nạp thành 2 trường hợp sau:
a Nhiều dữ liệu có nhãn trong miền nguồn sẵn sàng Trong trường hợp này, học chuyển đổi qui nạp là tương tự với học đa nhiệm vụ Tuy nhiên, học chuyển đổi qui nạp chỉ hướng đến đạt được hiệu năng cao trong nhiệm vụ đích trong khi học đa nhiệm vụ cố gắng học nhiệm vụ nguồn và đích đồng thời
b Không có dữ liệu có nhãn trong miền nguồn sẵn sàng Trong trường hợp này, học chuyển đổi qui nạp tương tự như tự học, mà được đề xuất lần đầu bởi Raina và cộng sự [Raina R et al., 2007] Trong tự học, không gian nhãn giữa miền đích và miền nguồn có thể khác nhau, tức là về mặt thông tin miền nguồn có thể không được sử dụng trực
Trang 36a Các không gian đặc trưng giữa miền nguồn và đích là khác nhau,
b Các không gian đặc trưng giữa các miền là giống nhau, , nhưng phân phối xác suất biên của dữ liệu đầu vào là khác nhau,
Các trường hợp gần đây của học chuyển đổi chuyển nạp liên quan đến
sự điều chỉnh miền để chuyển đổi tri thức trong phân loại văn bản [Daume III H et al., 2006] và lựa chọn mẫu [Zadrozny B, 2004], mà các giả sử của chúng là tương tự
3 Cuối cùng, trong học chuyển đổi không giám sát, tương tự học chuyển đổi qui nạp, nhiệm vụ đích là khác với nhiệm vụ nguồn nhưng có liên quan đến nhau Tuy nhiên, học chuyển đổi không giám sát tập trung giải quyết các nhiệm vụ học không giám sát trong miền đích, như là phân cụm, giảm chiều,
và tối ưu mật độ [Dai W et al., 2008], [Wang Z et al., 2008] Trong trường hợp này, không có dữ liệu có nhãn trong cả hai miền nguồn và đích
Mối quan hệ giữa các loại học chuyển đổi và các lĩnh vực liên quan được tổng hợp trong bảng 2 và hình 2
Trang 3737
Hình 2: Tổng quan về sự khác biệt của các loại học chuyển đổi
Dựa vào định nghĩa, chúng ta có thể phân loại học chuyển đổi ra thành ba loại như
đã trình bày ở trên Nhưng nếu để trả lời cho câu hỏi ―Chuyển đổi gì‖ thì chúng ta
có thể phân loại thành bốn loại như sau:
Chuyển đổi mẫu
Chuyển đổi các đặc trưng
Chuyển đổi tham số
Chuyển đổi tri thức quan hệ
Bảng 3 thể hiện 4 trường hợp và mô tả ngắn gọn
Trường hợp đầu tiên có thể được tham chiếu đến như là phương pháp học chuyển đổi dựa trên mẫu (hay còn gọi là chuyển đổi mẫu) [Dai W et al., 2007, [Jiang J et al., 2007], [Zadrozny B, 2004] với giả sử rằng một phần dữ liệu trong miền nguồn
Trang 3838
có thể được sử dụng lại để học trong miền đích bằng cách đánh lại trọng số Đánh lại trọng số mẫu và lấy mẫu quan trọng là hai kỹ thuật chính trong ngữ cảnh này Học chuyển đổi Mô tả ngắn
Chuyển đổi
tham số
Khai phá các tham số dùng chung hoặc các tiền nghiệm giữa các mô hình của miền nguồn và miền đích, mà có thể đóng góp cho học chuyển đổi [Lawrence N.D et al., 2004], [Bonilla E, 2008] , [Evgeniou T et al., 2004]
Chuyển đổi tri
thức quan hệ
Xây dựng ánh xạ của tri thức quan hệ giữa miền nguồn và miền đích Các miền liên quan đến nhau và giả thiết được làm nới lỏng trong mỗi miền [Mihalkova L et al., 2007], [Mihalkova L et al., 2008], [Davis J et al., 2008]
Bảng 3: Các phương pháp khác nhau để học chuyển đổi Trường hợp thứ 2 có thể được tham chiếu như là phương pháp chuyển đổi cách biểu diễn đặc trưng [Raina R et al., 2007], [Blitzer J et al., 2007] Ý tưởng ẩn sau trường hợp này là để học một cách biểu diễn tốt đối với miền đích Trong trường hợp này, tri thức được sử dụng để chuyển đổi qua các miền được biểu diễn lại vào trong cách biểu diễn mới được học Với cách biểu diễn mới, hiệu năng của nhiệm
vụ đích được kỳ vọng cải thiện đáng kể