Tuy nhiên để gán nhãn cho các dữ liệu chưa có phụ thuộc vào việc các mẫu đã được gánnhãn được xác định trước, bỏ qua sai lệnh lấy mẫu giữa các tập hợp con khôngđược gán nhãn và gán nhãn
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC
Vũ Việt Anh 20160258 Toán Tin K61
Ngô Xuân Lộc 20162552 Toán Tin K61
Phạm Văn Lộc 20162557 Toán Tin K61
Nông Cao Thiên 20164940 CN - Điện tử 1 - K61
Bùi Anh Tuấn 20164315 Toán Tin K61
Trang 2Song luyện
Trang 3Lời cảm ơn
Trước hết, chúng em xin chân thành cảm ơn T.s Lê Chí Ngọc đã trực tiếphướng dẫn chúng em môn học "Hệ hỗ trợ quyết định" kì học 20192, một kì họcđầy khó khăn và đáng nhớ Thầy luôn chỉ bảo tận tình, cung cấp kiến thức vàđưa những lời khuyên quý giá trong quá trình học tập để chúng em có thể hoànthành môn học này nói chung và bài báo cái này nói riêng
Để có thể hoàn thành bài báo cáo này, chúng em có tham khảo những tàiliệu, thông tin từ thầy giáo để chúng em có thể tìm hiểu và nghiên cứu Mặc dù
cả nhóm đã có nhiều cố gắng tìm hiểu chủ để này, nhưng do thời gian, kiến thức
và kinh nghiệm còn nhiều hạn chế nên bài báo cáo không thể tránh khỏi nhữngthiếu sót trong kiến thức và trình bày Nhóm em mong nhận được sự đóng góp
ý kiến của thầy để có thể hoàn thiện tốt hơn
Chúng em xin chân thành cảm ơn!
2
Trang 4Song luyện MỤC LỤC
Mục lục
2.1 Thuật toán song luyện 10
Chương 3 Giả thuyết của song luyện 12 3.1 Giả thuyết của song luyện 12
Chương 4 Đa luyện 15 4.1 Hàm Loss 16
4.2 Empirical Risk (rủi ro thực nghiệm) 16
4.3 Regularized Risk (rủi ro chính quy) 17
4.4 Hồi quy tuyến tính 2 chiều 20
4.5 Giả định nhiều chiều 21
Trang 5Lời nói đầu
Co-Training hay song luyện (Blum & Mitchell,1998) là một trong nhữngthuật toán cơ bản thuộc nhóm học bán giám sát Song luyện đề gán nhãn các dữliệu chưa có nhãn, dựa vào các nhãn đã gán trên các dữ liệu có trước Tuy nhiên
để gán nhãn cho các dữ liệu chưa có phụ thuộc vào việc các mẫu đã được gánnhãn được xác định trước, bỏ qua sai lệnh lấy mẫu giữa các tập hợp con khôngđược gán nhãn và gán nhãn trong không gian dữ liệu
Trong bài báo cáo này, nhóm em xin được trình bày chủ đề theo 4 chươngnhắm giới thiệu chung, thuật toán và tính chất của thuật toán, cụ thể nội dungtừng chương như sau :
• Chương 1: Hai góc nhìn
• Chương 2: Song luyện
• Chương 3: Giả thuyết của song luyện
• Chương 4: Đa luyện
4
Trang 6Chương 1
Hai góc nhìn
Xem xét nhiệm vụ học tập có giám sát của phân loại thực thể trong xử lýngôn ngữ tự nhiên, mỗi một thực thể đều được đặt tên là một tên thích hợp vớichúng , chẳng hạn như "bang Washington" hay "Mr Washington" Mỗi thực thểđược đặt tên theo những cách, tùy thuộc vào những gì nó được đề cập đến Đểđơn giản, chúng ta giả sử chỉ có hai lớp: người hoặc địa điểm Mục tiêu củaphân loại thực thể được đặt tên là gán nhãn chính xác cho từng thực thể Ví dụ:địa điểm cho " bang Washington " và người đối với "Mr Washington" Phân
loại thực thể được đặt tên rõ ràng là một vấn đề,như để dự đoán lớp y từ các tính năng của x Trọng tâm của chúng ta là không tập trung vào các chi tiết của các
phân loại được giám sát dựa hoạt động trên các chuỗi (về cơ bản, nó liên quanđến một số hình thức khớp chuỗi một phần Các chi tiết có thể được tìm thấytrong các ghi chú thư mục) Thay vào đó, chúng tôi tập trung vào phân loại thựcthể được đặt tên như một nhiệm vụ, ví dụ liên quan đến các trường hợp có cấutrúc đặc biệt cho phép bán giám sát tốt học tập
5
Trang 7Song luyện CHƯƠNG 1 HAI GÓC NHÌN
Một thực thể được đặt tên có thể được biểu diễn bằng hai bộ tính năng riêngbiệt Thứ nhất là tập hợp các từ tạo nên chính thực thể đó Thứ hai là tập hợpcác từ trong ngữ cảnh trong đó thực thể được đặt tên xảy ra Trong các ví dụsau, thực thể được đặt tên nằm trong ngoặc đơn và ngữ cảnh được gạch chân:
Ví dụ 1: có trụ sở tại (Tiểu bang Washington)
Ví dụ 2: ( Ông Washington), Phó chủ tịch Một cách chính thức, mỗi thể hiện thực thể được đặt tên được thể hiện bằng hai
khung nhìn (bộ tính năng): các từ trong chính nó x(1), và các từ trong ngữ cảnh
của nó x(2) Chúng ta ký hiệu x= x(1),x(2)
Như một ví dụ khác về lượt xem, hãy xem xét phân loại trang Web thành các
trang web của sinh viên hoặc khoa Trong thao tác này, chế độ xem đầu tiên x(1)
là các từ trên trang Web được đề cập Khung nhìn thứ hai x(2) có thể là các từtrong tất cả các siêu liên kết trỏ đến trang web
Quay trở lại nhiệm vụ phân loại thực thể được đặt tên, chúng ta hãy giả sửrằng chúng ta chỉ có hai trường hợp được gắn nhãn này trong dữ liệu :
(Rober Jordan), là một đối tác
đã bay tới (Trung quốc)
Trang 8Song luyện CHƯƠNG 1 HAI GÓC NHÌN
Vì các trường hợp sau này không được bao gồm trong hai trường hợp đượcgắn nhãn trong mẫu của chúng ta, nên học được giám sát sẽ không thể phân loạichúng một cách chính xác Có vẻ như một mẫu đào tạo được dán nhãn rất lớn
là cần thiết để bao gồm tất cả các biến thể trong biểu thức vị trí hoặc người
Trang 9Chương 2
Song luyện
Song luyện chỉ ra rằng chúng ta không cần một mẫu đào tạo có nhãn lớncho công việc này Nó là đủ để có một mẫu huấn luyện không nhãn lớn, dễ dànghơn nhiều để có được Chúng ta có các ví dụ không nhãn sau đây:
Ví dụ 3: có trụ sở tại (Kazakhstan)
Ví dụ 4: đã bay tới (Kazakhstan)
Ví dụ 5: (Kazakhstan) là một đối tác của Steptoe và Johnson
Đó là minh họa để kiểm tra các tính năng của các trường hợp được dán nhãn vàkhông nhãn cùng nhau, ta có:
1 Washington State Có trụ sở ở địa điểm
2 Mr.Washington Phó chủ tịch con người
8
Trang 10Song luyện CHƯƠNG 2 SONG LUYỆN
Chúng ta có thể lý giải thông tin qua các bước sau:
1 Từ ví dụ được dán nhãn 1, chúng ta biết rằng, "trụ sở chính đặt tại thànhphố" là một bối cảnh như chỉ ra y = Vị trí
2 Nếu điều này là đúng, chúng ta suy xét rằng, “Kazakhstan” phải là một dịađiểm kể từ khi nó xuất hiện với cùng một bối cảnh, trụ sở chính ở ví dụ 3
3 Vì ví dụ thứ 4 cũng nói về việc “Kazakhstan”, nên nó nói rằng bối cảnhcủa nó đã bay đến “Vị trí”
4 Tại thời điểm này, chúng tôi có thể phân loại các trò chơi của Trung Quốc,
ở Trung Quốc, đã bay đến (Trung Quốc), như một Địa điểm, mặc dù không
có một chuyến bay nào đến các khu vực của Trung Quốc
5 Tương tự, bằng sự tương xứng “Mr.*” trong các ví dụ 2 và 5, chúng tôibiết rằng đối tác của bạn tại Trực tiếp là một bối cảnh cho y = Người Điềunày cho phép chúng tôi phân loại những người khác (Robert Jordan), mộtđối tác tại trực tuyến là Person
Quá trình này có sự tương đồng mạnh mẽ với thuật toán triển khai trongphần 2.5, trong đó một bộ phân được sử dụng các dự đoán tự tin nhất của nó
về các trường hợp không được gắn nhãn Tuy nhiên, có một sự khác biệt quantrọng: chúng ta hoàn toàn sử dụng hai cách phân loại Chúng hoạt động trên cáckhung nhìn khác nhau của một thể hiện: một cái dựa trên chính chuỗi thực thể
được đặt tên x(1) và cái khác dựa trên bối cảnh x(2) Cả hai phân loại lẫn nhau.Một trong hai có thể bình thường hóa quá trình này trong một thuật toán song
Trang 11Song luyện CHƯƠNG 2 SONG LUYỆN
1 Khởi tạo: Giả sử mẫu là L1 = L2 = {(x1,y1) , , (xi,yi)}
2 Lặp lại cho đến khi dữ liệu chưa gắn nhãn được sử dụng hết :
3 Tập phân loại góc nhìn 1 f(1) từ L1 và góc nhìn 2 f(2) từ L2
4 Phân loại dữ liệu chưa gán nhãn còn lại với f(1) và f(2) riêng biệt.
5 Thêmk đáng tin cậy nhất của x, f(1)(x) tới L2
Thêmk đáng tin cậy nhất của x, f(2)(x) tới L1
Bỏ những dữ liệu đó khỏi dữ liệu chưa được gán nhãn.
Chú ýf(1) là phân loại góc nhìn 1: Mặc dù chúng ta gán nó tất cả các đặc điểm
của x, nhưng nó chỉ quan tâm đến góc nhìn thứ nhất x(1) và bỏ qua góc nhìn thứ
hai x(2) f(1) thì cách khác Chúng cung cấp các gía trị dự đoán tin cậy nhấtcủa chúng như là dữ liệu để huấn luyện cho góc nhìn khác Trong quá trình nàynhững dữ liệu chưa gán nhãn cuối cùng cũng sẽ được sử dụng hết
Song luyện là một phương pháp bao phủ Nó có nghĩa là không quan trọng
Trang 12Song luyện CHƯƠNG 2 SONG LUYỆN
thuật toán là gì cho phân loạif(1) và f(2) Yêu cầu duy nhất là cách phân loại
có thể tạo ra được giá trị tin cậy với cách dự đoán của chúng Giá trị phân loạiđược sử dụng để chọn các trường hợp chưa gán nhãn để thêm vào dữ liệu huấnluyện cho các góc nhìn khác Nó có thể sử dụng cho nhiều ứng dụng khác nhau
Trang 13Chương 3
Giả thuyết của song luyện
Song luyện tạo ra vài giả định Hiển nhiên nhất là sự tồn tại của 2 góc nhìn
riêng biệt x = x(1),x(2) Với môt vài yêu cầu, đặc trưng của nó có thể không
tự nhiên chia ra thành 2 góc nhìn khác nhau Để áp dụng song luyện trong trườnghợp này, người ta có thể chia ngẫu nhiên đặc trưng thành hai góc nhìn ảo Giả
sử có hai góc nhìn, kết quả của song luyện phụ thuộc vào hai giả định dưới đây:
3.1 Giả thuyết của song luyện
1 Mỗi góc nhìn riêng là đủ để tạo ra các phân loại tốt, dựa vào đủ các dữ liệu
đã được gán nhãn
2 Hai góc nhìn có điều kiện độc lập cho bởi lớp nhãn
12
Trang 14Song luyện CHƯƠNG 3 GIẢ THUYẾT CỦA SONG LUYỆN
Giả định thứ nhất là dễ hiểu Nó không chỉ yêu cầu hai góc nhìn mà hai gócnhìn đó còn phải đủ tốt Giả định thứ hai đặc trưng hơn Biểu diễn dưới đây:
nghĩa là x(1) thuộc Washington State, Kazakhastan„ China Tấn số của việc
quan sát các thực thể đã được gán từ y được mô tả bởi P x(1)|y Những thựcthể đã được gán kết hợp với các ngữ ngữ cảnh khác nhau Thử chọn một ngữ
cảnh cụ thể, x(2) = “Headquartered in”, và xem xét các ví dụ với ngữ cảnh này
và y = Location Nếu điều kiện độc lập tồn tại trong những ví dụ đó ta sẽ tìm lạitất cả các thực thể đã được gán Washington State, Kazakhastan„ China với
đúng tần số bởi P x(1)|y Nói cách khác, ngữ cảnh “headquartered in” khônghứa hẹn một vị trí cụ thể
Tại sao giả định điều kiện độc lập quan trọng với song luyện? Nếu sự phânloại f(1) quyết định ngữ cảnh “headquarteredin” chỉ ra Location với độ tin cậycao, Co-training sẽ thêm ví dụ chưa được gán với ngữ cảnh đó như các ví dụcủa góc nhìn 1 Những ví dụ huấn luyện mới đó chof(1) se bao gồm tất cả thựcthể biểu diễn V đã được gán, nhờ vào giả định điều kiện độc lập Nếu giả định
Trang 15Song luyện CHƯƠNG 3 GIẢ THUYẾT CỦA SONG LUYỆN
không tồn tại, những ví dụ mới rất có thể giống nhau, vì thế sẽ ít thông tin hơncho góc nhìn phân loạif(1) Nó có thể được biểu diễn rằng nếu hai giả định tồntại, song luyện có thể huấn luyện thành công từ các dự liệu đã được đánh dấu vàchưa đánh dấu Tuy nhiên, thật khó để tim ra yêu cầu trong việc huấn luyện màhoàn toàn phù hợp với giả định điều kiện độc lập Khi giả định điều kiện độclập bị vi phạm, hiệu suất của song luyện sẽ không tốt
Có một vài biến thể của song luyện Thật toán song luyện gốc chọn k ví dụ
chưa đánh dấu có độ tin cậy cao nhất trong mỗi góc nhìn, và tăng chúng tănglên với các ví dụ đã dự đoán Ngược lại, thuật toán Co-EM lại ít tuyệt đối hơn
Co-EM duy trì mô hình xác suất P y|x(v); θ(v) cho góc nhìn v = 1,2 Với mỗi
ví dụ chưa đánh dấu x = x(1),x(2), góc nhìn 1 chia nó thành 2 bản sao với cácnhãn ngược lại và trọng số phân số(x, y = 1) với trọng số P y = l|x(1); θ(1)
Trang 16Chương 4
Đa luyện
Cuối cùng Co-Training có ý nghĩa là cho 2 cách phân lớp f(1) và f(2), để cùngđoán nhãn của một tập dữ liệu Nhưng không có nhiều yếu tố để có thể gán nhãn
dữ liệu mà chỉ dựa trên yếu tố 2 chiều Nên ở đây, giả sử không gian về yếu tố
dự đoán là bé Nếu yếu tố được đề cử xem xét trong không gian nhỏ đó phù hợpnhững dữ liệu đã có nhãn, thì khả năng thấp là chúng sẽ bị overfit, và có thểđược chấp nhận như là một yếu tố tốt dùng cho dự đoán Ở phần này, ta sẽ bàn
về những thuật toán mà thực hiện rõ ràng về giả thuyết giống nhau, mà khôngyêu cầu phải chia rõ ra những feature hoặc thuật toán lặp đi lặp lại việc dạy lẫnnhau Để hiểu về những thuật toán này, ta cần hiểu về mô hình giảm thiểu rủi rocho máy học
Thường thì ta sử dụng một hàm mất mát loss function nào đó, để hiển thị độ
sai số các lỗi dự đoán:
15
Trang 17Song luyện CHƯƠNG 4 ĐA LUYỆN
4.1 Hàm Loss
Định nghĩa hàm loss: giả sử x ∈ X là những instance của dữ liệu, y ∈ Y là
nhãn đúng của instance, và f (x) là hàm dự đoán Hàm Loss c(x, y, f (x)) ∈[0, ∞), là hàm đo độ sai lệch của dự đoán
Chẳng hạn ta định nghĩa hàm c(x, y, f (x)) = (y − f (x))2, hoặc trong bàitoán phân lớp ta định nghĩa hàm loss kiểu 0/1 như c(x, y, f (x)) = 1 nếuy 6=
f (x) Trong dự đoan về sức khỏe người ta dùng hàmc(x, y = healthy, f (x) =
diseased) = 1vàc(x, y = diseased, f (x) = healthy) =100 Giá trị hàm loss
có thể bị phụ thuộc vào đối tượng x, ví dụ như là dùng hàm loss thì giá trị hàmtrên trẻ con có thể cao hơn so với người lớn
4.2 Empirical Risk (rủi ro thực nghiệm)
Khái niệm: là trung bình cộng của sai số phát sinh gây ra bởi dự đoánf trên tập
dữ liệu có nhãn:R =ˆ 1
lΣ
l i=1c(xi, yi, f (xi))
Áp dụng quy tắc giảm để giảm thiểu sai số (ERM), đó là tìm:
Trang 18Song luyện CHƯƠNG 4 ĐA LUYỆN
nhất thiết phải có trong yếu tố phân loại củaF Một phương thức khác để xử lý
sai số thực nghiệm là hàm chính quyΩ(f ) Hàm chính quy là một hàm không
âm, lấy hàm dự đoán làm tham số và trả về một giá trị không âm Nếu tập giátrị của f có vẻ "mượt" thì hàm chính quyΩ(f ) sẽ gần 0 Còn nếu giá trị f rải rác
không "mượt", ví dụ như dự đoánf bị overfit, thì giá trị của hàmΩ(f )sẽ lớn
4.3 Regularized Risk (rủi ro chính quy)
Khái niệm: là tổng trọng số của rủi ro thực nghiệm và thường xuyên, với trọng
số λ > 0 : ˆR(f ) + λΩ(f ) Mục đích của việc tối ưu hàm rủi ro chính quy là
tìmf sao cho tối ưu được rủi ro chính quy
f∗ = argminf ∈FR(f ) + λΩ(f ).ˆ (4.3)
Hiệu quả của việc giảm thiểu tối đa rủi ro chính quy phụ thuộc vào hàm
Ω(f ) Những hàm Ω khác nhau bao hàm các giả định khác nhau Ví dụ, một
hàm chính quy hay được sử dụng chof (x) = wTxlà hàmΩ(f ) = ||w||2 Hàmnày trừng phạt nặng vào bình phương khoảng cách với tham số w Nó rất hữu
dụng vì coi f là một điểm theo hệ tọa độ với tham số là w Triển khai (4.3):
Trang 19Song luyện CHƯƠNG 4 ĐA LUYỆN
min ˆR(f )với điều kiện Ω(f ) ≤ s
với s được định nghĩa bởi λ Mọi thứ trở nên rõ ràng khi điều kiện của hàm
chính quy ràng buộc bán kính của của cầu trong không gian tham số Ở trongcủa cầu đó, hàm f mà fit nhât với tập dữ liệu train sẽ được chọn Điều này kiểmxoát độ phức tạp của f, và chống overfit
Một điều quan trọng trong học bán giám sát, đó là một khi đã định nghĩađược hàm sai sốΩ(f ), ví dụ:
Ω(f ) = ΩSL(f ) + λ0ΩSSL(f ) (4.4)
ΩSL(f )là hàm cho việc học giám sát, và hàm ΩSSL(f ) cho việc học bán giámsát phụ thuộc vào những tập dữ liệu chưa được gán nhãn Khi hàmΩSSL(f )cốfits, sẽ tìm ra đượcf ∗tốt hơn nếu chỉ dùng hàm ΩSL(f )
Giả sử thuật toán có liên quan đến k nhân tố học Nó khả thi, nhưng chưachăc là cần thiết Nó là sự khái quát của song luyện với k-luyện, nên được gọi
là đa luyện Và, mỗi nhân tố học trong k-nhân tố, có thể là những phương phápkhác nhau như cây quyết định, neural network, nhưng là lấy cùng nhữngfeature của điểm dữ liệu làm đầu vào Kiểu học này gọi là phương pháp học kếthợp Ở một số trường hợp, mục tiêu là tìm cho k-nhân tố cácf1∗, fk∗ để tối ưuđược hàm rủi ro chính quy sau:
Trang 20Song luyện CHƯƠNG 4 ĐA LUYỆN
Trang 21Song luyện CHƯƠNG 4 ĐA LUYỆN
4.4 Hồi quy tuyến tính 2 chiều.
Đặt mỗi trường hợp 2 chiều là x = x(1),x(2) Xét 2 hàm tuyến tínhf1(x) =
wTx(1) và f2(x) = vTx(2) Đặt hàm bị thiếu là c(x), y, f (x) = (y − f (x))2.Hàm chính quy giám sát là ΩSL(f(1)) = ||w||2, ΩSL(f(2)) = ||v||2 Hình thứcđặc biệt của chính quy hoá, tức là xử lý định mức l2 của tham số, được gọi làhồi quy sườn Vấn đề giảm thiểu rủi ro được chuẩn hoá là:
để trở thành một tập hợp nhỏ của không gian giả thuyết Γ Ngược lại, các giả
thuyết trùng lặp trong ví dụ ngược lại vẫn chiếm hầu như toàn bộ giả thuyếtΓ