Thậm chí, một tài liệu đã được gán nhãn và đặt trong một lớp cụ thể rồi vẫn có thể gây nên hiện tượng chanh chấp do tài liệu này vừa có nội dung phù hợp với lớp đang chứa nó đồng thời lạ
Trang 1Mục lục
Lời cam đoan 1
Lời cảm ơn 2
Tóm tắt nội dung 3
Mục lục 4
Bảng các ký hiệu và chữ viết tắt 6
Danh sách bảng biểu 7
Danh sách hình ảnh 8
Mở đầu 9
CHƯƠNG 1 GIỚI THIỆU CHUNG VỀ PHÂN LỚP ĐA NHÃN VĂN BẢN 11
1.1 Giới thiệu chung 11
1.1.1 Phân lớp văn bản 11
1.1.2 Phân lớp đa nhãn (Multiple Label Class - MLC) 12
1.1.3 Ý nghĩa và ứng dụng 13
1.2 Cách thức phân lớp đa nhãn 14
1.2.1 Phân lớp dựa vào xếp hạng 14
1.2.2 Phân lớp theo cấu trúc phân cấp (Hierarchical structure) 14
1.3 Phương pháp phân lớp đa nhãn 15
1.3.1 Phương pháp chuyển đổi bài toán 15
1.3.2 Phương pháp thích nghi thuật toán 20
Tóm tắt chương 1 22
CHƯƠNG 2 THUẬT TOÁN PHÂN LỚP ĐA NHÃN BAYES 23
2.1 Phân lớp Bayes 23
2.2 Giới thiệu chung về phân lớp đa nhãn Bayes 25
2.3 Phân lớp đa nhãn Bayes dựa trên chuỗi phân lớp 27
2.4 Phân lớp đa nhãn Bayes dựa trên chuỗi phân lớp cải tiến 29
2.5Phân lớp đa nhãn Bayes trực tuyến 33
Tóm tắt chương2 37
Trang 2CHƯƠNG 3 THỰC NGHIỆM VÀ ĐÁNH GIÁ 38
3.1 Môi trường và các công cụ sử dụng thực nghiệm 38
3.2 Dữ liệu thực nghiệm 39
3.2.1 Đặc trưng một tài liệu thực nghiệm 39
3.2.2 Thu thập dữ liệu 41
3.3 Thực nghiệm 44
3.3.1 Phát biểu bài toán 44
3.3.2 Mô hình đề xuất 45
3.3.3 Mô tả cài đặt chương trình 50
3.3.4 Giới thiệu hệ thống 51
3.3.5 Thực nghiệm hệ thống 55
3.3.6 Đánh giá kết quả thực nghiệm 57
Tóm tắt chương 3 59
Kết luận và định hướng phát triển 60
TÀI LIỆU THAM KHẢO 61
PHỤ LỤC 62
Phụ lục I: Kết quả phân lớp chi tiết với thuật toán CC 62
Phụ lục II: Kết quả phân lớp chi tiết với thuật toán ECC 64
Trang 3Bảng các ký hiệu và chữ viết tắt
Ký hiệu viết tắt Viết đầy đủ Giải nghĩa
MLC Multiple Label Class Phân lớp đa nhãn
BM Binary relevance method Phương pháp nhị phân
CM Label Combination Method Phương pháp kết hợp nhãn
ML – kNN Multiple Label k Nearest
Neighbor
Đa nhãn với k người láng giềng gần nhất
SVM Supper Vector Machine Máy vecto hỗ trợ
PCC Probabilitistic Classifier Chain Chuỗi phân lớp xác suất ECC Ensembles Classifier Chain Tập hợp chuỗi phân lớp BOMC
Bayesian online Learning for Multi – label classification framework
Phân lớp đa nhãn Bayes trực tuyến
XML Extensible Markup Language Ngôn ngữ đánh dấu mở rộng
DF Document Frequency Tần suất văn bản
MIPS Munich Information Centre for
Protein Sequences
Trung tâm thông tin ở Munich đối với Protein Sequences
Trang 4Danh sách bảng biểu
Bảng 1.1: Mẫu bộ dữ liệu đa nhãn 16
Bảng 1.2: Dữ liệu được chuyển đổi bằng phương pháp PT1 16
Bảng 1.3: Dữ liệu được chuyển đổi bằng phương pháp PT2 16
Bảng 1.4: Dữ liệu được chuyển đổi bằng phương pháp PT3 17
Bảng 1.5: Dữ liệu được chuyển đổi bằng phương pháp PT5 19
Bảng 1.6: Dữ liệu được chuyển đổi bằng phương pháp PT6 21
Bảng 3.1: Cấu hình hệ thống thử nghiệm 38
Bảng 3.2: Công cụ phần mềm sử dụng 38
Bảng 3.3: Tổ chức các thành phần trong một tài liệu XML 42
Bảng 3.4: Các gói cài đặt phía Client 50
Bảng 3.5: Các gói cài đặt phía Server 51
Bảng 3.6: Ví dụ một tài liệu đầu vào 53
Bảng 3.7: Vector tài liệu đầu vào 54
Bảng 3.8: Thống kê dữ liệu huấn luyện của các lớp 55
Bảng 3.9: Kết quả phân lớp của hệ thống với 5 tài liệu 56
Bảng 3.10: Bảng ký hiệu 57
Bảng 3.11: Kết quả phân loại của hệ thống với CC 59
Bảng 3.12: Kết quả phân loại của hệ thống với ECC 59
Trang 5Danh sách hình ảnh
Hình 1.1: Bốn tập hợp dữ liệu được PT4 tạo ra 18
Hình 2.1: Giai đoạn huấn luyện (tạo ra) tập dữ liệu D và bộ nhãn L của CC 27
Hình 2.2: Giai đoạn dự đoán của CC cho phiên bản kiểm tra x 28
Hình 2.3: Một đồ thị phân lớp đa nhãn Đồ thị tương ứng với ví dụ x có nhãn là 2 35
Hình 2.4: Phân lớp đa nhãn thông qua việc so sánh từng cặp Lớp 2 và 4 là liên quan dịj = fi – fj, trong đó, i phù hợp và j thì không phù hợp 36
Hình 2.5: Phân lớp đa nhãn thông qua thứ tự tổng và xu hướng chung 37
Hình 3.1: Một giáo trình sau khi được biểu diễn theo cấu trúc XML 40
Hình 3.2: Cấu trúc một tài liệu huấn luyện XML 42
Hình 3.3: Minh họa cách đặt tên, lưu trữ tài liệu vào các lớp 43
Hình 3.4: Công cụ kiểm tra dữ liệu học 44
Hình 3.5: Mô hình hệ thống 45
Hình 3.6: Một tài liệu trước khi tiền xử lý 47
Hình 3.7: Một tài liệu sau khi tiền xử lý 47
Hình 3.8: Giao diện ứng dụng trên Client 52
Hình 3.9: Khởi động Server để nhận yêu cầu phân lớp từ Client 52
Hình 3.10: Kết quả phân lớp 54
Trang 6Mở đầu
Trong xu hướng phát triển mạnh mẽ hiện nay, mọi vấn đề của cuộc sống đều được chứa trong nhiều nguồn thông tin khác nhau Việc lựa chọn nguồn thông tin nào và đặt chúng vào một “lớp” hay một kho nào đó để tiện cho quá trình khai thác và sử dụng là một yêu cầu cấp thiết
Những thành tựu những năm gần đây trong lĩnh vực máy tính, thông tin
và những công nghệ lưu trữ làm cho dữ liệu thu thập và được lưu trữ với lượng rất lớn Các kho dữ liệu tuy rất lớn nhưng thông tin lại nghèo nàn như hiện tượng “ngập trong dữ liệu nhưng thiếu thông tin” Do đó, vấn đề đặt ra là làm thế nào để các tổ chức, cá nhân có thể thu được các tri thức và phân lớp các dữ liệu từ kho dữ liệu khổng lồ đó, tức là gán cho nó một nhãn và đặt nó vào một lớp cụ thể nào đó Thậm chí, một tài liệu đã được gán nhãn và đặt trong một lớp
cụ thể rồi vẫn có thể gây nên hiện tượng chanh chấp do tài liệu này vừa có nội dung phù hợp với lớp đang chứa nó đồng thời lại phù hợp và cần thiết với một
có thể thuộc vào nhiều chủ đề, tương ứng là văn bản đó được gán nhiều nhãn lớp Nhiều công trình nghiên cứu về các thuật toán phân lớp đã được công bố, chẳng hạn như [DCH10, GM05, GS04, PC10, RD10, TK07, ZGH10, ZPH09], trong đó công trình [TK07] cho một khái quát về các giải pháp phân lớp đa nhãn tới năm 2007 Từ năm 2007 tới nay, nhiều giải pháp phân lớp đa nhãn tiếp tục được đề xuất, chẳng hạn như [DCH10, PC10, RD10, ZGH10, ZPH09]
Một lớp thuật toán phân lớp đa nhãn điển hình là các thuật toán phân lớp
đa nhãn Bayes Một số giải pháp phân lớp Bayes đa nhãn đã được đề xuất, chẳng hạn như [DCH10, ZGH10, ZPH09]
Trang 7Luận văn tập trung nghiên cứu một số thuật toán phân lớp đa nhãn Bayes
và ứng dụng vào phân lớp đã nhãn các tài liệu thuộc lĩnh vực điện tử là lĩnh vực
đã và đang được đào tạo tại Trường Cao đẳng Công nghệ Viettronics
Nội dung luận văn gồm có 3 chương:
Chương 1: Giới thiệu chung về phân lớp đa nhãn văn bản
Chương 2: Giới thiệu một số thuật toán phân lớp đa nhãn văn bản Bayes
Đây là cơ sở để tác giả đưa ra mô hình thực nghiệm với những cải tiến ở chương 3
Chương 3: Thực nghiệm và đánh giá
Trên cơ sở các phân tích về lý thuyết các thuật toán đề cập trong chương
2, tác giả trình bày các bước cài đặt chương trình thi thành thực nghiệm hệ thống cài đặt theo mô hình đề xuất Đồng thời tiến hành đánh giá kết quả thử nghiệm của hệ thống Kết quả thực nghiệm cho thấy tính đúng đắn và khả năng áp dụng của mô hình vào thực tế là khả quan
Phần kết luận và định hướng phát triển luận văn: Tóm lược những nội
dung chính đạt được của luận văn Nghiên cứu, triển khai giải pháp nâng cao hiệu quả hệ thống phần mềm đã xây dựng
Trang 8CHƯƠNG 1 GIỚI THIỆU CHUNG VỀ PHÂN LỚP ĐA NHÃN VĂN BẢN 1.1 Giới thiệu chung
1.1.1 Phân lớp văn bản
Phân lớp là một trong những mối quan tâm lớn của con người trong quá trình làm việc với một tập hợp đối tượng Điều này giúp họ có thể tiến hành việc sắp xếp, tìm kiếm các đối tượng một cách thuận lợi Khi biểu diễn đối tượng vào các hệ thống thông tin, tính chất lớp vốn có của đối tượng trong thực tế thường được biểu diễn tương ứng bằng một thuộc tính “lớp” riêng biệt [TK07]
Bài toán phân lớp văn bản được phân biệt một cách chi tiết hơn, phân lớp
nhị phân khi miền áp dụng chỉ có 2 lớp (|C| = 2), và phân lớp đa nhãn khi miền
áp dụng có nhiều hơn hai lớp (|C| >2) [TK07]
Phân lớp văn bản là một trong những nhiệm vụ quản lý tài liệu dựa trên nội dung Đây là một vấn đề quan trọng trong việc gán một tài liệu vào một hoặc nhiều lớp cho trước[TK07, XL05]
Ví dụ, có các lớp “Bắc Mỹ”, “Châu Á”, “Châu Âu”; một bản tin nói về mối quan hệ thương mại giữa Mỹ và Pháp có thể được gán vào cả hai lớp “Bắc
Mỹ” và “Châu Âu” [XL05]
Ngày nay với sự phát triển không ngừng của mạng Internet đã tạo ra một khối lượng khổng lồ các tài liệu điện tử, đó là động lực cho sự phát triển của bài toán phân lớp văn bản tự động Sự phát triển của phần cứng máy tính đã tạo ra sức mạnh tính toán, cho phép quá trình phân lớp văn bản tự động được sử dụng trong các ứng dụng thực tế [TK07]
Bài toán phân lớp văn bản được sử dụng rộng rãi để loại bỏ thư rác, phân lớp các tập hợp văn bản vào các chủ đề cho trước, quản lý tri thức và tìm kiếm thông tin trên Internet
Trang 91.1.2 Phân lớp đa nhãn (Multiple Label Class - MLC)
a Khái quát
Phân lớp đanhãn ngày càngđược cácứng dụng hiện đại đưa vào áp dụng, chẳng hạn nhưphân lớp (hoặcphân loại)chức năngcác hợp chất hữu cơ, phân nhóm âm nhạcvà phân lớpngữ nghĩa[TK07]
Phân lớp đơn nhãn truyền thống đề cập đến việc nhận biết từ một tập hợp
các mẫu có liên quan đến một nhãn l từ một tập hợp các nhãn rời nhau L Phân
lớp đơn nhãn, mỗi tài liệu chỉ được gán chính xác vào một và chỉ một lớp;Trái ngược với phân lớp đơn nhãn, phân lớp đa nhãn (MLC) cho phép gán một đối tượng (văn bản, giáo trình, tài liệu,…) vàomột hoặc nhiều lớp đồng thời [HPDN09, DCH10, GM05, TK07]
Điều này có ý nghĩa thực tế lớn, vì một văn bản không chỉ liên quan tới một chủ đề duy nhất [HPDN09];chẳng hạn, mộtbài báoliênquanđếncáchoạt động củanhà thờ Thiên chúa giáo khi đưa vào bộ phim Da Vinci Code có thểđượcchia
vàocả hainhóm Xã Hội/Tôn Giáovà Nghệ thuật/Điện ảnh Tương tự như vậy,
trong chẩn đoánytế, một bệnh nhân có thểcùng một lúc làm mẫu chobệnh tiểu đườngvà ung thưtuyếntiềnliệt [TK07]
Phân lớp đa nhãn được các nhà nghiên cứu định nghĩa thống nhất như là việc gán tên các chủ đề (tên lớp/nhãn lớp) đã được xác định trước vào các văn bản dựa trên nội dung của nó[TK07]
b Bài toán phân lớp đa nhãn
Trong [DCH10], bài toán phân lớp đa nhãn được Dembczyński và các cộng sự mô tả chi tiết như sau:
Cho χ biểu thị một không gian tính năng/đặc trưng, và L = {λ1 , λ2 ,λm} là một tập hợp hữu hạn của các nhãn lớp Giả định rằng một phiên bản x làχ
(không tất định) liên kết với một tập hợp con của các nhãn L 2L, tập hợp con này thường được gọi là các thiết lập của nhãn có liên quan, trong khi phần bù
L\L được coi là không thích hợp đối vớix Từ đó, xác định một tập hợp L các
Trang 10nhãn có liên quan với một vector nhị phân y=(y 1 , y 2 ,…,y m ),
trong đó y i =1λiL Y = {0, 1} m xác định được tập nhãn có khả năng
Giả định quan sát được tạo ra một cách độc lập và ngẫu nhiên theo một
phân bố xác suất P(X, Y) trên χ × Y, nghĩa là một quan sát y = (y 1 , ,y m ) là
phép thể hiện tương ứng của vector Y=(Y 1 ,Y 2 , …,Y m ) Tác giả biểu thị
Px(Y)=P(Y|x) phân phối có điều kiện của Y cho X = x, và
)
|(P
y b
Một phân lớp đa nhãn h là một X → Y chỉ định một tập hợp con nhãn (dự
đoán) mỗi trường hợp xχ Vì vậy, số lượng của một phân lớp hlà một vector:
h(x) = (h 1 (x), h 2 (x), … , h m (x)) Thông thường, MLC được coi là một bài toán
xếp hạng, trong đó các nhãn được sắp xếp theo mức độ phù hợp Sau đó, dự báo
sẽ nhận mẫu xếp hạng hoặc chức năng chấm điểm:
Phân lớp đa nhãn văn bản cho phép một văn bản có thể thuộc về một số lớp cùng một lúc [DCH10, ZPH09]; nghĩa là một văn bản/tài liệu có thể phục vụ cho việc khai thác nội dung thông tin của nhiều lớp/chủ đề khác nhau
Chúng ta nhận thấy, ngày nay các phương pháp phân lớp đa nhãn văn bản ngày các được các ứng dụng hiện đại có nhu cầu sử dụng, chẳng hạn như phân loại các hợp chất hữu cơ, phân nhóm âm nhạc và phân lớp ngữ nghĩa Trong phân lớp ngữ nghĩa, một bức ảnh có thể thuộc về nhiều hơn một khái niệm,
Trang 11chẳng hạn như cảnh hoàng hôn và bãi biển Tương tự như vậy trong phân nhóm
âm nhạc, một bài hát có thể thuộc về nhiều thể loại Ví dụ, một số ca khúc hit của ban nhạc rock nổi tiếng Scorpions có thể thuộc về hai thể loại là rock và
ballad Phân lớp đa nhãn cũng có thể ứng dụng vào các bài toán như:
- Bài toán lọc nội dung: loại bỏ thư rác, lọc thông tin trên trang web
- Phân lớp các tập hợp văn bản vào các chủ đề cho trước, quản lý tri thức
và tìm kiếm thông tin trên Internet
1.2 Cách thức phân lớp đa nhãn
1.2.1 Phân lớp dựa vào xếp hạng
Một cách thức phân lớp thuộc về nhóm học có giám sát và liên quan chặt
chẽ đến phân lớp đa nhãn là xếp hạng (Ranking) Nhiệm vụ xếp hạng là sắp xếp
theo thứ tự tập hợp các nhãn L, từ đó các nhãn có tính chất phù hợp cao nhất sẽ
có liên quan với phiên bản mới nhiều hơn Hiện tại có một số phương pháp phân lớp đa nhãn lấy chức năng xếp hạng từ dữ liệu đa nhãn Tuy nhiên, thứ hạng của nhãn đòi hỏi quá trình sử dụng và điều chỉnh thích hợp sau khi chúng được lưu trong bộ nhớ để tạo ra một tập hợp các nhãn, và đây cũng chính là dữ liệu đầu ra phân lớp đa nhãn [TK07, GM05]
1.2.2 Phân lớp theo cấu trúc phân cấp (Hierarchical structure)
Năm 2001, Clare & King chỉ ra rằng, trong một số bài toán phân lớp cụ thể, các nhãn thuộc về một cấu trúc phân cấp
Ví dụ, mở thư mục DMOZ (http://www dmoz org/), duy trì một hệ thống phân cấp các lớp khái niệm về phân lớp các trang web Một trang web có thể sử dụng nhãn của một hoặc nhiều lớp, có thể thuộc về các cấp độ khác nhau trong
hệ thống phân cấp Cấp cao nhất của hệ thống phân cấp MIPS (Munich
Information Centre for Protein Sequences)bao gồm các lớp như: Metabolism
(Trao đổi chất), Energy (Năng lượng), Transcription (Nhân bản) và Protein Synthesis (Tổng hợp Protein) Sau đó, mỗi lớp này lại được chia nhỏ thành các
lớp cụ thể hơn, và các lớp cụ thể này lại được lần lượt chia nhỏ, và chia nhỏ một lần nữa, vì vậy hệ thống phân cấp lên đến 4 cấp[TK07]
Trang 12Khi các nhãn trong một tập hợp dữ liệu thuộc về một cấu trúc phân cấp thì chúng ta gọi đĩ là phân lớp theo cấu trúc phân cấp Nếu mỗi mẫu được cấp nhãn với nhiều hơn một nút trong cấu trúc phân cấp, thì cách thức phân lớp này được gọi là phân lớp đa nhãn phân cấp [TK07] Trong phạm vi nghiên cứu của đề tài, tác giả tập trung vào các phương pháp phân lớp đa nhãn phẳng (tức là khơng cĩ phân cấp)
Năm 2002, Jin và Ghahramani gọi các bài tốn đa nhãn là bài tốn phân lớpđa nhãn bán giám sát, trong đĩ mỗi tài liệu liên quan đến nhiều hơn một lớp, nhưng chỉ một trong những lớp đĩ là lớp thực sự của mẫu Cách thức phân lớp này khơng phổ biến trong các ứng dụng thực tế [TK07]
1.3 Phương pháp phân lớp đa nhãn
Cĩ thể nhĩm các phương pháp phân lớp đa nhãn hiện cĩ thành hai loại
chính: a) Phương pháp chuyển đổi bài tốn (problem transformation methods),
và b) Phương pháp thích nghi thuật tốn (algorithm adaptation
methods)[TK07]
Tiếp cận phổ biến đối với phân lớp đa nhãn là phương pháp chuyển đổi bài tốn, theo đĩ một bài tốn đa nhãn được chuyển đổi thành một hoặc nhiều bài tốn đơn nhãn Theo cách này, một phân lớp đơn nhãn cĩ thể được sử dụng
để tạo ra các phân lớp đơn nhãn và sau đĩ lại được chuyển đổi thành các đại diện đa nhãn Các phương pháp chuyển đổi tiếp cận bài tốn trước đã sử dụng các thuật tốn như Support Vector Machines (máy vector hỗ trợ - SVM), Nạve Bayes và phương pháp Nearest Neighbor k (kNN) [ZPH09]
1.3.1 Phương pháp chuyển đổi bài tốn
Để minh họa phương pháp này, chúng ta sẽ sử dụng dữ liệu của Bảng 1.1
Nĩ bao gồm bốn mẫu (tài liệu trong trường hợp này) thuộc về một hoặc nhiều của 4 lớp: Sports, Religion, Science, Politics [TK07]
Trang 13Bảng 1.1: Mẫu bộ dữ liệu đa nhãn
Hiện nay có hai phương pháp chuyển đổi bài toán đơn giản nhằm đưa việc nhận biết vào phân lớp thành bài toán phân lớp đơn nhãn truyền thống:
a Phương pháp 1 (được đặt tên là PT1)
Phương pháp này lựa chọn một cách chủ quan hoặc ngẫu nhiên một trong nhiều nhãn của từng phiên bản đa nhãn và loại bỏ các nhãn còn lại
b Phương pháp 2 (được đặt tên là PT2)
Phương pháp này chỉ đơn giản là loại bỏ tất cả các phiên bản đa nhãn ra khỏi tập hợp dữ liệu
Bảng 1.2 và Bảng 1.3 cho thấy bộ dữ liệu được chuyển đổi bằng cách sử dụng phương pháp PT1 và PT2 Hai phương pháp chuyển đổi bài toán loại bỏ rất nhiều nội dung thông tin của dữ liệu gốc đa nhãn [TK07]
Bảng 1.2: Dữ liệu được chuyển đổi bằng phương pháp PT1
Bảng 1.3: Dữ liệu được chuyển đổi bằng phương pháp PT2
Trang 14c Phương pháp 3 (được đặt tên là PT3)
Phương pháp này xem xét mỗi bộ nhãn khác nhau tồn tại trong bộ dữ liệu
đa nhãn như là một đơn nhãn Nên nó nhận biết một phân lớp đơn nhãn
H:X→P(L), trong đó P(L) là tập hiệu suất của L Bảng 1.4 cho thấy kết quả của
việc chuyển đổi dữ liệu của Bảng 1.1 bằng cách sử dụng phương pháp này Một trong những mặt hạn chế của PT3 là nó có thể dẫn đến các tập hợp dữ liệu với số lượng lớn các lớp và ít mẫu trong mỗi lớp [TK07]
Bảng 1.4: Dữ liệu được chuyển đổi bằng phương pháp PT3
d Phương pháp 4 (được đặt tên là PT4)
Phương pháp chuyển đổi bài toán phổ biến nhất (gọi là PT4) nhận biết |L| phân lớp nhị phân H l : X → {l, ¬l}, cho mỗi nhãn khác nhau l trong L Nó biến
đổi các dữ liệu đầu vào |L| của tập dữ liệu D l chứa tất cả các mẫu của tập dữ liệu
gốc, được gắn nhãn l nếu nhãn của các mẫu gốc là l và được gắn nhãn ¬l của các mẫu gốc không phải l Đây là giải pháp tương tự được sử dụng để đối phó với
một bài toán đa lớp đơn nhãn bằng cách dùng một phân lớp nhị phân
Đối với việc phân lớp của một mẫu mới x, phương pháp này đưa ra kết quả là một tập nhãn hợp nhất, sản phẩm của |L| phân lớp [TK07]:
L l
Trang 15Hình 1.1: Bốn tập hợp dữ liệu được PT4 tạo ra
e Phương pháp 5 (được đặt tên là PT5)
Đây là một phương pháp chuyển đổi bài toán đơn giản được mô tả như sau:
Trước tiên, nó tách từng mẫu (x,Y) trong |Y| thành (x, l) với mọilY Sau
đó, nó nhận biết một phân lớp đơn nhãn dựa trên vùng phủ từ bộ dữ liệu chuyển đổi Phân lớp hàm suy rộng là những phân lớp có thể tạo ra một hàm suy rộng có
bậc chính xác (hoặc xác suất) cho tất cả các nhãn trong L
Cuối cùng, hàm suy rộng được xử lý để đưa ra một tập hợp nhãn Cách đơn giản để đạt được là tạo ra các nhãn này một bậc chính xác lớn hơn một ngưỡng cụ thể (ví dụ 0.5) Cách phức tạp hơn là tạo ra các nhãn này một bậc chính xác lớn hơn so với một tỷ lệ phần trăm (ví dụ 70%) của bậc chính xác cao nhất Bảng 1.5 cho thấy kết quả của việc chuyển đổi dữ liệu của Bảng 1.1 bằng cách sử dụng phương pháp này[TK07]
Trang 16Bảng 1.5: Dữ liệu được chuyển đổi bằng phương pháp PT5
f Phương pháp nhị phân (Binary relevance Method - BM)
Phương pháp BM biến đổi bài toán đa nhãn bất kỳ thành một bài toán nhị
phân cho mỗi nhãn Do đó, phương pháp này tạo phân lớp nhị phân |L|, C 1,…,
C |L| Mỗi lớp C j có trách nhiệm dự đoán sự kết hợp 0/1 cho mỗi nhãn tương ứng
l jL Phương pháp BM luôn loại bỏ cơ sở giả định về độc lập nhãn Nghĩa là,
trong quá trình chuyển đổi, BM bỏ qua các mối tương quan nhãn tồn tại trong quá trình tạo dữ liệu
Do sự mất mát thông tin này, bộ nhãn dự đoán của BM có khả năng chứa quá nhiều hoặc quá ít nhãn, hoặc các nhãn không bao giờ có trong thực tế [ZPH09]
g Phương pháp chuỗi phân lớp (Classifier Chains – CC)
Phương pháp chuỗi phân lớp được sử dụng có thể khắc phục và có giá trị hơn phương pháp BM bởi những ưu điểm của nó và bất kỳ phương pháp nào gắn với nó [ZPH09], phương pháp này sẽ được trình bày cụ thể hơn trongmục 2.3 của Chương 2
Trang 17h Phương pháp kết hợp nhãn (Label combination method - CM)
Cơ sở của phương pháp này là kết hợp các bộ nhãn nguyên tử (đơn) nhằm tạo ra một bài toán đơn nhãn đại diện cho tất cả các tập con nhãn riêng biệt trong
bộ gốc đa nhãn
Mỗi (x,S) được chuyển đổi thành (x,l), trong đó l là nhãn đơn đại diện cho
một tập hợp nhãn con riêng biệt Bằng cách này, các phương pháp dựa trên CM
đã trực tiếp tính đến các mối tương quan nhãn Tuy nhiên, nhược điểm của phương pháp này là độ phức tạp thời gian trong trường hợp xấu nhất [ZPH09]
Quan điểm đồng nhất cho rằng các mối tương quan nhãn đóng vai trò quan trọng trong quá trình phân lớp Tuy nhiên, khi kích thước của bộ dữ liệu đa nhãn tăng lên, hầu hết các phương pháp phải đối phó với sự tăng theo cấp số nhân của các mối tương quan có thể Do đó, đối với các bộ dữ liệu có kích thước nhỏ thì phương pháp này có thể chính xác hơn là đối với các bộ dữ liệu lớn [ZPH09]
1.3.2 Phương pháp thích nghi thuật toán
a Phương pháp PT6
Năm 2001, Clare và King chuyển thể các thuật toán C4.5 [TK07] cho dữ liệu đa nhãn Họ đã thay đổi công thức tính toán dữ liệu ngẫu nhiên như sau:
Trong đó p(c i ) là tần số tương đối của lớp c i và q(c i ) = 1-p(c i ) Họ cũng
cho phép các đa nhãn trong cùng lớp [TK07]
Adaboost.MH và Adaboost.MR là hai phần mở rộng cho phân lớp đa nhãn của AdaBoost Cả hai đều áp dụng AdaBoost về phân lớp yếu của mẫu
H:X × L → R[TK07]
Trang 18Trong AdaBoost.MH khi các kết quả đầu ra của các phân lớp yếu là
dương (positive) cho một mẫu x mới và một nhãn l thì ta coi mẫu này có thể được gắn nhãn l, trong khi nếu nó là âm (negative), thì mẫu này không gắn nhãn
l Trong AdaBoost MR đầu ra của các phân lớp yếu được xem xét để xếp hạng
Bảng 1.6: Dữ liệu được chuyển đổi bằng phương pháp PT6
b Phương pháp ML – kNN (Multiple Label – k Neibough)
ML - kNN là sự chuyển thể của thuật toán k người láng giềng gần nhất đối
với các dữ liệu đa nhãn Trên thực tế phương pháp này theo mô hình của PT4
Trang 19Về bản chất, c Điểm khác biệt chủ yếu của phương pháp này từ việc áp dụng
thuật toán kNN ban đầu đến vấn đề chuyển đổi sử dụng PT4 là việc sử dụng của xác suất trước ML-kNN cũng có khả năng xếp thứ hạng của nhãn như là một
kết quả đầu ra [TK07]
Tóm tắt chương 1
Trong chương 1, tác giả đã giới thiệu khái quát về phân lớp đa nhãn văn bản, cách thức và các phương pháp phân lớp đa nhãn văn bản Đồng thời cũng giới thiệu bài toán phân lớp đa nhãn văn bản ứng dụng vào việc phân lớp đa nhãn các tài liệu
Trong chương tiếp theo, luận văn giới thiệumột số thuật toán phân lớp đa nhãn Bayes
Trang 20CHƯƠNG 2 THUẬT TOÁN PHÂN LỚP ĐA NHÃN BAYES
Có nhiều thuật toán hỗ trợ phân lớp đa nhãn văn bản như: thuật toán máy vector hỗ trợ (Supper Vector Machine – SVM), thuật toán k người láng giềng
gần nhất (Nearest Neighbor k - kNN)hay thuật toán cây quyết định … Chương
này giới thiệu khái quát về phân lớp Bayes, phân lớp đa nhãn Bayes và một số thuật toán Bayes hỗ trợ trong phân lớp đa nhãn văn bảnthông qua các tài liệu [DCH10, ZGH10, ZPH09, PC10, HPDN09, …]
2.1 Phân lớp Bayes
Bayes là một trong những thuật toán phân lớp điển hình nhất trong học máy và khai phá dữ liệu Đây cũng là một trong những thuật toán được sử dụng rộng rãi nhất trong phân lớp văn bản Trong học máy, Bayes thường được coi như thuật toán học máy chuẩn (baseline) để so sánh với các thuật toán khác [PC10, HPDN09]
Kỹ thuật phân lớp của Bayes dựa trên cơ sở định lý Bayes Với mỗi loại đối tượng (object) thì thuật toán Bayes tính cho mỗi lớp đối tượng một xác suất
mà mẫu cần phân lớp có thể thuộc vào lớp đó
Ý tưởng chính của thuật toán là tính xác suất hậu nghiệm của sự kiện c xuất hiện sự kiện x đã có trong không gian ngữ cảnh thông qua tổng hợp các
xác suất tiên nghiệm của sự kiện c xuất hiện khi sự kiện x đã có trong tất cả các điều kiện riêng T thuộc không gian :
Trong trường hợp phân lớp văn bản, xét biểu diễn văn bản thông qua tập
các từ khóa có trong văn bản đó Gọi V là tập tất cả các từ vựng Giả sử có N lớp tài liệu là c 1 , c 2 ,c 3 , … c N Mỗi lớp c i có xác xuất p(c i ) và ngưỡng CtgTsh i; Gọi
p(c| Doc) là xác xuất để tài liệu Doc thuộc lớp c hay “xác xuất để sự kiện c xuất hiện khi đã có sự kiện Doc”
Trang 21Cho một lớp c và một tài liệu Doc, nếu xác xuất p(x|Doc) tính được lớn
hơn hoặc bằng giá trị ngưỡng CtgTshc của lớp c thì kết luận tài liệu Doc thuộc vào lớp c
Tài liệu Doc được biểu diễn như một vector có kích thước là số từ khóa
trong tài liệu Mỗi thành phần chứa một từ trong tài liệu và tần suất xuất hiện
của từ đó trong tài liệu Thuật toán được thực hiện trên tập từ vựng V, p(x| Doc)
và quyết định tài liệu Doc sẽ thuộc vào lớp nào
Xác xuất p(x| Doc) được tính theo công thức sau:
))
| ( (
* ) (
))
| ( (
* ) (
|
) , ( 1
) , (
Doc F TF i
n
i i
V F
Doc F TF j
i
i j
j
c F p c
p
c F p c
p Doc c p
) , (
|
|
) , ( 1
c F TF V
c F TF c
F P
Trong đó: |V| là số lượng các từ khóa có trong từ vựng V; F j là từ khóa thứ
j trong từ vựng V; TF(F j | Doc) là tần suất của từ F j trong tài liệu Doc (bao gồm
cả từ đồng nghĩa); TF(F j |C) là tần suất của từ F j trong lớp c (số lần F j xuất hiện
trong tất cả các tài liệu thuộc lớp c); p(F j |c) là xác suất có điều kiện để từ F j xuất
hiện trong tài liệu của lớp c
Công thức TF(F i | c) được tính theo công thức ước lượng xác suất Laplace
Sở dĩ có số 1 trên tử số của công thức này để tránh tần suất từ F i trong lớp c bằng 0 khi F i không xuất hiện trong lớp c
Để giảm sự phức tạp và thời gian tính toán, để ý rằng, không phải tài liệu
Doc đã cho đều chứa tất cả các từ trong tập từ vựng V Do đó, TF(F i | Doc) = 0 khi từ F i thuộc V nhưng không thuộc tài liệu Doc, nên ta có p((F j |c))TF(Fj, Doc) = 1 Vậy, công thức (2.2) được viết lại như sau:
Trang 22 (2.4)
))
|((
*)(
))
|((
*)(
|
) , (
1
) , (
Doc F TF i
n
i
i
Doc F
Doc F TF j
j
i j
j
c F P c
p
c F P c
p Doc
c p
Như vậy, trong quá trình phân lớp không dựa vào toàn bộ tập từ vựng mà
chỉ dựa vào các từ khóa xuất hiện trong tài liệu Doc [HPDN09]
2.2 Giới thiệu chung về phân lớp đa nhãn Bayes
Trong phân lớp đa nhãn, các mẫu phải có liên quan đến một tập các nhãn
Y L Trước đây, phân lớp đa nhãn chủ yếu được thúc đẩybởi các nhiệm vụ của
phân lớp văn bản và chẩn đoán y tế, tài liệu văn bản thường thuộc về nhiều hơn một lớp khái niệm Ví dụ, một bài báo liên quan đến các phản ứng của Nhà thờ Thiên chúa giáo khi đưa vào bộ phim Da Vinci Code có thể được phân vào lớp
Xã hội/Tôn giáo vàNghệ thuật/Điện ảnh,… [TK07]
Ngày nay, phân lớp đa nhãn càng được áp dụng rộng rãi vào các ứng dụng hiện đại như: phân lớp chức năng protein, phân nhóm âm nhạc và phân lớp ngữ nghĩa,…[TK07]
Nói một cách khác, phân lớp đa nhãn các tài liệu là quá trình chia một tập hợp các tài liệu vào hai hay nhiều lớp cho trước Theo [HDNN06] phân lớp tự động các tài liệu có thể cụ thể hóa thành hai giai đoạn:
Giai đoạn 1: Tìm kiếm hay chuẩn bị thông tin; đây là giai đoạn mà dữ liệu
số được trích rút từ nội dung các tài liệu/văn bản, …
Giai đoạn 2: Giai đoạn phân lớp đa nhãn, là giai đoạn mà một thuật toán
xử lý dữ liệu đã được chuẩn bị ở giai đoạn 1 để đưa ra các chủ đề (các nhãn) mà tài liệu hay văn bản đó có thể thuộc về
Có nhiều thuật toán và các phương pháp hỗ trợ phân lớp đa nhãn các tài liệu/văn bản; một trong những thuật toán đó là Bayes
Phân lớp đa nhãn Bayes giả định là tất cả các đặc trưng là độc lập cho các nhãn lớp (độc lập với ngữ cảnh và vị trí của nó trong tài liệu)
Trang 23p c
y x p
1
)5.2()
|()
|(
Mặc dù điều này thường là sai (vì các đặc trưng thường phụ thuộc), mô hình kết quả thu được khá phù hợp Trong trường hợp với dữ liệu Gausian, nhận được kết quả:
c y x p
1
)6.2()
,
|()
Một đại diện rất đơn giản, được gọi là mô hình bag of word - “Túi từ”, là
bỏ qua thứ tự từ và chỉ cần đếm số lần mỗi từ xuất hiện trong tài liệu - giả sử tài
liệu D Sau đó, một tài liệu có thể được biểu diễn như là một vector-p (một tần
số từ biểu đồ tần)
Cho X = k, có nghĩa là từ X xuất hiện chính xác k lần, với k = 0:K-1, để đơn giản, chúng ta sẽ nói từ này có trọng số k (Nếu từ xuất hiện nhiều hơn K - 1 lần trong một tài liệu, thì chỉ coi nó xuất hiện K - 1 lần trong tài liệu; ở đây K sử
dụng như một cận trên) Trong trường hợp này, ta có thể đại diện cho mật độ lớp
có điều kiện như là một sản phẩm của đa thức:
i
c Y x p
) (
)7.2()
Trang 242.3 Phân lớp đa nhãn Bayes dựa trên chuỗi phân lớp
Trongphần này tác giả trình bày mô hình chuỗi phân lớp (Classifier Chains - CC) trong [ZPH09]
Mô hình phân lớp đa nhãn dựa trên CC liên quan đến phân lớp nhị phân
|L| như BM (BM biến đổi bất kỳ bài toán nhiều nhãn thành bài toán nhị phân cho mỗi nhãn; do đó phương pháp này huấn luyện |L| phân lớp nhị phân C 1 , … C |L|)
Các lớp được liên kết theo dọc theo một chuỗi trong đó mỗi bộ phân lớp
giải quyết bài toán nhị phân liên quan kết hợp với nhãn l j L Không gian đặc
trưng của mỗi liên kết trong chuỗi được mở rộng với nhãn 0/1 của tất cả các liên kết trước đó
Một số ký hiệu, đối với tài liệu huấn luyện (x,S), trong đó:
S L được biểu diễn đặc trưng bởi vectornhị phân (l 1 , l 2 , …, l |L|){0,1}|L|
Hình 2.1: Giai đoạn huấn luyện (tạo ra) tập dữ liệu D và bộ nhãn L của CC
Trong đó, mỗi chuỗi C1, … , C |L| của phân lớp nhị phân được hình thành
Mỗi phân lớp C j trong chuỗi có trách nhiệm nhận biết và dự đoán kết hợp nhị
phân của nhãn L j với không gian đặc trưng đã cho, bổ sung với tất cả các các dự
đoán nhị phân liên quan trước đó trong chuỗi l1 … lj-1
Trang 25Quá trình phân lớp bắt đầu từC1 và lan truyền dọc theo chuỗi: C1 xác
định Pr(l1|x) và tất cả các phân lớp sau: C2 …C |L| dự đoán Pr(l j | x i , j 1 ,lj-1) Quá trình phân lớp này được trình bày trong Hình 2.2
CLASSIFY (x)
1 Y {}
2 for j 1 to |L|
3 do YY (l j C j : (x, l1,…, l j-1))
4 return (x, Y) ► the classified example
Hình 2.2: Giai đoạn dự đoán của CC cho phiên bản kiểm tra x
Phương pháp chuỗi này thông qua thông tin nhãn giữa các lớp, CC xem xét mối tương quan nhãn và từ đó khắc phục vấn đề độc lập nhãn của phương pháp phân lớp nhị phân (BM) Tuy nhiên, CC vẫn giữ được lợi thế của BM bao gồm cả bộ nhớ thấp và độ phức tạp về thời gian chạy
Mặc dù trung bình |L|/2 đặc trưng được thêm vào mỗi trường hợp, vì |L|
luôn được giới hạn trong thực tế, điều này ảnh hưởng không đáng kể đến độ phức tạp kể trên
Tuy nhiên độ phức tạp tính toán chuỗi phân lớp có thể gần bằng với BM, tùy thuộc vào tổng số các nhãn và độ phức tạp tiềm ẩn của tài liệu học
Độ phức tạp của BM được xác định là: O(|L| f(|X|,|D|)), trong đó f(|X|,
|D|) là độ phức tạp của tài liệu học; Sử dụng các ký hiệu tương tự, độ phức tạp của CC là: O(|L| f(|X||L|,|D|)), tức là phát sinh thuộc tính bổ sung |L|
Ngoài ra, mặc dù các thủ tục Training hàm ý rằng CC không thể thực hiện song song được, nó chỉ có thể diễn ra tuần tự và do đó chỉ yêu cầu một bài toán nhị phân trong bộ nhớ tại mọi thời điểm trong chuỗi thời gian – đấy là một lợi thế rõ ràng hơn các phương pháp khác
Trình tự của chính các chuỗi rõ ràng đã ảnh hưởng đến độ chính xác Mặc
dù còn tồn tại một số chẩn đoán cho phép lựa chọn thứ tự chuỗi cho CC, nhóm tác giả sử dụng một khung đồng bộ với một chuỗi ngẫu nhiên khác nhau cho mỗi lần lặp Vấn đề này sẽ được đề cập đến trong phần 2.4 của chương này
Trang 262.4 Phân lớp đa nhãn Bayes dựa trên chuỗi phân lớp cải tiến
Trong [DCH10]cho thấy:
Trong lĩnh vực phân lớp đa nhãn, thông thường thì việc thực hiện tiên đoán tối ưu chỉ có thể đạt được với các tài liệu học phụ thuộc nhãn một cách rõ ràng Để thực hiện được điều này, nhóm tác giả đã chính thức hóa và phân tích MLC thông qua chuỗi phân lớp xác suất Vì vậy, có thể xem xét vấn đề từ quan điểm của giảm thiểu rủi ro và dự đoán tối ưu Bayes Hơn nữa, bằng cách thiết lập xác suất, nhóm tác giả đề xuất một phương pháp mới cho MLC đó là khái quát và thực hiện tốt hơn so với phương pháp khác, được gọi là chuỗi phân lớp theo xác suất (Probabilistic Classifier Chains - PCC)
Nhóm tác giả đề nghị một chương trình xác suấtđể xem xét vấn đề từ quan điểm giảm thiểu rủi ro và dự đoán tối ưu Bayes Cụ thể, phân tích ba loại chức năng mất và dựa trên kết quả này để nâng cao phỏng đoán sau đây: Trong khi xem xét sự phụ thuộc nhãn có điều kiện thực sự có thể hữu ích cho các chức năng mất nhất định, thì những chức năng khác ít có khả năng hưởng lợi [DCH10]
Bài toán phân lớp đa nhãn đã được mô tả chi tiết trong mục 1.1.2 của Chương 1
Mô hình phân lớp đa nhãn Bayes dựa trên chuỗi phân lớp theo xác suất được chi tiết như sau:
Cho một phiên bản x, xác suất (có điều kiện) của mỗi nhãn kết hợp
y=(y1,y m)Y có thể được tính bằng cách sử dụng quy tắc tính sản phẩm của xác
suất:
)8.2()
,
|()
()
Vì vậy, để đánh giá sự phân bố của các nhãn, phải coi m của hàm f i(.) trên không
gian đầu vào tăng cường X {0,1}i-1 , ta nóiy1,…, y i-1 như các thuộc tính bổ sung:
)9.2()
,
,
|1(
), ,,(
]1,0[}
,0{:
1 1
1 1
i
i i
y y x y
P y
y x X f
Trang 27Giả thiết rằng, hàm f i(.) được coi là một xác suất phân lớp có xác suất dự
đoán là y1=1 hoặc tối thiểu cũng phải xấp xỉ như thế Do đó, công thức (2.8) trở thành:
)10.2()
,
,()
()(
Với P x (và chức năng mất L(.) đã được giảm thiểu), một dự đoán tối ưu
(2.11) sau đó có thể được xuất phát một cách rõ ràng Cách tiếp cận này được gọi là chuỗi phân lớp xác suất (PCC)
)11.2()
,(min
arg)(
đề cập đến là dựa trên ý tưởng phân lớp “chaining” (Xâu/chuỗi) mặc dù không
có bất kỳ liên quan nào đến lý thuyết xác suất [DCH10]
Phương pháp PCC hoạt động như sau:
Một phân lớp h i được huấn luyện cho mỗi nhãn tương tự như cách tính
điểm của hàmf i (.) ở trên Với một trương hợp mới x được phân lớp, mô hình h1
dự đoán y1, nghĩa là độ thích hợp của λ 1 đối với x Sau đó h2 dự đoán độ thích hợp của λ 2, x cùng với giá trị dự đoán y1 {0, 1} như một đầu vào
Cứ tiếp tục như vậy, h i dự đoán y i sử dụng y 1 ,…, y i-1 như đầu vào bổ sung thông tin [DCH10]
Điều đáng nói ở đây là các chuỗi ban đầu có thể được xem như một xấp xỉ được xác định qua công thức (2.10) ở trên, trong ý nghĩa của việc sử dụng {0, 1} – xác suất giá trị Trong thực tế, CC thu được từ công thức (2.10) ở trên trong
trường hợp đặc biệt đầu ra f i(.) hoặc bằng 0 hoặc bằng 1 Kết quả đó dẫn tới dự đoán:
Trang 28Px (y) = [y=y CC](2.12)
Trong đó, y CC là tập hợp nhãn dự đoán của các chuỗi phân lớp [DCH10]
Cần phải nói, (2.12) thường là một dự đoán kém (không chính xác) của
phân phối chuẩn P(x)(Y) Trong thực tế, việc coi ý tưởng của chuỗi phân lớp là
một đường dẫn trong một cây nhị phân mà nút lá được gắn với nhãn y∈Y, và 0/1
nhánh đối với y i ở mức i, CC sẽ là đường dẫn duy nhất của cây nhị phân này
theo cách tham lam Mô hình này được xem như là một phương thức tìm kiếm -
“mode seeker”, hy vọng tìm được nhãn y* có xác suất cao nhất Do tính chất
tham lam, tuy vậy, phương pháp này không phải lúc nào cũng đạt được kết quả như mong muốn [DCH10]
Ví dụ, giả sử phân lớp các cơ sở sản xuất, dự đoán xác suất chính xác, và
CC biến đổi xác suất ước tính thành xác suất dự đoán [p> 0.5] Nhưvậy, dễ dàng nhận thấy y CC = y* nếu Px (y*) > 0.5 Nếu xác suất của phương pháp như đã nói ở
trên mà nhỏ hơn ½, thì chuỗi phân lớp có thể bị thất bại
Xét minh họa nhỏ sau đây, xét trường hợp m=3, và giả sử rằng
Px(0,0,1)=0.4, Px(1,0,1)=0.25 và Px(1,1,0) = 0.35 Trường hợp này, chuỗi phân
lớp đã không chính xác ngay từ lúc bắt đầu, cụ thể là với y1 = 1 và sau cùng là
tạo ra các dự đoán tối ưu y=(1,1,0) [DCH10]
b) Độ phức tạp
Theo [DCH10] việc hy vọng việc hy vọng PCC sẽ tạo ra dự toán tốt hơn
là hoàn toàn hợp lý Tất nhiên, giá phải trả là tính phức tạp sẽ cao hơn nhiều Trong thực tế, trong khi CC chỉ tìm kiếm một đường dẫn duy nhất trong cây nhị phân nói trên, thì PCC phải xem xét từng đường dẫn 2m Điều này hạn chế khả năng áp dụng của phương pháp tới các tập hợp dữ liệu có số nhãn nhỏ và trung bình, chẳng hạn như tập hợp dữ liệu có dưới 15 nhãn
Thứ nhất, ngoài thực tế về tính phức tạp,người ta có thể lập luận rằng một
số phương pháp khác cũng gặp phải vấn đề tương tự, bao gồm cả các phương pháp có khả năng thiết lập nhãn, như mô hình đồ họa dự đoán các phân phối
Trang 29Thứ hai, còn có nhiều khả năng phát triển chương trình suy luận gần đúng
có tính chính xác so với hiệu quả một cách hợp lý theo một cách nào đó chính xác giữa công thức (2.10) và phép xấp xỉ thô (công thức – 2.12).Những khả năng này được thực hiện theo nhiều cách khác nhau, ví dụ lược bỏ các nhãn đơn (với xác suất thấp hoặc có liên quan), hoặc bằng cách bỏ qua các kết hợp nhãn với xác suất thấp (để giảm thiểu việc mất tập con 1/0, chỉ có các kết hợp nhãn với khả năng xảy ra nhiều nhất là cần thiết để lại) [DCH10]
Như vậy, về mặt lý thuyết, kết quả được tạo ra từ các quy tắc không phụ thuộc vào thứ tự của các biến (các tài liệu) Thực tế, hai chuỗi phân lớp khác nhau sẽ cho hai kết quả khác nhau đơn giản vì chúng liên quan đến các tài liệu học được đưa vào để phân lớp là khác nhau trên tập huấn luyện khác nhau [DCH10]
Để giảm ảnh hưởng của thứ tự nhãn, năm 2009 Read et al đã đề xuất tính trung bình các dự đoán đa nhãn CC trên một bộ hoán vị (được chọn ngẫu nhiên)
Vì vậy, các nhãn λ 1, … ,λmlần đầu tiên được sắp xếp lại do phép hoán vị của
{1, … ,m}, trong đó di chuyển λi nhãn từ vị trí i đến vị trí π(i), và sau đó CC
được áp dụng như thường lệ Phần mở rộng này được gọi là tập hợp chuỗi phân lớp (Classifier Chain - ECC) [DCH10, ZPH09]
ECC được biết đến với nhiều với những tác động tích cực làm tăng độ chính xác tổng thể và khắc phục sự không phù hợp cũng như cho phép thực hiện song song Tập hợp chuỗi phân lớp này đã được sử dụng thành công trong nhiều bài toán đa nhãn [ZPH09]
Tác động tích cực của ECC được biết đến: ECC tạo ra m phân lớp CC: C1,
C2,…, C m Mỗi C k tạo ra:
- Một thứ tự chuỗi ngẫu nhiên (của L); và
- Một tập hợp con ngẫu nhiên của D
Do đó, mỗi một mô hình C k có thể là duy nhất có khả năng cung cấp các
dự đoán đa nhãn khác nhau Những dự đoán này được tóm tắt theo nhãn để mỗi
Trang 30nhãn nhận được một số xác nhận Sau đó, sử dụng một ngưỡng để chọn các nhãn phổ biến nhất hình thành bộ đa nhãn dự đoán cuối cùng
Mỗi mô hình riêng kth (của m mô hình) dự đoán vector y k = (l1, …, l |L|)∈ {0, 1}|L| Tổng số dự đoán này được lưu trữ trong một vector W=(λ1,…, λ|L|)∈R|L|
như vậy λj m k1l jy k Do đó mỗi λj ∈W đại diện cho tổng số xác nhận của
nhãnl j ∈L Sau đó tiêu chuẩn hóa W thành W norm, đại diện cho một phân phối
điểm của mỗi nhãn trong [0,1] Sử dụng một ngưỡng để chọn bộ đa nhãn Y cuối cùng, như vậyl j ∈Ytrong đó λj ≥t đối với ngưỡng t Do đó, các nhãn có liên quan trong Y là đại diện cho dự đoán đa nhãn cuối cùng [ZPH09]
ECC sẽ được tác giả chọn làm thuật toán cải tiến trong phần thực nghiệm
ở Chương 3 của luận văn này
2.5Phân lớp đa nhãn Bayes trực tuyến
Các ứng dụng trong thực tế thường liên quan đến một số lượng lớn các lớp và mỗi tài liệu có thể được gán cho nhiều lớp Chẳng hạn, một bài báo đưa
tin về “Obama ủng hộ cứu trợ AIG $170 tỷ sau khi tranh cãi căng thẳng” có thể
được gán nhãn liên quan đến bảo hiểm, kinh tế và chính trị[ZGH10]
Phân lớp đa nhãn thường phải đối mặt với những thách thức thực tế sau đây:
1 Quy mô vấn đề thì lớn với số lượng các điểm dữ liệu -n, số lượng các tính năng - D, và số lượng các lớp - C Thông thường, chúng ta có thể đáp ứng hầu hết độ phức tạp tính toán O(nDC) Do đó, quan trọng là phải có hiệu quả và
tránh các hoạt động đắt tiền (như so sánh cặp đôi)[ZGH10]
2 Thông thường phân lớp đa nhãn đượcthực hiện nhờ các biện pháp đa biến, ví dụ: F1-score trung bình cao và khu vực thuộc ROC Chúng ghép đôi nhãn của tất cả các điểm dữ liệu và/hoặc các lớp một cách không thể phân tích được Kết quả là các mô hình có được bằng cách giảm thiểu các lỗi xử lý thường hoạt động kém theo biện pháp mới này[ZGH10]