1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Một số thuật toán bayes phân lớp đa nhãn và áp dụng vào phân lớp văn bản đa nhãn lĩnh vực điện tử

30 65 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 30
Dung lượng 1,59 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Tóm tắt nội dung Phân lớp văn bản nĩi chung và phân lớp đa nhãn văn bản nĩi riêng là một lĩnh vực tuy khơng mới nhưng mang tính cấp thiết trong tất cả các lĩnh vực: kinh tế, chính trị,

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ CHĂM

MỘT LỚP THUẬT TOÁN BAYES PHÂN LỚP ĐA NHÃN

VÀ ÁP DỤNG VÀO PHÂN LỚP VĂN BẢN ĐA NHÃN

LĨNH VỰC ĐIỆN TỬ

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

HÀ NỘI - 2012

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ CHĂM

MỘT LỚP THUẬT TOÁN BAYES PHÂN LỚP ĐA NHÃN VÀ

ÁP DỤNG VÀO PHÂN LỚP VĂN BẢN ĐA NHÃN

LĨNH VỰC ĐIỆN TỬ

Ngành: Công nghệ Thông tin Chuyên ngành: Hệ thống Thông tin

Mã số: 60 48 05

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS Hà Quang Thụy

Hà Nội - 2012

Trang 3

Mục lục

Lời cam đoan 1

Lời cảm ơn 2

Tóm tắt nội dung 3

Mục lục 4

Bảng các ký hiệu và chữ viết tắt 6

Danh sách bảng biểu 7

Danh sách hình ảnh 8

Mở đầu 9

CHƯƠNG 1 GIỚI THIỆU CHUNG VỀ PHÂN LỚP ĐA NHÃN VĂN BẢN 11

1.1 Giới thiệu chung 11

1.1.1 Phân lớp văn bản 11

1.1.2 Phân lớp đa nhãn (Multiple Label Class - MLC) 12

1.1.3 Ý nghĩa và ứng dụng 13

1.2 Cách thức phân lớp đa nhãn 14

1.2.1 Phân lớp dựa vào xếp hạng 14

1.2.2 Phân lớp theo cấu trúc phân cấp (Hierarchical structure) 14

1.3 Phương pháp phân lớp đa nhãn 15

1.3.1 Phương pháp chuyển đổi bài toán 15

1.3.2 Phương pháp thích nghi thuật toán 20

Tóm tắt chương 1 22

CHƯƠNG 2 THUẬT TOÁN PHÂN LỚP ĐA NHÃN BAYES 23

2.1 Phân lớp Bayes 23

2.2 Giới thiệu chung về phân lớp đa nhãn Bayes 25

2.3 Phân lớp đa nhãn Bayes dựa trên chuỗi phân lớp 27

2.4 Phân lớp đa nhãn Bayes dựa trên chuỗi phân lớp cải tiến 29

2.5Phân lớp đa nhãn Bayes trực tuyến 33

Tóm tắt chương2 37

Trang 4

CHƯƠNG 3 THỰC NGHIỆM VÀ ĐÁNH GIÁ 38

3.1 Môi trường và các công cụ sử dụng thực nghiệm 38

3.2 Dữ liệu thực nghiệm 39

3.2.1 Đặc trưng một tài liệu thực nghiệm 39

3.2.2 Thu thập dữ liệu 41

3.3 Thực nghiệm 44

3.3.1 Phát biểu bài toán 44

3.3.2 Mô hình đề xuất 45

3.3.3 Mô tả cài đặt chương trình 50

3.3.4 Giới thiệu hệ thống 51

3.3.5 Thực nghiệm hệ thống 55

3.3.6 Đánh giá kết quả thực nghiệm 57

Tóm tắt chương 3 59

Kết luận và định hướng phát triển 60

TÀI LIỆU THAM KHẢO 61

PHỤ LỤC 62

Phụ lục I: Kết quả phân lớp chi tiết với thuật toán CC 62

Phụ lục II: Kết quả phân lớp chi tiết với thuật toán ECC 64

Trang 5

Tóm tắt nội dung

Phân lớp văn bản nĩi chung và phân lớp đa nhãn văn bản nĩi riêng là một lĩnh vực tuy khơng mới nhưng mang tính cấp thiết trong tất cả các lĩnh vực: kinh tế, chính trị, văn hĩa, xã hội, giáo dục – đào tạo, …

Phân lớp đa nhãn văn bản khơng chỉ là cách thức gán cho mỗi văn bản, giáo trình hay tài liệu các nhãn lớp nào đĩ mà thực sự hướng tới việc phân tích ngữ nghĩa, từ ngữ của văn bản giúp máy tính hiểu được tài liệu đĩ nĩi gì và cĩ thể thuộc về lớp tài liệu nào Việc này càng trở lên quan trọng trong các Nhà trường vì lượng tài liệu, giáo trình ngày càng lớn do ngành nghề mở rộng, số lược học sinh, sinh viên theo học ngày càng nhiều; chưa

kể đến kho giáo trình điện tử của mỗi trường, đặc biệt là kho giáo trình điện

tử được mang lại từ hệ thống Internet Từ đĩ giúp người quản lý trực tiếp cĩ thể kiểm sốt được số lượng giáo trình hiện cĩ chi tiết hơn: cĩ bao nhiêu giáo trình? phục vụ cho những ngành học nào? Giáo trình cần tìm cĩ thể được tìm thấy trong lớp tài liệu nào? …

Luận văn tập trung nghiên cứu một số thuật tốn phân lớp đa nhãn văn bản Bayes và tiến hành thử nghiệm áp dụng mơ hình đề xuất trên miền

dữ liệu là file dữ liệu được tổng hợp từ các giáo trình/tài liệu Điện tử tại trung tâm thư viên và kho dữ liệu mở của Trường Cao đẳng Cơng nghệ Viettronics và cho ra sản phẩm là hệ thống phân lớp đa nhãn tài liệu NVClassification (Nạve Bayes Classification) Hệ thống cĩ ba phần: Phần Client, phần Server và phần giao tiếp giữa Client và Server sử dụng Thrift 0

81

1http://thrift apache org/

Trang 6

Những thành tựu những năm gần đây trong lĩnh vực máy tính, thông tin và những công nghệ lưu trữ làm cho dữ liệu thu thập và được lưu trữ với lượng rất lớn Các kho dữ liệu tuy rất lớn nhưng thông tin lại nghèo nàn như hiện tượng “ngập trong dữ liệu nhưng thiếu thông tin” Do đó, vấn đề đặt ra

là làm thế nào để các tổ chức, cá nhân có thể thu được các tri thức và phân lớp các dữ liệu từ kho dữ liệu khổng lồ đó, tức là gán cho nó một nhãn và đặt nó vào một lớp cụ thể nào đó

Từ các yêu cầu đó, bài toán phân lớp đa nhãn các văn bản, tài liệu được nhiều công trình nghiên cứu đề cập đến

Phân lớp đa nhãn là bài toán phân lớp cho phép một đối tượng có thể

có nhiều hơn một nhãn Chẳng hạn như, trong bài toán phân lớp văn bản, nếu mỗi nhãn lớp tương ứng với một chủ đề thì một văn bản có thể thuộc vào nhiều chủ đề, tương ứng là văn bản đó được gán nhiều nhãn lớp Nhiều công trình nghiên cứu về các thuật toán phân lớp đã được công bố, chẳng hạn như [DCH10, GM05, GS04, PC10, RD10, TK07, ZGH10, ZPH09], trong đó công trình [TK07] cho một khái quát về các giải pháp phân lớp đa nhãn tới năm 2007 Từ năm 2007 tới nay, nhiều giải pháp phân lớp đa nhãn tiếp tục được đề xuất, chẳng hạn như [DCH10, PC10, RD10, ZGH10, ZPH09]

Một lớp thuật toán phân lớp đa nhãn điển hình là các thuật toán phân lớp đa nhãn Bayes Một số giải pháp phân lớp Bayes đa nhãn đã được đề xuất, chẳng hạn như [DCH10, ZGH10, ZPH09]

Luận văn tập trung nghiên cứu một số thuật toán phân lớp đa nhãn Bayes và ứng dụng vào phân lớp đã nhãn các tài liệu thuộc lĩnh vực điện tử

là lĩnh vực đã và đang được đào tạo tại Trường Cao đẳng Công nghệ Viettronics

Nội dung luận văn gồm có 3 chương:

Chương 1: Giới thiệu chung về phân lớp đa nhãn văn bản

Chương 2: Giới thiệu một số thuật toán phân lớp đa nhãn văn bản

Bayes

Đây là cơ sở để tác giả đưa ra mô hình thực nghiệm với những cải tiến ở chương 3

Chương 3: Thực nghiệm và đánh giá

Trình bày các bước cài đặt chương trình thi thành thực nghiệm hệ thống cài đặt theo mô hình đề xuất Đồng thời tiến hành đánh giá kết quả thử nghiệm của hệ thống Kết quả thực nghiệm cho thấy tính đúng đắn và khả năng áp dụng của mô hình vào thực tế là khả quan

Phần kết luận và định hướng phát triển luận văn: Tóm lược

những nội dung chính đạt được của luận văn Nghiên cứu, triển khai giải pháp nâng cao hiệu quả hệ thống phần mềm đã xây dựng

Trang 7

Chương 1 Giới thiê ̣u chung về phân lớp đa nhãn văn bản 1.1 Giới thiệu chung

1.1.1 Phân lớp văn bản

Phân lớp là một trong những mối quan tâm lớn của con người trong quá trình làm việc với một tập hợp đối tượng Điều này giúp họ có thể tiến hành việc sắp xếp, tìm kiếm các đối tượng một cách thuận lợi Khi biểu diễn đối tượng vào các hệ thống thông tin, tính chất lớp vốn có của đối tượng trong thực tế thường được biểu diễn tương ứng bằng một thuộc tính “lớp” riêng biệt [TK07]

Bài toán phân lớp văn bản được phân biệt một cách chi tiết hơn,

phân lớp nhị phân khi miền áp dụng chỉ có 2 lớp (|C| = 2), và phân lớp đa nhãn khi miền áp dụng có nhiều hơn hai lớp (|C| >2) [TK07]

Phân lớp văn bản là một trong những nhiệm vụ quản lý tài liệu dựa trên nội dung Đây là một vấn đề quan trọng trong việc gán một tài liệu vào một hoặc nhiều lớp cho trước[TK07, XL05]

1.1.2 Phân lớp đa nhãn (Multiple Label Class - MLC)

a Khái quát

Phân lớp đơn nhãn, mỗi tài liệu chỉ được gán chính xác vào một và chỉ một lớp; Phân lớp đa nhãn (MLC) cho phép gán một đối tượng (văn bản, giáo trình, tài liệu,…) vào một hoặc nhiều lớp đồng thời [HPDN09, DCH10, GM05, TK07]

Phân lớp đa nhãn được các nhà nghiên cứu định nghĩa thống nhất như là việc gán tên các chủ đề (tên lớp/nhãn lớp) đã được xác định trước vào các văn bản dựa trên nội dung của nó [TK07]

b Bài toán phân lớp đa nhãn

Trong [DCH10], bài toán phân lớp đa nhãn được Dembczyński và các cộng sự mô tả chi tiết như sau:

Cho χ biểu thị một không gian tính năng/đặc trưng, và L =

1 ,λ2 ,…,λm} là một tập hợp hữu hạn của các nhãn lớp Giả định rằng một phiên bản x  là χ (không tất định) liên kết với một tập hợp con của các

nhãn L 2L, tập hợp con này thường được gọi là các thiết lập của nhãn có liên quan, trong khi phần bù L\L được coi là không thích hợp đối với x Từ

đó, xác định một tập hợp L các nhãn có liên quan với một vector nhị phân

y=(y 1 , y 2 ,…, y m ), trong đó y i =1λiL Y = {0, 1} m xác định được tập nhãn

có khả năng

Trang 8

Giả định quan sát được tạo ra một cách độc lập và ngẫu nhiên theo

một phân bố xác suất P(X, Y) trên χ × Y, nghĩa là một quan sát y = (y 1 ,

thị Px(Y)=P(Y|x) phân phối có điều kiện của Y cho X = x, và

)

|(

y b

Một phân lớp đa nhãn h là một X → Y chỉ định một tập hợp con nhãn

(dự đoán) mỗi trường hợp x χ Vì vậy, số lượng của một phân lớp h là một

vector:

h(x) = (h 1 (x), h 2 (x), … , h m (x))

Thông thường, MLC được coi là một bài toán xếp hạng, trong đó các nhãn được sắp xếp theo mức độ phù hợp Sau đó, dự báo sẽ nhận mẫu xếp hạng hoặc chức năng chấm điểm:

1.2 Cách thức phân lớp đa nhãn

1.2.1 Phân lớp dựa vào xếp hạng

Một cách thức phân lớp thuộc về nhóm học có giám sát và liên quan

chặt chẽ đến phân lớp đa nhãn là xếp hạng (Ranking) Nhiệm vụ xếp hạng

là sắp xếp theo thứ tự tập hợp các nhãn L [TK07, GM05]

1.2.2 Phân lớp theo cấu trúc phân cấp (Hierarchical structure)

Năm 2001, Clare & King chỉ ra rằng, trong một số bài toán phân lớp

cụ thể, các nhãn thuộc về một cấu trúc phân cấp Hệ thống phân cấp lên đến

4 cấp [TK07]

Khi các nhãn trong một tập hợp dữ liệu thuộc về một cấu trúc phân cấp thì chúng ta gọi đó là phân lớp theo cấu trúc phân cấp Nếu mỗi mẫu được cấp nhãn với nhiều hơn một nút trong cấu trúc phân cấp, thì cách thức phân lớp này được gọi là phân lớp đa nhãn phân cấp [TK07]

Trang 9

1.3 Phương pháp phân lớp đa nhãn

1.3.1 Phương pháp chuyển đổi bài toán

Để minh họa phương pháp này, chúng ta sẽ sử dụng dữ liệu của Bảng 1.1 Nó bao gồm bốn mẫu (tài liệu trong trường hợp này) thuộc về một hoặc nhiều của 4 lớp: Sports, Religion, Science, Politics [TK07]

Bảng 1.1: Mẫu bộ dữ liệu đa nhãn

a Phương pháp 1 (được đặt tên là PT1)

Phương pháp này lựa chọn một cách chủ quan hoặc ngẫu nhiên một trong nhiều nhãn của từng phiên bản đa nhãn và loại bỏ các nhãn còn lại

b Phương pháp 2 (được đặt tên là PT2)

Phương pháp này chỉ đơn giản là loại bỏ tất cả các phiên bản đa nhãn

ra khỏi tập hợp dữ liệu Bảng 1.2 và Bảng 1.3 cho thấy bộ dữ liệu được chuyển đổi bằng cách sử dụng phương pháp PT1 và PT2 Hai phương pháp chuyển đổi bài toán loại bỏ nhiều thông tin của dữ liệu gốc đa nhãn [TK07]

Bảng 1.2: Dữ liệu được chuyển đổi bằng phương pháp PT1

Bảng 1.3: Dữ liệu được chuyển đổi bằng phương pháp PT2

c Phương pháp 3 (được đặt tên là PT3)

Phương pháp này xem xét mỗi bộ nhãn khác nhau tồn tại trong bộ dữ liệu đa nhãn như là một đơn nhãn Nên nó nhận biết một phân lớp đơn nhãn

H: X→P(L), trong đó P(L) là tập hiệu suất của L Bảng 1.4 cho thấy kết quả

của việc chuyển đổi dữ liệu của Bảng 1.1 bằng cách sử dụng phương pháp này Một trong những mặt hạn chế của PT3 là nó có thể dẫn đến các tập hợp

dữ liệu với số lượng lớn các lớp và ít mẫu trong mỗi lớp [TK07]

Trang 10

Bảng 1.4: Dữ liệu được chuyển đổi bằng phương pháp PT3

d Phương pháp 4 (được đặt tên là PT4)

Phương pháp chuyển đổi bài toán phổ biến nhất (gọi là PT4) nhận

biết |L| phân lớp nhị phân H l : X → {l, ¬l}, cho mỗi nhãn khác nhau l trong

tập dữ liệu gốc, được gắn nhãn l nếu nhãn của các mẫu gốc là l và được gắn nhãn ¬l của các mẫu gốc không phải l

Đối với việc phân lớp của một mẫu mới x, phương pháp này đưa ra kết quả là một tập nhãn hợp nhất, sản phẩm của |L| phân lớp [TK07]:

L l

Hình 1.1: Bốn tập hợp dữ liệu được PT4 tạo ra

e Phương pháp 5 (được đặt tên là PT5)

Trước tiên, nó tách từng mẫu (x,Y) trong |Y| thành (x, l) với mọi lY

Sau đó, nó nhận biết một phân lớp đơn nhãn dựa trên vùng phủ từ bộ dữ liệu chuyển đổi Phân lớp hàm suy rộng là những phân lớp có thể tạo ra một hàm

suy rộng có bậc chính xác (hoặc xác suất) cho tất cả các nhãn trong L Cuối

Trang 11

cùng, hàm suy rộng được xử lý để đưa ra một tập hợp nhãn Bảng 1.5 cho thấy kết quả của việc chuyển đổi dữ liệu của Bảng 1.1 bằng cách sử dụng phương pháp này[TK07]

Bảng 1.5: Dữ liệu được chuyển đổi bằng phương pháp PT5

f Phương pháp nhị phân (Binary relevance Method - BM)

Phương pháp BM biến đổi bài toán đa nhãn bất kỳ thành một bài toán

nhị phân cho mỗi nhãn Do đó, phương pháp này tạo phân lớp nhị phân |L|,

C 1 ,…, C |L| Mỗi lớp C j có trách nhiệm dự đoán sự kết hợp 0/1 cho mỗi nhãn

tương ứng l jL Phương pháp BM luôn loại bỏ cơ sở giả định về độc lập

nhãn [ZPH09]

g Phương pháp chuỗi phân lớp (Classifier Chains – CC)

Phương pháp chuỗi phân lớp được sử dụng có thể khắc phục và có giá trị hơn phương pháp BM bởi những ưu điểm của nó và bất kỳ phương pháp nào gắn với nó [ZPH09], phương pháp này sẽ được trình bày cụ thể hơn trong mục 2.3 của Chương 2

h Phương pháp kết hợp nhãn (label combination method - CM)

Cơ sở của phương pháp này là kết hợp các bộ nhãn nguyên tử (đơn) nhằm tạo ra một bài toán đơn nhãn đại diện cho tất cả các tập con nhãn

riêng biệt trong bộ gốc đa nhãn Mỗi (x,S) được chuyển đổi thành (x,l), trong đó l là nhãn đơn đại diện cho một tập hợp nhãn con riêng biệt Bằng

cách này, các phương pháp dựa trên CM đã trực tiếp tính đến các mối tương quan nhãn Đối với các bộ dữ liệu có kích thước nhỏ thì phương pháp này

có thể chính xác hơn là đối với các bộ dữ liệu lớn [ZPH09]

1.3.2 Phương pháp thích nghi thuật toán

a Phương pháp PT6

Năm 2001, Clare và King chuyển thể các thuật toán C4.5 [TK07] cho

dữ liệu đa nhãn Họ đã thay đổi công thức tính toán dữ liệu ngẫu nhiên như sau:

)4())(log)()(log)(()(

i

i p c q c q c c

p S

entropy

Trong đó p(c i ) là tần số tương đối của lớp c i và q(c i ) = 1 - p(c i ) Họ

cũng cho phép các đa nhãn trong cùng lớp [TK07]

Trang 12

Adaboost.MH và Adaboost.MR là hai phần mở rộng cho phân lớp đa nhãn của AdaBoost Trong AdaBoost.MH khi các kết quả đầu ra của các

phân lớp yếu là dương (positive) cho một mẫu x mới và một nhãn l thì ta coi mẫu này có thể được gắn nhãn l, trong khi nếu nó là âm (negative), thì mẫu này không gắn nhãn l [TK07]

Hai thuật toán này là sự thích nghi của một phương pháp tiếp cận đặc biệt, cốt lõi của các thuật toán này là thực sự sử dụng việc chuyển đổi bài

toán (được đặt tên là PT6): Mỗi mẫu (x, Y) được tách thành |L| mẫu (x,l,Y[l]), cho tất cả các lL, trong đó Y[l]=1 nếu lY, và Y[l] = -1 cho các

trường hợp khác Bảng 1.6 cho thấy kết quả của việc chuyển đổi dữ liệu của Bảng 1.1 bằng cách sử dụng phương pháp này [TK07]

Bảng 1.6: Dữ liệu được chuyển đổi bằng phương pháp PT6

b Phương pháp ML – kNN (Multiple Label – k Neibough)

ML - kNN là sự chuyển thể của thuật toán k người láng giềng gần nhất đối với các dữ liệu đa nhãn (tương tự như PT4) Về bản chất, ML-kNN

sử dụng các thuật toán kNN độc lập cho mỗi nhãn l: Nó tìm từ mẫu k gần nhất đến các trường hợp kiểm tra và xem xét đối tượng được gắn nhãn với l

là dương và đối tượng còn lại là âm Điểm khác biệt chủ yếu của phương

pháp này từ việc áp dụng thuật toán kNN ban đầu đến vấn đề chuyển đổi sử dụng PT4 là việc sử dụng của xác suất trước ML-kNN cũng có khả năng

xếp thứ hạng của nhãn như là một kết quả đầu ra [TK07]

Trang 13

Chương 2 Thuật toán phân lớp đa nhãn Bayes

2.1 Phân lớp Bayes

Kỹ thuật phân lớp của Bayes dựa trên cơ sở định lý Bayes Với mỗi loại đối tượng (object) thì thuật toán Bayes tính cho mỗi lớp đối tượng một xác suất mà mẫu cần phân lớp có thể thuộc vào lớp đó

Ý tưởng chính của thuật toán là tính xác suất hậu nghiệm của sự kiện

các xác suất tiên nghiệm của sự kiện c xuất hiện khi sự kiện x đã có trong tất

cả các điều kiện riêng T thuộc không gian :

Trong trường hợp phân lớp văn bản, xét biểu diễn văn bản thông qua

tập các từ khóa có trong văn bản đó Gọi V là tập tất cả các từ vựng Giả sử

có N lớp tài liệu là c 1 , c 2 ,c 3 , … c N Mỗi lớp c i có xác xuất p(c i ) và ngưỡng

CtgTshi ; Gọi p(c| Doc) là xác xuất để tài liệu Doc thuộc lớp c hay “xác xuất

để sự kiện c xuất hiện khi đã có sự kiện Doc”

Cho một lớp c và một tài liệu Doc, nếu xác xuất p(x|Doc) tính được

lớn hơn hoặc bằng giá trị ngưỡng CtgTshc của lớp c thì kết luận tài liệu Doc thuộc vào lớp c

Tài liệu Doc được biểu diễn như một vector có kích thước là số từ

khóa trong tài liệu Mỗi thành phần chứa một từ trong tài liệu và tần suất xuất hiện của từ đó trong tài liệu Thuật toán được thực hiện trên tập từ

vựng V, p(x| Doc) và quyết định tài liệu Doc sẽ thuộc vào lớp nào

Xác xuất p(x| Doc) được tính theo công thức sau:

Trong đó: |V| là số lượng các từ khóa có trong từ vựng V; F j là từ

khóa thứ j trong từ vựng V; TF(F j | Doc) là tần suất của từ F j trong tài liệu

(số lần F j xuất hiện trong tất cả các tài liệu thuộc lớp c); p(F j |c) là xác suất

có điều kiện để từ F xuất hiện trong tài liệu của lớp c

c p

Trang 14

Để giảm sự phức tạp và thời gian tính toán, để ý rằng, không phải tài

liệu Doc đã cho đều chứa tất cả các từ trong tập từ vựng V Do đó, TF(F i |

Doc) = 0 khi từ F i thuộc V nhưng không thuộc tài liệu Doc, nên ta có

p((F j |c))TF(Fj, Doc) = 1 Vậy, công thức (6) được viết lại như sau:

))

|((

*)(

))

|((

*)(

|

) , ( 1

) , (

Doc F TF i n

i i

Doc F

Doc F TF j

j

i j

j

c F P c

p

c F P c

p Doc c p

Như vậy, trong quá trình phân lớp không dựa vào toàn bộ tập từ vựng

mà chỉ dựa vào các từ khóa xuất hiện trong tài liệu Doc [HPDN09]

2.2 Giới thiệu chung về phân lớp đa nhãn Bayes

Phân lớp đa nhãn Bayes giả định là tất cả các đặc trưng là độc lập cho các nhãn lớp (độc lập với ngữ cảnh và vị trí của nó trong tài liệu)

1

) 9 ( )

| ( )

| (

Trong trường hợp với dữ liệu Gausian, nhận được kết quả:

c y x p

1

) 10 ( )

,

| ( ) ,

|

Vì vậy, chỉ cần ước tính các thông số Gausian riêng biệt C D, các ic , ic

Cho X = k, có nghĩa là từ X xuất hiện chính xác k lần, với k = 0:K-1,

để đơn giản, chúng ta sẽ nói từ này có trọng số k (Nếu từ xuất hiện nhiều hơn K - 1 lần trong một tài liệu, thì chỉ coi nó xuất hiện K - 1 lần trong tài liệu; ở đây K sử dụng như một cận trên) Trong trường hợp này, ta có thể

đại diện cho mật độ lớp có điều kiện như là một sản phẩm của đa thức:

i

c Y x p

1 1

) (

) 11 ( )

kick với mọi i, c)

2.3 Phân lớp đa nhãn Bayes dựa trên chuỗi phân lớp

Chuỗi phân lớp (Classifier Chains – CC) [ZPH09]

Mô hình phân lớp đa nhãn dựa trên CC liên quan đến phân lớp nhị

phân |L| như BM (BM biến đổi bất kỳ vấn đề nhiều nhãn vào một vấn đề nhị phân cho mỗi nhãn; do đó phương pháp này huấn luyện |L| phân lớp nhị phân C 1 , … C |L| ) Một số ký hiệu, đối với tài liệu huấn luyện (x,S), trong đó:

S L được biểu diễn đặc trưng bởi vector nhị phân (l 1 ,l 2 ,…,l |L|){0,1}|L| và x là một ví dụ vector đặc trưng

Trang 15

Thủ tục huấn luyện được trình bày trong hình 2.1 sau đây:

Trong đó, mỗi chuỗi C 1 ,…, C |L| của phân lớp nhị phân được hình

thành Mỗi phân lớp C j trong chuỗi có trách nhiệm nhận biết và dự đoán kết

hợp nhị phân của nhãn L j với không gian tính năng đã cho, bổ sung với tất

cả các các dự đoán nhị phân liên quan trước đó trong chuỗi l 1 …l j-1 Quá

trình phân lớp bắt đầu C 1 và lan truyền dọc theo chuỗi: C 1 xác định Pr(l 1 |x)

và tất cả các phân lớp sau: C 2 …C |L| dự đoán Pr(l j | x i , j 1 ,l j-1) Quá trình phân lớp này được trình bày trong Hình 2.2

CLASSIFY (x)

1 Y {}

2 for j 1 to |L|

3 do Y Y (l j C j : (x, l1,…, l j-1))

4 return (x, Y) ► the classified example

Hình 2.2: Giai đoạn dự đoán của CC cho phiên bản kiểm tra x

Phương pháp chuỗi này thông qua thông tin nhãn giữa các lớp, CC xem xét mối tương quan nhãn và từ đó khắc phục vấn đề độc lập nhãn của phương pháp phân lớp nhị phân (BM)

CC không thể thực hiện song song được, nó chỉ có thể diễn ra tuần tự

và do đó chỉ yêu cầu một bài toán nhị phân trong bộ nhớ tại mọi thời điểm trong chuỗi thời gian – đấy là một lợi thế rõ ràng hơn các phương pháp

khác Trình tự của chính các chuỗi đã ảnh hưởng đến độ chính xác

2.4 Phân lớp đa nhãn Bayes dựa trên chuỗi phân lớp cải tiến

Chuỗi phân lớp theo xác suất (Probabilistic Classifier Chains - PCC), nhóm tác giả đề nghị một chương trình xác suất để xem xét vấn đề từ quan điểm giảm thiểu rủi ro và dự đoán tối ưu Bayes [DCH10]

Ngày đăng: 06/03/2020, 00:09

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm