1. Trang chủ
  2. » Giáo án - Bài giảng

Các phương pháp xác định mối quan hệ đa nhãn và ứng dụng trong phân lớp đa nhãn tiếng Việt

14 419 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 14
Dung lượng 861 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

N i dung ộ Giới thiệu đề tài  Các thuật toán học đa nhãn  Mối quan hệ trong phân lớp đa nhãn  Định hướng nghiên cứu tiếp theo...  Cơ sở thực tiễn: như: Phân loại văn bản tự động và

Trang 1

BÁO CÁO NGHIÊN C U Đ Ứ Ề

Giáo viên HD : TS Nguyễn Cẩm Tú Học viên : Đỗ Thị Nương

Trang 2

N i dung ộ

 Giới thiệu đề tài

 Các thuật toán học đa nhãn

 Mối quan hệ trong phân lớp đa nhãn

 Định hướng nghiên cứu tiếp theo

Trang 3

Gi i thi u đ tài ớ ệ ề

Gi i thi u đ tài ớ ệ ề

 Tên đề tài:

ứng dụng trong phân lớp đa nhãn tiếng Việt”.

 Cơ sở thực tiễn:

như: Phân loại văn bản tự động và chuẩn đoán trong

y học…

quan trọng trong nâng cao chất lượng gán nhãn.

 Ví dụ: một ảnh được gán nhãn “bãi biển” sẽ loại trừ được

nhãn "sa mạc";

 Các nhãn "bóng đá, câu lạc bộ, đội bóng" thường đồng xuất hiện với nhau trong quá trình gán nhãn văn bản

Trang 4

Phân l p đa nhãn ớ

 Bài toán phân lớp tổng quát:

◦ C = {c 1 , c 2 , …, c K }: tập K lớp

◦ X = {x i } (i=1,2,…) là không gian các đối tượng cần phân lớp

◦ Xây dựng một ánh xạ f : X → C

◦ Ánh xạ f được gọi là mô hình phân lớp (classification model, classifier)

◦ Xây dựng mô hình f bằng học giám sát (supervised learning)

 D = {(x 1 , c 1 ), (x 2 , c 2 ), …, (x N , c N )} trong đó x n ∈ X, c n C là tập dữ liệu huấn luyện ∈

(training data)

 Huấn luyện mô hình f dựa trên tập huấn luyện D sao cho f phân lớp chính xác

nhất có thể

 Phân lớp đơn nhãn

◦ c i chỉ bao gồm 1 phần tử duy nhất.

 Phân lớp đa nhãn

◦ c > 1 phần tử

Trang 5

Các gi i thu t h c đa nhãn ả ậ ọ

1. Binary Relevance(BR)

2. Label Powerset (LP)

3. Classifier Chain

4. Multi-label k-Nearest Neighbors (MLkNN)

Trang 6

Các gi i thu t h c đa nhãn(tt) ả ậ ọ

Các gi i thu t h c đa nhãn(tt) ả ậ ọ

 Không xét đến đặc trưng của các thể hiện

 Xét tập dữ liệu huấn luyện:

 Tập các thể hiện X = {1, 2, 3, 4}

 Xét tập lớp Y = {y 1 , y 2 , y 3 , y 4 }

Instance Label

1 {y2, y3}

2 {y1}

3 {y1, y2, y3}

4 {y2, y4}

Trang 7

Binary Relevance(BR)

xây dựng một bộ nhị phân cho từng nhãn trong tập

nhãn.

hoặc không thuộc lớp Yj ( Bộ phân lớp nhị phân)

Ex Label

1 ¬y1

2 y1

3 y1

4 y1

Ex Label

1 y2

2 ¬y2

3 y2

4 y2

Ex Label

1 y3

2 ¬y3

3 y3

4 ¬y3

Ex Label

1 ¬y4

2 ¬y4

3 ¬y4

4 y4

Trang 8

Label Powerset (LP)

 Ý tưởng: Xem mỗi tập nhãn trong tập dữ liệu như

là một nhãn đơn

◦ Tiến hành việc phân lớp đơn nhãn

◦ Tập các nhãn con tạo ra là lớn.

Instance Label

1 y2,3

2 y1

3 y1,2,3

4 y2,4

Instance Label

1 {y2, y3}

2 {y1}

3 {y1, y2, y3}

4 {y2, y4}

Trang 9

Các gi i thu t h c đa nhãn(tt) ả ậ ọ

 Binary Relevance(BR): Coi các nhãn là độc lập

không có quan hệ với nhau

 Label Powerset (LP): Có xét đến quan hệ các

nhãn

⇒Vấn đề khi các nhãn có quan hệ với nhau, và số lượng nhãn lớn

⇒Với dữ liệu văn bản có kích thước lớn, chứa đựng nhiều thông tin chủ chốt, cũng như thông tin

nhiễu Vì vậy, cần có một phương pháp cho việc

lựa chọn đặc trưng để có thể tối giản bài toán

phân lớp

Trang 10

M i quan h trong phân l p đa ố ệ ớ

nhãn

độc lập Nói cách khác, mối quan hệ đa nhãn

không được tận dụng trong phân lớp đa nhãn

ví như: mối quan hệ giữa “nhãn phù hợp” và

“nhãn không phù hợp” trong quá trình xếp hạng nhãn

theo đó toàn bộ các nhãn đều có ảnh hưởng tới việc phân lớp mỗi nhãn; hoặc quan hệ bộ phận

trong đó với một nhãn nhất định, tồn tại một

nhóm con trong số toàn bộ các nhãn có ảnh

Trang 11

M i quan h trong phân l p đa ố ệ ớ

nhãn(tt)

 Bayesian network

Trang 12

Đ nh h ị ướ ng nghiên c u ti p theo ứ ế

 Tìm hiểu về các giả thuật học đa nhãn:

◦ Bayesian network.

◦ Maximum Entropy

 Tìm hiểu phương pháp lựa chọn đặc trưng

◦ LDA…

 Khảo sát việc ứng dụng trong phân lớp đa nhãn tiếng Việt

Trang 13

Tài li u tham kh o ệ ả

[1] Sorower, Mohammad S "A literature survey on algorithms for multi-label

learning." Preprint 63 (2010).

[2] Zhang, Min-Ling, and Kun Zhang "Multi-label learning by exploiting label

dependency." Proceedings of the 16th ACM SIGKDD international conference on

Knowledge discovery and data mining ACM, 2010

[3] Min-LingZhangandKunZhang Multi-label learning by exploiting label dependency In Proceedings of the 16 th ACMSIGKDD international conference on Knowledge discovery and data mining, KDD’10, pages 999–1008, NewYork, NY, USA, 2010 ACM.

Trang 14

Cảm ơn thầy cô và các bạn đã lắng nghe!

Ngày đăng: 05/12/2016, 22:07

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w