1. Trang chủ
  2. » Thể loại khác

MÔ HÌNH HÓA CHỦ ĐỀ SUỐT ĐỜI VÀ ỨNG DỤNG VÀO PHÂN LỚP ĐA NHÃN VĂN BẢN TIẾNG VIỆT KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

44 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 44
Dung lượng 0,92 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

iii TÓM TẮT Tóm tắt: Học máy suốt đời đang nổi lên trong những năm gần đây nhờ vào khả năng sử dụng tri thức học được trong quá khứ cho việc học hiện tại, giải quyết được một số vấn đề

Trang 1

Trần Thị Minh Tươi

MÔ HÌNH HÓA CHỦ ĐỀ SUỐT ĐỜI VÀ

ỨNG DỤNG VÀO PHÂN LỚP ĐA NHÃN VĂN BẢN

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Trần Thị Minh Tươi

MÔ HÌNH HÓA CHỦ ĐỀ SUỐT ĐỜI VÀ

ỨNG DỤNG VÀO PHÂN LỚP ĐA NHÃN VĂN BẢN

Trang 3

i

sự hướng dẫn của PGS TS Hà Quang Thụy và TS Phạm Thị Ngân

Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách

rõ ràng từ danh mục tài liệu tham khảo trong khóa luận Trong khóa luận, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo

Hà Nội, ngày 26 tháng 04 năm 2018

Người cam đoan

Trần Thị Minh Tươi

Trang 4

ii

LỜI CẢM ƠN

Đầu tiên, tôi xin được gửi lời cảm ơn sâu sắc nhất đến PGS TS Hà Quang Thụy

và TS Phạm Thị Ngân, những người đã trực tiếp tận tình chỉ bảo và hướng dẫn tôi từ những ngày đầu tiên bước chân vào lĩnh vực nghiên cứu này Thầy, Cô luôn là động lực

và nguồn cảm hứng lớn lao giúp tôi giữ lửa đam mê và nỗ lực không ngừng trong suốt quá trình học tập và tham gia nghiên cứu tại trường Đại học Công nghệ - Đại học Quốc gia Hà Nội

Tôi xin gửi lời cảm ơn đến các quý Thầy, Cô giáo thuộc trường Đại học Công nghệ - Đại học Quốc gia Hà Nội nói chung, và khoa Công nghệ thông tin nói riêng, đã truyền đạt nhiều kiến thức quý báu và tạo điều kiện học tập thuận lợi cho tôi trong suốt bốn năm đại học

Tôi cũng xin gửi lời cảm ơn chân thành đến các thầy cô giáo, các anh chị, các bạn và các em sinh viên thuộc phòng thí nghiệm Khoa học dữ liệu và Công nghệ tri thức, khoa Công nghệ thông tin, trường Đại học Công nghệ - Đại học Quốc gia Hà Nội, đặc biệt là các thành viên thuộc nhóm nghiên cứu đã hỗ trợ tôi rất nhiệt tình về cả kiến thức chuyên môn, vật chất và tinh thần để tôi có thể hoàn thành tốt khóa luận này Cuối cùng, tôi gửi lời cảm ơn sâu sắc tới gia đình và bạn bè của tôi, những người luôn đồng hành, ủng hộ và động viên tôi để tôi có thể vượt qua nhiều thử thách và khó khăn trong cuộc sống

Tôi xin chân thành cảm ơn!

Hà Nội, ngày 26 tháng 04 năm 2018

Sinh viên

Trần Thị Minh Tươi

Trang 5

iii

TÓM TẮT

Tóm tắt: Học máy suốt đời đang nổi lên trong những năm gần đây nhờ vào khả năng sử dụng

tri thức học được trong quá khứ cho việc học hiện tại, giải quyết được một số vấn đề của các

mô hình học máy cô lập như: đòi hỏi một lượng lớn các ví dụ học, chỉ phù hợp với các nhiệm

vụ hẹp và xác định…

Mục đích chính của khóa luận này là nghiên cứu giải thuật mô hình hóa chủ đề suốt đời AMC (Z Chen và B Liu, 2014), qua đó đề xuất một phương pháp mô hình hóa chủ đề suốt đời học thiên mức miền và sử dụng mô hình chủ đề suốt đời vào bài toán phân lớp đa nhãn văn bản tiếng Việt

Phương pháp đề xuất bao gồm hai pha chính: (1) mô hình hóa chủ đề suốt đời và (2) phân lớp đa nhãn Tại pha thứ nhất, ý tưởng cơ bản là chỉ sử dụng các miền gần trong việc sinh

mô hình chủ đề Các miền gần được xác định thông qua một độ tương tự giữa hai chủ đề Tại pha thứ hai, một giải thuật phân lớp đa nhãn bán giám sát được sử dụng để đánh giá đóng góp của mô hình chủ đề đề xuất trong phân lớp đa nhãn Mô hình chủ đề sinh từ pha (1) được dùng

để biểu diễn đặc trưng trong phân lớp đa nhãn

Một vài thực nghiệm được thực hiện trên miền dữ liệu tiếng Việt và một giải thuật phân lớp đa nhãn MULTICS (Pham và cộng sự, 2017) Dữ liệu thực nghiệm được chia thành các tập

có kích thước từ nhỏ tới lớn nhằm khai thác sự ảnh hưởng của mô hình đề xuất lên một tập dữ liệu nhỏ - vấn đề có ý nghĩa quan trọng trong học suốt đời Các kịch bản thực nghiệm so sánh hiệu suất của phương pháp đề xuất với các phương pháp mô hình chủ đề khác như LDA, AMC Kết quả thực nghiệm cho thấy phương pháp đề xuất tốt hơn phương pháp LDA và AMC trong mọi trường hợp

tương tự của hai túi từ, phân lớp đa nhãn

Trang 6

iv

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

TÓM TẮT iii

MỤC LỤC iv

DANH SÁCH THUẬT NGỮ vii

DANH SÁCH HÌNH VẼ viii

DANH SÁCH BẢNG ix

MỞ ĐẦU 1

CHƯƠNG 1 TỔNG QUAN VỀ HỌC MÁY SUỐT ĐỜI, PHÂN LỚP ĐA NHÃN VÀ SƠ BỘ BÀI TOÁN ĐỀ XUẤT 3

1.1 Học máy suốt đời 3

1.1.1 Định nghĩa LML 3

1.1.2 Mô hình học máy suốt đời 4

1.2 Phân lớp đa nhãn 5

1.3 Sơ bộ bài toán trong khóa luận 6

CHƯƠNG 2 CÁC PHƯƠNG PHÁP LDA, AMC, MULTICS 8

2.1 Mô hình chủ đề suốt đời 8

2.1.1 Mô hình chủ đề 8

2.1.2 Mô hình chủ đề suốt đời 9

2.1.3 Must-Links và Cannot-Links 9

2.2 Mô hình chủ đề ẩn LDA 10

2.3 Mô hình chủ đề suốt đời AMC 11

2.3.1 Tổng quan về AMC 11

2.3.2 Mô hình AMC 14

Trang 7

v

2.4 Thuật toán phân lớp đa nhãn bán giám sát MULTICS 15

2.4.1 Phân lớp đa nhãn bán giám sát 15

2.4.2 Thuật toán phân lớp đa nhãn bán giám sát MULTICS 15

2.5 TF-IDF 18

2.5.1 TF (term-frequency) 19

2.5.2 IDF (inverse document frequency) 19

Tóm tắt chương 19

CHƯƠNG 3 PHƯƠNG PHÁP ĐỀ XUẤT 20

3.1 Xây dựng bài toán 20

3.2 Xác định miền gần 20

3.2.1 Độ đo tương tự của hai túi từ 20

3.2.2 Chủ đề gần 21

3.2.3 Xác định miền gần 21

3.3 Phương pháp mô hình hóa chủ đề suốt đời đề xuất 22

3.4 Phân lớp đa nhãn văn bản tiếng Việt áp dụng chủ đề suốt đời 23

Tóm tắt chương 24

CHƯƠNG 4 THỰC NGHIỆM VÀ KẾT QUẢ 25

4.1 Tập dữ liệu 25

4.2 Các kịch bản thực nghiệm và đánh giá 26

4.3 Kết quả thực nghiệm và đánh giá 27

4.1.1 Đánh giá chất lượng chủ đề của mô hình đề xuất với chủ đề của các mô hình LDA, AMC 28

4.1.2 Đánh giá hiệu suất phân lớp đa nhãn sử dụng mô hình chủ đề đề xuất với các mô hình chủ đề LDA, AMC 28

Tóm tắt chương 30

KẾT LUẬN 31

Kết luận 31

Trang 8

vi

Các công việc trong tương lai 31

TÀI LIỆU THAM KHẢO 32

Trang 9

vii

DANH SÁCH THUẬT NGỮ

Term Frequency - Inverse Document Frequency TF-IDF

Trang 10

viii

DANH SÁCH HÌNH VẼ

Hình 1.1 Mô hình học máy suốt đời……….4 Hình 1.2 Mô hình tổng quan bài toán……… 6 Hình 2.1 Mô hình AMC………14 Hình 2.2 Khung phân lớp đa nhãn bán giám sát với việc giảm và làm giàu đặc trưng…16 Hình 3.1 Mô hình chủ đề suốt đời đề xuất……… 22 Hình 3.2 Mô hình phân lớp đa nhãn văn bản tiếng Việt sử dụng chủ đề suốt đời…… 24

Trang 11

ix

DANH SÁCH BẢNG

Bảng 4.1 Các tập dữ liệu thực nghiệm 25 Bảng 4.2 Số liệu kiểm tra miền gần 28 Bảng 4.3 Kết quả các kịch bản thực nghiệm 29

Trang 12

1

MỞ ĐẦU

Hiện nay, khoa học công nghệ đang có những bước phát triển mạnh mẽ với nhiều thành tựu vượt bậc trong lĩnh vực trí thông minh nhân tạo, sự phát triển đó đồng nghĩa với việc đòi hỏi một nền tảng tri thức ngày càng thông minh hơn, do đó khả năng học tựa như con người càng trở nên quan trọng Học máy suốt đời chính là một giải pháp cho vấn đề đó

Theo Z.Chen và B.Liu [1], học máy suốt đời là một mô hình học máy tiên tiến, học liên tục, tích lũy tri thức học được trong quá khứ và sử dụng chúng cho việc học trong tương lai Trong quá trình này, máy học ngày càng trở nên hiệu quả và hiểu biết hơn Khả năng học tập này chính là một trong những điểm nổi bật của trí tuệ con người Trong chương “The construct of general intelligence” của [2], Loyd Humphreys chỉ ra rằng trí thông minh là kết quả của quá trình tiếp thu, lưu trữ, trích xuất, kết hợp, so sánh

và sử dụng trong bối cảnh thông tin và kĩ năng tư duy mới Như vậy, học máy suốt đời

có thể mang lại trí thông minh thực sự cho hệ thống Hiện nay, học máy suốt đời đã được ứng dụng trong một số lĩnh vực trí thông minh nhân tạo và xử lí ngôn ngữ tự nhiên như chatbot, trợ lí thông minh, robot vật lý…

Mặc dù đã mang lại những đột phá nhất định trong khoa học công nghệ, nhưng ứng dụng của học máy suốt đời trong khai phá văn bản tiếng Việt vẫn là một bài toán khá mới Đặc biệt, trong một số hoạt động kinh doanh, việc khai phá các đánh giá của người dùng là một công việc quan trọng trong quá trình cải tiến, phát triển của doanh nghiệp

Trong khóa luận này, tôi đề xuất một phương pháp mô hình hóa chủ đề suốt đời

học thiên mức miền và ứng dụng vào phân lớp đa nhãn văn bản tiếng Việt trên miền dữ liệu khách sạn

Mô hình hóa chủ đề suốt đời là một phương pháp học không giám sát suốt đời

KB là nơi lưu trữ các mô hình chủ đề học được từ các nhiệm vụ trong quá khứ Khi học một nhiệm vụ mới, các tri thức “phù hợp” trong KB được trích xuất để giúp mô hình hóa chủ đề của tập dữ liệu hiện tại, mô hình chủ đề kết quả được lưu vào KB phục vụ cho các nhiệm vụ học trong tương lai Tri thức “phù hợp” được nêu trong bài toán là tri thức của các miền gần với miền hiện tại

Một phương pháp phân lớp đa nhãn bán giám sát cho văn bản tiếng Việt MULTICS [4] được sử dụng trong bài toán để đánh giá hiệu quả của phương pháp đề xuất Tuy nhiên MULTICS[4] sử dụng mô hình chủ đề ẩn cô lập để biểu diễn các đặc

Trang 13

2

trưng phân lớp, khóa luận đề xuất sử dụng mô hình chủ đề suốt đời thay thế cho mô hình chủ đề cô lập trong phân lớp đa nhãn

Nội dung khóa luận bao gồm các phần:

Chương 1: Trình bày tổng quan về học máy suốt đời và phân lớp đa nhãn và sơ

lược bài toán đề xuất trong khóa luận

Chương 2: Trình bày những nội dung cơ bản và trọng tâm nhất về các lý thuyết

và công nghệ được sử dụng trong bài toán như: mô hình chủ đề suốt đời, mô hình chủ

đề ẩn LDA, mô hình chủ đề suốt đời AMC, thuật toán phân lớp đa nhãn MULTICS

Chương 3: Trình bày chi tiết về phương pháp đề xuất

Chương 4: Trình bày về quá trình thực nghiệm, kết quả thực nghiệm và đánh giá

phương pháp đề xuất

Phần kết luận: Tóm lược các vấn đề đã giải quyết trong khóa luận và định hướng

phát triển trong tương lai

Trang 14

3

CHƯƠNG 1 TỔNG QUAN VỀ HỌC MÁY SUỐT ĐỜI, PHÂN LỚP ĐA NHÃN VÀ SƠ BỘ BÀI TOÁN ĐỀ XUẤT

1.1 Học máy suốt đời

Học máy suốt đời được đề xuất vào năm 1996 bởi S Thrun và T M Mitchell [6, 7] và nổi lên trong những năm gần đây nhờ vào khả năng sử dụng tri thức học được trong quá khứ cho việc học trong tương lai Có thể thấy quá trình học này mô phỏng cách học của con người, giải quyết được một số vấn đề hạn chế mà học máy cô lập mang lại như: đòi hỏi một lượng lớn các ví dụ học, chỉ phù hợp với các nhiệm vụ hẹp và xác định Theo Z.Chen và B.Liu [1], học máy suốt đời có ba đặc điểm chính: (i) là một quá trình học liên tục, (ii) tích lũy và duy trì tri thức đã học, (iii) sử dụng tri thức đã học trong quá khứ cho việc học trong tương lai

Như vậy quá trình học suốt đời là một chuỗi các nhiệm vụ có thể không bao giờ kết thúc, trong quá trình đó bộ học (learner) trở nên thông minh hơn và học ngày một tốt hơn Nghiên cứu về học suốt đời có thể mang lại những tiến bộ lớn đối với sự phát triển của trí thông minh nhân tạo

Khi có một nhiệm vụ thứ (N+1) 𝑇𝑁+1 (được gọi là nhiệm vụ mới hay nhiệm vụ hiện tại) với tập dữ liệu tương ứng 𝐷𝑁+1, bộ học có thể sử dụng tri thức quá khứ trong

KB để giúp học 𝑇𝑁+1

Mục tiêu của LML thường là tối ưu hiệu suất trên 𝑇𝑁+1, nhưng nó có thể tối ưu trên bất kì nhiệm vụ nào bằng cách coi phần còn lại của các nhiệm vụ như các nhiệm vụ quá khứ, giả sử LML có thể coi 𝑇𝑁 là nhiệm vụ hiện tại và các nhiệm vụ còn lại:

𝑇1, 𝑇2, … , 𝑇𝑁−1 là các nhiệm vụ quá khứ Sau khi hoàn thành việc học 𝑇𝑁+1, các tri thức

Trang 15

4

thu được (ví dụ như các kết quả trung gian hay kết quả cuối cùng) được cập nhật và lưu trữ trong KB

1.1.2 Mô hình học máy suốt đời

Hình 1.1 Mô hình học máy suốt đời

Mô hình học máy suốt đời được mô tả như Hình 1.1 gồm các thành phần [1]:

(1) KB: là nơi lưu trữ tri thức quá khứ, có thể bao gồm một số thành phần con:

- Nơi lưu trữ thông tin quá khứ (PIS): Lưu trữ thông tin từ quá trình học trước Tùy vào nhiệm vụ học hay thuật toán mà PIS có thể bao gồm các kho thông tin con như: (i) dữ liệu được sử dụng trong nhiệm vụ trước, (ii) kết quả trung gian trong nhiệm vụ trước, (iii) kết quả cuối cùng từ nhiệm vụ trước

- Bộ khai phá siêu tri thức (MKM): Thực hiện việc khai phá ở mức cao hơn các tri thức trong PIS và trong MKS Kết quả được lưu trong MKS

- Nơi lưu trữ siêu tri thức (MKS): Nơi lưu trữ các tri thức được củng cố hoặc khai phá từ PIS và KMS

- Knowledge Reasoner (KR): Suy luận tri thức trong MKS và PIS để sinh ra nhiều tri thức hơn

Trang 16

5

(2) Bộ học dựa trên tri thức (KBL): trong học máy suốt đời học dựa trên tri

thức quá khứ là vấn đề cốt lõi KBL có thể củng cố tri thức trong KB để học nhiệm vụ mới KBL gồm hai thành phần con:

- TKM: khai phá, xác định những tri thức phù hợp với nhiệm vụ hiện tại từ những thông tin, tri thức thô trong KB

- Sau khi đã khai phá những tri thức phù hợp với nhiệm vụ học hiện tại, máy học

có thể sử dụng những tri thức đó vào việc học

(3) Đầu ra: Là kết quả của quá trình học, kết quả có thể là một mô hình dự đoán,

bộ phân lớp trong học có giám sát hay các cụm, chủ đề trong học không giám sát

(4) Task Manager: Tiếp nhận và quản lí các nhiệm vụ đầu vào của hệ thống, xử

lí sự thay đổi các nhiệm vụ và chuyển nhiệm vụ học mới tới KBL để bắt đầu tiến trình học

1.2 Phân lớp đa nhãn

Phân lớp đa nhãn là nhiệm vụ gán từng phần tử đã cho vào một tập các lớp được xác định trước, trong một miền dữ liệu, ở đó một phần tử có thể thuộc nhiều lớp khác nhau cùng một lúc [4]

Theo Zhi-Hua Zhou và cộng sự [11], phân lớp đa nhãn được phát biểu như sau: Cho X 𝜖 ℝ𝑛 biểu thị một không gian phần tử n chiều và Y = {𝑦1, 𝑦2, … , 𝑦𝑞} biểu thị không gian nhãn gồm q nhãn lớp Nhiệm vụ của học đa nhãn là học hàm số f: X→ 2𝑌

từ dữ liệu huấn luyện đa nhãn D = {(𝑥𝑖, 𝑌𝑖|1 ≤ 𝑖 ≤ 𝑚), trong đó với mỗi phần tử (𝑥𝑖, 𝑌𝑖),

𝑥𝑖 ∈ X là một véc tơ đặc trưng n chiều 𝑥𝑖 = (𝑥𝑖1, 𝑥𝑖2, … , 𝑥𝑖𝑛) và 𝑌𝑖 ⊆ Y là tập các nhãn của 𝑥𝑖 Với một phần tử mới x ∈ X, hàm số f(.) trả về f(x) là một tập các nhãn dự đoán cho x

Phân lớp đa nhãn ngày càng được chú ý và ứng dụng trong nhiều lĩnh vực như phân loại văn bản, phân loại web, dự đoán chức năng gen, phân lớp chức năng protein (Zhang & Zincir-Heywood, 2005), phân lớp âm nhạc (Li & Ogihara, 2003)…

Hiện nay, các phương pháp phân lớp đa nhãn được phân thành hai loại chính là các phương pháp chuyển đổi vấn đề và các phương pháp thích nghi thuật toán Trong pha áp dụng mô hình chủ đề đề xuất vào phân lớp đa nhãn văn bản tiếng Việt, khóa luận

Trang 17

6

sử dụng một phương pháp phân lớp dựa trên thích nghi thuật toán sẽ được trình bày tại chương kế tiếp

1.3 Sơ bộ bài toán trong khóa luận

Các tri thức học được trong quá khứ là vô cùng quý giá, được xem như là cơ sở giúp con người trở nên thông minh hơn, hiểu biết hơn, có cái nhìn chính xác hơn về các vấn đề xung quanh; trong học máy suốt đời, các tri thức học được từ các nhiệm vụ trong quá khứ cũng mang ý nghĩa tương tự đối với các bộ học

Trong khoá luận này, tôi xin đề xuất một phương pháp sử dụng học máy suốt đời:

mô hình hoá chủ đề suốt đời, tận dụng tri thức quá khứ giúp sinh các chủ đề tốt hơn,

nhằm nâng cao hiệu suất mô hình phân lớp đa nhãn văn bản tiếng Việt

Tuy nhiên, khoá luận không sử dụng tri thức quá khứ từ tất cả các miền để mô

hình hoá chủ đề của nhiệm vụ hiện tại, mà chỉ sử dụng tri thức quá khứ từ các miền gần

với miền hiện tại (miền của nhiệm vụ hiện tại) Phương pháp xác định miền gần sẽ được giới thiệu trong chương 3

Bài toán: Mô hình hóa chủ đề suốt đời, ứng dụng vào phân lớp đa nhãn văn bản tiếng

Việt

Bài toán đề xuất gồm hai pha được mô tả như trong Hình 1.2:

Pha 1 Mô hình hóa chủ đề suốt đời: dựa trên phương pháp AMC [2], tuy nhiên áp

dụng miền gần trong mô hình chủ đề suốt đời

Pha 2 Phân lớp đa nhãn: áp dụng mô hình chủ đề suốt đời sinh từ pha 1 để biểu diễn

các đặc trưng trong phân lớp đa nhãn MULTICS [3], xem xét ảnh hưởng của chủ đề suốt đời trong hiệu suất của phân lớp đa nhãn văn bản tiếng Việt

Hình 1.2 Mô hình tổng quan của bài toán

Trang 19

8

CHƯƠNG 2 CÁC PHƯƠNG PHÁP LDA, AMC, MULTICS

2.1 Mô hình chủ đề suốt đời

2.1.1 Mô hình chủ đề

Mô hình hoá chủ đề là công cụ để khai phá văn bản, giúp khám phá cấu trúc ngữ nghĩa ẩn của một văn bản Một chủ đề ẩn được biểu diễn bởi một cụm các từ thường xuyên xuất hiện cùng nhau Các mô hình chủ đề coi rằng mỗi văn bản là một phân phối

đa thức trên các chủ đề, mỗi chủ đề là một phân phối đa thức trên các từ Do đó, có hai loại phân phối đa thức trong mô hình chủ đề là phân phối văn bản – chủ đề và phân phối chủ đề - từ

Kể từ khi được đề xuất lần đầu tiên, mô hình chủ đề đã nhận được rất nhiều chú

ý và thu hút sự quan tâm rộng rãi của các nhà nghiên cứu trong nhiều lĩnh vực Cho đến nay, bên cạnh việc khai phá văn bản, mô hình chủ đề cũng mang lại nhiều ứng dụng thành công trong các lĩnh vực thị giác máy tính, tin sinh học, di truyền học quần thể và mạng xã hội

Tuy nhiên, mô hình chủ đề là mô hình học không giám sát có xu hướng sinh ra các chủ đề khó hiểu Nguyên nhân chính là do các hàm mục tiêu của các mô hình chủ

đề không phải lúc nào cũng phù hợp với đánh giá của con người Để giải quyết vấn đề này chúng ta có thể sử dụng các phương pháp sau [1]:

(1) Tạo ra các chủ đề tốt hơn: Phương pháp này khả thi khi có một lượng lớn các văn bản, vì mô hình hoá chủ đề là phương pháp học không giám sát và số lượng văn bản nhỏ sẽ không đủ để cung cấp số liệu thống kê tin cậy cho mô hình

(2) Yêu cầu người dùng cung cấp tri thức miền quá khứ: Phương pháp này yêu cầu người dùng hoặc một chuyên gia miền cung cấp một số tri thức miền quá khứ Tri thức có thể ở dạng must-links hay cannot-links Tuy nhiên trong thực tế, việc yêu cầu người dùng cung cấp tri thức quá khứ là một vấn đề không đơn giản, bởi người dùng có thể không biết tri thức nào để cung cấp hoặc không phải tất cả tri thức do người dùng cung cấp đề đúng, đồng thời nó làm cho phương pháp này không được tự động

(3) Sử dụng mô hình chủ đề suốt đời: Phương pháp này sử dụng LML trong

mô hình hoá chủ đề Thay vì yêu cầu người dùng cung cấp tri thức, tri thức quá khứ được học và tích lũy một cách tự động trong quá trình mô hình hóa chủ đề của các nhiệm

vụ quá khứ Đây cũng là phương pháp được sử dụng trong khoá luận

Trang 20

9

2.1.2 Mô hình chủ đề suốt đời

Một số mô hình chủ đề cô lập như LDA[8], pLSA[9] được sử dụng rộng rãi trong việc trích xuất chủ đề từ các văn bản Tuy nhiên, các mô hình này có một số hạn chế của học không giám sát được trình bày ở phần trước, trong đó có yêu cầu một lượng lớn dữ liệu để cung cấp các số liệu thống kê tin cậy Trong thực tế, có rất ít tập dữ liệu lớn Do

đó, đòi hỏi một phương pháp mô hình hóa chủ đề có thể hoạt động tốt hơn, thậm chí trên các tập dữ liệu nhỏ - phương pháp mô hình hóa chủ đề suốt đời

Ý tưởng của mô hình hóa chủ đề suốt đời là trích xuất tri thức từ các chủ đề kết quả của các miền dữ liệu hoặc nhiệm vụ quá khứ, sử dụng cho quá trình mô hình hóa chủ đề của miền dữ liệu hoặc nhiệm vụ hiện tại Mô hình hóa chủ đề suốt đời bao gồm các bước chính:

Bước 1 Cho N tập dữ liệu D = {𝐷𝑖|i=1, 2, …, N} từ N miền, chạy một mô hình chủ đề cô lập (ví dụ: LDA) trên mỗi tập 𝐷𝑖 thuộc D sinh ra tập các chủ đề tương ứng 𝑇𝑜𝑝𝑖𝑐𝑠𝑖 Các chủ đề này được gọi là các p-chủ đề (chủ đề quá khứ)

Bước 2 Một KB gồm tập các tri thức quá khứ được khai phá từ tất cả các p-chủ

đề trong S=∪𝑖𝑆𝑖

Bước 3 Tri thức quá khứ trong KB được sử dụng để giúp sinh chủ đề cho tập dữ

liệu hiện tại Các chủ đề kết quả tiếp tục được khai phá và tích hợp trong KB để sử dụng cho các nhiệm vụ mô hình hoá chủ đề tiếp theo trong tương lai

Cho một ví dụ các đánh giá thuộc ba miền Một mô hình chủ đề cô lập được sử

dụng để sinh các tập chủ đề ở mỗi miền Mỗi miền có một chủ đề giả sử là dịch vụ Dưới đây là top bốn từ có xác suất cao nhất trong chủ đề dịch vụ của từng miền:

- Miền 1: lễ_tân, xa, ngon, nhân_viên

- Miền 2: nhân_viên, chu_đáo, lễ_tân, phong_phú

- Miền 3: nhân_viên, cũ, chu_đáo, thân_thiện

Trang 21

10

Nếu chúng ta chú ý tới những từ xuất hiện cùng nhau ở ít nhất hai miền, ta sẽ tìm thấy các tập:

{lễ_tân, nhân_viên}, {nhân_viên, chu_đáo}

Các từ trong mỗi tập trên dường như thuộc cùng một chủ đề, khi đó các tập trên

được gọi là must-links Vì vậy, must-links là một tập các từ có liên hệ nhau về mặt ngữ

nghĩa, thường xuyên xuất hiện cùng nhau trong một chủ đề, đồng thời ta cũng có thể thấy cannot-links là một khái niệm ngược lại chỉ tập các từ không có liên hệ về mặt ngữ

nghĩa, ví dụ máy tính và mưa

2.2 Mô hình chủ đề ẩn LDA

LDA là mô hình xác suất sinh mẫu của một tập văn bản Ý tưởng cơ bản là trong LDA, các văn bản được biểu diễn dưới dạng hỗ hợp ngẫu nhiên các chủ đề ẩn, trong đó mỗi chủ đề được đặc tả bởi một phân phối từ

Quá trinh sinh mẫu của LDA cho mỗi văn bản w thuộc tập văn bản D được biểu diễn như sau [8]:

- N là độ dài của văn bản

- 𝜃 = (𝜃1, 𝜃2, … , 𝜃𝑘) là xác suất mà một từ được chọn ngẫu nhiên trong w thuộc chủ đề i, i = {1, 2, …, k}

- Dir(𝛼) là phân phối Dirichlet ẩn với tham số 𝛼 (𝛼: một véc tơ các số thực dương) Một số giả thiết đơn giản hóa được thực hiện trong mô hình cơ bản này như sau Kích thước k của phân phối Dirichlet (là kích thước của biến chủ đề z) được cho trước

Trang 22

𝑝(𝑤|𝛼, 𝛽) = ∫ 𝑝(𝜃|𝛼)(∏ ∑ 𝑝(𝑧𝑛|𝜃)𝑝(𝑤𝑛|𝑧𝑛, 𝛽))𝑑𝜃

𝑧 𝑛

𝑁

𝑛=1Cuối cùng, lấy kết quả các xác suất biên của các văn bản đơn lẻ, thu được xác suất của một tập văn bản:

Ngày đăng: 10/05/2021, 01:12

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w