Xây dựng bộ phân lớp các văn bản sử dụng thuật toán Maximum Entropy trên miền dữ liệu tội phạm : Luận văn ThS. Công nghệ thông tin: 60 48 01 04

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÊ ANH TRUNG XÂY DỰNG BỘ PHÂN LỚP CÁC VĂN BẢN SỬ DỤNG THUẬT TOÁN MAXIMUM ENTROPY TRÊN MIỀN DỮ LIỆU TỘI PHẠM LÊ ANH TRUNG XÂY DỰNG BỘ PH

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

LÊ ANH TRUNG

XÂY DỰNG BỘ PHÂN LỚP CÁC VĂN BẢN SỬ DỤNG THUẬT TOÁN MAXIMUM ENTROPY

TRÊN MIỀN DỮ LIỆU TỘI PHẠM

LÊ ANH TRUNG

LUẬN VĂN THẠC SĨ

HÀ NỘI – 2015

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

LÊ ANH TRUNG

Chuyên ngành : Hệ thống Thông tin

LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS NGUYỄN TRÍ THÀNH

HÀ NỘI – 2015

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn “Xây dựng bộ phân lớp các văn bản sử dụng thuật toán

Maximum Entropy trên miền dữ liệu tội phạm” là công trình nghiên cứu của riêng tôi

Các số liệu, kết quả được trình bày trong luận văn là hoàn toàn trung thực và chưa từng được công bố trong bất cứ một công trình nào khác

Tôi đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu liên quan ở trong nước và quốc tế Ngoại trừ các tài liệu tham khảo này, luận văn là công việc của riêng tôi

Hà Nội, tháng 6 năm 2015

Tác giả luận văn

Lê Anh Trung

Trang 4

LỜI CẢM ƠN

Trước tiên, tôi xin được gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Thầy giáo, PGS TS Nguyễn Trí Thành, người đã tận tình chỉ bảo, hướng dẫn, động viên và giúp

đỡ tôi trong suốt quá trình thực hiện luận văn tốt nghiệp

Tôi xin gửi lời cảm ơn tới ThS Nguyễn Minh Tiến, anh đã nhiệt tình giúp đỡ, hỗ trợ và chỉ bảo tôi trong quá trình thực nghiệm của luận văn

Cuối cùng, tôi muốn gửi lời cảm ơn tới bố mẹ hai bên gia đình, vợ và đặc biệt là con gái - những người thân yêu luôn bên cạnh quan tâm, động viên tôi trong suốt quá trình học tập và thực hiện luận văn tốt nghiệp này

Tôi xin chân thành cảm ơn!

Hà Nội, tháng 6 năm 2015

Học viên

Lê Anh Trung

Trang 5

MỤC LỤC

Chương 1 97

1.1 Bài toán phân lớp văn bản 97

1.2 Xây dựng bộ phân lớp văn bản 1311

1.3 Quá trình tiền xử lý dữ liệu 1412

1.4 Đánh giá bài toán phân lớp 1614

1.5 Tổng kết 1715

Chương 2 1816

2.1 Phương pháp sử dụng hệ luật 1816

2.1.1 Luật cú pháp 1816

2.1.2 Luật ngữ nghĩa (lexico-sematic) 1917

2.2 Phương pháp sử dụng học máy 2018

2.2.1 Thuật toán K-người láng giềng gần nhất 2018

2.2.2 Mô hình cây quyết định 2220

2.2.3 Thuật toán máy hỗ trợ vector (SVM - Support Vector Machine) 2321

2.2.4 Mô hình Entropy cực đại (Maximum Entropy) 2624 2.2.4.1 Nguyên lý Entropy cực đại……… .25

2.2.4.2 Các ràng buộc và đặc trưng……… 25

2.2.4.3 Mô hình Entropy cực đại ……… … 26

2.2.4.4 Entropy cực đại cho phân lớp văn bản….……… … 27

2.2.4.5 Xây dựng các đặc trưng ……… ……27

2.2.4.6 Ưu điểm của mô hình Maximum Entropy……… …… 29

Chương 3 3229

3.1 Một số đặc trưng của dữ liệu văn bản tiếng Việt 3229

3.2 Xây dựng các lớp trong miền dữ liệu tội phạm 3431

3.2.1 Khái niệm tội phạm theo bộ luật hình sự .3431

3.2.2 Các lớp tội danh được xây dựng trong thực tế bài toán .3532

3.3 Phát biểu bài toánphân lớp các văn bản miền dữ liệu tội phạm trên văn bản tiếng Việt 3734

Formatted: Font: Not Bold, Not Italic, No underline, Font color: Auto, Check spelling and grammar

Formatted: TOC 3, Line spacing: single, No bullets or numbering

Trang 6

Chương 4 4137

4.1 Dữ liệu chương trình 4137

4.2 Kết quả thực nghiệm 4440

TỔNG KẾT 4743

Chương 1 7

1.1 Bài toán phân lớp văn bản 7

1.2 Xây dựng bộ phân lớp văn bản 11

1.3 Quá trình tiền xử lý dữ liệu 12

1.4 Đánh giá bài toán phân lớp 14

1.5 Tổng kết 15

Chương 2 16

2.1 Phương pháp sử dụng hệ luật 16

2.1.1 Luật cú pháp 16

2.1.2 Luật ngữ nghĩa (lexico-sematic) 17

2.2 Phương pháp sử dụng học máy 18

2.2.1 Thuật toán K-người láng giềng gần nhất .18

2.2.2 Mô hình cây quyết định 20

2.2.3 Thuật toán máy hỗ trợ vector (SVM - Support Vector Machine) 21

2.2.4 Mô hình Entropy cực đại (Maximum Entropy) 23

2.3 Tổng kết 26

Chương 3 27

3.1 Một số đặc trưng của dữ liệu văn bản tiếng Việt 27

3.2 Xây dựng các lớp trong miền dữ liệu tội phạm 28

3.2.1 Khái niệm tội phạm theo bộ luật hình sự .28

3.2.2 Các lớp tội danh được xây dựng trong thực tế bài toán .29

3.3 Phát biểu bài toán phân lớp các văn bản miền dữ liệu tội phạm trên văn bản tiếng Việt 32 3.4 Tổng kết 34

Chương 4 35

4.1 Dữ liệu chương trình 35

4.2 Kết quả thực nghiệm 38

Trang 7

4.3 Tổng kết 39 TỔNG KẾT 41

DANH SÁCH CÁC BẢNG

Trang 8

Bảng 1: Các công cụ và phần mềm……… 4137

Bảng 2: Kết quả pha phát hiện……… 4138

Bảng 3: Kết quả pha phân lớp……… 4238

Bảng 4: Kết quả pha phân lớp trực tiếp……… 4339

DANH SÁCH HÌNH VẼ

Trang 9

Hình 1: Biểu đồ tăng trưởng dữ liệu Internet tới năm 2020 98

Hình 2: Dữ liệu được sinh ra mỗi phút trên Internet… 109

Hình 3: Mô hình bài toán phân lớp văn bản… 110

Hình 4: Sơ đồ hoạt động bộ phân lớp văn bản… 121

Hình 5: Mô tả thuật toán SVM… 232

Hình 6: Quá trình phân lớp và phát hiện văn bản 37

33

Hình 7: Quá trình phân lớp trực tiếp văn bản… 3833

Trang 10

LỜI NÓI ĐẦU

Thời đại hiện nay - thời đại của Internet, với sự ảnh hưởng đi vào mọi ngóc ngách của đời sống và tác động đến hầu hết cá nhân trong xã hội Internet đã thay đổi hoàn toàn cách sống của con người và thực sự là công cụ hết sức hữu ích phục vụ cho hầu hết các lĩnh vực đời sống Gần đây, với sự suất hiện ngày càng nhiều của các thiết bị thông minh và xu hướng điều khiển, cập nhật các thiết bị thông qua Internet, cụm từ “Internet

of Things” đã được sử dụng ngày càng phổ biến, cho thấy xu hướng của tương lai thế giới – mọi thứ đều được kết nối vào Internet.Do vậy, có thể nói rằng gần như mọi tri thức của nhân loại đều có thể tìm thấy được bởi nguồn dữ liệu khổng lồ sinh ra từ Internet, gồm các dạng dữ liệu về văn bản, hình ảnh, video

Dữ liệuvăn bản, được lưu trên các websites với vô số các chủ đề, thể loại và dữ liệu ở các website này cũng tăng lên một cách chóng mặt do sự bùng nổ của thông tin từ Internet Mọi thông tin từ lớn đến nhỏ, từ chính trị, kinh tế, xã hội đến giải trí, giáo dục… đều được cập nhật hàng ngày, hằng giờ trên các website này Việc tìm kiếm được thực hiện bằng một thao tác đơn giản với các từ khóa, tuy nhiên thông tin nhận lại được

từ Internet là một khối lượng đồ sộ Do vậy thông tin tuy rất lớn nhưng việc khai thác các thông tin này một cách có hiệu quả là một việc làm không hề đơn giản Khai phá dữ liệu văn bản và phát hiện ra tri thức từ khối dữ liệu khổng lồ này là bài toán nhận được nhiều quan tâm trong thời gian gần đây

Khai phá dữ liệu văn bản là sự phân tích và trích lọc các thông tin từ một tập dữ liệu văn bản lớn một cách tự động hoặc bán tự động để tìm thấy được các tri thức có lợi trong quá trình tìm kiếm thông tin Phân lớp văn bản là một bài toán cơ bản và quan trọng của khai phá dữ liệu văn bản, đây là công việc gán văn bản vào một hay một số nhóm chủ đề đã được biết trước Được mô tả bằng quá trình tập dữ liệu văn bản đầu vào, sau khi qua bộ phân lớp, sẽ được gán nhãn tương ứng với nội dung của nó Luận văn tập trung nghiên cứu về bài toán phân lớp văn bản, với miền dữ liệu quan tâm là về miền dữ liệu tội phạm Bao gồm các bước trình bày, giới thiệu về bài

Trang 11

toán, các phương pháp tiếp cận để giải quyết bài toán và kết quả thực nghiệm trong quá trình nghiên cứu Lý do tác giả chọn miền dữ liệu về tội phạm, do nhu cầu về phân lớp, tổng hợp các tài liệu liên quan đến miền dữ liệu này là việc làm cần thiết, có thể sử dụng các kết quả này trong việc phân tích, báo cáo xu hướng về các loại tội phạm Qua

đó có thể tra cứu thông tin hiệu quả, rút ngắn thời gian xử lý các vụ án, đảm bảo an ninh, trật tự xã hội Cấu trúc luận văn được chia thành các chương như sau:

Chương 1: Giới thiệu về bài toán phân lớp văn bản trên miền dữ liệu về tội phạm

trong văn bản tiếng Việt từ các bài báo trên Internet Chương này trình bày cơ bản về khai phá dữ liệu văn bản nói chung và phân lớp văn bản nói riêng, trong bối cảnh bùng

nổ của công nghệ thông tin và mạng Internet Về khối lượng thông tin mà người sử dụng tiếp cận so với những thông tin có ích mà người dùng thực sự cần thiết Tiếp theo giới thiệu về ý nghĩa của bài toán phân lớp thông tin tội phạm trên văn bản tiếng Việt từ các nguồn trên Internet

Chương 2: Trình bày các phương pháp tiếp cận để giải quyết bài toán Chương

này trình bày các phương pháp để giải quyết bài phân lớp văn bản Bao gồm các phương pháp sử dụng luật và sử dụng học máy Trong phương pháp sử dụng học máy, tác giả cũng trình bày các thuật toán được áp dụng như Người láng giềng gần nhất (K-Nearest Neighbor), mô hình cây quyết định, thuật toán máy hỗ trợ vector (SVM – Support Vector Machine), mô hình Entropy cực đại (Maximum Entropy) Luận văn cũng đưa ra đánh giá đối với từng phương pháp và đưa ra lý do khi quyết định sử dụng phương pháp Maximum Entropy

Chương 3:Trình bày về các đặc trưng của dữ liệu văn bản tiếng Việt, các lớp tội

danh được xây dựng trong quá trình phân lớp Cuối cùng là phát biểu cụ thể bài toán phân lớp văn bản trên miền dữ liệu tội phạm Chương 3 cũng trình bày cụ thể về hai mô hình của bài toán mà luận văn nghiên cứu, mô hình thứ nhất là phát hiện bài báo có liên quan đến miền dữ liệu đang xét, sau đó mới phân lớp Mô hình thứ hai là phân lớp trực tiếp cho các bài báo dữ liệu đầu vào

Trang 12

Chương 4: Áp dụng thực tế, trình bày kết quả và đánh giá.Chương này mô tả quá

trình thực nghiệm và đánh giá kết quả của phương pháp đề xuất dựa trên hai mô hìnhcủa bài toán được trình bày ở chương 3

Tổng kết: Phần tổng kết sẽ là phần đánh giá kết quả của luận văn, các kết quả của

thực nghiệm, những hạn chế và hướng phát triển trong tương lai

Trang 13

Công nghệ thông tin đã tác động mạnh mẽ đến sự phát triển của tất cả các ngành nghề trong đời sống xã hội và đặc biệt là sự ra đời của Internet Đây thực sự là cuộc cách mạng vĩ đại vì một trong số các ứng dụng nổi bật của Internet là Word Wide Web

đã mang lại cho chúng ta một kho kiến thức mà không một bộ bách khoa toàn thư hay một hệ thống thư viện nào có thể so sánh được

Theo Oracle – công ty hàng đầu về hệ quản trị cơ sở dữ liệu, dữ liệu trên Internet

từ năm 2008 đến năm 2020 sẽ tăng theo cấp số mũ, và đạt đến con số 45ZB (Zettabyte - 1ZB = 270 B) vào năm 2020 [10] Thời đại hiện nay của Internet là thời đại của những Big Data, Cloud Computing hay Internet of Things Dữ liệu được sinh ra ở khắp mọi nơi trên Internet, từ mạng xã hội, từ các website, các trang chia sẻ nội dung, email… và với nhiều dạng dữ liệu khác nhau như text, âm thanh, hình ảnh… Độ tăng trưởng của

dữ liệu cũng tăng lên cấp số mũ do công nghệ lưu trữ phát triển cùng với sự bùng nổ của Internet và số lượng người dùng khổng lồ trên khắp thế giới Theo báo cáo Visual Networking Index của Cisco [11], tổng lưu lượng truyền tải dữ liệu của mạng Internet toàn cầu trong năm 2010 là 20.2 exabyte mỗi tháng, tương đương với 242 exabyte mỗi năm Lưu lượng truyền tải dữ liệu trên Internet toàn cầu đã tăng gấp 8 lần chỉ trong 5 năm (từ 2006 đến 2010), và được dự báo sẽ tăng thêm 4 lần nữa – có thể đạt mức xấp xỉ

1 zettabyte (1 nghìn exabyte) tại thời điểm năm 2015 Chúng ta hiện đang ngập tràn trong dữ liệu nhưng việc tìm kiếm chính xác thông tin cần thiết lại là điều khó khăn

Trang 14

Hình 1: Biểu đồ tăng trưởng dữ liệu Internet tới năm 2020

Theo trang https://www.domo.com/ [12]hiện nay với 2.4 tỉ người dùng Internet trên thế giới, lượng dữ liệu được tính toán trong một phút trên Internet là những con số khổng lồ Ví dụ trong một phút, có 72 giờ video mới được chia sẻ trên YouTube,

2460000 nội dung mới được cập nhật trên mạng xã hội FaceBook hay hơn 4 triệu câu truy vấn từ trang tìm kiếm Google… Mỗi ngày, con người tạo ra khoảng 2.5 * 1018 byte

dữ liệu Khoảng 90% dữ liệu trên thế giới ngày nay được tạo ra chỉ trong 2 năm vừa qua Gần đây, với sự phát triển mạnh mẽ của các thiết bị thông minh, khái niệm Internet

of Things lại càng được nhắc đến và cho thấy viễn cảnh của tương lai công nghệ thế giới Khi đó mọi vật đều được cung cấp định danh và khả năng tự động truyền tải dữ liệu thông qua mạng Internet mà không cần sự tương tác giữa con người với con người hoặc con người với máy tính “Thing” – sự vật – trong Internet of Things, có thể là một con người với màn hình cấy ghép tim, một động vật trong trang trại với bộ tiếp sóng chip sinh học, một chiếc xe ô tô tích hợp các cảm biến để cảnh báo lái xe khi lốp quá

Trang 15

non – hoặc bất kỳ đồ vật nào do tự nhiên sinh ra hoặc do con người sản xuất ra mà có thể được gán với một địa chỉ IP và được cung cấp khả năng truyền tải dữ liệu qua mạng lưới Như vậy ta có thể nhìn thấy được trong tương lai, lượng dữ liệu sinh ra mỗi giây, mỗi phút trên Internet là vô cùng lớn và đa dạng.

Hình 2: Dữ liệu được sinh ra mỗi phút trên Internet

Từ các con số như trên, ta thấy rằng dữ liệu Internet đang có xu hướng bùng nổ một cách mạnh mẽ, tuy nhiên để người dùng có được các tri thức hay các thông tin cần thiết với nguồn dữ liệu Internet khổng lồ thì không phải điều dễ dàng Do vậy, khai phá

Trang 16

dữ liệu, mà ở đây là khai phá d

thể là nội dung các bài báo trên website v

Phân lớp văn bản là một trong s

bản, có ý nghĩa quan trọng trong việc tổ chức cũng nh

dữ liệu lớn

Phân lớp văn bản (Text Classification) l

cho các văn bản ngôn ngữ một cách tự động v

theo nội dung của văn bản đó

phân lớp văn bản hoạt động nh

Hình 3

Bài toán phân lớp văn bản xuất hiện từ những thập ni

về việc tự động gán cho văn bản v

ngắn sau, nó đã trở thành l

tính ứng dụng đa dạng trong thực tế Phân lớp văn bản l

hỗ trợ trong quá trình tìm ki

động sắp xếp cho văn bản tới những chủ đề xác định tr

còn có thể được sử dụng để lọc văn bản hoặc một phần văn bản chứa dữ liệu cần t

Để phân lớp được văn bản, chúng ta có thể sử

dụng luật, hay sử dụng phương pháp h

à khai phá dữ liệu văn bản với đối tượng là nội dung trang web, cụ

ài báo trên website với một chủ đề cụ thể là hết sức quan trọngong số các bài toán nằm trong công việc khai phá

ản, có ý nghĩa quan trọng trong việc tổ chức cũng như tìm kiếm thông tin tr

ớp văn bản (Text Classification) là quá trình phát hiện và gán nhãn (tên l

ản ngôn ngữ một cách tự động vào một hay nhiều lớp cho tr

ội dung của văn bản đó Mô hình hóa một cách cụ thể, chức năng của bộ tự động

ớp văn bản hoạt động như sau:

Hình 3: Mô hình bài toán phân lớp văn bản

ớp văn bản xuất hiện từ những thập niên 60[13] với các nghi

ề việc tự động gán cho văn bản vào một hay nhiều chủ đề cho trước,

ành lĩnh vực nghiên cứu quan trọng trong hệ thống thông tinứng dụng đa dạng trong thực tế Phân lớp văn bản là giai đoạn đ

ình tìm kiếm (Retrieval) hay trích chọn thông tin (Extraction), tộng sắp xếp cho văn bản tới những chủ đề xác định trước Ngoài ra phân l

ợc sử dụng để lọc văn bản hoặc một phần văn bản chứa dữ liệu cần t

ợc văn bản, chúng ta có thể sử dụng nhiều phương pháp nhương pháp học máy Trong phạm vi luận văn, chúng ta sẽ lần

ội dung trang web, cụ

ết sức quan trọng

c khai phá dữ liệu văn

ếm thông tin trên nguồn

ài ra phân lớp văn bản

ợc sử dụng để lọc văn bản hoặc một phần văn bản chứa dữ liệu cần tìm

ương pháp như sử

ạm vi luận văn, chúng ta sẽ lần

Trang 17

lượt đề cập đến các phương pháp lu

máy có giám sát, tập dữ liệu đ

set) và tập kiểm tra (Test data set) Bộ phân lớp sẽ xây dựng mô h

qua các mẫu được học trong tập huấn luyện sau đó kiểm tra độ chính xác bằng tập dữ liệu kiểm tra

Công cụ để xây dựng mô h

qua bước học quy nạp Ở b

đoạn training (huấn luyện ch

hiện kiểm tra bộ phân lớp sau khi đ

đây:

Hình 4

các phương pháp luật và phương pháp học máy Với ph

ập dữ liệu được chia làm hai tập gồm tập huấn luyện (Training data

ập kiểm tra (Test data set) Bộ phân lớp sẽ xây dựng mô hình b

ợc học trong tập huấn luyện sau đó kiểm tra độ chính xác bằng tập dữ

ựng bộ phân lớp văn bản

ựng bộ phân lớp dữ liệu gồm hai bước, bước thứ hai

ớc thứ nhất để có thể thực hiện được chức năng của bộ phân lớp Các b

ình phân lớp

ình vừa được tạo để phân lớp dữ liệu

ụ để xây dựng mô hình phân lớp thường dựa trên một thuật toán phân lớp

Ở bước 1, xây dựng mô hình phân lớp có hai giai đo

ấn luyện chương trình từ tập dữ liệu đầu vào) và giai đo

ểm tra bộ phân lớp sau khi đã được huấn luyện) Được thể hiện nh

Hình 4: Sơ đồ hoạt động bộ phân lớp văn bản

ọc máy Với phương pháp học

ập gồm tập huấn luyện (Training data

ình bằng cách thông

ợc học trong tập huấn luyện sau đó kiểm tra độ chính xác bằng tập dữ

ớc thứ hai sử dụng kết

ợc chức năng của bộ phân lớp Các bước

ột thuật toán phân lớp

có hai giai đoạn, gồm giai

và giai đoạn test (thực

ợc thể hiện như sơ đồ dưới

Trang 18

Hình 4: Sơ đồ hoạt động bộ phân lớp văn bản

Bộ phân lớp văn bản sẽ áp dụng các phương pháp học máy để phân lớp được văn bản như phương pháp Bayes, cây quyết định, K-người láng giềng gần nhất, máy vector

hỗ trợ hay Maximum Entropy…Đối với một số phương pháp đánh giá, tập dữ liệu training được đưa vào bộ phân lớp ở giai đoạn đầu tiên chiếm 70% số lượng của tổng số các tài liệu ban đầu, mà thuộc tính lớp của mỗi tài liệu đã biết (tức là đã được gán nhãn – nên được gọi là phương pháp học máy có giám sát) Số lượng 30% các tài liệu còn lại

sử dụng cho tập dữ liệu test ở giai đoạn sau Hệ thống sẽ sử dụng tập traning để xây dựng mô hình (xác định các tham số cần thiết) phân lớp, sau đó sử dụng tập dữ liệu test

để đánh giá mô hình phân lớp vừa được xây dựng Sau khi đã xây dựng được mô hình ở bước 1, bước tiếp theo là sử dụng mô hình này để phân lớp cho dữ liệu mới Như vậy

mô hình phân lớp là một ánh xạ từ miền dữ liệu đã có sang một miền giá trị cụ thể của thuộc tính phân lớp, dựa vào các giá trị của thuộc tính dữ liệu

Quá trình tiền xử lý dữ liệu được thực hiện trước khi đưa tập dữ liệu vào để bắt đầu thực hiện các bước phân lớp Đây là quá trình biểu diễn văn bản thành một dạng logic mà thuật toán có thể xử lý được Chúng ta sẽ sử dung mô hình không gian vector

để biểu diễn văn bản Mô hình không gian vector (Vector space model) là một mô hình đại số (algebraic model) thể hiện thông tin văn bản như một vector, các phần tử của vector này thể hiện mức độ quan trọng của một từ và cả sự xuất hiện hay không xuất hiện (Bag of words) của nó trong một tài liệu.Mô hình này biểu diễn văn bản như những điểm trong không gian Euclid n-chiều [1], mỗi chiều tương ứng với một từ trong

tập hợp các từ Phần tử thứ i, là của vector văn bản cho biết số lần mà từ thứ i xuất

hiện trong văn bản Sự tương đồng của hai văn bản được định nghĩa là khoảng cách giữa các điểm, hoặc là góc giữa những vector trong không gian.Mỗi từ khóa trong một tài liệu được gán một trọng số và do đó, mỗi tài liệu được biểu diễn như một vector Trọng số từ khóa có thể được tính toán bằng nhiều cách khác nhau

Cách đơn giản nhất sử dụng phương pháp Boolean, là gán trọng số bằng một giá trị nhị phân chỉ ra từ khóa có mặt hay không có mặt trong văn bản, tức là giá trị trọng số

Trang 19

là 1nếu từ khóa xuất hiện ít nhất một lần trong tập tài liệu và là 0 trong

trường hợp ngược lại

Ngoài ra, một số phương pháp tính trọng số của văn bản như phương pháp tính

trọng số tần suất Logarit (log-frequency), Log-frequency của một từt trong tài liệu d

được tính như sau:

Nếu từ đó không xuất hiện trong một tài liệu, thì , bằng 0 Và bởi vì log(0) là

một số không xác định, cho nên chúng ta phải cộng 1.Một từ xuất hiện trong tài liệu: 1

lần có w=1, 2 lần w=1.3, 10 lần w=2, 1000 lần w=4

Điểm cho một cặp document-query được tính bằng tổng của các trọng số của từt

từ không xuất hiện trong tài liệu

Phương pháp tính trọng số nghịch đảo văn bản (Inverse document weighting):

Từ hiếm thì quan trọng hơn những từ có tần suất xuất hiện cao Trong mỗi ngôn

ngữ có những từ lặp đi lặp lại nhiều lần nhưng vô nghĩa (ví dụ trong tiếng Anh là a, the,

to, of v.v), nó được gọi là stopwords

Đối với Tt erm Ff requency, thì những từ càng xuất hiện nhiều thì có điểm càng

cao, còn những từ hiếm thì điểm xếp hạng lại thấp hơn Do đó chúng ta cần một cách

đánh giá khác với các từ hiếm, vì nó sẽ mang nhiều thông tin hơn là những từ phổ biến

trong văn bản

Ví dụ trong một tập hợp các tài liệu về tội phạm, thì từ khóa “tội phạm” sẽ có khả

năng có mặt hầu hết trong tất cả các tài liệu Để hạn chế nhược điểm này, người ta giới

thiệu cơ chế để giảm thiểu sự ảnh hưởng của việc này và tăng tính chính xác khi quyết

định sự phù hợp của tài liệu d và queryq Ý tưởng là giảm trọng số của từ nào có tần

suất cao, bằng cách lấy tổng số tài liệu (N) chia cho số tài liệu mà một từ xuất hiện

Nếu gọi là số văn bản chứa một term t thì là cách đánh giá ngược sự hữu

ích của t ( bé hơn N là số tài liệu trong tập hợp mà chúng ta có)

Formatted: Font: (Default) Times New Roman, Italic, No underline, Font color: Auto

Trang 20

Chúng ta định nghĩa trọng số của một từ t bởi: =log (N/ )

Chúng ta sử dụng log (N/ )thay vì N/ để giảm tác dụng ảnh hưởng của , như đã nói ở trên do số lần một từ xuất hiện nhiều lần thì không có nghĩa là nó quan trọng về ngữ nghĩa

Các phương pháp tính trọng số trên đều có những ưu điểm và hạn chế riêng, trong

thực tế, phổ biến nhất thì phương pháp TF-IDF (term frequency–inverse document

frequency)là phương pháp để đánh giá và xếp hạng một từ trong một tài liệu Hàm tính trọng số từ khóa được xác định bởi công thức:

l,d = freq l,d * log

Trong đó, tần suất từ khóa l trong tài liệu d : . là số lần xuất hiện của từ khóa

l trong tài liệu d Tần suất văn bản là số văn bản trong tập tài liệu có chứa từ khóa l ,m là tổng số tài liệu học Trọng số TFIDF của một từ khóa biểu diễn độ quan trọng của từ khóa.TFIDFcủa một từ khóa trong một tài liệu sẽ giảm nếu như từ đó xuất hiện

trong hầu hết các văn bản Vì vậy, một từ xuất hiện quá ít hoặc quá nhiều được đánh giá

ít quan trọng hơn so với các từ xuất hiện cân bằng Trọng số TFIDF của một từ khóa trong toàn bộ tập tài liệu m được tính bởi công thức:

Trong luận văn, tác giả sử dụng độ đo chính xác A để đánh giá hiệu quả của bộ phân lớp

∑ à ệ

- Tổng số trường hợp phân lớp chính xác là số bài báo được bộ phân lớp đúng

với nhãn đã được gán từ trước

- Tổng số tài liệu là tất cả tài liệu được đưa vào bộ phân lớp

Từ thông tin về độ đo A, tác giả sẽ có những kết luận rút ra cho bộ phân lớp của mình, qua đó có thể đưa ra những cải thiện và bổ sung trong tương lai.Độ chính xác của

Trang 21

bộ phân lớp đã đạt được nhiều kết quả khả quan với ngôn ngữ là tiếng Anh, tuy nhiên đối với tiếng Việt thì đang còn gặp nhiều khó khăn do vấn đề đặc trưng ngôn ngữ sẽ được trình bày ở chương 3

Trong chương 1, luận văn đã trình bày cơ bản về bài toán xây dựng bộ phân lớp văn bản trong thời đại bùng nổ dữ liệu Trọng tâm của chương là trình bày các khái niệm cơ bản về hoạt động của bộ phân lớp và cách xây dựng bộ phân lớp, quá trình tiền

xử lý dữ liệu cho bộ phân lớp và đánh giá bài toán phân lớp Chương tiếp theo luận văn

sẽ trình bày các phương pháp tiếp cận để giải quyết bài toán phân lớp văn bản, gồm các phương pháp áp dụng thuật toán K-người láng giềng gần nhất, Support Vector Machine, Cây quyết định, Maximum Entropy Phân tích và lựa chọn ra phương pháp áp dụng phù hợp với bài toán

Trang 22

Phương pháp dựa trên tập luật hay còn được gọi là phương pháp dựa trên tri thức (knowledge - driven) Phương pháp này dựa trên tri thức, thường sử dụng kiến thức chuyên gia miền để sinh ra tập luật (thường là chuyên gia về ngôn ngữ và chuyên gia miền dữ liệu), đòi hỏi đọc và hiểu dữ liệu sau đó sinh ra tập luật

2.1.1 Luật cú pháp

Luật cú pháp, đôi khi còn đuợc gọi là mẫu cú pháp (lexico-syntactic patterns) có thể coi là phương pháp sử dụng sớm trong bài toán phân lớp văn bản và trích chọn sự kiện Các mẫu này được sinh ra từ các chuyên gia miền (expert knowledge) dưới dạng tập luật (rules) [3] Điển hình cho phương pháp này là các luật được biểu diễn dưới dạng biểu thức chính quy (regular expression).Các luật cú pháp là sự kết hợp biểu diễn của các ký tự và các thông tin cú pháp với các biểu thức chính quy Sau khi các biểu thức chính quy đã được xây dựng, các biểu thức này sẽ được so khớp với dữ liệu trong văn bản đầu vào để xác định các thông tin tương ứng của các thuộc tính Đôi khi, luật

cú pháp được biểu diễn ở dạng đơn giản hơn, đó là các từ khoá Tập luật cú pháp đuợc

sử dụng trong phân lớp văn bản và trích chọn sự kiện [14], [15] Trong nghiên cứu của mình, Nishihara và cộng sự sử dụng ba từ khoá: địa điểm (place), đối tượng (object), và

Trang 23

hành vi (action) để biểu diễn một sự kiện được trích chọn từ blogs [16] Trong lĩnh vực

y sinh, Yakushiji và cộng sự sử dụng một bộ phân tích kết hợp với ngữ pháp để xác định mối quan hệ và các sự kiện [17] Còn trong lĩnh vực tiền và chính trị Aone và cộng

sự đã dùng luật cú pháp để trích chọn thông tin của sự kiện [18] Luật cú pháp xác định các tham số bên trong văn bản không xác định ý nghĩa văn bản Khi sử dụng luật đểphân lớp văn bản hay trích chọn sự kiện, đôi khi phải trích chọn khái niệm có ý nghĩa đặc biệt hoặc mối quan hệ giữa các thành phần được trích chọn Do đó, sử dụng luật cú pháp không đáp ứng được điều này Để giải quyết được điều này, phuơng pháp thường

sử dụng trong (rule–based) là sử dụng luật ngữ nghĩa (lexico-semantic patterns) Chi tiết của luật ngữ nghĩa sẽ được trình bày trong phần tiếp theo

2.1.2 Luật ngữ nghĩa (lexico-sematic)

Đôi khi phân lớp văn bản sử dụng luật, cần phải so sánh các khái niệm có ý nghĩa đăc biệt giữa tập luật và dữ liệu đầu vào, mà phương pháp luật cú pháp không đáp ứng được Do đó, để giải quyết được điều này, phương pháp thường sử dụng trong (rule–based) là sử dụng luật ngữ nghĩa Các luật ngữ nghĩa không đơn giản là các từ được biểu diễn dưới dạng biểu thức chính quy mà là các từ và mối quan hệ giữa chúng Luật ngữ nghĩa được sử dụng với nhiều mục đích và nhiềulĩnh vực khác nhau Ví

dụ như, Li Fang và cộng sự đã sử dụng luật nghữ nghĩa đề trích chọn thông tin từ sàn chứng khoán (stock market) [19]; Hay, Cohen và cộng sự [20] sử dụng khái niệm bộ nhận dạng (recognizer) trên miền dữ liệu y sinh để trích chọn thông tin y sinh từ tập

dữ liệu; Capet và các cộng sự sử dụng mẫu ngữnghĩa đề trích chọn sự kiện cho hệ thống cảnh báosớm [21]; Còn Vargas-Vera và Celjuska đề xuất một bộ khung (framework) cho việc nhận diện các sự kiện tập trung trên báo Knowledge Media Institute (KMI) [22]

Trích chọn sự kiện trong văn bản phi cấu trúc có thể được ứng dụng trong nhiều lĩnh vực như: tài chính, chứng khoán, y sinh, bản tin pháp luật… Có lẽ sẽlà chưa đầy đủ nếu không đề cấp chi tiết hơn đến hình dạng và biểu diễn của tập luật trong trích chọn thực thể

Trang 24

2.2 Phương pháp sử dụng học máy

2.2.1 Thuật toán K-người láng giềng gần nhất

K-Nearest Neighbors algorithm (KNN) [4] được sử dụng rất phổ biến trong lĩnh

vực Data Mining KNN là phương pháp để phân lớp các đối tượng dựa vào khoảng cách

gần nhất giữa đối tượng cần xếp lớp với tất cả các đối tượng trong Training Data

Một đối tượng được phân lớp dựa vào k láng giềng của nó K là số nguyên dương

được xác định trước khi thực hiện thuật toán Người ta thường dùng khoảng cách

Euclidean để tính khoảng cách giữa các đối tượng.Thuật toán KNN dùng trong phân lớp

được mô tả như sau:

- Xác định giá trị tham số K (số láng giềng gần nhất)

- Tính khoảng cách giữa đối tượng cần phân lớp với tất cả các đối tượng trong

training data (thường sử dụng khoảng cách Euclidean, Cosine…)

- Sắp xếp khoảng cách theo thứ tự tăng dần và xác định k láng giềng gần nhất với

đối tượng cần phần lớp

- Lấy tất cả các lớp của k láng giềng gần nhất đã xác định

- Dựa vào phần lớn lớp của láng giềng gần nhất để xác định lớp cho đối tượng

Áp dụng cho bài toán phân loại văn bản: Ý tưởng: Khi cần phân loại một văn

bản mới, thuật toán sẽ tính khoảng cách (khoảng cách Euclidean, Cosine…) của tất cả

các văn bản trong tập huấn luyện đến văn bản này để tìm ra k văn bản gần nhất (gọi là k

“láng giềng”), sau đó dùng các khoảng cách này đánh trọng số cho tất cả chủ đề Trọng

số của một chủ đề chính là tổng tất cả các văn bản trong k láng giềng có cùng chủ đề,

chủ đề nào không xuất hiện trong k láng giềng sẽ có trọng số bằng 0 Sau đó các chủ đề

sẽ được sắp xếp theo mức độ giảm dần và các chủ đề có trọng số cao sẽ được chọn là

chủ đề của văn bản cần phân loại.Khoảng cách giữa 2 văn bản chính là độ tương tự giữa

2 văn bản đó, 2 văn bản có giá trị độ tương tự càng lớn thì khoảng cách càng gần nhau

Thông thường các thuật toán sẽ gồm 2 giai đoạn huấn luyện và phân lớp, riêng đối

với thuật toán KNN do thuật toán này không cần tạo ra mô hình khi làm trên tập huấn

luyện các văn bản đã có nhãn/lớp sẵn, nên không cần giai đoạn huấn luyện (giai đoạn

Formatted: Indent: Left: 0.38", Hanging: 0.25"

Formatted: Indent: Left: 0.38", Tab stops: Not at 1"

Formatted: Indent: Left: 0.38"

Formatted: Indent: Left: 0.38", Hanging: 0.25"

Trang 25

huấn luyện của KNN là gán nhãn cho các văn bản trong tập huấn luyện bằng cách gom nhóm các văn bản có vector đặc trưng giống nhau thành cùng 1 nhóm)

Mô tả vector đặc trưng của văn bản: Là vector có số chiều là số đặc trưng trong toàn tập dữ liệu, các đặc trưng này đôi một khác nhau Nếu văn bản có chứa đặc trưng

đó sẽ có giá trị 1, ngược lại là 0

Đầu vào:

- Vector đặc trưng của văn bản cần phân lớp

- Các vector đặc trưng của văn bản trong tập huấn luyện (Ma trận MxN, với M là số vector đặc trưng trong tập huấn luyện, N là số đặc trưng của vector)

- Tập nhãn/lớp cho từng vector đặc trưng của tập huấn luyện

Đầu ra:

- Nhãn/lớp của văn bản cần phân loại

Quá trình phân lớp gồm các bước sau:

- Xác định giá trị tham số K (số láng giềng gần nhất) Tùy vào mỗi tập huấn luyện (số lượng mẫu trong tập huấn luyện, không gian tập mẫu có phủ hết các trường hợp…) mà việc chọn số K sẽ ảnh hưởng đến kết quả phân lớp

- Lần lượt duyệt qua các văn bản (được đại diện bằng vector đặc trưng của văn bản) trong tập huấn luyện và tính độ tương tự của văn bản đó với văn bản cần phân lớp

- Sau khi đã có mảng các giá trị lưu độ tương tự của văn bản cần phân lớp với các văn bản trong tập huấn luyện, ta sắp xếp độ tương tự các văn bản theo thứ tự giảm dần (lưu ý đây là độ tương tự, độ tương tự càng lớn tức là khoảng cách càng gần)

và lấy ra k văn bản đầu tiên trong mảng (tức là k văn bản gần với văn bản cần phân lớp nhất)

- Khởi tạo mảng A có độ dài bằng số phân lớp để lưu số văn bản của mỗi lớp Duyệt qua k văn bản, đếm số văn bản trong từng phân lớp và lưu vào mảng

- Duyệt qua mảng A, tìm lớp có số văn bản nhiều nhấtvà chọn là lớp cho văn bản mới

Thuật toán K-NN có ưu điểm là đơn giản, dễ hiểu, dễ cài đặt Hạn chế lớn nhất của thuật toán là nó phải tính toán khoảng cách và sắp xếp tất cả dữ liệu training với mỗi lần

Trang 26

dự đoán, như vậy sẽ có hiệu suất không cao và gây chậm chương trình khi dữ liệu training lớn Thuật toán cũng không học bất cứ điều gì từ tập dữ liệu training mà chỉ đơn giản sử dụng chính dữ liệu này cho việc phân lớp Như vậy thuật toán sẽ không có

tính khái quát hóa tốt Ngoài ra thay đổi Kcũng dẫn đến thay đổi kết quả của việc phân

lớp

2.2.2 Mô hình cây quyết định

Trong lý thuyết quyết định, một cây quyết định là một đồ thị những quyết định và những kết quả có khả năng của chúng (bao gồm cả giá phải trả và độ rủi ro) được sử dụng để tạo ra một đường đi tới đích [6] Cây quyết định là một dạng đặc biệt của cấu trúc cây được xây dựng để trợ giúp việc ra quyết định

Trong lĩnh vực học máy, cây quyết định là một mô hình dự đoán, có nghĩa là

từ việc quan sát các item để rút ra kết luận về giá trị đích của item đó Mỗi nút bên trong tương đương với một biến, mỗi cung đi tới một nút con tương ứng với giá trị có thể của biến đó Các là tương ứng với giá trị đích được dự đoán cho các biến Kỹ thuật học máy sử dụng việc xây dựng cây quyết định trên tập dữ liệu được gọi là học cây quyết định hay đơn giản chỉ là cây quyết định

Học cây quyết định cũng là một phương pháp rất thông dụng trong khai phá

dữ liệu Trong đó cây quyết định mô tả cấu trúc cây mà ở đó các lá đại diện cho các lớp và các nhánh cây biểu diễn sự kết hợp của các đặc trưng dẫn dắt tới việc phân lớp Một cây quyết định có thể được học bằng cách chia tập nguồn thành các tập con dựa trên giá trị các thuộc tính kiểm tra Quá trình này được lặp lại trên từng tập con thu được Quá trình đệ quy sẽ kết thúc khi không thể chia tiếp được nữa hoặc khi từng phần tử của tập con được gán với một lớp đơn

Cây quyết định được mô tả bằng cách tính toán xác suất có điều kiện Cây quyết định cũng có thể được mô tả như là một kỹ thuật tính toán và hỗ trợ toán học, kỹ thuật này hỗ trợ việc mô tả, phân loại và khái quát tập dữ liệu đưa vào Dữ liệu đưa

vào dạng ghi có dạng:(x, y) =( , , … , , y) Biến phụ thuộc y là biến mà chúng ta cố

gắng để biết, phân lớp hay tổng quát hóa, còn các biến , … là các biến giúp ta thực

Trang 27

hiện công việc đó.Trong bài toán phân lớp văn bản, x là vector đặc trưng, y là phân lớp

- Có khả năng xử lý cả dữ liệu thực và dữ liệu mập mờ Một số kỹ thuật khác chỉ sử dụng những tập dữ liệu đặc biệt chẳng hạn như mạng nơron có thể chỉ sử dụng các biến là số

- Có thể kiểm chứng mô hình bằng cách thử thống kê

- Có khả năng thực hiện tốt đối với dữ liệu lớn trong thời gian ngắn: một lượng lớn

dữ liệu có thể được phân tích bằng máy tính cá nhân trong thời gian ngắn đủ để người sử dụng đưa ra quyết định dựa trên sự phân tích đó

Tuy nhiên sử dụng phương pháp cây quyết định có thể xảy ra hiện tượng

overfit, tức là tồn tại một giả thuyết h phù hợp với tập ví dụ huấn luyện nhưng tiên đoán không chính xác bằng giả thuyết h’ ít phù hợp với tập ví dụ huấn luyện hơn so với h Để

giải quyết vấn đề này chúng ta phải dùng cách chặt bớt cây (pruning), bỏ bớt đi các nhánh dữ liệu nhiễu và dư thừa…

Một vấn đề khác nữa của phương pháp cây quyết định là sự không an định của thuật toán Tức là, dù chỉ một sự thay đổi nhỏ như thêm đỉnh, giảm đỉnh, thêm noise, thì kết quả của thuật toán sẽ khác đi rất nhiều

Với những ưu, khuyết điểm như thế, cây quyết định cũng không phải là 1 phương pháp thường được sử dụng trong bài toán phân loại văn bản

2.2.3 Thuật toán máy hỗ trợ vector (SVM - Support Vector Machine)

Support vector Machine (SVM) là phương pháp tiếp cận phân loại rất hiệu quả được Vapnik và Chervonenkis xây dựng [5] để giải quyết vấn đề nhận dạng mẫu 2 lớp

Trang 28

sử dụng nguyên lý Cực tiểu

Vapnik)

Cho trước một tập huấn luyện đ

mỗi tài liệu là một điểm, ph

nhất có thể chia các điểm tr

và lớp – Chất lượng của si

biên) của điểmdữ liệu gần nhất

lớn thì mặt phẳng quyết định c

đích thuật toán SVM tìm đư

Đường tô đậm là siêu

là những điểm gần siêu ph

vector) Trong hình trên, gi

tuân theo luật phân bố chuẩn Gaussian, v

một siêu phẳng phân cách đ

sai cho một điểm dữ liệu mới Với giả thuyết ở tr

sẽ trực giao với đoạn thẳng nối tâm của hai v

ểu hóa Rủi ro có Cấu trúc (Structural Risk Minimization) (theo

ớc một tập huấn luyện được biểu diễn trong không gian vector trong đó

ột điểm, phương pháp này tìm ra một siêu mặt phẳng

ất có thể chia các điểm trên không gian này thành hai lớp riêng biệt t

ợng của siêu mặt phẳng này được quyết định bởi kho

ữ liệu gần nhất của mỗi lớp đến mặt phẳng này Khoảng cách bi

ặt phẳng quyết định càng tốt đồng thời việc phân loại càng chính xác M

được khoảng cách biên lớn nhất

Hình 5: Mô tả thuật toán SVM.

à siêu phẳng tốt nhất và các điểm được bao bởi h

êu phẳng nhất, chúng được gọi là các vector hvector) Trong hình trên, giả sử rằng các dữ liệu mẫu thuộc lớp âm v

ật phân bố chuẩn Gaussian, và được tạo ra với cùng một xác suất Khi đó

ẳng phân cách được gọi là lý tưởng nếu nó làm cực tiểu xác suất phân lớp

ột điểm dữ liệu mới Với giả thuyết ở trên thì siêu phẳng phân cách lý t

ới đoạn thẳng nối tâm của hai vùng có mật độ xác suất lớn nhất R

uctural Risk Minimization) (theo

gian vector trong đó

ặt phẳng h quyết định tốt

ệt tương ứng lớp +

ợc quyết định bởi khoảng cách (gọi là

ảng cách biên càng àng chính xác Mục

Formatted: Normal, Indent: Left:

line: 0.38", No bullets or numbering

Left: 0.25", First numbering

Trang 29

các siêu phẳng mà chúng ta xây dựng nhằm phân cách các điểm dữ liệu mẫu có thể lệch

đi rất nhiều so với siêu phẳng lý tưởng, do đó sẽ dẫn tới việc phân lớp không tốt trên dữ

liệu mới sau này Độ phức tạp của quá trình xác định siêu phẳng lý tưởng sẽ tăng theo

số chiều của không gian đầu vào m, vì với một số lượng các dữ liệu mẫu cố định, tập

hợp các siêu phẳng thực tế sẽ tăng theo hàm mũ với lũy thừa m Với bài toán phân lớp

trang văn bản, m thường rất lớn, khoảng vài ngàn hay thậm chí là hàng triệu từ

Theo lý thuyết thống kê được phát triển bởi Vapnik năm 1998 chỉ ra rằng

chúng ta có thể xác định một siêu phẳng tối ưu thoả mãn hai tính chất quan trọng: nó là

duy nhất với mỗi tập dữ liệu học tách rời tuyến tính; và khả năng overfitting là nhỏ hơn

so với các siêu phẳng khác Định nghĩa biên M của bộ phân lớp là khoảng cách giữa các

siêu phẳng và các dữ liệu học gần nhất Siêu phẳng tối ưu nhất là siêu phẳng có biên lớn

nhất, điều đó có nghĩa là chúng ta cần tìm siêu phẳng sao cho khoảng cách từ siêu

phẳng đến những điểm gần nhất là lớn nhất Vapnik cũng chứng minh rằng khả năng

overfitting với siêu phẳng tối ưu nhỏ hơn so với các siêu phẳng khác

Đường tô đậm là siêu phẳng tốt nhất và các điểm được bao bởi hình chữ nhật là

những điểm gần siêu phẳng nhất, chúng được gọi là các vector hỗ trợ (support

vector) Các đưđiũng chm gêu phẳng nhất, chúng được gọi là các vector hỗ trợ (support

SVM thực chất là một bài toán tối ưu, mục tiêu của thuật toán này là tìm được một

không gian H và siêu mặt phẳng quyết định h trên H sao cho sai số phân loại là thấp

nhất Phương trình siêu mặt phẳng chứa vector di trong không gian như sau:

i + b = 0

Đặt

−1, ⃗ ⃗ + < 0 Bài toán SVM có thể giải bằng kỹ thuật sử dụng toán tử Lagrange để biến đổi

thành dạng đẳng thức Khi các điểm khác bị xóa đi thì thuật toán vẫn cho kết quả giống

như ban đầu Chính đặc điểm này làm cho SVM khác với các thuật toán khác như

kNN,LLSF, NNet và NB vì tất cả dữ liệu trong tập huấn luyện đều được dùng để tối ưu

Formatted: Indent: First line: 0.38"

Formatted: Font: (Default) Times New Roman, 13 pt, No underline, Font color: Auto Comment [t1]: Sai lõi chính tả

Formatted: Font: (Default) Times New Roman, 13 pt

Trang 30

hóa kết quả Các phiên bản SVM tốt có thể kể đến là SVMLight (Joachims trình bày

năm 1998) và Sequential Minimal Optimization (SMO) (Platt trình bày năm 1998)

Phương pháp SVM được coi là phương pháp hiệu quả để giải quyết bài toán phân l

pháp SVM được coi là phương pháp hiệu quả để giải quyết bài toán là SVMLight

(Joachims trình bày năm 1u phẳng tối ưu nhất là siêu phẳng có biên lớn nhất, điều đó có

nghĩa là chúng ta cần tìm siêu phẳng sao cho khoảng cách từ siêu phẳng đến những đi

phân lớp văn bản sử dụng phương pháp SVM thì việc lựa chọn thuộc tính cho từng

phân lớp lại là vấn đề cực kỳ quan trọng, nó quyết định đến hiệu quả của phân lớp

Phương pháp SVM có thể tránh được over-fiting thường gặp trong bài toán phân

lớp.Ưu đig pháp SVM có thể tránh được over-fiting thường gặp trong bài toán phân lớp

không gian nh xác Mục đích thuật toán SVM tì thể được áp dụng cho nhiều bài toán

như: Nhận dạng kuôn mặt, nhận dạng chận dạng kuôn mặt, nhận dạng i c over-fiting

thường gặp trong bài Tuy nhiên SVM cũng có một số nhược điểm như SVM chhiên

SVthiết kế cho phân lớp nhị phân Tuy nhiên trong thlớp nhị phân ược điểm như

thường

2.2.4 Mô hình Entropy cực đại (Maximum Entropy)

2.2.4.1 Nguyên lý Entropy cực đại

Đối với bài toán phân lớp dữ liệu, Entropy cực đại là một kỹ thuật dùng để

ước lượng xác suất các phân phối từ dữ liệu Tư tưởng chủ đạo của nguyên lý Entropy

cực đại là “mô hình phân phối đối với mỗi tập dữ liệu và tập các ràng buộc đi cùng

phải đạt được độ cân bằng/đều nhất có thể” Tập dữ liệu học (tức là tập gồm các dữ liệu

đã được gán nhãn) được sử dụng để tìm ra các ràng buộc cho mô hình, đó là cơ sở để

ước lượng phân phối cho từng lớp cụ thể Những ràng buộc này được thể hiện bởi các

giá trị ước lượng được của các đặc trưng Từ các ràng buộc sinh ra bởi tập dữ liệu này,

mô hình sẽ tiến hành tính toán để có được một phân phối cho Entropy cực đại

Ví dụ một mô hình Entropy cực đại: “Giả sử với bộ phân lớp về lĩnh vựcphạm

tội trên báo VnExpress.net có bốn lớp chính được chỉ ra là lừa đảo, cướp giật, ma túy,

giết người Các thống kê dữ liệu chỉ ra rằng trung bình 70% các tài liệu trong lớp lừa

đảo có chứa từ lừa_đảo Như vậy một cách trực quan có thể thấy rằng nếu một tài liệu

Formatted: Font: (Default) Times New Roman, 13 pt, No underline, Font color: Auto

Formatted: Font: (Default) Times New Roman, 13 pt

Formatted: Space Before: 0 pt, Line spacing: 1.5 lines

Trang 31

D có chứa từ lừa_đảo thì xác suất được phân vào lớp lừa đảo là 70% và xác suất phân

vào ba lớp còn lại là 10% đối với mỗi lớp Nếu tài liệu D không chứa từ lừa_đảo thì xác

suất phân phối của D là 25% đều cho mỗi lớp.” Trong ví dụ trên, “nếu tài liệu chứa cụm

từ lừa_đảo thì có xác suất phân vào lớp lừa đảo là 70%” là một ràng buộc của mô hình

2.2.4.2 Các ràng buộc và đặc trưng

Trong nguyên lý Entropy cực đại, chúng ta sử dụng tập dữ liệu mẫu làm để

thiết lập ràng buộc cho phân phối điều kiện Với mỗi ràng buộc được mô tả bởi một

đặc tính của tập dữ liệu học Một đặc trưng trong mô hình Entropy cực đại được biểu

diễn bởi một hàm ( , ), trong đó d là tài liệu và c là lớp Entropy cực đại cho phép

giới hạn mô hình phân phối để có thu các giá trị kỳ vọng cho mỗi đặc trưng của tập dữ

liệu Vì vậy, ta có thể đặt xác suất phân phối của dữ liệu d cho lớp c là P(c|d) thỏa

ta không cần quan tâm tới nó Vì vậy, ta chỉ sử dụng tập dữ liệu mẫu như là một

điều kiện để phân phối dữ liệu tuân theo ràng buộc sau:

2.2.4.3 Mô hình Entropy cực đại

Mô hình xác suất Entropy cực đại cung cấp một cách đơn giản để kết hợp các

đặc trưng của tài liệu trong những ngữ cảnh khác nhau để ước lượng xác suất của một

số lớp xuất hiện cùng với một số ngữ cảnh này Tư tưởng cơ bản của phương

pháp Entropy cực đại là tìm ra một mô hình có phân phối xác suất thỏa mãn mọi ràng

buộc quan sát được từ dữ liệu mà không đưa thêm bất kì một giả thiết nào khác

Theo nguyên lý Entropy cực đại, phân phối cần đáp ứng dữ liệu quan sát và làm cực đại

độ đo Entropy có điều kiện:

Formatted: Space Before: 0 pt, Line spacing: 1.5 lines

Định dạng
Số trang	63
Dung lượng	0,95 MB