NGHIÊN CỨU ỨNG DỤNG MẠNG BAYES XÂY DỰNG HỆ THỐNG TỰ ĐỘNG PHÂN LOẠI VĂN BẢN LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

NGHIÊN CỨU ỨNG DỤNG MẠNG BAYES XÂY DỰNG HỆ THỐNG TỰ ĐỘNG PHÂN LOẠI VĂN BẢN Học viên: Phạm Vũ Nhật Huy Chuyên ngành: Khoa khọc máy tính Mã số: 60.48.01.01 Khĩa: K31 - Trường Đại học Bách

Trang 1

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA -

PHẠM VŨ NHẬT HUY

NGHIÊN CỨU ỨNG DỤNG MẠNG BAYES

XÂY DỰNG HỆ THỐNG TỰ ĐỘNG

PHÂN LOẠI VĂN BẢN

Chuyên ngành : KHOA HỌC MÁY TÍNH

Mã số : 60.48.01.01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC:

TS Đặng Hoài Phương

Đà Nẵng – Năm 2017

Trang 2

LỜI CAM ĐOAN

Tôi cam đoan đây là công trình nghiên cứu của riêng tôi

Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được

ai công bố trong bất kỳ công trình nào khác

Học viên

Phạm Vũ Nhật Huy

Trang 3

MỤC LỤC DANH MỤC CÁC BẢNG - BIỂU

LỜI MỞ ĐẦU 1

Chương 1 TỔNG QUAN CÁC MƠ HÌNH, PHƯƠNG PHÁP VÀ HỆ THỐNG PHÂN LOẠI VĂN BẢN 5

1.1 TỔNG QUAN VỀ PHÂN LOẠI VĂN BẢN 5

1.2 CÁC MƠ HÌNH VÀ PHƯƠNG PHÁP PHÂN LOẠI VĂN BẢN 7

1.2.1 Xử lý văn bản 7

1.2.2 Phương pháp phân loại văn bản 9

1.2.2.1 Phương pháp K-Nearest Neighbor (KNN) 9

1.2.2.2 Phương pháp Linear Least Square Fit (LLSF) 11

1.2.2.3 Phương pháp cây quyết định (Decision tree) 11

1.2.2.4 Support Vector Machines (SVM) 12

1.2.2.5 Neural Network (NNet) 13

1.2.2.6 Centroid - Based Vector 15

1.3 KẾT LUẬN CHƯƠNG 18

Chương 2 HỆ THỐNG PHÂN LOẠI VĂN BẢN 19

2.1 XÂY DỰNG MƠ HÌNH PHÂN LOẠI VĂN BẢN 19

2.2 CÁC GIAI ĐOẠN TRONG HỆ THỐNG 22

2.2.1 Tiền xử lý văn bản 22

2.2.2 Tách từ 22

2.2.3 Phương pháp phân loại văn bản sử dụng thuật tốn Nạve Bayes 24

2.2.3.1 Lý thuyết xác suất Bayes 25

2.2.3.2 Phân loại văn bản dựa trên Nạve Bayes 29

2.2.4 Phương pháp giảm kích thước tập văn bản huấn luyện 32

2.2.4.1 Phương pháp Latent Semantic Analysis: 32

2.2.4.2 Kỹ thuật SVD - LSA áp dụng tối ưu hĩa tập văn bản huấn luyện: 33

Chương 3 THIẾT KẾ VÀ TRIỂN KHAI THỬ NGHIỆM HỆ THỐNG 39 3.1 PHÁT TRIỂN HỆ THỐNG PHÂN LOẠI VĂN BẢN 39

3.2 THIẾT KẾ HỆ THỐNG PHÂN LOẠI VĂN BẢN 40

3.2.1 Biểu đồ use-case 40

Trang 4

3.2.2 Biểu đồ tuần tự 41

3.2.3 Thiết kế cơ sở dữ liệu của hệ thống 41

3.2.4 Môi trường và công cụ phát triển hệ thống 43

3.2.5 Các chức năng của chương trình 44

3.3 TRIỂN KHAI THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 48

3.3.1 Xây dựng dữ liệu văn bản huấn luyện 48

3.3.2 Triển khai hệ thống 49

3.3.3 Kết quả thực nghiệm 50

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 51 DANH MỤC TÀI LIỆU THAM KHẢO

Trang 5

NGHIÊN CỨU ỨNG DỤNG MẠNG BAYES XÂY DỰNG HỆ THỐNG

TỰ ĐỘNG PHÂN LOẠI VĂN BẢN

Học viên: Phạm Vũ Nhật Huy Chuyên ngành: Khoa khọc máy tính

Mã số: 60.48.01.01 Khĩa: K31 - Trường Đại học Bách khoa - ĐHĐN

Tĩm tắt - Với sự phát triển vượt bậc của Internet trong thời đại này, thì việc tìm

kiếm văn bản rất dễ dàng; tuy nhiên vấn đề đặt ra là làm sao tìm kiếm được văn bản phù hợp với mục đích người dùng trong khi lượng cơ sở dữ liệu văn bản là rất lớn Trong luận văn này, tác giả đã đề xuất mơ hình phân loại văn bản nhằm giúp cho việc tìm kiếm dễ dàng và nhanh chĩng hơn Mơ hình phân loại văn bản đề xuất sử dụng lý thuyết Nạve Bayes - phương pháp phân loại dựa vào xác suất Bên cạnh đĩ, tác giả sử dụng Latent Semantic Analysis để tối ưu hĩa, giảm kích thước tập văn bản huấn luyện Xây dựng hệ thống tự động phân loại văn bản trên cơ sở mơ hình đề xuất

Từ khĩa – phân loại văn bản, phân tích ngữ nghĩa tiềm ẩn, mạng Bayes, phân tích

tập huấn luyện, xử lý ngơn ngữ tự nhiên

RESEARCH BAYESIAN NETWORK STRUCTURE AND APPLIED

TO DOCUMENT CLASSIFICATION SYSTEM Abstract - Nowadays the internet has increasingly developed, and searching

documents by Internet is very easy But, the problem is how to find suitable documents for needs of the user while the databases on the Internet is very large and separate to many different specialties In this thesis, the author has proposed a documents classification model to make the process of searching is easier and faster The proposed model uses the Nạve Bayes theory - a popular classification technique based on probability In addition, the author uses Latent Semantic Analysis to optimize and reduce the size of the training text Beside that, the author build a document classification system based on the proposed model

Keywords – document classification, Latent semantic analysis, Bayes network,

analysis training data, natural language processing

Trang 6

DANH MỤC CÁC TỪ VIẾT TẮT

LSA Latent semantic analysis Phân tích ngữ nghĩa tiềm ẩn SVD Singular Value Decomposition Phân tích giá trị đơn

loại văn bản)

Trang 7

3.8 Bảng so sánh kết quả phân loại văn bản giữa người và

máy

50

Trang 8

DANH MỤC CÁC HÌNH ẢNH

2.1 Mơ hình PLVB trên cơ sở thuật tốn Nạve Bayes và

LSA

20

Trang 9

DANH MỤC CÁC SƠ ĐỒ

3.1 Sơ đồ các chức năng của hệ thống phân loại văn bản 39

Trang 10

LỜI MỞ ĐẦU

1 Lý do chọn đề tài:

Ngày nay con người khơng ngừng chia sẻ dữ liệu thơng tin về tất cả các

đề tài trong cuộc sống, điều đĩ đã làm cho số lượng các tập tin văn bản xuất hiện trên mạng Internet ngày càng một nhiều hơn, dẫn đến khĩ khăn trong việc tìm kiếm dữ liệu văn bản

Vấn đề đặt ra của các hệ thống truy cập thơng tin là phải làm việc và xử

lý lượng dữ liệu ban đầu quá nhiều mà lượng truy cập thì rất lớn Vì vậy việc phân loại văn bản là việc làm cấp thiết nhằm giúp cho việc truy cập dữ liệu một cách nhanh chĩng hơn Với một lượng cơ sở dữ liệu lớn khơng thể so sánh từng văn bản một, việc này sẽ tạo ra thời gian dư thừa để tổ chức và tìm kiếm các dữ liệu khả quan hơn Do đĩ việc phân loại văn bản theo các nhĩm

dữ liệu là vấn đề quan trọng trọng lĩnh vực xử lý ngơn ngữ

Trong luận văn này, tác giả sẽ tập trung nghiên cứu ứng dụng mạng Bayes và Latent Semantic Analysis để áp dụng xây dựng hệ thống tự động phân loại văn bản Mơ hình phân loại văn bản đề xuất sử dụng lý thuyết Nạve Bayes - phương pháp phân loại dựa vào xác suất nhằm tăng tốc độ phân loại

và Latent Semantic Analysis để tối ưu hĩa, giảm kích thước tập văn bản huấn luyện hoặc giảm độ lớn của tập huấn luyện

Vì những lý do như trên, tác giả đề xuất chọn đề tài luận văn cao học:

“Nghiên cứu ứng dụng mạng Bayes xây dựng hệ thống tự động phân loại văn bản”

2 Mục đích và ý nghĩa đề tài:

a Mục đích

- Nghiên cứu, phân tích các mơ hình, phương pháp phân loại văn bản;

- Nghiên cứu và ứng dụng mạng Bayes để xây dựng mơ hình phân loại văn bản và sử dụng Latent Semantic Analysis để tối ưu hĩa kích thước tập văn bản huấn luyện;

Trang 11

- Hiện thực hóa hệ thống tự động phân loại văn bản trên cơ sở mô hình

hệ thống tự động phân loại văn bản trên cơ sở mô hình đề xuất Để thỏa mãn mục tiêu này thì cần đạt được những mục tiêu cụ thể sau:

- Nghiên cứu, phân tích các mô hình, phương pháp và hệ thống phân loại văn bản hiện nay;

- Nghiên cứu & ứng dụng mạng Bayes và Latent Semantic Analysis để xây dựng mô hình phân loại văn bản;

- Hiện thực hóa mô hình đề xuất và triển khai trong thực tế

b Nhiệm vụ

Để đạt được những mục tiêu trên thì nhiệm vụ đặt ra của đề tài là:

- Phân tích và nắm vững các mô hình, phương pháp phân loại văn bản, đưa ra bài toán cần giải quyết

- Phân tích và đề xuất mô hình giải quyết bài toán;

- Hiện thực hóa hệ thống dựa trên mô hình đề xuất và triển khai, đánh giá kết quả đạt được trong thực tế

Trang 12

4 Đối tượng và phạm vi nghiên cứu:

Trong khuôn khổ của luận văn thuộc loại nghiên cứu và ứng dụng, tác giả chỉ giới hạn nghiên cứu các vấn đề sau:

- Các mô hình phân loại văn bản;

- Nghiên cứu mạng Bayes, Latent Semantic Analysis

5 Phương pháp nghiên cứu:

- Nghiên cứu đề xuất giải pháp, mô hình phân loại văn bản;

- Hiện thực hóa hệ thống trên cơ sở mô hình đề xuất;

- Cài đặt hệ thống và triển khai thực tế, nhận xét và đánh giá kết quả đạt được

6 Phương pháp nghiên cứu:

- Ngôn ngữ lập trình C# – Microsoft Visual Studio;

- Hệ quản trị cơ sở dữ liệu SQL Server 2008

7 Kết luận

a Kết quả của đề tài

- Đề xuất mô hình phân loại văn bản dựa trên mạng Bayes và Latent Semantic Analysis;

- Hiện thực hóa hệ thống tự động phân loại văn bản trên cơ sở mô hình

đề xuất;

- Triển khai hệ thống trong thực tế và đánh giá hiệu quả của mô hình

b Hướng phát triển của đề tài

- Áp dụng xử lý đa luồng nhằm nâng cao hiệu quả;

- Tiếp tục nghiên cứu pháp triển để nâng cao tính chính xác của mô hình

đề xuất

Trang 14

Chương 1 TỔNG QUAN CÁC MÔ HÌNH, PHƯƠNG PHÁP VÀ HỆ THỐNG PHÂN LOẠI VĂN BẢN

1.1 TỔNG QUAN VỀ PHÂN LOẠI VĂN BẢN

Phân loại văn bản là sự phân loại không cấu trúc các tài liệu văn bản dựa trên một tập hợp của một hay nhiều loại văn bản đã được định nghĩa trước Quá trình này thường được thực thi bằng một hệ thống tự động gán cho các tài liệu văn bản một loại nào đó Trong thực tế ứng dụng quan trọng nhất của phân loại văn bản là giới hạn phạm vi tìm kiếm thông tin (bởi thay cho việc phải lục soát tất cả các tài liệu họ chỉ tập trung vào một số loại văn bản có liên quan đến thông tin mà họ cần tìm kiếm) [22] Phân loại văn bản góp phần quan trọng trong việc tổ chức thông tin và quản lí tài liệu Ứng dụng phổ biến nhất của phân loại văn bản là trợ giúp cho việc tìm kiếm và lọc văn bản do đó tăng tốc độ truy cập thông tin Phân loại văn bản cũng đóng vai trò quan trọng trong việc đa dạng hóa và chuyên nghiệp hóa các công việc quản lí thông tin như là: việc sắp xếp các loại thư điện tử hoặc các file trong các hệ thống, xác minh chủ đề để trợ giúp cho các tiến trình hoạt động xử lí, tìm kiếm hay duyệt các cấu trúc, hoặc để tìm kiếm các loại tài liệu mà người dùng quan tâm

Hình 1.1: Bài toán phân loại văn bản

Việc phân loại văn bản vào các tập hợp hoặc cấu trúc được thiết lập theo những tiêu chí khác nhau, như phân loại theo độ ưu tiên, theo chủ đề, và hầu hết những việc làm này tốn rất nhiều thời gian, công sức và đôi khi không chính xác nếu được phân loại một cách thủ công – tức là đọc từng văn bản và

Dữ liệu

đầu vào Thuật toán phân loại văn bản

Loại thứ 1

Loại thứ 2Loại thứ n

Trang 15

gán vào một lớp nào đó Đặc biệt với số lượng tài liệu cần phân loại cực kỳ lớn như hiện nay thì việc phân loại văn bản thủ công là một điều không thể Phân loại những đối tượng mới vào các lớp bằng phương pháp thủ công gặp phải những khó khăn sau:

- Đối với các lĩnh vực đặc biệt, phân loại các đối tượng mới (như cơ sở

dữ liệu về y tế, pháp luật, tài chính, ngân hàng, …) vào các lớp cho trước cần có hiểu biết về các lĩnh vực đó;

- Phân loại bằng tay đôi khi không chính xác vì quyết định phụ thuộc vào

sự hiểu biết và động cơ của người thực hiện;

- Quyết định (nhận định) của nhiều người khác nhau có thể nảy sinh bất đồng ý kiến Vì vậy những công cụ để tự động phân loại văn bản vào các lớp sẽ rất hữu ích với công việc này nhất là khi thông tin tràn ngập như ngày nay Một số phương pháp phân loại thống kê và kĩ thuật học máy như Bayesian, máy vector hỗ trợ (Support Vector Machines), K-Nearest Neighbor, Mạng Nơron, được áp dụng để giải quyết bài toán này

Chính vì những nhược điểm của phương pháp thủ công nên việc xây dựng một bộ phân loại văn bản tự động là một điều rất quan trọng và cần thiết, đặc biệt là khi hầu hết các thông tin được sinh ra và lưu trữ điện tử Các bài báo khoa học và giải trí là những ví dụ về tập các tài liệu điện tử Với sự phát triển ngày càng mạnh mẽ của mạng Internet và Intranet đã tạo ra nguồn thông tin

vô cùng phong phú Các kỹ thuật phân loại văn bản sẽ giúp cho nguồn dữ liệu này đã được lưu trữ tự động một cách hiệu quả và được tìm kiếm nhanh chóng

Phân loại văn bản được xuất hiện từ những năm 1960, nhưng chỉ 15 năm sau, nó đã trở thành lĩnh vực nghiên cứu chính trong hệ thống thông tin bởi sự

đa dạng của các ứng dụng [22] Phân loại văn bản là công việc được sử dụng

để hỗ trợ trong quá trình tìm kiếm thông tin (Information Retrieval), chiết lọc thông tin (Information Extraction), lọc văn bản hoặc tự động dẫn đường cho

Trang 16

các văn bản tới những chủ đề xác định trước Một ứng dụng khác của phân loại văn bản là trong lĩnh vực hiểu văn bản Phân loại văn bản có thể được sử dụng để lọc văn bản hoặc một phần văn bản chứa dữ liệu cần tìm mà không làm mất đi tính phức tạp của ngôn ngữ tự nhiên

1.2 CÁC MÔ HÌNH VÀ PHƯƠNG PHÁP PHÂN LOẠI VĂN BẢN

1.2.1 Xử lý văn bản

a) Đặc điểm của từ trong Tiếng Việt

Tiếng Việt thuộc ngôn ngữ đơn lập, tức là mỗi một tiếng (âm tiết) được phát âm tách rời nhau và được thể hiện bằng một chữ viết Đặc điểm này thể hiện rõ rệt ở tất cả các mặt ngữ âm, từ vựng, ngữ pháp [23]

Đặc điểm ngữ âm: Trong tiếng Việt có một loại đơn vị đặc biệt gọi là

"tiếng" Về mặt ngữ âm, mỗi tiếng là một âm tiết Hệ thống âm vị tiếng Việt phong phú và có tính cân đối, tạo ra tiềm năng của ngữ âm tiếng Việt trong việc thể hiện các đơn vị có nghĩa Nhiều từ tượng hình, tượng thanh có giá trị gợi tả đặc sắc Khi tạo câu, tạo lời, người Việt rất chú ý đến sự hài hoà về ngữ

âm, đến nhạc điệu của câu văn

Đặc điểm từ vựng: Mỗi tiếng, nói chung, là một yếu tố có nghĩa Tiếng là đơn vị cơ sở của hệ thống các đơn vị có nghĩa của tiếng Việt Từ tiếng, người

ta tạo ra các đơn vị từ vựng khác để định danh sự vật, hiện tượng, chủ yếu nhờ phương thức ghép và phương thức láy

Đặc điểm ngữ pháp: Từ của tiếng Việt không biến đổi hình thái Đặc điểm này sẽ chi phối các đặc điểm ngữ pháp khác Khi từ kết hợp từ thành các kết cấu như ngữ, câu, tiếng Việt rất coi trọng phương thức trật tự từ

Việc sắp xếp các từ theo một trật tự nhất định là cách chủ yếu để biểu thị các quan hệ cú pháp Khi các từ cùng loại kết hợp với nhau theo quan hệ chính phụ thì từ đứng trước giữ vai trò chính, từ đứng sau giữ vai trò phụ Trật tự chủ ngữ đứng trước, vị ngữ đứng sau là trật tự phổ biến của kết cấu câu tiếng Việt

Trang 17

Từ: Có rất nhiều quan niệm về từ trong tiếng Việt, từ nhiều quan niệm về

từ tiếng Việt khác nhau đó chúng ta có thể thấy đặc trưng cơ bản của "từ" là

sự hoàn chỉnh về mặt nội dung, từ là đơn vị nhỏ nhất để đặt câu

Người ta dùng "từ" kết hợp thành câu chứ không phải dùng "tiếng", do đó quá trình tách câu thành các "từ" cho kết quả tốt hơn là tách câu bằng “tiếng”

b) Đặc trưng văn bản

Đối với mỗi một văn bản luôn chứa tập các từ khóa và gọi tập các từ khóa này là tập các thuật ngữ (term) Một phần tử trong tập term thì đơn giản là một từ, mà ngữ nghĩa của từ này giúp tạo thành nên nội dung của văn bản [23]

Giả sử cho một tập term của một văn bản nào đó, chúng ta có thể nhận thấy rằng không phải tất cả các từ trong tập term này đều có mức độ quan trọng như nhau trong việc mô tả nội dung văn bản Ví dụ, bây giờ chúng ta xét một tập gồm một ngàn văn bản, giả sử có một từ A nào đó xuất hiện trong một ngàn văn bản này thì chúng ta có thể khẳng định rằng từ A này không quan trọng và chúng ta sẽ không quan tâm đến nó, bởi vì chắc chắn là nó sẽ không cho chúng ta biết được về nội dung của các văn bản này Vì vậy từ A

sẽ bị loại ra khỏi tập các term, khi chúng ta xây dựng tập term cho văn bản để miêu tả nội dung ngữ nghĩa của các văn bản này Kết quả này có được thông qua thao tác xác định trọng số cho mỗi một từ trong tập term của một văn bản

c) Biểu diễn văn bản

Để có thể xử lý được các văn bản, thì phải chuyển chúng về dạng dữ liệu

có cấu trúc Để thực hiện được công việc này, người ta đưa ra các mô hình biểu diễn văn bản Mô hình biểu diễn văn bản có ảnh hưởng rất nhiều đến hiệu quả và hiệu suất xử lý các văn bản Tùy mục đích, yêu cầu đặt ra của ứng dụng mà chúng ta lựa chọn mô hình biểu diễn và phương pháp xử lý phù hợp [23]

Các mô hình biểu diễn văn bản đã được sử dụng như mô hình logic, mô hình phân tích cú pháp, mô hình không gian véc-tơ

Trang 18

Bản chất của mơ hình khơng gian véc-tơ là mỗi văn bản được biểu diễn thành một véc-tơ Mỗi thành phần của véc-tơ biểu diễn một thuật ngữ riêng biệt trong tập văn bản gốc và được gán một giá trị là một hàm của từng thuật ngữ trong văn bản Giá trị này thường là trọng số của từ trong văn bản, được xác định theo nhiều cách khác nhau

1.2.2 Phương pháp phân loại văn bản

Phân loại văn bản tự động là việc gán các nhãn lên một văn bản mới dựa trên mức độ tương tự của văn bản đĩ so với các văn bản đã được gán nhãn trong tập huấn luyện Để phân loại văn bản người ta sử dụng các phương pháp như: thuật tốn Nạve Bayes (NB), Neural Network (NNet), Decision Tree (cây quyết định) [8], K láng giềng gần nhất (KNN) [9], Support Vector Machines (SVM) [10], Linear Least Square Fit [11]

lớn nhất [24]

Khi cần phân loại một văn bản mới, thuật tốn sẽ tính khoảng cách (khoảng cách Euclide) của tất cả các văn bản trong tập huấn luyện đến văn bản này để tìm ra k văn bản “gần nhất” (gọi là k “láng giềng”), sau đĩ dùng các khoảng cách này đánh trọng số cho tất cả chủ đề Trọng số của một chủ đề chính là tổng tất cả khoảng cách ở trên của các văn bản trong k láng giềng cĩ cùng chủ đề, chủ đề nào khơng xuất hiện trong k láng giềng sẽ cĩ trọng số bằng 0 Sau đĩ các chủ đề sẽ được sắp xếp theo mức độ trọng số giảm dần và các chủ đề cĩ trọng số cao sẽ được chọn là chủ đề của văn bản cần phân loại

Cĩ 2 vấn đề cần quan tâm khi phân loại văn bản bằng thuật tốn K- láng giềng gần nhất là xác định khái niệm gần, cơng thức để tính mức độ gần; và

Trang 19

làm thế nào để tìm được nhóm văn bản phù hợp nhất với văn bản đó (nói cách khác là tìm được chủ đề thích hợp để gán cho văn bản)

Khái niệm gần ở đây được hiểu là độ tương tự giữa các văn bản Có nhiều cách để xác định độ tương tự giữa hai văn bản, trong đó công thức Cosine trọng số được coi là hiệu quả để đánh giá độ tương tự giữa hai văn bản

Khoảng cách giữa 2 văn bản chính là độ tương tự giữa 2 văn bản đó, 2 văn bản có giá trị độ tương tự càng lớn thì khoảng cách càng gần nhau

Dùng công thức Cosine để tính độ tương tự giữa 2 văn bản [9]:

Ví dụ:

Văn bản A : “Tôi là học sinh”

Văn bản B : “Tôi là sinh viên”

Văn bản C : “Tôi là giáo viên”

Biểu diễn văn bản theo dạng vector :

√4∗4 =0.5 Điều đó cho thấy văn bản A tương tự văn bản B hơn so với C

Trang 20

1.2.2.2 Phương pháp Linear Least Square Fit (LLSF)

LLSF là một cách tiếp cận ánh xạ được phát triển bởi Yang và Chute vào năm 1992 [12] Đầu tiên, LLSF được Yang và Chute thử nghiệm trong lĩnh vực xác định từ đồng nghĩa sau đó sử dụng trong phân loại vào năm 1994 Các thử nghiệm của Yang cho thấy hiệu suất phân loại của LLSF có thể ngang bằng với phương pháp kNN kinh điển

LLSF sử dụng phương pháp hồi quy để học từ tập huấn luyện và các chủ

đề có sẵn Tập huấn luyện được biểu diễn dưới dạng một cặp véc-tơ đầu vào

và đầu ra như sau:

- Véc-tơ đầu vào một văn bản bao gồm các từ và trọng số;

- Véc-tơ đầu ra gồm các chủ đề cùng với trọng số nhị phân của văn bản ứng với véc-tơ đầu vào

Với công thức sau:

Nhờ vào việc sắp xếp trọng số của các chủ đề, ta được một danh sách chủ

đề có thể gán cho văn bản cần phân loại và việc đặt ngưỡng lên trọng số của các chủ đề mà ta tìm được chủ đề thích hợp cho văn bản đầu vào Hệ thống tự động học các ngưỡng tối ưu cho từng chủ đề, giống với kNN Mặc dù LLSF

và kNN khác nhau về mặt thống kê, nhưng ta vẫn tìm thấy điểm chung ở hoạt động của hai phương pháp là việc học ngưỡng tối ưu [11]

1.2.2.3 Phương pháp cây quyết định (Decision tree)

Đây là phương pháp học xấp xỉ các hàm mục tiêu có giá trị rời rạc Mặt khác cây quyết định còn có thể chuyển sang dạng biểu diễn tương đương dưới dạng cơ sở tri thức là các luật Nếu – Thì [15]

Trang 21

Bộ phân lớp cây quyết định là một dạng cây mà mỗi nút được gán nhãn là một đặc trưng, mỗi nhánh là giá trị trọng số xuất hiện của đặc trưng trong văn bản cần phân loại, và mỗi lá là nhãn của loại tài liệu Việc phân loại của một tài liệu dj sẽ được duyệt đệ quy theo trọng số của những đặc trưng có xuất hiện trong văn bản dj Thuật toán lặp đệ quy đến khi đạt đến nút lá và nhãn của dj chính là nhãn của nút lá tìm được Thông thường việc phân loại văn bản nhị phân sẽ tương thích với việc dùng cây nhị phân

Cây quyết định này được tổ chức như sau: Các nút trong được gán nhãn bởi các thuật ngữ, nhãn của các cung tương ứng với trọng số của thuật ngữ trong tài liệu mẫu, nhãn của các lá tương ứng với nhãn của các lớp Cho một tài liệu dj, ta sẽ thực hiện so sánh các nhãn của cung xuất phát từ một nút trong (tương ứng với một thuật ngữ nào đó) với trọng số của thuật ngữ này trong dj, để quyết định nút trong nào sẽ được duyệt tiếp Quá trình này được lặp từ nút gốc của cây, cho tới khi nút được duyệt là một lá của cây Kết thúc quá trình này, nhãn của nút lá sẽ là nhãn của lớp được gán cho văn bản

1.2.2.4 Support Vector Machines (SVM)

Support Vector Machines là một phương pháp phân loại dựa trên lý thuyết học thống kê, được đề xuất bởi Vapnik [10]

SVM hoạt động trên nguyên tắc ánh xạ (tuyến tính hoặc phi tuyến) dữ liệu vào không gian các véc-tơ đặc trưng (space of feature vectors) mà ở đó một siêu phẳng tối ưu được tìm ra để tách dữ liệu thuộc hai lớp khác nhau

Cho trước một tập huấn luyện được biểu diễn trong không gian véc-tơ trong đó mỗi tài liệu là một điểm, phương pháp này tìm ra một siêu mặt phẳng

h quyết định tốt nhất có thể chia các điểm trên không gian này thành hai lớp

riêng biệt tương ứng lớp + và lớp – Chất lượng của siêu mặt phẳng này được

quyết định bởi khoảng cách (gọi là biên) của điểm dữ liệu gần nhất của mỗi loại đến mặt phẳng này Khoảng cách biên càng lớn thì mặt phẳng quyết định càng tốt đồng thời việc phân loại càng chính xác

Trang 22

Mục đích thuật toán SVM tìm được khoảng cách biên lớn nhất Cụ thể

như hình 1.2 siêu phẳng phân chia dữ liệu học thành 2 lớp + và – với khoảng

cách biên lớn nhất Các điểm gần nhất là các Support Vector [3]:

Hình 1.2: Hình minh họa SVM

SVM thực chất là một bài toán tối ưu, mục tiêu của thuật toán này là tìm được một không gian H và siêu mặt phẳng quyết định h trên H sao cho sai số phân loại là thấp nhất

1.2.2.5 Neural Network (NNet)

Mạng Neural được nghiên cứu mạnh trong hướng trí tuệ nhân tạo Wiener

là người đã sử dụng mạng Neural để phân loại văn bản, sử dụng 2 hướng tiếp cận: kiến trúc phẳng (không sử dụng lớp ẩn) và mạng nơron 3 lớp (bao gồm một lớp ẩn) [19]

Cả hai hệ thống trên đều sử dụng một mạng nơron riêng rẽ cho từng chủ

đề, NNet học cách ánh xạ phi tuyến tính những yếu tố đầu vào như từ, hay mô hình véc-tơ của một văn bản vào một chủ đề cụ thể

Khuyết điểm của phương pháp NNet là tiêu tốn nhiều thời gian dành cho việc huấn luyện mạng nơron

Trang 23

Mô hình phân loại văn bản sử dụng mô hình mạng neural gồm có ba thành phần chính như sau: kiến trúc, hàm chi phí và thuật toán tìm kiếm Kiến trúc định nghĩa dạng chức năng liên quan giá trị nhập đến giá trị xuất

Kiến trúc phẳng: Mạng phân loại đơn giản nhất (còn gọi là mạng logic) có một đơn vị xuất là kích hoạt kết quả và không có lớp ẩn, kết quả trả về ở dạng hàm tương đương với mô hình hồi quy logic Thuật toán tìm kiếm chia nhỏ

mô hình mạng để thích hợp với việc điều chỉnh mô hình ứng với tập huấn luyện Ví dụ, chúng ta có thể học trọng số trong mạng kết quả bằng cách sử dụng không gian trọng số giảm dần hoặc sử dụng thuật toán interated- reweighted least squares [20]

Kiến trúc mô đun (modular architecture): Việc sử dụng một hay nhiều lớp

ẩn của những hàm kích hoạt phi tuyến tính cho phép mạng thiết lập các mối quan hệ giữa những biến nhập và biến xuất Mỗi lớp ẩn học để biểu diễn lại

dữ liệu đầu vào bằng cách khám phá ra những đặc trưng ở mức cao hơn từ sự kết hợp đặc trưng ở mức trước

Hình 1.3: Kiến trúc mô đun (Modular Architecture)

Trong hình 1.3 các kết quả của từng mạng con sẽ là giá trị đầu vào cho

mạng siêu chủ đề và được nhân lại với nhau để dự đoán chủ đẻ cuối cùng

Trong công trình của Wiener dựa theo khung của mô hình hồi quy, liên quan từ đặc trưng đầu vào cho đến kết quả gán chủ đề tương ứng được học từ tập dữ liệu Do vậy, để phân tích một cách tuyến tính, tác giả dùng hàm sigmoid sau làm hàm truyền trong mạng neural:

Trang 24

𝑝 = 1

1 + 𝑒−𝜂

Trong đó, 𝜂 = 𝛽𝑇𝑥 là sự kết hợp của những đặc trưng đầu vào và 𝑝 phải thỏa điều kiện 𝑝 ∈ (0,1)

1.2.2.6 Centroid - Based Vector

Là một phương pháp phân loại đơn giản, dễ cài đặt và tốc độ nhanh do có

độ phức tạp tuyến tính O(n) [20]

Mỗi lớp trong dữ liệu luyện sẽ được biểu diễn bởi một vector trọng tâm Việc xác định lớp của một văn bản thử bất kì sẽ thông qua viêc tìm vector trọng tâm nào gần với vector biểu diễn văn bản thử nhất Lớp của văn bản thử chính là lớp mà vector trọng tâm đại diện Khoảng cách được tính theo độ đo cosine

Công thức tính vector trọng tâm của lớp i

Trang 25

Nhận xét:

Từ những phân tích ở trên, ta có thể so sánh ưu, nhược điểm của các phương pháp phân loại văn bản đã tồn tại ở Bảng 1.2:

Bảng 1.2: Bảng so sánh ưu, nhược điểm của các phương pháp PLVB

Các thuộc tính không liên quan có thể ảnh hưởng xấu đến việc xây dựng cây quyết định

Không có khả năng xử lý trong trường hợp thiếu dữ liệu, xử lý dữ liệu có giá trị liên tục

LLSF

(Linear Least

Square Fit)

Sử dụng ngữ nghĩa của từ thay vì so khớp từ

Tốc độ (thời gian huấn luyện, phân loại) nhanh và cài đặt dễ dàng

Cần phải ước lượng tham

số và ngưỡng tối ưu đầu vào

Có thể tự tìm ta các tham số

và ngưỡng tối ưu

Thời gian huấn luyện rất chậm

Trang 26

đã học được Nhìn chung các phương pháp phân loại văn bản nói trên đều cho kết quả chấp nhận được và đã ứng dụng trong thực tế Tuy nhiên việc áp dụng các phương pháp trên trong phân loại văn bản tiếng Việt chưa được chính xác, do những nguyên nhân sau:

- Số chiều đặc trưng lớn: Trong phân loại văn bản tất cả các phương pháp gặp một khó khăn chung khi không gian dữ liệu với số chiều lớn Khi

đó đòi hỏi không gian bộ nhớ dữ liệu lớn và mất nhiều thời gian xử lý văn bản phân loại;

- Cần một tập dữ liệu huấn luyện chuẩn và đủ lớn để cho thuật toán học phân loại Nếu có được một tập dữ liệu chuẩn và đủ lớn thì quá trình huấn luyện sẽ tốt và khi đó sẽ có kết quả phân loại tốt sau khi đã được học;

- Các phương pháp trên hầu hết đều sử dụng mô hình véc-tơ để biểu diễn văn bản, do đó phương pháp tách từ trong văn bản đóng vai trò rất quan trọng, vì có thể đối với một số ngôn ngữ như tiếng Anh thì thao tác tách từ trong văn bản đơn giản chỉ là dựa vào các khoảng trắng, tuy nhiên trong các ngôn ngữ đa âm tiết như tiếng Việt và một số ngôn ngữ khác thì sử dụng khoảng trắng khi tách từ là không chính xác, do đó phương pháp tách

Trang 27

cho là hệ thống tốt vì vậy phải đảm bảo tính tốc độ và chính xác cho hệ thống;

- Dễ hiểu: Một hệ thống phân loại dễ hiểu sẽ tạo cho người sử dụng tin tưởng hơn vào hệ thống, đồng thời cũng giúp cho người sử dụng tránh được việc hiểu lầm kết quả của một luật được đưa ra bởi hệ thống;

- Thời gian huấn luyện: Yêu cầu hệ thống phải học rất nhanh một luật phân lớp hoặc nhanh chĩng điều chỉnh một luật đã được học cho phù hợp với thực tế

Nhằm khắc phục những hạn chế nêu trên, tác giả đề xuất xây dựng mơ hình phân loại văn bản tiếng Việt trên cơ sở thuật tốn Nạve Bayes sử dụng cơng cụ vnTokenizer để tách từ, sử dụng phương pháp phân tích ngữ nghĩa tiềm ẩn Latent Semantic Analysis (LSA) để giảm kích thước tập văn bản huấn luyện nhằm tối ưu kích thước dữ liệu; đồng thời xây dựng hệ thống tự động phân loại văn bản trên cơ sở mơ hình đề xuất

1.3 KẾT LUẬN CHƯƠNG

Nội dung chủ yếu trong chương 1 trình bày khái quát về tình hình nghiên cứu phân loại văn bản hiện nay, và một số kỹ thuật trong phân loại văn bản như: xử lý văn bản, biểu diễn văn bản Tìm hiểu về các phương pháp phân loại văn bản nĩi trên từ đĩ tiến hành đánh giá ưu, nhược điểm các phương pháp trong việc phân loại văn bản tiếng Việt và áp dụng thuật tốn Nạve Bayes để phân loại văn bản tiếng Việt khắc phục các hạn chế còn tồn tại

Trang 28

Chương 2 HỆ THỐNG PHÂN LOẠI VĂN BẢN

2.1 XÂY DỰNG MƠ HÌNH PHÂN LOẠI VĂN BẢN

Phân loại văn bản là cơng việc phân tích nội dung của văn bản và sau đĩ

ra quyết định (hay dự đốn) văn bản này thuộc nhĩm nào trong các nhĩm văn bản đã cho trước Bài tốn cụ thể đặt ra là một văn bản (bài viết, bài báo, …) được đưa vào chương trình để phân tích, cào phân loại văn bản đĩ vào một trong các chủ đề như (cơng nghệ, kinh tế, văn hĩa, thể thao,…), Sau đĩ sẽ được hệ thống lưu trữ theo chủ đề nhằm cĩ thể truy vấn, tìm kiếm dễ dàng vào những lần sau

Mơ hình phân loại văn bản:

Để thực hiện quá trình phân loại văn bản, hệ thống cần được huấn luyện

từ các tài liệu mẫu đã được gán chủ đề trước đĩ, bên cạnh đĩ sẽ sử dụng phương pháp phân tích ngữ nghĩa tiềm ẩn LSA (tối ưu hĩa tập văn bản huấn luyện) nhằm tăng độ chính xác Sau đĩ dựa vào những phân tích thống kê của thuật tốn Nạve Bayes để thực hiện việc phân loại văn bản Chi tiết mơ hình phân loại văn bản như sau:

Trang 29

Hình 2.1: Mơ hình PLVB trên cơ sở thuật tốn Nạve Bayes

và phương pháp LSA

Văn bản cần phân loại

Tập dữ liệu văn bản huấn

luyện của các chủ đề

Giai đoạn huấn luyện (tách từ, loại bỏ các yếu tố gây nhiễu: ký

tự đặc biệt, từ dừng, tìm ra các từ đặc trưng)

Giảm kích thước dữ liệu tập huấn luyện (LSA/SVD)

Danh sách các đặc trưng của mỗi chủ đề

Sử dụng thuật tốn Naive Bayes

để phân loại văn bản

Văn bản được phân

loại vào chủ đề

Trang 30

Các giai đoạn trong mơ hình:

Giai đoạn 1: Tiền xử lý

Mục đích của bước này là xử lý dữ liệu đầu vào do đĩ cơng việc của bước này sẽ chỉ là chuyển văn bản thành chuỗi ký tự thuần túy (text)

- Đầu vào: Tệp văn bản cần phải phân tích (File PDF, TXT, DOC);

- Đầu ra: chuỗi ký tự thuần túy (text only)

Giai đoạn 2: Tách từ

Tách các từ từ các câu đã được xử lý:

- Đầu vào: Câu văn bản;

- Đầu ra: Véc-tơ chứa các từ cĩ nghĩa trong câu

Giai đoạn 3: Rút trích đặc trưng tài liệu và đánh trọng số

Rút chọn các từ khĩa, từ đặc trương của văn bản và xác định trọng số của

từ trong văn bản

- Đầu vào: Véc-tơ các từ;

- Đầu ra: Véc-tơ chứa các từ đặc trưng và được đánh trọng số

Giai đoạn 4: Xây dựng tập đặc trưng cho từng chủ đề từ tập huấn luyện

- Đầu vào: Tập văn bản huấn luyện;

- Đầu ra: Tập đặc trưng của từng chủ đề đã đánh trọng số

Giai đoạn 5: Giảm kích thước dữ liệu

Sử dụng phương pháp Latent semantic analysis (LSA) để tối ưu hĩa kích thước tập văn bản huấn luyện

- Đầu vào: Ma trận trọng số từ - tài liệu;

- Đầu ra: Ma trận trọng số sau khi đã biến đổi giảm kích thước

Giai đoạn 6: Sử dụng thuật tốn Nạve Bayes để phân loại văn bản

Đây là bước chính yếu của hệ thống

- Đầu vào: Tập đặc trưng chủ đề huấn luyện, vector từ đặc trưng của văn bản cần phân loại;

- Đầu ra: Chủ đề của văn bản cần phân loại

Trang 31

2.2 CÁC GIAI ĐOẠN TRONG HỆ THỐNG

2.2.1 Tiền xử lý văn bản

Nhiệm vụ: Đọc nội dung các tập tin số liệu cần đọc, chuyển các văn bản cần phải kiểm tra thành dạng text thuần túy, nghĩa là loại bỏ các thành phần như ảnh, các thơng tin định dạng, … [16]

Để thống nhất khuơn dạng của văn bản thì tất cả các văn bản phải cĩ cùng một phơng chữ duy nhất, phơng chữ được chọn là font Unicode, do đĩ trước khi thực hiện việc chuyển thành chuỗi ký tự (text) thì việc đầu tiên phải làm là chuyển tất cả các văn bản cĩ font chữ khác với font chữ Unicode về thành font chữ Unicode Các số liệu phải đươc làm sạch các thơng tin khơng phải là text, các thơng tin này cĩ thể là hình ảnh, bảng biểu, định dạng văn bản, … Việc tách này phụ thuộc vào từng kiểu tập tin dữ liệu đầu vào:

- Nếu dữ liệu đầu vào là tệp văn bản dạng text (txt) thì lấy tất cả số liệu;

- Nếu dữ liệu đầu vào là tệp văn bản dạng MS word (doc) thì sẽ sử dụng Microsoft.Office.Core để chuyển đổi, với cơng cụ này việc chuyển đổi một file dạng Microsoft word sang text chỉ là một hàm;

- Nếu dữ liệu đầu vào là tệp văn bản dạng PDF thì sẽ sử dụng control PDFbox để đọc và loại bỏ các thuộc tính khơng cần thiết cho chương trình như hình ảnh, âm thanh, định dạng và chỉ lấy giá trị text

2.2.2 Tách từ

Tách từ là một quá trình xử lý nhằm mục đích xác định ranh giới của các

từ trong câu văn, cũng cĩ thể hiểu đơn giản rằng tách từ là quá trình xác định các từ đơn, từ ghép, … cĩ trong câu Do đĩ tách từ được xem là bước xử lý quan trọng đối với hệ thống phân loại văn bản, nĩ quyết định hệ thống cĩ thể thực hiện đúng và chính xác việc phân loại hay khơng là nhờ kết quả của việc tách từ đúng hay sai Trong luận văn chủ yếu tập trung vào sử dụng thuật tốn Nạve Bayes để phân loại văn bản và tối ưu hĩa tập văn bản huấn luyện bằng phương pháp Latent semantic analysis (LSA) nên phần tách từ cĩ sử dụng

Trang 32

công cụ hỗ trợ tách từ tiếng Việt vnTokenizer do nhóm của tác giả Lê Hồng Phương xây dựng [27]

Đây là công cụ tách từ tự động cho tiếng Việt được viết bằng ngôn ngữ Java, phiên bản vnTokenizer 4.1.1c được phát triển dựa trên phương pháp so khớp tối đa (Maximum Matching) kết hợp với tập dữ liệu sử dụng là bảng âm tiết tiếng Việt và từ điển từ vựng tiếng Việt

- Đầu vào của công cụ tách từ vnTokenizer là một câu hoặc một văn bản được lưu dưới dạng tệp;

- Đầu ra là một chuỗi các đơn vị từ được tách

Các đơn vị từ không chỉ bao gồm các từ có trong từ điển, mà cả các từ mới hoặc các từ được sinh tự do theo một quy tắc nào đó (như phương thức thêm phụ tố hay phương thức láy) hoặc các chuỗi kí hiệu không được liệt kê trong từ điển

Quy trình thực hiện tách từ theo phương pháp khớp tối đa:

Hình 2.2: Quy trình tách từ của công cụ vnTokenizer Phương pháp so khớp cực đại (Maximum Matching):

Phương pháp so khớp tối đa (Maximum Matching) hay còn gọi là LRMM

- Left Right Maximum Matching Ở phương pháp này, chúng ta sẽ duyệt một

từ ngữ hoặc câu từ trái sang phải và chọn từ có nhiều âm tiết nhất có mặt trong từ điển và cứ thực hiện lặp lại như vậy cho đến hết câu [20]

Trang 33

Dạng đơn giản của phương pháp dùng để giải quyết nhập nhằng từ đơn Giả sử chúng ta cĩ một chuỗi ký tự C1, C2, ., Cn Chúng ta sẽ áp dụng phương pháp từ đầu chuỗi Đầu tiên kiểm tra xem Ci cĩ phải là từ hay khơng, sau đĩ kiểm tra xem C1C2 cĩ phải là từ hay khơng Tiếp tục thực hiện như thế cho đến khi tìm được từ dài nhất

Dạng phức tạp: Quy tắc của dạng này là phân đoạn từ Thơng thường người ta chọn phân đoạn ba từ cĩ chiều dài tối đa Thuật tốn bắt đầu từ dạng đơn giản, cụ thể là nếu phát hiện ra những cách tách từ gây nhập nhằng, như ở

ví dụ trên, giả sử C1 là từ và C1C2 cũng là một từ, khi đĩ chúng ta kiểm ưa ký

tự kế tiếp trong chuỗi C1, C2, , Cn để tìm tất cả các đoạn ba từ cĩ bắt đầu với

Khi đĩ chuỗi dài nhất sẽ là chuỗi thứ ba Do đĩ từ đầu tiên của chuỗi thứ

ba (C1C2) sẽ được chọn Thực hiện các bước cho đến khi được chuỗi từ hồn chỉnh

Trong thực tế triển khai cơng cụ, thì tách từ sử dụng phương pháp so khớp cực đại thực hiện tách từ đơn giản, nhanh và chỉ cần dựa vào từ điển để thực hiện Tuy nhiên, khuyết điểm của phương pháp này cũng chính là từ điển, nghĩa là độ chính xác khi thực hiện tách từ phụ thuộc hồn tồn vào tính đủ, tính chính xác của từ điển

2.2.3 Phương pháp phân loại văn bản sử dụng thuật tốn Nạve Bayes

Nạve Bayes (NB) là phương pháp phân loại dựa vào xác suất được sử dụng rộng rãi trong lĩnh vực máy học, đây là phương pháp cĩ hướng tiếp cận phân lớp theo mơ hình xác suất Nhờ đĩ mà dự đốn được một đối tượng mới thuộc về thành viên của lớp đang xét, được sử dụng lần đầu tiên trong lĩnh vực phân loại bởi Maron vào năm 1961, sau đĩ trở nên phổ biến được dùng

Trang 34

trong nhiều lĩnh vực như trong các cơng cụ tìm kiếm, các bộ lọc email Đây là một thuật tốn đơn giản, dễ dàng cài đặt, và cĩ độ chính xác tốt trong hầu hết các trường hợp [17]

Phương pháp phân loại văn bản sử dụng thuật tốn Nạve Bayes cụ thể hơn là phương pháp này sử dụng xác suất cĩ điều kiện giữa từ và chủ đề để xác định chủ đề của văn bản Các xác suất này dựa trên việc thống kê sự xuất hiện của từ và chủ đề trong tập huấn luyện, với mỗi chủ đề luơn cĩ các từ được đánh giá là thuộc về chuyên mơn của chủ đề đĩ, những từ này cĩ tần số xuất hiện rất cao trong các văn bản, việc tận dụng tần số phụ thuộc của các từ này vào chủ đề cĩ thể đem lại kết quả khả quan cho phân loại Điểm quan trọng của phương pháp này chính là ở chỗ giả định rằng sự xuất hiện của tất

cả các từ trong văn bản đều độc lập với nhau Giả định đĩ làm cho việc tính tốn Nạve Bayes hiệu quả và nhanh chĩng hơn các phương pháp khác vì khơng sử dụng việc kết hợp các từ để đưa ra phán đốn chủ đề Kết quả dự đốn bị ảnh hưởng bởi kích thước tập dữ liệu, chất lượng của khơng gian đặc trưng

2.2.3.1 Lý thuyết xác suất Bayes

Định lý Bayes cho phép tính xác suất xảy ra của một sự kiện ngẫu nhiên

A khi biết sự kiện liên quan B đã xảy ra Xác suất này được ký hiệu là 𝑃(𝐴|𝐵), và đọc là "xác suất của A nếu cĩ B" Đại lượng này được gọi xác suất cĩ điều kiện hay xác suất hậu nghiệm vì nĩ được rút ra từ giá trị được cho của B hoặc phụ thuộc vào giá trị đĩ [17]

Theo định lý Bayes, xác suất xảy ra A khi biết B sẽ phụ thuộc vào 3 yếu tố [2]:

- Xác suất xảy ra A của riêng nĩ, khơng quan tâm đến B Ký hiệu là P(A)

và đọc là xác suất của A Đây được gọi là xác suất biên duyên hay xác suất tiên nghiệm, nĩ là "tiên nghiệm" nghĩa là nĩ khơng quan tâm đến bất kỳ thơng tin nào về B

Trang 35

- Xác suất xảy ra B của riêng nĩ, khơng quan tâm đến A Ký hiệu là P(B)

và đọc là "xác suất của B" Đại lượng này còn gọi là hằng số chuẩn hĩa, vì

nĩ luơn giống nhau, khơng phụ thuộc vào sự kiện A đang muốn biết

- Xác suất xảy ra B khi biết A xảy ra Ký hiệu là 𝑃(𝐵|𝐴), và đọc là "xác suất của B nếu cĩ A" Đại lượng này gọi là khả năng xảy ra B khi biết A đã xảy ra

Khi biết ba đại lượng này, xác suất của A khi biết B cho bởi cơng thức:

𝑃(𝐴|𝐵) = 𝑃(𝐵|𝐴)𝑃(𝐴)

𝑃(𝐵)Giả sử chúng ta dự đốn một người sau cĩ chơi tennis hay khơng? dựa vào tập dữ liệu sau đây:

Bảng 2.1: Ví dụ điển hình thuật tốn Nạve Bayes

Sự kiện A: Anh ta chơi tennis

Trang 36

Sự kiện B: Trời là nắng, thời tiết bình thường, độ ẩm bình thường và gió

là không

Ta có:

 Xác suất P(A): Xác suất rằng anh ta chơi tennis (bất kể Ngoài trời như thế nào và Gió ra sao);

 Xác suất P(B): Xác suất rằng Ngoài trời là nắng và Gió là mạnh;

 𝑃(𝐵|𝐴): Xác suất rằng Ngoài trời là nắng và Gió là mạnh, nếu biết rằng anh ta chơi tennis;

 𝑃(𝐴|𝐵): Xác suất rằng anh ta chơi tennis, nếu biết rằng Ngoài trời là nắng và Gió là mạnh

Giá trị xác suất có điều kiện này sẽ được dùng để dự đoán xem anh ta có chơi tennis hay không?

Trong trường hợp này có hai giả thiết của sự kiện A là:

o A1 anh ta chơi tennis;

o A2 anh ta không chơi tennis

 Ta cần tính giá trị của 2 xác suất có điều kiện là 𝑃(𝐴1|𝐵), 𝑃(𝐴2|𝐵);

 Và giả thiết hợp lí nhất sẽ là A1 nếu 𝑃(𝐴1|𝐵) > 𝑃(𝐴2|𝐵); và điều ngược lại thì sẽ là A2;

 Bởi vì 𝑃(𝐵) = 𝑃(𝐵|𝐴1) + 𝑃(𝐵|𝐴2) là như nhau đối với cả 2 giả thiết A1 và A2, nên có thể bỏ qua đại lượng 𝑃(𝐵);

 Vì vậy, cần tính 2 biểu thức 𝑃(𝐵|𝐴1) 𝑃(𝐴1) và 𝑃(𝐵|𝐴2) 𝑃(𝐴2), và đưa ra quyết định:

o Nếu [𝑃(𝐵|𝐴1) 𝑃(𝐴1)] > [𝑃(𝐵|𝐴2) 𝑃(𝐴2)], thì kết luận là anh ta sẽ chơi tennis;

o Ngược lại, thì kết luận anh ta không chơi tennis

Trang 37

Thuật tốn Nạve Bayes: gồm 2 giai đoạn (Huấn luyện và phân lớp) Giai đoạn 1: Huấn luyện Nạve Bayes trên tập dữ liệu huấn luyện Tính:

 𝑃(𝐶𝑖) là tần suất xuất hiện tài liệu trong tập huấn luyện;

 Và 𝑃(𝑥𝑘|𝐶𝑖) là những tập thuộc tính đã được tính trong quá trình huấn luyện

Giai đoạn 2: Phân lớp

Với đầu vào là các giá trị 𝑃(𝐶𝑖),𝑃(𝑥𝑘|𝐶𝑖) và vector đặc trưng của văn bản cần phân loại ta tính xác suất thuộc từng chủ đề trong Ci:

Áp dụng vào bài tốn đặt ra ở trên ta cĩ:

Giai đoạn 1: Huấn luyện

 Xác suất cho mỗi trường hợp:

o Xác suất đi chơi tennis 𝑃(𝐴1) = 9/14

o Xác suất khơng đi chơi tennis 𝑃(𝐴2) = 5/14

 Xác suất cho mỗi thuộc tính đối với mỗi trường hợp:

Bảng 2.2: Xác suất của giai đoạn Huấn luyện

Nhiệt độ 𝑃(𝐵ì𝑛ℎ 𝑡ℎườ𝑛𝑔|𝐴1) = 4/9 𝑃(𝐵ì𝑛ℎ 𝑡ℎườ𝑛𝑔|𝐴2) = 2/5

Độ ẩm 𝑃(𝐵ì𝑛ℎ 𝑡ℎườ𝑛𝑔|𝐴1) = 6/9 𝑃(𝐵ì𝑛ℎ 𝑡ℎườ𝑛𝑔|𝐴2) = 1/5

o Đối với trường hợp đi chơi tennis:

5 ≈ 0.019

Định dạng
Số trang	74
Dung lượng	7,02 MB