Nghiên cứu ứng dụng mạng bayes xây dựng hệ thống tự động phân loại văn bản

Với sự phát triển vượt bậc của Internet trong thời đại này thì việc tìm kiếm văn bản rất dễ dàng tuy nhiên vấn đề đặt ra là làm sao tìm kiếm được văn bản phù hợp với mục đích người dùng trong khi lượng cơ sở dữ liệu văn bản là rất lớn Trong luận văn này tác giả đã đề xuất mô hình phân loại văn bản nhằm giúp cho việc tìm kiếm dễ dàng và nhanh chóng hơn Mô hình phân loại văn bản đề xuất sử dụng lý thuyết Naïve Bayes phương pháp phân loại dựa vào xác suất Bên cạnh đó tác giả sử dụng Latent Semantic Analysis để tối ưu hóa giảm kích thước tập văn bản huấn luyện Xây dựng hệ thống tự động phân loại văn bản trên cơ sở mô hình đề xuất

TỔNG QUAN CÁC MÔ HÌNH, PHƯƠNG PHÁP VÀ HỆ THỐNG PHÂN LOẠI VĂN BẢN

TỔNG QUAN VỀ PHÂN LOẠI VĂN BẢN

Phân loại văn bản là quá trình tự động phân loại tài liệu dựa trên các loại văn bản đã được xác định trước, giúp giới hạn phạm vi tìm kiếm thông tin Thay vì phải tìm kiếm toàn bộ tài liệu, người dùng có thể tập trung vào các loại văn bản liên quan, từ đó tổ chức thông tin và quản lý tài liệu hiệu quả hơn Ứng dụng phổ biến nhất của phân loại văn bản là hỗ trợ tìm kiếm và lọc thông tin, giúp tăng tốc độ truy cập dữ liệu Nó cũng đóng vai trò quan trọng trong việc sắp xếp thư điện tử và các file, xác minh chủ đề để hỗ trợ các quy trình xử lý và tìm kiếm tài liệu mà người dùng quan tâm.

Hình 1.1: Bài toán phân loại văn bản

Phân loại văn bản vào các tập hợp hoặc cấu trúc dựa trên tiêu chí như độ ưu tiên và chủ đề thường tốn nhiều thời gian và công sức Việc phân loại thủ công, tức là đọc từng văn bản, có thể dẫn đến độ chính xác không cao.

Dữ liệu đầu vào Thuật toán phân loại văn bản

Loại thứ n được gán vào một lớp nhất định, tuy nhiên, với khối lượng tài liệu cần phân loại ngày càng lớn, việc phân loại văn bản thủ công trở nên không khả thi Phân loại các đối tượng mới vào các lớp bằng phương pháp thủ công gặp nhiều khó khăn.

Để phân loại các đối tượng mới trong các lĩnh vực đặc biệt như y tế, pháp luật, tài chính và ngân hàng, cần có kiến thức chuyên sâu về những lĩnh vực này.

- Phân loại bằng tay đôi khi không chính xác vì quyết định phụ thuộc vào sự hiểu biết và động cơ của người thực hiện;

Quyết định và nhận định của con người thường dẫn đến sự bất đồng ý kiến, do đó, việc sử dụng các công cụ tự động phân loại văn bản vào các lớp là rất cần thiết, đặc biệt trong bối cảnh thông tin tràn ngập hiện nay Các phương pháp phân loại thống kê và kỹ thuật học máy như Bayesian, máy vector hỗ trợ (Support Vector Machines), K-Nearest Neighbor và Mạng Nơron đã được áp dụng hiệu quả để giải quyết vấn đề này.

Việc xây dựng một bộ phân loại văn bản tự động là cần thiết do những nhược điểm của phương pháp thủ công, đặc biệt khi thông tin ngày càng được sinh ra và lưu trữ dưới dạng điện tử Các tài liệu điện tử như bài báo khoa học và giải trí là ví dụ điển hình Sự phát triển mạnh mẽ của Internet và Intranet đã tạo ra nguồn thông tin phong phú Kỹ thuật phân loại văn bản sẽ giúp lưu trữ và tìm kiếm dữ liệu một cách hiệu quả và nhanh chóng.

Phân loại văn bản, xuất hiện từ những năm 1960, đã trở thành một lĩnh vực nghiên cứu quan trọng trong hệ thống thông tin chỉ sau 15 năm nhờ vào sự đa dạng của các ứng dụng Công việc này hỗ trợ tìm kiếm thông tin, chiết lọc thông tin, lọc văn bản và tự động dẫn dắt các văn bản đến những chủ đề xác định trước Ngoài ra, phân loại văn bản còn được áp dụng trong lĩnh vực hiểu văn bản, giúp lọc ra các phần chứa dữ liệu cần tìm mà vẫn giữ nguyên tính phức tạp của ngôn ngữ tự nhiên.

CÁC MÔ HÌNH VÀ PHƯƠNG PHÁP PHÂN LOẠI VĂN BẢN

1.2.1 Xử lý văn bản a) Đặc điểm của từ trong Tiếng Việt

Tiếng Việt là ngôn ngữ đơn lập, trong đó mỗi âm tiết được phát âm tách biệt và biểu hiện bằng một chữ viết riêng Đặc điểm này rõ rệt trong các khía cạnh ngữ âm, từ vựng và ngữ pháp Một trong những yếu tố đặc trưng của ngữ âm tiếng Việt là sự tồn tại của các đơn vị âm tiết độc lập.

Tiếng Việt có hệ thống âm vị phong phú và cân đối, với mỗi tiếng là một âm tiết mang nghĩa Ngữ âm tiếng Việt thể hiện tiềm năng trong việc tạo ra các từ tượng hình và tượng thanh đặc sắc Khi xây dựng câu, người Việt chú trọng đến sự hài hòa âm thanh và nhạc điệu Mỗi tiếng là yếu tố có nghĩa, là đơn vị cơ sở trong hệ thống từ vựng, từ đó tạo ra các đơn vị từ vựng khác thông qua phương thức ghép và láy Đặc điểm ngữ pháp của tiếng Việt là từ không biến đổi hình thái, điều này ảnh hưởng đến các khía cạnh ngữ pháp khác, và khi kết hợp từ thành ngữ, câu, tiếng Việt rất coi trọng trật tự từ.

Sắp xếp từ theo trật tự nhất định là cách chủ yếu để thể hiện quan hệ cú pháp trong câu Khi các từ cùng loại kết hợp theo quan hệ chính phụ, từ đứng trước giữ vai trò chính và từ đứng sau giữ vai trò phụ Trong tiếng Việt, trật tự phổ biến là chủ ngữ đứng trước và vị ngữ đứng sau.

Từ trong tiếng Việt có nhiều quan niệm khác nhau, nhưng đặc trưng cơ bản của "từ" là tính hoàn chỉnh về mặt nội dung, và nó được xem là đơn vị nhỏ nhất để tạo thành câu.

Người ta sử dụng "từ" để kết hợp thành câu, không phải "tiếng", vì vậy việc tách câu thành các "từ" mang lại kết quả tốt hơn Mỗi văn bản đều chứa một tập hợp các từ khóa, được gọi là tập các thuật ngữ (term) Mỗi phần tử trong tập thuật ngữ là một từ, và ý nghĩa của từ này góp phần tạo nên nội dung của văn bản.

Trong một tập hợp các từ (term) của văn bản, không phải tất cả các từ đều có mức độ quan trọng như nhau trong việc mô tả nội dung Chẳng hạn, nếu một từ A xuất hiện trong tất cả các văn bản của tập hợp, chúng ta có thể kết luận rằng từ A không quan trọng và sẽ loại bỏ nó khỏi danh sách từ khóa, vì nó không cung cấp thông tin hữu ích về nội dung Để xây dựng tập từ cho văn bản, việc xác định trọng số cho từng từ là cần thiết Để xử lý văn bản, cần chuyển đổi chúng thành dạng dữ liệu có cấu trúc thông qua các mô hình biểu diễn văn bản Mô hình này ảnh hưởng lớn đến hiệu quả và hiệu suất xử lý, do đó, việc lựa chọn mô hình và phương pháp xử lý phù hợp là rất quan trọng tùy theo mục đích và yêu cầu của ứng dụng.

Các mô hình biểu diễn văn bản đã được sử dụng như mô hình logic, mô hình phân tích cú pháp, mô hình không gian véc-tơ

Mô hình không gian véc-tơ biểu diễn mỗi văn bản dưới dạng một véc-tơ, trong đó mỗi thành phần tương ứng với một thuật ngữ cụ thể trong tập văn bản gốc Giá trị của từng thành phần được xác định dựa trên trọng số của từ trong văn bản, được tính toán theo nhiều phương pháp khác nhau.

1.2.2 Phương pháp phân loại văn bản

Phân loại văn bản tự động là quá trình gán nhãn cho một văn bản mới dựa trên sự tương đồng với các văn bản đã được gán nhãn trong tập huấn luyện Các phương pháp phổ biến để thực hiện phân loại văn bản bao gồm thuật toán Nạve Bayes (NB), Mạng nơ-ron (NNet), Cây quyết định, K láng giềng gần nhất (KNN), Máy vector hỗ trợ (SVM) và Phương pháp Least Square Fit tuyến tính.

1.2.2.1 Phương pháp K láng giềng gần nhất (KNN) Đây là phương pháp truyền thống khá nổi tiếng về hướng tiếp cận dựa trên thống kê đã được nghiên cứu trong nhận dạng mẫu

Phương pháp phân loại văn bản sử dụng thuật toán K-láng giềng gần nhất (K-NN) dựa vào việc so sánh độ phù hợp của văn bản d với các nhóm chủ đề, thông qua k văn bản mẫu trong tập huấn luyện có độ tương tự cao nhất với văn bản d.

Khi phân loại văn bản mới, thuật toán tính khoảng cách Euclide giữa văn bản đó và tất cả các văn bản trong tập huấn luyện để xác định k văn bản gần nhất, gọi là k "láng giềng" Trọng số của mỗi chủ đề được tính bằng tổng khoảng cách của các văn bản trong k láng giềng có cùng chủ đề, trong khi các chủ đề không xuất hiện sẽ có trọng số bằng 0 Cuối cùng, các chủ đề được sắp xếp theo trọng số giảm dần, và những chủ đề có trọng số cao nhất sẽ được chọn làm chủ đề cho văn bản cần phân loại.

Có 2 vấn đề cần quan tâm khi phân loại văn bản bằng thuật toán K- láng giềng gần nhất là xác định khái niệm gần, công thức để tính mức độ gần; và làm thế nào để tìm được nhóm văn bản phù hợp nhất với văn bản đó (nói cách khác là tìm được chủ đề thích hợp để gán cho văn bản)

Khái niệm "gần" trong ngữ cảnh này ám chỉ đến độ tương tự giữa các văn bản Để xác định độ tương tự giữa hai văn bản, có nhiều phương pháp khác nhau, trong đó công thức Cosine trọng số được xem là một trong những cách hiệu quả nhất.

Khoảng cách giữa hai văn bản phản ánh mức độ tương tự giữa chúng; khi giá trị tương tự cao, khoảng cách giữa hai văn bản sẽ càng gần.

Dùng công thức Cosine để tính độ tương tự giữa 2 văn bản [9]:

Văn bản A : “Tôi là học sinh”

Văn bản B : “Tôi là sinh viên”

Văn bản C : “Tôi là giáo viên”

Biểu diễn văn bản theo dạng vector :

Bảng 1.1: Bảng ví dụ phương pháp KNN tôi là học sinh viên giáo

√4∗4 =0.5 Điều đó cho thấy văn bản A tương tự văn bản B hơn so với C

1.2.2.2 Phương pháp Linear Least Square Fit (LLSF)

LLSF, một phương pháp ánh xạ do Yang và Chute phát triển vào năm 1992, ban đầu được thử nghiệm trong lĩnh vực xác định từ đồng nghĩa trước khi được áp dụng trong phân loại vào năm 1994 Các nghiên cứu của Yang cho thấy rằng hiệu suất phân loại của LLSF có thể đạt được mức tương đương với phương pháp kNN truyền thống.

KẾT LUẬN CHƯƠNG

Chương 1 của bài viết trình bày tổng quan về tình hình nghiên cứu phân loại văn bản hiện nay, cùng với các kỹ thuật như xử lý và biểu diễn văn bản Bài viết cũng khám phá các phương pháp phân loại văn bản, đánh giá ưu và nhược điểm của chúng trong việc phân loại văn bản tiếng Việt Đặc biệt, thuật toán Naive Bayes được áp dụng để khắc phục những hạn chế còn tồn tại trong quá trình phân loại văn bản tiếng Việt.

HỆ THỐNG PHÂN LOẠI VĂN BẢN

XÂY DỰNG MÔ HÌNH PHÂN LOẠI VĂN BẢN

Phân loại văn bản là quá trình phân tích nội dung và xác định nhóm mà văn bản thuộc về trong số các nhóm đã định trước Cụ thể, một văn bản như bài viết hoặc bài báo sẽ được đưa vào chương trình để phân tích và phân loại theo các chủ đề như công nghệ, kinh tế, văn hóa, thể thao, v.v Sau khi phân loại, hệ thống sẽ lưu trữ văn bản theo chủ đề, giúp việc truy vấn và tìm kiếm trở nên dễ dàng hơn trong tương lai.

Mô hình phân loại văn bản sử dụng các tài liệu mẫu đã được gán chủ đề để huấn luyện hệ thống, kết hợp với phương pháp phân tích ngữ nghĩa tiềm ẩn LSA nhằm tối ưu hóa tập văn bản huấn luyện và nâng cao độ chính xác Sau đó, thuật toán Nạve Bayes sẽ được áp dụng để thực hiện việc phân loại văn bản dựa trên các phân tích thống kê.

Hình 2.1: Mơ hình PLVB trên cơ sở thuật tốn Nạve Bayes và phương pháp LSA

Văn bản cần phân loại

Giữ các từ cần thiết

Trích rút được tập đặc trưng

Tập dữ liệu văn bản huấn luyện của các chủ đề

Giai đoạn huấn luyện (tách từ, loại bỏ các yếu tố gây nhiễu: ký tự đặc biệt, từ dừng, tìm ra các từ đặc trưng)

Giảm kích thước dữ liệu tập huấn luyện (LSA/SVD)

Danh sách các đặc trưng của mỗi chủ đề

Sử dụng thuật toán Naive Bayes để phân loại văn bản

Văn bản được phân loại vào chủ đề

Các giai đoạn trong mô hình:

Giai đoạn 1: Tiền xử lý

Mục đích của bước này là xử lý dữ liệu đầu vào, với nhiệm vụ chính là chuyển đổi văn bản thành chuỗi ký tự thuần túy.

- Đầu vào: Tệp văn bản cần phải phân tích (File PDF, TXT, DOC);

- Đầu ra: chuỗi ký tự thuần túy (text only)

Tách các từ từ các câu đã được xử lý:

- Đầu vào: Câu văn bản;

- Đầu ra: Véc-tơ chứa các từ có nghĩa trong câu

Giai đoạn 3: Rút trích đặc trưng tài liệu và đánh trọng số

Rút chọn các từ khóa, từ đặc trương của văn bản và xác định trọng số của từ trong văn bản

- Đầu vào: Véc-tơ các từ;

- Đầu ra: Véc-tơ chứa các từ đặc trưng và được đánh trọng số

Giai đoạn 4: Xây dựng tập đặc trưng cho từng chủ đề từ tập huấn luyện

- Đầu vào: Tập văn bản huấn luyện;

- Đầu ra: Tập đặc trưng của từng chủ đề đã đánh trọng số

Giai đoạn 5: Giảm kích thước dữ liệu

Sử dụng phương pháp Latent semantic analysis (LSA) để tối ưu hóa kích thước tập văn bản huấn luyện

- Đầu vào: Ma trận trọng số từ - tài liệu;

- Đầu ra: Ma trận trọng số sau khi đã biến đổi giảm kích thước

Giai đoạn 6: Sử dụng thuật tốn Nạve Bayes để phân loại văn bản Đây là bước chính yếu của hệ thống

- Đầu vào: Tập đặc trưng chủ đề huấn luyện, vector từ đặc trưng của văn bản cần phân loại;

- Đầu ra: Chủ đề của văn bản cần phân loại.

CÁC GIAI ĐOẠN TRONG HỆ THỐNG

2.2.1 Tiền xử lý văn bản

Nhiệm vụ chính là chuyển đổi các văn bản cần kiểm tra thành dạng text thuần túy bằng cách loại bỏ các thành phần như hình ảnh và định dạng Để đảm bảo tính đồng nhất, tất cả văn bản cần sử dụng cùng một phông chữ Unicode Trước khi chuyển đổi, cần chuyển đổi các văn bản có phông chữ khác sang phông chữ Unicode Ngoài ra, các số liệu cũng phải được làm sạch khỏi các thông tin không phải text, bao gồm hình ảnh, bảng biểu và định dạng văn bản Việc tách này sẽ phụ thuộc vào từng loại tập tin dữ liệu đầu vào.

- Nếu dữ liệu đầu vào là tệp văn bản dạng text (txt) thì lấy tất cả số liệu;

Để chuyển đổi tệp văn bản MS Word (doc) sang định dạng văn bản, bạn có thể sử dụng Microsoft.Office.Core, vì công cụ này cho phép thực hiện quá trình chuyển đổi chỉ bằng một hàm đơn giản.

Để xử lý dữ liệu đầu vào là tệp văn bản PDF, chương trình sẽ sử dụng control PDFbox nhằm đọc và loại bỏ các thuộc tính không cần thiết như hình ảnh, âm thanh và định dạng, chỉ giữ lại giá trị văn bản.

Tách từ là quá trình xác định ranh giới của các từ trong câu văn, đóng vai trò quan trọng trong hệ thống phân loại văn bản Việc tách từ chính xác quyết định khả năng phân loại của hệ thống Luận văn này tập trung vào việc sử dụng thuật toán Naive Bayes để phân loại văn bản và tối ưu hóa tập văn bản huấn luyện bằng phương pháp Latent Semantic Analysis (LSA) Để thực hiện tách từ, công cụ vnTokenizer do Lê Hồng Phương phát triển được sử dụng, đây là công cụ tách từ tự động cho tiếng Việt, viết bằng ngôn ngữ Java, phiên bản 4.1.1c, dựa trên phương pháp so khớp tối đa kết hợp với bảng âm tiết và từ điển tiếng Việt.

- Đầu vào của công cụ tách từ vnTokenizer là một câu hoặc một văn bản được lưu dưới dạng tệp;

- Đầu ra là một chuỗi các đơn vị từ được tách

Các đơn vị từ không chỉ bao gồm từ điển mà còn bao gồm từ mới được tạo ra theo quy tắc nhất định, như thêm phụ tố hoặc phương thức láy, cùng với các chuỗi ký hiệu không có trong từ điển.

Quy trình thực hiện tách từ theo phương pháp khớp tối đa:

Hình 2.2: Quy trình tách từ của công cụ vnTokenizer Phương pháp so khớp cực đại (Maximum Matching):

Phương pháp so khớp tối đa (Maximum Matching) hay còn gọi là LRMM

Phương pháp Left Right Maximum Matching cho phép duyệt từ hoặc câu từ trái sang phải, chọn từ có nhiều âm tiết nhất có trong từ điển Quá trình này được thực hiện lặp đi lặp lại cho đến khi hoàn thành câu.

Phương pháp đơn giản để giải quyết vấn đề nhập nhằng từ đơn là kiểm tra từng chuỗi ký tự C1, C2, , Cn Bắt đầu từ đầu chuỗi, ta sẽ xác định xem từng ký tự Ci có phải là từ hay không, sau đó kiểm tra xem C1C2 có phải là từ hợp lệ Quá trình này tiếp tục cho đến khi tìm ra từ dài nhất có thể.

Dạng phức tạp yêu cầu phân đoạn từ bằng cách chọn các đoạn ba từ có chiều dài tối đa Thuật toán bắt đầu từ dạng đơn giản và xác định các cách tách từ gây nhầm lẫn Ví dụ, nếu C1 là một từ và C1C2 cũng là một từ, chúng ta sẽ kiểm tra ký tự tiếp theo trong chuỗi C1, C2, , Cn để tìm tất cả các đoạn ba từ bắt đầu với C1.

Ví dụ: Giả sử chúng ta có được các đoạn sau:

Chuỗi dài nhất sẽ là chuỗi thứ ba, vì vậy từ đầu tiên của chuỗi này (C1C2) sẽ được chọn Tiếp tục thực hiện các bước cho đến khi hoàn thành chuỗi từ.

Trong quá trình triển khai công cụ tách từ, phương pháp so khớp cực đại cho phép tách từ một cách đơn giản và nhanh chóng, chỉ cần dựa vào từ điển Tuy nhiên, nhược điểm của phương pháp này là độ chính xác trong việc tách từ hoàn toàn phụ thuộc vào tính đầy đủ và độ chính xác của từ điển được sử dụng.

2.2.3 Phương pháp phân loại văn bản sử dụng thuật tốn Nạve Bayes

Nạve Bayes (NB) là một phương pháp phân loại dựa trên xác suất, phổ biến trong máy học và áp dụng mô hình xác suất để dự đoán lớp của đối tượng mới Được giới thiệu lần đầu bởi Maron vào năm 1961, NB đã trở thành công cụ quan trọng trong nhiều lĩnh vực như tìm kiếm thông tin và lọc email Thuật toán này nổi bật với sự đơn giản, dễ cài đặt và độ chính xác cao trong hầu hết các trường hợp.

Phương pháp phân loại văn bản sử dụng thuật toán Naive Bayes dựa trên xác suất có điều kiện giữa từ và chủ đề để xác định chủ đề của văn bản Các xác suất này được tính toán từ sự xuất hiện của từ và chủ đề trong tập huấn luyện, trong đó mỗi chủ đề có những từ chuyên môn với tần số xuất hiện cao Việc khai thác tần số phụ thuộc của các từ này vào chủ đề giúp cải thiện độ chính xác trong phân loại Một điểm quan trọng của phương pháp là giả định rằng sự xuất hiện của tất cả các từ trong văn bản là độc lập, giúp cho việc tính toán Naive Bayes trở nên hiệu quả và nhanh chóng hơn so với các phương pháp khác Tuy nhiên, kết quả dự đoán vẫn bị ảnh hưởng bởi kích thước tập dữ liệu và chất lượng không gian đặc trưng.

2.2.3.1 Lý thuyết xác suất Bayes Định lý Bayes cho phép tính xác suất xảy ra của một sự kiện ngẫu nhiên

Xác suất có điều kiện, ký hiệu là 𝑃(𝐴|𝐵), thể hiện xác suất của sự kiện A xảy ra khi biết rằng sự kiện B đã xảy ra Đại lượng này còn được gọi là xác suất hậu nghiệm, vì nó được tính toán dựa trên thông tin đã biết về B, cho thấy mối liên hệ giữa hai sự kiện.

Theo định lý Bayes, xác suất xảy ra A khi biết B sẽ phụ thuộc vào 3 yếu tố [2]:

Xác suất xảy ra của sự kiện A, ký hiệu là P(A), được gọi là xác suất biên duyên hay xác suất tiên nghiệm Xác suất này không phụ thuộc vào bất kỳ thông tin nào liên quan đến sự kiện B.

Xác suất xảy ra của sự kiện B, ký hiệu là P(B), được hiểu là "xác suất của B" và không phụ thuộc vào sự kiện A Đại lượng này còn được gọi là hằng số chuẩn hóa, vì giá trị của nó luôn giữ nguyên và không thay đổi theo sự kiện A mà chúng ta đang quan tâm.

Trong chương 2, tác giả trình bày mô hình phân loại văn bản với các giai đoạn rõ ràng: tiền xử lý văn bản, tách từ, xử lý tập huấn luyện và phân loại văn bản Bài viết cũng đề cập đến lý thuyết nền tảng của thuật toán phân loại văn bản Naive Bayes, cùng với việc áp dụng kỹ thuật phân tích giá trị riêng SVD trong phương pháp LSA nhằm giảm kích thước và độ phức tạp của tập huấn luyện cho từng chủ đề.

THIẾT KẾ VÀ TRIỂN KHAI THỬ NGHIỆM HỆ THỐNG 39 3.1 PHÁT TRIỂN HỆ THỐNG PHÂN LOẠI VĂN BẢN

THIẾT KẾ HỆ THỐNG PHÂN LOẠI VĂN BẢN

Xử Lý Tập Huấn Luyện

Giảm Kích Thước Tập Huấn Luyện

Phân Tích Tập Huấn Luyện

Sơ đồ 3.2: Use-case Xử lý tập huấn luyện

Phân Loại Văn Bản Phân Loại Văn Bản

Sơ đồ 3.3: Use-case Phân loại văn bản

Sửa thông tin chủ đề

Sơ đồ 3.4: Use-case Quản lý chủ đề

Quản Lý Văn Bản Huấn Luyện

Sơ đồ 3.5: Use-case Quản lý văn bản huấn luyện 3.2.2 Biểu đồ tuần tự

Người dùng MainForm vnTokenizer Text Classification Bussiness

1: Chọn văn bản phân loại

5: Tập văn bản sau tiền xử lý

6: Phân loại văn bản bằng thuật tốn Nạve Bayes

7: Lưu kết quả phân loại

8: Hiển thị kết quả phân loại

Sơ đồ 3.6: Biểu đồ tuần tự xử lý phân loại văn bản 3.2.3 Thiết kế cơ sở dữ liệu của hệ thống

Cơ sở dữ liệu của hệ thống được xây dựng trên hệ quản trị CSDL Microsoft SQL Server Express 2008

Sơ đồ 3.7: Sơ đồ mối quan hệ của các Bảng dữ liệu

Thông tin chi tiết về dữ liệu thể hiện trong các bảng sau:

Bảng 3.1: Thông tin về chủ đề

STT Tên trường Kiểu dữ liệu Khóa Diễn giả

1 Ma_Chu_De Int PK Mã chủ đề

2 Ten_Chu_De nvarchar(50) Tên Chủ đề

Bảng 3.2: Thông tin từ được tách

1 Ma_Tu_Tach Int PK Mã từ được tách

2 Ma_Chu_De Int Mã chủ đề

3 Ten_Tu_Tach nvarchar(50) Tên từ tách

4 Xac_Suat Float Xác suất của từ tách

Bảng 3.3: Thông tin từ khóa cho chủ đề huấn luyện

1 Ma_Tu_Khoa Int PK Mã từ khóa

2 Ma_Chu_De Int Khóa ngoại

Lưu trữ thông tin mã chủ đề của văn bản

3 Ten_Tu_Khoa nvarchar(50) Tên từ khóa

4 Xac_Suat Float Xác suất của từ khóa

Bảng 3.4: Thông tin văn bản huấn luyện

1 Ma_Huan_Luyen int PK Mã văn bản huấn luyện

2 Ten_Tap_HL nvarchar(250) Lưu trữ thông tin tên văn bản huấn luyện

3 Location nvarchar(250) Lưu trữ đường dẫn thư mục chứa file huấn luyện

4 Ma_Chu_De int Lưu trữ thông tin mã chủ đề của văn bản

Bảng 3.5: Thông tin phân loại

1 Ma_Phan_Loai Int PK Mã văn bản đã phân loại

2 Van_Ban_Phan_L oai nvarchar(250) Lưu trữ thông tin tên văn bản đã phân loại

3 Location nvarchar(250) Lưu trữ đường dẫn thư mục chứa file văn bản đã phân loại

4 Ma_Chu_De Int Văn bản thuộc chủ đề nào

3.2.4 Môi trường và công cụ phát triển hệ thống

Phần mềm thực thi trên các phiên bản hệ điều hành Windows

- Sử dụng bộ công cụ vnTokenizer do nhóm của tác giả Lê Hồng Phương xây dựng

3.2.5 Các chức năng của chương trình Ứng dụng gồm 4 phần chức năng cơ bản là:

1 Xử Lý Tập Huấn Luyện: đây là chức năng dùng để thực hiện phân tích các văn bản và rút ra tập đặc trưng của văn bản để làm mẫu phân tích các văn bản, bên cạnh đó có thể sử dụng LSA để giảm kích thước của tập văn bản huấn luyện

2 Phân Loại Văn Bản: đây là chức năng chính của ứng dụng, giúp phân tích một hoặc nhiều văn bản đầu vào, đưa ra dự đoán văn bản thuộc chủ đề nào

3 Kết Quả Phân Loại: xem được nội dung và chủ đề của tất cả các văn bản đã được ứng dụng phân loại và lưu trữ

4 Quản Lý: Chức năng này cho phép quản lí tạo sửa xóa các chủ đề và văn bản huấn luyện đầu vào

Hình 3.1: Màn hình Xử Lý Tập Huấn Luyện

Chi tiết màn hình “ Xử Lý Tập Huấn Luyện ”:

1 Nút chức năng Phân Tích Tập Huấn Luyện: dùng để thực hiện việc phân tích các văn bản huấn luyện đã được thêm vào theo từng chủ đề, tính xác suất từng thuật ngữ

2 Nút chức năng Giảm Kích Thước Tập Huấn Luyện: dùng để giảm số chiều của tập văn bản huấn luyện đã chọn bằng phương pháp LSA/SVD

3 Danh sách các chủ đề cần phân tích: là phần chọn chủ đề cần huấn luyện để rút trích đặc trưng

4 Danh sách các văn bản huấn luyện: danh sách này tương ứng với các chủ đề được lựa chọn tương ứng

5 Các thuật ngữ của chủ đề: danh sách tổng cộng các từ được tách từ văn bản, các từ này sẽ là các từ đặc trưng của văn bản cần tách, các từ này cũng có kèm theo tần số xuất hiện của từ trong tập văn bản

6 Danh sách kết quả của quá trình tiền xử lý: Đây là các thuật ngữ được trích rút ra và đã được tính xác suất của từng thuật cho chủ đề đã chọn

7 Nội dung văn bản huấn luyện: hiển thị nội dung của đoạn văn bản đọc được từ tệp cần đọc, hoặc đang được phân tích

Hình 3.2: Màn hình chức năng Phân Loại Văn Bản

Chi tiết màn hình “ Phân Loại Văn Bản ”:

1 Nút chức năng Phân Loại Văn Bản: thực hiện việc phân loại các văn bản đầu vào và đưa ra dự đoán văn bản thuộc chủ đề nào

2 Nút chức năng Chọn đường dẫn: thực hiện việc chọn đường dẫn chỉ định đến các tập tin văn bản đầu vào cần phân loại

3 Danh sách các tập tin: hiển thị danh sách các tập tin khả dụng để phân loại văn bản có trong thư mục đã được cài đặt đường dẫn

4 Danh sách các từ khóa: hiển thị danh sách các từ khóa trong văn bản cần phân loại kèm theo xác suất xuất hiện của nó trong văn bản

5 Danh sách kết quả phân loại: hiển thị danh sách các văn bản đã được phân loại thành công kèm theo chủ đề mà ứng dụng đã tiến hành dự đoán

6 Nội dung văn bản phân loại: hiển thị nội dung của đoạn văn bản đọc được từ tệp cần đọc, hoặc đang được phân loại

Hình 3.3: Màn hình Kết Quả Phân Loại Văn Bản

Chi tiết màn hình “ Kết Quả Phân Loại Văn Bản ”:

1 Danh sách kết quả phân loại: hiển thị danh sách các văn bản đã được phân loại thành công đã được lưu trữ lại kèm theo chủ đề mà ứng dụng đã tiến hành dự đoán

2 Nội dung văn bản phân loại: hiển thị nội dung của đoạn văn bản đọc đã được phân loại văn bản vào chủ đề thành công

Hình 3.4: Màn hình Quản Lý

Chi tiết màn hình “ Quản Lý ”:

1 Danh sách các chủ đề, văn bản huấn luyện tương ứng: hiển thị danh sách các chủ đề, văn bản huấn luyện tương ứng với chủ đề đã được lưu trữ

2 Nút chức năng Sửa: cho phép sửa thông tin của chủ đề, hoặc thông tin của các văn bản huấn luyện

3 Nút chức năng Xóa: xóa chủ đề hoặc văn bản huấn luyện khỏi cơ sở dữ liệu lưu trữ

4 Nút chức năng Thêm mới: Tạo mới thông tin chủ đề hoặc văn bản huấn luyện lưu trữ vào cơ sở dữ liệu.

TRIỂN KHAI THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ

3.3.1 Xây dựng dữ liệu văn bản huấn luyện

Tác giả đã thu thập và tổng hợp dữ liệu huấn luyện và kiểm thử từ Internet, bao gồm 300 văn bản được phân loại theo 6 chủ đề: công nghệ, chính trị, giáo dục, kinh tế, pháp luật, thể thao và văn hóa, nhằm phục vụ cho quá trình nghiên cứu.

2 huấn luyện để rút trích đặc trưng của từng chủ đề, và 100 văn bản dùng làm dữ liệu kiểm thử

Sau khi lấy văn bản, quá trình xử lý sẽ loại bỏ hình ảnh, bảng biểu, biểu đồ và định dạng, đồng thời chuyển đổi các định dạng file như docx, doc, pdf sang định dạng text thuần túy (file txt).

Sau khi lấy về các số liệu được tách thành các chủ đề như sau:

Bảng 3.6: Bảng thông tin dữ liệu văn bản huấn luyện

Chủ đề Số tập tin Tổng dung lượng(MB)

Các số liệu kiểm thử là tập dữ liệu được phân loại theo 6 chủ đề bởi tác giả làm bằng tay Bảng 3.7

Bảng 3.7: Bảng kết quá phân loại văn bản bằng tay

Chủ đề Số tập tin

Hệ thống được triển khai như sau:

- Cơ sở dữ liệu PhanLoaiVanBan được lưu tại hệ CSDL Microsoft SQL;

- Ứng dụng PhanLoaiVanBan.exe chạy trên hệ điều hành Windows;

- Thư mục chứa dữ liệu văn bản huấn luyện;

- Thư mục chứa văn bản cần phân loại

Dưới đây là bảng so sánh kết quá khi thực hiện phân loại văn bản bằng ứng dụng so với việc phân loại bằng thủ công do người làm

Kết quả của chương trình sau khi được phân loại khi so sánh với kết quả phân loại thủ công (Bảng 3.8):

Bảng 3.8: Bảng so sánh kết quả phân loại văn bản giữa người và máy

Tập dữ liệu Phân loại bởi con người

Hệ thống đề xuất trong luận văn Tỉ lệ %

Tỉ lệ phần trăm trung bình đạt 88.41, cho thấy hệ thống đã đáp ứng được yêu cầu đề ra, mặc dù tỉ lệ này chưa cao Nguyên nhân chính là do số lượng dữ liệu kiểm thử còn hạn chế và dữ liệu văn bản huấn luyện cho các chủ đề chưa phong phú.

Tất cả số liệu và giao diện trong chương này được xây dựng từ ứng dụng thực tế của tác giả Mặc dù xác suất phân loại đúng chưa đảm bảo cho hệ thống phân loại văn bản hoàn toàn tự động, mà vẫn cần sự duyệt bài để đảm bảo tính chính xác, nhưng ứng dụng này đã cung cấp cho người dùng một tiện ích hữu ích, giúp giải quyết vấn đề phân loại văn bản tự động Kết quả phân loại văn bản sử dụng hệ thống phát triển với độ chính xác tương đối cao so với kết quả phân loại bởi người dùng.

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Phân loại văn bản là một thách thức lớn do tính phức tạp của ngôn ngữ tự nhiên, bao gồm sự đa dạng về từ vựng, cú pháp và ngữ nghĩa Phương pháp phân loại văn bản tiếng Việt đạt được kết quả chấp nhận được nhờ vào tính đơn giản, không yêu cầu các thông số tính toán lớn như những phương pháp khác, đồng thời linh hoạt với sự thay đổi thông tin huấn luyện và thời gian phân loại phù hợp với yêu cầu.

Luận văn đã đạt được một số kết quả sau:

Phương pháp phân loại văn bản tiếng Việt được thực hiện bằng cách sử dụng thuật toán Naive Bayes kết hợp với phương pháp LSA để giảm số chiều đặc trưng của tập văn bản huấn luyện, từ đó nâng cao hiệu suất phân loại văn bản.

Hệ thống phân loại văn bản tự động giúp tiết kiệm thời gian và công sức, đồng thời nâng cao hiệu quả trong việc tìm kiếm tài liệu Việc hiện thực hóa hệ thống này mang lại sự thuận tiện và nhanh chóng trong quá trình phân loại văn bản.

Hệ thống phân loại văn bản đã cho thấy hiệu quả trong việc tự động hóa quá trình phân loại, giúp tiết kiệm thời gian và công sức so với việc đọc văn bản thủ công Tuy nhiên, vẫn còn một số nhược điểm cần được khắc phục để nâng cao độ chính xác và tốc độ phân loại văn bản.

Sự phụ thuộc vào tập văn bản huấn luyện là yếu tố quyết định, bởi nếu tập dữ liệu này không đầy đủ hoặc chính xác, sẽ dẫn đến kết quả phân loại văn bản không chính xác.

Hệ thống hiện tại tập trung vào việc phát triển các chức năng cơ bản, tuy nhiên, để áp dụng hiệu quả trong thực tiễn, cần bổ sung nhiều chức năng hỗ trợ cho việc phân loại và trích xuất văn bản.

3 Hướng phát triển: Để khắc phục những hạn chế nêu trên, hướng phát triển của hệ thống là:

- Áp dụng xử lý đa luồng nhằm nâng cao hiệu quả của hệ thống;

- Tiếp tục nghiên cứu phát triển tính chính xác của mô hình đề xuất

DANH MỤC TÀI LIỆU THAM KHẢO

[1] S.L Ting, W.H Ip, Albert H.C Tsang, Is Nạve Bayes a Good Classifier for Document Classification ?, 2011;

[2] Ludovic Denoyer & Patrick Gallinari, Bayesian Network Model For Semi-

[3] Vito D’Orazio, Steven T Landis, Glenn Palmer, Philip Schrodt,

Applications of Automated Document Classification Using Support Vector Machines, 2014;

[4] Ioan Pop, An approach of the Naive Bayes classifier for the document classification, 2006;

[5] Yong Wang, J Hodges, Bo Tang, Classification of Web documents using a naive Bayes method, 2003;

[6] Jong-Yeol Yoo1 & Dongmin Yang, Classification Scheme of

Unstructured Text Document using TF-IDF and Naive Bayes Classifier, 2015;

[7] Sebastian Raschka, Naive Bayes and Text Classification, 2014;

[8] Daniela Xhemali, Christopher J Hinde và Roger G Stone, Nạve Bayes vs Decision Tree vs Neural Networks in the Classification of Training Web Pages, 2009;

[9] Li Baoli, Yu Shiwen, Lu Qin, An Improved k-Nearest Neighbor Algorithm for Text Categorization, 2012;

[10] Larry M Manevitz & Malik Yousef, One-Class SVMs for Document

[11] Tong Zhang and Frank J Oles, Text Categorization Based on

[12] Yiming Yang & Christopher G Chute, A linear least squares fit mapping method for information retrieval from natural language texts, 1992;

[13] Eui-Hong (Sam) Han and George Karypis, Centroid-Based Document

[14] Alex Thomo, Latent Semantic Analysis (Tutorial)

[15] Trần Cao Đệ và Phạm Nguyên Khang, Phân loại văn bản với máy học véc-tơ hỗ trợ và cây quyết định, 2012;

[16] Lê Thanh Trà, Nghiên cứu các phương pháp phân loại văn bản và ứng dụng vào phân loại thư điện tử, 2013;

[17] Trần Hoàng Hiệp, Nghiên cứu giải thuật Naїve Bayes trong bài toán phân loại văn bản, 2013;

[18] Nguyễn Trần Thiên Thanh, Tìm hiểu các hướng tiếp cận bài toán Phân loại văn bản và xây dựng phân mềm phân loại tin tức báo điện tử,

[19] Phạm Hữu Lê Quốc Phục, Nghiên cứu ứng dụng mạng nơ-ron nhân tạo giải quyết lớp bài toán dự đoán và phân loạ”, 2010;

[20] Trần Ngọc Phúc, Phân Loại Nội Dung Tài Liệu Web, 2012;

[21] Đỗ Thanh Nghị & Trần Cao Đệ, Kết hợp ngữ nghĩa với mô hình túi từ để cải tiến giải thuật k láng giềng trong phân lớp văn bản ngắn, 2014;

[22] Nguyễn Thị Thanh Tâm, Tiếp cận khai phá dữ liệu văn bản và thử nghiệm ứng dụng phương pháp Nạve Bayes trong bộ lọc thư rác tự động\, 2010;

[23] Trương Ngọc Sơn, Nhận dạng tập từ hạn chế Tiếng Việt trong môi trường nhiễu, 2009

[24] Trịnh Quốc Sơn, Nghiên Cứu Phân Loại Văn Bản Tiếng Việt

[25] https://ongxuanhong.wordpress.com/2015/07/28/scikit-learn-k-nearest- neighbors/;

[26] http://old.viasm.edu.vn/wp-content/uploads/2015/08/SML-VIASM-

[27] http://mim.hus.vnu.edu.vn/phuonglh/softwares/vnTokenizer.

Tiêu đề	Nghiên cứu ứng dụng mạng bayes xây dựng hệ thống tự động phân loại văn bản
Tác giả	Phạm Vũ Nhật Huy
Người hướng dẫn	TS. Đặng Hồi Phương
Trường học	Đại Học Đà Nẵng - Trường Đại Học Bách Khoa
Chuyên ngành	Khoa Học Máy Tính
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2017
Thành phố	Đà Nẵng

Định dạng
Số trang	74
Dung lượng	6,98 MB