Phân loại văn bản là một vấn đề quan trọng trong lĩnh vực xử lý ngôn ngữ. Nhiệm vụ của bài toán này là gán các tài liệu văn bản vào nhóm các chủ đề cho trước. Đây là một bài toán rất thường gặp trong thực tế điển hình như: một nhà chuyên phân tích thị thường chứng khoán, anh ta cần phải tổng hợp rất nhiều tài liệu, bài viết về thị trường chứng khoán để đọc và đưa ra phán đoán của mình. Tuy nhiên, anh ta không thể đọc tất cả các bài viết, bài báo hay các tài liệu để rồi phân loại chúng đâu là tài liệu chứng khoán sau đó anh ta mới đọc kỹ chúng cho mục đích của anh ta. Lý do của vấn đề này là bởi vì số lượng bài viết, bài báo hiện nay rất nhiều, đặc biệt là trên internet, nếu để đọc hết được tất cả tài liệu đó thì sẽ mất rất nhiều thời gian. Một ví dụ khác trong thực tế là việc phân loại spam mail. Khi một mail được gửi đến hộp thư, nếu để người dùng phải đọc tất cả các mail thì sẽ tốn rất nhiều thời gian vì spam mail rất nhiều. Vì vậy, cần có một hệ thống phân loại đâu là spam mail và đâu là mail tốt.Để giải bài toán này đã có rất nhiều phương pháp được đưa ra như: thuật toán Naïve Bayes, KNN (KNearestNeighbor), Cây quyết định (Decision Tree), Mạng Neuron nhân tạo (Artificial Neural Network) và SVM (Support Vector Machine). Mỗi phương pháp đều cho kết quả khá tốt cho bài toán này, tuy nhiên phương pháp phân loại văn bản bằng thuật toán Bayes được sử dụng phổ biến hơn cả và dễ dàng cài đặt. Chính vì vậy chúng em lựa chọn đề tài: “Phân loại văn bản bằng thuật toán Naïve Bayes” làm đề tài kết thúc môn học của mình.Chúng em xin chân thành cảm ơn các thầy, cô bộ môn đã tận tình giảng dạy em trong suốt thời gian học tập vừa qua. Nhờ có sự chỉ dạy tận tình của thầy Đoàn Thanh Nghị trực tiếp hướng dẫn giảng dạy, cùng sự đào tạo của các thầy cô bộ môn khác trong thời gian qua giúp chúng em hoàn thành bài tiểu luận này. Do đây là lần đầu tiên triển khai một hệ thống có tính thực tiễn cao, nên quá trình triển khai có thể còn nhiều sai sót. Mong các thầy cô đóng góp ý kiến giúp chúng em hiểu rõ hơn về bài toán.
Trang 1TIỂU LUẬN MƠN HỌC
MÁY HỌC
Đề tài:
PHÂN LOẠI VĂN BẢN BẰNG THUẬT
TỐN NẠVE BAYES
Giảng viên: TS Đồn Thanh Nghị Lớp: Cao học KHMT-AG, 2018 Nhĩm thực hiện:
Phạm Hiếu Nghĩa;
Đồn Văn Đơng.
Trang 2An Giang, tháng 8 năm 2018
Nhận xét của giáo viên:
………….……
………….……
………….……
………….……
………….……
………….……
………….……
………….……
………….……
………….……
………….……
………….……
………….……
………….……
………….……
………….……
………….……
………….……
………….……
………….……
………….……
………….……
………….……
………….……
………….……
………….……
………….……
………….……
………….……
Trang 3Phân loại văn bản là một vấn đề quan trọng trong lĩnh vực xử lý ngơnngữ Nhiệm vụ của bài tốn này là gán các tài liệu văn bản vào nhĩm các chủ đềcho trước Đây là một bài tốn rất thường gặp trong thực tế điển hình như: mộtnhà chuyên phân tích thị thường chứng khốn, anh ta cần phải tổng hợp rấtnhiều tài liệu, bài viết về thị trường chứng khốn để đọc và đưa ra phán đốncủa mình Tuy nhiên, anh ta khơng thể đọc tất cả các bài viết, bài báo hay các tàiliệu để rồi phân loại chúng đâu là tài liệu chứng khốn sau đĩ anh ta mới đọc kỹchúng cho mục đích của anh ta Lý do của vấn đề này là bởi vì số lượng bài viết,bài báo hiện nay rất nhiều, đặc biệt là trên internet, nếu để đọc hết được tất cả tàiliệu đĩ thì sẽ mất rất nhiều thời gian Một ví dụ khác trong thực tế là việc phânloại spam mail Khi một mail được gửi đến hộp thư, nếu để người dùng phải đọctất cả các mail thì sẽ tốn rất nhiều thời gian vì spam mail rất nhiều Vì vậy, cần
cĩ một hệ thống phân loại đâu là spam mail và đâu là mail tốt
Để giải bài tốn này đã cĩ rất nhiều phương pháp được đưa ra như: thuậttốn Nạve Bayes, K-NN (K-Nearest-Neighbor), Cây quyết định (DecisionTree), Mạng Neuron nhân tạo (Artificial Neural Network) và SVM (SupportVector Machine) Mỗi phương pháp đều cho kết quả khá tốt cho bài tốn này,tuy nhiên phương pháp phân loại văn bản bằng thuật tốn Bayes được sử dụngphổ biến hơn cả và dễ dàng cài đặt Chính vì vậy chúng em lựa chọn đề tài:
“Phân loại văn bản bằng thuật tốn Nạve Bayes” làm đề tài kết thúc mơn họccủa mình
Chúng em xin chân thành cảm ơn các thầy, cơ bộ mơn đã tận tình giảngdạy em trong suốt thời gian học tập vừa qua Nhờ cĩ sự chỉ dạy tận tình của thầyĐồn Thanh Nghị trực tiếp hướng dẫn giảng dạy, cùng sự đào tạo của các thầy
cơ bộ mơn khác trong thời gian qua giúp chúng em hồn thành bài tiểu luận này
Do đây là lần đầu tiên triển khai một hệ thống cĩ tính thực tiễn cao, nên quátrình triển khai cĩ thể cịn nhiều sai sĩt Mong các thầy cơ đĩng gĩp ý kiến giúpchúng em hiểu rõ hơn về bài tốn
Một lần nữa chúng em xin chân thành cảm ơn các thầy cơ!
Trang 4MỤC LỤC
CHƯƠNG 1 BÀI TOÁN PHÂN LOẠI VĂN BẢN 3
1.1 Giới thiệu 3
1.2 Phát biểu bài toán 3
1.3 Mô hình tổng quát 4
1.4 Mục đích và phạm vi nghiên cứu 5
CHƯƠNG 2 CƠ SỞ XÂY DỰNG CHƯƠNG TRÌNH 6
2.1 Chương trình sử dụng 6
2.1.1 Microsoft SQL 2008 6
2.1.2 Microsoft Visual Studio 2010 6
2.2 Cơ sở lý thuyết 6
2.2.1 Tiền xử lý văn bản 6
2.2.2 Phương pháp biểu diễn văn bản 7
2.2.3 Mô hình không gian vector 7
2.2.4 Khái niệm trọng số 7
CHƯƠNG 3 PHÂN TÍCH VÀ THIẾT KẾ 8
3.1 Phân tích 8
3.1.1 Yêu cầu đặt ra 8
3.1.2 Mục tiêu 8
3.2 Thiết kế 8
3.2.1 Kiến trúc chung 8
3.2.2 Thuật toán 9
3.2.3 Cơ sở dữ liệu 13
3.2.4 Giao diện người dùng 14
CHƯƠNG 4 KẾT QUẢ 15
Trang 5CHƯƠNG 1 BÀI TỐN PHÂN LOẠI VĂN BẢN
1.1 Giới thiệu
Ngày nay, sự bùng nổ thơng tin do bị tác động bởi sự xuất hiện của các siêuphương tiện và World Wide Web (WWW) đã làm cho khơng gian dữ liệu giatăng thường xuyên, điều này tạo ra một thách thức cho các hệ thống truy vấnthơng tin sao cho cĩ hiệu quả Một trong những khĩ khăn mà các hệ thống thơngtin thường phải gặp đĩ là tần suất cập nhật của các thơng tin quá lớn Phươngthức sử dụng giấy trong giao dịch đang dần được số hĩa, do nhiều tính năngvượt trội mà phương thức này mang lại, như là cĩ thể lưu trữ lâu dài, cập nhật,sửa đổi, tìm kiếm một cách nhanh chĩng Do đĩ số lượng văn bản số hĩa ngàynay đang tăng dần theo cấp số nhân, cùng với sự gia tăng của số lượng văn bản,nhu cầu tìm kiếm văn bản cũng tăng theo, khi đĩ phân loại văn bản tự động làmột yêu cầu cấp thiết được đặt ra Phân loại văn bản giúp sẽ giúp chúng ta tìmkiếm thơng tin một cách nhanh chĩng hơn thay vì phải tìm lần lượt trong từngvăn bản, hơn nữa khi mà số lượng văn bản đang gia tăng một cách nhanh chĩngthì thao tác tìm lần lượt trong từng văn bản sẽ mất rất nhiều thời gian, cơng sức
và là một cơng việc nhàm chán và khơng khả thi Chính vì thế nhu cầu phân loạivăn bản tự động là thực sự cần thiết
Cĩ rất nhiều cơng trình nghiên cứu về phân loại văn bản và đã cĩ đượcnhững kết quả đáng khích lệ, như là: Support Vector Machine, K–NearestNeighbor, Linear Least Squares Fit, Neural Network, Nạve Bayes, CentroidBase… Điểm chung của các phương pháp này đều dựa vào xác suất thống kêhoặc dựa vào trọng số của các từ, cụm từ trong văn bản.Trong mỗi phương phápđều cĩ cách tính tốn khác nhau, tuy nhiên các phương pháp này đều phải thựchiện một số bước chung như: đầu tiên mỗi phương pháp sẽ dựa vào thơng tin về
sự xuất hiện của các từ trong văn bản(tần số xuất hiện trong tập văn bản,…) đểbiểu diễn thành dạng vector, sau đĩ tùy từng bài tốn cụ thể mà chúng ta sẽquyết định chọn áp dụng phương pháp nào, cơng thức tính tốn nào cho phù hợp
để phân loại tập văn bản dựa trên tập các vector đã xây dựng được ở bước trên,nhằm mục đích đạt được kết qủa phân loại tốt nhất
1.2 Phát biểu bài tốn
Bài tốn phân loại văn bản cĩ thể được phát biểu như sau: Cho trước mộttập văn bản D={d1,d2,…,dn} và tập chủ đề được định nghĩa C={c1,c2,…,cn}.Nhiệm vụ của bài tốn là gán lớp Di thuộc về Cj đã được định nghĩa Hay nĩicách khác, mục tiêu của bài tốn là đi tìm hàm f :
Trang 6Vấn đề phân loại văn bản theo phương pháp thống kê dựa trên kiểu học có giámsát được đặc tả bao gồm 2 giai đoạn: giai đoạn huấn luyện và giai đoạn phânlớp.
- Giai đoạn huấn luyện
Chúng ta có một tập huấn luyện, mỗi phần tử trong tập huấn luyện đượcgán vào một hoặc nhiều lớp mà chúng ta sẽ thể hiện chúng bằng một mô hình
mã hoá Thông thường, mỗi phần tử trong tập huấn luyện được thể hiện theodạng ( ) Trong đó, là vector biểu diễn cho văn bản trong tập huấn luyện.Sau đó, chúng ta định nghĩa một lớp mô hình và một thủ tục huấn luyện.Lớp mô hình là họ các tham số của bộ phân loại, thủ tục huấn luyện là một giảithuật (hay thuật toán) để chọn ra một họ các tham số tối ưu cho bộ phân loại
Hình 1.1 Mô hình giai đoạn huấn luyệnĐầu vào : ngữ liệu huấn luyện và thuật toán huấn luyện
Đầu ra : mô hình phân lớp (bộ phân lớp – classifier)
Các bước trong giai đoạn huấn luyện:
Trang 7Hình 1.2 Các bước trong giai đoạn huấn luyệnTrong đó :
Ngữ liệu huấn luyện: kho ngữ liệu thu thập từ nhiều nguồn khác nhau.Tiền xử lý: chuyển đổi tài liệu trong kho ngữ liệu thành một hình thức phùhợp để phân loại
Vector hoá: mã hoá văn bản bởi một mô hình trọng số
Trích chọn đặc trưng: loại bỏ những từ (đặc trưng) không mang thông tinkhỏi tài liệu nhằm nâng cao hiệu suất phân loại và giảm độ phức tạp của thuậttoán huấn luyện
Thuật toán huấn luyện: Thủ tục huấn luyện bộ phân lớp để tìm ra họ cáctham số tối ưu
Đánh giá : bước đánh giá hiệu suất (chất lượng) của bộ phân lớp
- Giai đoạn phân lớp
Sau khi đã hoàn thành giai đoạn huấn luyện, mô hình phân lớp sẽ được áp dụng cho các văn bản mới cần phân loại
Hình 1.3 Mô hình giai đoạn phân lớpCác bước trong giai đoạn phân lớp:
Trang 8Hình 1.4 Các bước trong giai đoạn phân lớp
1.4 Mục đích và phạm vi nghiên cứu
Mục đích:
+ Tìm hiểu thuật toán Navie Bayes và phạm vi ứng dụng của nó trongphân loại văn bản
+ Nắm rõ hơn về cơ chế học tập và huấn luyện máy học
+ Xây dựng một chương trình có khả năng phân loại văn bản sau khitìm hiểu thuật toán
Phạm vi nghiên cứu: chương trình thực hiện trong một quy mô nghiêncứu nhỏ với một số lượng văn bản không nhiều vào khoảng <100 văn bản
CHƯƠNG 2 CƠ SỞ XÂY DỰNG CHƯƠNG TRÌNH
2.1 Chương trình sử dụng
2.1.1 Microsoft SQL 2008
Microsoft SQL 2008 là một hệ quản trị cơ sở dữ liệu tương tác với người
sử dụng chạy trên môi trường Windows, nó tăng thêm sức mạnh trong công tác
tổ chức và tìm kiếm thông tin, các qui tắc kiểm tra dữ liệu, giá trị mặc định,khuôn nhập dữ liệu của Microsoft SQL 2008 hoàn toàn đáp ứng yêu cầu Quản
lý được khối lượng dữ liệu lớn với tần suất truy cập dữ liệu cao, đáp ứng cácdịch vụ trực tuyến và đảm bảo các yêu cầu về an toàn dữ liệu Với việc hỗ trợcác chuẩn CSDL sẽ giúp hệ thống dữ liệu mạnh hơn với khả năng kết nối, nângcấp và bảo trì
2.1.2 Microsoft Visual Studio 2010
Microsoft Visual Studio 2010 là ngôn ngữ hoàn thiện và hoạt động theo hướng đối tượng.
Microsoft Visual Studio 2010 là ngôn ngữ lập trình thông dụng trênWindows, hỗ trợ quản lý Cơ sở dữ liệu, lập trình Internet
Microsoft Visual Studio 2010 có nhiều tính năng mới, các điều khiển mớicho phép ta viết các chương trình ứng dụng kết hợp các giao diện, cách xử lý vàtính năng của Office và trình duyệt Web, ngoài ra khi dùng Microsoft VisualStudio 2010 sẽ tiết kiệm thời gian và công sức so với các ngôn ngữ lập trìnhkhác khi xây dựng cùng một ứng dụng
Microsoft Visual Studio 2010 gắn liền với khái niệm lập trình trực quan(Visual), nghĩa là khi thiết kế chương trình ta nhìn thấy ngay kết quả qua từng
Trang 9thao tác và giao diện khi chương trình thực hiện Đây là thuận lợi lớn so với cácngôn ngữ lập trình khác.
Bên cạnh đó, Microsoft Visual Studio 2010 còn hỗ trợ tính năng kết nốimôi trường dữ liệu Access, SQL, việc liên kết dữ liệu có thể thực hiện bằngnhiều cách
2.2 Cơ sở lý thuyết
2.2.1 Tiền xử lý văn bản
Văn bản trước khi được vector hoá, tức là trước khi sử dụng, cần phải đượctiền xử lý Quá trình tiền xử lý sẽ giúp nâng cao hiệu suất phân loại và giảm độphức tạp của thuật toán huấn luyện
Tuỳ vào mục đích bộ phân loại mà chúng ta sẽ có những phương pháp tiền xử lývăn bản khác nhau như:
- Chuyển văn bản về chữ thường
- Loại bỏ dấu câu (nếu không thực hiện tách câu)
- Loại bỏ các kí tự đặc biệt ([ ],[.], [,], [:], [“], [”], [;], [/], [[]], [~], [`], [!],[@], [#], [$],[%],[^],[&],[*],[(],[)]), các chữ số, phép tính toán số học
- Loại bỏ các stopword (những từ xuất hiện hầu hết trong các văn bản)không có ý nghĩa khi tham gia vào phân loại văn bản
- …
2.2.2 Phương pháp biểu diễn văn bản
Một trong những nhiệm vụ đầu tiền trong việc xử lý phân loại văn bản làchọn được một mô hình biểu diễn văn bản thích hợp Một văn bản ở dạng thô(dạng chuỗi) cần được chuyển sang một mô hình khác để tạo thuận lợi cho việcbiểu diễn và tính toán Tuỳ thuộc vào từng thuật toán phân loại khác nhau màchúng ta có mô hình biểu diễn riêng Một trong những mô hình đơn giản vàthường được sử dụng trong nhiệm vụ này là mô hình không gian vector Mộtvăn bản trong nhiệm vụ này được biểu diễn theo dạng , với là một vector
n chiều để đo lường giá trị của phần tử văn bản
2.2.3 Mô hình không gian vector
Mô hình không gian vector là một trong những mô hình được sử dụng rộng rãi nhất cho việc tìm kiếm (truy hồi) thông tin Nguyên nhân chính là bởi vì
sự đơn giản của nó
Trong mô hình này, các văn bản được thể hiện trong một không gian có số chiều lớn, trong đó mỗi chiều của không gian tương ứng với một từ trong văn bản Phương pháp này có thể biểu diễn một cách hình tượng như sau : mỗi văn bản D được biểu diễn dưới dạng (vector đặc trưng cho văn bản D) Trong đó,
=(x1, x2, …, xn ), và n là số lượng đặc trưng hay số chiều của vector văn bản, xi
là trọng số của đặc trưng thứ i (với 1≤ i ≤n)
Trang 10Như vậy, nếu trong kho ngữ liệu của quá trình huấn luyện nhiều văn bản, ta
kí hiệu Dj, là văn bản thứ j trong tập ngữ liệu, và vector j=( x1j , x2j , … , xnj ) là vector đặc trưng cho văn bản Dj, và xij là trọng số thứ i của vector văn bản j
2.2.4 Khái niệm trọng số
Một vấn đề quan trọng nữa trong việc biểu diễn một văn bản đó là tínhtrọng số cho vector đặc trưng của văn bản Có nhiều cách khác nhau để tínhtrọng số này như:
- Word frequency weighting
Thông tin được nắm bắt bởi term frequency là sự nổi bật của thông tin(hay từ) trong một văn bản Term frequency càng cao (số lần xuất hiện càngnhiều trong văn bản) thì đó là từ miêu tả tốt cho nội dung văn bản Giá trị thứhai, document frequency, có thể giải thích như là một bộ chỉ định nội dung thôngtin Một từ được tập trung ngữ nghĩa thường xảy ra nhiều lần trong một văn bảnnếu nó cũng xuất hiện trong tất cả các văn bản khác Nhưng từ không được tậptrung ngữ nghĩa trải đều đồng nhất trong tất cả các văn bản
Để thể hiện trọng số phản ánh hết thông tin của từ, thường ta sẽ kết hợp cảhai loại trọng số là tf và df trong một đơn vị chung Dạng biểu diễn trọng số nàyđược gọi là tf * idf Công thức kết hợp hai giá trị trọng số :
Trong đó, N là tổng số văn bản Biểu thức thứ nhất áp dụng cho các từ cóxuất hiện trong văn bản, còn biểu thức thứ hai cho các từ không xuất hiện trongvăn bản
Trang 11CHƯƠNG 3 PHÂN TÍCH VÀ THIẾT KẾ
3.1 Phân tích
3.1.1 Yêu cầu đặt ra
Chương trình được xây dựng có khả năng phân loại được các văn bản với
độ chính xác cao, dựa trên thuật toán Navie Bayes
Chương trình có khả năng quản lý được các văn bản để phục vụ cho mục đích huấn luyện và đưa vào phân loại Ngoài ra chương trình còn có khả năng quản lý các từ vựng được đưa vào nhằm làm tăng độ chính xác khi phân loại Lưu lại các thông tin, dữ liệu phân loại để có thể so sánh và đánh giá các thông tin sau mỗi lần huấn luyện
Chương trình có một giao diện thân thiện dễ sử dụng với người dùng
Việc thêm văn bản có thể thêm nhiều văn bản cùng một lúc để việc quản lý tiết kiệm thời gian hơn
Có thể sử lý với các loại văn bản txt hoặc doc
- Về quản lý các lĩnh vực:
Xây dựng giao diện quản lý được các thông tin trong từng lĩnh vực đặc biệt
là chọn thư mục chứa để có thể phân loại sau này
- Ngoài ra chương trình còn có khả năng lưu trữ và quản lý các thông tincủa văn bản sau khi huấn luyện để có thể kiểm tra và đánh giá độ xác thựccủa thông tin
Về mặt chức năng:
Chương trình phải xây dựng và hoàn thiện được hai chức năng quan trọng nhất là huấn luyện và phân lọai văn bản Việc phân loại văn bản với độ chính xác được thông báo ra giao diện cho người dùng
3.2 Thiết kế
3.2.1 Kiến trúc chung
Trang 12Chương trình được xây dựng theo mơ hình 3 lớp.
- Về tổng quan chương trình được xây dựng cĩ các form chức năng sau:+ Về mặt quản lý:
From QLVB nhằm quản lý các văn bản và thơng tin liên quan
From QLTV nhằm quản lý các từ vựng phục vụ cho việc phân loại
Form QLLV nhằm quản lý các lĩnh vực được phân loại
Các form quản lý mã hĩa (QLMH), quản lý huấn luyện (QLHL), quản lý chi tiết huấn luyện (QLCTHL)… nhằm lưu và quản lý các thơng tin trong mỗi lần huấn luyện
Thuật tốn Nạve Bayes dựa trên định lý Bayes được phát biểu như sau:
Trong đĩ:
- Y đại diện một giả thuyết, giả thuyết này được suy luận khi cĩ đượcchứng cứ mới X
- P(X) : xác xuất X xảy ra (Xác suất biên duyên của X)
- P(Y) : xác xuất Y xảy ra (Điều kiện tiên nghiệm của Y)
- P(X|Y) : xác xuất X xảy ra khi Y xảy ra (xác suất cĩ điều kiện, khảnăng X khi Y đúng)
- P(Y|X) : xác suất hậu nghiệm của Y nếu biết X
Áp dụng trong bài tốn phân loại, các dữ kiện cần cĩ:
- D: tập dữ liệu huấn luyện đã được vector hố dưới dạng =( x1, x2, …, xn )
- Ci: tập các tài liệu của D thuộc lớp Civới i={1,2,3,…}
- Các thuộc tính x1,x2,…xn độc lập xác suất đơi một với nhau
Theo định lý Bayes :
Trang 13Theo tính chất độc lập điều kiện :
Khi đó, luật phân lớp cho các tài liệu mới Xnew ={x1, x2, … , xn} là:
Trong đó :
- P(Ci): được tính dựa trên tần suất xuất hiện tài liệu trong tập huấn luyện
- P(xk|C): được tính từ những tập thuộc tính đã được tính trong quá trìnhhuấn luyện
- Xnew được gán vào lớp có giá trị lớn nhất theo công thức:
Xét một ví dụ kinh điển là ví dụ dự đoán xem quyết định của người chơi
có đi chơi Tennis hay không với các điều kiện về thời tiết đã được biết trước.Trong ví dụ này, ta có một bảng dữ liệu huấn luyện như sau:
Trang 14Bảng 1.1 Ví dụ về bảng dữ liệu huấn luyệnBước 1 :
Trang 15P(yes)*P(Xnew|yes) = 0.005
P(no)* P(Xnew|no) = 0.021
→ Xnew thuộc vào lớp No
3.2.2.3 Áp dụng trong phân loại văn bản
Để áp dụng thuật tốn Nạve Bayes vào phân loại văn bản, ta cần thực hiệncác bước tiền xử lý và vector hố các văn bản trong tập huấn luyện Các phươngpháp tiền xử lý và vector hố đã được trình bày ở những phần trước Tuy nhiên,
do thuật tốn Nạve Bayes dựa trên xác suất văn bản và xác suất đặc trưng, do
đĩ ở phương pháp này, chúng ta sẽ sử dụng phương pháp vector hố bằng cáchđếm tần suất từ (Word frequency weighting)
Sau khi đã vector hố các văn bản, ta cần thực hiện rút chọn các đặc trưngcho các văn bản huấn luyện Ta cũng cĩ rất nhiều cách để thực hiện rút chọn đặctrưng như sử dụng các độ đo, sử dụng Heuristic, sử dụng từ điển…
Sau khi đã rút chọn đặc trưng, ta sẽ thực hiện thuật tốn huấn luyện Ta cĩthể tĩm tắt các bước như sau :
Bước 1 : Huấn luyện
- Từ tập huấn luyện, ta rút trích tập từ vựng (các đặc trưng)
- Tính xác suất P(Ci) và P(xk|Ci)
Docsi: số tài liệu của tập huấn luyện thuộc lớp ci