Trong khi đó mã nguồn mà không có đích tới runtimethì được biết như mã nguồn không được quản lý unmanaged code.Thư viện lớp, một thành phần chính khác của .NET Framework là một tậphợp
Trang 1MỤC LỤC
LỜI MỞ ĐẦU 5
Chương 1 Giới thiệu về DotNet và C# 7
1.1 Tổng quan về MS.NET 7
1.1.1 Nguồn gốc NET 7
1.1.2 Microsoft NET 8
1.1.3 Kiến trúc NET Framework 9
1.1.4 Common Language Runtime (CLR) 10
1.1.5 Thư viện lớp NET Framework 11
1.1.6 Phát triển ứng dụng Client 12
1.1.7 Biên dịch và MSIL 14
1.2 Tổng quan về C# 15
1.2.1 Giới thiệu về C# 15
1.2.2 Tại sao phải sử dụng ngôn ngữ C# 16
1.2.3 C# và những ngôn ngữ khác 20
CHƯƠNG 2 Giới thiệu về phân lớp văn bản 22
2.1 Một số khái niệm cơ bản 22
2.2 Bài toán phân lớp văn bản 24
CHƯƠNG 3 Các phương pháp biểu diễn văn bản 27
3.1 Mô hình không gian véc tơ (Space Vector Model) 27
3.1.1 Mô hình Boolean 28
3.1.2 Mô hình tần suất 28
3.1.3 Phương pháp xử lý véc tơ thưa 30
3.2 Loại bỏ các từ dừng trong biểu diễn văn bản 31
3.2.1 Loại bỏ các từ dừng (Stop Words) 31
3.2.2 Định luật Zipf 33
CHƯƠNG 4 Các thuật toán phân lớp văn bản 35
4.1 Một số thuật toán 35
Trang 24.2 Phương hướng giải quyết 45
3.2.1 Lựa chọn mô hình biểu diễn văn bản 45
4.2.2 Lựa chọn thuật toán phân lớp văn bản 46
4.2.3 Phương án tách thuật ngữ 48
4.2.4 Hiệu suất phân lớp văn bản 50
4.3 Một số kết quả thực nghiệm 51
4.3.1 Giới thiệu về chương trình phân lớp văn bản (Demo) 51
4.3.2 Kết quả thực nghiệm 64
4.3.2.1 Thuật toán K-NN 64
4.3.2.2 Thuật toán ID3: 65
KẾT LUẬN 67
1 Một số kết quả đạt được 67
2 Hướng phát triển 67
Trang 3LỜI MỞ ĐẦU
Ngày nay, dạng dữ liệu văn bản là một trong những loại dữ liệu được dùngphổ biến nhất Nó có mặt ở nhiều nơi, nhiều lĩnh vực trong đời sống xã hội, tinhthần, kinh tế và khoa học… của con người Bên cạnh đó, sự phát triển nhanhchóng của mạng máy tính toàn cầu đã làm cho nhu cầu xử lý các văn bản ngàycàng trở nên cần thiết Bài toán xử lý văn bản đã được đặt ra khá lâu và cho đếnnay vẫn là một bài toán hay trong khai thác dữ liệu văn bản Văn bản có thể đượcchia ra hai dạng: bán cấu trúc và phi cấu trúc Dạng bán cấu trúc bao gồm: e-mail, văn bản HTML,… còn dạng phi cấu trúc có thể kể đến như các văn bảntext Có nhiều cách quan niệm về lĩnh vực xử lý văn bản, Lewis [6] đã chia ra hai
nhóm lĩnh vực chính là phân lớp văn bản (Text Classfication) gồm các công việc
xác định văn bản hoặc một phần của văn bản vào một hay nhiều lớp xác định
trước và Hiểu văn bản (Text Understanding) bao gồm các công việc phức tạp
hơn để xử lý nội dung của văn bản như tóm tắt văn bản (Text Sumarization), chắtlọc thông tin (Text Extraction)…Trong đó, bài toán phân lớp văn bản là tiền đềcho các bài toán sau, hơn nữa nó là bài toán quan trọng quyết định thành công
của các bài toán còn lại Với những lý đó, em quyết định chọn đồ án: “Nghiên cứu bài toán phân lớp văn bản tiếng Việt ” nhằm góp một phần nhỏ trong việc
khai phá dữ liệu văn bản
Đồ án này được chia thành 4 chương:
Chương 1: Giới thiệu sơ qua về DotNet và ngôn ngữ lập trình C#
Chương 2: Nhắc lại một vài khái niệm cơ bản liên quan đến văn bản
và trình bày cụ thể thế nào là bài toán phân lớp văn bản Ở đây, emđưa ra khái niệm độ liên quan giữa các văn bản và đó chính là cơ sởcủa sự phân lớp các văn bản sau này
Chương 3: Mô tả các phương pháp biểu diễn văn bản để tạo sự thuận
Trang 4Trong chương này, em cũng trình bày những ưu, nhược điểm của cácphương pháp, để rồi từ đó đưa ra sự lựa chọn thích hợp
Chương 4: trình bày các thuật toán phân lớp văn bản thường gặp,chẳng hạn: thuật toán cây quyết định, thuật toán k-láng giềng gầnnhất,….và em đưa ra hướng giải quyết cụ thể từ các lý thuyết đã trìnhbày
Tuy nhiên, đối với việc xử lý tiếng Việt, em chưa đề cập sâu được mà chỉ đưa ra
ý tưởng để giải quyết Cuối cùng, em xin chân thành cám ơn thầy giáoThS.Nguyễn Đình Dũng đã cung cấp những kiến thức nền tảng, cơ bản và cácgợi ý để hoàn thành đồ án này
Sinh viên thực hiện:
Trần Hải Thanh
Trang 5Chương 1 Giới thiệu về DotNet và C#
1.1 Tổng quan về MS.NET
1.1.1 Nguồn gốc NET
Đầu năm 1998, sau khi hoàn tất phiên bản Version 4 của InternetInformation Server(IIS), các đội ngũ lập trình ở Microsoft nhận thấy họ còn rấtnhiều sáng kiến để kiện toàn IIS Họ bắt đầu xây dựng một kiến trúc mới trên nềntảng ý tưởng đó và đặt tên là Next Generation Windows Services (NGWS)
Sau khi Visual Basic được trình làng vào cuối 1998, dự án kế tiếp mangtên Visual Studio 7 được xác nhập vào NGWS Đội ngũ COM+/MTS góp vàomột universal runtime cho tất cả ngôn ngữ lập trình chung trong Visual Studio,
và tham vọng của họ cung cấp cho các ngôn ngữ lập trình của các công ty khácdùng chung luôn Công việc này được xúc tiến một cách hoàn toàn bí mật mãicho đến hội nghị Professional Developers’ Conference ở Orlado vào tháng7/2000 Đến tháng 11/2000 thì Microsoft đã phát hành bản Beta 1 của NET gồm
3 đĩa CD Tính đến lúc này thì Microsoft đã làm việc với NET gần 3 năm rồi, do
đó bản Beta 1 này tương đối vững chắc
.NET mang dáng dấp của những sáng kiến đã được áp dụng trước đây nhưcode trong UCSD Pascal cho đến Java Virtual Machine Có điều là Microsoftgóp nhặt những sáng kiến của người khác, kết hợp với sáng kiến của chính mình
để làm nên một sản phẩm hoàn chỉnh từ bên trong lẫn bên ngoài Hiện tạiMicrosoft đã công bố phiên bản release của NET
Thật sự Microsoft đã đặt cược vào NET vì theo thông tin của công ty, đãtập trung 80% sức mạnh của Microsoft để nghiên cứu và triển khai NET (baogồm nhân lực và tài chính ?), tất cả các sản phẩm của Microsoft sẽ được chuyểnqua NET
Trang 61.1.2 Microsoft NET
Microsoft NET gồm 2 phần chính: Framework và Integrate DevelopmentEnvironment (IDE) Framework cung cấp những gì cần thiết và căn bản, chữFramework có nghĩa là khung hay khung cảnh trong đó ta dùng những hạ tầng cơ
sở theo một qui ước nhất định để công việc được trôi chảy IDE thì cung cấp mộtmôi trường giúp chúng ta triển khai dễ dàng, và nhanh chóng các ứng dụng dựatrên nền tảng NET Nếu không có IDE chúng ta cũng có thể Microsoft NET 1.0Ngôn Ngữ Lập Trình C# dùng một trình soạn thảo ví như Notepad hay bất cứtrình soạn thảo văn bản nào và sử dụng command line để biên dịch và thực thi,tuy nhiên việc này mất nhiều thời gian Tốt nhất là chúng ta dùng IDE phát triểncác ứng dụng, và cũng là cách dễ sử dụng nhất
Thành phần Framework là quan trọng nhất NET là cốt lõi và tinh hoa củamôi trường, còn IDE chỉ là công cụ để phát triển dựa trên nền tảng đó thôi Trong.NET toàn bộ các ngôn ngữ C#, Visual C++ hay Visual Basic.NET đều dùngcùng một IDE
Tóm lại Microsoft NET là nền tảng cho việc xây dựng và thực thi các ứngdụng phân tán thế hệ kế tiếp Bao gồm các ứng dụng từ client đến server và cácdịch vụ khác Một số tính năng của Microsoft NET cho phép những nhà pháttriển sử dụng như sau:
Một mô hình lập trình cho phép nhà phát triển xây dựng các ứng dụngdịch vụ web và ứng dụng client với Extensible Markup Language (XML)
Tập hợp dịch vụ XML Web, như Microsoft NET My Services chophép nhà phát triển đơn giản và tích hợp người dùng kinh nghiệm
Cung cấp các server phục vụ bao gồm: Windows 2000, SQL Server vàBizTalk
Server, tất cả điều tích hợp, hoạt động, và quản lý các dịch vụ XMLWeb và các ứng dụng
Trang 7 Các phần mềm client như Windows XP và Windows CE giúp ngườiphát triển phân phối sâu và thuyết phục người dùng kinh nghiệm thông qua cácdòng thiết bị.
Nhiều công cụ hỗ trợ như Visual Studio NET, để phát triển các dịch
vụ Web XML, ứng dụng trên nền Windows hay nền web một cách dể dàng vàhiệu quả
1.1.3 Kiến trúc NET Framework
.NET Framework là một platform mới làm đơn giản việc phát triển ứngdụng trong môi trường phân tán của Internet .NET Framework được thiết kế đầy
đủ để đáp ứng theo quan điểm sau:
Để cung cấp một môi trường lập trình hướng đối tượng vững chắc,trong đó mã nguồn đối tượng được lưu trữ và thực thi một cách cục bộ Thực thicục bộ nhưng được phân tán trên Internet, hoặc thực thi từ xa
Để cung cấp một môi trường thực thi mã nguồn mà tối thiểu được việcđóng gói phần mềm và sự tranh chấp về phiên bản
Để cung cấp một môi trường thực thi mã nguồn mà đảm bảo việc thựcthi an toàn mã nguồn, bao gồm cả việc mã nguồn được tạo bởi hãng thứ ba haybất cứ hãng nào mà tuân thủ theo kiến trúc NET
Để cung cấp một môi trường thực thi mã nguồn mà loại bỏ đượcnhững lỗi thực hiện các script hay môi trường thông dịch
Để làm cho những người phát triển có kinh nghiệm vững chắc có thểnắm vững nhiều kiểu ứng dụng khác nhau Như là từ những ứng dụng trên nềnWindows đến những ứng dụng dựa trên web
Để xây dựng tất cả các thông tin dựa trên tiêu chuẩn công nghiệp đểđảm bảo rằng mã nguồn trên .NET có thể tích hợp với bất cứ mã nguồnkhác NET Framework có hai thành phần chính: Common Language Runtime
Trang 8thực thi, cung cấp các dịch vụ cốt lõi như: quản lý bộ nhớ, quản lý tiến trình, vàquản lý từ xa Ngoài ra nó còn thúc đẩy việc sử dụng kiểu an toàn và các hìnhthức khác của việc chính xác mã nguồn, đảm bảo cho việc thực hiện được bảomật và mạnh mẽ Thật vậy, khái niệm quản lý mã nguồn là nguyên lý nền tảngcủa runtime Mã nguồn mà đích tới runtime thì được biết như là mã nguồn đượcquản lý (managed code) Trong khi đó mã nguồn mà không có đích tới runtimethì được biết như mã nguồn không được quản lý (unmanaged code).
Thư viện lớp, một thành phần chính khác của NET Framework là một tậphợp hướng đối tượng của các kiểu dữ liệu được dùng lại, nó cho phép chúng ta
có thể phát triển những ứng dụng từ những ứng dụng truyền thống command-linehay những ứng dụng có giao diện đồ họa (GUI) đến những ứng dụng mới nhấtđược cung cấp bởi ASP.NET, như là Web Form và dịch vụ XML Web
1.1.4 Common Language Runtime (CLR)
Như đã đề cập thì CLR thực hiện quản lý bộ nhớ, quản lý thực thi tiếntrình, thực thi mã nguồn, xác nhận mã nguồn an toàn, biên dịch và các dịch vụ hệthống khác Những đặc tính trên là nền tảng cơ bản cho những mã nguồn đượcquản lý chạy trên CLR
Do chú trọng đến bảo mật, những thành phần được quản lý được cấpnhững mức độ quyền hạn khác nhau, phụ thuộc vào nhiều yếu tố nguyên thủycủa chúng như: liên quan đến Internet, hệ thống mạng trong nhà máy, hay mộtmáy tính cục bộ Điều này có nghĩa rằng, một thành phần được quản lý có thể cóhay không có quyền thực hiện một thao tác truy cập tập tin, thao tác truy cậpregistry, hay các chức năng nhạy cảm khác
CLR thúc đẩy việc mã nguồn thực hiện việc truy cập được bảo mật Ví dụ,người sử dụng giới hạn rằng việc thực thi nhúng vào trong một trang web có thểchạy được hoạt hình trên màn hình hay hát một bản nhạc, nhưng không thể truycập được dữ liệu riêng tư, tập tin hệ thống, hay truy cập mạng Do đó, đặc tínhbảo mật của CLR cho phép những phần mềm đóng gói trên Internet có nhiều đặctính mà không ảnh hưởng đến việc bảo mật hệ thống
Trang 9CLR còn thúc đẩy cho mã nguồn được thực thi mạnh mẽ hơn bằng việcthực thi mã nguồn Type System (CTS) CTS đảm bảo rằng những mã nguồnđược quản lý thì được tự mô tả (selfdescribing) Sự khác nhau giữa Microsoft vàcác trình biên dịch ngôn ngữ của hãng thứ ba là việc tạo ra các mã nguồn đượcquản lý có thể thích hợp với CTS Điều này thì mã nguồn được quản lý có thể sửdụng những kiểu được quản lý khác và những thể hiện, trong khi thúc đẩynghiêm ngặt việc sử dụng kiểu dữ liệu chính xác và an toàn.
Thêm vào đó, môi trường được quản lý của runtime sẽ thực hiện việc tựđộng xử lý layout của đối tượng và quản lý những tham chiếu đến đối tượng, giảiphóng chúng khi chúng không còn được sử dụng nữa Việc quản lý bộ nhớ tựđộng này còn giải quyết hai lỗi chung của ứng dụng: thiếu bộ nhớ và tham chiếubộ nhớ không hợp lệ
Trong khi runtime được thiết kế cho những phần mềm của tương lai, nócũng hỗ trợ cho phần mềm ngày nay và trước đây Khả năng hoạt động qua lạigiữa mã nguồn được quản lý và mã nguồn không được quản lý cho phép ngườiphát triển tiếp tục sử dụng những thành phần cần thiết của COM và DLL
Runtime được thiết kế để cải tiến hiệu suất thực hiện Mặc dù CLR cungcấp nhiều các tiêu chuẩn dịch vụ runtime, nhưng mã nguồn được quản lý khôngbao giờ được dịch Có một đặc tính gọi là Just-in-Time (JIT) biên dịch tất cảnhững mã nguồn được quản lý vào trong ngôn ngữ máy của hệ thống vào lúc mà
nó được thực thi Khi đó, trình quản lý bộ nhớ xóa bỏ những phân mảnh bộ nhớnếu có thể được và gia tăng tham chiếu bộ nhớ cục bộ, và kết quả gia tăng hiệuquả thực thi
1.1.5 Thư viện lớp NET Framework
Thư viện lớp NET Framework là một tập hợp những kiểu dữ liệu đượcdùng lại và được kết hợp chặt chẽ với Common Language Runtime Thư viện lớp
là hướng đối tượng cung cấp những kiểu dữ liệu mà mã nguồn được quản lý của
Trang 10học đặc tính mới của NET Framework Thêm vào đó, các thành phần của cáchãng thứ ba có thể tích hợp với những lớp trong NET Framework.
Cũng như mong đợi của người phát triển với thư viện lớp hướng đốitượng, kiểu dữ liệu NET Framework cho phép người phát triển thiết lập nhiềumức độ thông dụng của việc lập trình, bao gồm các nhiệm vụ như: quản lý chuỗi,thu thập hay chọn lọc dữ liệu, kết nối với cơ sở dữ liệu, và truy cập tập tin Ngoàinhững nhiệm vụ thông dụng trên Thư viện lớp còn đưa vào những kiểu dữ liệu
để hỗ trợ cho những kịch bản phát triển chuyên biệt khác Ví dụ người phát triển
có thể sử dụng NET Framework để phát triển những kiểu ứng dụng và dịch vụnhư sau:
Trong đó những lớp Windows Forms cung cấp một tập hợp lớn các kiểu
dữ liệu nhằm làm đơn giản việc phát triển các ứng dụng GUI chạy trên Windows.Còn nếu như viết các ứng dụng ASP.NET thì có thể sử dụng các lớp Web Formstrong thư viện NET Framework
1.1.6 Phát triển ứng dụng Client
Những ứng dụng client cũng gần với những ứng dụng kiểu truyền thốngđược lập trình dựa trên Windows Đây là những kiểu ứng dụng hiển thị nhữngcửa sổ hay những form trên desktop cho phép người dùng thực hiện một thao táchay nhiệm vụ nào đó Những ứng dụng client bao gồm những ứng dụng như xử
lý văn bản, xử lý bảng tính, những ứng dụng trong lĩnh vực thương mại như công
cụ nhập liệu, công cụ tạo báo cáo Những ứng dụng client này thường sử dụngnhững cửa sổ, menu, toolbar, button hay các thành phần GUI khác, và chúng
Trang 11thường truy cập các tài nguyên cục bộ như là các tập tin hệ thống, các thiết bịngoại vi như máy in
Một loại ứng dụng client khác với ứng dụng truyền thống như trên làActiveX control (hiện nay nó được thay thế bởi các Windows Form control)được nhúng vào các trang web trên Internet Các ứng dụng này cũng giống nhưnhững ứng dụng client khác là có thể truy cập tài nguyên cục bộ
Trong quá khứ, những nhà phát triển có thể tạo các ứng dụng sử dụngC/C++ thông qua kết nối với MFC hoặc sử dụng môi trường phát triển ứng dụngnhanh (RAD: Rapid Application Development) .NET FrameWork tích hợp diệnmạo của những sản phẩm thành một Môi trường phát triển cố định làm đơn giảnmạnh mẽ sự phát triển của ứng dụng client
Những lớp NET Framework chứa trong NET Framework được thiết kếcho việc sử dụng phát triển các GUI Điều này cho phép người phát triển nhanhchóng và dễ dàng tạo các cửa sổ, button, menu, toolbar, và các thành phần kháctrong các ứng dụng được viết phục vụ cho lĩnh vực thương mại Ví dụ như, NETcung cấp những thuộc tính đơn giản để hiệu chỉnh các hiệu ứng visual liên quanđến form Trong vài trường hợp hệ điều hành không hỗ trợ việc thay đổi nhữngthuộc tính này một cách trực tiếp, và trong trường hợp này NET tự động tạo lạiform Đây là một trong nhiều cách mà NET tích hợp việc phát triển giao diệnlàm cho mã nguồn đơn giản và mạnh mẽ hơn
Không giống như ActiveX control, Windows Form control có sự truy cậpgiới hạn đến máy của người sử dụng Điều này có nghĩa rằng mà nguồn thực thinhị phân có thể truy cập một vài tài nguyên trong máy của người sử dụng (nhưcác thành phần đồ họa hay một số tập tin được giới hạn) mà không thể truy cậpđến những tài nguyên khác Nguyên nhân là sự bảo mật truy cập của mã nguồn.Lúc này các ứng dụng được cài đặt trên máy người dùng có thể an toàn để đưalên Internet
Trang 121.1.7 Biên dịch và MSIL
Trong NET Framework, chương trình không được biên dịch vào các tậptin thực thi mà thay vào đó chúng được biên dịch vào những tập tin trung giangọi là Microsoft Intermediate Language (MSIL) Những tập tin MSIL được tạo ra
từ C# cũng tương tự như các tập tin MSIL được tạo ra từ những ngôn ngữ kháccủa NET, platform ở đây không cần biết ngôn ngữ của mã nguồn Điều quantrọng chính yếu của CLR là chung (common), cùng một runtime hỗ trợ phát triểntrong C# cũng như trong VB.NET
Mã nguồn C# được biên dịch vào MSIL khi chúng ta build project MãMSIL này được lưu vào trong một tập tin trên đĩa Khi chúng ta chạy chươngtrình, thì MSIL được biên dịch một lần nữa, sử dụng trình biên dịch Just-In-Time(JIT) Kết quả là mã máy được thực thi bởi bộ xử lý của máy
Trình biên dịch JIT tiêu chuẩn thì thực hiện theo yêu cầu Khi một phươngthức được gọi, trình biên dịch JIT phân tích MSIL và tạo ra sản phẩm mã máy cóhiệu quả cao, mã này có thể chạy rất nhanh Trình biên dịch JIT đủ thông minh
để nhận ra khi một mã đã được biên dịch, do vậy khi ứng dụng chạy thì việc biêndịch chỉ xảy ra khi cần thiết, tức là chỉ biên dịch mã MSIL chưa biên dịch ra mãmáy Khi đó một ứng dụng NET thực hiện, chúng có xu hướng là chạy nhanh vànhanh hơn nữa, cũng như là những mã nguồn được biên dịch rồi thì được dùnglại
Do tất cả các ngôn ngữ NET Framework cùng tạo ra sản phẩm MSILgiống nhau, nên kết quả là một đối tượng được tạo ra từ ngôn ngữ này có thểđược truy cập hay được dẫn xuất từ một đối tượng của ngôn ngữ kháctrong NET Ví dụ, người phát triển có thể tạo một lớp cơ sở trong VB.NET vàsau đó dẫn xuất nó trong C# một cách dễ dàng
Trang 131.2 Tổng quan về C#
1.2.1 Giới thiệu về C#
Ngôn ngữ C# khá đơn giản, chỉ khoảng 80 từ khóa và hơn mười mấy kiểu
dữ liệu được xây dựng sẵn Tuy nhiên, ngôn ngữ C# có ý nghĩa cao khi nó thựcthi những khái niệm lập trình hiện đại C# bao gồm tất cả những hỗ trợ cho cấutrúc, thành phần component, lập trình hướng đối tượng Những tính chất đó hiệndiện trong một ngôn ngữ lập trình hiện đại Và ngôn ngữ C# hội đủ những điềukiện như vậy, hơn nữa nó được xây dựng trên nền tảng của hai ngôn ngữ mạnhnhất là C++ và Java
Ngôn ngữ C# được phát triển bởi đội ngũ kỹ sư của Microsoft, trong đóngười dẫn đầu là Anders Hejlsberg và Scott Wiltamuth Cả hai người này điều lànhững người nổi tiếng, trong đó Anders Hejlsberg được biết đến là tác giả củaTurbo Pascal, một ngôn ngữ lập trình PC phổ biến Và ông đứng đầu nhóm thiết
kế Borland Delphi, một trong những thành công đầu tiên của việc xây dựng môitrường phát triển tích hợp (IDE) cho lập trình client/server
Phần cốt lõi hay còn gọi là trái tim của bất cứ ngôn ngữ lập trình hướngđối tượng là sự hỗ trợ của nó cho việc định nghĩa và làm việc với những lớp.Những lớp thì định nghĩa những kiểu dữ liệu mới, cho phép người phát triển mởrộng ngôn ngữ để tạo mô hình tốt hơn để giải quyết vấn đề Ngôn ngữ C# chứanhững từ khóa cho việc khai báo những kiểu lớp đối tượng mới và những phươngthức hay thuộc tính của lớp, và cho việc thực thi đóng gói, kế thừa, và đa hình, bathuộc tính cơ bản của bất cứ ngôn ngữ lập trình hướng đối tượng
Trong ngôn ngữ C# mọi thứ liên quan đến khai báo lớp điều được tìm thấytrong phần khai báo của nó Định nghĩa một lớp trong ngôn ngữ C# không đòihỏi phải chia ra tập tin header và tập tin nguồn giống như trong ngôn ngữ C++.Hơn thế nữa, ngôn ngữ C# hỗ trợ kiểu XML, cho phép chèn các tag XML đểphát sinh tự động các document cho lớp
Trang 14có thể kế thừa từ duy nhất một lớp cha, tức là không cho đa kế thừa như trongngôn ngữ C++, tuy nhiên một lớp có thể thực thi nhiều giao diện Khi một lớpthực thi một giao diện thì nó sẽ hứa là nó sẽ cung cấp chức năng thực thi giaodiện.
Trong ngôn ngữ C#, những cấu trúc cũng được hỗ trợ, nhưng khái niệm
về ngữ nghĩa của nó thay đổi khác với C++ Trong C#, một cấu trúc được giớihạn, là kiểu dữ liệu nhỏ gọn, và khi tạo thể hiện thì nó yêu cầu ít hơn về hệ điềuhành và bộ nhớ so với một lớp Một cấu trúc thì không thể kế thừa từ một lớp hayđược kế thừa nhưng một cấu trúc có thể thực thi một giao diện
Ngôn ngữ C# cung cấp những đặc tính hướng thành phần oriented), như là những thuộc tính, những sự kiện Lập trình hướng thành phầnđược hỗ trợ bởi CLR cho phép lưu trữ metadata với mã nguồn cho một lớp.Metadata mô tả cho một lớp, bao gồm những phương thức và những thuộc tínhcủa nó, cũng như những sự bảo mật cần thiết và những thuộc tính khác Mãnguồn chứa đựng những logic cần thiết để thực hiện những chức năng của nó Dovậy, một lớp được biên dịch như là một khối self-contained, nên môi trườnghosting biết được cách đọc metadata của một lớp và mã nguồn cần thiết màkhông cần những thông tin khác để sử dụng nó
(component-Một lưu ý cuối cùng về ngôn ngữ C# là ngôn ngữ này cũng hỗ trợ việctruy cập bộ nhớ trực tiếp sử dụng kiểu con trỏ của C++ và từ khóa cho dấu ngoặc[] trong toán tử Các mã nguồn này là không an toàn (unsafe) Và bộ giải phóngbộ nhớ tự động của CLR sẽ không thực hiện việc giải phóng những đối tượngđược tham chiếu bằng sử dụng con trỏ cho đến khi chúng được giải phóng
1.2.2 Tại sao phải sử dụng ngôn ngữ C#
Nhiều người tin rằng không cần thiết có một ngôn ngữ lập trình mới Java,C++, Perl, Microsoft Visual Basic, và những ngôn ngữ khác được nghĩ rằng đãcung cấp tất cả những chức năng cần thiết
Ngôn ngữ C# là một ngôn ngữ được dẫn xuất từ C và C++, nhưng nóđược tạo từ nền tảng phát triển hơn Microsoft bắt đầu với công việc trong C và
Trang 15C++ và thêm vào những đặc tính mới để làm cho ngôn ngữ này dễ sử dụng hơn.Nhiều trong số những đặc tính này khá giống với những đặc tính có trong ngônngữ Java Không dừng lại ở đó, Microsoft đưa ra một số mục đích khi xây dựngngôn ngữ này Những mục đích này được được tóm tắt như sau:
C# là ngôn ngữ đơn giản
C# là ngôn ngữ hiện đại
C# là ngôn ngữ hướng đối tượng
C# là ngôn ngữ mạnh mẽ và mềm dẻo
C# là ngôn ngữ có ít từ khóa
C# là ngôn ngữ hướng module
C# sẽ trở nên phổ biến
1.2.2.1 C# là ngôn ngữ đơn giản
C# loại bỏ một vài sự phức tạp và rối rắm của những ngôn ngữ như Java
và C++, bao gồm việc loại bỏ những macro, những template, đa kế thừa, và lớp
cơ sở ảo (virtual base class).Chúng là những nguyên nhân gây ra sự nhầm lẫn haydẫn đến những vấn đề cho các người phát triển C++ Nếu chúng ta là người họcngôn ngữ này đầu tiên thì chắc chắn là ta sẽ không trải qua những thời gian đểhọc nó! Nhưng khi đó ta sẽ không biết được hiệu quả của ngôn ngữ C# khi loại
bỏ những vấn đề trên
Ngôn ngữ C# đơn giản vì nó dựa trên nền tảng C và C++ Nếu chúng tathân thiện với C và C++ hoặc thậm chí là Java, chúng ta sẽ thấy C# khá giống vềdiện mạo, cú pháp, biểu thức, toán tử và những chức năng khác được lấy trực tiếp
từ ngôn ngữ C và C++, nhưng nó đã được cải tiến để làm cho ngôn ngữ đơn giảnhơn Một vài trong các sự cải tiến là loại bỏ các dư thừa, hay là thêm vào những
cú pháp thay đổi Ví dụ như, trong C++ có ba toán tử làm việc với các thành viên
là ::, , và -> Để biết khi nào dùng ba toán tử này cũng phức tạp và dễ nhầm lẫn
Trang 16người mới học thì điều này và những việc cải tiến khác làm bớt nhầm lẫn và đơngiản hơn.
Ghi chú: Nếu chúng ta đã sử dụng Java và tin rằng nó đơn giản, thì chúng ta
cũng sẽ tìm thấy rằng C# cũng đơn giản Hầu hết mọi người đều không tin rằngJava là ngôn ngữ đơn giản Tuy nhiên, C# thì dễ hơn là Java và C++
1.2.2.2 C# là ngôn ngữ hiện đại
Điều gì làm cho một ngôn ngữ hiện đại? Những đặc tính như là xử lýngoại lệ, thu gom bộ nhớ tự động, những kiểu dữ liệu mở rộng, và bảo mật mãnguồn là những đặc tính được mong đợi trong một ngôn ngữ hiện đại C# chứatất cả những đặc tính trên
Ghi chú: Con trỏ được tích hợp vào ngôn ngữ C++ Chúng cũng là nguyên nhân
gây ra những rắc rối của ngôn ngữ này C# loại bỏ những phức tạp và rắc rối phátsinh bởi con trỏ Trong C#, bộ thu gom bộ nhớ tự động và kiểu dữ liệu an toànđược tích hợp vào ngôn ngữ, sẽ loại bỏ những vấn đề rắc rối của C++
1.2.2.3 C# là ngôn ngữ hướng đối tượng
Những đặc điểm chính của ngôn ngữ hướng đối tượng (Object-orientedlanguage) là sự đóng gói (encapsulation), sự kế thừa (inheritance), và đa hình(polymorphism) C# hỗ trợ tất Ngôn Ngữ C# cả những đặc tính trên
1.2.2.4 C# là ngôn ngữ mạnh mẽ và cũng mềm dẻo
Như đã đề cập trước, với ngôn ngữ C# chúng ta chỉ bị giới hạn ở chính bởibản thân hay là trí tưởng tượng của chúng ta Ngôn ngữ này không đặt nhữngràng buộc lên những việc có thể làm C# được sử dụng cho nhiều các dự án khácnhau như là tạo ra ứng dụng xử lý văn bản, ứng dụng đồ họa, bản tính, hay thậmchí những trình biên dịch cho các ngôn ngữ khác
1.2.2.5 C# là ngôn ngữ ít từ khóa
C# là ngôn ngữ sử dụng giới hạn những từ khóa Phần lớn các từ khóađược sử dụng để mô tả thông tin Chúng ta có thể nghĩ rằng một ngôn ngữ cónhiều từ khóa thì sẽ mạnh hơn Điều này không phải sự thật, ít nhất là trong
Trang 17trường hợp ngôn ngữ C#, chúng ta có thể tìm thấy rằng ngôn ngữ này có thểđược sử dụng để làm bất cứ nhiệm vụ nào
1.2.2.6 C# là ngôn ngữ hướng module
Mã nguồn C# có thể được viết trong những phần được gọi là những lớp,những lớp này chứa các phương thức thành viên của nó Những lớp và nhữngphương thức có thể được sử dụng lại trong ứng dụng hay các chương trình khác.Bằng cách truyền các mẫu thông tin đến những lớp hay phương thức chúng ta cóthể tạo ra những mã nguồn dùng lại có hiệu quả
1.2.2.7 C# sẽ là một ngôn ngữ phổ biến
C# là một trong những ngôn ngữ lập trình mới nhất Vào thời điểm cuốnsách này được viết, nó không được biết như là một ngôn ngữ phổ biến Nhưngngôn ngữ này có một số lý do để trở thành một ngôn ngữ phổ biến Một trongnhững lý do chính là Microsoft và sự cam kết của NET
Microsoft muốn ngôn ngữ C# trở nên phổ biến Mặc dù một công tykhông thể làm một sản phẩm trở nên phổ biến, nhưng nó có thể hỗ trợ Cách đâykhông lâu, Microsoft đã gặp sự thất bại về hệ điều hành Microsoft Bob Mặc dùMicrosoft muốn Bob trở nên phổ biến nhưng thất bại C# thay thế tốt hơn để đemđến thành công sơ với Bob Thật sự là không biết khi nào mọi người trong công
ty Microsoft sử dụng Bob trong công việc hằng ngày của họ Tuy nhiên, với C#thì khác, nó được sử dụng bởi Microsoft Nhiều sản phẩm của công ty này đãchuyển đổi và viết lại bằng C# Bằng cách sử dụng ngôn ngữ này Microsoft đãxác nhận khả năng của C# cần thiết cho những người lập trình
Micorosoft .NET là một lý do khác để đem đến sự thành công củaC# .NET là một sự thay đổi trong cách tạo và thực thi những ứng dụng
Ngoài hai lý do trên ngôn ngữ C# cũng sẽ trở nên phổ biến do những đặctính của ngôn ngữ này được đề cập trong mục trước như: đơn giản, hướng đốitượng, mạnh mẽ
Trang 181.2.3 C# và những ngôn ngữ khác
Chúng ta đã từng nghe đến những ngôn ngữ khác như Visual Basic, C++
và Java Có lẽ chúng ta cũng tự hỏi sự khác nhau giữa ngôn ngữ C# và nhưngngôn ngữ đó Và cũng tự hỏi tại sao lại chọn ngôn ngữ này để học mà khôngchọn một trong những ngôn ngữ kia Có rất nhiều lý do và chúng ta hãy xem một
số sự so sánh giữa ngôn ngữ C# với những ngôn ngữ khác giúp chúng ta phầnnào trả lời được những thắc mắc
Microsoft nói rằng C# mang đến sức mạnh của ngôn ngữ C++ với sự dễdàng của ngôn ngữ Visual Basic Có thể nó không dễ như Visual Basic, nhưngvới phiên bản Visual Basic.NET (Version 7) thì ngang nhau Bởi vì chúng đượcviết lại từ một nền tảng Chúng ta có thể viết nhiều chương trình với ít mã nguồnhơn nếu dùng C#
Mặc dù C# loại bỏ một vài các đặc tính của C++, nhưng bù lại nó tránh đượcnhững lỗi mà thường gặp trong ngôn ngữ C++ Điều này có thể tiết kiệm đượchàng giờ hay thậm chí hàng ngày trong việc hoàn tất một chương trình Chúng ta
sẽ hiểu nhiều về điều này trong các chương của giáo trình
Một điều quan trọng khác với C++ là mã nguồn C# không đòi hỏi phải có tậptin header Tất cả mã nguồn được viết trong khai báo một lớp
Như đã nói ở bên trên .NET runtime trong C# thực hiện việc thu gom bộnhớ tự động Do điều này nên việc sử dụng con trỏ trong C# ít quan trọng hơntrong C++ Những con trỏ cũng có thể được sử dụng trong C#, khi đó nhữngđoạn mã nguồn này được đánh dấu là không an toàn (unsafe code)
C# cũng từ bỏ ý tưởng đa kế thừa như trong C++ Và sự khác nhau khác làC# đưa thêm thuộc tính vào trong một lớp giống như trong Visual Basic Vànhững thành viên của lớp được gọi duy nhất bằng toán tử “.” khác với C++ cónhiều cách gọi trong các tình huống khác nhau
Một ngôn ngữ khác rất mạnh và phổ biến là Java, giống như C++ và C# đượcphát triển dựa trên C Nếu chúng ta quyết định sẽ học Java sau này, chúng ta sẽtìm được nhiều cái mà học từ C# có thể được áp dụng
Trang 19Điểm giống nhau C# và Java là cả hai cùng biên dịch ra mã trung gian: C#biên dịch ra MSIL còn Java biên dịch ra bytecode Sau đó chúng được thực hiệnbằng cách thông dịch hoặc biên dịch just-in-time trong từng máy ảo tương ứng.Tuy nhiên, trong ngôn ngữ C# nhiều hỗ trợ được đưa ra để biên dịch mã ngônngữ trung gian sang mã máy C# chứa nhiều kiểu dữ liệu cơ bản hơn Java vàcũng cho phép nhiều sự mở rộng với kiểu dữ liệu giá trị Ví dụ, ngôn ngữ C# hỗtrợ kiểu liệt kê (enumerator), kiểu này được giới hạn đến một tập hằng được địnhnghĩa trước, và kiểu dữ liệu cấu trúc đây là kiểu dữ liệu giá trị do người dùngđịnh nghĩa Chúng ta sẽ được tìm hiểu kỹ hơn về kiểu dữ liệu tham chiếu và kiểu
dữ liệu giá trị sẽ được trình bày trong phần sau
Tương tự như Java, C# cũng từ bỏ tính đa kế thừa trong một lớp, tuy nhiên
mô hình kế thừa đơn này được mở rộng bởi tính đa kế thừa nhiều giao diện
Trang 20CHƯƠNG 2 Giới thiệu về phân lớp văn bản2.1 Một số khái niệm cơ bản
Trước hết chúng ta tìm hiểu một cách sơ lược các thuật ngữ và khái niệmđược trình bày trong đồ án này
Từ khoá, thuật ngữ và khái niệm
Từ khóa: theo định nghĩa chung nhất là một chuỗi các ký tự-số, ngoại trừ dãy
các khoảng trống (space, tab hoặc các ký tự xuống dòng…) hoặc các dấu chấmcâu (dấu chấm, dấu phẩy )
Thuật ngữ: là các từ khóa có nghĩa liên quan đến một lĩnh vực nào đó Ví dụ: “máy tính”, “công nghệ phần mềm”, “tính toán song song” Các thuật ngữ này thuộc về lĩnh vực “tin học”.
Khái niệm: là các thuật ngữ nhưng nó là sự khái quát hóa, tổng quát hóa của nhiều thuật ngữ khác Ví dụ khái niệm “máy tính” có thể chứa đựng các thuật ngữ khác như “bàn phím”, “chuột”, “phần cứng”, “phần mềm”, “CPU”,
“Internet”, “số hóa”,…các từ này có một phần liên quan đến khái niệm “máy tính”
Một khái niệm thường liên quan đến một dãy các thuật ngữ với mức độ khácnhau Một tiêu chuẩn để xem xét mức độ liên quan là xác xuất đồng thời của cặp
khái niệm – thuật ngữ trong các văn bản Khi thuật ngữ “máy tính” xuất hiện nhiều trong các văn bản chứa thuật ngữ “tin học” thì có nghĩa là độ liên quan (hay độ phụ thuộc) giữa cặp “tin học”-“máy tính” càng cao Một lý do để giải thích suy luận này là mức độ thay thế Ở đây, không chỉ hiểu đơn thuần giống
như sự thay thế 1-1 giữa hai khái niệm mà có thể xem như sự thay thế bộ phận
giữa cặp khái niệm-thuật ngữ
Mức độ liên quan giữa các cặp khái niệm-thuật ngữ thường được xác địnhbởi con người, nhưng cũng vì thế mà đại lượng này mang tính chủ quan và phụthuộc vào trình độ nhận thức, trình độ văn hóa, phong tục tập quán, và trình độchuyên môn của người xây dựng nên nó Về lý thuyết, có thể sử dụng máy tính
Trang 21để tính mức độ liên quan giữa các cặp khái niệm-từ khóa, tuy nhiên công việcnày tương đối khó khăn vì cần có một tập dữ liệu đủ lớn để bao phủ toàn bộ cácthuật ngữ và đủ lớn để thu được độ đại lượng này một cách khách quan.
Độ liên quan giữa các văn bản, trọng số của thuật ngữ
Độ liên quan giữa hai văn bản là một đại lượng đo mức độ giống nhau về
mặt nội dung giữa hai văn bản đó Các phương pháp đánh giá độ liên quan đượcchia thành 2 loại: đánh giá theo tần suất xuất hiện thuật ngữ và đánh giá theo ngữnghĩa
Cách đánh giá độ liên quan theo tần suất xuất hiện của thuật ngữ không quantâm đến thứ tự sắp xếp của các thuật ngữ trong văn bản mà chỉ quan tâm xem nóxuất hiện bao nhiêu lần trong văn bản đó Ví dụ: phương pháp sử dụng hệ sốDice, hệ số Jaccard, hệ số cosine hay hệ số nạp chồng
Cách đánh giá theo ngữ nghĩa không chỉ chú ý đến số lần xuất hiện thuật ngữtrong văn bản mà còn chú ý cả đến sự kết cấu giữa các từ trong từng câu văn.Phương pháp đánh giá thuộc loại này thường phức tạp hơn, yêu cầu có các giảithuật phù hợp với từng ngôn ngữ cụ thể
Trong đồ án này, em chủ yếu quan tâm đến phương pháp đánh giá độ liênquan theo tần suất mà cụ thể là sử dụng công thức cosine
Trọng số của thuật ngữ là độ quan trọng hay hàm lượng thông tin mà thuật
ngữ đó mang lại cho văn bản Nó là đại lượng dùng để đo sự khác biệt giữa vănbản chứa nó với các văn bản khác Đại lượng này thường được xác định bằng tayhoặc đánh giá bằng số lần xuất hiện của thuật ngữ trong văn bản và số lần xuấthiện của thuật ngữ đó trong các văn bản khác Khi số lần xuất hiện của thuật ngữtrong văn bản càng nhiều thì thông tin mà nó mang lại càng lớn Khi số lần xuấthiện của nó trong các văn bản khác càng nhiều thì thông tin mà nó mang lại càng
ít Đại lượng này sẽ được trình bày cụ thể ở phần sau
Trang 22Khai phá dữ liệu và khai phá tri thức trong cơ sở dữ liệu
Khai phá dữ liệu, hay data mining, được định nghĩa như quá trình phát hiệncác tri thức từ các dữ liệu lớn được lưu trữ trong cơ sở dữ liệu, data warehousehay các kho chứa thông tin khác[7]
Hiện nay, thuật ngữ khai phá dữ liệu được dùng quá quen thuộc và người tathường đồng nhất với một thuật ngữ khác là phát hiện tri thức trong cơ sở dữ liệu– Knowledge Descovery in Database (KDD) Thực ra, khai phá dữ liệu chỉ làmột bước trong các quá trình của KDD Ta có thể xem 7 công đoạn trong KDDsau đây:
1 Làm sạch dữ liệu: Loại bỏ nhiễu và các dữ liệu không cần thiết
2 Tích hợp dữ liệu: Tích hợp các nguồn dữ liệu khác nhau
3 Lựa chọn dữ liệu: Chọn lựa các dữ liệu liên quan tới quá trình phân tích
4 Chuyển đổi dữ liệu: Các dữ liệu được chuyển đổi sang các dạng phù hợpcho việc xử lý
5 Khai phá dữ liệu: Là một trong những bước quan trọng nhất, ở đây sửdụng những phương pháp thông minh để chắt lọc ra những mẫu dữ liệu
6 Ước lượng mẫu: Quá trình này nhằm đánh giá các kết quả tìm được thôngqua các độ đo nào đó
7 Biểu diễn tri thức: Sử dụng các kỹ thuật biểu diễn và thể hiện trực quancác tri thức cho người dùng
Trong các quá trình trên, khai phá dữ liệu là quá trình được coi là quan trọngnhất vì quá trình này sử dụng các phương pháp máy học cho việc xử lý dữ liệu
2.2 Bài toán phân lớp văn bản
Phân lớp văn bản được xem như là quá trình gán các văn bản vào một haynhiều lớp văn bản đã được xác định trước Người ta có thể phân lớp các văn bảnmột cách thủ công, tức là đọc từng văn bản một và gán nó vào nhóm phù hợp.Cách thức này sẽ tốn nhiều thời gian và chi phí nếu như số lượng văn bản lớn
Do vậy, cần phải có các phương pháp phân lớp tự động Để phân lớp tự động,
người ta sử dụng các phương pháp máy học (Machine Learning) trong trí tuệ
Trang 23nhân tạo Ngoài ra, còn có các kỹ thuật đặc biệt hơn dùng cho phân lớp trong cáclĩnh vực đặc thù Một ví dụ điển hình là bài toán phân lớp công văn giấy tờ Hệthống sẽ tìm ra đặc thù của văn bản một cách tương đối máy móc, cụ thể là khitìm thấy ở lề trên bên trái có ký hiệu “NĐ” thì hệ thống sẽ phân văn bản đó vàonhóm “Nghị định”, tương tự như vậy với các ký hiệu “CV”, “QĐ” thì hệ thống sẽphân văn bản này vào nhóm “Công văn”, và “Quyết định” Các kỹ thuật nàytương đối hiệu quả song lại chỉ phù hợp cho các nhóm dữ liệu có tính chất đặcthù Khi phải làm việc với các văn bản ít đặc thù hơn thì cần phải xây dựng cácthuật toán phân lớp dựa trên nội dung của văn bản và so sánh độ phù hợp củachúng với các văn bản đã được phân lớp bởi con người Đây là tư tưởng chínhcủa các thuật toán máy học Trong mô hình này, các văn bản đã được phân lớpsẵn và hệ thống của chúng ta phải tìm cách để tách ra đặc thù của các văn bản
thuộc mỗi nhóm riêng biệt Tập văn bản mẫu dùng để huấn luyện gọi là tập huấn luyện (train set) hay tập mẫu (pattern set), quá trình phân lớp văn bản bằng tay gọi là quá trình huấn luyện (training), còn quá trình máy tự tìm đặc thù của các nhóm gọi là quá trình học (learning) Sau khi máy đã học xong, người dùng sẽ
đưa các văn bản mới vào và nhiệm vụ của máy là tìm ra xem văn bản đó phù hợpnhất với nhóm nào mà con người đã huấn luyện nó
Trong phân lớp văn bản, sự phụ thuộc của một văn bản vào một nhóm có thể
là các giá trị rời rạc đúng và sai (true hoặc false, để hiểu rằng văn bản đó thuộc
hay không thuộc một nhóm nào đó) hoặc các giá trị liên tục (một số thực, chỉ rađộ phù hợp của văn bản với một nhóm nào đó) Khi câu trả lời đưa ra bắt buộc
phải là đúng hoặc sai thì giá trị liên tục có thể được rời rạc hóa bằng cách đặt ngưỡng Ngưỡng đặt ra tùy thuộc vào thuật toán và yêu cầu người dùng.
Quá trình phân lớp văn bản bao gồm các bước:
1 Đánh chỉ số: ở bước này, dữ liệu đầu vào sẽ là một văn bản và kết quả
đầu ra là một chuỗi các chỉ số thuật ngữ biểu diễn nội dung của vănbản đầu vào Bước này rất quan trọng vì nó quyết định tốc độ và độ
Trang 24hóa các ký tự, tách từ và đánh chỉ số Trong các bước này thì bước
tách từ và đánh chỉ số là quan trọng nhất Tuy nhiên, cần phải chú ýđến tất cả các bước vì chúng đều quyết định tốc độ của cả quá trình
2 Xác định độ phù hợp:phân lớp văn bản cần phải có bước xử lý để chỉ
ra rằng văn bản đang được phân tích thuộc về một nhóm nào đó dựatrên nội dung của văn bản hay chuỗi các thuật ngữ là biểu diễn của
văn bản đó Bộ phận này gọi là bộ phân lớp (categorizer hay classifer).
3 của quá trình này chỉ ra độ phụ thuộc giữa văn bản đang phân tích vớimỗi nhóm có sẵn Đây có thể coi là bước mang tính quyết định trong
5 Phản hồi: Quá trình phản hồi đóng hai vai trò quan trọng trong hệ
thống văn bản Thứ nhất, khi phân lớp văn bản cần phải có một sốlượng lớn các văn bản đã được phân lớp bằng tay, các văn bản nàyđược sử dụng để làm mẫu huấn luyện nhằm hỗ trợ xây dựng bộ phânlớp Thứ hai, việc phân lớp văn bản này không dễ dàng thay đổi nhưquá trình phản hồi của bài toán tìm kiếm văn bản Thay vì vậy, ngườidùng có thể thông báo cho người bảo trì hệ thống về việc xoá, thêmhay sửa đổi các nhóm văn bản nào đó
Trang 25CHƯƠNG 3 Các phương pháp biểu diễn văn bản3.1 Mô hình không gian véc tơ (Space Vector Model)
Cách biểu diễn văn bản thông dụng nhất là thông qua vector Đây là mộtcách biểu diễn tương đối đơn giản và hiệu quả Trước đây có nhiều bài báo nóirằng phương pháp này gây tốn kém chi phí lưu trữ và công sức xử lý, nhưng khicác phương pháp xử lý vector thưa được áp dụng thì các nhược điểm trên giảm đirất nhiều
Theo mô hình này, mỗi văn bản được biểu diễn thành một vector Mỗi thànhphần của vector là một thuật ngữ riêng biệt trong tập văn bản gốc và được gán
một giá trị là hàm f của từng thuật ngữ trong văn bản.
Xem xét các ví dụ sau:
Văn bản 1: “Máy tính có ở nhiều nơi Chúng tôi không thể sống nếu thiếu máy tính Cuộc sống của chúng tôi phụ thuộc nhiều vào máy tính”.
Có thể biểu diễn các văn bản trên dưới dạng các thuật ngữ và hàm f biểu diễn số
lần xuất hiện của thuật ngữ trong văn bản Cách biểu diễn này gọi là biểu diễnvăn bản theo tần suất xuất hiện
Bảng 1: Vector biểu diễn văn bản 1 theo tần suất xuất hiện
Trang 263.1.1 Mô hình Boolean
Một mô hình biểu diễn vector với hàm f cho ra giá trị rời rạc với duy nhất hai giá trị đúng và sai (true và false, hoặc 0 và 1) gọi là mô hình Boolean Hàm f tương ứng với thuật ngữ t i sẽ cho ra giá trị đúng nếu và chỉ nếu thuật ngữ t i xuấthiện trong văn bản đó
Mô hình Boolean được định nghĩa như sau:
Giả sử có một cơ sở dữ liệu gồm m văn bản, D = {d 1 , d 2 ,… d m } Mỗi văn bản được biểu diễn dưới dạng một vector gồm n thuật ngữ T = {t 1 , t 2 ,…t n } Gọi W = {w ij } là ma trận trọng số, trong đó w ij là giá trị trọng số của thuật ngữ t i trong văn bản d j
Mô hình Boolean là mô hình đơn giản nhất được xác định như sau:
trong mÆt
cã nÕu
0
d t
1
3.1.2 Mô hình tần suất
Trong mô hình tần suất, ma trận W = {w ij } được xác định dựa trên tần suất xuất hiện của thuật ngữ t i trong văn bản d j hoặc tần suất xuất hiện của thuật ngữ t i
trong toàn bộ cơ sở dữ liệu
a Phương pháp dựa trên tần suất thuật ngữ (TF – Term Frequency)
Các giá trị w ij được tính dựa trên tần suất (hay số lần) xuất hiện của thuật ngữ
trong văn bản Gọi f ij là số lần xuất hiện của thuật ngữ t i trong văn bản d j, khi đó
w ij được tính bởi một trong ba công thức:
2 w ij = 1 + log(f ij ) (3)
Trong phương pháp này, trọng số w ij tỷ lệ thuận với số lần xuất hiện của thuật
ngữ t i trong văn bản d j Khi số lần xuất hiện thuật ngữ t i trong văn bản d j càng lớn
thì điều đó có nghĩa là văn bản d j càng phụ thuộc vào thuật ngữ t i, hay nói cách
khác thuật ngữ t i mang nhiều thông tin trong văn bản d j
Trang 27Ví dụ, khi văn bản xuất hiện nhiều thuật ngữ máy tính, điều đó có nghĩa là văn bản đang xét chủ yếu liên quan đến lĩnh vực tin học.
Nhưng suy luận trên không phải lúc nào cũng đúng Một ví dụ điển hình là từ
“và” xuất hiện nhiều trong hầu hết các văn bản, nhưng trên thực tế từ này lại
không mang nhiều ý nghĩa như tần suất xuất hiện của nó Một phương pháp khác
ra đời khắc phục được nhược điểm của phương pháp TF, đó là phương pháp IDF
b Phương pháp dựa trên nghịch đảo tần suất văn bản (IDF – Inverse Document Frequency)
Trong phương pháp này, giá trị w ij được tính theo công thức sau:
liÖu tµi trong xuÊt hiÖn thuËt ng
nÕu
0
d t
h m
h
m
i ij
) log(
) log(
log
(5)
ở đó m là số lượng văn bản và h i là số văn bản mà thuật ngữ t i xuất hiện
Trọng số w ij trong công thức này được tính dựa trên độ quan trọng của thuật
ngữ t i trong văn bản d j Nếu t i xuất hiện trong càng ít văn bản, điều đó có nghĩa là
nếu nó xuất hiện trong d j thì trọng số của nó đối với văn bản d j càng lớn hay nó là
điểm quan trọng để phân biệt văn bản d j với các văn bản khác và hàm lượng
thông tin trong nó càng lớn Ví dụ các thuật ngữ “tiền đạo”, “hậu vệ”, “thủ môn” chỉ xuất hiện trong các bài báo nói về lĩnh vực bóng đá Như vậy, hàm lượng thông tin về bóng đá chứa đựng trong các thuật ngữ trên là rất lớn.
nÕu 1
0
h h
m f
i ij
ij
1 log
Trang 28Phương pháp này kết hợp được ưu điểm của cả hai phương pháp trên Trọng
số w ij được tính bằng tần suất xuất hiện của thuật ngữ t i trong văn bản d j và độ hiếm của thuật ngữ t i trong toàn bộ cơ sở dữ liệu
3.1.3 Phương pháp xử lý véc tơ thưa
Theo mô hình vector chuẩn, việc xử lý các phép toán trên vector sẽ phụ
thuộc vào độ lớn của ma trận W nm , ở đây n là số lượng thuật ngữ hay số chiều của vector và m là số lượng văn bản có trong cơ sở dữ liệu Trên thực tế, số lượng
thuật ngữ và số văn bản có thể lên đến vài chục nghìn Khi đó số lượng phần tử
trong ma trận W nm sẽ lên đến con số trăm triệu và việc lưu trữ ma trận W nm sẽ tốnquá nhiều tài nguyên bộ nhớ đồng thời các phép toán trên các vector sẽ rất phứctạp Để khắc phục vấn đề này có thể sử dụng kỹ thuật xử lý trên vector thưa thay
vì việc lưu trữ và xử lý trên các vector chuẩn[8]
Các điều kiện để có thể áp dụng phương pháp vector thưa:
1 Các vector thực sự thưa: số phần tử có trọng số khác 0 nhỏ hơn rất nhiều
so với số thuật ngữ trong cơ sở dữ liệu
1 Phép xử lý vector là đơn giản nhất: số vector cùng bị tác động trong một
phép xử lý cơ bản là nhỏ nhất Thường số vector bị tác động này được quyđịnh tối đa là 3 hoặc 4
Trên thực tế, số thuật ngữ xuất hiện trong một văn bản thường dưới 1000.Đối với các văn bản dài và đa chủ đề thì số thuật ngữ xuất hiện có thể nhiều hơn.Trong khi đó, số lượng thuật ngữ có trong từ điển có thể lên đến con số 100,000
từ Đây chính là điều kiện để áp dụng phương pháp vector thưa
Việc thỏa mãn điều kiện thứ hai còn phụ thuộc vào thuật toán được áp dụngcho quá trình xử lý văn bản
Một ví dụ biểu diễn vector thưa từ các vector chuẩn
Trang 29Đối với vector chuẩn:
w ij Máy tính Interne
t
Thịt gà Quần bò C
ỏ Lông cừu
3.2 Loại bỏ các từ dừng trong biểu diễn văn bản
Từ dừng (Stop Words) là các từ mang ít ý nghĩa trong xử lý vì nó xuất hiện
trong hầu hết các văn bản
Bằng phương pháp biểu diễn không gian vector, có thể nhận thấy số chiềucủa vector tương đối lớn Một phương pháp giúp làm giảm tương đối số chiềucủa vector là loại bỏ các từ dừng
3.2.1 Loại bỏ các từ dừng (Stop Words)
Trước hết có thể quan sát thấy rằng trong các ngôn ngữ tự nhiên, rất nhiều từđược dùng để biểu diễn cấu trúc câu nhưng hầu như không mang ý nghĩa về mặtnội dung, chẳng hạn các loại từ: giới từ, liên từ,…Các loại từ này xuất hiệnthường xuyên trong các văn bản nhưng mang rất ít thông tin về nội dung hay chủ
Trang 30bản, những từ đó được gọi là từ dừng (stop words) Ví dụ một bảng từ dừng sau:
Bảng 2: Một số từ dừng trong tiếng Việt
Có một số phương pháp để xác định các từ dừng Xuất phát từ định nghĩa từdừng là những từ không mang ý nghĩa vì xuất hiện hầu hết trong các văn bản, từ
đó có thể đưa ra một thuật toán phát hiện các từ dừng Trong thuật toán này cần
tự đặt ra một ngưỡng để phát hiện từ dừng, ví dụ nếu phát hiện thấy một từ xuấthiện trong quá 50% số văn bản thì có thể coi đó là từ dừng Thuật toán phát hiện
từ dừng được trình bày trong Hình 1
Ở đây TermSet là tập các từ khóa, StopWordsSet là tập các từ dừng và StopWordsThreshold là ngưỡng dừng Thường thì StopWordsThreshold được
giới hạn ở mức từ 0.4 đến 0.7 Đối với các cơ sở dữ liệu với các văn bản kích
thước lớn và tương đối đặc thù thì StopWordsThreshold có thể được đặt ở mức 0.7đến 0.8
Trang 31Một phương pháp khác được dùng để loại bỏ các từ ít ý nghĩa trong văn bảndựa vào định luật Zipf Định luật này được thực hiện dựa trên quan sát sau: Nếuquá trình xử lý dùng các đặc điểm giống và khác nhau giữa các từ trong văn bảnthì những từ có tần suất xuất hiện quá ít cũng mang lại rất ít giá trị trong quátrình xử lý Trong quá trình xử lý văn bản, các từ thuộc loại này xuất hiện tươngđối nhiều và chúng đóng một vai trò khá lớn vào nguyên nhân làm tăng số chiềucủa các vector văn bản Việc loại bỏ các từ này sẽ làm giảm đáng kể số chiều củavector văn bản và tăng hiệu suất trong quá trình xử lý.
Tiền đề cho lý luận loại bỏ những từ có tần suất thấp dựa vào quan sát tầnsuất xuất hiện của các từ trong tập văn bản gốc được đưa ra bởi Zipf năm 1949.Zipf được phát biểu dưới dạng một hiện tượng, nhưng thực tế nó đã được gọi là
, trừ hai biểu thức này cho nhau sẽ thu được một xấp xỉ đối với các từ
riêng biệt có tần suất xuất hiện là β.
Trang 32Tiến hành xấp xỉ giá trị của các từ trong tập hợp có thứ hạng cao nhất Tổngquát hơn, đó là các từ xuất hiện một lần trong tập hợp:
K 1
Do đó trong một số hệ thống người ta thường đặt ngưỡng xác suất thay vìngưỡng tần suất
Trang 33CHƯƠNG 4 Các thuật toán phân lớp văn bản4.1 Một số thuật toán
4.1.1 Thuật toán cây quyết định (Decision Tree)
Cây quyết định là một trong các phương pháp được sử dụng rộng rãi nhấttrong học quy nạp từ tập dữ liệu lớn Đây là phương pháp học xấp xỉ các hàmmục tiêu có giá trị rời rạc Một ưu điểm của phương pháp cây quyết định là có
thể chuyển dễ dàng sang dạng cơ sở tri thức là các luật Nếu - Thì (If - Then).
Phương pháp này được Mitchell đưa ra vào năm 1996[4] Trên cây gồm cácnút trong được gán nhãn bởi các khái niệm, các nhánh cây chứa nút được gánnhãn bằng các trọng số của khái niệm tương ứng đối với tài liệu mẫu và các látrên cây được gán nhãn bởi các nhãn nhóm Một hệ thống như vậy sẽ phân lớp
một tài liệu d j bởi phép thử đệ quy các trọng số mà các khái niệm được gán nhãncho các nút trong với vector d j cho đến khi với tới một nút lá, khi đó nhãn của
nút này được gán cho tài liệu d j Đa số các phương pháp phân lớp như vậy đượcbiểu diễn dưới dạng cây nhị phân
Hình 2: Cây quyết định phân lớp chủ đề “lúa mì”
1
Lúa mì
0 1
xuất khẩu
giạ Nông trại
Xuất khẩu
Trang 34dạng nhị phân bao gồm: “lúa mì”, “nông trại”, “giạ”, “xuất khẩu”, và “nông nghiệp” Cột cuối cùng trong bảng là nhãn đã được gán cho từng tài liệu tương ứng với chủ đề lúa mì Giá trị 1 đánh dấu tài liệu tương ứng thuộc chủ đề lúa mì, còn giá trị 0 mang ý nghĩa ngược lại tức là tài liệu này không thuộc chủ đề lúa mì.
Bảng 3: Các ví dụ huấn luyện dùng cho cây quyết định
Tài
liệu
Lúa mì
Nông trại
khẩu
Nông nghiệp
Lúa mì
Nếu (lúa mì = 0) và (xuất khẩu = 0) Thì class lúa mì = 0
Nếu (lúa mì = 0) và (xuất khẩu = 1) Thì class lúa mì = 1
Nếu(lúa mì = 1) và (nông trại = 0) và (xuất khẩu = 1) Thì class lúa mì=0
Nếu(lúa mì = 1) và (nông trại = 0) và (xuất khẩu = 0) Thì class lúa mì=1
Nếu(lúa mì = 1) và (nông trại = 1) và (giạ = 0) Thì class lúa mì = 0 Nếu(lúa mì = 1) và (nông trại = 1) và (giạ = 1) Thì class lúa mì = 1
Xét một tài liệu được biểu diễn nhị phân dưới dạng các khái niệm như sau:
d = {lúa mì, nông trại, giạ, xuất khẩu, nông nghiệp} = {1, 1, 0,0, 1}
Quá trình tìm kiếm lời giải trên cây quyết định sẽ như sau: