Nghiên cứu bài toán phân lớp văn bản tiếng Việt

Trong khi đó mã nguồn mà không có đích tới runtimethì được biết như mã nguồn không được quản lý unmanaged code.Thư viện lớp, một thành phần chính khác của .NET Framework là một tậphợp

Trang 1

MỤC LỤC

LỜI MỞ ĐẦU 5

Chương 1 Giới thiệu về DotNet và C# 7

1.1 Tổng quan về MS.NET 7

1.1.1 Nguồn gốc NET 7

1.1.2 Microsoft NET 8

1.1.3 Kiến trúc NET Framework 9

1.1.4 Common Language Runtime (CLR) 10

1.1.5 Thư viện lớp NET Framework 11

1.1.6 Phát triển ứng dụng Client 12

1.1.7 Biên dịch và MSIL 14

1.2 Tổng quan về C# 15

1.2.1 Giới thiệu về C# 15

1.2.2 Tại sao phải sử dụng ngôn ngữ C# 16

1.2.3 C# và những ngôn ngữ khác 20

CHƯƠNG 2 Giới thiệu về phân lớp văn bản 22

2.1 Một số khái niệm cơ bản 22

2.2 Bài toán phân lớp văn bản 24

CHƯƠNG 3 Các phương pháp biểu diễn văn bản 27

3.1 Mô hình không gian véc tơ (Space Vector Model) 27

3.1.1 Mô hình Boolean 28

3.1.2 Mô hình tần suất 28

3.1.3 Phương pháp xử lý véc tơ thưa 30

3.2 Loại bỏ các từ dừng trong biểu diễn văn bản 31

3.2.1 Loại bỏ các từ dừng (Stop Words) 31

3.2.2 Định luật Zipf 33

CHƯƠNG 4 Các thuật toán phân lớp văn bản 35

4.1 Một số thuật toán 35

Trang 2

4.2 Phương hướng giải quyết 45

3.2.1 Lựa chọn mô hình biểu diễn văn bản 45

4.2.2 Lựa chọn thuật toán phân lớp văn bản 46

4.2.3 Phương án tách thuật ngữ 48

4.2.4 Hiệu suất phân lớp văn bản 50

4.3 Một số kết quả thực nghiệm 51

4.3.1 Giới thiệu về chương trình phân lớp văn bản (Demo) 51

4.3.2 Kết quả thực nghiệm 64

4.3.2.1 Thuật toán K-NN 64

4.3.2.2 Thuật toán ID3: 65

KẾT LUẬN 67

1 Một số kết quả đạt được 67

2 Hướng phát triển 67

Trang 3

LỜI MỞ ĐẦU

Ngày nay, dạng dữ liệu văn bản là một trong những loại dữ liệu được dùngphổ biến nhất Nó có mặt ở nhiều nơi, nhiều lĩnh vực trong đời sống xã hội, tinhthần, kinh tế và khoa học… của con người Bên cạnh đó, sự phát triển nhanhchóng của mạng máy tính toàn cầu đã làm cho nhu cầu xử lý các văn bản ngàycàng trở nên cần thiết Bài toán xử lý văn bản đã được đặt ra khá lâu và cho đếnnay vẫn là một bài toán hay trong khai thác dữ liệu văn bản Văn bản có thể đượcchia ra hai dạng: bán cấu trúc và phi cấu trúc Dạng bán cấu trúc bao gồm: e-mail, văn bản HTML,… còn dạng phi cấu trúc có thể kể đến như các văn bảntext Có nhiều cách quan niệm về lĩnh vực xử lý văn bản, Lewis [6] đã chia ra hai

nhóm lĩnh vực chính là phân lớp văn bản (Text Classfication) gồm các công việc

xác định văn bản hoặc một phần của văn bản vào một hay nhiều lớp xác định

trước và Hiểu văn bản (Text Understanding) bao gồm các công việc phức tạp

hơn để xử lý nội dung của văn bản như tóm tắt văn bản (Text Sumarization), chắtlọc thông tin (Text Extraction)…Trong đó, bài toán phân lớp văn bản là tiền đềcho các bài toán sau, hơn nữa nó là bài toán quan trọng quyết định thành công

của các bài toán còn lại Với những lý đó, em quyết định chọn đồ án: “Nghiên cứu bài toán phân lớp văn bản tiếng Việt ” nhằm góp một phần nhỏ trong việc

khai phá dữ liệu văn bản

Đồ án này được chia thành 4 chương:

 Chương 1: Giới thiệu sơ qua về DotNet và ngôn ngữ lập trình C#

 Chương 2: Nhắc lại một vài khái niệm cơ bản liên quan đến văn bản

và trình bày cụ thể thế nào là bài toán phân lớp văn bản Ở đây, emđưa ra khái niệm độ liên quan giữa các văn bản và đó chính là cơ sởcủa sự phân lớp các văn bản sau này

 Chương 3: Mô tả các phương pháp biểu diễn văn bản để tạo sự thuận

Trang 4

Trong chương này, em cũng trình bày những ưu, nhược điểm của cácphương pháp, để rồi từ đó đưa ra sự lựa chọn thích hợp

 Chương 4: trình bày các thuật toán phân lớp văn bản thường gặp,chẳng hạn: thuật toán cây quyết định, thuật toán k-láng giềng gầnnhất,….và em đưa ra hướng giải quyết cụ thể từ các lý thuyết đã trìnhbày

Tuy nhiên, đối với việc xử lý tiếng Việt, em chưa đề cập sâu được mà chỉ đưa ra

ý tưởng để giải quyết Cuối cùng, em xin chân thành cám ơn thầy giáoThS.Nguyễn Đình Dũng đã cung cấp những kiến thức nền tảng, cơ bản và cácgợi ý để hoàn thành đồ án này

Sinh viên thực hiện:

Trần Hải Thanh

Trang 5

Chương 1 Giới thiệu về DotNet và C#

1.1 Tổng quan về MS.NET

1.1.1 Nguồn gốc NET

Đầu năm 1998, sau khi hoàn tất phiên bản Version 4 của InternetInformation Server(IIS), các đội ngũ lập trình ở Microsoft nhận thấy họ còn rấtnhiều sáng kiến để kiện toàn IIS Họ bắt đầu xây dựng một kiến trúc mới trên nềntảng ý tưởng đó và đặt tên là Next Generation Windows Services (NGWS)

Sau khi Visual Basic được trình làng vào cuối 1998, dự án kế tiếp mangtên Visual Studio 7 được xác nhập vào NGWS Đội ngũ COM+/MTS góp vàomột universal runtime cho tất cả ngôn ngữ lập trình chung trong Visual Studio,

và tham vọng của họ cung cấp cho các ngôn ngữ lập trình của các công ty khácdùng chung luôn Công việc này được xúc tiến một cách hoàn toàn bí mật mãicho đến hội nghị Professional Developers’ Conference ở Orlado vào tháng7/2000 Đến tháng 11/2000 thì Microsoft đã phát hành bản Beta 1 của NET gồm

3 đĩa CD Tính đến lúc này thì Microsoft đã làm việc với NET gần 3 năm rồi, do

đó bản Beta 1 này tương đối vững chắc

.NET mang dáng dấp của những sáng kiến đã được áp dụng trước đây nhưcode trong UCSD Pascal cho đến Java Virtual Machine Có điều là Microsoftgóp nhặt những sáng kiến của người khác, kết hợp với sáng kiến của chính mình

để làm nên một sản phẩm hoàn chỉnh từ bên trong lẫn bên ngoài Hiện tạiMicrosoft đã công bố phiên bản release của NET

Thật sự Microsoft đã đặt cược vào NET vì theo thông tin của công ty, đãtập trung 80% sức mạnh của Microsoft để nghiên cứu và triển khai NET (baogồm nhân lực và tài chính ?), tất cả các sản phẩm của Microsoft sẽ được chuyểnqua NET

Trang 6

1.1.2 Microsoft NET

Microsoft NET gồm 2 phần chính: Framework và Integrate DevelopmentEnvironment (IDE) Framework cung cấp những gì cần thiết và căn bản, chữFramework có nghĩa là khung hay khung cảnh trong đó ta dùng những hạ tầng cơ

sở theo một qui ước nhất định để công việc được trôi chảy IDE thì cung cấp mộtmôi trường giúp chúng ta triển khai dễ dàng, và nhanh chóng các ứng dụng dựatrên nền tảng NET Nếu không có IDE chúng ta cũng có thể Microsoft NET 1.0Ngôn Ngữ Lập Trình C# dùng một trình soạn thảo ví như Notepad hay bất cứtrình soạn thảo văn bản nào và sử dụng command line để biên dịch và thực thi,tuy nhiên việc này mất nhiều thời gian Tốt nhất là chúng ta dùng IDE phát triểncác ứng dụng, và cũng là cách dễ sử dụng nhất

Thành phần Framework là quan trọng nhất NET là cốt lõi và tinh hoa củamôi trường, còn IDE chỉ là công cụ để phát triển dựa trên nền tảng đó thôi Trong.NET toàn bộ các ngôn ngữ C#, Visual C++ hay Visual Basic.NET đều dùngcùng một IDE

Tóm lại Microsoft NET là nền tảng cho việc xây dựng và thực thi các ứngdụng phân tán thế hệ kế tiếp Bao gồm các ứng dụng từ client đến server và cácdịch vụ khác Một số tính năng của Microsoft NET cho phép những nhà pháttriển sử dụng như sau:

 Một mô hình lập trình cho phép nhà phát triển xây dựng các ứng dụngdịch vụ web và ứng dụng client với Extensible Markup Language (XML)

 Tập hợp dịch vụ XML Web, như Microsoft NET My Services chophép nhà phát triển đơn giản và tích hợp người dùng kinh nghiệm

 Cung cấp các server phục vụ bao gồm: Windows 2000, SQL Server vàBizTalk

 Server, tất cả điều tích hợp, hoạt động, và quản lý các dịch vụ XMLWeb và các ứng dụng

Trang 7

 Các phần mềm client như Windows XP và Windows CE giúp ngườiphát triển phân phối sâu và thuyết phục người dùng kinh nghiệm thông qua cácdòng thiết bị.

 Nhiều công cụ hỗ trợ như Visual Studio NET, để phát triển các dịch

vụ Web XML, ứng dụng trên nền Windows hay nền web một cách dể dàng vàhiệu quả

1.1.3 Kiến trúc NET Framework

.NET Framework là một platform mới làm đơn giản việc phát triển ứngdụng trong môi trường phân tán của Internet .NET Framework được thiết kế đầy

đủ để đáp ứng theo quan điểm sau:

 Để cung cấp một môi trường lập trình hướng đối tượng vững chắc,trong đó mã nguồn đối tượng được lưu trữ và thực thi một cách cục bộ Thực thicục bộ nhưng được phân tán trên Internet, hoặc thực thi từ xa

 Để cung cấp một môi trường thực thi mã nguồn mà tối thiểu được việcđóng gói phần mềm và sự tranh chấp về phiên bản

 Để cung cấp một môi trường thực thi mã nguồn mà đảm bảo việc thựcthi an toàn mã nguồn, bao gồm cả việc mã nguồn được tạo bởi hãng thứ ba haybất cứ hãng nào mà tuân thủ theo kiến trúc NET

 Để cung cấp một môi trường thực thi mã nguồn mà loại bỏ đượcnhững lỗi thực hiện các script hay môi trường thông dịch

 Để làm cho những người phát triển có kinh nghiệm vững chắc có thểnắm vững nhiều kiểu ứng dụng khác nhau Như là từ những ứng dụng trên nềnWindows đến những ứng dụng dựa trên web

 Để xây dựng tất cả các thông tin dựa trên tiêu chuẩn công nghiệp đểđảm bảo rằng mã nguồn trên .NET có thể tích hợp với bất cứ mã nguồnkhác NET Framework có hai thành phần chính: Common Language Runtime

Trang 8

thực thi, cung cấp các dịch vụ cốt lõi như: quản lý bộ nhớ, quản lý tiến trình, vàquản lý từ xa Ngoài ra nó còn thúc đẩy việc sử dụng kiểu an toàn và các hìnhthức khác của việc chính xác mã nguồn, đảm bảo cho việc thực hiện được bảomật và mạnh mẽ Thật vậy, khái niệm quản lý mã nguồn là nguyên lý nền tảngcủa runtime Mã nguồn mà đích tới runtime thì được biết như là mã nguồn đượcquản lý (managed code) Trong khi đó mã nguồn mà không có đích tới runtimethì được biết như mã nguồn không được quản lý (unmanaged code).

Thư viện lớp, một thành phần chính khác của NET Framework là một tậphợp hướng đối tượng của các kiểu dữ liệu được dùng lại, nó cho phép chúng ta

có thể phát triển những ứng dụng từ những ứng dụng truyền thống command-linehay những ứng dụng có giao diện đồ họa (GUI) đến những ứng dụng mới nhấtđược cung cấp bởi ASP.NET, như là Web Form và dịch vụ XML Web

1.1.4 Common Language Runtime (CLR)

Như đã đề cập thì CLR thực hiện quản lý bộ nhớ, quản lý thực thi tiếntrình, thực thi mã nguồn, xác nhận mã nguồn an toàn, biên dịch và các dịch vụ hệthống khác Những đặc tính trên là nền tảng cơ bản cho những mã nguồn đượcquản lý chạy trên CLR

Do chú trọng đến bảo mật, những thành phần được quản lý được cấpnhững mức độ quyền hạn khác nhau, phụ thuộc vào nhiều yếu tố nguyên thủycủa chúng như: liên quan đến Internet, hệ thống mạng trong nhà máy, hay mộtmáy tính cục bộ Điều này có nghĩa rằng, một thành phần được quản lý có thể cóhay không có quyền thực hiện một thao tác truy cập tập tin, thao tác truy cậpregistry, hay các chức năng nhạy cảm khác

CLR thúc đẩy việc mã nguồn thực hiện việc truy cập được bảo mật Ví dụ,người sử dụng giới hạn rằng việc thực thi nhúng vào trong một trang web có thểchạy được hoạt hình trên màn hình hay hát một bản nhạc, nhưng không thể truycập được dữ liệu riêng tư, tập tin hệ thống, hay truy cập mạng Do đó, đặc tínhbảo mật của CLR cho phép những phần mềm đóng gói trên Internet có nhiều đặctính mà không ảnh hưởng đến việc bảo mật hệ thống

Trang 9

CLR còn thúc đẩy cho mã nguồn được thực thi mạnh mẽ hơn bằng việcthực thi mã nguồn Type System (CTS) CTS đảm bảo rằng những mã nguồnđược quản lý thì được tự mô tả (selfdescribing) Sự khác nhau giữa Microsoft vàcác trình biên dịch ngôn ngữ của hãng thứ ba là việc tạo ra các mã nguồn đượcquản lý có thể thích hợp với CTS Điều này thì mã nguồn được quản lý có thể sửdụng những kiểu được quản lý khác và những thể hiện, trong khi thúc đẩynghiêm ngặt việc sử dụng kiểu dữ liệu chính xác và an toàn.

Thêm vào đó, môi trường được quản lý của runtime sẽ thực hiện việc tựđộng xử lý layout của đối tượng và quản lý những tham chiếu đến đối tượng, giảiphóng chúng khi chúng không còn được sử dụng nữa Việc quản lý bộ nhớ tựđộng này còn giải quyết hai lỗi chung của ứng dụng: thiếu bộ nhớ và tham chiếubộ nhớ không hợp lệ

Trong khi runtime được thiết kế cho những phần mềm của tương lai, nócũng hỗ trợ cho phần mềm ngày nay và trước đây Khả năng hoạt động qua lạigiữa mã nguồn được quản lý và mã nguồn không được quản lý cho phép ngườiphát triển tiếp tục sử dụng những thành phần cần thiết của COM và DLL

Runtime được thiết kế để cải tiến hiệu suất thực hiện Mặc dù CLR cungcấp nhiều các tiêu chuẩn dịch vụ runtime, nhưng mã nguồn được quản lý khôngbao giờ được dịch Có một đặc tính gọi là Just-in-Time (JIT) biên dịch tất cảnhững mã nguồn được quản lý vào trong ngôn ngữ máy của hệ thống vào lúc mà

nó được thực thi Khi đó, trình quản lý bộ nhớ xóa bỏ những phân mảnh bộ nhớnếu có thể được và gia tăng tham chiếu bộ nhớ cục bộ, và kết quả gia tăng hiệuquả thực thi

1.1.5 Thư viện lớp NET Framework

Thư viện lớp NET Framework là một tập hợp những kiểu dữ liệu đượcdùng lại và được kết hợp chặt chẽ với Common Language Runtime Thư viện lớp

là hướng đối tượng cung cấp những kiểu dữ liệu mà mã nguồn được quản lý của

Trang 10

học đặc tính mới của NET Framework Thêm vào đó, các thành phần của cáchãng thứ ba có thể tích hợp với những lớp trong NET Framework.

Cũng như mong đợi của người phát triển với thư viện lớp hướng đốitượng, kiểu dữ liệu NET Framework cho phép người phát triển thiết lập nhiềumức độ thông dụng của việc lập trình, bao gồm các nhiệm vụ như: quản lý chuỗi,thu thập hay chọn lọc dữ liệu, kết nối với cơ sở dữ liệu, và truy cập tập tin Ngoàinhững nhiệm vụ thông dụng trên Thư viện lớp còn đưa vào những kiểu dữ liệu

để hỗ trợ cho những kịch bản phát triển chuyên biệt khác Ví dụ người phát triển

có thể sử dụng NET Framework để phát triển những kiểu ứng dụng và dịch vụnhư sau:

Trong đó những lớp Windows Forms cung cấp một tập hợp lớn các kiểu

dữ liệu nhằm làm đơn giản việc phát triển các ứng dụng GUI chạy trên Windows.Còn nếu như viết các ứng dụng ASP.NET thì có thể sử dụng các lớp Web Formstrong thư viện NET Framework

1.1.6 Phát triển ứng dụng Client

Những ứng dụng client cũng gần với những ứng dụng kiểu truyền thốngđược lập trình dựa trên Windows Đây là những kiểu ứng dụng hiển thị nhữngcửa sổ hay những form trên desktop cho phép người dùng thực hiện một thao táchay nhiệm vụ nào đó Những ứng dụng client bao gồm những ứng dụng như xử

lý văn bản, xử lý bảng tính, những ứng dụng trong lĩnh vực thương mại như công

cụ nhập liệu, công cụ tạo báo cáo Những ứng dụng client này thường sử dụngnhững cửa sổ, menu, toolbar, button hay các thành phần GUI khác, và chúng

Trang 11

thường truy cập các tài nguyên cục bộ như là các tập tin hệ thống, các thiết bịngoại vi như máy in

Một loại ứng dụng client khác với ứng dụng truyền thống như trên làActiveX control (hiện nay nó được thay thế bởi các Windows Form control)được nhúng vào các trang web trên Internet Các ứng dụng này cũng giống nhưnhững ứng dụng client khác là có thể truy cập tài nguyên cục bộ

Trong quá khứ, những nhà phát triển có thể tạo các ứng dụng sử dụngC/C++ thông qua kết nối với MFC hoặc sử dụng môi trường phát triển ứng dụngnhanh (RAD: Rapid Application Development) .NET FrameWork tích hợp diệnmạo của những sản phẩm thành một Môi trường phát triển cố định làm đơn giảnmạnh mẽ sự phát triển của ứng dụng client

Những lớp NET Framework chứa trong NET Framework được thiết kếcho việc sử dụng phát triển các GUI Điều này cho phép người phát triển nhanhchóng và dễ dàng tạo các cửa sổ, button, menu, toolbar, và các thành phần kháctrong các ứng dụng được viết phục vụ cho lĩnh vực thương mại Ví dụ như, NETcung cấp những thuộc tính đơn giản để hiệu chỉnh các hiệu ứng visual liên quanđến form Trong vài trường hợp hệ điều hành không hỗ trợ việc thay đổi nhữngthuộc tính này một cách trực tiếp, và trong trường hợp này NET tự động tạo lạiform Đây là một trong nhiều cách mà NET tích hợp việc phát triển giao diệnlàm cho mã nguồn đơn giản và mạnh mẽ hơn

Không giống như ActiveX control, Windows Form control có sự truy cậpgiới hạn đến máy của người sử dụng Điều này có nghĩa rằng mà nguồn thực thinhị phân có thể truy cập một vài tài nguyên trong máy của người sử dụng (nhưcác thành phần đồ họa hay một số tập tin được giới hạn) mà không thể truy cậpđến những tài nguyên khác Nguyên nhân là sự bảo mật truy cập của mã nguồn.Lúc này các ứng dụng được cài đặt trên máy người dùng có thể an toàn để đưalên Internet

Trang 12

1.1.7 Biên dịch và MSIL

Trong NET Framework, chương trình không được biên dịch vào các tậptin thực thi mà thay vào đó chúng được biên dịch vào những tập tin trung giangọi là Microsoft Intermediate Language (MSIL) Những tập tin MSIL được tạo ra

từ C# cũng tương tự như các tập tin MSIL được tạo ra từ những ngôn ngữ kháccủa NET, platform ở đây không cần biết ngôn ngữ của mã nguồn Điều quantrọng chính yếu của CLR là chung (common), cùng một runtime hỗ trợ phát triểntrong C# cũng như trong VB.NET

Mã nguồn C# được biên dịch vào MSIL khi chúng ta build project MãMSIL này được lưu vào trong một tập tin trên đĩa Khi chúng ta chạy chươngtrình, thì MSIL được biên dịch một lần nữa, sử dụng trình biên dịch Just-In-Time(JIT) Kết quả là mã máy được thực thi bởi bộ xử lý của máy

Trình biên dịch JIT tiêu chuẩn thì thực hiện theo yêu cầu Khi một phươngthức được gọi, trình biên dịch JIT phân tích MSIL và tạo ra sản phẩm mã máy cóhiệu quả cao, mã này có thể chạy rất nhanh Trình biên dịch JIT đủ thông minh

để nhận ra khi một mã đã được biên dịch, do vậy khi ứng dụng chạy thì việc biêndịch chỉ xảy ra khi cần thiết, tức là chỉ biên dịch mã MSIL chưa biên dịch ra mãmáy Khi đó một ứng dụng NET thực hiện, chúng có xu hướng là chạy nhanh vànhanh hơn nữa, cũng như là những mã nguồn được biên dịch rồi thì được dùnglại

Do tất cả các ngôn ngữ NET Framework cùng tạo ra sản phẩm MSILgiống nhau, nên kết quả là một đối tượng được tạo ra từ ngôn ngữ này có thểđược truy cập hay được dẫn xuất từ một đối tượng của ngôn ngữ kháctrong NET Ví dụ, người phát triển có thể tạo một lớp cơ sở trong VB.NET vàsau đó dẫn xuất nó trong C# một cách dễ dàng

Trang 13

1.2 Tổng quan về C#

1.2.1 Giới thiệu về C#

Ngôn ngữ C# khá đơn giản, chỉ khoảng 80 từ khóa và hơn mười mấy kiểu

dữ liệu được xây dựng sẵn Tuy nhiên, ngôn ngữ C# có ý nghĩa cao khi nó thựcthi những khái niệm lập trình hiện đại C# bao gồm tất cả những hỗ trợ cho cấutrúc, thành phần component, lập trình hướng đối tượng Những tính chất đó hiệndiện trong một ngôn ngữ lập trình hiện đại Và ngôn ngữ C# hội đủ những điềukiện như vậy, hơn nữa nó được xây dựng trên nền tảng của hai ngôn ngữ mạnhnhất là C++ và Java

Ngôn ngữ C# được phát triển bởi đội ngũ kỹ sư của Microsoft, trong đóngười dẫn đầu là Anders Hejlsberg và Scott Wiltamuth Cả hai người này điều lànhững người nổi tiếng, trong đó Anders Hejlsberg được biết đến là tác giả củaTurbo Pascal, một ngôn ngữ lập trình PC phổ biến Và ông đứng đầu nhóm thiết

kế Borland Delphi, một trong những thành công đầu tiên của việc xây dựng môitrường phát triển tích hợp (IDE) cho lập trình client/server

Phần cốt lõi hay còn gọi là trái tim của bất cứ ngôn ngữ lập trình hướngđối tượng là sự hỗ trợ của nó cho việc định nghĩa và làm việc với những lớp.Những lớp thì định nghĩa những kiểu dữ liệu mới, cho phép người phát triển mởrộng ngôn ngữ để tạo mô hình tốt hơn để giải quyết vấn đề Ngôn ngữ C# chứanhững từ khóa cho việc khai báo những kiểu lớp đối tượng mới và những phươngthức hay thuộc tính của lớp, và cho việc thực thi đóng gói, kế thừa, và đa hình, bathuộc tính cơ bản của bất cứ ngôn ngữ lập trình hướng đối tượng

Trong ngôn ngữ C# mọi thứ liên quan đến khai báo lớp điều được tìm thấytrong phần khai báo của nó Định nghĩa một lớp trong ngôn ngữ C# không đòihỏi phải chia ra tập tin header và tập tin nguồn giống như trong ngôn ngữ C++.Hơn thế nữa, ngôn ngữ C# hỗ trợ kiểu XML, cho phép chèn các tag XML đểphát sinh tự động các document cho lớp

Trang 14

có thể kế thừa từ duy nhất một lớp cha, tức là không cho đa kế thừa như trongngôn ngữ C++, tuy nhiên một lớp có thể thực thi nhiều giao diện Khi một lớpthực thi một giao diện thì nó sẽ hứa là nó sẽ cung cấp chức năng thực thi giaodiện.

Trong ngôn ngữ C#, những cấu trúc cũng được hỗ trợ, nhưng khái niệm

về ngữ nghĩa của nó thay đổi khác với C++ Trong C#, một cấu trúc được giớihạn, là kiểu dữ liệu nhỏ gọn, và khi tạo thể hiện thì nó yêu cầu ít hơn về hệ điềuhành và bộ nhớ so với một lớp Một cấu trúc thì không thể kế thừa từ một lớp hayđược kế thừa nhưng một cấu trúc có thể thực thi một giao diện

Ngôn ngữ C# cung cấp những đặc tính hướng thành phần oriented), như là những thuộc tính, những sự kiện Lập trình hướng thành phầnđược hỗ trợ bởi CLR cho phép lưu trữ metadata với mã nguồn cho một lớp.Metadata mô tả cho một lớp, bao gồm những phương thức và những thuộc tínhcủa nó, cũng như những sự bảo mật cần thiết và những thuộc tính khác Mãnguồn chứa đựng những logic cần thiết để thực hiện những chức năng của nó Dovậy, một lớp được biên dịch như là một khối self-contained, nên môi trườnghosting biết được cách đọc metadata của một lớp và mã nguồn cần thiết màkhông cần những thông tin khác để sử dụng nó

(component-Một lưu ý cuối cùng về ngôn ngữ C# là ngôn ngữ này cũng hỗ trợ việctruy cập bộ nhớ trực tiếp sử dụng kiểu con trỏ của C++ và từ khóa cho dấu ngoặc[] trong toán tử Các mã nguồn này là không an toàn (unsafe) Và bộ giải phóngbộ nhớ tự động của CLR sẽ không thực hiện việc giải phóng những đối tượngđược tham chiếu bằng sử dụng con trỏ cho đến khi chúng được giải phóng

1.2.2 Tại sao phải sử dụng ngôn ngữ C#

Nhiều người tin rằng không cần thiết có một ngôn ngữ lập trình mới Java,C++, Perl, Microsoft Visual Basic, và những ngôn ngữ khác được nghĩ rằng đãcung cấp tất cả những chức năng cần thiết

Ngôn ngữ C# là một ngôn ngữ được dẫn xuất từ C và C++, nhưng nóđược tạo từ nền tảng phát triển hơn Microsoft bắt đầu với công việc trong C và

Trang 15

C++ và thêm vào những đặc tính mới để làm cho ngôn ngữ này dễ sử dụng hơn.Nhiều trong số những đặc tính này khá giống với những đặc tính có trong ngônngữ Java Không dừng lại ở đó, Microsoft đưa ra một số mục đích khi xây dựngngôn ngữ này Những mục đích này được được tóm tắt như sau:

 C# là ngôn ngữ đơn giản

 C# là ngôn ngữ hiện đại

 C# là ngôn ngữ hướng đối tượng

 C# là ngôn ngữ mạnh mẽ và mềm dẻo

 C# là ngôn ngữ có ít từ khóa

 C# là ngôn ngữ hướng module

 C# sẽ trở nên phổ biến

1.2.2.1 C# là ngôn ngữ đơn giản

C# loại bỏ một vài sự phức tạp và rối rắm của những ngôn ngữ như Java

và C++, bao gồm việc loại bỏ những macro, những template, đa kế thừa, và lớp

cơ sở ảo (virtual base class).Chúng là những nguyên nhân gây ra sự nhầm lẫn haydẫn đến những vấn đề cho các người phát triển C++ Nếu chúng ta là người họcngôn ngữ này đầu tiên thì chắc chắn là ta sẽ không trải qua những thời gian đểhọc nó! Nhưng khi đó ta sẽ không biết được hiệu quả của ngôn ngữ C# khi loại

bỏ những vấn đề trên

Ngôn ngữ C# đơn giản vì nó dựa trên nền tảng C và C++ Nếu chúng tathân thiện với C và C++ hoặc thậm chí là Java, chúng ta sẽ thấy C# khá giống vềdiện mạo, cú pháp, biểu thức, toán tử và những chức năng khác được lấy trực tiếp

từ ngôn ngữ C và C++, nhưng nó đã được cải tiến để làm cho ngôn ngữ đơn giảnhơn Một vài trong các sự cải tiến là loại bỏ các dư thừa, hay là thêm vào những

cú pháp thay đổi Ví dụ như, trong C++ có ba toán tử làm việc với các thành viên

là ::, , và -> Để biết khi nào dùng ba toán tử này cũng phức tạp và dễ nhầm lẫn

Trang 16

người mới học thì điều này và những việc cải tiến khác làm bớt nhầm lẫn và đơngiản hơn.

Ghi chú: Nếu chúng ta đã sử dụng Java và tin rằng nó đơn giản, thì chúng ta

cũng sẽ tìm thấy rằng C# cũng đơn giản Hầu hết mọi người đều không tin rằngJava là ngôn ngữ đơn giản Tuy nhiên, C# thì dễ hơn là Java và C++

1.2.2.2 C# là ngôn ngữ hiện đại

Điều gì làm cho một ngôn ngữ hiện đại? Những đặc tính như là xử lýngoại lệ, thu gom bộ nhớ tự động, những kiểu dữ liệu mở rộng, và bảo mật mãnguồn là những đặc tính được mong đợi trong một ngôn ngữ hiện đại C# chứatất cả những đặc tính trên

Ghi chú: Con trỏ được tích hợp vào ngôn ngữ C++ Chúng cũng là nguyên nhân

gây ra những rắc rối của ngôn ngữ này C# loại bỏ những phức tạp và rắc rối phátsinh bởi con trỏ Trong C#, bộ thu gom bộ nhớ tự động và kiểu dữ liệu an toànđược tích hợp vào ngôn ngữ, sẽ loại bỏ những vấn đề rắc rối của C++

1.2.2.3 C# là ngôn ngữ hướng đối tượng

Những đặc điểm chính của ngôn ngữ hướng đối tượng (Object-orientedlanguage) là sự đóng gói (encapsulation), sự kế thừa (inheritance), và đa hình(polymorphism) C# hỗ trợ tất Ngôn Ngữ C# cả những đặc tính trên

1.2.2.4 C# là ngôn ngữ mạnh mẽ và cũng mềm dẻo

Như đã đề cập trước, với ngôn ngữ C# chúng ta chỉ bị giới hạn ở chính bởibản thân hay là trí tưởng tượng của chúng ta Ngôn ngữ này không đặt nhữngràng buộc lên những việc có thể làm C# được sử dụng cho nhiều các dự án khácnhau như là tạo ra ứng dụng xử lý văn bản, ứng dụng đồ họa, bản tính, hay thậmchí những trình biên dịch cho các ngôn ngữ khác

1.2.2.5 C# là ngôn ngữ ít từ khóa

C# là ngôn ngữ sử dụng giới hạn những từ khóa Phần lớn các từ khóađược sử dụng để mô tả thông tin Chúng ta có thể nghĩ rằng một ngôn ngữ cónhiều từ khóa thì sẽ mạnh hơn Điều này không phải sự thật, ít nhất là trong

Trang 17

trường hợp ngôn ngữ C#, chúng ta có thể tìm thấy rằng ngôn ngữ này có thểđược sử dụng để làm bất cứ nhiệm vụ nào

1.2.2.6 C# là ngôn ngữ hướng module

Mã nguồn C# có thể được viết trong những phần được gọi là những lớp,những lớp này chứa các phương thức thành viên của nó Những lớp và nhữngphương thức có thể được sử dụng lại trong ứng dụng hay các chương trình khác.Bằng cách truyền các mẫu thông tin đến những lớp hay phương thức chúng ta cóthể tạo ra những mã nguồn dùng lại có hiệu quả

1.2.2.7 C# sẽ là một ngôn ngữ phổ biến

C# là một trong những ngôn ngữ lập trình mới nhất Vào thời điểm cuốnsách này được viết, nó không được biết như là một ngôn ngữ phổ biến Nhưngngôn ngữ này có một số lý do để trở thành một ngôn ngữ phổ biến Một trongnhững lý do chính là Microsoft và sự cam kết của NET

Microsoft muốn ngôn ngữ C# trở nên phổ biến Mặc dù một công tykhông thể làm một sản phẩm trở nên phổ biến, nhưng nó có thể hỗ trợ Cách đâykhông lâu, Microsoft đã gặp sự thất bại về hệ điều hành Microsoft Bob Mặc dùMicrosoft muốn Bob trở nên phổ biến nhưng thất bại C# thay thế tốt hơn để đemđến thành công sơ với Bob Thật sự là không biết khi nào mọi người trong công

ty Microsoft sử dụng Bob trong công việc hằng ngày của họ Tuy nhiên, với C#thì khác, nó được sử dụng bởi Microsoft Nhiều sản phẩm của công ty này đãchuyển đổi và viết lại bằng C# Bằng cách sử dụng ngôn ngữ này Microsoft đãxác nhận khả năng của C# cần thiết cho những người lập trình

Micorosoft .NET là một lý do khác để đem đến sự thành công củaC# .NET là một sự thay đổi trong cách tạo và thực thi những ứng dụng

Ngoài hai lý do trên ngôn ngữ C# cũng sẽ trở nên phổ biến do những đặctính của ngôn ngữ này được đề cập trong mục trước như: đơn giản, hướng đốitượng, mạnh mẽ

Trang 18

1.2.3 C# và những ngôn ngữ khác

Chúng ta đã từng nghe đến những ngôn ngữ khác như Visual Basic, C++

và Java Có lẽ chúng ta cũng tự hỏi sự khác nhau giữa ngôn ngữ C# và nhưngngôn ngữ đó Và cũng tự hỏi tại sao lại chọn ngôn ngữ này để học mà khôngchọn một trong những ngôn ngữ kia Có rất nhiều lý do và chúng ta hãy xem một

số sự so sánh giữa ngôn ngữ C# với những ngôn ngữ khác giúp chúng ta phầnnào trả lời được những thắc mắc

Microsoft nói rằng C# mang đến sức mạnh của ngôn ngữ C++ với sự dễdàng của ngôn ngữ Visual Basic Có thể nó không dễ như Visual Basic, nhưngvới phiên bản Visual Basic.NET (Version 7) thì ngang nhau Bởi vì chúng đượcviết lại từ một nền tảng Chúng ta có thể viết nhiều chương trình với ít mã nguồnhơn nếu dùng C#

Mặc dù C# loại bỏ một vài các đặc tính của C++, nhưng bù lại nó tránh đượcnhững lỗi mà thường gặp trong ngôn ngữ C++ Điều này có thể tiết kiệm đượchàng giờ hay thậm chí hàng ngày trong việc hoàn tất một chương trình Chúng ta

sẽ hiểu nhiều về điều này trong các chương của giáo trình

Một điều quan trọng khác với C++ là mã nguồn C# không đòi hỏi phải có tậptin header Tất cả mã nguồn được viết trong khai báo một lớp

Như đã nói ở bên trên .NET runtime trong C# thực hiện việc thu gom bộnhớ tự động Do điều này nên việc sử dụng con trỏ trong C# ít quan trọng hơntrong C++ Những con trỏ cũng có thể được sử dụng trong C#, khi đó nhữngđoạn mã nguồn này được đánh dấu là không an toàn (unsafe code)

C# cũng từ bỏ ý tưởng đa kế thừa như trong C++ Và sự khác nhau khác làC# đưa thêm thuộc tính vào trong một lớp giống như trong Visual Basic Vànhững thành viên của lớp được gọi duy nhất bằng toán tử “.” khác với C++ cónhiều cách gọi trong các tình huống khác nhau

Một ngôn ngữ khác rất mạnh và phổ biến là Java, giống như C++ và C# đượcphát triển dựa trên C Nếu chúng ta quyết định sẽ học Java sau này, chúng ta sẽtìm được nhiều cái mà học từ C# có thể được áp dụng

Trang 19

Điểm giống nhau C# và Java là cả hai cùng biên dịch ra mã trung gian: C#biên dịch ra MSIL còn Java biên dịch ra bytecode Sau đó chúng được thực hiệnbằng cách thông dịch hoặc biên dịch just-in-time trong từng máy ảo tương ứng.Tuy nhiên, trong ngôn ngữ C# nhiều hỗ trợ được đưa ra để biên dịch mã ngônngữ trung gian sang mã máy C# chứa nhiều kiểu dữ liệu cơ bản hơn Java vàcũng cho phép nhiều sự mở rộng với kiểu dữ liệu giá trị Ví dụ, ngôn ngữ C# hỗtrợ kiểu liệt kê (enumerator), kiểu này được giới hạn đến một tập hằng được địnhnghĩa trước, và kiểu dữ liệu cấu trúc đây là kiểu dữ liệu giá trị do người dùngđịnh nghĩa Chúng ta sẽ được tìm hiểu kỹ hơn về kiểu dữ liệu tham chiếu và kiểu

dữ liệu giá trị sẽ được trình bày trong phần sau

Tương tự như Java, C# cũng từ bỏ tính đa kế thừa trong một lớp, tuy nhiên

mô hình kế thừa đơn này được mở rộng bởi tính đa kế thừa nhiều giao diện

Trang 20

CHƯƠNG 2 Giới thiệu về phân lớp văn bản2.1 Một số khái niệm cơ bản

Trước hết chúng ta tìm hiểu một cách sơ lược các thuật ngữ và khái niệmđược trình bày trong đồ án này

Từ khoá, thuật ngữ và khái niệm

Từ khóa: theo định nghĩa chung nhất là một chuỗi các ký tự-số, ngoại trừ dãy

các khoảng trống (space, tab hoặc các ký tự xuống dòng…) hoặc các dấu chấmcâu (dấu chấm, dấu phẩy )

Thuật ngữ: là các từ khóa có nghĩa liên quan đến một lĩnh vực nào đó Ví dụ: “máy tính”, “công nghệ phần mềm”, “tính toán song song” Các thuật ngữ này thuộc về lĩnh vực “tin học”.

Khái niệm: là các thuật ngữ nhưng nó là sự khái quát hóa, tổng quát hóa của nhiều thuật ngữ khác Ví dụ khái niệm “máy tính” có thể chứa đựng các thuật ngữ khác như “bàn phím”, “chuột”, “phần cứng”, “phần mềm”, “CPU”,

“Internet”, “số hóa”,…các từ này có một phần liên quan đến khái niệm “máy tính”

Một khái niệm thường liên quan đến một dãy các thuật ngữ với mức độ khácnhau Một tiêu chuẩn để xem xét mức độ liên quan là xác xuất đồng thời của cặp

khái niệm – thuật ngữ trong các văn bản Khi thuật ngữ “máy tính” xuất hiện nhiều trong các văn bản chứa thuật ngữ “tin học” thì có nghĩa là độ liên quan (hay độ phụ thuộc) giữa cặp “tin học”-“máy tính” càng cao Một lý do để giải thích suy luận này là mức độ thay thế Ở đây, không chỉ hiểu đơn thuần giống

như sự thay thế 1-1 giữa hai khái niệm mà có thể xem như sự thay thế bộ phận

giữa cặp khái niệm-thuật ngữ

Mức độ liên quan giữa các cặp khái niệm-thuật ngữ thường được xác địnhbởi con người, nhưng cũng vì thế mà đại lượng này mang tính chủ quan và phụthuộc vào trình độ nhận thức, trình độ văn hóa, phong tục tập quán, và trình độchuyên môn của người xây dựng nên nó Về lý thuyết, có thể sử dụng máy tính

Trang 21

để tính mức độ liên quan giữa các cặp khái niệm-từ khóa, tuy nhiên công việcnày tương đối khó khăn vì cần có một tập dữ liệu đủ lớn để bao phủ toàn bộ cácthuật ngữ và đủ lớn để thu được độ đại lượng này một cách khách quan.

Độ liên quan giữa các văn bản, trọng số của thuật ngữ

Độ liên quan giữa hai văn bản là một đại lượng đo mức độ giống nhau về

mặt nội dung giữa hai văn bản đó Các phương pháp đánh giá độ liên quan đượcchia thành 2 loại: đánh giá theo tần suất xuất hiện thuật ngữ và đánh giá theo ngữnghĩa

Cách đánh giá độ liên quan theo tần suất xuất hiện của thuật ngữ không quantâm đến thứ tự sắp xếp của các thuật ngữ trong văn bản mà chỉ quan tâm xem nóxuất hiện bao nhiêu lần trong văn bản đó Ví dụ: phương pháp sử dụng hệ sốDice, hệ số Jaccard, hệ số cosine hay hệ số nạp chồng

Cách đánh giá theo ngữ nghĩa không chỉ chú ý đến số lần xuất hiện thuật ngữtrong văn bản mà còn chú ý cả đến sự kết cấu giữa các từ trong từng câu văn.Phương pháp đánh giá thuộc loại này thường phức tạp hơn, yêu cầu có các giảithuật phù hợp với từng ngôn ngữ cụ thể

Trong đồ án này, em chủ yếu quan tâm đến phương pháp đánh giá độ liênquan theo tần suất mà cụ thể là sử dụng công thức cosine

Trọng số của thuật ngữ là độ quan trọng hay hàm lượng thông tin mà thuật

ngữ đó mang lại cho văn bản Nó là đại lượng dùng để đo sự khác biệt giữa vănbản chứa nó với các văn bản khác Đại lượng này thường được xác định bằng tayhoặc đánh giá bằng số lần xuất hiện của thuật ngữ trong văn bản và số lần xuấthiện của thuật ngữ đó trong các văn bản khác Khi số lần xuất hiện của thuật ngữtrong văn bản càng nhiều thì thông tin mà nó mang lại càng lớn Khi số lần xuấthiện của nó trong các văn bản khác càng nhiều thì thông tin mà nó mang lại càng

ít Đại lượng này sẽ được trình bày cụ thể ở phần sau

Trang 22

Khai phá dữ liệu và khai phá tri thức trong cơ sở dữ liệu

Khai phá dữ liệu, hay data mining, được định nghĩa như quá trình phát hiệncác tri thức từ các dữ liệu lớn được lưu trữ trong cơ sở dữ liệu, data warehousehay các kho chứa thông tin khác[7]

Hiện nay, thuật ngữ khai phá dữ liệu được dùng quá quen thuộc và người tathường đồng nhất với một thuật ngữ khác là phát hiện tri thức trong cơ sở dữ liệu– Knowledge Descovery in Database (KDD) Thực ra, khai phá dữ liệu chỉ làmột bước trong các quá trình của KDD Ta có thể xem 7 công đoạn trong KDDsau đây:

1 Làm sạch dữ liệu: Loại bỏ nhiễu và các dữ liệu không cần thiết

2 Tích hợp dữ liệu: Tích hợp các nguồn dữ liệu khác nhau

3 Lựa chọn dữ liệu: Chọn lựa các dữ liệu liên quan tới quá trình phân tích

4 Chuyển đổi dữ liệu: Các dữ liệu được chuyển đổi sang các dạng phù hợpcho việc xử lý

5 Khai phá dữ liệu: Là một trong những bước quan trọng nhất, ở đây sửdụng những phương pháp thông minh để chắt lọc ra những mẫu dữ liệu

6 Ước lượng mẫu: Quá trình này nhằm đánh giá các kết quả tìm được thôngqua các độ đo nào đó

7 Biểu diễn tri thức: Sử dụng các kỹ thuật biểu diễn và thể hiện trực quancác tri thức cho người dùng

Trong các quá trình trên, khai phá dữ liệu là quá trình được coi là quan trọngnhất vì quá trình này sử dụng các phương pháp máy học cho việc xử lý dữ liệu

2.2 Bài toán phân lớp văn bản

Phân lớp văn bản được xem như là quá trình gán các văn bản vào một haynhiều lớp văn bản đã được xác định trước Người ta có thể phân lớp các văn bảnmột cách thủ công, tức là đọc từng văn bản một và gán nó vào nhóm phù hợp.Cách thức này sẽ tốn nhiều thời gian và chi phí nếu như số lượng văn bản lớn

Do vậy, cần phải có các phương pháp phân lớp tự động Để phân lớp tự động,

người ta sử dụng các phương pháp máy học (Machine Learning) trong trí tuệ

Trang 23

nhân tạo Ngoài ra, còn có các kỹ thuật đặc biệt hơn dùng cho phân lớp trong cáclĩnh vực đặc thù Một ví dụ điển hình là bài toán phân lớp công văn giấy tờ Hệthống sẽ tìm ra đặc thù của văn bản một cách tương đối máy móc, cụ thể là khitìm thấy ở lề trên bên trái có ký hiệu “NĐ” thì hệ thống sẽ phân văn bản đó vàonhóm “Nghị định”, tương tự như vậy với các ký hiệu “CV”, “QĐ” thì hệ thống sẽphân văn bản này vào nhóm “Công văn”, và “Quyết định” Các kỹ thuật nàytương đối hiệu quả song lại chỉ phù hợp cho các nhóm dữ liệu có tính chất đặcthù Khi phải làm việc với các văn bản ít đặc thù hơn thì cần phải xây dựng cácthuật toán phân lớp dựa trên nội dung của văn bản và so sánh độ phù hợp củachúng với các văn bản đã được phân lớp bởi con người Đây là tư tưởng chínhcủa các thuật toán máy học Trong mô hình này, các văn bản đã được phân lớpsẵn và hệ thống của chúng ta phải tìm cách để tách ra đặc thù của các văn bản

thuộc mỗi nhóm riêng biệt Tập văn bản mẫu dùng để huấn luyện gọi là tập huấn luyện (train set) hay tập mẫu (pattern set), quá trình phân lớp văn bản bằng tay gọi là quá trình huấn luyện (training), còn quá trình máy tự tìm đặc thù của các nhóm gọi là quá trình học (learning) Sau khi máy đã học xong, người dùng sẽ

đưa các văn bản mới vào và nhiệm vụ của máy là tìm ra xem văn bản đó phù hợpnhất với nhóm nào mà con người đã huấn luyện nó

Trong phân lớp văn bản, sự phụ thuộc của một văn bản vào một nhóm có thể

là các giá trị rời rạc đúng và sai (true hoặc false, để hiểu rằng văn bản đó thuộc

hay không thuộc một nhóm nào đó) hoặc các giá trị liên tục (một số thực, chỉ rađộ phù hợp của văn bản với một nhóm nào đó) Khi câu trả lời đưa ra bắt buộc

phải là đúng hoặc sai thì giá trị liên tục có thể được rời rạc hóa bằng cách đặt ngưỡng Ngưỡng đặt ra tùy thuộc vào thuật toán và yêu cầu người dùng.

Quá trình phân lớp văn bản bao gồm các bước:

1 Đánh chỉ số: ở bước này, dữ liệu đầu vào sẽ là một văn bản và kết quả

đầu ra là một chuỗi các chỉ số thuật ngữ biểu diễn nội dung của vănbản đầu vào Bước này rất quan trọng vì nó quyết định tốc độ và độ

Trang 24

hóa các ký tự, tách từ và đánh chỉ số Trong các bước này thì bước

tách từ và đánh chỉ số là quan trọng nhất Tuy nhiên, cần phải chú ýđến tất cả các bước vì chúng đều quyết định tốc độ của cả quá trình

2 Xác định độ phù hợp:phân lớp văn bản cần phải có bước xử lý để chỉ

ra rằng văn bản đang được phân tích thuộc về một nhóm nào đó dựatrên nội dung của văn bản hay chuỗi các thuật ngữ là biểu diễn của

văn bản đó Bộ phận này gọi là bộ phân lớp (categorizer hay classifer).

3 của quá trình này chỉ ra độ phụ thuộc giữa văn bản đang phân tích vớimỗi nhóm có sẵn Đây có thể coi là bước mang tính quyết định trong

5 Phản hồi: Quá trình phản hồi đóng hai vai trò quan trọng trong hệ

thống văn bản Thứ nhất, khi phân lớp văn bản cần phải có một sốlượng lớn các văn bản đã được phân lớp bằng tay, các văn bản nàyđược sử dụng để làm mẫu huấn luyện nhằm hỗ trợ xây dựng bộ phânlớp Thứ hai, việc phân lớp văn bản này không dễ dàng thay đổi nhưquá trình phản hồi của bài toán tìm kiếm văn bản Thay vì vậy, ngườidùng có thể thông báo cho người bảo trì hệ thống về việc xoá, thêmhay sửa đổi các nhóm văn bản nào đó

Trang 25

CHƯƠNG 3 Các phương pháp biểu diễn văn bản3.1 Mô hình không gian véc tơ (Space Vector Model)

Cách biểu diễn văn bản thông dụng nhất là thông qua vector Đây là mộtcách biểu diễn tương đối đơn giản và hiệu quả Trước đây có nhiều bài báo nóirằng phương pháp này gây tốn kém chi phí lưu trữ và công sức xử lý, nhưng khicác phương pháp xử lý vector thưa được áp dụng thì các nhược điểm trên giảm đirất nhiều

Theo mô hình này, mỗi văn bản được biểu diễn thành một vector Mỗi thànhphần của vector là một thuật ngữ riêng biệt trong tập văn bản gốc và được gán

một giá trị là hàm f của từng thuật ngữ trong văn bản.

Xem xét các ví dụ sau:

Văn bản 1: “Máy tính có ở nhiều nơi Chúng tôi không thể sống nếu thiếu máy tính Cuộc sống của chúng tôi phụ thuộc nhiều vào máy tính”.

Có thể biểu diễn các văn bản trên dưới dạng các thuật ngữ và hàm f biểu diễn số

lần xuất hiện của thuật ngữ trong văn bản Cách biểu diễn này gọi là biểu diễnvăn bản theo tần suất xuất hiện

Bảng 1: Vector biểu diễn văn bản 1 theo tần suất xuất hiện

Trang 26

3.1.1 Mô hình Boolean

Một mô hình biểu diễn vector với hàm f cho ra giá trị rời rạc với duy nhất hai giá trị đúng và sai (true và false, hoặc 0 và 1) gọi là mô hình Boolean Hàm f tương ứng với thuật ngữ t i sẽ cho ra giá trị đúng nếu và chỉ nếu thuật ngữ t i xuấthiện trong văn bản đó

Mô hình Boolean được định nghĩa như sau:

Giả sử có một cơ sở dữ liệu gồm m văn bản, D = {d 1 , d 2 ,… d m } Mỗi văn bản được biểu diễn dưới dạng một vector gồm n thuật ngữ T = {t 1 , t 2 ,…t n } Gọi W = {w ij } là ma trận trọng số, trong đó w ij là giá trị trọng số của thuật ngữ t i trong văn bản d j

Mô hình Boolean là mô hình đơn giản nhất được xác định như sau:

trong mÆt

cã nÕu

0

d t

1

3.1.2 Mô hình tần suất

Trong mô hình tần suất, ma trận W = {w ij } được xác định dựa trên tần suất xuất hiện của thuật ngữ t i trong văn bản d j hoặc tần suất xuất hiện của thuật ngữ t i

trong toàn bộ cơ sở dữ liệu

a Phương pháp dựa trên tần suất thuật ngữ (TF – Term Frequency)

Các giá trị w ij được tính dựa trên tần suất (hay số lần) xuất hiện của thuật ngữ

trong văn bản Gọi f ij là số lần xuất hiện của thuật ngữ t i trong văn bản d j, khi đó

w ij được tính bởi một trong ba công thức:

2 w ij = 1 + log(f ij ) (3)

Trong phương pháp này, trọng số w ij tỷ lệ thuận với số lần xuất hiện của thuật

ngữ t i trong văn bản d j Khi số lần xuất hiện thuật ngữ t i trong văn bản d j càng lớn

thì điều đó có nghĩa là văn bản d j càng phụ thuộc vào thuật ngữ t i, hay nói cách

khác thuật ngữ t i mang nhiều thông tin trong văn bản d j

Trang 27

Ví dụ, khi văn bản xuất hiện nhiều thuật ngữ máy tính, điều đó có nghĩa là văn bản đang xét chủ yếu liên quan đến lĩnh vực tin học.

Nhưng suy luận trên không phải lúc nào cũng đúng Một ví dụ điển hình là từ

“và” xuất hiện nhiều trong hầu hết các văn bản, nhưng trên thực tế từ này lại

không mang nhiều ý nghĩa như tần suất xuất hiện của nó Một phương pháp khác

ra đời khắc phục được nhược điểm của phương pháp TF, đó là phương pháp IDF

b Phương pháp dựa trên nghịch đảo tần suất văn bản (IDF – Inverse Document Frequency)

Trong phương pháp này, giá trị w ij được tính theo công thức sau:

liÖu tµi trong xuÊt hiÖn thuËt ng

nÕu

0

d t

h m

h

m

i ij

) log(

log

(5)

ở đó m là số lượng văn bản và h i là số văn bản mà thuật ngữ t i xuất hiện

Trọng số w ij trong công thức này được tính dựa trên độ quan trọng của thuật

ngữ t i trong văn bản d j Nếu t i xuất hiện trong càng ít văn bản, điều đó có nghĩa là

nếu nó xuất hiện trong d j thì trọng số của nó đối với văn bản d j càng lớn hay nó là

điểm quan trọng để phân biệt văn bản d j với các văn bản khác và hàm lượng

thông tin trong nó càng lớn Ví dụ các thuật ngữ “tiền đạo”, “hậu vệ”, “thủ môn” chỉ xuất hiện trong các bài báo nói về lĩnh vực bóng đá Như vậy, hàm lượng thông tin về bóng đá chứa đựng trong các thuật ngữ trên là rất lớn.

nÕu 1

0

h h

m f

i ij

ij

1 log

Trang 28

Phương pháp này kết hợp được ưu điểm của cả hai phương pháp trên Trọng

số w ij được tính bằng tần suất xuất hiện của thuật ngữ t i trong văn bản d j và độ hiếm của thuật ngữ t i trong toàn bộ cơ sở dữ liệu

3.1.3 Phương pháp xử lý véc tơ thưa

Theo mô hình vector chuẩn, việc xử lý các phép toán trên vector sẽ phụ

thuộc vào độ lớn của ma trận W nm , ở đây n là số lượng thuật ngữ hay số chiều của vector và m là số lượng văn bản có trong cơ sở dữ liệu Trên thực tế, số lượng

thuật ngữ và số văn bản có thể lên đến vài chục nghìn Khi đó số lượng phần tử

trong ma trận W nm sẽ lên đến con số trăm triệu và việc lưu trữ ma trận W nm sẽ tốnquá nhiều tài nguyên bộ nhớ đồng thời các phép toán trên các vector sẽ rất phứctạp Để khắc phục vấn đề này có thể sử dụng kỹ thuật xử lý trên vector thưa thay

vì việc lưu trữ và xử lý trên các vector chuẩn[8]

Các điều kiện để có thể áp dụng phương pháp vector thưa:

1 Các vector thực sự thưa: số phần tử có trọng số khác 0 nhỏ hơn rất nhiều

so với số thuật ngữ trong cơ sở dữ liệu

1 Phép xử lý vector là đơn giản nhất: số vector cùng bị tác động trong một

phép xử lý cơ bản là nhỏ nhất Thường số vector bị tác động này được quyđịnh tối đa là 3 hoặc 4

Trên thực tế, số thuật ngữ xuất hiện trong một văn bản thường dưới 1000.Đối với các văn bản dài và đa chủ đề thì số thuật ngữ xuất hiện có thể nhiều hơn.Trong khi đó, số lượng thuật ngữ có trong từ điển có thể lên đến con số 100,000

từ Đây chính là điều kiện để áp dụng phương pháp vector thưa

Việc thỏa mãn điều kiện thứ hai còn phụ thuộc vào thuật toán được áp dụngcho quá trình xử lý văn bản

Một ví dụ biểu diễn vector thưa từ các vector chuẩn

Trang 29

Đối với vector chuẩn:

w ij Máy tính Interne

t

Thịt gà Quần bò C

ỏ Lông cừu

3.2 Loại bỏ các từ dừng trong biểu diễn văn bản

Từ dừng (Stop Words) là các từ mang ít ý nghĩa trong xử lý vì nó xuất hiện

trong hầu hết các văn bản

Bằng phương pháp biểu diễn không gian vector, có thể nhận thấy số chiềucủa vector tương đối lớn Một phương pháp giúp làm giảm tương đối số chiềucủa vector là loại bỏ các từ dừng

3.2.1 Loại bỏ các từ dừng (Stop Words)

Trước hết có thể quan sát thấy rằng trong các ngôn ngữ tự nhiên, rất nhiều từđược dùng để biểu diễn cấu trúc câu nhưng hầu như không mang ý nghĩa về mặtnội dung, chẳng hạn các loại từ: giới từ, liên từ,…Các loại từ này xuất hiệnthường xuyên trong các văn bản nhưng mang rất ít thông tin về nội dung hay chủ

Trang 30

bản, những từ đó được gọi là từ dừng (stop words) Ví dụ một bảng từ dừng sau:

Bảng 2: Một số từ dừng trong tiếng Việt

Có một số phương pháp để xác định các từ dừng Xuất phát từ định nghĩa từdừng là những từ không mang ý nghĩa vì xuất hiện hầu hết trong các văn bản, từ

đó có thể đưa ra một thuật toán phát hiện các từ dừng Trong thuật toán này cần

tự đặt ra một ngưỡng để phát hiện từ dừng, ví dụ nếu phát hiện thấy một từ xuấthiện trong quá 50% số văn bản thì có thể coi đó là từ dừng Thuật toán phát hiện

từ dừng được trình bày trong Hình 1

Ở đây TermSet là tập các từ khóa, StopWordsSet là tập các từ dừng và StopWordsThreshold là ngưỡng dừng Thường thì StopWordsThreshold được

giới hạn ở mức từ 0.4 đến 0.7 Đối với các cơ sở dữ liệu với các văn bản kích

thước lớn và tương đối đặc thù thì StopWordsThreshold có thể được đặt ở mức 0.7đến 0.8

Trang 31

Một phương pháp khác được dùng để loại bỏ các từ ít ý nghĩa trong văn bảndựa vào định luật Zipf Định luật này được thực hiện dựa trên quan sát sau: Nếuquá trình xử lý dùng các đặc điểm giống và khác nhau giữa các từ trong văn bảnthì những từ có tần suất xuất hiện quá ít cũng mang lại rất ít giá trị trong quátrình xử lý Trong quá trình xử lý văn bản, các từ thuộc loại này xuất hiện tươngđối nhiều và chúng đóng một vai trò khá lớn vào nguyên nhân làm tăng số chiềucủa các vector văn bản Việc loại bỏ các từ này sẽ làm giảm đáng kể số chiều củavector văn bản và tăng hiệu suất trong quá trình xử lý.

Tiền đề cho lý luận loại bỏ những từ có tần suất thấp dựa vào quan sát tầnsuất xuất hiện của các từ trong tập văn bản gốc được đưa ra bởi Zipf năm 1949.Zipf được phát biểu dưới dạng một hiện tượng, nhưng thực tế nó đã được gọi là

 , trừ hai biểu thức này cho nhau sẽ thu được một xấp xỉ đối với các từ

riêng biệt có tần suất xuất hiện là β.

Trang 32

Tiến hành xấp xỉ giá trị của các từ trong tập hợp có thứ hạng cao nhất Tổngquát hơn, đó là các từ xuất hiện một lần trong tập hợp:

K 1

Do đó trong một số hệ thống người ta thường đặt ngưỡng xác suất thay vìngưỡng tần suất

Trang 33

CHƯƠNG 4 Các thuật toán phân lớp văn bản4.1 Một số thuật toán

4.1.1 Thuật toán cây quyết định (Decision Tree)

Cây quyết định là một trong các phương pháp được sử dụng rộng rãi nhấttrong học quy nạp từ tập dữ liệu lớn Đây là phương pháp học xấp xỉ các hàmmục tiêu có giá trị rời rạc Một ưu điểm của phương pháp cây quyết định là có

thể chuyển dễ dàng sang dạng cơ sở tri thức là các luật Nếu - Thì (If - Then).

Phương pháp này được Mitchell đưa ra vào năm 1996[4] Trên cây gồm cácnút trong được gán nhãn bởi các khái niệm, các nhánh cây chứa nút được gánnhãn bằng các trọng số của khái niệm tương ứng đối với tài liệu mẫu và các látrên cây được gán nhãn bởi các nhãn nhóm Một hệ thống như vậy sẽ phân lớp

một tài liệu d j bởi phép thử đệ quy các trọng số mà các khái niệm được gán nhãncho các nút trong với vector d j cho đến khi với tới một nút lá, khi đó nhãn của

nút này được gán cho tài liệu d j Đa số các phương pháp phân lớp như vậy đượcbiểu diễn dưới dạng cây nhị phân

Hình 2: Cây quyết định phân lớp chủ đề “lúa mì”

1

Lúa mì

0 1

xuất khẩu

giạ Nông trại

Xuất khẩu

Trang 34

dạng nhị phân bao gồm: “lúa mì”, “nông trại”, “giạ”, “xuất khẩu”, và “nông nghiệp” Cột cuối cùng trong bảng là nhãn đã được gán cho từng tài liệu tương ứng với chủ đề lúa mì Giá trị 1 đánh dấu tài liệu tương ứng thuộc chủ đề lúa mì, còn giá trị 0 mang ý nghĩa ngược lại tức là tài liệu này không thuộc chủ đề lúa mì.

Bảng 3: Các ví dụ huấn luyện dùng cho cây quyết định

Tài

liệu

Lúa mì

Nông trại

khẩu

Nông nghiệp

Lúa mì

Nếu (lúa mì = 0) và (xuất khẩu = 0) Thì class lúa mì = 0

Nếu (lúa mì = 0) và (xuất khẩu = 1) Thì class lúa mì = 1

Nếu(lúa mì = 1) và (nông trại = 0) và (xuất khẩu = 1) Thì class lúa mì=0

Nếu(lúa mì = 1) và (nông trại = 0) và (xuất khẩu = 0) Thì class lúa mì=1

Nếu(lúa mì = 1) và (nông trại = 1) và (giạ = 0) Thì class lúa mì = 0 Nếu(lúa mì = 1) và (nông trại = 1) và (giạ = 1) Thì class lúa mì = 1

Xét một tài liệu được biểu diễn nhị phân dưới dạng các khái niệm như sau:

d = {lúa mì, nông trại, giạ, xuất khẩu, nông nghiệp} = {1, 1, 0,0, 1}

Quá trình tìm kiếm lời giải trên cây quyết định sẽ như sau:

Định dạng
Số trang	68
Dung lượng	752 KB