Trong đề tài thực tập này, em xin trình ày các nghiên c u t ng qu n củ em về Text Mining và các ng ụng củ n về thu thập thông tin từ dữ liệu văn bản và phân loại dữ liệu văn bản.. Vậy t
Trang 1MỤC LỤC
MỤC LỤC 1
BẢNG DANH MỤC HÌNH HOẠ 4
LỜI GIỚI THIỆU 5
I Đặt vấn đề 9
II Cơ sở lý thuyết 11
1 Khái niệm Text Mining 11
Kh i phá ữ liệu D t Mining 11
Kh i phá ữ liệu v n ản Text Mining 13
2 Bài toán phân loại v n ản Text c tegoriz tion 17
Khái niệm phân loại v n ản 17
Các phương pháp phân loại v n ản 18
1 Sử ụng từ điển phân cấp chủ đề 18
1.1 Giải thuật phân lớp và phân cấp chủ đề 19
1.2 Sự phù hợp và sự phân iệt củ các trọng số 20
2 Phương pháp cây quyết định Decision tree 22
3 Bài toán thu thập thông tin Inform tion retriev l - IR) 24
Khái niệm thu thập thông tin 24
Các phương pháp thu thập thông tin 26
1 Các phương pháp chuẩn 27
1.1 Mô hình Boole n 27
1.2 Mô hình không gi n vec-tơ Vector space model - VSM) 30 .2 Các phương pháp ự trí tuệ nhân tạo AI-based method) 36
2.1 Kỹ thuật mạng Nơ-ron (Neural network) 37
Trang 24 Một số công cụ phân tích v n ản tiếng Anh 43
III Các giải pháp áp ụng cho Vietn mese Text Mining 48
1 Đặc trưng củ v n ản tiếng Việt 48
Các đơn vị củ tiếng Việt 48
1 Tiếng và đặc điểm củ tiếng 48
1.1 Tiếng và giá trị ngữ âm 48
1.2 Tiếng và giá trị ngữ ngh 48
1.3 Tiếng và giá trị ngữ pháp 49
2 Từ và các đặc điểm củ từ 50
2.1 Từ là đơn vị nh nhất để đặt câu 50
2.2 Từ c ngh hoàn ch nh và cấu tạo n định 50
3 Câu và các đặc điểm củ câu 51
3.1 Câu c ý ngh hoàn ch nh 51
3.2 Câu c cấu tạo đ ạng 51
Các phương tiện ngữ pháp củ tiếng việt 51
1 Trong phạm vi cấu tạo từ 51
2 Trong phạm vi cấu tạo câu 52
c Từ tiếng việt 53
c.1 Từ đơn - từ gh p 53
c.2 Từ loại 54
c.3 Dùng từ cấu tạo ngữ 55
Câu tiếng việt 56
1 Câu đơn 57
d.2 Câu gh p 58
Trang 32.1 Câu gh p song song 58
2.2 Câu gh p qu lại 59
d.2.3 Các thành ph n câu 59
e Các đặc điểm chính tả và v n ản tiếng Việt 60
2 Các giải pháp, đánh giá hiệu quả, đề r giải pháp cho phân tích v n ản tiếng Việt 61
Bài toán phân loại v n ản tiếng Việt 61
Bài toán thu thập thông tin từ v n ản tiếng Việt 62
IV Xây ựng thử chương trình tách thuật ngữ tiếng Việt theo phương pháp c điển 64
1 Chương trình và ài toán được giải quyết 64
2 Kết quả chạy chương trình 64
TÀI LIỆU THAM KHẢO 66
PHỤ LỤC 67
Các thông tin về áo cáo 67
Cách chạy chương trình emo 67
TỪ ĐIỂN THUẬT NGỮ 69
Trang 4BẢNG DANH MỤC HèNH HOẠ
Hình 1: Một ví ụ về cây quyết định
Hình 2 Mô hình thu thập thông tin chuẩn
Hình 3 Đồ thị iểu iễn các vec-tơ củ ài áo D 1 và D 2
Hình 4: Đồ thị iểu iễn qu n hệ giữ truy vấn query và các tài liệu D1, D2
Hình 5 Mạng nơ-ron: toán tử AND và toán tử OR
Hình 6 Mạng nơ-ron với lớp ẩn: toán tử NOR
Hình 7: Mô hình iểu iễn mạng nơ-ron
Hình 8: Minh hoạ công cụ TextAn lyst
Hình 9: Minh hoạ công cụ TextAn lyst nhỳng trờn Internet Explorer
Trang 5LỜI GIỚI THIỆU
Ngày n y, cơ sở ữ liệu đã trở thành một ph n không thể thiếu củ xã hội loài người Trong k nguyên thông tin này, các thông tin được lưu trữ và
xử lý hiệu quả h u hết là thông qu cơ sở ữ liệu S u g n 50 n m phát triển,
cơ sở ữ liệu đã c những ước tiến vô cùng qu n trọng trong lịch sử Công nghệ thông tin Từ mô hình Cơ sở ữ liệu qu n hệ o E.Co đề xuất từ những n m 60, các ng ụng công nghệ thông tin đã thực sự iờ n viờ c lưu trữ ữ liệu trở thành lưu trữ thông tin thông qu các công cụ quản lý và xử lý
cơ sở ữ liệu Ngày n y, nhu c u lưu trữ và xử lý thông tin c mặt ở kh p mọi nơi Ở ất c một t ch c nào, với ất kỳ một mô hình h y quy mô nào
c ng đều c những nhu c u về lưu trữ và kh i thác thông tin Khái niệm thông tin ở đây o gồm cả thông tin về nội tại củ t ch c và thông tin về môi trường và t ch c hoạt động
Việc nghiên c u lý thuyết về cơ sở ữ liờu đ trở thành một ngành kho học ng ụng Do những tiến ộ vượt ậc trong nghiên c u lý thuyết
c ng như cài đặt thực tế, các hệ quản trị cơ sở ữ liệu đã trở thành nền tảng,
là ph n cốt yếu trong hoạt động củ các t ch c Nhờ ch ng mà các t ch c hoạt động hiệu quả hơn Việc ng ụng cơ sở ữ liệu đ giỳp làm giảm rất nhiều công s c l o động củ con người và nhờ đ hiệu suất l o động củ họ
c o hơn Hệ quản trị cơ sở ữ liệu ngày n y không c n đơn thu n ch là một
cơ cấu cho ph p lưu trữ số liệu mà c n k m theo đ là các công cụ, tiện ích
h y các phương pháp luận để chuyển đ i số liệu thành thông tin Tập tất cả các công cụ o người ùng phát triển hoặc o các nhà cung cấp ph n mềm tung r để phục vụ cho mục đích hoạt động củ t ch c, được tối ưu theo những yêu c u nghiệp vụ củ t ch c được gọi là các ng ụng h trợ xử lý tác nghiệp C o hơn nữ , khi các nhu c u sử ụng thông tin ở m c c o cấp
Trang 6hơn để h trợ các nhu c u phân tích củ các nhà lãnh đạo, các nhà lập chiến lược trong một t ch c, một loại ng ụng mới r đời phục vụ cho các mục đích này với tên gọi “hệ phân tích và xử lý trực tuyến” Ở các ng ụng này, thông tin được lưu trữ, xử lý và kết xuất theo các mục đích cụ thể ưới ạng hướng chủ đề Nhờ các thông tin ở ạng này mà các phân tích, các nhà lãnh
c thể đư r các quyết định hoạt động một cách hiệu quả nhất
Khi các mô hình ữ liệu phát triển ở m c độ c o hơn, các thông tin lưu trữ ưới ạng ữ liệu phong ph đ ạng hơn, người t nhận r c n rất nhiều tri th c c n tiềm ẩn trong ữ liệu mà các m c phân tích trước đ không phát hiện r Lý o củ vấn đề này là các phân tích trước đ ch mới hướng mục đích cụ thể củ con người Các mục đích này là cố định và các phân tích này hoàn toàn o con người đư r trong hoàn cảnh cụ thể Khi các thông tin phản ánh môi trường th y đ i thì con người không nhận r để điều ch nh các phân tích và đư r các phân tích mới Các tri th c đ c thể là hướng kinh
o nh, các ự áo thị trường, c ng c thể là mối qu n hệ giữ các trường
h y nội ung ữ liệu mà con người không hình ung r được khi tiến hành
mô hình hoá các hệ thống Vì thế, ngành nghiên c u về Phát hiện tri th c trong cơ sở ữ liệu Knowle ge Discovery in D t se r đời với ài toán
Kh i phá ữ liệu D t Mining làm trung tâm nghiên c u Các tư tưởng nghiên c u và các thuật toán về Trí tuệ nhân tạo và Hệ chuyên gi đã được
áp ụng và thu được những kết quả rất qu n trọng như: cây quyết định, mạng nơ-ron
H u hết các thuật toán nghiên c u cho D t Mining là tập trung trờn c c nguụ n số liệu c cấu tr c structure t Nhưng ph n lớn thông tin mà
ch ng t lưu trữ và tr o đ i h ng ngày lại được lưu trữ ưới các ạng ữ liệu
án cấu tr c semi-structure t hoặc phi cấu tr c non-structured data)
Trang 7Ví ụ như trong các nhà xuất ản, hệ thống các tr ng we trờn một
we site, tập các công v n, giấy tờ, áo cáo, thư tín điện tử trong một công
ty Thậm chí t c thể nhận thấy r ng trong mụ t hờ quản trị cơ sở ữ liệu nơi mà ữ liệu được lưu trữ c cấu tr c thì ữ liệu kiểu text v n chiờ m mụ t
t lệ c o Do đ một vấn đề đặt r là làm thế nào để c thể tìm kiếm và kh i thác tri th c từ nguồn ữ liệu như vậy Các kỹ thuật để giải quyết vấn đề này được gọi là kỹ thuật TextMining h y Kh i phá ữ liệu v n ản Bài toán
Kh i phá ữ liệu v n ản không ch tập trung vào một h y một nh m c c thông tin được lưu trữ ưới ạng v n ản, vấn đề đặt r là làm thế nào c thể
Kh i phá được các thông tin theo lịch sử, từ quá kh hướng ự đoán tương
l i Những tri th c tưởng trừng như vô ích trong quá kh nhưng c thể được phát hiện để sử ụng cho các mục đích s u này
Một số ài toán qu n trọng trong Kh i phá ữ liệu v n ản h y được
x t đến như là các ài toán “Text Cl ssific tion”, “Text Sum riz tion”, và
“Text C tegoriz tion”
Trên thế giới đã c rất nhiều thành công trong đề tài phân lớp v n ản như các nghiên c u củ hãng IBM, trong các ph ng thí nghiệm ở MIT h y ở các viện nghiên c u củ các trường đại học ở Mỹ, Pháp, Nhật Bản, C n Tuy nhiên, các thành công đ chủ yếu tập trung vào vấn đề nghiên c u về các v n ản tiếng Anh, tiếng Pháp Những ngôn ngữ này là các ngôn ngữ tương đối thuận lợi khi xử lý
Hiện n y, chư c một công cụ nào được coi là hiệu quả trong l nh vực
kh i phá v n ản tiếng Việt Nền Công nghệ thông tin củ nước t được phát triển hết s c mạnh mẽ Do nhu c u hội nhập, nhu c u phát triển kinh tế, v n hoá, Xã hội ngày càng t ng, các thông tin được xử lý thông qu v n ản điện
tử, qu we , qu em il phát triển với tốc độ ch ng mặt Từ đ , nhu c u
Trang 8nghiên c u và xây ựng các công cụ Kh i phá ữ liệu v n ản tiếng Việt
đ ng được hết s c coi trọng
Trong đề tài thực tập này, em xin trình ày các nghiên c u t ng qu n
củ em về Text Mining và các ng ụng củ n về thu thập thông tin từ dữ
liệu văn bản và phân loại dữ liệu văn bản Mục đích củ đề tài là hướng tới
phát triển các công cụ phân loại v n ản tiếng Việt ở các nghiên c u s u trong đề tài luận v n tốt nghiệp
Em xin chân thành cảm ơn th y Nguyễn Ngọc Bỡnh đ giỳp em rất nhiều trong quá trình hướng ẫn em nghiên c u về đề tài Em xin cảm ơn
nh Lưu Anh Tuấn đ giỳp em một số định hướng trong quá trình nghiên
c u đề tài
Trang 9I Đặt vấn đề
Như ch ng t đã iết, h u hết các thông tin được tr o đ i hiện n y n m ưới ạng tài liệu v n ản Các thông tin đ c thể là các ài áo, các tài liệu kinh o nh, các thông tin kinh tế, các ài nghiên c u kho học Dù áp ụng
Cơ sở ữ liệu vào trong hoạt động củ t ch c là rất ph iến và đem lại nhiều lợi ích khi lưu trữ và xử lý, nhưng t không thể quên được r ng c n rất nhiều ạng thông tin khác được lưu trữ ưới ạng v n ản Thậm chí ng y
cả trong các thông tin được lưu trong các cơ sở ữ liệu thì ph n lớn trong số
ch ng c ng được t ch c ưới ạng v n ản Hiện n y, các t ch c đã áp ụng công nghệ thông tin vào quản lý hệ thống công v n giấy tờ, ví ụ các
hệ thống sử ụng Lotus No e Tuy nhiên đ ch thực sự là cách quản lý luồng ữ liệu v n ản, cung cấp các công cụ kho ch , c n ữ liệu vẫn thực
sự n m ưới ạng v n ản Ch ng t chư c các giải thuật phân loại, tìm kiếm tài liệu, các công cụ trích lọc thông tin nh m mục đích thống kê, phát hiện tri th c, r quyết định trực tiếp trên các nguồn ữ liệu kiểu này
Với thực tế đ , vấn đề đặt r là làm thế nào ch ng t c thể kh i thác được những thông tin hữu ích từ các nguồn tài liệu v n ản n i chung Các nguồn ữ liệu này phải được xử lý như thế nào để người ùng c thể c những công cụ tự động hoá trợ gi p trong việc phát hiện tri th c và kh i thác thông tin R ràng, ch ng t phải hiểu r ản chất củ ữ liệu v n ản, hiểu
r các đặc trưng củ các ữ liệu loại này để c thể c được những phương pháp luận c n thiết
Việc kh i thác thông tin từ các nguồn ữ liệu v n ản trong các t ch c Việt N m ch c ch n phải ự vào những kết quả nghiên c u về v n ản n i chung, về ữ liệu v n ản và các kỹ thuật xử lý đã được phát triờ n trờn thế
Trang 10giới Tuy nhiên, những v n ản tiếng Việt lại c những đặc trưng riêng củ
n T c thể nhận thấy được ng y sự khác iệt về mặt kí pháp, c pháp và ngữ pháp tiếng Việt trong các v n ản so với các ngôn ngữ ph iến trên thế giới như tiếng Anh, tiếng Pháp Vậy thì những đặc trưng này ảnh hưởng thế nào đến các kỹ thuật kh i phá ữ liệu v n ản, t c n phải c những ký thuật mới nào để c thể tận ụng được những ưu thế củ tiếng Việt c ng như giải quyết được những ph c tạp trong tiếng Việt
Để trả lời được những câu h i này, đồ án sẽ đi từ những ước nghiên
c u về Kh i phá ữ liệu v n ản, tìm hiểu những đặc trưng củ tiếng Việt, từ
đ đề r phương hướng gi p giải quyết ài toán phân loại v n ản tiếng Việt
ph c tạp ở các nghiên c u c o hơn Các kết quả củ nghiên c u trong đề tài thực tập này sẽ là nhưng ước tiến đ u tiên cho luận v n tốt nghiệp củ em
với đề tài “Phõn loại văn bản tiếng Việt bằng phương pháp phân tích cỳ
phỏp.”
Trang 11II Cơ sở lý thuyết
1 Khái niệm Text Mining
h i phá d liệu D t ining
Việc sử ụng cơ sở ữ liệu vào hoạt động củ một t ch c đã được phát triển trong v ng 60 n m trở lại đây Với ữ liệu được thu thập trong suốt quá trình hoạt động củ một t ch c, một nhu c u được đặt r là tìm kiếm và
kh i thác tri th c từ những ữ liệu đ Đ chính là xuất phát điểm củ ài toán Phát hiện tri th c từ cơ sở ữ liệu Người t nhận thấy r ng c rất nhiều tri th c mà ch ng t không lường trước đ ng c n tiềm ẩn trong ữ liệu, nhiệm vụ củ ch ng t là phát hiện, khám phá các tri th c đ , phục vụ cho những nhu c u sử ụng thông tin c o hơn, ví ụ như trong các hệ chuyên gi
h y hệ h trợ quyết định
Kh i phá ữ liệu là gi i đoạn chủ yếu củ quá trình Phát hiện tri th c từ
cơ sở ữ liệu Qu trỡnh kh i phá tri th c được thực hiện s u các quá trình thu thập và tinh lọc ữ liệu, c ngh là ch tìm các mẫu tri th c p ttern c
ý ngh trờn t p ữ liệu c hy vọng ch không phải là trên toàn ộ CSDL như các phương pháp thống kê trước đây
Vì vậy kh i phá ữ liệu o gồm việc th t m m h nh ph h p với
d liệu và t m iếm các m u h nh tri th c t d liệu theo m h nh đ
Mặc ù mẫu hình c thể tìm được từ ất kì một CSDL nào nhưng ch những mẫu phù hợp với mục đích tìm kiếm mới được gọi là tri th c T sẽ c
những hàm số để đánh giá các tiêu chí mẫu như mới c l i đáng đư c xem
x t
Độ mới củ mẫu hình phụ thuộc vào khung phạm vi quy chiếu, c thể đối với hệ thống hoặc đối với người ùng Ví ụ với ữ liệu củ một công
Trang 12ty, quá trình Kh i phá ữ liệu tìm r được mụ t lu t như Lợi t c thu được giảm vào mù thu ở vùng phí B c, đối với hệ thống thì rất mới, trước ki chư hề c nhưng ất c một cán ộ lập kế hoạch nào c ng nhận r được điều này qu các áo cáo tài chính
Tính hữu ụng củ mẫu c thể đo được qu sự liên qu n đến mục đích tìm kiếm Với một cán ộ phụ trách ảo trì máy tính ở công ty thì luật trên không c giá trị, mặc ù là mới đối với nh t
C thể qu công đoạn kh i phá tri th c c rất nhiều mẫu được lấy r nhưng không phải mẫu nào c ng c giá trị, c thể là mới, hữu ích nhưng lại
t m thường, đặc iệt là khi áp ụng các kỹ thuật ự trên thống kê Do đ luôn phải c các tiêu chí và các hàm đánh các mẫu đáng xem x t, không t m thường
T m lại, Kh i phá ữ liệu thực r c thể coi là một quá trình xác định mẫu từ các D t w rehouse, sử ụng các kỹ thuật s n c như học máy, nhận ạng, thống kê, phân oại và các kỹ thuật được phát triển ởi ngành nghiên
c u trí tuệ nhân tạo như Mạng nơ-ron nhân tạo neutr l network , các thuật toán i truyền generic lgorithm , quy nạp luật rule re uction
T c thể x t đến một số ài toán chính đối với nghiên c u về Kh i phá
ữ liệu
- i to n phân l p (classification : Tìm một ánh xạ phân loại từ
mụ t m u ữ liệu vào một trong các lớp cho trước
- i to n h i qu regression : Tìm một ánh xạ hồi quy từ mụ t m u
ữ liệu vào mụ t iờ n ự đoán c giá trị thực
- i to n lập nh ( clustering : Là việc mô tả chung để tìm r các
tập xác định hữu hạn các nh m h y các loại để mô tả ữ liệu
Trang 13- i to n t ng t summ riz tion : Là việc đi tìm kiờ m mụ t mô tả chung t m t t cho mụ t t p con ữ liệu
b Khai phá d liệu văn bản Te t Mining)
Kh i phá ữ liệu v n ản h y phát hiện tri th c từ các cơ sở ữ liệu v n
ản textu l t ses đề cập đến tiến trình trích lọc các mẫu hình thông tin
p ttern h y tri th c knowle ge đáng qu n tâm hoặc c giá trị non-trivi l
từ các tài liệu v n ản phi cấu tr c Quá trình này c thể được coi là việc mở rộng kỹ thuật Kh i phá ữ liệu truyền thống, vì như ch ng t đã thấy đã được đề cập ở trên kỹ thuật Kh i phá ữ liệu truyền thống D t Mining hướng tới việc phát hiện tri th c từ các cơ sở ữ liệu c cấu tr c
Thông tin được lưu trữ ưới ạng nguyên sơ nhất chính là v n ản Thậm chí t c thể thấy r ng ữ liệu tồn tại ưới ạng v n ản c n c khối lượng lớn hơn rất nhiều so với các ữ liệu c cấu tr c khác Thực tế, những nghiên c u g n đây đã cho thấy r ng c đến 80 thông tin củ một t ch c
n m ưới ạng v n ản Đ c thể là các công v n giấy tờ, các iểu mẫu điều tr , các phiếu đặt hàng, các yêu c u khiếu nại, giải quyết quyền lợi, các thư tín điện tử em il , các thông tin trên các we site thương mại Khi các nghiên c u về cơ sở ữ liệu r đời vào những n m 60, người t tưởng r ng
c thể lưu mọi loại thông tin ưới ạng ữ liệu c cấu tr c Nhưng trên thực
tế s u g n 50 n m phát triển, người t vẫn ùng các hệ thống lưu trữ ở ạng
v n ản và thậm trớ c n c xu hướng ùng thường xuyên hơn Từ đ người
t c thể tin r ng các sản phẩm Kh i phá ữ liệu v n ản c thể c giá trị thương mại c o hơn rất nhiều l n so với các sản phẩm Kh i phá ữ liệu truyền thống khác Tuy nhiên t c ng c thể thấy ng y r ng các kỹ thuật
Kh i phá ữ liệu v n ản ph c tạp hơn nhiều so với các kỹ thuật Kh i phá
Trang 14ữ liệu truyền thống ởi vì phải thực hiện trên ữ liệu v n ản vốn đã ở ạng phi cấu tr c và c tính mờ fuzzy
Một ví ụ cho ài toán kh i phá ữ liệu v n ản, khi phân tích các ài
áo nghiên c u kho học, t c c c thông tin s u:
- “stress là một ệnh liên qu n đến đ u đ u”
- “stress xuất hiện c thể o thiếu M gờ trong m u”
- “C nxi c thể ng n cản một số ch ng đ u đ u”
- “M gờ là một nguyên tố điều hoà c nxi tự nhiên trong m u”
S u khi phân tích các thông tin qu n trọng này, hệ thống c n phải đư
r các suy luân cụ thể m ng tính cách mạng:
- “Thiếu hụt M gờ c thể gây r một số ệnh đ u đ u”
R ràng ở đây c sự phân tích suy luận ở m c độ c o Để đạt được khà
n ng như vậy c n phải c những công trình nghiên c u về trí tuệ nhân tạo tiên tiến hơn
Bài toán Kh i phá ữ liệu v n ản là một ài toán nghiên c u đ l nh vực, o gồm rất nhiều kỹ thuật c ng như các hướng nghiên c u khác nh u: thu thập thông tin inform tion retriev l , phân tích v n ản text n lysis , chiết xuất thông tin inform tion extr ction , lập đoạn clustering , phân loại
v n ản c tegoriz tion , hiển thị trực qu n visu liz tion , công nghệ cơ sở
ữ liệu, học máy m chine le rning và ản thân các kỹ thuật Kh i phá ữ liệu
Trong đề tài này em chủ yếu đề cập đến h i ài toán cụ thể, đ là ài
toán phân loại dữ liệu văn bản Text c tegoriz tion và ài toán thu thập
thông tin (inform tion retriev l C c nghiờn c u mới ch ừng lại ở ước
Trang 15tìm hiểu, khảo sát, so sánh là tiền đề cho các nghiên c u cụ thể s u này mà mục đích trước m t là phục vụ cho luận v n tốt nghiệp
Với một hệ thống Kh i phá v n ản thường o gồm ước chính:
- Bước tiền xử lý: Ở ước này, hệ thống sẽ chuyển v n ản từ
ạng phi cấu tr c về ạng c cấu tr c Ví ụ, với v n ản T
chức n to lắ , hệ thống sẽ cố g ng phân tích thành T chức|n |to|lắ Các từ được lưu riêng rẽ một cách c cấu tr c
để tiện cho việc xử lý
- Loại các thông tin không c n thiết Ở ước này, ộ phân tích tìm cách loại các thông tin vô ích từ v n ản Bước này phụ thuộc rất nhiều vào ngôn ngữ đ ng được phân tích và kỹ thuật
sẽ được ùng để phân tích ước tiếp theo Ví ụ, nếu kỹ thuật phân tích v n ản ch ự vào xác xuất xuất hiện từ khoá, khi
đ t c thể loại các từ phụ như: n u, thì, th nhưng, như
vậ …
- Kh i phá ữ liệu đã được giản lược với các kỹ thuật kh i phá
ữ liệu t mining truyền thống
C rất nhiều kỹ thuật và phương pháp tốt được sử ụng cho Text Mining để tìm r các kiến tr c mới, các mẫu mới, và các liên kết mới Các ước tiền xử lý là các kỹ thuật rất ph c tạp nh m phân tích một phân lớp đặc iệt thành các thuộc tính đặc iệt, s u đ tiến hành áp ụng các phương pháp
kh i phá ữ liệu kinh điển t c là phân tích thống kê và phân tích các liên kết Các ước c n lại sẽ kh i phá cả v n ản đ y đủ từ tập các v n ản, ví ụ như phân lớp v n ản
Trang 16Mục tiêu cuối cùng củ Text Mining thường là đường lối hiệu quả, hoàn thiện, và đặc trưng để trình iễn và tìm kiếm các tập hợp rộng lớn củ các v n ản Do đ , các kỹ thuật chính củ Text Mining c thể được phân phân r thành các nhiệm vụ mà ch ng thực hiện khi xử lý kh i phá v n ản: loại thông tin mà ch ng c thể trích r và loại phân tích được thực hiện ởi
ch ng
Các loại thông tin được trích r c thể là:
- Cỏc nhãn: Giả sử, được liên kết với m i v n ản là tập c c
nh n c c th o tác kh i phá tri th c được thực hiện trờn c c
nh n củ m i v n ản N i chung, c thể giả sử r ng c c nh n tương ng với các từ khoá, m i một từ khoá c qu n hệ với một chủ đề cụ thể nào đ
- Các t : Ở đây giả sử r ng một v n ản được g n nh n với từng
từ xuất hiện trong v n ản đ
- Các thuật ng : Ở đây với m i v n ản tìm thấy các chu i từ,
chu i từ đ thuộc về một l nh vực nào đ và o đ việc tìm kh i phá v n ản được thực hiện trờn c c kh i niệm được g n nh n cho m i v n ản Ưu điểm củ phương pháp này là các thuật ngữ được tách r ít và c xu hướng tập trung vào các thông tin
qu n trọng củ v n ản hơn h i phương pháp trước đây
Các loại kết hợp:
- Kết h p th ng thường: Một số thuật toán trước đây giả sử
r ng ữ liệu nguyên mẫu được tạo lập chỳ n để trợ gi p cho các kỹ thuật xử lý ngôn ngữ tự nhiên Các cấu tr c c ch ẫn
Trang 17trên thực tế c thể được sử ụng như một cơ sở cho việc xử lý
kh i phá tri th c
- Các phân cấp thuật ng : Ở đây m i v n ản được đính với
các thuật ngữ lấy r từ một phân cấp các thuật ngữ S u đ , một
hệ thống sẽ phân tích sự phân ố nội ung củ các thuật ngữ hậu uệ củ từng thuật ngữ liện qu n đến các hậu uệ khác o các phân ố liên kết và các ph p đo khác nh m kh i thác các
qu n hệ mới giữ ch ng Loại liên kết này c thể c ng được sử
ụng để lọc và t ng hợp chủ đề củ các tin t c
- Khai phá văn bản đầy đủ: Không giống như loại liên kết
thông thường thực hiện th o tác mù quáng trờn c c ch ẫn củ
v n ản, kỹ thuật này sử ụng lợi thế củ nội ụng nguyên mẫu
củ các v n ản Kỹ thuật này được gọi là “trớch v n ản nguyên mẫu”
2 Bài toán phân loại văn bản (Text categorization)
hái niệm phân loại văn bản
Phân loại v n ản Text c tegoriz tion là xử lý nh m c c tài liệu thành các lớp khác nh u h y các phân nh m c tegories Đây là một tác vụ phân lớp liên qu n đến việc r quyết định xử lý Với m i xử lý phân nh m, khi
đư r một tài liệu, một quyết định được đư r n c thuộc một lớp nào h y không Nếu n thuộc một phân lớp nào đ thì phải ch r phân lớp mà n thuộc vào Ví ụ, đư r một chủ đề về thể th o, c n phải đư r quyết định
r ng chủ đề đ thuộc các phân lớp cờ vua, quần vợtt, cầu lông, bơi lội hay
ất c một môn thể th o nào khác Các hệ thống phân loại v n ản thường
làm việc với một thuật to n tự học le rning lgorithm Thuật to n đ được
Trang 18cung cấp một tập mẫu để phục vụ cho việc ạy học Tập mẫu này o gồm một tập các thực thể c g n nh n được phân lớp trước c ạng x, y ở đ x
là thực thể được phân lớp, y là nhãn h y phân lớp được gán cho n Với cơ cấu cơ sở như vậy, khi một thực thể được cung cấp cho hệ thống, n sẽ cố
g ng suy r một hàm toán học từ tập đào tạo mẫu và ánh xạ thực thể mới đ vào một phân lớp Phân lớp v n ản là ài toán h y và đ ng c những ước phát triển hết s c qu n trọng mà nguyên nhân chủ yếu o sự phát triển mạnh
mẽ g n đây củ các thông tin nguyên trực tuyến
b Các phương pháp phân loại văn bản
b.1 Sử dụng từ điển phân cấp chủ đề
Một phương pháp thống kê phân lớp v n ản được điều khiển ởi một
từ điển chủ đề c phân cấp được đề xuất Phương pháp này sử ụng một từ điển với một cấu tr c đơn giản Từ điển này c thể ạy được ễ àng trờn
mụ t tập hợp tài liệu được phân lớp ng t y và c thể ịch được tự động
s ng nhiều ngôn ngữ khác nh u
Ch ng t xem x t nhiệm vụ phân loại v n ản ởi chủ đề củ tài liệu: ví
ụ, một số tài liệu về những động vật, và một số khác n i về vấn đề công nghiệp Ch ng t giả sử r ng nh sách chủ đề là lớn nhưng cố định Giải thuật củ ch ng t không thu được những chủ đề từ thân củ tài liệu nhưng
th y vào đ , n liên hệ tài liệu với một trong những chủ đề được liệt kê trong
từ điển hệ thống Kết quả là ph p đo về ph n tr m sự tương ng củ tài liệu với m i từngchủ đề c s n
C một vấn về xuất hiện là độ tối ưu, h y độ hợp lý, độ chi tiết cho phân loại như vậy Ví ụ, khi phân loại tin t c trên internet với một người đọc “ ình thường”, những phân loại như các loài động vật hoặc nghành công
Trang 19nghiệp thì khá phù hợp, trong khi phân lớp các chủ đề về động vật học giống như một cuốn từ điển như vậy sẽ đư r một câu trả lời chung chung
r ng tất cả các chủ đề đ đờ u n i về động vật H y n i cách khác, với một người đọc tin t c trên internet ình thường, thật không thích hợp ùng để phân loại những tài liệu với những chủ đề chi tiết hơn như những động vật
c v , động vật c xương sống, động vật thân nhiệt
Trong ài nghiên c u này, ch ng t sẽ àn luận về cấu tr c củ từ điển chủ đề, cách chọn lự và cách sử ụng các trọng số củ các n t riêng l trong phân cấp, và một số khí thực tế về việc iên soạn điển chủ đề
b iải thuật phân l p v phân c p ch
Trong ài nghiên c u củ các tác giả Guzm n và Aren s vào n m 1997
và 1998, h i ông đề xuất việc sử ụng một từ điển c phân cấp để xác định những đề tài chính củ một tài liệu [1] Về mặt kỹ thuật, từ điển o gồm h i
ph n: c c nh m từ kh đại iện cho các chủ đề riêng iệt, và một iểu iễn phân cấp củ các chủ đề này
Một nh m từ kh là một nh sách các từ hoặc các iểu th c liên qu n đến tình trạng th m chiếu ởi tên củ chủ đề Ví ụ, chủ đề tôn giáo liệt kê các từ như nhà thờ, th y tu, nến, kinh thánh, c u nguyện, người hành hương,…Ch ý r ng những từ này không được liên kết với đ u mục tôn giáo
h y liên kết với nh u ởi ất kỳ qu n hệ ngữ ngh tiêu chuẩn nào như kiểu con, ph n,…
Cây chủ đề được t ch c thành một phân cấp, h y n i chung là t ch c thành một mạng khi đ một số chủ đề c thể thuộc một vài n t củ cây phân cấp
Trang 20Giải thuật tìm kiếm chủ đề trên từ điển c ng gồm c h i ph n : tìm kiếm chủ đề đơn chủ đề lá và sự truyền l n trọng số củ chủ đề trờn c y Thực tế, n trả lời, cho câu h i s u: tới m c độ nào thì tài liệu này sẽ phù với chủ đề đã cho Một câu h i như vậy được trả lời cho m i chủ đề riêng iệt Trong trường hợp đơn giản nhất, trọng số củ một chủ đề là sụ t n suất các
từ tương ng, trong nh sách từ, được tìm thấy trong tài liệu [1]
Ph n th h i củ giải thuật c trách nhiệm l n truyền các t n suất tìm thấy trờn c y [1] Với ph n giải thuật này, ch ng t c thể ch r r ng một tài liệu đề cập đến chủ về những động vật c v , những động vật thân mềm, những động vật gi p s t ở nỳt l , phự hợp với chủ đề về những động vật, các sinh vật sống và tự nhiên không ở nỳt l
b .2 Sự phù hợp v sự phân biệt c a c c trọng số
Th y vì các nh sách từ đơn giản, một số trọng số c thể được sử ụng
ởi giải thuật để định ngh 1 ph p đo định lượng sự phù hợp củ các từ với các chủ đề và 2 đo m c qu n trọng củ các n t củ thuộc cây phân cấp [1]
Loại trọng số đ u tiên, ch ng t gọi là các trọng số sự phù hợp, c liên
hệ với các liên kết giữ các từ và các chủ đề và các liên kết giữ các n t trờn
c y Ví ụ, nếu tài liệu đề cập đến từ “b ch h a h thì n đ ng n i về ô
tô Làm s o phù hợp hoá từ b ch h a h hoặc bỏnh lỏi cho những
chủ đề về ô tô, độ mạnh trong các qu n hệ này như thế nào Về trực giác,
đ ng g p củ từ b ch h a h vào chủ đề ô tô lớn hơn sự đ ng g p củ
từ bỏnh lỏi ; như vậy, mối liên kết giữ “b nh lỏi và chủ đề ô tô được
gán một trọng số nh hơn
Trang 21C thể thấy r ng, trọng số i
k
w củ một liên kết như vậy giữ một từ k
và một chủ đề j, h y giữ một chủ đề k và chủ đề ch j củ n trờn c y c thể được định ngh như độ phù hợp trung ình cho chủ đề củ những tài
liệu được đư r ch từ này:
k i
D i
k i j i j
k
n
n r
i
r củ các tài liệu cho các l nh vực một cách độc lập Th y vào đ , mụ t ph p đo như vậy được đánh giá ng t y ởi chuyên gi , và s u đ hệ thống được huấn luyện trên hợp các tài liệu Các chuyên gi c thể phải thường xuyên gán những trọng số thích hợp ng t y cho các tài liệu
Cả h i cách tiếp cận này yêu c u r ng được làm ng t y Để tránh điều
đ , với một ph p toán g n đ ng, với những đề tài đủ h p, c thể giả thiết
r ng những v n ản trờn vờ chủ đề này g n như không o giờ xuất hiện trong những v n ản thông thường Khi đ iểu th c củ các trọng số c thể được đơn giản h :
D i
k i
j k
n
Yêu c u chính cho loại th h i củ các trọng số - sự phân iệt các trọng
số - là khả n ng phân iệt giữ chỳng: mụ t chủ đề c n phải tương ng tới
mụ t t p con đáng kể những tài liệu Mặt khác, những chủ đề mà tương
ng với g n như tất cả các tài liệu trong cơ sở ữ liệu thỡ chỳng là vô ích vì
ch ng không cho ph p đư r ất kỳ kết luận phù hợp nào với các tài liệu tương ng
Trang 22Như vậy, trọng số j
w củ một n t j trờn c y c thể được đánh giá như
độ iến đ i củ độ phù hợp w j chủ đề qu những tài liệu trong cơ sở ữ liệu Một cách đơn giản để tính toán một khả n ng phân iệt là đo n một cách rời
M r
D i
j
i D r
b.2 Phương phỏp cây quyết định Decision tree)
Trang 23Phương pháp phân lớp v n ản Cây quyết định (decision tree - DT)
được Mitchell đư r vào n m 1996 [2] Trờn cây gồm các n t trong được gán nhãn ởi các thuật ngữ, các nhánh cây ch n t được g n nh n ng các trọng số củ thuật ngữ tương ng đối với tài liệu mẫu, và các lá cây được
g n nhãn ởi các phân lớp Một hệ thống phân lớp như vậy sẽ phân loại một
tài liệu d j ởi ph p thử đệ quy các trọng số mà các thuật ngữ được gán nhãn cho các n t trong với vec-tơ dj cho đến khi với tới một n t lá Khi đ , nhãn
củ n t này được gán cho d j Đ số các phướng pháp phân loại như vậy sử ụng iểu iễn v n ản ở ạng nhị phân, và như vậy các cây c ng được iểu iễn ưới ạng nhị phân Một ví ụ vờ c y quyết định được minh hoạ trong Hình 1
Một phương pháp khả thi ùng để huấn luyện mụ t c y quyết định phân
loại c i n m ở chiến lược chia v tr [2] Chiến lược này sẽ kiểm tr xem
Trang 24liệu tất cả các khái niệm huấn luyện c cùng nhãn với n hoặc c i hoặc ci ;
nếu không, lự chọn một khái niệm t k, ph n chi cây thành các lớp tài liệu c
cùng giá trị t k và ch n vào m i lớp như vậy một cây con riêng iệt Quá trình
đệ quy lặp lại trên các cây con cho đến khi m i lá củ cây phát sinh ch các
khái niệm hu n luyờn gán cho cùng phạm trù c i, khi đ n được chọn như là
nhãn củ lá đ Bước quyết định là việc chọn thuật ngữ t k ở đ sẽ xảy r th o
tác chia, một phương pháp lự chọn là chọn theo lợi ích thông tin h y
entropi Tuy nhiên, mụ t c y quá lớn lên c thể ị sập, nếu như các nhánh cây quá đặc iệt với ữ liệu huấn luyện
Đ số các phướng pháp ạy cây quyết định như vậy o gồm một phương pháp thờm c y và một phương pháp x n ớt c y đờ loại những nhánh quá đặc iệt [2]
3 Bài toán thu thập th ng tin (Information retrieval - IR)
hái niệm thu thập thông tin
Thu thập thông tin Inform tion Retriev l là một trong những ài toán
kh i phá ữ liệu v n ản Bài toán này chủ yếu tập trung vào việc tìm r các tài liệu trong một tập hợp các tài liệu c s n theo một điều kiện nào đ Các điều kiện này c thể là một truy vấn h y một v n ản
Khi điều kiện đư vào là một truy vấn, ài toán sẽ đư r các suy luận
để tìm r đặc trưng củ câu truy vấn đ , s u đ so sánh với các đặc trưng củ các tài liệu c s n để tìm r các tài liệu phù hợp nhất với câu truy vấn đ Trong ài toán này, mô hình củ ài toán g n với ài toán Se rch Engine Tuy nhiên, ài toán thu thập thông tin là ài toán được phát triển ở m c độ
c o hơn Đối với ài toán Se rch Engine, câu truy vấn đư vào là tập hợp các niệm Nhưng với ài toán thu thập thông tin, câu truy vấn đư vào c thể
Trang 25là một câu v n c ngữ ngh Hệ thống sẽ tìm cách phân tích ngữ ngh củ câu truy vấn để tìm r đặc trưng củ n
Khi thu thập ữ liệu, ch ng t thường cố g ng tìm kiếm các ữ liệu chính xác Trong các trường hợp khác, ch ng t kiểm tr để xem một thông tin c trong một tệp tin h y không Khi thu thập thông tin, kết quả chính xác thường được qu n tâm, nhưng thông thường ch ng t muốn tìm kiếm một cách tương đối chính xác với một thông tin đặc iệt được đư vào S u đ
ch ng t sẽ tự chọn thông tin phù hợp nhất từ các kết quả củ ph p xử lý trước đ Nếu ch ng t so sánh n với các kiểu hệ thống khác nh u, ch ng t
sẽ thấy r ng trong nội ung các truy vấn cơ sở ữ liệu, một ph p tìm kiếm thực chất là để làm thoả mãn một truy vấn, là câu h i để tìm r câu trả lời
Trang 26được iết đến với khái niệm trích xuất thông tin đặc iệt là với một câu h i đặc iệt Trong thu thập thông tin, một ph p tìm kiếm nh m tìm r một tài liệu mà người ùng đ ng c n Các hệ thống thu thập thông tin IR systems được sử ụng để thu thập các tài liệu liên qu n đến các yêu c u r ràng Vấn
đề với thu thập thông tin là việc xử lý các v n ản c nội ung liên qu n nội tại đến các v n ản được sử ụng trước đ Hình 2 đư r một mô hình tương tác thu thập thông tin chuẩn Hiển nhiên, việc thu thập thông tin là quá trình xử lý lặp lại, với xử lý đ u vào và đ u r o gồm v ng lặp tính toán lại yêu c u
Th o tác này chuyển đ i truy vấn theo một chiến lược c s n nh m t ng tính phù hợp củ tài liệu đã nhận được.
Việc thu thập thông tin c thể được định ngh cho ất c một loại thông tin nào ví ụ như kiểu v n ản, hình ảnh, âm th nh Tuy nhiên, ở đây
ch ng t ch đề cập đến việc thu thập v n ản ởi v n ản là một loại thông tin mà phương th c thực hiện và kỹ thuật xử lý đơn giản hơn C thể nhấn mạnh r ng các kỹ thuật này c ng c thể được áp ụng cho thu thập thông tin
đ phương tiện
Các kỹ thuật thu thập thông tin c thể được chi r thành h i loại:
- Các kỹ thuật chuẩn
- Các kỹ thuật c áp ụng trí tuệ nhân tạo
Nh m đ u tiên o gồm các kỹ thuật ự trên các phương th c thuật toán và toán học truyền thống Nh m th h i cố g ng thu thập tri th c ng các kỹ thuật áp ụng trí tuệ nhân tạo để giành được các kết quả tốt hơn
b Các phương pháp thu thập thông tin
Trang 27Ngày n y, các thông tin đ ng được phát triển mạnh mẽ về số lượng và chủ yếu là từ Internet Internet đã trở thành nơi lưu trữ, quản lý và đặc iệt là nơi thu nhận thông tin nh nh ch ng và tiện lợi Lợi ích trung tâm là các thông tin thu nhận được phù hợp với nhu c u người ùng Đ là lý o củ các nghiên c u chuyờn s u trong các l nh vực như kh i phá ữ liệu (DataMining , trích xuất thông tin (Information Extr ction , thu thập thông tin (Information Retrieval)
Rất nhiều các phương pháp thu thập thông tin được phát triển và kết quả mà ch ng đem lại khá tốt Trong đ c rất nhiều phương pháp tồn tại ở ạng chuẩn Các phương pháp này thường ự theo các phương pháp toán học c điển Một số phương pháp khác được phát triển theo hướng ự trí tuệ nhân tạo S u đây, ch ng t sẽ tìm hiểu sâu hơn về các phương pháp thu thập thông tin
b.1 Các phương pháp chuẩn
Ph n lớn các kỹ thuật chuẩn được phát triển từ những n m 1960 đến những n m 1970, và ph n lớn trong số ch ng ự trên các thuật toán và công th c toán học truyền thống Trong ài nghiên c u này ch đề cập đến
các mô hình ô hình oolean ( oolean odel), ô hình hông gian vec-tơ
(vector space model)
Trang 28dj được iểu iễn thành tập các thuật ngữ d j t1,t2, ,t k, ở đ ti là một thuật
ngữ xuất hiện trong tài liệu d j Một truy vấn được iểu iễn ng một iểu
th c logic củ các thuật ngữ o gồm các toán tử AND, OR, và NOT
Ví ụ với truy vấn:
Q=(K1 AND (NOT K2)) OR K3
Ở đây ph p tìm kiếm Boole n sẽ nhận được tất cả các tài liệu c liên kết với K1 nhưng không liên kết với K2 hoặc các tài liệu c liên kết với K3
Cụ thể hơn, với một câu truy vấn:
Q=(“Te t ining” AND ((“Inform tion Retriev l”) AND (NOT
“C tegoriz tion”))
Hệ thống sẽ cố g ng tìm r tất cả các tài liệu thuộc chủ đề
TextMining , mà cụ thể hơn là các phương pháp thu thập thông tin ch
không phải là các phương pháp phân lớp v n ản
b.1.1.1 C c h so s nh
Liên kết giữ truy vấn và tài liệu c thể được hiểu theo ngh một hàm
so sánh Các hàm này thường rất đơn giản Một triến lược được sử ụng gọi
là chi n lược ơn giản hoỏ phộp so s nh
Chiến lược này được sử ụng trong ộ iến đ i củ ph p tìm kiếm Boole n, ở đ ch c các toán tử logic AND Ý tưởng chính củ chiến lược này được đư r khi xem x t số lượng củ các thuật ngữ chung trong câu truy vấn và trong tài liệu Số này được gọi là m c đồng s p xếp và c thể được sử ụng như một hàm so sánh
Ví ụ, các từ khoá K1, K2, K3 được liên kết với các tài liệu D1, D2, D3, D4 theo cách s u:
Trang 29Đư r một tập các tài liệu và một truy vấn D1,D2, ,D N và một truy
vấn Q, ch ng t đi tính N giá trị củ hàm so sánh M(Q,D i ) Để nhận được
các tài liệu liên qu n, ch ng t c n s p xếp các tài liệu giảm n củ hàm so
sánh và đi tất cả các tài liệu ng với hàm so sánh nh hơn một ngưỡng
cắt cho trước Ngưỡng này c thể được định ngh như một giá trị hàm so
sánh M hoặc là một gí trị so sánh với một v n ản nào đ Thách th c lớn
nhất củ kỹ thuật này là tìm được cách chọn giá trị ngưỡng c t phù hợp
Để thực hiện mô hình tìm kiếm Boole n, ch ng t c thể sử ụng một
số kỹ thuật hiệu quả Tuy nhiên, các thuật toán đ không được đề cập trong
ài nghiên c u này
b .3 Thực hiện
Trang 30M i một tài liệu c n được đánh ch mục in ex ởi một số thuật ngữ,
m i thuật ngữ này miêu tả nội ung củ tài liờu C c thuật ngữ này thường được gọi là các thuật ngữ đã g n ch mục h y các từ khoá Để việc thu thập được thực hiện nh nh ch ng, ch ng t nên s p xếp các từ này Các từ khoá
được lưu trữ trong tệp tin chỉ c, và với m i từ khoá thuộc ộ từ vựng sẽ
c nh s ch c c tài liệu ch từ khoá này Để thoả mãn một truy vấn,
ch ng t sẽ thực hiện tìm kiếm trên file ch mục này
Kỹ thuật này được sử ụng ởi nhiều hệ thống thương mại với các độ tối ưu khác nh u củ tệp tin ch mục tìm kiếm ví ụ B-trees)
Các nhược điểm củ kỹ thuật này là:
- Lưu trữ quá nhiều c thể c n không gi n lưu trữ lên đến 300
so với kích thước n đ u
- Giá thành cập nhật và t ch c lại ch mục c o
- Giá thành hợp các nh sách tài liệu c o nếu ch ng quá ài
Tuy nhiên, ch ng c ng c c c ưu điểm riêng:
- Thực hiện ễ àng
- Tốc độ nh nh
- Dễ àng h trợ các từ đồng ngh
b.1.2 Mô hình hông gian vec-tơ (Vector space model - VSM)
Mô hình không gi n vec-tơ được mở rộng từ mô hình Boole n trong việc thể hiện các thuật ngữ củ tài liệu [4] Giống như mô hình Boole n,
ch ng t g n nhãn các tài liệu ởi tập các thuật ngữ Nhưng trên thực tế, điểm khác nh u được ẩn trong việc iểu iễn tài liêu Tài liệu D được iểu
iễn ởi một vec-tơ m-chi u với c c thông số ng với m i chiều là trọng
Trang 31số ng với từng thuật ngữ cụ thể Trong trường hợp này, m là t ng sô thuật ngữ được đinh ngh để xác định nội ung củ tài liệu Trọng số được tính ởi xác suất xuất hiện và độ qu n trọng củ từ khoá
D=(w 1 , w 2 , , w N )
Ví ụ, khi phân tích h i tài liệu D 1 và D 2 là h i ài nghiên c u, liên
qu n đến ệnh đâu đ u, t c h i vec-tơ được hinh hoạ trên đồ thị 2-chiều như s u:
Các trọng số trên m i vec-tơ iểu iễn xác suất xuất hiện củ các
thuật ngữ trong m i ài áo Tài liệu D 1 , thuật ngữ Đau ầu, Magờ xuất hiện với xác suất l n lượt là 0.75, 0.25 Tài liệu D 2 , thuật ngữ Đau ầu,
Magờ xuất hiện với xác suất l n lượt là 0.2, 0.6
Trong mô hình này, một truy vấn được đối xử như một tài liệu [4] xem hình 4) H y n i cách khác, chỳng t sẽ iểu câu truy vấn ởi một vec-
tơ trọng số củ các thuật ngữ S u khi thực hiện việc phân tích câu truy vấn
t sẽ thu được một vec-tơ Việc thực hiện câu truy vấn này thực chất là việc
so sách vec-tơ củ câu truy vấn với các vec-tơ đại iện cho các tài liệu theo một tiêu chuẩn nào đ Kết quả t sẽ thu được một nh sách các tài liệu c
Trang 32qu n hệ “gần với câu truy vấn đã đư r Tất nhiên, các tài liệu đ sẽ được
s p xếp theo trình tự giảm n và sẽ ị c t ở một ngưỡng nào đ
Để tính vec-tơ iểu iễn một tài liệu, các từ riêng iệt trong tài liệu được t hợp lại Trên thực tế, việc thực hiện được thực hiện theo cách s u:
- Các từ phụ được so đi
- Phân iệt các từ ởi khoảng tr ng
Đối với Anh ngữ hoặc Pháp ngữ, m i từ được tách iệt ởi các khoảng
tr ng Nhưng ngôn ngữ tiếng Việt lại nảy sinh vấn đề từ đơn và từ gh p Đây
c ng là một vấn đề kh kh n khi phân tách từ trong tiếng Việt Ví ụ, với từ
company trong tiếng Anh, ng với n là từ công t trong tiếng Việt Do vấn
đề về từ gh p nên g y nhiều hiểu nh m trong tiếng Việt Các vấn đề đ gọi
là sự mập mờ trong tiếng Việt Ví ụ, với câu thuộc a b n, t c thể c h i cách phân tách thuộc a|b n và thuộc| a b n
Như vậy, đối với tiếng Việt, ch ng t c n c các phương pháp tách từ đặc iệt hơn
Hình 4: Đồ thị biểu diễn quan hệ giữ truy vấn (query) và các
tài liệu D1, D2
Trang 33Trọng số củ một thuật ngữ c thể được xác định theo nhiều cách Cách
tiếp cận chung là sử ụng phương th c tf * idf, ở đ trọng số được t ng hợp
trong các tài liệu thì idf sẽ c o, c n nếu n xuất hiện thường xuyên trong các tài liệu thì idf sẽ thấp
Ví ụ: công th c ưới đây được đề xuất c thể được ùng để tính các giá trị đã n i ở trên [4]:
j f i
f
tf i
max 5 0 5
.
0
i x lieu voi tai
cac le
ty
1 log
i
ở đ f i là xác suất xuất hiện thuật ngữ x i trong tài liệu Phân số trong idf
được tính toán ng phương pháp giải tích với khả n ng xuất hiện x i trong tài liệu này
b.1.2.2 Độ tương ng (similarity)
Khi các trọng số các thuật ngữ được xác định, ch ng t c n một hàm
s p xếp để định giá độ tương đồng giữ các vec-tơ truy vấn và tài liệu Một
số ph p đo độ tương đồng được thể hiện ưới đây Ở đ Q và D l n lượt là các tập thuật ngữ trong truy vấn và trong v n ản:
Trang 341
D Q
D Q
hệ số consin
) ,
ài củ vec-tơ Độ tương đồng được xác định theo công th c ưới đây [4]:
i i i
m
i i i
u w
u w Q
D
Q D Q
D
sim
2 2
1
.
) ,
i u w Q
D Q
D
sim
1
) ,