Khai phá Text là một trong những ứng dụng điển hình của KPDL, hiện đangmột lĩnh vực khá nổi bật và chủ yếu liên quan tới việc trớch rỳt cỏc khái niệm, cácquan hệ và các tri thức tiềm ẩn
Trang 1MỤC LỤC
MỤC LỤC 1
MỞ ĐẦU 3
CHƯƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ KHAI PHÁ TEXT 5
1.1.Khai phá dữ liệu và phát hiện tri thức trong cơ sở dữ liệu 5
1.1.1Khái niệm 5
1.1.2.Các phương pháp khai phá dữ liệu 8
1.1.2.1.Các bài toán chủ yếu của khai phá dữ liệu 8
1.1.2.2.Các thành phần của thuật toán khai phá dữ liệu 9
1.1.2.3.Các phương pháp khai phá dữ liệu phổ biến 10
1.1.3 Ứng dụng của Khai phá dữ liệu 12
1.2 Khai phá dữ liệu Text 12
1.2.1 Giới thiệu 12
1.2.2 Các bài toán trong Khai phá Dữ liệu Text 14
1.2.3 Các vấn đề quan trọng trong Khai phá Dữ liệu Text 17
1.2.4 Phân loại các hệ thống Khai phá Text 18
1.3.Kết luận chương 1 26
CHƯƠNG 2 QUAN HỆ NGUYÊN NHÂN - KẾT QUẢ VÀ THUẬT TOÁN PHÁT HIỆN QUAN HỆ NGUYÊN NHÂN - KẾT QUẢ 27
2.1 Giới thiệu 27
2.2 Các quan hệ ngữ nghĩa trong cơ sở tri thức ngữ nghĩa từ vựng 28
2.3 Quan hệ nguyên nhân - kết quả 29
2.4 Biểu diễn các quan hệ nguyên nhân - kết quả trong Tiếng Anh 32
2.4.1.Các cấu trúc nhân quả tường minh 33
2.4.1.1.Các từ nối chỉ nguyên nhân 33
2.4.1.2.Các động từ chỉ nguyên nhân 34
2.4.1.3.Các mệnh đề điều kiện 36
2.4.1.4.Các tính từ và trạng từ chỉ nguyên nhân 37
2.4.2.Các cấu trúc nhân quả không tường minh 38
2.4.2.1 Các danh từ phức biểu diễn quan hệ nguyên nhân - kết quả 38
2.4.2.2 Các động từ trong quan hệ nguyên nhân - kết quả không tường minh 39
2.4.2.3 Cấu trúc ngôn từ 40
2.5 Thuật toán phát hiện quan hệ nguyên nhân - kết quả 41
2.5.1 Các công trình liên quan 41
2.5.2 Thuật toán phát hiện quan hệ nguyên nhân - kết quả 41
Trang 22.6.Kết luận chương 2 44
CHƯƠNG 3 : KẾT QUẢ THỬ NGHIỆM THUẬT TOÁN 44
3.1 Giới thiệu 44
3.2 Mô tả dữ liệu 45
3.3 Xây dựng chương trình 47
3.4 Kết quả thử nghiệm 50
3.5 Nhận xét 52
3.6 Kết luận chương 3 52
KẾT LUẬN 53
TÀI LIỆU THAM KHẢO 54
Trang 3MỞ ĐẦU
Trong những năm gần đõy, trên cơ sở phát triển và ứng dụng công nghệInternet, khối lượng dữ liệu trên máy tính đã tăng trưởng không ngừng theo cả phươngdiện tạo mới và thu thập thông tin Việc mở rộng các dữ liệu khoa học về khoa học địa
lý, địa chất, khí tượng do vệ tinh thu thập lại, việc giới thiệu quảng bá mã vạch đối vớihầu hết các sản phẩm thương mại, việc tin học hoá sâu rộng các thương vụ và giaodịch, việc phát triển ứng dụng công nghệ thông tin trong quản lý hành chính nhànước đã phát sinh ra một khối lượng dữ liệu khổng lồ Mặt khác, trong xã hội côngnghệ thông tin hiện nay, nhu cầu nhận được thông tin một cách nhanh chóng, chínhxác cũng như nhu cầu thu nhận được những tri thức hữu ích từ khối lượng thông tinkhổng lồ nói trên đã trở nên cấp thiết Nói một cách hình ảnh là chúng ta đang “ngập”trong dữ liệu nhưng lại “đúi” tri thức Bối cảnh đó đã đòi hỏi phải có những phươngpháp tiếp cận mới, điển hình nhất là các phương pháp thuộc lĩnh vực khai phá dữ liệu
Sự tăng trưởng hàng năm về số lượng các công trình nghiên cứu được công bố, các hộithảo khoa học quốc tế liên quan đến việc giải quyết các bài toán điển hình thuộc lĩnhvực này đã thể hiện đầy đủ sự phát triển vượt bậc của KPDL Các phương pháp KPDLđang ngày càng phát triển mạnh mẽ và thu hút nhiều sự quan tâm chú ý của các nhànghiên cứu trong các ứng dụng thực tiễn của nó như : khai phá text và khai phá web,tin-sinh học, tài chính và thị trường chứng khoán
Khai phá Text là một trong những ứng dụng điển hình của KPDL, hiện đangmột lĩnh vực khá nổi bật và chủ yếu liên quan tới việc trớch rỳt cỏc khái niệm, cácquan hệ và các tri thức tiềm ẩn từ các tài liệu văn bản Trạng thái nghệ thuật của khaiphá Text hiện nay dựa trên sự trình diễn các tài liệu văn bản đi cùng với các kỹ thuậtkhai phá dữ liệu thống kê Hướng tiếp cận này bị hạn chế do ngôn ngữ tự nhiên có độnhập nhằng rất cao Luận văn này đi sâu nghiên cứu về mối quan hệ ngữ nghĩa nguyênnhân - kết quả trong ngôn ngữ tự nhiên và trình bày một thuật toán khai phá nhằm pháthiện các quan hệ này dựa trên tần suất xuất hiện của các cặp danh từ có quan hệ nhânquả với nhau
Luận văn bao gồm phần mở đầu, ba chương nội dung và phần kết luận Nộidung các chương được trình bày như sau :
Chương 1: Trong chương này trình bày một cách khái quát nhất về khai phá
dữ liệu và khai phá Text, các bài toán chủ yếu, các phương pháp điển hình cũng nhưcác ứng dụng trong thực tiễn
Trang 4Chương 2 : Nội dung chương hai giới thiệu sơ qua một số các quan hệ ngữnghĩa trong cơ sở tri thức ngữ nghĩa từ vựng và cụ thể đi sâu vào nghiên cứu quan hệngữ nghĩa nguyờn nhõn-kết quả: nêu khái niệm, ý nghĩa và cấu trúc của các quan hệnày biểu diễn trong tiếng Anh Trong phần này cũng đã trình bày một thuật toán nhằmphát hiện các cặp danh từ nguyên nhân và kết quả trong các mối quan hệ nguyên nhânkết quả tường minh dựa trên trọng số của động từ chỉ nguyên nhân và tần suất xuấthiện của các cặp danh từ trong các cấu trúc câu thể hiện quan hệ nguyên nhân - kết quảđó.
Chương 3: Trình bày về hệ thống thử nghiệm của thuật toán phát hiện quan hệngữ nghĩa nguyên nhân - kết quả được trình bày trong chương hai Đưa ra một số kếtquả ban đầu, những nhận xét, kết luận và một số hướng phát triển nghiên cứu trongtương lai
Trang 5CHƯƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ
hệ thống tài liệu Internet) ngày càng nhiều Do nhu cầu trích lọc các dữ liệu đó thànhcác thông tin và tri thức có ích cho các ứng dụng rộng rãi như phân tích thị trường,quản trị doanh nghiệp, hỗ trợ quyết định ngày càng tăng, các hệ thống dữ liệu đòi hỏimột thế hệ mới các kỹ thuật và công cụ phân tích dữ liệu tự động và thông minh Các
kỹ thuật và công cụ như vậy thuộc vào một lĩnh vực nghiên cứu và triển khai nhanhchóng trở thành nổi bật và ngày càng được quan tâm trong ngành công nghệ thông tinnhững năm gần đõy, đó là lĩnh vực phát hiện tri thức trong CSDL (KnowledgeDiscovery in Databases : KDD)
Định nghĩa [1]: Phát hiện tri thức trong cơ sở dữ liệu (KDD – Knowledge
Discovery in Database) là một quá trình không tầm thường nhận ra những mẫu có giá trị, mới, hữu ích tiềm năng và hiểu được trong dữ liệu (William J Frawley, Gregory
Piatetsky-Shapiro, và Christopher J Matheus 1991 [FSSU96])
Trong định nghĩa trên:
Dữ liệu là một tập F gồm các sự kiện ( tức là F gồm nhiều trường hợp) và
tương ứng với tập F là một ngôn ngữ L được sử dụng để biểu diễn sự kiện theo tập concủa F
Mẫu là một biểu thức E trong ngôn ngữ L được dùng để biểu diễn sự kiện
trong một tập con FE của F Biểu thức này phải đơn giản hơn là việc liệt kê tất cả các
sự kiện trong F
Thông thường, quá trình KDD bao gồm nhiều bước, thường là các bước
chuẩn bị dữ liệu, tìm kiếm mẫu, ước lượng tri thức, tinh chế tương tác nội tại sau khi biến đổi dạng trình bày Quá trình được thừa nhận là không tầm thường (non-trivial)
theo nghĩa là quá trình đó bao hàm tìm kiếm tự động ở mức độ nhất định
Mẫu cần phải cú các tính chất sau :
Trang 6Tính có giá trị : mẫu được phát hiện cần có giá trị đối với dữ liệu sẽ bổ sung(mới) theo một mức độ chân thực nào đấy Độ đo chân thực c của biểu thức E trong
L : c = C(E,F)
Tính mới : mẫu là mới nếu có các thay đổi trong dữ liệu khi so sánh giá trịhiện tại với giá trị cũ hoặc giá trị dự đoán, hoặc cho thấy các giá trị mới tìm được liênquan thế nào với các giá trị cũ, đo bằng hàm N(E,F)
Tính hữu ích tiềm năng : Mẫu cần có khả năng chỉ dẫn tới cỏc tác động hữudụng và được đo bởi một hàm tiện ích U(E,F)
Tính hiểu được : tạo ra các mẫu cho con người hiểu dễ dàng hơn các dữ liệu
cơ sở Độ đo dễ dàng : S(E,F)
Điều quan trọng là tính hấp dẫn, thường được cho như độ đo tổng thể về mẫu :
tính giá trị, tính mới, tính hữu ích và tính dễ hiểu và có thể được đo bằng một hàm Itrong không gian đo được Mi : i= I(E,F,C,N,U,S) Mẫu E∈ L được gọi là tri thức nếuvới ngưỡng i do người dùng định nghĩa ta có I(E,F,C,N,U,S) >i
Khai phá dữ liệu (data mining) được định nghĩa như là một quá trình chắt lọc
hay khai phá tri thức từ một lượng lớn dữ liệu Một ví dụ hay được sử dụng là là việckhai thác vàng từ đá và cát, Khai phá dữ liệu được ví như công việc “Đói cỏt tỡm
vàng” trong một tập hợp lớn các dữ liệu cho trước Thuật ngữ Khai phá dữ liệu ám chỉ
việc tìm kiếm một tập hợp nhỏ có giá trị từ một số lượng lớn các dữ liệu thô Có nhiềuthuật ngữ hiện được dùng cũng có nghĩa tương tự với từ Khai phá dữ liệu như Khaiphá tri thức (Knowledge Mining ), chắt lọc tri thức (knowledge extraction), phân tích
dữ liệu/mẫu (data/patern analysis), khảo cổ dữ liệu (data archaeoloogy), nạo vét dữliệu (data dredging ),
Tóm lại, có rất nhiều định nghĩa về khai phá dữ liệu, các định nghĩa này đều
mang tính mô tả, tuy nhiên có thể tạm hiểu rằng Khai phá dữ liệu như là một công nghệ tri thức giúp khai thác những thông tin hữu ích từ những kho dữ liệu được tích
trữ trong suốt quá trình hoạt động của một công ty, tổ chức nào đó Dưới đõy tôi xinđưa ra một trong số các định nghĩa về khai phá dữ liệu như sau:
Định nghĩa [27] : Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng
để tự động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng lồ và phức tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong tập dữ liệu đó.
Trang 7Nhìn chung, quá trình phát hiện tri thức là một chuỗi nối tiếp và lặp lại cácbước còn khai phá dữ liệu là một trong các bước đó :
1.Làm sạch dữ liệu : xử lý các dữ liệu có lỗi, bị nhiễu, thiếu dữ liệu hoặc dữliệu không thích hợp
2.Tích hợp dữ liệu : các nguồn dữ liệu bị lặp lại, không đồng nhất có thể đượctích hợp làm một
3.Chọn lọc dữ liệu : là bước trích chọn những tập dữ liệu cần được khai phá từcác tập dữ liệu lớn (databases, data warehouses, data repositories) ban đầu theo một sốtiêu chí nhất định
4.Tiền xử lý dữ liệu : là bước làm sạch dữ liệu (xử lý với dữ liệu không đầy
đủ, dữ liệu nhiễu, dữ liệu không nhất quán, v.v.), rút gọn dữ liệu (sử dụng hàm nhóm
và tính tổng, các phương pháp nén dữ liệu, sử dụng histograms, lấy mẫu, v.v.), rời rạchóa dữ liệu (rời rạc hóa dựa vào histograms, dựa vào entropy, dựa vào phân khoảng,.v.v.) Sau bước này, dữ liệu sẽ nhất quán, đầy đủ, được rút gọn, và được rời rạc hóa
5.Biến đổi dữ liệu : đây là bước chuẩn hóa và làm mịn dữ liệu để đưa dữ liệu
về dạng thuận lợi nhất nhằm phục vụ cho các kỹ thuật khai phá ở bước sau
6.Khai phá dữ liệu : đây là bước áp dụng những kỹ thuật khai phá (phần nhiều
là các kỹ thuật của machine learning) để khai phá, trích chọn được những mẫu(patterns) thông tin, những mối liên hệ (relationships) đặc biệt trong dữ liệu Đây đượcxem là bước quan trọng và tốn nhiều thời gian nhất của toàn quá trình KDD
7.Trình diễn và đánh giá tri thức: những mẫu thông tin và mối liên hệ trong dữliệu đã được khai phá ở bước trên được chuyển dạng và biểu diễn ở một dạng gần gũivới người sử dụng như đồ thị, cây, bảng biểu, luật, v.v Đồng thời bước này cũngđánh giá những tri thức khám phá được theo những tiêu chí nhất định
Trang 8Hình 1.Các bước trong quá trình KDD
1.1.2.Các phương pháp khai phá dữ liệu
Thành phần khai phá dữ liệu của quá trình KDD thường bao gồm việc áp dụngtừng phần lặp của các phương pháp khai phá dữ liệu riêng Chúng ta sử dụng thuật ngữmẫu và mô hình mở rộng xuyên suốt trong mục này : một mẫu có thể được suy nghĩ
như là một thuyết minh của một mô hình, tức là f(x) = 3x 2 + x là một mẫu trong khi f(x) = ax 2 +bx được coi là một mô hình
Hầu hết các phương pháp khai phá dữ liệu dựa theo các nội dung từ vấn đềhọc máy, tổ chức mẫu và thống kê : phân lớp, tách đoạn, thống kê, mô hình đồ thị v.v
1.1.2.1.Các bài toán chủ yếu của khai phá dữ liệu
• Phân lớp : là việc học một hàm ánh xạ (các lớp) của các tên gọi dữ liệu vào
một trong số lớp đã biết trước (Hand 1981; Weiss và Kulikowsk 1991; Maclachlan
1992) Quá trình này phân tích một tập dữ liệu huấn luyện (tức là một tập các đốitượng mà ta đã biết tên lớp của nó) và xây dựng một mô hình cho mỗi lớp dựa trên cácđặc tính trong dữ liệu Một cây quyết định hoặc một tập các luật phân lớp được tạo ra
từ quá trình phân lớp đú, nó có thể được dùng để hiểu rõ hơn mỗi lớp trong cơ sở dữliệu và để phân loại dữ liệu trong tương lai
Ví dụ, người ta có thể phân loại các bệnh và giúp dự đoán bệnh dựa trên cáctriệu chứng của bệnh nhân Phân lớp được dùng trong việc phân nhóm khách hàng, môhình hóa doanh nghiệp và phân tích tín dụng
• Hồi quy : là việc học máy một hàm ánh xạ từ một tên dữ liệu sang một biến
khẳng định giá trị thực Có rất nhiều các ứng dụng khai phá dữ liệu với nhiệm vụ hồi
Trang 9quy, ví dụ như đỏnh giá khả năng tử vong của bệnh nhân dựa trên các kết quả xétnghiệm chẩn đoán, dự đoán nhu cầu tiêu thụ một sản phẩm mới bằng một hàm chi tiêuquảng cáo.
• Phân cụm : là bài toán mô tả chung để tìm ra một tập hữu hạn các loại
hoặc các đoạn để mô tả dữ liệu (Titterington, Smith và Makov 1985; Jain và Dubes
1988) Cỏc nhúm có thể tách rời hoặc phân cấp hoặc chồng chéo lên nhau (vừa thuộcnhóm này vừa thuộc nhúm khỏc) Cỏc ứng dụng khai phá dữ liệu có nhiệm vụ phânnhóm như phát hiện tập khách hàng có phản ứng giống nhau trong cơ sở dữ liệu tiếpthị, xác định các loại quang phổ từ các phương pháp đo tia hồng ngoại
• Tóm lược : bao gồm các phương phỏp tỡm một mô tả cô đọng đối với một
tập con dữ liệu Ví dụ điển hình là bảng kỳ vọng và độ lệch chuẩn của mọi trường Kỹ
thuật tóm lược thường được áp dụng trong việc phân tích dữ liệu tương tác có tínhthăm dò và báo cáo tự động
• Mô hình hoá phụ thuộc : bao gồm việc tìm một mô hình mô tả sự phụ
thuộc có ý nghĩa giữa các biến Các mô hình phụ thuộc gồm hai mức, mức cấu trúc
của mô hình (thường dưới dạng đồ thị) mô tả những biến nào là phụ thuộc cục bộ vớinhau và mức định lượng của một mô hình mô tả sức mạnh sự phụ thuộc theo mộtthước đo nào đó
• Phát hiện sự thay đổi và độ lệch : tập trung vào việc phát hiện hầu hết sự
thay đổi có ý nghĩa dưới dạng độ đo đã biết trước hoặc giá trị chuẩn (Bemdt và
Clifort, Bassen ville và Nikitov 1993 )
Các bài toán khác nhau này đỏi hỏi số lượng và dạng thông tin khác nhau nênchúng thường ảnh hưởng đến việc thiết kế và chọn thuật toán khai phá dữ liệu khácnhau
1.1.2.2.Các thành phần của thuật toán khai phá dữ liệu
Ba thành phần chủ yếu trong một thuật toán khai phá dữ liệu là trình diễn mô hình, đỏnh giá mô hình và phương pháp tìm kiếm.
Trình diễn mô hình : là việc xây dựng ngôn ngữ L để miêu tả các mẫu có thể
được khám phá Nếu sự mô tả này bị giới hạn quá thì sẽ không xây dựng được mô
hình chính xác cho dữ liệu, vì thế người phân tích dữ liệu phải hiểu đầy đủ các khảnăng tiêu biểu của phương pháp được dùng Ngoài ra người thiết kế thuật toán cũngcần chỉ rõ giả thiết mô tả nào được tạo bởi thuật toán nào.Sự trình diễn càng mạnh thì
Trang 10độ nguy hiểm đối với mô hình càng tăng bao trùm lên kết quả dữ liệu dạy, giảm bớt độchính xác dự báo trên dữ liệu chưa biết và còn làm cho việc tìm kiếm trở nên phức tạp
và việc giải thích mô hình khó hơn
Đỏnh giá mô hình : ước lượng các mẫu riêng (mô hình và các tham số của
nó) là tốt đến mức độ nào theo tiêu chuẩn của quá trình KDD Việc đánh giá độ chính
xác của dự báo dựa trên sự đỏnh giỏ chéo Đỏnh giá chất lượng dự báo bao gồm độchính xác dự báo, tính mới, tính tiện ích, và tính dễ hiểu của mô hình phù hợp Cả haitiêu chuẩn logic và thống kê có thể được dùng để đỏnh giá mô hình
Phương pháp tìm kiếm : bao gồm hai thành phần là tìm kiếm tham số và tìm
kiếm mô hình Trong tìm kiếm tham số, thuật toán bắt buộc tìm kiếm tham số sao cho
tối ưu mô hình theo tiêu chuẩn đỏnh giá được cho theo dữ liệu quan sát và cách trìnhbày mô hình đã định Trong tìm kiếm mô hình, miêu tả mô hình được thay đổi để xétmột họ các mô hình mới Với mỗi cách biểu diễn mô hình, phương pháp tìm kiếmtham số được áp dụng để đỏnh giá chất lượng mô hình Các phương pháp tìm kiếm môhình thường sử dụng các kỹ thuật tìm kiếm heristic do kích thước lớn của không giancác mô hình thường cản trở việc tìm kiếm toàn diện
1.1.2.3.Các phương pháp khai phá dữ liệu phổ biến
Có rất nhiều các phương pháp khai phá dữ liệu, mỗi phương phỏp có đặc điểmriêng về trình diễn mô hình, đỏnh giá mô hình và cách tìm kiếm, phù hợp với một lớpcác bài toán với các dạng dữ liệu và miền dữ liệu nhất định Dưới đõy là một sốphương pháp phổ biến thường dùng :
Cây quyết định và luật : sử dụng sự phân chia đa dạng có một trình bày
đơn giản, tạo ra các mô hình phỏng đoán dễ dàng liên quan tới hiểu biếtcủa người sử dụng
Phương pháp phân lớp và hồi quy phi tuyến : các phương pháp này
bao gồm một họ các kỹ thuật để quyết định là một tổ hợp tuyến tính hoặcphi tuyến của các hàm cơ sở (sigma, đa thức, ) theo tổ hợp của các biếnvào
Phương pháp dựa trên ví dụ :dựng các ví dụ đại diện từ một CSDL để
xấp xỉ một mô hình, chẳng hạn, dự đoỏn các ví dụ mới nhận được từ cáctính chất của các ví dụ “tương tự” trong mô hình đã biết để dự báo Các
kỹ thuật là : kỹ thuật phân lớp người láng giềng gần nhất và thuật toán
Trang 11hồi quy (Dasarathy, 1991) và hệ lập luận dựa theo trường hợp riêng(Kolodner, 1993).
Mô hình phụ thuộc đồ thị xác suất : Mô hình đồ thị định rõ sự phụ
thuộc xác suất làm cơ sở của mô hình bộ phận sử dụng cấu trúc đồ thị(Pearl 1988; Whittaker 1990)
Mô hình học quan hệ : trong khi cây quyết định và các quy tắc (luật)
cho một sự trình bày bị hạn chế bởi logic mệnh đề, học quan hệ (cònđược gọi là chương trình logic đệ quy) sử dụng ngôn ngữ mẫu mềm dẻohơn của logic thứ tự bậc một
Hầu hết các kỹ thuật khai phá dữ liệu đều mới mẻ đối với lĩnh vực kinh doanh.Hơn nữa lại có rất nhiều kỹ thuật, mỗi kỹ thuật được sử dụng cho nhiều bài toán khácnhau Mỗi phương pháp đều có điểm mạnh và điểm yếu của núm nhưng hầu hết cácđiểm yếu đều có thể khắc phục được, vì vậy cần tìm cách áp dụng mỗi kỹ thuật mộtcách đơn giản, dễ sử dụng để không cảm thấy những phức tạp vốn có của kỹ thuật đó
Nhiều công ty đã đưa ra những sản phẩm sử dụng kết hợp nhiều kỹ thuật khaiphá dữ liệu khác nhau với hy vọng nhiều kỹ thuật thì sẽ tốt hơn Nhưng thực tế chothấy nhiều kỹ thuật chỉ thêm nhiều rắc rối và gõy khú khăn cho việc so sánh giữa cácphương pháp và các sản phẩm Theo nhiều đỏnh giá cho thấy khi đã hiểu được các kỹthuật và nghiên cứu tính giống nhau giữa chúng, người ta thấy rằng nhiều kỹ thuật lúcđầu thì có vẻ khác nhau nhưng thực chất khi hiểu ra được các kỹ thuật này thì thấychúng hoàn toàn giống nhau Tuy nhiên, đỏnh giá này cũng chỉ để tham khảo vì cho
Trang 12đến nay, khai phá dữ liệu vẫn còn là kỹ thuật mới chứa nhiều tiềm năng mà người tavẫn chưa khai thác hết.
1.1.3 Ứng dụng của Khai phá dữ liệu
Khai phá dữ liệu tuy là một lĩnh vực mới nhưng thu hút được rất nhiều sựquan tâm của các nhà nghiên cứu nhờ vào những ứng dụng thực tiễn của nó Chúng ta
có thể liệt kê ra đây một số ứng dụng điển hình:
Phân tích dữ liệu và hỗ trợ ra quyết định
Điều trị y học : mối liên hệ giữa triệu chứng, chẩn đoán và phương phápđiều trị (chế độ dinh dưỡng, thuốc men, phẩu thuật, …)
Khai phá Text (Text Mining) và Khai phá Web (Web mining): phân lớpvăn bản và các trang web, tóm tắt văn bản, v.v
Tin-sinh học : tìm kiếm, đối sỏnh cỏc hệ gene và thông tin di truyền,mối liên hệ giữa một số hệ gene và một số bệnh di truyền, v.v
Tài chính và thị trường chứng khoán : phân tích tình hình tài chính và
dự báo giá của các loại cổ phiếu trong thị trường chứng khoán, v.v
ra một cái nhìn tổng quan về các kỹ thuật phổ biến nhất trong lĩnh vực này
1.2 Khai phá dữ liệu Text
1.2.1 Giới thiệu
Xử lý ngôn ngữ tự nhiên không chuyên sâu (shallow) dựa trên các kỹ thuậtthống kê đã chứng tỏ sự thiếu hụt về những cải thiện quan trọng trong phép phân tíchvăn bản tự động, trong khi đó để hiểu văn bản một cách toàn diện thì vẫn còn là mộtmục tiêu khó khăn trong Trí tuệ nhân tạo Đến giữa những năm 90, tình trạng này đógiỳp tìm ra phương pháp mới trong phân tích văn bản ngôn ngữ tự nhiên, phương phápnày là trung gian giữa xử lý ngôn ngữ tự nhiên ngữ nghĩa nông và sâu, vì thế tìm rađược ý nghĩa và các tri thức ẩn giấu bên trong các tài liệu text Phương pháp này được
Trang 13gọi là Khai phá Dữ liệu Text (Text Data Mining – TDM) và nó quan tâm đến việc
trớch rỳt cỏc mối quan hệ hay các kết hợp mới và không tường minh giữa nhiều thựcthể text khác nhau từ các cơ sở dữ liệu text lớn Khái niệm Khai phá text là việc thúcđẩy các nguồn tài nguyên text hiện hành có kích thước lớn để khám phá, phát hiện racác tri thức mới được suy luận ra từ rất nhiều mẫu tương quan của các tài liệu khácnhau Các suy luận này sau đó sẽ sử dụng trong các ứng dụng có liên quan Một tínhnăng quan trọng của khai phá Text là nó biến đổi các văn bản ngôn ngữ tự nhiênkhông có cấu trúc thành dạng biểu diễn có cấu trúc để có thể khai phá các mối quan hệmới và hay Các văn bản ngôn ngữ tự nhiên ở dạng trình bày có cấu trúc càng được tổchức tốt thì càng khám phá ra nhiều thông tin mới mẻ và thú vị hơn
Trong khi lượng dữ liệu có cấu trúc là rất lớn và phát triển với nhịp độ nhanhchóng thỡ cỏc con số thống kê lại cho thấy chỉ một phần nhỏ (5- 10%) dữ liệu thu thậplại là đã từng được phân tích Điều này khiến cho nhiều nhiệm vụ quan trọng trở nênrất khó khăn thậm chí là không thể thực hiện được, chẳng hạn như việc tạo quyết định(decision-making) Vì thế, trong thập kỷ trước đõy, việc phân tích dữ liệu từ tuyển tậplớn các dữ liệu có cấu trúc tạo ra sự phát triển đáng kể trong lĩnh vực Khám phá Trithức trong Cơ sở dữ liệu
Trong những năm đầu 1990, nghiên cứu về cơ sở dữ liệu cho thấy rằng có thểlấy được các thông tin mới và hay bằng việc đỏnh giá sự sắp xếp các giá trị thuộc tínhhoặc các kết hợp giữa các mục khác nhau trong một cơ sở dữ liệu, sử dụng nhiều kỹthuật khác nhau, theo thứ tự từ các thống kê đơn giản đến các phép phân tích dữ liệuphức tạp trình độ cao Cách tiếp cận mới lạ này giỳp cỏc kỹ thuật tiến hành được trênmột khối lượng dữ liệu rất rộng lớn Ý tưởng về việc khởi đầu với chỉ một phần nhỏ
dữ liệu (dữ liệu huấn luyện- training data) sử dụng nhiều các kỹ thuật thống kê khácnhau được áp dụng Vì thế, có thể khám phá ra các mẫu và sự tương quan mới, cónghĩa Các mẫu này sau đó sẽ được test và lọc trên một tập khác gọi là tập dữ liệu test(test data) Ngoài các tập huấn luyện và tập test, còn sử dụng một tập kiểm định(validation set) để ước lượng các lỗi thường gặp phải và xác định mức độ thi hành củacác kiểu mẫu trong các ứng dụng thực tế
Ví dụ, trong tình huống một ứng dụng cho vay ngân hàng, ngân hàng sẽ quantâm vào con người nhiều hơn để xem cú nờn cho họ vay tiền hay không Một bản phântích chi tiết dữ liệu của ngân hàng có thể phát hiện ra các thông tin về loại danh mụcmọi người yêu thích nhất trong từng kiểu ngân hàng cho vay riêng Với kiểu ứng dụngnày, cơ sở dữ liệu gồm có các bản ghi về lượng khách của ngân hàng trong một số
Trang 14năm qua cùng với nhiều thông tin về từng khách như : tuổi tác, giới tính, tình trạnghôn nhân, nghề nghiệp, con cái, vân vân Sử dụng tập huấn luyện, các thuật toán thống
kê khác nhau nhận dạng các đặc trưng phân biệt những khách hàng vay tiền của mộtloại ngân hàng cho vay riêng biệt với những khách hàng không vay tiền ngân hàng đú.Trên cơ sở những kết hợp như vậy có thể nhận ra được những khách hàng nào có khảnăng sẽ là triển vọng tốt cho ngân hàng Bằng cách này, ngân hàng có thể xác địnhđược rủi ro khi cấp một khoản tiền cho vay cho một khách hàng cụ thể nào đó Nếumức độ rủi ro thấp thì chương trình (program) sẽ đề nghị người quản lý tiền chấp nhậncho khách vay
Còn có thể sử dụng phép phân tích này để phân loại cơ sở dữ liệu thành cỏcnhúm người có nhiều thuộc tính tương tự nhau với hy vọng sẽ khám phá ra nhiều mẫukhông mong đợi và quan trọng cho các nhiệm vụ tạo quyết định khác nhau Các mẫunày sau đó sẽ được trình bày thông qua việc sử dụng các mođun ảo Kiểu phân tíchnày cũng rất hữu ích trong các lĩnh vực khác ngoài lĩnh vực khám phá tri thức như :đỏnh giá xu hướng, dự đoán thị trường, và phân loại sở thích của khách hàng
Mặc dù có một lượng lớn thông tin được trình bày dưới dạng có cấu trúc,nhưng trong thực tế, lượng thông tin được biểu diễn dưới dạng text còn lớn hơn rấtnhiều Theo Gartner Group, “ngày nay, có tới 80% công việc kinh doanh được quản lýbởi các thông tin không có cấu trỳc” Vì thế, Khai phá Dữ liệu Text, một lĩnh vực mớicủa Khai phá Dữ liệu, phân tích dữ liệu Text lớn để trích rút ra các mẫu tri thức khôngtầm thường và quan trọng
Trên cơ sở áp dụng thành công các phương pháp thống kê Khai phá Dữ liệuvào CSDL, một số nghiên cứu tập trung chú ý vào phân tích các tài liệu Text nhằmphát hiện ra các mẫu mới, quan trọng và có ích cho các ứng dụng tìm hiểu văn bảnkhác nhau
1.2.2 Các bài toán trong Khai phá Dữ liệu Text.
Trong các dữ liệu hiện nay thì văn bản là một trong những dữ liệu phổ biếnnhất, nó có mặt ở khắp mọi nơi và chúng ta thường xuyên bắt gặp do đó các bài toán
về xử lý văn bản đã được đặt ra khỏ lõu và hiện nay vẫn là một trong những vấn đề
trong khai phá dữ liệu Text, trong đó có những bài toán đáng chú ý như Tìm kiếm thông tin (Information Retrieval -IR), Phân lớp và Phân cụm văn bản (Text Classification and Clustering), và Trích lọc thông tin (Information Extraction - IE)
Tìm kiếm văn bản
Trang 15Tìm kiếm văn bản là quá trình tìm kiếm văn bản theo yêu cầu của người dùng.Các yêu cầu được thể hiện dưới dạng các câu hỏi (query), dạng câu hỏi đơn giản nhất
là các từ khóa Có thể hình dung hệ tìm kiếm văn bản sắp xếp văn bản thành hai lớp:Một lớp cho ra những các văn bản thỏa mãn với câu hỏi đưa ra và một lớp không hiểnthị những văn bản không được thỏa mãn Các hệ thống thực tế hiện nay không hiển thịnhư vậy mà đưa ra các danh sách văn bản theo độ quan trọng của văn bản tuỳ theo cáccâu hỏi đưa vào, cỏc mỏy tỡm tin như Google, Altavista,…là các hệ thống tìm kiếmvăn bản như vậy
Quá trình tìm tin được chia thành bốn quá trình chính :
Đánh chỉ số (indexing) : Các văn bản ở dạng thô cần được chuyển sang một
dạng biểu diễn nào đó để xử lý Quá trình này còn được gọi là quá trình biểu diễn vănbản, dạng biểu diễn phải có cấu trúc và dễ dàng khi xử lý
Định dạng câu hỏi: Người dùng phải mô tả những yêu cầu về lấy thông tin
cần thiết dưới dạng câu hỏi Các câu hỏi này phải được biểu diễn dưới dạng phổ biếncho các hệ tìm kiếm như nhập vào các từ khóa cần tìm Ngoài ra cũn cú cỏc phươngpháp định dạng câu hỏi dưới dạng ngôn ngữ tự nhiên hoặc dưới dạng các ví dụ, đối vớicác dạng này thì cần có các kỹ thuật xử lý phức tạp hơn Trong các hệ tìm tin hiện naythì đại đa số là dùng câu hỏi dưới dạng các từ khóa
So sánh: Hệ thống phải có sự so sánh rõ ràng và hoàn toàn các câu hỏi của
người dùng với các văn bản được lưu trữ trong CSDL Cuối cùng hệ đưa ra một quyếtđịnh phân loại các văn bản có độ liên quan gần với câu hỏi đưa vào và thứ tự của nó
Hệ thống sẽ hiển thị một phần hoặc toàn bộ văn bản
Phản hồi: Nhiều khi kết quả được trả về ban đầu không thỏa mãn yêu cầu của
người dùng, do đó cần phải có quá trình phản hồi để người dùng có thể thay đổi hoặcnhập mới các yêu cầu của mình Mặt khác, người dùng có thể tương tác với các hệ vềcác văn bản thỏa mãn yêu cầu của mình và hệ có chức năng cập nhật các văn bản đó.Quá trình này được gọi là quá trình phản hồi liên quan (Relevance feeback)
Phân lớp văn bản
Phân lớp văn bản được xem như là quá trình gỏn cỏc văn bản vào một haynhiều lớp văn bản đã xác định từ trước Có thể phân lớp các văn bản một cách thủcông, tức là đọc từng văn bản một và gỏn nó vào một lớp nào đó Cách này sẽ tốn rấtnhiều thời gian và công sức đối với nhiều văn bản và do đó không khả thi Do vậy màphải cú cỏc phương pháp phân lớp tự động Để phân lớp tự động người ta sử dụng các
Trang 16phương pháp học máy trong trí tuệ nhân tạo (Cây quyết định, Bayes, k người lánggiềng gần nhất)
Một trong những ứng dụng quan trọng nhất của phân lớp văn bản là trong tìmkiếm văn bản Từ một tập dữ liệu đã phân lớp các văn bản sẽ được đánh chỉ số đối vớitừng lớp tương ứng Người dùng có thể xác định chủ đề hoặc phân lớp văn bản màmình mong muốn tìm kiếm thông qua các câu hỏi
Một ứng dụng khác của phân lớp văn bản là trong lĩnh vực tìm hiểu văn bản.Phân lớp văn bản có thể được sử dụng để lọc các văn bản hoặc một phần các văn bảnchứa dữ liệu cần tìm mà không làm mất đi tính phức tạp của ngôn ngữ tự nhiên
Trong phân lớp văn bản, một lớp có thể được gán giá trị đúng sai (True hayFalse hoặc văn bản thuộc hay không thuộc lớp) hoặc được tính theo mức độ phụ thuộc(văn bản cú mụt mức độ phụ thuộc vào lớp) Trong trường hợp có nhiều lớp thì phânloại đúng sai sẽ là việc xem một văn bản có thuộc vào một lớp duy nhất nào đó haykhông
Quá trình phân lớp văn bản tuân theo các bước sau:
Đánh chỉ số: Quá trình đánh chỉ số văn bản cũng giống như trong quá trình
đánh chỉ số của tìm kiếm văn bản Trong phần này thì tốc độ đánh chỉ số đóng vai tròquan trọng vì một số các văn bản mới có thể cần đươc xử lý trong thời gớan thực
Xác định bộ phân lớp: Cũng giống như trong tìm kiếm văn bản, phân lớp văn
bản yêu cầu quá trình diễn tả việc xác định văn bản đó thuộc lớp nào đó như thế nào,dựa trên cấu trúc biểu diễn của nó Đối với hệ phân lớp văn bản, chúng ta gọi quá trìnhnày là bộ phân lớp (Categorization hoặc classifier) Nó đóng vai trò như những câu hỏitrong hệ tìm kiếm Nhưng trong khi những câu hỏi mang tính nhất thời, thì bộ phânloại được sử dụng một cách ổn định và lâu dài cho quá trình phân loại
So sánh: Trong hầu hết các bộ phân loại, mỗi văn bản đều được yêu cầu gán
đúng sai vào một lớp nào đó Sự khác nhau lớn nhất đối với quá trình so sánh trong hệtìm kiếm văn bản là mỗi văn bản chỉ được so sánh với một số lượng các lớp một lần vàviệcc họn quyết đnịh phù hợp còn phụ thuộc vào mối quan hệ giữa các lớp văn bản
Phản hồi (Hay thích nghi): Quá trình phản hồi đóng vai trò trong hệ phân lớp
văn bản Thứ nhất là khi phân loại thì phải cú mụt số lượng lớn các văn bản đã đượcxếp loại bằng tay trước đó, các văn bản này được sử dụng làm mẫu huấn luyện để hỗtrợ xây dựng bộ phân loại Thứ hai là đối với việc phân loại văn bản này không dễdàng thay đổi các yêu cầu như trong quá trình phản hồi của tìm kiếm văn bản , người
Trang 17dùng có thể thông tin cho người bảo trì hệ thống về việc xóa bỏ, thêm vào hoặc thayđổi các phân lớp văn bản nào đó mà mình yêu cầu.
Phân cụm văn bản
Phân cụm văn bản là việc tự động sinh ra các lớp văn bản dựa vào sự tương tựcủa các văn bản Các lớp văn bản ở đõy là chưa biết trước, người dùng có thể chỉ yêucầu số lượng các lớp cần phân loại, hệ sẽ đưa ra các văn bản theo từng tập hợp, từngcụm, mỗi tập hợp chứa các văn bản tương tự nhau
Trích lọc thông tin
Là quá trình scan tập văn bản tỡm cỏc thông tin về các nhiệm vụ hay sự kiện
đã xác định để fill vào một khuôn mẫu thích hợp Ví dụ như việc lấy ra các thông tinxác định trước về sự kiện khủng bố có thể là kẻ khủng bố, nạn nhân, hay dụng cụ némbom dùng để tấn công, v.v…
1.2.3 Các vấn đề quan trọng trong Khai phá Dữ liệu Text.
Các nhà nghiên cứu đã xác định ba vấn đề chớnh cú ảnh hưởng lớn đến sự thihành của các hệ thống Khai phá Text như sau :
1 Sự trình diễn nào là phù hợp nhất cho Khai phá Text ?
2 Các kỹ thuật phát hiện mẫu nào là thành công nhất ?
3 Hiển thị các kết quả như thế nào để phép phân tích có ảnh hưởng tốthơn ?
Có thể giải thích sự thành công của các kỹ thuật Khai phá dữ liệu trong việcphân tích các nguồn dữ liệu có cấu trúc lớn bằng thực tế dựa trên cấu trúc tường minhcủa cơ sở dữ liệu quan hệ đặc trưng bởi các trường hoàn toàn xác định (well defined)
và các ID của các cặp giá trị - thuộc tính Hơn nữa, trong CSDL, ý nghĩa của mỗitrường là hoàn toàn xác định và đã biết trước
Các tài liệu ngôn ngữ tự nhiên lưu trữ thông tin rất đa dạng, phong phú nên làrất khó để có thể tự động biểu diễn trong một form Một trong những vấn đề quantrọng nhất của Khai phá Dữ liệu Text là xác định cách trình bày nội dung văn bản saocho phù hợp nhất để có thể tự động dò tìm ra các tri thức mới và đáng quan tâm Điềunày có nghĩa là sự tổ chức của cách trình bày có cấu trúc của văn bản ngôn ngữ tựnhiên càng tốt thì càng khám phá được nhiều thông tin mới, quan trọng
Trang 18Vấn đề quan trọng thứ hai của Khai phá Text là tìm hiểu đâu là các kỹ thuật
xử lý văn bản tốt nhất có thể tìm ra nhiều tri thức được mã hoá hoàn toàn trong cáchtrình bày văn bản Một ghi chú quan trọng đó là có một mối tương quan rất lớn giữacách trình bày văn bản và các kỹ thuật dùng để khai phá các thông tin hữu ích Các kỹthuật này phải thích ứng với cách trình bày nội dung của văn bản, vì thông tin khôngđược lấy ra từ cách trình bày thì cũng không thể được biểu diễn trong các kết quả cuốicùng
Bước cuối trong quá trình Khai phá Text là việc trực quan hoỏ cỏc quan hệ đãđược khai phá Bước này rất quan trọng vì nội dung của các tài liệu text có thể thay đổirất nhiều, và nó thường hoàn lại các lỗi phát sinh trong bước xử lý, giúp cho ngườiphân tích hiểu được những gì sẽ xảy ra và nhìn bức tranh tổng thế một cách tốt hơn Vìngười phân tích không biết những gì sẽ được khám phá nên rất khó để áp dụng outputcủa hệ thống vào một vấn đề thương mại hoàn toàn xác định Có quá nhiều cách đểtrình bày mô hình bằng đồ hoạ Vì thế, nên chọn sử dụng mô hình trực quan hoá dựatheo yêu cầu của người dùng
1.2.4 Phân loại các hệ thống Khai phá Text
Có thể phân loại các hệ thống khai phá thành ba kiểu chính dựa vào các cấutrúc sử dụng cho việc tổ chức văn bản và các phương pháp khai phá áp dụng trờn cỏccấu trúc này như sau:
A Các hệ thống quan tâm tới các phương pháp Khai phá Dữ liệu
B Các hệ thống phối hợp giữa các phương pháp Khai phá Dữ liệu và các
kỹ thuật ngữ nghĩa từ vựng (lexical semantic techniques)(phương pháp lai)
C Các hệ thống chỉ dựa vào các phương pháp ngữ nghĩa từ vựng
Thông thường, mỗi hệ thống thường làm ba nhiệm vụ chính :
• Các kỹ thuật khai phá để phát hiện các mẫu, và
A Từ Khai phá Dữ liệu tới Khai phá văn bản
Xử lý văn bản
Nhiều hệ thống Khai phá Text dựa vào các kỹ thuật Khai phá Dữ liệu để tìm racác mẫu thông tin quan trọng trong một cấu trúc từ hay cụm từ
Trang 19Trên cơ sở những tiến bộ đạt được những năm đầu 1990 trong Tìm kiếmThông tin và Phân lớp văn bản [2][3], các nhà nghiên cứu Khai phá Text cho rằngcách trình bày shallow các thông tin đúng theo nguyên bản có thể cung cấp mộtframework tốt, hoàn toàn phù hợp với nhiều nhiệm vụ truy xuất thông tin khác nhau.
Sử dụng các kỹ thuật Phân lớp văn bản, các tài liệu sẽ được phân vào các lớp xác địnhtrước và được gán với các thuật ngữ để nhận dạng nội dung của chúng [8], [9], [7],[19] Sau đú các thuật ngữ sẽ được sắp xếp vào các cấu trúc khác nhau đã có từ trước,chẳng hạn như biểu đồ xoắn trực tiếp (directed acyclic graphs) hoặc các templateTrớch rỳt thông tin có khả năng tổng quát hoá và chuẩn bị dữ liệu cho việc ứng dụngcác kỹ thuật Khai phá Dữ liệu Ví dụ, Feldman và Dagan [7] sử dụng các hệ đẳng cấpkhái niệm đã xác định trước cho hệ thống KDT của họ, các hệ đẳng này dựa trên cácthuộc tính thừa kế trong đó thuộc tính cha biểu thị khái niệm tổng quát hơn thuộc tính
con (ví dụ : “Nhật -> G7-> Nước” )
Hệ đẳng cấp khái niệm hết sức đơn giản, thường có hai hoặc ba mức Cỏc nỳt
biểu diễn các lớp phân loại miền cụ thể đã xác định trước (ví dụ : “countries”, “G7”,
“topics”) và cỏc lỏ biểu diễn các thẻ từ khoá (ví dụ, “Germany”, “Japan”, “Mexico”,
“algriculture”, và “metals”).
Hình 2.Một ví dụ về hệ đẳng cấp khái niệm sử dụng bởi hệ thống KDT[6]
Để giữa các từ khoỏ cú sự kết hợp tổng quát hơn, cỏc nỳt biểu diễn các lớptổng quát hơn và thường ghi nhãn các tài liệu Ví dụ, khi tính toán tỷ lệ của các tài liệu
được gỏn nhón “agriculture” cho các nước G7, lớp “G7” được dùng để thay thế cho
danh sách tất cả các nước là thành viên của G7 (hình 2)
Trang 20Khi các tài liệu đã được chú thích bởi các từ khóa đã có trong hệ đẳng cấp,bước tiếp theo là áp dụng các kỹ thuật thống kê để khám phá ra các mẫu quan trọng.
Ta coi hệ đẳng cấp khái niệm là một sác xuất phân loại (sự phân loại có khả năng xảy
ra ), có thể nhận biết được một vài kiểu phân loại khi so sánh với một hệ khái niệmcho trước Ví dụ, phân loại topic của mỗi nước thành viên của G7 có thể đem so sánhvới sự phân loại trung bình của topic cho tất cả các nước G7 Phân tích này phát hiện
ra các topic phổ biến nhất có tương quan lớn với các nước G7, và còn cả các đặc trưngquan trọng nhất cụ thể với mỗi nước
Một cách khác để biểu diễn tập văn bản cho mục đích Khai phá Text là dựngcỏc template đã xác định trước cùng với các phương phỏp trớch rỳt thông tin Một hệthống như vậy (DiscoTEX) được thi hành tại Trường đại học của Texas tại Austin năm
2000 [24] DiscoTEX tích hợp giữa các phương phỏp Trớch lọc Thông tin và các kỹthuật Khai phá Dữ liệu để lấy ra được các quan hệ cần thiết trong lĩnh vực của cáccông việc liên quan tới máy tính Vì Khai phá Dữ liệu truyền thống đòi hỏi dữ liệuphải được trình bày dưới dạng có cấu trúc, do đó hệ thống tận dụng được những thuậnlợi của Trích lọc thông tin cho từng phần tổ chức thông tin vào các template xác địnhtrước, như đã chỉ ra trong bảng 1
Bảng 1 Ví dụ về template IE chứa thông tin về các công việc liên quan tới máy tính
Trang 21[3] RAPIER là một hệ thống nghiên cứu luật quan hệ bottom- up, nó tìm được cácluật từ một corpus của các mẫu huấn luyện được gỏn nhón bằng cách sử dụng cácthông tin cú pháp có giới hạn (ví dụ như từ loại) Để phát hiện các luật dự báo, các cặpgiá trị - khe trong các template xác định trước được coi như là các thuộc tính nhị phân
không trùng lặp giống như “graphics ∈ area” (“đồ hoạ ∈ lĩnh vực ”) Sử dụng một từđiển đồng nghĩa nhỏ trong miền được chỉ định, tương tự như các thông tin lấp đầy khe
được thu thập lại trong một dạng chuẩn Ví dụ, các cụm từ kiểu như “Windows95, Win95, MSWin95” coi như là cùng nói tới một nội dung như nhau Sau khi các
template đã được lấp đầy, DiscoTEX sử dụng phương pháp quy nạp luật C4.5RULES[10] để nghiên cứu cỏc cõy quyết định được biến đổi thành các luật xén bớt (pruned)
Sử dụng cách này có thể khám phá ra các quan hệ quan trọng Ví dụ, mẫu “Java ∈
ngôn ngữ & Đồ hoạ ∈ lĩnh vực => Photoshop ∈ ứng dụng” cho thấy nếu một công
việc liên quan tới máy tính đòi hỏi kiến thức về Java trong lĩnh vực đồ hoạ thỡ nó cũnyêu cầu cả các kiến thức về Photoshop
Các kỹ thuật khai phá để phát hiện mẫu:
Hầu hết các kỹ thuật sử dụng trong Text Mining đều vay mượn từ DataMining (từ Khai phá Dữ liệu) và Machine Learning (Học Mỏy) Cỏc tài liệu Text cóthể được xem như là các cơ sở dữ liệu và một tập các từ hay cụm danh từ được coi như
là các bản ghi
1.Các kết hợp
Các kết hợp được giới thiệu trong Data Mining vào năm 1993 bởi Agrawal et
al [11] trong tình huống cơ sở dữ liệu quản lý kinh doanh cửa hàng tạp hoỏ Cỏc luậtkết hợp nhận dạng sự tương quan giữa các bản ghi CSDL dựa vào hai tham số :
support (hỗ trợ) và confidence (tin cậy).
Hãy xem xét một tập tài liệu D = {D 1 ,…, D n} được chú dẫn bởi tập các từ khoá
W = {w 1 ,…,w m}, trong đó : mỗi Di kết hợp với một tập con của W, ký hiệu là D i (W) Cho trước một tập con S w⊂ W, tập tất cả các tài liệu Di trong D sao cho
S w⊂ D i (W) được gọi là kỳ hạn của S w ([S w])
Một luật kết hợp, R : (S w → w), là bất kỳ một cặp (S w , w) nào sao cho S w ⊂ W
là một tập các từ khoá và w∈ W \ S w
Cho trước một luật kết hợp R : (S w → w), các tham số sau được định nghĩa :
a Support của R đối với tập D
Trang 22( |X| biểu thị là độ lớn của X)
b Confidence của R đối với tập D
C(R,D) là một sấp xỉ (ước lượng giống nhau tối đa) của các điều kiện có khả
năng xảy ra đối với một văn bản chú dẫn bằng từ khoá w nếu nó đã được chú thích bằng tập từ khoá S w rồi Confidence đo cường độ của luật trong khi đó support đo mức
độ thường xuyờn nó nờn xuất hiện trong CSDL
Một luật kết hợp R phát sinh từ tập văn bản D thoả món cỏc ràng buộc về độ
hỗ trợ và độ tin cậy σ và γ nếu :
S(R,D) ≥σ và C(R,D) ≥γ
Hai bước đòi hỏi phải rút ra các luật kết hợp : thứ nhất, phát sinh tất cả các tập
từ khoá với độ hỗ trợ thấp nhất σ (S w ≥ σ) (các tập thường xuyên); thứ hai, phát sinhtất cả các luật kết hợp xuất phát từ các tập thường xuyên đã xác định và thoả mãn ràngbuộc về độ tin cậy γ.
2 Các luật Episode
Một episode là một thuật ngữ Khai phá Dữ liệu nói tới các giá trị tạm thời vàcác mục dữ liệu Khi áp dụng vào văn bản [2], kỹ thuật này xác định sự xuất hiện và vịtrí của mỗi từ hay cụm từ trong tài liệu Không yêu cầu bắt buộc phải hiểu rõ văn bản
vỡ nó tìm kiếm các từ hay cụm từ cùng xuất hiện Ví dụ, luật epsilode cho cụm danh
từ “ Java programming for Unix” (“Lập trình Java cho Unix”) có thể là “Java,programming [3] – Unix [5] : 80%” chỉ ra rằng trong 80% (độ tin cậy) các trường hợp
khi “Java” và “programming” xuất hiện trong một cửa sổ nhỏ kích thước là 3, từ
“Unix” xuất hiện trong khoảng cách 5 từ Khi có độ tin cậy càng cao thỡ cỏc mẫu càng
quan trọng hơn.
3.Cây quyết định và học luật
Các kỹ thuật Học máy như cây quyết đinh (C4.5, C5.0) và học luật (FOIL )được áp dụng trong Text Khai phá cho nhiều ứng dụng khác nhau
Trang 23Một số hệ thống Khai phá Text [16], [17] sử dụng các thuật tốn cây quyếtđịnh như C4.5, C5.0 Sử dụng Hoovers.com trực tuyến lưu trữ thơng tin về cỏc cơng
ty, Ghani et al [16] khám phá ra các quy tắc quan trọng trong dữ liệu Với các kiếnthức thực tế về các cơng ty trên khắp thế giới, họ áp dụng phương pháp Học Máy đểlấy ra được sự kết hợp mới giữa các cơng ty Bắt đầu với một danh sách các miêu tả
như links-to, mention, perform-activity, officers, locations, v.v (liên kết- tới, đề cập,
phạm vi hoạt động – thi hành, viên chức, vị trí), hệ thống của họ thực hiện tìm kiếm
đơn giản các từ khố, ví dụ, “Microsoft, Seattle, WA.” (cho miêu tả location) Hơn nữa, chỳng trớch rỳt cỏc miêu tả sector dựa trên Náve Bayer [58] Để áp dụng các
thuật tốn Học Mỏy, cỏc thuộc tính liên tiếp được xét và ánh xạ vào các hàm logic.Kết quả trả về một số lượng lớn các thuộc tính được biểu diễn bằng các vectơ rải rác
Hệ thống sử dụng C5.0 (mở rộng của C4.5) để sinh ra cỏc cõy quyết định cho các tập
dữ liệu đã xét đến Để phát hiện ra các mẫu, tạo một tập luật từ tất cả các luật đã biếtcho mỗi phần từ gốc đến một lá trong cây quyết định Vì thế, cây quyết định dùng để
dự đoỏn các khu vực kinh tế miêu tả trong trang web của Hoovers Một ví dụ chotrường hợp này là dũ tỡm cỏc khu vực ngân hàng tại nước Mỹ
Sử dụng các miêu tả như “compete” và “sectors” (“cạnh tranh” và “khu vực”),
các học quan hệ ( relational learner), FOIL, tìm kiếm để phát hiện ra các quy tắc trong
cơ sở tri thức quan hệ FOIL là một thuật tốn Machine Learning, nghiên cứu cácmệnh đề HORN tự do hàm (function-free) sử dụng tìm kiếm leo đồi FOIL dựng cỏc
mẫu trong các quan hệ giữa các cơng ty để dị tìm ra các quy tắc quan trọng như : “cơ quan đầu não của các cơng ty nằm ở NewYork, khơng nằm trong vùng cơng nghiệp hơi đốt tự nhiên hoặc khu vực cơng nghệ mà nằm trong vùng cơng nghiệp phương tiện truyền thơng đại chúng” [16]
B.Phương pháp lai trong Khai phá dữ liệu Text
Các hệ thống Khai phá Text dựa trên các tài liệu text trình bày nơng (shallow)đạt được những kết quả rất cĩ giá trị Vào đầu năm 2000, các nhà nghiên cứu [17],[25], [14], [15] nhận thấy rằng cần quan tâm chú ý nhiều hơn đến việc hiểu và trìnhbày văn bản trong Khai phá Text Các tập văn bản phức tạp được so sánh với các cơ sở
dữ liệu vì thơng tin chỳng mĩ hoỏ cĩ thể được biểu diễn bằng nhiều cách khác nhau
Hệ thống khai phá Text IBM
Theo cách này, hai nhà nghiên cứu IBM, Nasukawa và Nagano, phát minh ramột hệ thống gọi là TAKMI [25] năm 2001sử dụng các miêu tả ngữ nghĩa phức tạp
Trang 24hơn trong tìm hiểu văn bản một cách tự động Họ tập trung vào phân tích chi tiết hơncác thông tin được mó hoỏ trong mỗi tài liệu để lấy ra được các mẫu đỏng giá từ cáctài liệu phức tạp.
Hệ thống TAKMI sử dụng ba miêu tả ngữ nghĩa trong các mođun trình bàyvăn bản của nó :
• Các miêu tả ngữ nghĩa cho các từ hay cụm từ quan trọng
thông tin từ vựng
• Các cặp từ hay cụm từ phụ thuộc
Các đặc trưng ngữ nghĩa (Semantic features)
Vỡ các tài liệu sử dụng bởi hệ thống TAKMI là lĩnh vực chỉ định trước, nên hệthống tự động lấy ra danh sách các từ được sắp xếp theo thứ tự tần số xuất hiện củachúng trong các tài liệu Danh sách này sau đó sẽ được đưa tới các nhà chuyên môntrong lĩnh vực đó để gỏn cỏc loại ngữ nghĩa một cách thủ công và xác định các diễn
đạt đồng nghĩa Ví dụ, danh từ “battery” được gán với loại ngữ nghĩa là “hardware”.
Phân tích khái niệm (Intention analysis)
Sau khi phân tích chi tiết các tài liệu biểu diễn các bản ghi text về các điểmgặp gỡ của khách hàng, Nasukawa và Nagano nhận thấy ngữ cảnh nên trình bày saocho phản ánh được tính đa nghĩa của thông tin, đặc biệt là trong cỏc cõu văn biểu thịcác khái niệm gợi mở, chẳng hạn như :
• X did fail => fail [complaint]
(X đã trượt => trượt [kêu ca, phàn nàn])
• X did not fail => not fail [commendation]
(X đã không trượt => không trượt [khen ngợi])
• Did X fail ? => fail [question]
(X có trượt không ? => trượt [câu hỏi])
Để tự động tìm ra các diễn đạt như trên, văn bản được xử lý, phải gán thẻ từ
loại và phân tích cú pháp nông, và sau đó tìm ra các luật được áp dụng Ví dụ, “please + VERB => VERB [request]” (“please + Động từ => Động từ [câu cầu khiến]”).
Phân tích sự phụ thuộc ( Dependence analysis).
Trang 25Điều này có nghĩa là có thể rút ra được các dấu hiệu của khái niệm bằng việcphân tích ngữ pháp nhằm tìm ra sự phụ thuộc cục bộ giữa các nhóm động từ và nhómdanh từ đã tìm ra trong bước phân tích khái niệm Ví dụ, cặp chủ ngữ - vị ngữ trongcùng một câu văn được coi như là có sự phụ thuộc lẫn nhau nếu không có nhóm động
từ hay liên từ ở giữa chúng :
“Program A is good, but Program B is bad”
“Program A [sofware]… good[commendation], Program B [software]
… bad[complaint]”
(“Chương trình A chạy tốt, nhưng Chương trình B chạy dở”
“Chương trình A [phần mềm]… tụt[khen ngợi], Chương trình B [phần mềm] … dở[phàn nàn]”)
Các mô tả ngữ nghĩa cho phép hệ thống phân tích nội dung văn bản từ cácđiểm nhìn của các lớp ngữ nghĩa khác nhau và tìm ra các mô tả quan trọng cho một sốtopic thông qua việc phân tích sự kết hợp giữa các khái niệm
Một trong những bất lợi chính của phương pháp này bắt nguồn từ các ứngdụng của phương pháp thống kê trong cách trình bày các tài liệu Text không chuyênsâu Thông tin rút ra chủ yếu biểu diễn dưới dạng túi các từ (bag- of- words) kết hợpvới rất ít thông tin ngữ nghĩa Bởi vậy, thậm chí là các tài liệu nói về các lĩnh vực cụthể, ứng dụng các kỹ thuật Khai phá dữ liệu vẫn phát sinh rất nhiều lỗi do tính đanghĩa của ngôn ngữ, và làm giảm đi giá trị của các mẫu đã phát hiện được Ví dụ,Ghani et al [16] chỉ ra rằng trong một số cuộc thí nghiệm Khai phá Dữ liệu trờn cỏcthông tin từ trang Web, có khoảng 90% các luật kết hợp đã khám phá được là khôngđúng do hiểu sai ngữ nghĩa
Một vấn đề nữa trong các hệ thống này phát sinh do ứng dụng các luật kếthợp Các luật này là kết quả của một trong những kỹ thuật thường dùng nhất trongKhai phá Dữ liệu, do vậy mà trong Khai phá Dữ liệu Text chỉ biểu thị những tươngquan có thực giữa các mục văn bản khác nhau mà không đề cập tới tính chất của kếthợp Có thể giải thích vấn đề này là do rất khó khăn để phân biệt được sự khác nhaugiữa các tương quan và các quan hệ hoàn toàn xác định khác, do đó cần sử dụng cácphương pháp thống kê
C.Khai phá Text bằng cơ sở tri thức ngữ nghĩa từ vựng
Trang 26Gần đõy, một lĩnh vực khác được xem là có nhiều tiến triển trong việc tìmhiểu văn bản và có thể mang lại một giải pháp cho các vấn đề phức tạp đó là Khai pháText bằng cơ sở tri thức nghĩa từ vựng Trong cơ sở tri thức ngữ nghĩa từ vựng, thôngtin biểu diễn dưới dạng các khái niệm được tổ chức trong các cấu trúc hệ đẳng cấp vàliên kết bởi các quan hệ ngữ nghĩa Các khái niệm sắp xếp theo thứ tự từ các đơn vịtext đơn giản, như các từ, tới các cấu trúc phức tạp hơn, chẳng hạn là các cụm danh từphức Cỏc quan hệ nghĩa từ vựng rất quan trọng trong xây dựng dữ liệu từ vựng, đặcbiệt là trong một tổ chức có thứ bậc Chúng được dùng rộng rãi và được định giá trong
cơ sở tri thức từ vựng, ví dụ như MindNet [21] và WordNet [22] Cách trình bày thôngtin văn bản theo nghĩa từ vựng là rất tốt khi dùng để suy luận [12]
Một trong những lĩnh vực cải thiện hướng tới Khai phá Text là mở rộng mộtcách tự động cơ sở tri thức ngữ nghĩa từ vựng đã có với các quan hệ ngữ nghĩa mới
Để các tài liệu text đạt được độ che phủ rộng, yêu cầu phải phân tích các thông tin ngữnghĩa và cú pháp sâu Điều này là để tự động nhận dạng các mẫu cú pháp - từ vựngmới và có thể ứng dụng được Ngoài ra, nên đặc biệt chú trọng vào việc khai phá cácmẫu thông tin đa nghĩa và không tường minh, và không chỉ chú trọng vào các biểudiễn không nhập nhằng của các quan hệ ngữ nghĩa Tất cả các công việc này đòi hỏiphải phân tích ngữ nghĩa sâu
Thu thập các bài báo, các lĩnh vực cụ thể hoặc không cụ thể, có thể biểu thịmột chuỗi các kết nối logic giữa nhiều phần văn bản khác nhau Một số các quan hệnày được nêu một cách tường minh trong mỗi tài liệu thông qua việc sử dụng các cấutrúc cú pháp và từ vựng nhập nhằng hoặc đã xác định trước Tuy nhiên, hầu hết các kếtnối logic là không tường minh và chỉ có thể dùng một dãy các bước lập luận dựa trênphân tích ngữ nghĩa tập tài liệu dưới gúc nhỡn tổng thể mới làm sáng tỏ ý nghĩa củachúng Phương pháp này dẫn tới việc phát hiện ra các quan hệ mới rất có ích cho nhiềuứng dụng khác nhau như : y khoa, sinh học, tài chớnh…
1.3.Kết luận chương 1
Chương này đã trình bày những nội dung cơ bản về khai phá dữ liệu, khai pháText và các một số phương pháp khai phá nhằm đưa ra một cái nhìn tổng quan nhất vềlĩnh vực còn mới mẻ nhưng cũng hết sức quan trọng này Việc phát hiện tri thức trongCSDL là rất cần thiết và là quá trình gồm nhiều giai đoạn, trong đó khai phá dữ liệu làbước quan trọng nhất và tiêu tốn nhiều thời gian nhất Trong một tập lớn các tài liệuvăn bản thì giữa các đoạn văn bản có mối liên hệ với nhau bằng các quan hệ ngữnghĩa, các quan hệ này cũng được sử dụng rất rộng rãi trong ngôn ngữ nói và viết
Trang 27Trong phần sau sẽ trình bày chi tiết về khái niệm, ý nghĩa và cấu trúc của một trongnhững quan hệ ngữ nghĩa này - quan hệ nguyên nhân - kết quả đồng thời cũng trìnhbày một thuật toán phát hiện các quan hệ nguyên nhân - kết quả đó trong các tài liệuvăn bản
CHƯƠNG 2 QUAN HỆ NGUYÊN NHÂN - KẾT QUẢ VÀ THUẬT TOÁN PHÁT HIỆN QUAN HỆ NGUYÊN NHÂN - KẾT
QUẢ
2.1 Giới thiệu
Trong việc hiểu ngôn ngữ tự nhiên, các kiểu thông tin khác nhau như : từvựng, cú pháp, ngữ nghĩa, các kiến thức xã hội và thực tế giữ một vai trò quan trọng
Trang 28trong việc xây dựng cách trình bày câu văn và ngôn từ Các nhà nghiên cứu đã tranhluận về tính mạch lạc của các tài liệu văn bản có thể giải thích được trong các quan hệngữ nghĩa giữa nhiều đoạn văn bản khác nhau Ví dụ, các mệnh đề chính và phụ trongcâu văn sau liên kết với nhau bởi một quan hệ nguyên nhân - kết quả thể hiện bởi giới
từ “so” :
“John was in a hurry, so he took a bus.”
Tìm ra các quan hệ kết nối là một công việc quan trọng để mô hình hoá quátrình nhận thức văn bản của con người và tự động tìm hiểu và phát sinh văn bản Hơnnữa, các quan hệ ngữ nghĩa là một yếu tố cốt lõi trong việc phân loại các cơ sở tri thứcngữ nghĩa từ vựng thích hợp với các mục đích suy luận
Trong cơ sở tri thức ngữ nghĩa từ vựng, thông tin được biểu diễn dưới dạngcác khái niệm trong các cấu trúc phân cấp và kết nối với nhau bởi các quan hệ ngữnghĩa Các khái niệm có thể rất đơn giản như là các từ, hoặc cũng có thể có các cấutrúc phức tạp hơn như là các cụm danh từ Các quan hệ ngữ nghĩa từ vựng có vai trò
để kết cấu dữ liệu từ vựng, đặc biệt là trong các cấu trúc phân cấp
2.2 Các quan hệ ngữ nghĩa trong cơ sở tri thức ngữ nghĩa từ vựng
Theo Corina Roxana Girju, các quan hệ ngữ nghĩa quan trọng nhất là khái quát- cụ thể (hypernymy/ hyponymy), tổng thể - bộ phận(meronymy/ holonymy), nguyờn nhõn-kết quả(causality), đồng nghĩa (synonymy), trái nghĩa (antonymy ).
Khái quát -cụ thể : là một quan hệ ngữ nghĩa cơ bản tạo nên các từ vựng ngữ
nghĩa Nó được dùng để phân lớp các thực thể khác nhau tạo nên các ontology phân
cấp Một khái niệm là khái quát của một khái niệm khác nếu nó tổng quát hơn khái
niệm đó Ví dụ “mốo” (“cat”) là một loài vật thuộc “họ mốo” (“feline”) Quan hệ nàythích hợp cho các danh từ
Trong hầu hết các từ vựng ngữ nghĩa, một từ có thể có nhiều khái quát và còn
có thể có nhiều cụ thể Khi một từ có nhiều hơn một khái quát, nó có nhiều nghĩa liờn quan đến các khái niệm khác nhau tuỳ thuộc vào ngữ cảnh Ví dụ, danh từ “mouse” có hai khái quát tuỳ theo ngữ cảnh sử dụng nó là “animal” (động vật) hoặc “electronic device”(thiết bị điện tử).
Trong quan hệ Khái quát cụ thể, nếu A là khái quát của B và B là một khái quát của C thì A cũng là khái quát của C Đặc điểm này tạo điều kiện thuận lợi cho
việc tổ chức ngôn ngữ tự nhiên vào các cấu trúc phân cấp Các cấu trúc này rất mạnh