Khai phá dữ liệu văn bản bằng lý thuyết tập thô

MỤC LỤC Lời cảm ơn ...................................................................................................... i LỜI CAM ĐOAN .......................................................................................... ii MỤC LỤC .................................................................................................... iii DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIẾT TẮT ................................... vi DANH MỤC BẢNG .................................................................................... vii DANH MỤC HÌNH .................................................................................... viii MỞ ĐẦU ....................................................................................................... 1 1. Tính cấp thiết của đề tài .............................................................................. 1 2. Mục tiêu của đề tài ..................................................................................... 2 3. Ý nghĩa của đề tài ....................................................................................... 3 PHẦN I: TỔNG QUAN TÀI LIỆU ................................................................ 4 1.1. Tổng quan về ô nhiễm kim loại nặng trong đất ........................................ 4 1.1. Khái niệm ô nhiễm kim loại nặng và ô nhiễm đất .................................... 4 1.2. Các nguồn gây ô nhiễm kim loại nặng trong đất ...................................... 4 1.3. Đặc điểm hoá học của Pb, Zn, Cd và As trong đất ................................... 7 1.2. Hoạt động khai thác khoáng sản và các vấn đề môi trƣờng liên quan ...... 9 1.2.1. Hoạt động khai thác khoáng sản ở Việt Nam ...................................... 11 1.2.2. Ảnh hƣởng của hoạt động khai thác khoáng sản đến môi trƣờng đất ở Việt Nam ...................................................................................................... 17 1.3. Các phƣơng pháp xử lý đất bị ô nhiễm kim loại nặng ............................ 20 1.3.1. Các nguyên tác chính để xử lý đất bị ô nhiễm ..................................... 21 1.3.2. Các phƣơng pháp truyền thống làm sạch đất ô nhiễm ......................... 21 1.4. Tổng quan về xử lý kim loại nặng trong đất bằng thực vật .................... 23 1.4.1. Cơ sở khoa học của công nghệ xử lý ô nhiễm kim loại nặng trong đất bằng thực vật ................................................................................................ 23 1.4.2. Một số kết quả nghiên cứu khả năng hấp thụ một số kim loại nặng bằng thực vật ........................................................................................................ 27 1.4.3. Triển vọng của công nghệ thực vật xử lý kim loại nặng trong đất ....... 28 PHẦN II: ĐỐI TƢỢNG, NỘI DUNG VÀ PHƢƠNG PHÁP NGHIÊN CỨU ..................................................................................................................... 30

Trang 1

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT VÀ TRUYỀN THÔNG

LA ĐỨC DŨNG

KHAI PHÁ DỮ LIỆU VĂN BẢN BẰNG LÝ THUYẾT TẬP THÔ

LUẬN VĂN THẠC SỸ 0KHOA HỌC MÁY TÍNH

Thái Nguyên – 2011

Trang 2

LA ĐỨC DŨNG

KHAI PHÁ DỮ LIỆU VĂN BẢN BẰNG LÝ THUYẾT TẬP THÔ

LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH

Chuyên ngành: Khoa học máy tính

Mã số: 60.48.01

NGƯỜI HƯỚNG DẪN KHOA HỌC: GS.TS Vũ Đức Thi

Trang 3

MỤC LỤC

LỜI CẢM ƠN I

LỜI CAM ĐOAN II

DANH MỤC CÁC HÌNH VẼ III

DANH MỤC CÁC BẢNG BIỂU IV

DANH MỤC CHỮ VIẾT TẮT V

LỜI MỞ ĐẦU 1

CHƯƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VĂN BẢN VÀ LÝ THUYẾT TẬP THÔ 4

1.1 Khai phá dữ liệu văn bản 4

1.1.1 Khai phá dữ liệu 4

1.1.1.1 Khái niệm 4

1.1.1.2 Lịch sử nghiên cứu 5

1.1.1.3 Các khía cạnh khai phá chủ yếu 5

1.1.1.4 Quy trình của DM 7

1.1.1.5 Các phương pháp của DM 7

1.1.2 Khai phá dữ liệu văn bản 11

1.1.2.1 Khái niệm 11

1.1.2.2 Các kỹ thuật khai phá văn bản 13

1.2 Khai phá tri thức ứng dụng lý thuyết tập thô 17

1.2.1 Khai phá tri thức theo cách tiếp cận tập thô 17

Trang 4

1.2.1.1 Một số khái niệm 17

1.2.1.1.1 Hệ thống thông tin 17

1.2.1.1.2 Khái niêm về bảng quyết định……….19

1.2.1.1.3 Khái niệm quan hệ không phân biệt được trong hệ thông tin.20 1.2.1.1.4 Khái niệm tập các nhát cắt, nhát cắt trong bảng quyết định 22

1.2.1.2 Tập thô trong không gian xấp xỉ 22

1.2.1.3 Khai phá tri thức theo cách tiếp cận tập thô 25

1.2.2 Sự rời rạc hoá dữ liệu theo cách tiếp cận tập thô 27

1.2.3 Lựa chọn thuộc tính dựa trên tập thô 27

1.2.4 Khám phá luật bới bảng phân bố tổng quát dựa trên tập thô 28

1.3 Kết luận chương 1 29

CHƯƠNG 2 MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU TRONG XỬ LÝ VĂN BẢN 30

2.1 Biểu diễn văn bản 30

2.1.1 Biểu diễn văn bản 30

2.1.2 Các phương pháp biểu diễn văn bản 30

2.1.2.1 Tiền xử lý văn bản 30

2.1.2.2 Mô hình Logic 32

2.1.2.3 Mô hình phân tích cú pháp 34

2.1.2.4 Mô hình không gian vector 35

2.1.2.5 Mô hình Boolean 36

2.1.2.6 Mô hình tần suất 37

2.1.2.7 Mô hình dựa trên tập mờ (Fuzzy Set) 39

2.1.2.8 Mô hình tập thô dung sai (Tolerance Rough Set Model-TRSM) .41

Trang 5

2.2 Các thuật toán lập nhóm văn bản 43

2.2.1 Thuật toán K – Means 43

2.2.2 Thuật toán lập nhóm theo cây phân cấp 44

2.2.2.1 Thuật toán theo cây phân cấp từ trên xuống ( Top Down Hierachical Clustering) 44

2.2.2.2 Thuật toán theo cây phân cấp từ dưới lên ( Bottom Up Hierachical Clustering) 45

2.2.2.3 Giải thuật lập nhóm Non Hierachical Clustering Overlap 45

2.2.2.4 Giải thuật lập nhóm Non Hierachical Clustering Non Overlap46 2.2.3 Xác định các thuật đại diện cho nhóm 46

2.2.4 Độ tương tự giữa văn bản và nhóm văn bản 47

2.3 Bài toán phân lớp văn bản 47

2.3.1 Bài toán 47

2.3.2 Các nghiên cứu liên quan 48

2.4 Các phương pháp phân lớp 49

2.4.1 Phân lớp dựa trên thuật toán Naive Bayes 49

2.4.2 Phương pháp K – Nearest Neighbor ( K-NN) 51

2.4.3 Phân lớp sử dụng Support Vector Machines (SVM) 52

CHƯƠNG 3 PHÂN LOẠI VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ ÁP DỤNG LÝ THUYẾT TẬP THÔ 55

3.1 Kiến trúc hệ thống phân loại văn bản tiếng Việt tự động 55

3.2 Các chức năng của hệ thống 56

3.2.1 Xây dựng tập văn bản dùng cho huấn luyện 56

Trang 6

3.2.2 Xây dựng tập từ dừng, từ tầm thường 56

3.2.3 Xây dựng tập thuật ngữ 56

3.2.4 Tiền xử lý văn bản đầu vào 56

3.2.5 Huấn luyện 57

3.2.6 Phân lớp văn bản 61

CHƯƠNG 4 XÂY DỰNG HỆ THỐNG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ 63

4.1 Môi trường và nền tảng ứng dụng 63

4.2 Giao diện hệ thống 65

4.3 Kết luận chương 4 67

PHỤ LỤC 1 DANH SÁCH CÁC TỪ DỪNG, TỪ TẦM THƯỜNG 73

Trang 7

Nguyên, Viện Công nghệ thông tin và các thầy cô giáo đã trực tiếp giảng dạy, hướng dẫn tôi trong quá trình học tập và định hướng quan trọng trong việc hình thành ý tưởng nghiên cứu

Tôi xin chân thành cảm ơn Chi bộ, BGĐ, BCH Công đoàn, Tổ Tự nhiên

và cán bộ giáo viên, công nhân viên Trung tâm GDTX Thiệu Hóa đã động viên, giúp đỡ và tạo điều kiện thuận lợi cho tôi trong quá trình học tập và nghiên cứu

Đặc biệt, tôi xin bày tỏ lòng biết ơn sâu sắc GS.TS Vũ Đức Thi, người thầy đã trực tiếp hướng dẫn và giúp đỡ tôi hoàn thành luận văn tốt nghiệp

Xin được cảm ơn bố mẹ, anh chị em gia đình nội ngoại tạo điều kiện về mọi mặt để bản thân hoàn thành tốt chương trình khóa học và bảo vệ luận văn hôm nay

Mặc dù đã có nhiều cố gắng, nhưng do thời gian có hạn và bản thân còn những hạn chế nhất định nên luận văn không tránh khỏi thiếu sót Mong nhận được các ý kiến phê bình, góp ý của Hội đồng chấm luận văn, các thầy cô giáo

và đồng nghiệp để công trình nghiên cứu được hoàn chỉnh hơn

Tác giả

La Đức Dũng

Trang 8

Tôi xin cam đoan luận văn này là công trình do tôi tổng hợp và nghiên cứu Trong luận văn có sử dụng một số tài liệu tham khảo như đã nêu trong phần tài liệu tham khảo

Tác giả Luận văn

La Đức Dũng

Trang 9

Hình 1.1 Quy trình DM 7

Hình 1.2 Các chức năng chính của khai phá dữ liệu .12

Hình 2.1 Mô tả tần suất các từ .32

Hình 2.2 Biểu diễn các vector văn bản trong không gian 2 chiều…… 35

Hình 2.4 : Mô hình SVM .53

Hình 3.1 Kiến trúc hệ thống phân loại văn bản áp dụng lý thuyết tập thô.55 Hình 3.2 Quy trình tiền xử lý văn bản .57

Hình 3.3 Thuật toán tiền xử lý văn bản .57

Hình 3.4 Cập nhật giá trị tần suất thuật ngữ .58

Hình 3.5 Thuật toán cập nhật trọng số cho các thuật ngữ .58

Hình 3.6 Tạo lớp dung sai xấp xỉ cho các thuật ngữ .59

Hình 3.7 Thuật toán tạo lớp dung sai cho các thuật ngữ .59

Hình 3.8 Sơ đồ tạo tập xấp xỉ .60

Hình 3.9 Thuật toán tạo xấp xỉ trên và xấp xỉ dưới .60

Hình 3.10 Phân lớp văn bản .61

Hình 3.11 Thuật toán phân lớp văn bản .62

Hình 4.1 Hệ thống phân loại văn bản tiếng Việt tự động 653

Hình 4.2 Kho lưu trữ các văn bản dành cho huấn luyện 654

Hình 4.3 Mô tả file huấn luyện của hệ thống 664

Hình 4.4 Hệ thống VLSP 665

Hình 4.5 Bảng cơ sở dữ liệu 675

Hình 4.6 Giao diện chính 66

Hình 4.7 Giao diện huấn luyện 66

Hình 4.8 Giao diện quy trình phân lớp……….67

Trang 10

Bảng 1.1 Ví dụ về hệ thống thông tin……….18

Bảng 1.2 Ví dụ về bảng quyết định……… ….19

Bảng 2.1 Ví dụ về mô hình logic……… ……….33

Bảng 2 2 Ví dụ về mô hình không gian vector 36

Bảng 2.3 Mô tả giá trị của mô hình Boolean 37

Trang 11

5 PRE-TEXT Tiền xử lý văn bản

6 CRE-CLUS Tạo lớp dung sai

7 UP-TERM Cập nhật trọng số thuật ngữ

Trang 12

LỜI MỞ ĐẦU

1 Tính cấp thiết của đề tài

Với sự bùng nổ của công nghệ thông tin, trong những năm gần đây nó được áp dụng rộng rãi trong mọi lĩnh vực đời sống xã hội Các chuyên gia cho rằng, hiện nay chúng ta đang sống trong một xã hội “rất giàu về thông tin nhưng nghèo về tri thức” Chính vì vậy đòi hỏi phải phát triển các phương pháp khai phá, phát hiện ra những thông tin, tri thức có ích bị che lấp trong các “núi” dữ liệu phục vụ cho công việc của các nhà quản lý, các chuyên gia,

từ đó thúc đẩy khả năng sản xuất, kinh doanh, cạnh tranh của các tổ chức, doanh nghiệp Khai phá dữ liệu (Data Mining) là một lĩnh vực khoa học liên ngành mới xuất hiện gần đây nhằm đáp ứng nhu cầu này

Các kết quả nghiên cứu cùng với những ứng dụng thành công trong khai phá dữ liệu, khám phá tri thức cho thấy khai phá dữ liệu là một lĩnh vực khoa học tiềm năng, mang lại nhiều lợi ích, đồng thời có ưu thế hơn hẳn so với các công cụ phân tích dữ liệu truyền thống Hiện nay, các cơ sở dữ liệu (CSDL) cần khai phá thường có kích thước rất lớn, chẳng hạn các CSDL tin-sinh-học (Bioinformatics), CSDL đa phương tiện, CSDL giao tác, CSDL văn bản, Các CSDL này thường chứa tới hàng ngàn thuộc tính, gây rất nhiều khó khăn cho việc khai phá, thậm chí còn làm cho nhiệm vụ khai phá trở nên bất khả thi Vấn đề đặt ra là phải tìm cách rút gọn số thuộc tính mà không làm những thông tin cần thiết phục vụ nhiệm vụ khai phá

Khai phá dữ liệu là một lĩnh vực liên quan đến rất nhiều ngành học như hệ

cơ sở dữ liệu, thống kê, trực quan hóa với nhiều cách tiếp cận, sử dụng các

kỹ thuật khác nhau như mạng nơron, lý thuyết tập thô, tập mờ, biểu diễn tri thức, Khai phá dữ liệu là bước rất quan trọng nhằm trích suất ra các thông

Trang 13

tin có giá trị, có hiệu quả tiềm ẩn trong lượng dữ liệu lớn được lưu trữ trong các cơ sở dữ liệu, kho dữ liệu Để khai thác nguồn thông tin có hiệu quả thì các phương pháp quản trị và khai thác cơ sở dữ liệu truyền thống đang ngày càng không đáp ứng nhu cầu Vì vậy việc nghiên cứu tổ chức khai thác dữ liệu văn bản để khám phá tri thức thông tin là vấn đề cần thiết

Xuất phát từ những lý do trên, chúng tôi chọn và nghiên cứu đề tài luận

văn: “Khai phá dữ liệu văn bản bằng lý thuyết tập thô”

2 Mục tiêu của luận văn

Mục tiêu của luận văn là nghiên cứu lý thuyết tập thô phân loại văn bản tiếng Việt theo chủ đề

3 Các đóng góp của luận văn

Luận văn đã có ba đóng góp chính sau đây:

- Đề xuất phương pháp: Đề tài đã đề xuất được phương pháp phân loại

văn bản dựa trên lý thuyết tập thô

- Xây dựng hệ thống: Xây dựng hệ thống phân loại văn bản tiếng Việt

theo chủ đề dựa trên phương pháp đã đề xuất

- Xây dựng kho ngữ liệu: Các văn bản tiếng Việt được tổng hợp từ các

trang tin Việt nam http://www.vnexpress.net, http://vnbbnews.com và http://vietnamnet.vn

4 Bố cục của luận văn

Luận văn được bố cục thành 4 chương, gồm 74 trang

Chương 1 giới thiệu tổng quan về khai phá dữ liệu văn bản và lý thuyết tập thô

Chương 2 trình bày các phương pháp biểu diễn văn bản, phân nhóm và phân loại văn bản

Trang 14

Chương 3 trình bày kiến trúc hệ thống phân loại văn bản tự động và phương pháp phân loại văn bản áp dụng lý thuyết tập thô

Chương 4 Xây dựng hệ thống phân loại văn bản tiếng việt theo chủ đề Cuối cùng, luận văn đưa ra một số kết luận và đề xuất các hướng nghiên cứu trong tương lai

Trang 15

CHƯƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VĂN

BẢN VÀ LÝ THUYẾT TẬP THÔ

Trong chương này, chúng tôi trình bày tổng quan về khai phá dữ liệu bao gồm khai phá dữ liệu văn bản, các khía cạnh khai phá dữ liệu văn bản, các chu trình khai phá và tổng quan về lý thuyết tập thô

1.1 Khai phá dữ liệu văn bản

1.1.1 Khai phá dữ liệu

1.1.1.1 Khái niệm

Trước sự phát triển không ngừng của internet dẫn đến những kho dữ liệu

đã lưu trữ một lượng dữ liệu khổng lồ, trong lượng dữ liệu khổng lồ đó ẩn chứa rất nhiều những thông tin quan trọng Tuy nhiên, trước đây người ta vẫn thường sử dụng những phương pháp thủ công mà rất khó khăn để khai phá chúng Những thông tin quan trọng luôn thôi thúc con người tìm cách để khai phá Còn các hệ thống kho dữ liệu chỉ nhằm làm nhiệm vụ lưu trữ dữ liệu Cùng với sự phát triển của kỹ thuật máy tính và kỹ thuật thông tin, thông tin ngày càng được phát triển mạnh mẽ, đã vượt qua mọi khả năng phân tích thủ công của con người, cho dù hệ thống kho dữ liệu có thể nâng cao khả năng tìm kiếm, thống kê… nhưng không thể phát hiện được những mối quan

hệ và những quy luật nằm bên trong dữ liệu, đồng thời cũng không thể căn cứ vào những phương pháp phân tích truyền thống được nữa Trong một biển dữ liệu khổng lồ, làm thế nào để lấy được những thông tin có giá trị có tri thức đã trở thành một nhiệm vụ vô cùng quan trọng, Con người mong muốn loại bỏ những dữ liệu thô để chắt lọc những dữ liệu tinh, Khai phá dữ liệu DM bắt nguồn từ đây Nó xuất hiện vào cuối những năm 80 của thế kỷ 20, từ những năm 90 nó bắt đầu khởi phát, cho tới thế kỷ 21, rất nhiều các khái niệm gần

Trang 16

đúng với nó ví dụ KDD(Knowledge Discovery in Database), phân tích dữ liệu, Data Fusion, Data warehouse…

Trong lúc này, một lĩnh vực nằm trong ngành trí tuệ nhân tạo là học máy đang không ngừng phát triển Học máy làm nâng cao tính năng của những chương trình máy tính, thu nhận được từ nhiều ngành khoa học khác nhau bao gồm: trí tuệ nhân tạo, xác suất thống kê, tâm lý học, triết học… rồi căn cứ vào những mô hình học khác nhau để đưa ra phương pháp học, ví dụ: học không giám sát, học có giám sát, mạng noron và di truyền…

Cuối cùng: Data Mining là việc tiến hành xử lý, khai phá từ trong kho dữ

liệu lớn, không hoàn chỉnh, nhiều nhiễu, mơ hồ, để trích rút ra những thông tin có giá trị, có tri thức

1.1.1.2 Lịch sử nghiên cứu

Khái niệm về KDD lần đầu tiên được tổ chức vào ngày 20 tháng 8 năm

1989 tại hội nghị trí tuệ nhân tạo quốc tế lần thứ 11[32] thu hút các nhà khoa học từ 69 nước trên thế giới tham gia Từ đó tới nay, rất nhiều các chuyên gia, học giả ở nhiều quốc gia đã nghiên cứu về DM Các hiệp hội được hình thành như ACM SIGKDD, IEEE, ICDM, SDM, PAKDD, VLDB, FSKD, MLDM… Tại Việt Nam, khoảng 10 năm trở lại đây, ngày càng có nhiều các chuyên gia nghiên cứu DM và DM cũng ngày được phát triển, nó đang là một xu thế mới trong nghiên cứu để ứng dụng vào cuộc sống

1.1.1.3 Các khía cạnh khai phá chủ yếu

Nhiệm vụ chủ yếu là phân tích dữ liệu, phân lớp, phân loại, đo lường, đo

độ lệch …

Phân tích kết hợp (association analysic)

Khai phá luật kết hợp do Rakesh Apwal và cộng sự cùng đưa ra Giá trị giữa 2 biến hoặc hai biến trở lên tồn tại một tính quy luật được gọi là kết hợp

Trang 17

Luật kết hợp dữ liệu là một vấn đề khá quan trọng trong kho dữ liệu, để nhằm phát hiện ra tri thức Kết hợp được phân thành kết hợp đơn giản, kết hợp time-series và kết hợp nhân quả Mục đích của phân tích kết hợp là tìm ra mạng kết hợp tiềm ẩn trong kho dữ liệu

Phân lớp ( clustering )

Phân lớp là căn cứ vào tính chất của dữ liệu để phân thành từng lớp khác nhau Trong một lớp dữ liệu có nhiều đặc tính tương thích, phân lớp là căn cứ vào các đặc trưng khái quát của dữ liệu để phân chúng thành từng lớp khác nhau, ví dụ như căn cứ vào mô hình phân bố của dữ liệu, quan hệ giữa các thuộc tính của dữ liệu

Phân loại ( classification )

Phân loại là tìm ra khái niệm miêu tả của một lớp nào đó, nó đại diện cho chỉnh thể tin tức của dữ liệu, rồi dựa vào hàm miêu tả, đồng thời dùng hàm

mô tả này để miêu tả mô hình dữ liệu Thông thường, dùng mô hình cây quyết định để biểu thị Phân loại là lợi dụng việc huấn luyện tập dữ liệu thông qua một số các thuật toán nhất định để đạt được quy tắc phân loại

Dự đoán ( predication )

Dự đoán là lợi dụng lịch sử của dữ liệu để tìm ra được quy luật biến hóa, xây dựng mô hình, đồng thời từ mô hình đó để áp dụng vào loại dữ liệu trong tương lai để tiến hành khẳng định, khẳng định quan tâm tới độ tinh và tính chuẩn xác, thông thường dùng phương sai của khẳng định để đo lường

Mô hình chuỗi thời gian (time –series)

Time –series chỉ sự thông qua sự tuần tự của thời gian tìm kiếm những mô hình phát sinh Tựa như hồi quy, nó cũng dùng để nhận biết giá trị tương lai của dữ liệu

Trang 18

Độ lệch ( deviation)

Trong độ lệch bao gồm rất nhiều tri thức, trong kho dữ liệu, dữ liệu tồn tại những khác biệt, phát hiện những khác biết trong kho dữ liệu là rất quan trọng Độ lệch giữa kết quả quan sát được giữa giá trị trả về theo tính toán và kết quả thực tế

1.1.1.4 Quy trình của DM

Quy trình của DM theo sơ đồ như sau

- Gom (tập hợp) dữ liệu (Gathering): Đây là bước đầu tiên trong quá trình

khai phá dữ liệu, nó được khai thác trong một cơ sở dữ liệu, kho dữ liệu

- Trích lọc dữ liệu (Selection): Các dữ liệu được lựa chọn và phân chia theoo một số tiêu chuẩn nào đó

- Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu (Cleaning, Pre-processing

and Preparation): Đây là giai đoạn hết sức quan trọng trong quá trình khai phá

Đánh giá kết quả mẫu

Tri thức

Trích lọc dữ liệu

Làm sạch tiền xử lý

dữ liệu

Chuyển đổi dữ liệu Khai phá dữ liệu

Các mẫu

Dữ liệu

đã chuyển đổi

Dữ liệu qua tiền

xử lý

Dữ liệu Mục tiêu Internet

Gom dữ liệu

Dữ liệu

Trang 19

dữ liệu, nó tiến hành xử lý các dữ liệu bị lỗi, dư thừa, không có giá trị và không có khả năng kết nối dữ liệu do quá trình gọm cụm không đủ tính chặt chẽ, logic thành dạng sao cho giải thuật khai phá dữ có thể hiểu được

- Chuyển đổi dữ liệu (Transformation): Các dữ liệu được chuyển đổi sang các dạng phù hợp cho quá trình xử lý

- Phát hiện và trích mẫu dữ liệu (Pattern Extraction and Discovery) [21]: Chọn các thuật toán khai phá dữ liệu thích hợp khác nhau và thực hiện việc khai phá dữ liệu: Nhằm tìm được các mẫu có ý nghĩa dưới dạng biểu diễn tương ứng với ý nghĩa của nó Thuật toán thường là các nguyên tắc phân loại, nguyên tắc kết hợp

- Đánh giá kết quả mẫu (Evaluation of Result) [21]: Giai đoạn này, các mẫu

dữ liệu được chiết xuất ra bởi phần mềm khai phá dữ liệu Đặc điểm của mẫu

là phải mới mẻ, độ mới có thể được đo tương đương với độ thay đổi trong dữ liệu hoặc bằng tri thức Thông thường độ mới của mẫu được đánh giá bằng một hàm lôgic hoặc một hàm độ đo mới, độ bất ngờ của mẫu Mẫu còn phải

có khả năng sử dụng tiềm ẩn, phải có giá trị đối với dữ liệu mới độ chính xác nhất định Tuy nhiên không phải bất cứ dữ liệu nào cũng đều hữu ích, đôi khi

nó vẫn còn những sai lệch

1.1.1.5 Các phương pháp của DM

Các kỹ thuật của DM bao gồm học máy, trí tuệ nhân tạo và thống kê học Trí tuệ nhân tạo được áp dụng trong học máy thông qua các giải pháp của trí tuệ nhân tạo để nâng cao hiệu quả học giải quyết những vấn đề khoa học và

kỹ thuật còn tồn tại Dưới đây là một số phương thức mà khai phá dữ liệu thường dùng:

Mạng noron nhân tạo (Artificial neural networks )

Trang 20

Mạng noron mô tả kết cấu của bộ não người, cơ sở là mô hình MP và phương pháp học Hebb Nó có 3 mô hình mạng thần kinh chính:

(1) Mạng lan truyền tiến (mô hình học không giám sát)

(2) Mạng lan truyền ngược Giống mô hình mạng Hopfield

(3) Mạng tự tổ chức như mô hình ART, Koholon thường dùng trong trường hợp phân cụm, phân lớp …

Phương pháp di truyền (Genetic Algorithms)

Giải thuật di truyền là áp dụng quá trình tiến hóa của sinh vật, do yếu tố cấu thành:

(1) Lựa chọn (Selection):Lựa chọn cá thể trong một quần thể để lai ghép (2) Lai ghép (Crossover) Là quá trình lựa chọn 2 cá thể độc lập để lai ghép

(3) Biến dị (Mutation) Là quá trình biến dị trên từng cá thể ( ví dụ 0 biến

1, 1 biến 0…) để tạo ra một cá thể mới

Giải thuật di truyền thường dùng để sản sinh ra cá thể tốt hơn ở đời sau nhằm thỏa mãn một giá trị nào đó, thông qua quá trình di truyền, lai ghép, biến dị Giải thuật này thường dùng trong tính toán và phân loại học máy

Cây quyết định (decision trees)

Cây quyết định là sử dụng những thông tin lập luận để tìm kiếm những đặc trưng trong lượng thông tin lớn để tạo thành các điểm Trên thực tế, người ta thường sử dụng và ảnh hưởng nhiều nhất bởi cây quyết định do Qiulan nghiên cứu và phương pháp ID3

Tập thô (Rough set)

Tập thô được đề xuất bởi Zdzisław I Pawlak vào năm 1980 Tập thô mô

tả một cách hình thức tính xấp xỉ của một tập rõ bằng cận xấp xỉ trên và cận

Trang 21

xấp xỉ dưới Từ đó, người ta có thể dễ dàng xử lý những dữ liệu nhiễu, mơ hồ, chưa toàn vẹn, đặc tính của tập thô rất phù hợp với các bài toán khai phá dữ liệu để tìm ra tri thức Bài toán khai phá dữ liệu điển hình ứng dụng tập thô là bài toán phân hoạch, có nghĩa đưa về các lớp tương đương Mỗi một lớp đại diện có những đặc trưng riêng biệt, không giao nhau

Tập mờ (Fuzzy set)

Lý thuyết tập mờ là một phương pháp tiện lợi trong việc xử lý và biểu diễn các dạng dữ liệu không xác định Tập mờ không chỉ sử dụng trong việc biểu diễn và xử lý các dạng dữ liệu không toàn vẹn, không xác định mà còn

sử dụng rất tốt trong việc xử lý và phát triển các dạng cấu trúc mô hình dữ liệu không xác định, nó có tính năng linh hoạt hơn nhiều so với những phương pháp truyền thống

Hệ thống miễn dịch nhân tạo(Artificial Immune System )

Hệ thống miễn dịch nhân tạo mô phỏng hệ thống miễn dịch sinh vật Trong nó bao gồm mạng noron, thuật giải di truyền, hệ thống tổ kiến, …Nó được coi như một mô hình tiến hóa cấp cao, có khả năng kháng trừ các tác nhân khác và bảo trì sự ổn định Các khái niệm liên quan tới AIS: miễn dịch (immunity), kháng thể (antibody), kháng nguyên (antigen), self and non-self,

tế bào miễn dịch, tế bào B, tế bào T…

Như vậy, khai phá dữ liệu là một giai đoạn quan trọng trong quá trình khai phá tri thức và nó đang được áp dụng rộng rãi trong nhiều lĩnh vực như:

+ Phân tích dữ liệu và hỗ trợ ra quyết định

(data analysis & sdecisionsupport)

+ Điều trị y học (medical treatment)

+ Text mining & Web mining

+ Tài chính và thị trường chứng khoán (finance & stock market)

Trang 22

+ Bảo hiểm (insurance)

dẫn đường văn bản

Cơ sở dữ liệu dạng văn bản (Text) có thể chia làm hai loại sau:

Dạng nửa cấu trúc (semi-structured): Là những văn bản được tổ chức dưới dạng cấu trúc không chặt chẽ như bản ghi các ký hiệu đánh dấu văn bản

và vẫn thể hiện được nội dung chính của văn bản Ví dụ: Như các dạnh

HTML, email,

Dạng không có cấu trúc (unstructured): Những văn bản thông thường mà chúng ta thường đọc hàng ngày được thể hiện dưới dạng tự nhiên của con người và nó không có một cấu trúc định dạng nào Trên thế giới dữ liệu khoảng 90% ở dạng thông tin không có cấu trúc Ví dụ: Tạp chí, sách, bài viết được quản lý trong một mạng thư viện điện tử

Tuy nhiên việc phân làm hai loại cũng không thật rõ ràng, trong các hệ phần mềm, người ta thường phải sử dụng các phần kết hợp lại để thành một

hệ như trong các hệ tìm tin (Search Engine), hoặc trong bài toán tìm kiếm văn bản (Text Retrieval), một trong những lĩnh vực qua tâm nhất hiện nay Chẳng hạn trong hệ tìm kiếm như: Google, Yahoo, Teoma, Excite, Altavista, đều

Trang 23

tổ chức dữ liệu theo các nhóm và thư mục, mỗi nhóm lại có thể có nhiều nhóm con nằm trong đó

Khai phá dữ liệu dạng văn bản (Text Mining) [15]: là khai phá dữ liệu đối

với loại dữ liệu text và nó là quá trình phát hiện tri thức mới, có giá trị, tiềm

ẩn trong tập hợp văn bản Mang tính đa dạng về phát biểu khái niệm khai phá

dữ liệu

- Kiến trúc khai phá dữ liệu dạng văn bản: Khai phá dữ liệu dạng văn bản

gồm 6 bước, chia thành 3 chức năng chính [31]

Hình 1.2 Các chức năng chính của khai phá dữ liệu

+ Lựa chọn tài nguyên: Là tiến trình chọn tài nguyên để khai thác

+ Lựa chọn văn bản: Là tiến trình nhận diện + lựa chọn + thu lượm những

văn bản riêng lẻ từ những nguồn tài nguyên được lựa chọn

+ Rút trích thông tin: Là quá trình tự động thu thập dữ liệu từ nguồn tài

liệu ngôn ngữ tự nhiên không có cấu trúc

Quá trình này bao gồm: Xác định dạng thông tin chung (Template) -> Định hướng cho quá trình khai phá

- Phân tích thuật ngữ: Đây là quá trình xác định các thuật ngữ trong tài liệu Điều này đặc biệt hữu ích đối với các tài liệu chứa nhiều thuật ngữ phức tạp như các bản nghiên cứu khoa học

- Xác định tên thực thể: Đây là quá trình xác định tên của thực thể trong

ĐƢA DỮ LIỆU VÀO

KHO

RÚT TRÍCH THÔNG TIN

Trang 24

tài liệu như tên của 1 người hoặc tên một tổ chức

- Trích chọn sự việc: Đây là quá trình xác định và trích chọn các sự việc phức tạp từ tài liệu Những sự kiện này có thể là mối quan hệ giữa các thực thể hoặc các sự kiện

+ Trình diễn dữ liệu: Là đánh giá lựa chọn mô hình thích hợp, chất lượng

của dữ liệu có đáp ứng yêu cầu phân tích hay không và giải thích các kết quả Text mining nhằm phân tích và phát hiện các quan hệ trong khối dữ liệu văn bản lớn như các tập tin văn bản, các bảng tính, e-mail, các trang Web và các kho văn bản khác

Kỹ thuật này được ứng dụng trong một loạt các công cụ phần mềm thương mại Công cụ khai phá dữ liệu rất phù hợp với việc tìm kiếm, phân tích và phân lớp các dữ liệu văn bản không định dạng Các lĩnh vực ứng dụng như nghiên cứu thị trường, thu thập tình báo, v.v… Khai phá dữ liệu dạng văn bản

đã được sử dụng để phân tích câu trả lời cho các câu hỏi mở trong khảo sát thị

trường, tìm kiếm các tài liệu phức tạp

1.1.2.2 Các kỹ thuật khai phá văn bản

Tra cứu văn bản (Text Retrieval)

Là quá trình tìm kiếm văn bản theo yêu cầu của người dùng Các yêu cầu được thể hiện dưới dạng các câu hỏi (query), dạng câu hỏi đơn giản nhất là các từ khóa Có thể hình dung hệ tìm kiếm văn bản sắp xếp tập văn bản trong miền tìm kiếm thành hai lớp: Một lớp được hiển thị bao gồm các văn bản thỏa mãn với câu hỏi người dùng và một lớp không được hiển thị bao gồm các văn bản không thỏa mãn yêu cầu Thực tế, các hệ thống tìm kiếm điển hình hiện nay, chẳng hạn như các máy tìm kiếm như Google, Altavista, Yahoo, Teoma

…, không hoạt động như vậy mà đưa ra danh sách các văn bản theo độ liên

quan của văn bản với câu hỏi người dùng

Trang 25

Quá trình tìm kiếm: Quá trình tìm kiếm được chia thành bốn quá trình

thành phần chính:

- Đánh chỉ số (indexing): Các văn bản ở dạng thô cần được chuyển sang

một dạng biểu diễn nào đó để xử lý Quá trình này còn được gọi là quá trình biểu diễn văn bản, dạng biểu diễn phải có cấu trúc và dễ dàng khi xử lý Một nội dung quan trọng của khóa luận này là nghiên cứu cách thức biểu diễn văn bản sử dụng lý thuyết tập mờ nhằm có được biểu diễn văn bản mang nhiều

ngữ nghĩa hơn

- Định dạng câu hỏi: Người dùng phải mô tả những yêu cầu về lấy thông tin cần thiết dưới dạng câu hỏi Các câu hỏi này phải được biểu diễn dưới dạng phổ biến cho các hệ tìm kiếm như nhập vào các từ khóa cần tìm Ngoài

ra còn có các phương pháp định dạng câu hỏi dưới dạng ngôn ngữ tự nhiên hoặc dưới dạng các ví dụ, đối với các dạng này thì cần có các kỹ thuật xử lý phức tạp hơn Đại đa số hệ tìm kiếm hiện nay dùng câu hỏi dưới dạng các từ

khóa

- So sánh: Hệ thống phải thực hiện việc so sánh tường minh và toàn vẹn

câu hỏi của người dùng với các văn bản được lưu trữ trong CSDL Cuối cùng

hệ thống đưa ra một quyết định phân loại các văn bản theo độ liên quan gần với câu hỏi người dùng và sắp xếp theo thứ tự giảm dần của độ liên quan Hệ thống hoặc hiển thị toàn bộ văn bản hoặc chỉ một phần văn bản

- Phản hồi: Trong nhiều trường hợp, kết quả được trả về lúc đầu chưa phải

đã thỏa mãn yêu cầu của người dùng, do đó cần phải có quá trình phản hồi để người dùng có thể thay đổi lại hoặc nhập mới các yêu cầu của mình Mặt khác, người dùng có thể tương tác với các hệ về các văn bản thỏa mãn yêu cầu của mình và hệ có chức năng cập nhậu các văn bản đó Quá trình này

được gọi là quá trình phản hồi liên quan (Relevance feeback)

Trang 26

Các công cụ tìm kiếm hiện nay chủ yếu tập trung nhiều vào ba quá trình con đầu tiên, còn phần lớn chưa có quá trình phản hồi hay xử lý tương tác

người dùng và máy

Quá trình phản hồi hiện nay đang được nghiên cứu rộng rãi và riêng trong quá trình tương tác giao diện người máy đã xuất hiện hướng nghiên cứu được

gọi là tác tử giao diện (interface agent)

Phân lớp văn bản(Text Categoization)

Phân lớp văn bản [10][11][20] được xem như là quá trình gán các văn bản vào một hay nhiều lớp văn bản đã được xác định từ trước Người ta có thể phân lớp các văn bản một cách thủ công, tức là đọc nội dung từng văn bản một và gán nó vào một lớp nào đó Hệ thống quản lý tập gồm rất nhiều văn bản cho nên cách này sẽ tốn rất nhiều thời gian, công sức và do đó là không khả thi Do vậy mà phải có các phương pháp phân lớp tự động Để phân lớp

tự động người ta sử dụng các phương pháp học máy trong trí tuệ nhân tạo như Cây quyết định, Bayes, k người láng giềng gần nhất

Một trong những ứng dụng quan trọng nhất của phân lớp văn bản tự động

là ứng dụng trong các hệ thống tìm kiếm văn bản Từ một tập con văn bản đã phân lớp sẵn, tất cả các văn bản trong miền tìm kiếm sẽ được gán chỉ số lớp tương ứng Trong câu hỏi của mình, người dùng có thể xác định chủ đề hoặc lớp văn bản mà mình mong muốn tìm kiếm để hệ thống cung cấp đúng yêu

cầu của mình

Một ứng dụng khác của phân lớp văn bản là trong lĩnh vực hiểu văn bản Phân lớp văn bản có thể được sử dụng để lọc các văn bản hoặc một phần các văn bản chứa dữ liệu cần tìm mà không làm mất đi tính phức tạp của ngôn

ngữ tự nhiên

Trang 27

Trong phân lớp văn bản, sự tương ứng giữa một văn bản với một lớp hoặc thông qua việc gán giá trị đúng sai (True - văn bản thuộc lớp, hay False -văn bản không thuộc lớp) hoặc thông qua một độ phụ thuộc (đo độ phụ thuộc của văn bản vào lớp) Trong trường hợp có nhiều lớp thì phân loại đúng sai

sẽ là việc xem một văn bản có thuộc vào một lớp duy nhất nào đó hay không

* Quá trình phân lớp: Quá trình phân lớp văn bản tuân theo các bước sau:

- Đánh chỉ số: Quá trình đánh chỉ số văn bản cũng giống như trong quá trình đánh chỉ số của tìm kiếm văn bản Trong quá trình này thì tốc độ đánh chỉ số đóng vai trò quan trọng vì xuất hiện lượng đáng kể văn bản mới có thể cần được đánh chỉ số trong thời gian thực

- Xác định độ phân lớp: Cũng giống như trong tìm kiếm văn bản, phân lớp văn bản yêu cầu quá trình diễn tả việc xác định văn bản đó thuộc lớp nào

đó ra sao (mô hình phân lớp) dựa trên cấu trúc biểu diễn của nó Đối với hệ phân lớp văn bản, chúng ta gọi quá trình này là bộ phân lớp (Categorizator hoặc classifier) Nó đóng vai trò như các câu hỏi trong hệ tìm kiếm Tuy nhiên, trong khi những câu hỏi mang tính nhất thời, thì bộ phân lớp được sử dụng một cách ổn định và lâu dài cho quá trình phân lớp

- So sánh: Trong hầu hết các bộ phân lớp, mỗi văn bản đều được yêu cầu gán đúng sai vào một lớp nào đó Sự khác nhau lớn nhất đối với quá trình so sánh trong hệ tìm kiếm văn bản là mỗi văn bản chỉ được so sánh với một số lượng các lớp một lần và việc chọn quyết định phù hợp còn phụ thuộc vào mối quan hệ giữa các lớp văn bản

- Phản hồi (hay thích nghi): Quá trình phản hồi đóng vai trò quan trọng trong hệ phân lớp văn bản Thứ nhất, khi phân lớp thì phải có môt số lượng lớn các văn bản đã được xếp loại bằng tay trước đó, các văn bản này được sử dụng làm mẫu huấn luyện để hỗ trợ xây dựng bộ phân lớp Thứ hai, đối với

Trang 28

việc phân lớp văn bản thì không dễ dàng thay đổi các yêu cầu như trong quá trình phản hồi của tìm kiếm văn bản bởi vì người dùng chỉ có thể thông tin cho người bảo trì hệ thống về việc xóa bỏ, thêm vào hoặc thay đổi các phân

lớp văn bản nào đó mà mình yêu cầu

Phân cụm văn bản (Text Clustering)

Là đưa các văn bản có nội dung giống nhau vào thành từng nhóm

* Dẫn đường văn bản: Đưa một văn bản cho trước vào một chủ đề hoặc

một nơi lưu trữ nhất định theo yêu cầu người dùng

Tóm tắt văn bản

Là tóm tắt nội dung một văn bản cho trước

Trong các bài toán nêu trên, văn bản thường được biểu diễn thành một tập các thuộc tính đặc trưng cho văn bản đó Các quá trình xử lý và làm việc tiếp theo đều thực hiện trên các thuộc tính này Có nhiều tiêu chuẩn chọn lựa các thuộc tính để biểu diễn, tuy nhiên đều dựa trên việc xử lý từ khóa một cách tự

động

1.2 Khai phá tri thức ứng dụng lý thuyết tập thô

1.2.1 Khai phá tri thức theo cách tiếp cận tập thô

1.2.1.1 Một số khái niệm

1.2.1.1.1 Hệ thống thông tin (Information System): Là công cụ biểu diễn tri

thức dưới dạng một bảng dữ liệu gồm p cột ứng với p thuộc tính và n hàng ứng với n đối tượng Từ đầu những năm 80 Pawlak đã định nghĩa một khái

niệm mới là hệ thông tin (infomation system) dựa trên khái niệm bảng truyền thống như sau [8,18,22,23]:

Định nghĩa 1: Hệ Thống thông tin là một cặp S = (U, A)

Trong đó:

Trang 29

U : là một tập hữu hạn khác rỗng các đối tượng

A : là một tập hữu hạn khác rỗng các thuộc tính

a: U → Va với mọi a ∈ A Tập Va được gọi là tập giá trị của thuộc tính a

Ví dụ 1.1 Bảng 1.1 biểu diễn tập các loại sơn nhà U u u1 , 2 , ,u10,

Các loại sơn có màu sắc khác nhau (Xanh lam, Trắng, Hồng, Vàng), của hãng sản xuất khác nhau (Dulux, Nippon, Cova) và co dung tích khác nhau (100 lít, 50 lít, 20 lít, 5 lít)

Hệ thống thông tin S = (U, A ) biểu diễn tri thức như sau:

A = {Hãng sản xuất, Màu sắc, dung tích}

Vhãng sản xuất = (Dulux, Nippon, Cova)

VMàu sắc = (Xanh lam, Trắng, Hồng, Vàng)

VDung tích = (100 lít, 50 lít, 20 lít, 5 lít)

U Hãng sản xuất Màu sắc Dung tích

Nippon Xanh lam 100 lít

Trang 30

Định nghĩa 2: Với một hệ thông tin bất kỳ S = (U,A) và một tập không rỗng các thuộc tính B⊆A định nghĩa một hàm thông tin B như sau:

InfB = {(a, a(x)): a ∈ B} với mọi x ∈ A

Trường hợp đặc biệt B=A, khi đó tập {InfA(x): x ∈ A} được gọi là tập thông tin A, viết tắt là INF(A)

1.2.1.1.2 Khái niêm về bảng quyết định

Để có thể biểu diễn một dữ liệu thực tế, trong đó có những thuộc tính quyết đinh, chúng ta xét một trường hợp đặc biệt của hệ thông tin được gọi là bảng quyết định được định nghĩa như sau[24]

Định nghĩa 3: Bảng quyết định là một hệ thông tin có dạng

S = (U, A∪{d}), với d ∉A là thuộc tính phân biệt, được gọi là thuộc tính quyết định Các thành phần của A được gọi là các thuộc tính điều kiện

Ví dụ: Cho hệ thống thông tin A như sau:

U Hãng sản xuất Màu sắc Dung tích Mua

Dulux Xanh lam 100 lít Có Nippon Xanh lam 100 lít Không

Dulux Vàng 5 lít Không Dulux Xanh lam 50 lít Có Nippon Hồng 20 lít Không Nippon Hồng 20 lít Không

Dulux Xanh lam 50 lít Có

Bảng 1.2 Ví dụ về bảng quyết định

Trang 31

Tập thuộc tính điều kiện là {Hãng sản xuất, Màu sắc, dung tích} Dựa vào các thuộc tính này, người dùng có quyết định mua sơn hay không? Thuộc tính Mua là thuộc tính quyết định

Hệ thống thông tin trên được viết dưới dạng bảng quyết định như sau:

định

1.2.1.1.3 Khái niệm quan hệ không phân biệt được trong hệ thông tin

Một trong những đặc điểm cơ bản của lý thuyết tập thô là dùng để lưu giữ và

sử lý các dữ liệu trong đó có sự mập mờ, không phân biệt được [8,18,23] Trong một hệ thông tin theo định nghĩa trên cũng có thể có những đối tương không phân biệt được Trước tiên ta nhắc lại định nghĩa quan hệ tương đương như sau:

Trang 32

Định nghĩa 5: Một quan hệ hai ngôi (quan hệ nhị phân) R ⊆ U × U trên

U là một quan hệ tương đương khi nó có cả 3 tính chất:

- Phản xạ: Mọi đối tượng đều quan hệ với chính nó

- Đối xứng: Nếu xRy thì yRx

- Bắc cầu: Nếu xRy và yRz thì xRz

Quan hệ tương đương R sẽ chia tập các đối tượng U thành các lớp tương đương Lớp tương đương của phần tử x ∈U, ký hiệu là [x], chứa tất cả các đối tượng y mà xRy

Bây giờ chúng ta bắt đầu định nghĩa một quan hệ tương đương trên hệ thông tin Quan hệ này sau này được sử dụng đê biểu diễn những thông tin mập mờ, không rõ ràng

Định nghĩa 6: Cho hệ thống thông tin S = (U, A), tập con bất kỳ B  A, tồn tại một quan hệ tương đương (Kí hiệu INDA(B)) được xá định như sau:

INDA(B) = {(x,x‟)  U2 a  B: a(x) = a(x‟)}

INDA(B) được gọi là quan hệ không phân biệt nếu như hai đối tượng x,

x‟ mà (x,x‟)  INDA(B) thì x và x‟ là không phân biệt bởi các thuộc tính trong

B

Lớp tương theo quan hệ không phân biệt được B được biểu diễn là [x]B

Tập các lớp tương đương {X1, X2 … Xn} định nghĩa bởi quan hệ

INDA(B) được gọi là phân hoạch trên U, được ký hiệu là B*

hay U/ INDA(B)

Trang 33

1.2.1.4 Khái niệm tập các nhát cắt, nhát cắt trong bảng quyết định

Trong quá trình phân lớp và rời rạc dữ liệu, ta có thể dùng nhiều phương pháp Tuy nhiên, sử dụng nhát cắt để phân lớp dữ liệu là một trong những phương pháp phổ biến Ta xét đinh nghĩa nhát cắt dưới đây

Định nghĩa 7: Xét một bảng quyết định S =(U, A ∪ {d} )

,[),

la= a

a k a k a

a

r c c K c

1.2.1.2 Tập thô trong không gian xấp xỉ

Trang 34

Để hiểu rõ về việc hệ thông tin biểu diễn và xử lý dữ liệu thô như thế nào ta xét định nghĩa dưới đây Ta xét R là một quan hệ tương đương theo định nghĩa 6 với trường hợp đặc biệt B=A gồm tất cả các thuộc tính Lớp tương đương theo quan hệ R được gọi là các tập sơ cấp [8,22] và gọi E là tập các tập sơ cấp Z Pawlak đã đưa ra khái niệm tập mô tả được như sau [8]

Định nghĩa 8: Một tập con X khác rỗng các đối tượng được gọi là mô tả được khi và chỉ khi X là tập hợp của các tập sơ cấp trong hệ thông tin (trong trường hơp đặc biệt tập rỗng cũng được coi là tập mô tảđược)

Như vậy một tập các đối tượng bất kỳ có thể là mô tảđược hoặc không

mô tả được theo các tập sơ cấp E Một vấn đềđặt ra là làm sao có thể tìm ra một cách để biểu diễn các tập không mô tảđược theo các tập sơ cấp E Nhìn vào bảng quyết định, ta xét một tập các đối tượng X có cùng một giá trị của thuộc tính quyết định là d, khi đó sẽ có nhiều trường hợp X không mô tả được theo các tập sơ cấp Ta chỉ tìm được một tập mô tả được (có số đối tượng là nhỏ nhất) không những chứa tất cả các phần tử thuộc X mà còn chứa các phần

Trang 35

Theo định nghĩa trên thì khi gặp một tập X mà ta không thể mô tảđược bằng các tập sơ cấp E là các lớp tương đương của quan hệ INDA(B), ta chỉ có thể có được xấp xỉ trên và xấp xỉ dưới của nó

Ta ký hiệu –X thay cho U-X

b Người ta phân tập thô thành 4 loại [24]

- X là xác định thô thực sự theo B nếu BX   và BX  U

Trang 36

- X là không xác định bên trong theo B nếu BX =  và BX  U

- X là không xác định bên ngoài theo B nếu BX   và BX = U

- X là không xác định thực sự theo B nếu BX =  và BX = U

c Độ đo liên quan biên xấp xỉ: Tập thô được chỉ số hóa bởi hệ số sau:

( ) ( )

( )

B

B X X

d Xấp xỉ và liên quan phụ thuộc:

Quan hệ phụ thuộc biểu được phát biểu như sau:

xR X khi và chỉ khi xRX ( R: x chắc chắn thuộc vào X trên quan hệ R)

xR X khi và chỉ khi xRX ( R: x có thể thuộc vào X trên quan hệ R)

1.2.1.3 Khai phá tri thức theo cách tiếp cận tập thô

Lý thuyết tập thô (Rough Sets) được Zdzislaw Pawlak đề xuất vào đầu những năm 1980, nó được xem như một cách tiếp cận mới để xử lý các thông

Trang 37

tin mơ hồ và không chắc chắn, tạo thành một cơ sở vững chắc cho các ứng dụng khai phá dữ liệu, là công cụ để phát hiện các mẫu ẩn trong dữ liệu, phát hiện phụ thuộc một phần hay phụ thuộc hoàn toàn trong dữ liệu, loại bỏ dữ liệu dư thừa, đưa ra cách tiếp cận đối với vấn đề dữ liệu không đầy đủ Đặc biệt, RST có thể sử dụng trong vấn đề trích chọn đặc trưng, rút gọn dữ liệu, sinh luật quyết định và trích rút mẫu (các mẫu, các luật kết hợp)

Triết lý của RST dựa trên giả sử rằng, mọi đối tượng trong vũ trụ đều gắn với 1 thông tin nào đó Các đối tượng được đặc trưng bởi cùng một thông tin thì bất khả phân biệt Quan hệ tương đương là cơ sở toán học của RST

Trong RST, bất cứ khái niệm không rõ ràng nào đều được thay bằng một cặp khái niệm không chính xác gọi là xấp xỉ dưới và xấp xỉ trên của khái niệm không rõ ràng Xấp xỉ dưới gồm tất cả các đối tượng chắc chắn thuộc về khái niệm, xấp xi trên bao gồm tất cả các đối tượng có thể thuộc về khái niệm Hiệu của xấp xỉ dưới và xấp xỉ trên gọi là vùng biên của khái niệm không rõ ràng

Các phép toán cơ bản của RST được sử dụng để phát hiện các mẫu cơ sở trong dữ liệu Do đó, với một ý nghĩa nhất định, phương pháp luận RS cũng chính là học máy, phát hiện tri thức, suy diễn thống kê và suy diễn quy nạp Tuy nhiên, kết quả thu được không bó hẹp trong lý thuyết này và có thể được

sử dụng theo nhiều cách khác nhau

Ở một mức độ nhất định, RST giao với nhiều công cụ toán học khác được dùng để xử lý tri thức không đầy đủ Khái niệm tập thô (RS) và tập mờ (FS)

là khác nhau vì chúng biểu diễn các khía cạnh khác nhau của sự không chính xác Trong FS, sự không chính xác được biểu diễn bởi 1 hàm thuộc, còn trong

RS, khái niệm không rõ ràng dựa trên các xấp xỉ và sự không phân biện được

Trang 38

Bên cạnh đó, RST còn liên quan tới các phương pháp lập luận logic (Reasoning Boolean), cho dù giao với các công cụ toán học khác, RST vẫn là một môn khoa học nghiên cứu hoàn thiện và độc lập

1.2.2 Sự rời rạc hoá dữ liệu theo cách tiếp cận tập thô

Trong lĩnh vực khai phá tri thức, một vấn đề đặt ra là làm sao chúng ta có thể xử lý cả được những dữ liệu hỗn tạp với những giá trị liên tục Có rất nhiều thuật toán được sử dụng trong lĩnh vực rời rạc hoá dữ liệu như: Các phương pháp lập luận logic, thuật toán NAIVE, tuy nhiên không có một thuật toán được gọi là tối ưu và hiệu quả nhất Việc lưa chọn thuật toán vẫn còn phụ thuộc vào dạng dữ liệu mà chúng ta cần xử lý Các tác giả trong [22]

đã đưa ra một số phương pháp rời rạc hoá dữ liệu dựa trên tập thô và lập luận logic

Khi sử dụng phương pháp rời rạc hoá dữ liệu thì có nghĩa là chúng ta đã chấp nhận sai số trong dữ liệu Một ví dụ là khi đo về nhiệt độ của cơ thể thì

ta thương gặp những số thực nhưng chúng ta thường phải quy về giá trị nguyên hay những khoảng khác nhau tuỳ từng bài toán cụ thể Việc phân chia các giá trị thực thành các khoảng hợp lý là rất phức tạp Khi đó thường cần

phải có các chuyên gia trong các lĩnh vực cụ thể tham gia cùng

1.2.3 Lựa chọn thuộc tính dựa trên tập thô

Các cơ sở dữ liệu trong thực tế thương có rất nhiều thuộc tính, những thuộc tính cần thiết cho lĩnh vực mà bài toán khai phá dữ liệu mà chúng ta đang xử lý không phải là tất cả Việc lựa chọn những thuộc tính phù hợp để tiến hành các phương pháp khai phá dữ liệu là rất cần thiết Các thuộc tính dư thừa không cần thiết trong quá trình khai phá tri thức không chỉ làm cho bài toán trở lên phức tạp mà còn dẫn đền một thực tế là số tri thức được phát hiện

sẽ không nhiều vì phải phụ thuộc vào cả những thuộc tính không được coi là

Trang 39

đặc trưng của bài toán Mục tiêu của việc lựa chọn thuộc tính là phải đưa ra được một tập tối ưu các thuộc tính trong cơ sở dữ liệu Từ đó các luật sinh ra trong cơ sở dữ liệu sẽđạt được hiệu quả cao nhất, dữ liệu mà chúng ta thực sự phải làm việc sẽ nhỏ đi rất nhiều

Có hai phương pháp lựa chọn thuộc tính thường được sử dụng là lọc và bọc Trong đó thì phương pháp lọc thực chất là tìm những thuộc tính tối thiểu trong tập các thuộc tính, chọn ra các thuộc tính có độ phù hợp cao hơn theo tiêu chuẩn sau:

+ Lựa chọn những thuộc tính là cho số trường hợp thoả mãn tăng nhanh + Chọn những thuộc tính có it giá trị khác nhau

Phương pháp này là khá đơn giản và tốc độ là tương đối nhanh Phương pháp thứ hai sử dụng thuật toán quy nạp đánh giá Tư tưởng của thuật toán này là sử dụng 3 cách tìm kiếm: tìm kiếm toàn bộ, tìm kiếm kinh nghiệm và tìm kiếm không xác định

Phương pháp này sử dụng các thuật toán quy nạp nên độ phức tạp lớn nhưng bù lại thì kết quả mang lại sẽ chính xác và toàn diện hơn

1.2.4 Khám phá luật bới bảng phân bố tổng quát dựa trên tập thô

Bảng phân bố tổng quát có những đặc điểm sau:

- Bảng phân bố tổng quát mô tả quan hệ xác suất giữa các trường hợp có thể và các bộ sinh có thể

- Những trường hợp không thấy trong quá trình khai phá dữ liệu sự không chắc chắn của luật bao gồm cả khả năng dự đoán trước các trường hợp nó không được thể hiện rõ ràng trong độ mạnh của luật

- Có thể sử dụng tri thức nền làm cơ sở cho việc lập bảng phân bố tổng quát và quá trình khai phá

A Skowronvà Ning Zong [22] đã đưa ra phương pháp khám phá luật sư

Trang 40

dụng bảng phân bố tổng quát dựa trên tập thô với ý tưởng như sau:

- Từ bảng quyết định xây dựng bảng phân bố tổng quát

- Dựa trên các bảng phân bố tổng quát này sinh các vector phân biệt được

- Tạo ra các tập rút gọn được từ các tập vector phân biệt

- Sinh ra các luật bao phủ tất cả các trường hợp

1.3 Kết luận chương 1

Khai phá dữ liệu là rất quan trọng và cần thiết để trích rút ra những thông tin có giá trị nhằm mục đích phục vụ cho nhu cầu của con người Việc lựa chọn các phương pháp khai phá dữ liệu phù hợp sẽ giúp ích nhiều hơn trong quá trình khai phá các tri thức, trong đó có mô hình khai phá dữ liệu bằng công cụ tập thô

Tập thô thực sự có hiệu quả khi sử dụng giải quyết các bài toán có tính mơ

hồ, độ nhiễu cao dựa vào phán đoán các cận xấp xỉ của từng phần tử trong tập Do đó, luận văn này đã sử dụng tập thô trong bài toán khai phá dữ liệu văn bản cụ thể là phân loại văn bản theo chủ đề

Tiêu đề	Khái phá dữ liệu văn bản bằng lý thuyết tập thô
Tác giả	La Đức Dũng
Người hướng dẫn	GS.TS Vũ Đức Thi
Trường học	Trường Đại học CNTT và Truyền Thông, Đại học Thái Nguyên
Chuyên ngành	Khoa học máy tính
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2011
Thành phố	Thái Nguyên

Định dạng
Số trang	86
Dung lượng	1,33 MB

Khai phá dữ liệu văn bản bằng lý thuyết tập thô

Khái niêm về bảng quyết địnhẦẦẦẦẦẦẦẦẦẦ

Tập thô trong không gian xấp xỉ