Nghiên cứu rút gọn tập thuộc tính trong hệ quyết định giá trị tập
Trang 1LỜI CAM ĐOAN
Nghiên cứu sinh
Tôi xin cam đoan luận án này là công trình nghiên cứu của riêng tôi Các kết quả được viết chung với các tác giả khác đều được sự đồng ý của các đồng tác giả trước khi đưa vào luận án Các kết quả được trình bày trong luận án là mới, các số liệu
là trung thực và chưa từng được ai công bố trong các công trình nào khác./.
Trang 2LỜI CẢM ƠN
Luận án được hoàn thành dưới sự hướng dẫn, chỉ bảo tận tình của PGS.TSNguyễn Bá Tường, người mà từ đó tác giả đã học được nhiều điều quí giá Tác giảcũng đã nhận được sự hướng dẫn và sự quan tâm giúp đỡ về nhiều mặt, cùng vớinhững đòi hỏi nghiêm khắc của PGS.TS Hà Quang Thụy Tác giả xin bày tỏ lòngbiết ơn sâu sắc và chân thành tới những người Thầy đã giúp tác giả hoàn thànhnhững mục tiêu đặt ra của luận án
Tác giả xin chân thành cảm ơn tới tập thể các thầy cô giáo, các nhà khoa họcthuộc: Học viện Kỹ thuật Quân sự, Trường Đại học Công nghệ (đặc biệt là PhòngThí nghiệm Công nghệ Tri thức - KTLab) - Đại học Quốc gia Hà Nội, Trường Đạihọc Kinh tế Kỹ thuật Công nghiệp đã giúp đỡ về chuyên môn và tạo điều kiện thuậnlợi cho tác giả trong suốt thời gian học tập và nghiên cứu
Tác giả cũng xin bày tỏ lòng biết ơn đến các bạn đồng nghiệp đã giúp đỡ và cónhững trao đổi, chia sẻ những kinh nghiệm về chuyên môn, có nhiều ý kiến đónggóp quý báu cho tác giả trong quá trình nghiên cứu
Tác giả mãi biết ơn những người thân, đặc biệt là chồng và các con, đã luônchia sẻ mọi khó khăn và là chỗ dựa vững chắc về tinh thần và tạo mọi điều kiện chotác giả trong suốt thời gian hoàn thành luận án
Trang 3MỤC LỤC
LỜI CẢM ƠN ii
DANH MỤC CÁC THUẬT NGỮ vi
BẢNG KÝ HIỆU, TỪ VIẾT TẮT vii
DANH MỤC BẢNG ix
DANH MỤC HÌNH VẼ x
MỞ ĐẦU 1
Chương 1 LÝ THUYẾT TẬP THÔ VÀ CÁC MỞ RỘNG 9
1.1 Hệ thông tin và tập thô 9
1.1.1.Hệ thông tin 9
1.1.2.Quan hệ không phân biệt được 10
1.1.3.Các tập xấp xỉ 12
1.1.4.Các tính chất của xấp xỉ 15
1.1.5.Độ chính xác của xấp xỉ 16
1.1.6.Bảng quyết định 16
1.1.7.Quan hệ dung sai 18
1.2 Hệ thông tin giá trị tập 19
1.2.1 Khái niệm 19
1.2.2 Quan hệ dung sai trong hệ thông tin giá trị tập 20
1.2.3 Bảng quyết định giá trị tập 21
1.2.4 Tập thô theo quan hệ dung sai 21
1.3 Kết luận 22
Chương 2 RÚT GỌN THUỘC TÍNH THEO LÝ THUYẾT TẬP THÔ 24
2.1 Giới thiệu chung 24
2.2 Rút gọn thuộc tính trong hệ thông tin 25
2.2.1.Tập rút gọn và tập lõi 25
2.2.2.Ma trận phân biệt và hàm phân biệt 30
2.2.3.Phụ thuộc xấp xỉ 33
2.2.3.1 Hàm thành viên thô 34
Trang 42.2.3.2 Độ phụ thuộc xấp xỉ 35
2.3 Rút gọn thuộc tính trong hệ thông tin giá trị tập 35
2.3.1 Tập rút gọn trong hệ thông tin (bảng quyết định) giá trị tập 36
2.3.2 Ma trận phân biệt 36
2.3.3 Rút gọn thuộc tính sử dụng đối tượng đại diện 38
2.4 Kết luận 40
Chương 3 RÚT GỌN THUỘC TÍNH TRONG HỆ QUYẾT ĐỊNH GIÁ TRỊ TẬP SỬ DỤNG HÀM PHÂN BIỆT THEO BẢNG PHÂN BIỆT NGẪU NHIÊN 42
3.1 Cơ sở lý thuyết 42
3.1.1 Hàm phân biệt mở rộng 42
3.1.2 Bảng phân biệt ngẫu nhiên 44
3.1.3 Bảng ngẫu nhiên dung sai 49
3.1.4 Dàn giá trị thuộc tính 54
3.2 Thuật toán tìm tập rút gọn thuộc tính trong bảng quyết định giá trị tập 57
3.2.1 Thuật toán 3.1 tìm tập rút gọn thuộc tính GMDSDT 57
3.2.2 Độ phức tạp thuật toán GMDSDT 58
3.2.3 Ví dụ minh họa 58
3.3 Thực nghiệm thuật toán GMDSDT 61
3.3.1 Cài đặt thuật toán 62
3.3.2 Chuẩn bị số liệu thực nghiệm 62
3.3.3 Thi hành thực nghiệm thuật toán 62
3.4 Thuật toán tìm tập xấp xỉ trong hệ thông tin giá trị tập 65
3.4.1 Đặt vấn đề 65
3.4.2 Thuật toán tìm tập xấp xỉ dưới và xấp xỉ trên VASDT 66
3.4.3 Độ phức tạp của thuật toán VASDT 66
3.4.4 Ví dụ minh họa thuật toán tìm tập xấp xỉ 67
3.5 Kết luận 68
Chương 4 RÚT GỌN THUỘC TÍNH TRONG HỆ QUYẾT ĐỊNH GIÁ TRỊ TẬP SỬ DỤNG HÀM PHÂN BIỆT THEO MA TRẬN PHÂN BIỆT MỞ RỘNG 70
Trang 54.1 Chọn mẫu đại diện cho bài toán tìm tập rút gọn 70
4.1.1 Đặt vấn đề 70
4.1.2 Chọn tập đối tượng đại diện trong hệ thông tin giá trị tập 71
4.1.2.1 Cơ sở lý thuyết 71
4.1.2.2 Thuật toán chọn đối tượng đại diện trên hệ thông tin giá trị tập 73
4.1.2.3 Ví dụ minh họa 74
4.1.3 Chọn tập đối tượng đại diện trong bảng quyết định giá trị tập 75
4.1.3.1 Cơ sở lý thuyết 75
4.1.3.2 Thuật toán chọn đối tượng đại diện trên bảng quyết định giá trị tập 78
4.1.3.3 Ví dụ minh họa 79
4.2 Rút gọn thuộc tính trong bảng quyết định giá trị tập sử dụng hàm phân biệt mở rộng 80
4.2.1 Cơ sở lý thuyết 80
4.2.2 Thuật toán tìm tập rút gọn trong bảng quyết định giá trị tập sử dụng hàm phân biệt mở rộng 85
4.2.3 Đánh giá độ phức tạp của thuật toán RGDSDT 86
4.2.4 Ví dụ minh họa thuật toán RGDSDT 87
4.3 Rút gọn thuộc tính trong bảng quyết định giá trị tập khi bổ sung và loại bỏ thuộc tính 89
4.3.1 Cơ sở lý thuyết 89
4.3.2 Một số thuật toán gia tăng tìm tập rút gọn thuộc tính RSDTAAS và RSDTDA 95
4.3.3 Đánh giá độ phức tạp của các thuật toán RSDTAAS và RSDTDAS 96
4.3.4 Ví dụ minh họa thuật toán RSDTAAS và RSDTDAS 97
4.4 Thực nghiệm thuật toán RGDSDT 100
4.4.1 Cài đặt thuật toán RGDSDT 100
4.4.2 Thi hành thực nghiệm thuật toán RGDSDT 100
4.5 Kết luận chương 4 102
KẾT LUẬN VÀ KIẾN NGHỊ 103
DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ 105
TÀI LIỆU THAM KHẢO 106
Trang 6DANH MỤC CÁC THUẬT NGỮ
Bảng ngẫu nhiên dựa trên quan hệ dung sai Tolerance Based Contingency Table
Bảng quyết định giá trị tập Set valued Decision Information System
Hệ thông tin giá trị tập Set valued Information System
Hệ thông tin không nhất quán Inconsistent Information System
Ma trận không phân biệt được Indiscernibility Matrix
Quan hệ không phân biệt được Indiscernibility Relation
Trang 7IND B Quan hệ B không phân biệt
u B Lớp tương đương chứa u của quan hệ IND B
Hàm quyết định suy rộng của đối tượng u đối với B
BX B xấp xỉ dưới củaX trong hệ thông tin
BX B xấp xỉ trên của X trong hệ thông tin
Trang 8R Tập rút gọn dựa trên hàm quyết định suy rộng
Trang 9DANH MỤC BẢNG
Bảng 1.1 Một ví dụ về hệ thông tin 10
Bảng 1.2 Bảng quyết định về bệnh cúm 17
Bảng 1.3 Hệ thông tin giá trị tập 19
Bảng 2.1 Bảng rút gọn thứ nhất của hệ thống bệnh cúm R1 27
Bảng 2.2 Bảng rút gọn thứ hai của hệ thống bệnh cúm R2 28
Bảng 2.3 Ma trận phân biệt được xây dựng từ Bảng 1.2 31
Bảng 2.4 Ma trận phân biệt của bảng quyết định giá trị tập được xây dựng từ Bảng 1.3 35
Bảng 3.1 Bảng phân biệt ngẫu nhiên biểu diễn giá trị tập thuộc tính 49
Bảng 3.2 Minh họa giá trị của hàm phân biệt 54
Bảng 3.3 Bảng quyết định giá trị tập gồm 4 cột thuộc tính ( , , , )a a a a1 2 3 4 59
Bảng 3.4 Kết quả thực hiện Thuật toán GMDSDT 64
Bảng 3.5 Tập rút gọn của Thuật toán GMDSDT 64
Bảng 3.6 Bảng quyết định giá trị tập gồm 4 cột thuộc tính điều kiện và cột d X 67
Bảng 4.1 Bảng quyết định giá trị tập 74
Bảng 4.2 Hệ thông tin giá trị tập đại diện từ Bảng 4.1 75
Bảng 4.3 Bảng quyết định giá trị tập đại diện từ Bảng 4.1 79
Bảng 4.4 Bảng quyết định giá trị tập khi bổ sung a a5, 6 90
Bảng 4.5 Kết quả thực hiện Thuật toán RGDSDT và Thuật toán GMDSDT 100
Bảng 4.6 Tập rút gọn của Thuật toán RGDSDT và Thuật toán GMDSDT 101
Trang 10DANH MỤC HÌNH VẼ
Hình 3.1 Cấu trúc dàn của bảng quyết định giá trị tập 56 Hình 3.2 Minh họa các thuật toán tìm tập rút gọn 63 Hình 3.3 Minh họa thuật toán sử dụng hàm phân biệt 63
Trang 11MỞ ĐẦU Tính cấp thiết của đề tài
Lý thuyết tập thô được Zdzislaw Pawlak đề xuất vào năm 1982 [36, 38] mở ra
một tiếp cận mới về tính không chắc chắn (uncertainty) Xuất phát điểm của lý thuyết tập thô là khái niệm hệ thông tin (information system) được sử dụng để biểu
diễn dữ liệu có được về miền ứng dụng Một hệ thông tin [35] là một bộ bốn
, , ,
S U A V f bao gồm một tập (vũ trụ) gồm hữu hạn các đối tượng U (U ),một tập hữu hạn các thuộc tính A của các đối tượng ( A , một tập hữu hạn các
giá trị V (V), và một hàm thông tin f : U A V Tương ứng với mỗi thuộc
tính a A là tập giá trị tương ứng V a f u a( , )V, u U Trực quan hóa, một hệthông tin được trình bày dưới dạng một bảng hai chiều với các hàng là các đối
tượng u trong U (số lượng hàng là ||U||), các cột là các thuộc tính a trong A (số cột là
||A||) và phần tử tại hàng u, cột a là giá trị f(u,a) Khái niệm hệ thông tin làm nền tảng của một loạt khái niệm như tập sơ cấp (elementary set hay atom), tập hợp thành (composed set, còn được gọi là tập mô tả được), bảng quyết định (decision table, còn được gọi là hệ quyết định: decision system), quan hệ không phân biệt được (indiscernibility relation), không gian xấp xỉ (approximation space), tập xấp
xỉ (approximation set) v.v cùng với một tập phong phú các tính chất liên quan [36,
37, 38, 39, 40, 41, 42] làm nền tảng cho các tiếp cận đại số và logic cũng như một
số tiếp cận toán học đối với tính không chắc chắn Theo Zdzislaw Pawlak vàAndrzej Skowron [42], Andrzej Skowron và cộng sự [54], lý thuyết tập thô có ưuđiểm chính là không cần bất kỳ thông tin sơ bộ và bổ sung nào về dữ liệu như phân
bố xác suất trong thống kê, chuyển nhượng xác suất cơ bản trong lý thuyết chứngminh, một mức hàm thành viên hoặc giá trị khả năng trong lý thuyết tập mờ Chính
từ ưu điểm đó, lý thuyết tập thô giữ một vị trí nền tảng quan trọng trong trí tuệ nhân
tạo (artificial intelligence) và khoa học nhận thức (cognitive sciences), đặc biệt trong một loạt lĩnh vực nghiên cứu như học máy (machine learning), các hệ thống thông minh (intelligent systems), lập luận quy nạp (inductive reasoning), nhận dạng
Trang 12mẫu (pattern recognition), lý thuyết bộ phận-toàn bộ (mereology), phát hiện tri thức (knowledge discovery), phân tích quyết định (decision analysis), và các hệ chuyên gia (expert systems) [7, 38, 40, 42, 55, 56, 58] Trong thời đại kinh tế tri thức hiện
nay, tầm quan trọng của các lĩnh vực nghiên cứu trên đây ngày càng được nâng cao,tương ứng, lý thuyết tập thô ngày càng thu hút sự quan tâm của cộng đồng hàn lâm -
công nghiệp Hiệp hội tập thô thế giới (The International Rough Set Society
-IRSS1) đã được thành lập từ năm 2005 IRSS bao gồm một số hiệp hội thành viên2,
trong đó Hiệp hội Tập thô và Tính toán mềm Trung Quốc (Rough Set and Soft Computing Society, Chinese Association for AI3) là một hiệp hội thành viên điểnhình nhất Trong lời tựa Kỷ yếu Hội nghị khoa học thế giới về Tập thô và Các môhình hệ thống thông minh mới nổi năm 2007 (The International Conference onRough Sets and Emerging Intelligent Systems Paradigms: RSEISP 2007) tưởng nhớ
GS Zdzislaw Pawlak, Marzena Kryszkiewicz, và các cộng sự cho biết có hơn 4000
ấn phẩm khoa học về tập thô đã được công bố tới thời điểm đó Lý thuyết tập thô và
lý thuyết tập mờ (Fuzzy Set Theory) do Zadeh L.A đề xuất năm 1965 [72] là hai lýthuyết điển hình nhất về các mô hình biểu diễn tính không chắc chắn [22, 37]
Việc mở rộng lý thuyết tập thô nhằm làm cho các khái niệm và mô hình biểudiễn tri thức dựa trên lý thuyết tập thô ngày càng phù hợp với miền ứng dụng cũngngày càng được mở rộng [24, 37, 42, 43, 54] Theo Andrzej Skowron và cộng sự,
2013 [54], cộng đồng nghiên cứu quan tâm đặc biệt tới các tiếp cận mở rộng lýthuyết tập thô dựa trên tính tương tự (hay dung sai; similarity/tolerance based roughsets), tập thô dựa trên quan hệ nhị phân (binary relation based rough sets), tập thôlân cận và phủ (neighborhood and covering rough sets), tập thô trội (dominancebased rough sets), kết hợp tập thô và tập mờ (hybridization of rough sets and fuzzy
sets), v.v Trong tiếp cận tập thô dựa trên tính tương tự, hệ thông tin giá trị tập valued informaton system [44], hay còn được gọi là "hệ thông tin đa trị": multi-
(set-1 http://roughsets.home.pl/www/ (truy nhập tháng 8/2013)
2 http://roughsets.home.pl/www/index.php?option=com_content&task=view&id=64&Itemid=44 (8/2013)
3 http://cs.cqupt.edu.cn/crssc/ (8/2013)
Trang 13valued informaton system [11]/many-valued informaton system [10]) là một phương
án mở rộng có tính điển hình
Hệ thông tin giá trị tập là bộ bốn IS = (U, A, V, f), trong đó tập đối tượng U, tập thuộc tính A, tập giá trị V có ý nghĩa như trong định nghĩa của hệ thông tin, còn hàm thông tin f nhận giá trị là một tập giá trị trong V (f: U A 2 V) Tương ứngvới việc mở rộng khái niệm hệ thông tin thành khái niệm hệ thông tin giá trị tập, cáckhái niệm liên quan trong hệ thông tin cũng được mở rộng một cách tương ứng.Trong lý thuyết tập thô giá trị tập, một số khái niệm và tính chất chưa có trong lýthuyết tập được xuất hiện Đáng chú ý là quan hệ dung sai [51] nhận được sự quantâm đặc biệt Lý thuyết tập thô giá trị tập và ứng dụng của nó trở thành một chủ đềnghiên cứu nhận được sự quan tâm đặc biệt của cộng đồng nghiên cứu Nhiều côngtrình nghiên cứu về lý thuyết tập thô giá trị tập và ứng dụng đã được công bố, chẳnghạn như [8, 10, 15, 44, 45], đồng thời, các kết quả nghiên cứu - triển khai về tập thôgiá trị tập cũng có xu hướng ngày càng tăng theo thời gian Trong luận án này, thuật
ngữ "hệ thông tin" được dùng để chỉ hệ thông tin theo định nghĩa ban đầu của Zdzislaw Pawlak, còn thuật ngữ "hệ thông tin giá trị tập" để chỉ hệ thông tin giá trị
tập
Theo Zdzislaw Pawlak và Andrzej Skowron [42], Andrzej Skowron và cộng
sự [54], tiếp cận tập thô (i) cung cấp các thuật toán hiệu quả để phát hiện các mẫu
tiềm ẩn trong dữ liệu; (ii) xác định tập dữ liệu tối ưu (rút gọn dữ liệu: data reduction hay ngắn gọn là reduction) và ước lượng tính quan trọng dữ liệu; (iii) sinh
các tập luật quyết định từ dữ liệu; (iv) hình thức hóa tính dễ hiểu; (v) giải thích đơngiản hóa các kết quả thu được; và (vi) làm phù hợp nhiều thuật toán của nó để xử lý
song song Rút gọn thuộc tính (attribute reduction), một thành phần chủ chốt của
rút gọn dữ liệu, là một trong những bài toán ứng dụng quan trọng nhất của lý thuyếttập thô
Mục tiêu của rút gọn thuộc tính trong hệ thông tin là tìm ra tập nhỏ nhất cácthuộc tính để phân tích dữ liệu mà vẫn giữ được hiệu năng (hoặc hầu hết hiệu năng)như tập toàn bộ các thuộc tính [70] Rút gọn thuộc tính vừa làm giảm khối lượng xử
Trang 14lý dữ liệu do chỉ phải thao tác trên một khối lượng dữ liệu nhỏ hơn, vừa làm cho kếtquả thu được trở nên cô đọng và dễ hiểu hơn
Theo Yiyu Yao và Yan Zhao [70], hai mô hình rút gọn thuộc tính trong lýthuyết tập thô là mô hình Pawlak và mô hình xác suất Tồn tại các phương pháp rútgọn thuộc tính điển hình theo hai mô hình này là các phương pháp dựa trên miềndương [13, 31, 46, 57], các phương pháp sử dụng ma trận phân biệt [12, 47, 50, 68,71], các phương pháp sử dụng các phép toán đại số quan hệ [21], các phương pháp
sử dụng entropy thông tin [29, 59, 60, 61, 63, 67, 68], các phương pháp sử dụng các
độ đo, điển hình là độ đo trong tính toán hạt (granular computing) [6, 14, 15, 28,
53, 75], các phương pháp tích hợp lý thuyết tập thô với lý thuyết tập mờ [22, 24].Trong hệ thông tin giá trị tập, các phương pháp tìm tập rút gọn thuộc tínhđược hình thành dựa trên quan hệ dung sai [15, 51] Theo hướng tiếp cận mô hìnhquan hệ dung sai, một số kết quả nghiên cứu đáng chú ý về rút gọn thuộc tính trênbảng quyết định giá trị tập được công bố trong [8, 27, 44, 45, 64, 65, 66]
Trên thế giới, một số luận án tiến sỹ về rút gọn thuộc tính theo lý thuyết tậpthô đã được công bố Dale E Nelson, 2001 [32] trình bày nghiên cứu rút gọn thuộctính dựa trên khái niệm tập rút gọn và tập nhân để lựa chọn thuộc tính phân lớp mụctiêu rada, bao gồm việc đề xuất một phương pháp và một thuật toán độ phức tạp đathức lựa chọn tập con thuộc tính thích hợp Richard Jensen, 2005 [22] phát triển các
kỹ thuật mới rút gọn thuộc tính theo tiếp cận tập mờ-thô mà vẫn giữ nguyên ngữnghĩa của dữ liệu, trong đó, độ đo mức độ quan trọng của các thuộc tính được đềxuất Neil S Mac Parthalain, 2009 [34] đề xuất một kỹ thuật rút gọn thuộc tính dựatrên tập mờ dung sai, ba kỹ thuật rút gọn thuộc tính dựa theo tập mờ-thô và áp dụngcác kỹ thuật này trong các phân lớp ảnh X-quang tại bệnh viện Gần đây, SenanNorhalina, 2013 [33] đề xuất một kỹ thuật lựa chọn thuộc tính dựa trên xấp xỉ tậpthô sử dụng độ phụ thuộc cực đại giữa các thuộc tính để giải quyết bài toán phânlớp âm thanh nhạc cụ Malaysia truyền thống Kỹ thuật nói trên tìm ra tập thuộc tínhrút gọn tốt nhất gồm 17 thuộc tính từ 35 thuộc tính liên quan ban đầu
Trang 15Tại Việt Nam, một số luận án tiến sỹ về chủ đề rút gọn thuộc tính theo lýthuyết tập thô đã được hoàn thành Hoàng Thị Lan Giao [2] đề nghị một số thuậttoán heuristic tìm tập rút gọn và tìm tập rút gọn xấp xỉ của bảng quyết định nhấtquán, bao gồm thuật toán sử dụng các phép toán trong đại số quan hệ và thuật toán
sử dụng ma trận phân biệt Nguyễn Đức Thuần [5] đề nghị một thuật toán heuristictìm tập rút gọn của bảng quyết định đầy đủ nhất quán dựa vào phủ tập thô NguyễnLong Giang [1] đề nghị một thuật toán rút gọn thuộc tính trong hệ thông tin khôngđầy đủ và bảng quyết định không đầy đủ sử dụng metric
Luận án này tập trung nghiên cứu vấn đề rút gọn thuộc tính trong lý thuyết tậpthô, tập trung vào bài toán rút gọn thuộc tính trong hệ thông tin giá trị tập Luận ángiải đáp các câu hỏi nghiên cứu sau đây:
Những nội dung điển hình nào được quan tâm khi mở rộng lý thuyết tập thôtheo hướng hệ thông tin giá trị tập; lý thuyết tập thô theo hướng hệ thông tin giá trịtập đưa đến các nội dung gì mới ?
Bài toán rút gọn thuộc tính trong lý thuyết tập thô (bao gồm cả các phương
án mở rộng của lý thuyết này) có nội dung ra sao; các giải pháp điển hình nào đểgiải quyết bài toán đó ?
Hình thành các tiếp cận rút gọn thuộc tính trong lý thuyết tập thô giá trị tậpnhư thế nào ?
Trả lời cho các câu hỏi nghiên cứu trên đây, luận án trình bày các nội dungnghiên cứu chính sau đây:
Một nghiên cứu khái quát về lý thuyết tập thô, tập trung vào lý thuyết hệthông tin giá trị tập
Một nghiên cứu khái quát các tiếp cận điển hình rút gọn thuộc tính trong hệthông tin và hệ thông tin giá trị tập
Nghiên cứu một số mô hình, kỹ thuật rút gọn thuộc tính trong hệ thông tingiá trị tập, trên cơ sở đó đề xuất một số thuật toán rút gọn thuộc tính trong hệ thôngtin giá trị tập
Trang 16Đối sánh các nội dung nghiên cứu được trình bày trên đây với nội dungnghiên cứu của các luận án tiến sỹ trong và ngoài nước đã được giới thiệu, luận ánnày có những điểm khác biệt.
Mục tiêu nghiên cứu của luận án là hoàn thành các nội dung nghiên cứu
chính nêu trên để giải đáp các câu hỏi nghiên cứu Luận án tập trung nghiên cứu bàitoán rút gọn thuộc tính trong các phiên bản hệ thống thông tin được quan tâm và đềxuất được các thuật toán rút gọn thuộc tính mới Mục tiêu cơ bản trên đây được cụ
thể hóa bằng các mục tiêu cụ thể sau đâu Thứ nhất, cung cấp được một khái quát
song đủ toàn diện về lý thuyết tập thô trong phạm vi xem xét bài toán rút gọn thuộc
tính Thứ hai, cung cấp được một khảo sát các phương pháp điển hình giải quyết bài toán rút gọn thuộc tính trong lý thuyết tập thô và lý thuyết tập thô giá trị tập Thứ
ba, đề xuất được các thuật toán tìm tập rút gọn thuộc tính dựa trên khái niệm bảng
quyết định giá trị tập
Đối tượng nghiên cứu của luận án là bài toán rút gọn thuộc tính trong bảng
quyết định giá trị tập như đã trình bày theo các vấn đề nghiên cứu của luận án
Phạm vi nghiên cứu của luận án được giới hạn ở bài toán rút gọn thuộc tính
trong bước tiền xử lý số liệu
Phương pháp nghiên cứu của luận án là nghiên cứu lý thuyết và có sử dụng
phương pháp nghiên cứu thực nghiệm
Luận án có các đóng góp chính sau đây:
1 Cung cấp một kết quả nghiên cứu khái quát về lý thuyết tập thô, lý thuyếttập thô giá trị tập Kết quả nghiên cứu này được trình bày trong Chương 1 của luậnán
2 Cung cấp một kết quả nghiên cứu khái quát về rút gọn thuộc tính trong lýthuyết tập thô, lý thuyết tập thô giá trị tập Kết quả nghiên cứu này được trình bàytrong Chương 2 của luận án Luận án đưa ra các thay đổi nhỏ đối với các thuật toántrong hệ thông tin [19, 69] thành các thuật toán tương ứng trong bảng quyết định(các thuật toán 2.1-2.6-2.7)
Trang 173 Trên cơ sở kỹ thuật bảng ngẫu nhiên (contingency table) [56], luận án đề xuất các thuật toán rút gọn thuộc tính (Generalized Maximal Discernibility heuristic for Set valued Decision Tables: GMDSVDT) và thuật toán tính xấp xỉ trên
- xấp xỉ dưới của một tập (Verifying upper and lower Approximation for Set valued Decision Tables: VASDT) dựa trên hai cấu trúc dữ liệu mới là bảng ngẫu nhiên tổng quát hóa (generalized contingency table) và các dàn giá trị thuộc tính (lattices
of attribute values) trong hệ thông tin giá trị tập Thuật toán VASDT có độ phức tạp
tính toán là O(m2) so với độ phức tạp tính toán O(n3) [74] Kết quả nghiên cứu này
được công bố trong công trình số 1, phần “Danh mục các công trình của tác giả”
và được trình bày trong Chương 3 của luận án
4 Dựa trên ý tưởng thu nhỏ kích thước tập dữ liệu ban đầu của công trình [27],luận án đề xuất hai thuật toán lựa chọn tập đối tượng đại diện từ tập đối tượng banđầu cho bài toán tìm tập rút gọn của hệ thông tin giá trị tập và bảng quyết định giátrị tập Luận án chứng minh tập rút gọn trên tập đối tượng ban đầu và tập rút gọntrên tập đối tượng đại diện trong hệ thông tin và trong bảng quyết định giá trị làtương đương (nghĩa là như nhau qua một song ánh), từ đó khẳng định tính đúng đắncủa phương pháp Các thuật toán chọn tập đối tượng đại diện có ý nghĩa quan trọngtrong bước tiền xử lý số liệu của bảng quyết định trước khi thực hiện các nhiệm vụkhai phá dữ liệu Các kết quả nghiên cứu này được công bố trong công trình số 2
5 Trong lý thuyết tập thông truyền thống, Skowron và Rauszer [52] đã đưa rakhái niệm ma trận phân biệt và hàm phân biệt để tìm tập rút gọn Dựa trên cách tiếpcận này, luận án đề xuất hai cấu trúc dữ liệu mới là hàm phân biệt mở rộng và matrận phân biệt mở rộng trong bảng quyết định giá trị tập Hai cấu trúc dữ liệu mớinày là công cụ để xây dựng thuật toán tìm tập rút gọn trên bảng quyết định giá trịtập Theo đó, Chương 4 đưa ra phương pháp thứ hai tìm tập rút gọn thuộc tính, cụthể luận án đề xuất ba thuật toán mới tìm tập rút gọn thuộc tính (RGDSDT:
heuristic algorithm to find a Reduct based on Generalized Discernibility function in Set-valued Decision Table, RSDTAAS: extended algorithm to find a Reduct in Set- valued Decision Table when Adding an Attribute Set, RSDTDAS: extended algorithm to find a Reduct in Set-valued Decision Table when Deleting an Attribute
Trang 18Set) khi bổ sung và loại bỏ tập thuộc tính trong bảng quyết định giá trị tập, đánh giá
độ phức tạp của từng thuật toán Các kết quả nghiên cứu này được công bố trongcông trình số 3
Bố cục của luận án gồm phần mở đầu và bốn chương nội dung (như trình bày
ở trên), phần kết luận và danh mục các tài liệu tham khảo
Trang 19Chương 1 LÝ THUYẾT TẬP THÔ VÀ CÁC MỞ RỘNG
Chương này được bắt đầu bằng việc giới thiệu các khái niệm cơ bản về hệthông tin, tập thô, bảng quyết định được Zdzislaw Pawlak đề xuất vào năm 1982[36, 38, 54], các tính chất cơ bản của chúng, cùng một số khái niệm liên quan Tiếptheo, một mở rộng của hệ thông tin là hệ thông tin giá trị tập (Set-valuedInformation System, còn được gọi là "hệ thông tin đa trị": Multi-valued InformationSystem) [15] cùng các khái niệm liên quan được trình bày Đây là những kiến thứcnền tảng liên quan tới bài toán rút gọn thuộc tính trong hệ thông tin giá trị tập đượctrình bày trong các chương tiếp theo
1.1 Hệ thông tin và tập thô
1.1.1 Hệ thông tin
Một cách không hình thức, một hệ thông tin là một tập dữ liệu được cho dướidạng bảng, trong đó mỗi hàng biểu diễn thông tin về một đối tượng, mỗi cột biểudiễn thông tin về một thuộc tính của các đối tượng trong tập dữ liệu Một cách hìnhthức, hệ thông tin được định nghĩa như sau
Định nghĩa 1.1 [36] (Hệ thông tin)
Hệ thông tin là một bộ bốn S U A V f, , , trong đó U là tập đối tượng là một tập hữu hạn, khác rỗng các đối tượng (U còn được gọi là tập vũ trụ: the universe) và
A là tập thuộc tính là một tập hữu hạn, khác rỗng các thuộc tính; V là tập giá trị,
trong đó V a A V a
với V a là tập giá trị của thuộc tính a A ; f là hàm thông tin
f :U A V , trong đó a A, u U : f ( u,a ) V a
Với mỗi u U a A , , dùng ký hiệu u a thay cho f u a , để biểu thị giá trị
của đối tượng u tại thuộc tính a; rõ ràng là u a( )V a với mọi u U. Với một tập concác thuộc tính Bb b1 , , , 2 b k A, ký hiệu bộ các giá trị {u b i |b iB} là u B ; với
hai đối tượng u, vU, viết u B v B nếu u b i v b i : i1, ,k
Trang 20Nếu uU, aA mà giá trị hàm thông tin f(u,a) không xác định thì hệ thông tin S được gọi là hệ thông tin không đầy đủ (Uncompleted Information System),
ngược lại, S được gọi là hệ thông tin đầy đủ (Completed Information System) [26].
Ví dụ 1.1 Cho hệ thông tin trong Bảng 1.1 khi đó ta có:
Tập các đối tượng U {u , , u }1 7
Tập các thuộc tính A {Độ tuổi, Số buổi, Thi đậu}
Tập giá trị của thuộc tính độ tuổi, số buổi và thi đậu là:
V Độ tuổi ={16-30, 31-45, 46-60}
V Số buổi ={0, 1-25, 26-49, 50}
V Thi đậu ={Không, Có}
Hàm f được biểu thị bằng giá trị tương ứng tại điểm giao của mỗi hàng-đốitượng với mỗi cột-thuộc tính, ví dụ, f u( ,1 độ tuổi) = (16 - 30), f u( ,2 số buổi) = 0.
1.1.2 Quan hệ không phân biệt được
Định nghĩa 1.2 (Quan hệ không phân biệt được)
Cho hệ thông tin SU A V f, , , , với mỗi tập con các thuộc tính B A, tồn tại một quan hệ hai ngôi trên U, ký hiệu là IND(B), được xác định như sau:
( ) ( , ) | ( ) ( ),
IND(B) được gọi là quan hệ không phân biệt được (Indiscernibility Relation).
Rõ ràng, IND(B) là một quan hệ tương đương trên U Nếu ( , )u v IND B( ) thì
hai đối tượng u và v giống nhau (không phân biệt được) nếu chỉ xem xét giá trị tại các thuộc tính trong B Quan hệ tương đương IND(B) xác định một phân hoạch trên
Trang 21U, ký hiệu là U/IND(B) hay U/B Ký hiệu lớp tương đương trong phân hoạch U/B chứa đối tượng u là [u]B, khi đó [u]B={vU|(u,v) IND(B)}.
Nguyen Sinh Hoa và Nguyen Hung Son [19] trình bày một thuật toán xác
định các lớp tương đương theo quan hệ IND(B) theo thứ tự "từ điển" < B trên các
vector tập giá trị thuộc tính trong B và sắp xếp tập đối tượng U theo thứ tự từ điển
< B Thứ tự từ điển < B được xác định nhờ các quan hệ thứ tự trên V a, aB Các tác
giả chỉ ra thuật toán của họ có độ phức tạp là O(k | U | log | U |)
Ví dụ 1.2 Xét hệ thông tin cho trong Bảng 1.1 với các thuộc tính: Độ tuổi, Số buổi, Thi
đậu Giả sử, các tập giá trị thuộc tính có quan hệ thứ tự theo cách liệt kê các giá trị nhưtrình bày tại Ví dụ 1.1 Khi đó, nhận được:
U {Thi đậu} = {{u 2 , u 3 , u 5 , u 7 }, {u 1 , u 4 , u 6}}
Với B = {Độ tuổi, Số buổi, Thi đậu}, phân hoạch U sinh bởi B là
Tương tự với B = {Độ tuổi, Số buổi}, U B/ u1 , u2 , u u3, 4 u u5, 7 , u6} .
Định nghĩa 1.3 [43] (Quan hệ giữa các phân hoạch)
Cho hệ thông tin SU A V f, , , và P Q, A Ta nói:
1) Hai phân hoạch U P/ và U Q/ là như nhau (viết U P U Q/ / ) khi và chỉkhi u U, u P u Q
2) Phân hoạch U P/ mịn hơn phân hoạch U Q/ (viết U P U Q/ / ) khi và chỉkhi u U, u P u Q
Tính chất 1.1 [43] Xét hệ thông tin S U A V f, , , và P Q, A
Trang 221) Nếu PQ thì U Q U P/ / , có nghĩa là mỗi lớp tương đương thuộc U P/
là hợp của một số lớp tương đương thuộc U Q/
2) Với mọi u U ta có u P Q u P u Q
1.1.3 Các tập xấp xỉ
Cho hệ thông tin SU A V f, , , và một bài toán được đặt ra là hãy tìm cáchthức biểu diễn các tập con X U dựa theo thông tin có được từ S Zdzislaw Pawlak
là người khởi xướng lý thuyết tập thô và sử dụng tập thô để biểu diễn các tập con X trong
U [36, 38] Trong [35], Zdzislaw Pawlak đề xuất một ngôn ngữ hỏi (Query Language) trong hệ thông tin và ngữ nghĩa của một biểu thức (term) trong ngôn ngữ hỏi nói trên Tác giả đưa ra khái niệm "tập mô tả được" (Describable Set) theo S là một tập con đối tượng
là ngữ nghĩa của một biểu thức trong ngôn ngữ hỏi nói trên Với một tập mô tả được X, biểu thức t tương ứng (trong ngôn ngữ hỏi) được sử dụng để "mô tả" nó Tác giả chỉ ra rằng
một tập mô tả được hoặc là tập rỗng hoặc là tổng của một số nào đó các tập sơ cấp
(Elementary Set), trong đó tập sơ cấp chính là lớp tương đương theo quan hệ IND(A) Điều đó có nghĩa là các lớp tương đương theo quan hệ IND(A) (các tập sơ cấp) là điểm
xuất phát trong cách thức mô tả các tập con X U Nếu mọi lớp tương đương theo quan
hệ IND(A) có duy nhất một đối tượng thì mọi tập con X U đều là tập mô tả được Tuynhiên, trong trường hợp tổng quát, một tập X Ucó thể mô tả được hoặc không Trong
trường hợp X không là tập mô tả được thì cần chỉ ra cách thức mô tả "xấp xỉ" nó Trong [36], Zdzislaw Pawlak dùng cặp hai tập mô tả được là tập xấp xỉ dưới của X ( Apr A ( X )
hay Apr ( X ) ) và tập xấp xỉ trên của X ( Apr A ( X ) hay Apr ( X ) ) để biểu diễn tập X Tập xấp xỉ dưới của X là hợp của tất cả các tập sơ cấp được chứa trong X, tập xấp xỉ trên là
là hợp của tất cả các tập sơ cấp giao khác rỗng với X Trong trường hợp hai tập xấp xỉ của một tập X khác nhau, tập X được gọi là tập thô (Rough Set) Một số tác giả cũng gọi cặp hai tập xấp xỉ (xấp xỉ dưới và xấp xỉ trên) là tập thô đối với tập X.
Zdzislaw Pawlak và cộng sự mở rộng khái niệm các tập xấp xỉ theo hướng thay
quan hệ tương đương IND(A) bằng quan hệ tương đương IND(B) trong đó B là một tập
con các thuộc tính (BA)
Trang 23
B
BN X BX BX và B-miền ngoài của X là tập U BX
Rõ ràng là B-miền biên của X là tập chứa các đối tượng không chắc chắn thuộc X và cũng không chắc chắn không thuộc X, còn B-miền ngoài của X chứa các đối tượng chắc chắn không thuộc X Sử dụng các lớp tương đương theo phân hoạch U/B, các xấp xỉ trên và xấp xỉ dưới của X có thể viết lại như sau:
BX Y U B Y X , BX Y U B Y / X .Tương tự như trường hợp tập A gồm toàn bộ các thuộc tính [36], khi
BN B (X)= thì X được gọi là tập rõ, ngược lại X được gọi là tập thô.
Định hướng rút gọn tập thuộc tính trong biểu diễn tập đối tượng hướng tới việcxem xét mối quan hệ giữa các tập thuộc tính con khác nhau Định nghĩa 1.2 và Tínhchất 1.1 trên đây đã thể hiện một khía cạnh của mối quan hệ đó theo các quan hệ tươngđương cảm sinh bởi chúng Khái niệm miền dương sau đây là một khía cạnh khác khixem xét mối quan hệ giữa các tập thuộc tính
Định nghĩa 1.5 [24] (Miền dương)
Cho một hệ thông tin S U A V f, , , và hai tập thuộc tính B D, A Tập miền dương (possitive region, còn được gọi theo tiếng Việt là miền khẳng định) của D theo B, ký hiệu là POS B (D), là tập đối tượng được xác định như sau:
Trang 24Rõ ràng là POS B (D)={u| vU: u(B)= v(B) u(D)= v(D)}
Thuật toán 1.2 Xác định xấp xỉ dưới, xấp xỉ trên [19]
Đầu vào: Hệ thông tin SU A V f, , , , tập thuộc tính BA,
Thuật toán 1.2 có độ phức tạp là O(k | U | log | U |), trong đó |B| |A|=k [19]
Ví dụ 1.3 Xét hệ thông tin cho ở Bảng 1.1
Giả sử, chọn B = {Độ tuổi, số buổi} ; X u u u3 , , 4 5.
Ví dụ 1.4 Xét hệ thông tin cho ở Bảng 1.1
Các lớp không phân biệt được bởi B = {Độ tuổi, số buổi} là:
Trang 25Tập thô được chia thành bốn lớp theo mức độ thô như sau:
- Tập X là thô B-xác định (roughly B-definable) nếu BX và BX U Xác địnhđược các đối tượng chắc chắn thuộc X cũng như các đối tượng chắc chắn khôngthuộc X
Trang 26- Tập X là B-không xác định trong (internally B-undefinable) nếu BX và
Với mỗi BA và X U, độ chính xác của xấp xỉ tập X theo phân hoạch U
dựa trên B, được ký hiệu là B (X), là đại lượng B (X)= BX
BX
Rõ ràng là 0B( ) 1.X Nếu B( ) 1X , X được gọi là "chính xác" đối với B,
còn nếu B( ) 1X , X được gọi là "thô" đối với B.
1.1.6 Bảng quyết định
Định nghĩa 1.7 (Bảng quyết định: decision table)
Bảng quyết định (còn được gọi là hệ quyết định: decision system) là một hệ
thông tin đặc biệt T U C, D V f, , , trong đó tập thuộc tính A được chia thành hai tập khác rỗng rời nhau C và D (A C D C, D), tương ứng được gọi là tậpthuộc tính điều kiện C và tập thuộc tính quyết định D
Tập quyết định có ứng dụng rộng rãi, đặc biệt là các ứng dụng phát hiện luật
quyết định tương ứng giá trị các thuộc tính điều kiện C tới giá trị các thuộc tính quyết định D.
Trang 27Bảng quyết định T được gọi là nhất quán (consistent) nếu u v U u C, , ( )v C( )
u D v D , ngược lại, T được gọi là không nhất quán (inconsistent) Ta có bảng
quyết định T là nhất quán khi và chỉ khi POS D C U.
Giả sử U C/ C C1, 2, ,C m và U D/ D D1, 2, ,D n tương ứng là các phân
hoạch được sinh bởi tập thuộc tính điều kiện C và tập thuộc tính quyết định D Các lớp tương đương C i (i=1, , m), D j (j-1, , n) được gọi là các lớp tương đương điều
kiện và các lớp tương đương quyết định [41]
Ví dụ 1.5 Cho bảng quyết định về bệnh cúm (Bảng 1.2) trong đó tập thuộc tính điều kiện C = {Mệt mỏi, Đau đầu, Đau cơ, Thân nhiệt} và tập thuộc tính quyết
1.1.7 Quan hệ dung sai
Theo Jan Komorowski và cộng sự [24], Andrzej Skowron và cộng sự [54],
quan hệ dung sai (tolerance relations, còn được gọi là quan hệ tương tự similarity relations) chiếm một vị trí quan trọng trong việc mở rộng lý thuyết tập thô Nhiều
Trang 28kết quả nghiên cứu về lý thuyết tập thô dựa trên quan hệ dung sai đã được công bố.Quan hệ dung sai trong lý thuyết tập thô là một mở rộng của quan hệ không phân
biệt được, trong đó chuyển từ tiếp cận dựa trên phân hoạch (partition) tập vũ trụ U của quan hệ không phân biệt được thành tiếp cận dựa trên phủ (cover) của quan hệ
dung sai
Định nghĩa 1.8.[24] (Quan hệ dung sai)
Cho hệ thông tin S U A V f, , , Quan hệ hai ngôi trên U ( U×U) được
gọi là một quan hệ dung sai (tương tự) nếu thỏa mãn hai điều kiện :
(i) là phản xạ: uU (u, u) ;
(ii) là đối xứng: (u, v) (v, u)
Quan hệ dung sai có tính phản xạ, tính đối xứng như quan hệ tương đươngnhưng lại không có tính bắc cầu như quan hệ tương đương Tương ứng với khái niệmlớp tương đương trong quan hệ tương đương, quan hệ dung sai có khái niệm lớpdung sai (lớp tương tự), theo đó lớp dung sai của một đối tượng
và vì vậy, quan hệ dung sai tạo ra một phủ trên U (tính chất
(i)) mà không phải là một phân hoạch (tính chất (ii)) như quan hệ tương đương JanKomorowski và cộng sự [24] cung cấp một tổng quan về các nghiên cứu mở rộng
lý thuyết tập thô khi sử dụng quan hệ dung sai thay vì quan hệ không phân biệtđược Trong mỗi ngữ cảnh ứng dụng lý thuyết tập thô, một quan hệ dung sai được
xác định, chẳng hạn như quan hệ dung sai trong hệ thông tin dung sai (tolerance information systems) được Jan Komorowski và cộng sự giới thiệu [24] Một ví dụ
điển hình về quan hệ dung sai là quan hệ dung sai trong hệ thông tin giá trị tập nhưtrình bày tại Mục 1.2 dưới đây
Trang 291.2 Hệ thông tin giá trị tập
1.2.1 Khái niệm
Định nghĩa 1.9 [15] Hệ thông tin giá trị tập là một bộ bốn IS U A V f, , ,
trong đó U là tập hữu hạn, khác rỗng được gọi là tập vũ trụ hoặc tập các đối tượng;
A là tập là hữu hạn khác rỗng các thuộc tính; f là hàm thông tin, f U A: 2V là
ánh xạ tương ứng mỗi cặp (u,a) tới một tập giá trị thuộc V Trong luận án quy ước
viết tắt ISU A V f, , , là IS (U , A ).
Ví dụ 1.6 Bảng 1.3 [44] minh họa một hệ thông tin giá trị tập (bỏ qua cột thuộc tính dec) với mười đối tượng U u u u u u u u u u u1 , , , , , , , , , 2 3 4 5 6 7 8 9 10, bốn thuộctính giá trị tập A{Audition Spoken Language Reading, , , Writing}, và tập giá trị{ , , }
Bảng 1.3 Hệ thông tin giá trị tập
U Audition(A) Spoken Language(S) Reading(R) Writing(W) Dec
Cách thứ nhất: Với x U , a A , a x( ) dùng theo nghĩa “và” Ví dụ giả sử a là
thuộc tính các ngôn ngữ lập trình quen thuộc thì giá trị thuộc tính
Trang 30( ) { , , s }
a u C Java Pa cal được hiểu theo cách: u biết được cả 3 ngôn ngữ lập trình
, , à s
C Java v Pa cal
Cách thứ hai: Với x U , a A , a x( )dùng theo nghĩa “hoặc” Ví dụ giả sử a là
thuộc tính "quê quán" thì giá trị thuộc tính a(u) = {Hà Nội, Hà Nam, Hà Tĩnh} được
hiểu theo cách: u có quê quán ở một trong ba tỉnh hoặc Hà Nội, hoặc Hà Nam, hoặc
Hà Tĩnh Với giá trị thuộc tính kiểu số b, ví dụ thuộc tính “tuổi” có b x ( ) [20, 25]được hiểu là đối tượng utrong độ tuổi 20 và 25 Hệ thông tin không đầy đủ với một sốgiá trị thuộc tính bị thiếu đều thuộc hệ thông tin tập giá trị
Cách thứ ba: Kết hợp của hai mô hình trên Một số thuộc tính trong hệ thống thông tin được hiểu theo nghĩa “và”, như ví dụ thuộc tính " ngôn ngữ lập trình quen thuộc" và một số thuộc tính hiểu theo nghĩa “hoặc” như thuộc tính “tuổi”.
Luận án này tập trung vào cách tiếp cận đầu tiên về ngữ nghĩa giá trị tập.Trường hợp sử dụng cách tiếp cận ngữ nghĩa khác thì sẽ được chỉ rõ
1.2.2 Quan hệ dung sai trong hệ thông tin giá trị tập
Định nghĩa 1.10 (Quan hệ dung sai trong hệ thông tin giá trị tập)
Cho hệ thông tin giá trị tập IS (U , A ) Với mỗi tập con thuộc tính BA,
quan hệ T B u v, U U b B u b, ( )v b là một quan hệ dung sai và đượcgọi là quan hệ dung sai tương ứng với B
u được gọi là một lớp dung sai tương ứng
với quan hệ TB Ký hiệu / |
B
U T u u U biểu diễn tập tất cả các lớp dung sai
tương ứng với quan hệ T B, khi đó U T/ B hình thành một phủ của U vì các lớp dung sai
trong U T/ B có thể giao nhau và [ ]T B
u U u
=U Rõ ràng là nếu CB thì
Trang 31với mọi u U Trong một số trường hợp luận án sử dụng ký hiệu T u B( )thay cho
B
T
Định nghĩa 1.11 [74] Cho IS (U , A ) là hệ thông tin giá trị tập Với mỗi tập
thuộc tính B A ta ký hiệu [ ] u T B {v U u v T là lớp dung sai của :( , ) B} u U Chúng ta ký hiệu / {[ ] : }
B
U T u u U là họ của tất cả các lớp dung sai của T B
Ví dụ 1.7 Biểu diễn bảng quyết định giá trị tập cho Bảng 1.3 Có 10 đối
tượng với 4 thuộc tính điều kiện và thuộc tính quyết định Các đối tượng trong bảngthuộc vào 1 trong 2 lớp quyết định
Đặt B{Audition Spoken language, }
Ta tìm được các lớp dung sai của [u ] ,[u ] ,[u ]1 TB 2 TB 3 TBnhư sau:
DS U C d V f trong đó U là tập đối tượng khác rỗng; C là tập thuộc tínhđiều kiện khác rỗng, d là thuộc tính quyết định với C{ }d ; V V CV d, V C làtập giá trị của các thuộc tính điều kiện và V d là tập giá trị của thuộc tính quyết định;
2V C
f :U C là ánh xạ tập giá trị còn f U d: V d là ánh xạ đơn trị
Trong luận án, quy ước DS ( ,U C d V f, , ) viết tắt là DS( ,U C d )
1.2.4 Tập thô theo quan hệ dung sai
Hai khái niệm cơ bản trong lý thuyết tập thô đó là xấp xỉ trên và xấp xỉ dưới.Trong lý thuyết tập thô, xấp xỉ trên và xấp xỉ dưới của tập đối tượng được địnhnghĩa dựa trên lớp quan hệ không phân biệt được, còn trong hệ tin giá trị tập thì haikhái niệm này được định nghĩa dựa trên quan hệ dung sai
Định nghĩa 1.12 Xấp xỉ trên và xấp xỉ dưới [74]
Trang 32Cho hệ thông tin giá trị tập IS (U , A ) và T B là quan hệ dung sai với BA.Xấp xỉ trên và xấp xỉ dưới của tập bất kỳX U được định nghĩa như sau:
Trang 331.3 Kết luận
Chương 1 trình bày khái niệm hệ thông tin cùng các khái liên liên quan (quan
hệ không phân biệt được, quan hệ dung sai, tập thô, bảng quyết định v.v.) và kháiniệm hệ thông tin giá trị tập cùng các khái niệm liên quan (quan hệ dung sai, tập thôtrong hệ thông tin giá trị tập, bảng quyết định giá trị tập, v.v.) Đây là những nộidung nền tảng để trình bày bài toán rút gọn thuộc tính và các giải pháp cho bài toánđược trình bày trong các chương tiếp theo
Trang 34Chương 2 RÚT GỌN THUỘC TÍNH THEO LÝ THUYẾT TẬP THÔ 2.1 Giới thiệu chung
Như đã được giới thiệu, rút gọn thuộc tính là một trong những bài toán ứngdụng điển hình nhất của lý thuyết tập thô [24, 42, 54, 70] Trong lý thuyết tập thô,mục tiêu của rút gọn thuộc tính là tìm ra tập nhỏ nhất các thuộc tính cho phân tích
dữ liệu mà vẫn giữ được hiệu năng (hoặc hầu hết hiệu năng) như tập toàn bộ cácthuộc tính Rút gọn thuộc tính vừa làm giảm khối lượng xử lý dữ liệu do chỉ phảithao tác trên một khối lượng dữ liệu nhỏ hơn, vừa làm cho kết quả thu được trở nên
cô đọng và dễ hiểu hơn
Theo Yiyu Yao và Yan Zhao [70], mô hình Pawlak và mô hình xác suất là hai
mô hình rút gọn thuộc tính điển hình trong lý thuyết tập thô Điển hình theo môhình Pawlak là các phương pháp dựa trên miền dương [13, 31, 46, 57], các phươngpháp sử dụng ma trận phân biệt [12, 47, 50, 68, 71], các phương pháp sử dụng cácphép toán đại số quan hệ [21] Các phương pháp rút gọn thuộc tính theo mô hình
Pawlak thường được tiến hành theo hướng "từ trên xuống" (còn được gọi là phương pháp loại bỏ (deletion method [69])), nghĩa là loại bỏ dần các thuộc tính không cần
thiết Điển hình theo mô hình xác suất là các phương pháp sử dụng entropy thôngtin [29, 59, 60, 61, 63, 67, 68], các phương pháp sử dụng các độ đo mà điển hình là
các độ đo trong tính toán hạt (granular computing) [6, 14, 15, 28, 53, 75], các
phương pháp tích hợp lý thuyết tập thô với lý thuyết tập mờ [22, 24] Các phươngpháp rút gọn thuộc tính theo mô hình xác suất thường được tiến hành theo hướng
"từ dưới lên" (còn được gọi là phương pháp bổ sung (addition method [69])), nghĩa
là chọn các thuộc tính có độ liên quan cao tới mục tiêu xử lý dữ liệu để bổ sung vàotập thuộc tính rút gọn Trong nhiều tình huống, tập rút gọn kết quả chỉ cần đảm bảo
"hầu hết" hiệu năng của tập toàn bộ các thuộc tính Một số thuật toán theo hướng
kết hợp dưới lên trên xuống cũng đã được đề xuất (chẳng hạn, thuật toán bổ sung loại bỏ [69])
-Trong hệ thông tin giá trị tập, các phương pháp tìm tập rút gọn thuộc tínhđược hình thành dựa trên quan hệ dung sai [15, 51] Theo hướng tiếp cận mô hình
Trang 35quan hệ dung sai, một số kết quả nghiên cứu đáng chú ý về rút gọn thuộc tính trênbảng quyết định giá trị tập được công bố trong [8, 27, 44, 45, 64, 65, 66].
Chương này giới thiệu các nội dung cơ bản nhất về rút gọn thuộc tính trong
hệ thông tin (Mục 2.2) và rút gọn thuộc tính trong hệ thông tin giá trị tập (Mục 2.3)
2.2 Rút gọn thuộc tính trong hệ thông tin
2.2.1 Tập rút gọn và tập lõi
Trong các ứng dụng của bảng quyết định vào phân tích dữ liệu (bao gồmphân lớp dữ liệu), các thuộc tính điều kiện được phân thành ba nhóm: Thuộc tính
lõi, thuộc tính rút gọn và thuộc tính không cần thiết [36, 38, 39] Thuộc tính lõi là
thuộc tính cốt yếu, không thể thiếu trong việc phân lớp chính xác tập dữ liệu Thuộctính không cần thiết là những thuộc tính dư thừa; nghĩa là có thể loại bỏ một thuộctính như vậy (nhưng không phải là tất cả) mà không ảnh hưởng đến việc phân lớp
dữ liệu Thuộc tính của tập rút gọn “nằm giữa” hai tập thuộc tính trên, nó là dư thừađối với một tập thuộc tính điều kiện này song lại cốt yếu đối với một tập các thuộctính điều kiện khác Dưới đây trình bày định nghĩa chính thức cho các khái niệmnày [38]
Định nghĩa 2.1 (Thuộc tính cần thiết: indispensable và không cần thiết:
dispensable)
Cho bảng quyết định T U C, D V f, , , thuộc tính c C được gọi là không
cần thiết (dispensable) nếu POS (D) POSC (C\ c ) (D) Ngược lại, c được gọi là cần
thiết (indispensable).
Định nghĩa 2.2 (Bảng quyết định độc lập: independent)
Bảng quyết định T được gọi là độc lập (independent) nếu mọi thuộc tính
c C đều cần thiết
Tập tất cả các thuộc tính cần thiết trong T được gọi là lõi (Core) và được ký
hiệu CORE C Khi đó, một thuộc tính cần thiết còn được gọi là thuộc tính lõi
Trang 36Định nghĩa 2.3 (Tập rút gọn: reduct set)
Tập các thuộc tính RC được gọi là tập rút gọn (Reduct Set) của tập thuộc tính điều kiện C nếu T'=(U, RD, V, f) là độc lập và POS D R POS D C .
Nói cách khác, R là tập rút gọn nếu R thỏa mãn POS R (D)=POS C (D) và R "tối thiểu" theo nghĩa mọi tập con thực sự R' của R thì POS R' (D) POS C (D) Rõ ràng là
có thể có nhiều tập rút gọn của C. Ta ký hiệu RED C là tập tất cả các rút gọn của
.
C Tập thuộc tính là giao của mọi tập rút gọn trong bảng quyết định được gọi là tập
lõi (core) và được ký hiệu là CORE (CORE=
) C ( RED TG
thuộc tính siêu rút gọn là tối thiểu thì nó sẽ là rút gọn Hơn nữa, tập mọi thuộc tính
điều kiện C là một siêu-rút gọn Rõ ràng là nếu một tập thuộc tính siêu rút gọn mà
là tập tối thiểu thì nó sẽ là rút gọn Một tập thuộc tính điều kiện R mà là tập con của một tập rút gọn thì được gọi là bộ phận rút gọn (partial reduct) Tập lõi là một tập
bộ phận rút gọn
Luận án thực hiện một vài biến đổi nhỏ cho Thuật toán 3 trong [19] để nhận
được Thuật toán 2.1 Xác định vùng dương trong bảng quyết định như trình bày dưới
đây
Thuật toán 2.1 Xác định vùng dương trong bảng quyết định
Đầu vào: Bảng quyết định T U C, D V f, ,
Trang 37Nếu mọi đối tượng X B j bằng nhau trong D
Thì ( ) : ( ) B
Thuật toán 2.1 có độ phức tạp là O(k | U | log | U |) (Tham khảo [19])
Tương tự cách hình thành Thuật toán 2.1, luận án thực hiện một vài biến đổi nhỏ
tới Thuật toán 6 trong [19] để nhận được Thuật toán 2.2 Tìm tập rút gọn trong bảng quyết định như trình bày dưới đây.
Thuật toán 2.2 Thuật toán tìm tập rút gọn trong bảng quyết định
Đầu vào: Bảng quyết định T U C, D V f, , với n=|U|, k=|C|;
Một tập con các thuộc tính điều kiện R là một siêu rút gọn
Lập luận giống như trong [19], thuật toán 2.2 có độ phức tạp là O k n( 2 log ).n
Ví dụ 2.1 Xét bảng quyết định về bệnh cúm được cho ở Bảng 1.2 (Chương 1)
Bảng này có hai tập rút gọn là R 1 = {Đau cơ, Thân nhiệt} (xem bảng 2.1) và
R 2 = {Đau đầu, Thân nhiệt} (xem bảng 2.2)
Trang 38Như vậy tập lõi là CORE(C) = {Thân nhiệt} và Thân nhiệt là thuộc tính cần thiết duy nhất Các thuộc tính Đau đầu, Đau cơ đều không cần thiết theo nghĩa từ
bảng dữ liệu có thể loại bỏ một trong hai thuộc tính này mà vẫn chuẩn đoán đượcbệnh Tức là:
POS {Đau cơ, Thân nhiệt} ({Cảm cúm}) = POS C ({Cảm cúm})
POS {Đau đầu, Thân nhiệt} ({Cảm cúm}) = POS C ({Cảm cúm}).
Tương ứng với hai thuật toán 2.1 và 2.2 ở đây, chương 3 của luận án sẽ trìnhbày thuật toán rút gọn thuộc tính và tìm các tập xấp xỉ trong bảng quyết định giá trịtập dựa trên dựa trên hai cấu trúc dữ liệu mới do luận án đề xuất là bảng ngẫu nhiêntổng quát hóa và các dàn giá trị thuộc tính
Yao Y.Y và cộng sự [69] trình bày ba thuật toán mang tính khát quát cao để
tìm tập rút gọn trong hệ thông tin S = (U, A, V, f) Trong ba thuật toán này, các tác giả đã giả thiết cho trước một hàm (độ) phù hợp (fitness function) các thuộc tính
: A R
(tập số thực) Ý nghĩa của hàm phù hợp được xác định theo nhiều ngữnghĩa, chẳng hạn như hoặc độ chi phí kiểm thử, hoặc độ dễ hiểu, hoặc độ ảnhhưởng của thuộc tính, hoặc lợi ích thông tin (information gain) của thuộc tính v.v.Luận án thực hiện biến đổi nhỏ để chuyển ba thuật toán cho hệ thông tin của YaoY.Y và cộng sự [69] thành ba thuật toán sang bảng quyết định như dưới đây
Thuật toán 2.3 Thuật toán từ trên xuống tìm tập rút gọn trong bảng quyết định
(Tương ứng với thuật toán loại bớt trong [69])
Đầu vào: Bảng quyết định T U C, D V f, ,
Đầu ra: Tập rút gọn R.
Phương pháp:
Trang 39(1) R:C TG; :C;
(2) While TG do
begin
(2.1) a TG : tính (a)
(2.2) TG := TG \{a} với a là thuộc tính phù hợp nhất
(2.3) if R \{a} là một siêu rút gọn then R:=R \{a}
end;
(3) Output R.
Lưu ý rằng, Thuật toán 2.3 là tương tự như Thuật toán 2.2 với hai thay đổi
nhỏ Thứ nhất, tập siêu rút gọn đầu vào chính là tập thuộc tính điều kiện C Thứ hai,
việc loại bớt thuộc tính ở đây được định hướng theo độ phù hợp (a).
Thuật toán 2.4 Thuật toán hướng kết hợp tìm tập rút gọn trong bảng quyết định
(Tương ứng với thuật toán loại bớt-bổ sung trong [69])
Đầu vào: Bảng quyết định T U C, D V f, ,
Trang 40Thuật toán 2.5 Thuật toán từ dưới lên tìm tập rút gọn trong bảng quyết định
(Tương ứng với thuật toán loại bớt trong [69])
Đầu vào: Bảng quyết định T U C, D V f, ,
2.2.2 Ma trận phân biệt và hàm phân biệt
Định nghĩa 2.4 (Ma trận phân biệt : discernibility matrix)
Xét bảng quyết định T U C, D V f, , với U u u1 , , , 2 u n Ma trận phân
biệt của T, ký hiệu M m i j n n
, là một ma trận đối xứng mà mỗi phần tử của nóđược xác định như sau [50]:
nếu u D i( )u D j( ),