1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Nghiên cứu các phương pháp rút gọn thuộc tính và sinh luật quyết định theo tiếp cận tập thô mờ

137 142 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 137
Dung lượng 1,36 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Các phương pháp rút gọn thuộc tính theo tiếp cận lý thuyết tập thô đều thực hiện trên các bảng quyết định có miền giá trị rời rạc.. Để giải quyết bài toán rút gọn thuộc tính trực tiếp tr

Trang 1

CAO CHÍNH NGHĨA

NGHIÊN CỨU CÁC PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH VÀ SINH LUẬT QUYẾT ĐỊNH

THEO TIẾP CẬN TẬP THÔ MỜ

LUẬN ÁN TIẾN SĨ KỸ THUẬT

HÀ NỘI - 2017

Trang 2

CAO CHÍNH NGHĨA

NGHIÊN CỨU CÁC PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH VÀ SINH LUẬT QUYẾT ĐỊNH

THEO TIẾP CẬN TẬP THÔ MỜ

CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN

MÃ SỐ: 62.48.01.04

LUẬN ÁN TIẾN SĨ KỸ THUẬT

NGƯỜI HƯỚNG DẪN KHOA HỌC:

1 GS.TS VŨ ĐỨC THI

2 TS TÂN HẠNH

HÀ NỘI - 2017

Trang 3

LỜI CẢM ƠN

Luận án này được hoàn thành với sự nỗ lực không ngừng của tác giả và sự giúp đỡ hết mình từ các thầy giáo hướng dẫn, bạn bè và người thân Đầu tiên, tác giả xin bày tỏ lời tri ân tới GS.TS Vũ Đức Thi và TS Tân Hạnh, những thầy giáo đã tận tình hướng dẫn tác giả hoàn thành luận án này

Tác giả xin gửi lời cảm ơn tới các thầy, cô giáo và cán bộ của Học viện Công nghệ Bưu chính Viễn thông - Bộ Thông tin và Truyền thông, là cơ sở đào tạo đã luôn tạo điều kiện để NCS có thể hoàn thành luận án của mình

Tác giả xin gửi lời cảm ơn sâu sắc đến TS Nguyễn Long Giang - một người thầy thầm lặng và các cán bộ Phòng Tin học quản lý, Viện Công nghệ Thông tin, Viện Khoa học và Công nghệ Việt Nam đã nhiệt tình giúp đỡ và tạo ra môi trường nghiên cứu tốt để tác giả hoàn thành công trình của mình; cảm ơn các thầy cô và các đồng nghiệp ở các nơi mà tác giả tham gia viết bài đã có những góp ý chính xác để tác giả có được những công bố như ngày hôm nay

Tác giả xin gửi lời cảm ơn tới Đảng ủy, Ban Giám đốc Học viện Cảnh sát Nhân dân, các đồng nghiệp Bộ môn Toán - Tin học nơi tác giả công tác đã ủng hộ

để luận án được hoàn thành đúng thời hạn

Cuối cùng, tác giả xin gửi tới bạn bè, người thân lời cảm ơn chân thành nhất

vì đã đồng hành cùng tác giả trong suốt thời gian qua Con xin cảm ơn Cha, Mẹ và gia đình đã luôn là chỗ dựa vững chắc về tinh thần và vật chất, cũng là những người luôn mong mỏi cho con thành công; cảm ơn vợ và các em đã gánh vác công việc gia đình thay cho anh; xin lỗi các con vì phần nào đó đã chịu thiệt thòi trong thời gian

bố học tập nghiên cứu, chính các con là nguồn động lực lớn lao giúp bố hoàn thành được công việc khó khăn này

Hà Nội, tháng 11 năm 2016

Cao Chính Nghĩa

Trang 4

LỜI CAM ĐOAN

Các kết quả trình bày trong luận án là công trình nghiên cứu của tôi được hoàn thành dưới sự hướng dẫn của GS.TS Vũ Đức Thi, TS Tân Hạnh và TS Nguyễn Long Giang Những kết quả trình bày là mới và chưa từng được công bố ở các công trình của người khác

Tôi xin chịu trách nhiệm về những lời cam đoan của mình

Cao Chính Nghĩa

Trang 5

MỤC LỤC

MỤC LỤC i

Danh mục các thuật ngữ iii

Bảng các ký hiệu, từ viết tắt iv

Danh sách bảng vii

Danh sách hình vẽ viii

MỞ ĐẦU 1

CHƯƠNG 1 CÁC KIẾN THỨC CƠ SỞ 9

1.1 Một số khái niệm về tập thô 9

1.1.1 Hệ thông tin 9

1.1.2 Các tập xấp xỉ 10

1.1.3 Miền dương 11

1.1.4 Bảng quyết định 11

1.2 Một số khái niệm về tập thô mờ xác định trên bảng quyết định miền giá trị thực 11

1.2.1 Bảng quyết định miền giá trị thực 12

1.2.2 Quan hệ tương đương mờ 12

1.2.3 Ma trận tương đương mờ 13

1.2.4 Phân hoạch mờ và lớp tương đương mờ 14

1.2.5 Các tập xấp xỉ mờ 17

1.2.6 Miền dương mờ 17

1.3 Một số khái niệm về tập thô mờ xác định trên bảng quyết định mờ 18

1.3.1 Bảng quyết định mờ 18

1.3.2 Phân hoạch mờ và lớp tương đương mờ 20

1.3.3 Các tập xấp xỉ mờ 21

1.3.4 Miền dương mờ 21

1.4 Rút gọn thuộc tính trong bảng quyết định 23

1.4.1 Tổng quan về rút gọn thuộc tính 23

1.4.2 Tổng quan về rút gọn thuộc tính trong bảng quyết định theo tiếp cận tập thô 26

1.4.3 Định hướng nghiên cứu của luận án 28

1.5 Kết luận chương 1 29

Trang 6

CHƯƠNG 2 RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH MIỀN GIÁ

TRỊ THỰC SỬ DỤNG MIỀN DƯƠNG MỜ VÀ KHOẢNG CÁCH JACCARD MỜ 30

2.1 Đặt vấn đề 30

2.2 Rút gọn thuộc tính sử dụng miền dương mờ 31

2.2.1 Phương pháp rút gọn thuộc tính sử dụng miền dương mờ 32

2.2.2 Thử nghiệm và đánh giá kết quả 37

2.3 Rút gọn thuộc tính sử dụng khoảng cách Jaccard mờ 44

2.3.1 Khoảng cách Jaccard mờ và các tính chất 44

2.3.2 Phương pháp rút gọn thuộc tính sử dụng khoảng cách Jaccard mờ 52

2.3.3 Thử nghiệm và đánh giá kết quả 56

2.4 Kết luận chương 2 61

CHƯƠNG 3 RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH MIỀN GIÁ TRỊ THỰC SỬ DỤNG KHOẢNG CÁCH PHÂN HOẠCH MỜ 63

3.1 Đặt vấn đề 63

3.2 Khoảng cách phân hoạch mờ và các tính chất 64

3.3 Phương pháp rút gọn thuộc tính sử dụng khoảng cách phân hoạch mờ 70

3.4 Thử nghiệm và đánh giá kết quả 77

3.5 Kết luận chương 3 82

CHƯƠNG 4 RÚT GỌN THUỘC TÍNH VÀ SINH LUẬT TRÊN BẢNG QUYẾT ĐỊNH MỜ 84

4.1 Đặt vấn đề 84

4.2 Phương pháp rút gọn thuộc tính của bảng quyết định mờ 87

4.3 Phương pháp sinh luật quyết định của bảng quyết định mờ 91

4.3.1 Luật quyết định mờ 92

4.3.2 Sinh luật quyết định từ bảng quyết định mờ 93

4.3.3 Thử nghiệm và đánh giá kết quả 105

4.4 Kết luận chương 4 110

KẾT LUẬN 112

Danh mục các công trình của tác giả 114

TÀI LIỆU THAM KHẢO 115

Trang 7

Danh mục các thuật ngữ Thuật ngữ tiếng Việt Thuật ngữ tiếng Anh

Bảng quyết định miền giá trị thực Numerical Decision Table

Ma trận tương đương mờ Fuzzy Equivalent Relational Matrix

Quan hệ tương đương mờ Fuzzy Equivalent Relation

Trang 8

I N D P Quan hệ P không phân biệt

 u P Lớp tương đương chứa u của quan hệ IND P 

 u i RP Lớp tương đường mờ chứa u của quan hệ tương đương mờ

P

R /

Trang 9

F_RSAR1 Thuật toán rút gọn thuộc tính dựa trên miền dương mờ

F_RSAR1 (Fuzzy Rough Set Based Attribute Reduction 1)

F_RSAR2 Thuật toán rút gọn thuộc tính dựa trên miền dương mờ

F_RSAR2 (Fuzzy Rough Set Based Attribute Reduction 2)

FJ_DBAR Thuật toán rút gọn thuộc tính dựa trên khoảng cách Jaccard

mờ (Fuzzy Jaccard Distance Based Attribute Reduction)

FJ_RBAR Thuật toán sinh luật quyết định mờ dựa trên khoảng cách

Jaccard mờ (Fuzzy Jaccard Rule Based Attribute Reduction)

NF_DBAR Thuật toán rút gọn thuộc tính dựa trên khoảng cách phân

hoạch mờ (New Fuzzy Distance Based Attribute Reduction)

FAR-VPFRS

Thuật toán rút gọn thuộc tính dựa trên miền dương mờ (Forward Attribute Reduction Based On Variable Precision Fuzzy-Rough Model)

FA-FPR

Thuật toán rút gọn thuộc tính dựa trên miền dương mờ cải tiến (Forward Approximation - Fuzzy Positive Region Reduction)

FA-FSCE

Thuật toán rút gọn thuộc tính dựa trên Entropy cải tiến (Forward Approximation - Fuzzy Conditional Entropy To Design A Heuristic Feature Selection Algorithm)

Trang 10

GRAF

Thuật toán rút gọn thuộc tính dựa trên Entropy tăng thêm (Attribute Selection Based On Information Gain Ratio In Fuzzy Rough Set Theory)

MRBFA Thuật toán sinh luật quyết định mờ dựa trên xấp xỉ tiến

(Mine Rules Based On The Forward Approximation)

MRBBA Thuật toán sinh luật quyết định mờ dựa trên xấp xỉ lùi (Mine

Rules Based On The Backward Approximation)

Trang 11

Danh sách bảng

Bảng 1.1 Bảng quyết định miền giá trị thực 12

Bảng 1.2. Bảng quyết định mờ chơi thể thao 18

Bảng 1.3 Bảng quyết định mờ của Ví dụ 1.3 22

Bảng 2.1 Bảng quyết định miền giá trị thực của Ví dụ 2.1 34

Bảng 2.2 Bộ dữ liệu thử nghiệm 37

Bảng 2.3 Kết quả thực nghiệm của F_RSAR2, FAR-VPFRS 40

Bảng 2.4 Tập rút gọn của F_RSAR2, FAR-VPFRS 42

Bảng 2.5 Độ chính xác phân lớp C4.5 của F_RSAR2, FAR-VPFRS 42

Bảng 2.6 Kết quả thực nghiệm của FJ_DBAR và GRAF 57

Bảng 2.7 Tập rút gọn thu được bởi FJ_DBAR và GRAF 59

Bảng 2.8 Độ chính xác phân lớp C4.5 của FJ_DBAR và GRAF 59

Bảng 3.1 Mối liên hệ giữa khoảng cách phân hoạch mờ và entropy thông tin 69

Bảng 3.2 Kết quả thực nghiệm của FA_FSCE, FA_FPR, NF_DBAR 78

Bảng 3.3 Tập rút gọn của FA_FSCE, FA_FPR, NF_DBAR 80

Bảng 3.4 Độ chính xác phân lớp C4.5 của FA_FSCE, FA_FPR, NF_DBAR 80

Bảng 4.1. Bảng quyết định mờ chơi thể thao biểu diễn lại Bảng 1.2 89

Bảng 4.2 Bảng quyết định mờ chơi thể thao đã rút gọn thuộc tính 97

Bảng 4.3. Khoảng cách Jaccard mờ trực tiếp giữa các biến ngôn ngữ của Bảng 4.2 98

Bảng 4.4 Kết quả gán nhãn của Bảng 4.2 với (α=0.245; β=0.9) 100

Bảng 4.5 Kết quả gán nhãn của Bảng 4.2 với (α=0.245; β=0.8) 101

Bảng 4.6 Kết quả gán nhãn của Bảng 4.2 với (α=0.26) 103

Bảng 4.7 Kết quả thực nghiệm của MRBFA, MRBBA và FJ_RBAR 108

Trang 12

Danh sách hình vẽ

Hình 1.1 Quá trình lựa chọn thuộc tính 25

Hình 1.2 Lựa chọn thuộc tính theo hướng tiếp cận lọc & đóng gói 26

Hình 1.3 Mô hình phương pháp heuristic rút gọn thuộc tính 27

Hình 2.1 Thời gian thực hiện của F_RSAR2, FAR-VPFRS 41

Hình 2.2 Độ chính xác phân lớp C4.5 của F_RSAR2, FAR-VPFRS 43

Hình 2.3 Thời gian thực hiện của FJ_DBAR và GRAF 58

Hình 2.4 Độ chính xác phân lớp C4.5 của FJ_DBAR và GRAF 61

Hình 3.1 Thời gian thực hiện của FA_FSCE, FA_FPR, NF_DBAR 79

Hình 3.2 Độ chính xác phân lớp C4.5 của FA_FSCE, FA_FPR và NF_DBAR 81

Hình 4.1 Phân lớp dữ liệu theo các luật quyết định mờ 86

Hình 4.2 Độ chính xác phân lớp của MRBFA, MRBBA và FJ_RBAR 109

Hình 4.3 Độ phân tán dữ liệu của MRBFA, MRBBA và FJ_RBAR 109

Trang 13

MỞ ĐẦU

Rút gọn thuộc tính và sinh luật quyết định (luật phân lớp) là hai bài toán quan trọng trong quá trình khám phá tri thức từ dữ liệu Rút gọn thuộc tính thuộc giai đoạn tiền xử lý dữ liệu còn sinh luật quyết định thuộc giai đoạn khai phá dữ liệu Rút gọn thuộc tính của bảng quyết định là quá trình lựa chọn tập con nhỏ nhất của tập thuộc tính điều kiện, loại bỏ các thuộc tính dư thừa mà bảo toàn thông tin phân lớp của bảng quyết định, gọi là tập rút gọn (reduct) Kết quả rút gọn thuộc tính ảnh hưởng trực tiếp đến hiệu quả thực hiện các nhiệm vụ khai phá: Gia tăng tốc độ, cải thiện chất lượng, tính dễ hiểu của các kết quả thu được Sinh luật quyết định là bước tiếp theo của rút gọn thuộc tính trong khai phá dữ liệu nhằm đánh giá chất lượng phân lớp của dữ liệu thông qua độ hỗ trợ của tập luật quyết định Độ chính xác phân lớp được đánh giá thông qua tỷ lệ phân lớp đúng theo luật quyết định trên tổng số lớp của tập dữ liệu

Các kỹ thuật rút gọn thuộc tính được phân thành hai loại: Lựa chọn thuộc tính (Attribute selection) và biến đổi thuộc tính (Attribute transformation) [44] Lựa chọn thuộc tính là chọn ra một tập con tốt nhất (theo một nghĩa nào đó) từ tập dữ liệu ban đầu Biến đổi thuộc tính là thực hiện việc biến đổi các thuộc tính của tập dữ liệu ban đầu thành một tập dữ liệu với các thuộc tính mới có số lượng ít hơn sao cho bảo tồn được thông tin nhiều nhất Các công trình nghiên cứu về rút gọn thuộc tính thường tập trung vào nghiên cứu các kỹ thuật lựa chọn thuộc tính Lựa chọn thuộc

tính là quá trình lựa chọn một tập con gồm P thuộc tính từ tập gồm A thuộc tính (PA) sao cho không gian thuộc tính được thu gọn lại một cách tối ưu theo một tiêu

chuẩn nhất định Hiện nay có hai cách tiếp cận chính đối với bài toán lựa chọn

thuộc tính: Lọc (filter) và đóng gói (wrapper) Cách tiếp cận kiểu lọc thực hiện việc

lựa chọn thuộc tính độc lập với thuật toán khai phá sử dụng sau này Các thuộc tính được chọn chỉ dựa trên độ quan trọng của chúng trong việc mô tả dữ liệu Ngược lại với cách tiếp cận lọc, lựa chọn thuộc tính kiểu đóng gói tiến hành việc lựa chọn bằng cách áp dụng ngay kỹ thuật khai phá cụ thể, độ chính xác của kết quả được lấy làm tiêu chuẩn để lựa chọn các tập con thuộc tính [44]

Trang 14

Lý thuyết tập thô (Rough set) do Pawlak đề xuất [66] là công cụ hiệu quả giải quyết bài toán rút gọn thuộc tính trong bảng quyết định và được cộng đồng nghiên cứu về tập thô thực hiện lâu nay Trong lý thuyết tập thô, dữ liệu được biểu diễn thông qua một hệ thông tin IS U A,  với U là tập các đối tượng và A là tập

các thuộc tính Phương pháp tiếp cận chính của lý thuyết tập thô là dựa trên quan hệ

không phân biệt được để đưa ra các tập xấp xỉ biểu diễn tập đối tượng cần quan sát

Bảng quyết định là một hệ thông tin IS với tập thuộc tính A được chia thành hai tập con khác rỗng rời nhau CD, lần lượt được gọi là tập thuộc tính điều kiện và tập thuộc tính quyết định Nói cách khác, DT U C, D với CD  Bảng quyết định là mô hình thường gặp trong thực tế, khi mà giá trị dữ liệu tại các thuộc tính điều kiện có thể cung cấp cho ta thông tin về giá trị của thuộc tính quyết định

Các phương pháp rút gọn thuộc tính theo tiếp cận lý thuyết tập thô đều thực hiện trên các bảng quyết định có miền giá trị rời rạc Trong thực tế, miền giá trị thuộc tính của các bảng quyết định thường chứa giá trị thực Ví dụ, thuộc tính trọng lượng cơ thể và huyết áp trong bảng dữ liệu bệnh nhân thường là các giá trị thực, liên tục Để thực hiện các phương pháp rút gọn thuộc tính theo tiếp cận tập thô, miền giá trị thuộc tính thực, liên tục cần được rời rạc hóa Tuy nhiên, các phương pháp rời rạc hóa không bảo toàn sự khác nhau ban đầu giữa các đối tượng trong dữ liệu gốc và do đó làm giảm độ chính xác phân lớp sau khi rút gọn thuộc tính Để giải quyết bài toán rút gọn thuộc tính trực tiếp trên các bảng quyết định có miền giá trị thực, trong mấy năm gần đây các nhà nghiên cứu đề xuất hướng tiếp cận mới sử dụng lý thuyết tập thô mờ

Lý thuyết tập thô mờ (Fuzzy rough set) do Dubois, D., và Prade, H., [32], [33] đề xuất là sự kết hợp của lý thuyết tập thô và lý thuyết tập mờ nhằm xấp xỉ các tập mờ dựa trên một quan hệ tương đương mờ (fuzzy equivalent relation) được xác định trên miền giá trị thuộc tính Lý thuyết tập thô truyền thống dựa trên quan hệ tương đương để xấp xỉ tập hợp, trong đó độ tương đương của hai đối tượng là 1 nếu chúng tương đương, ngược lại là 0 nếu chúng không tương đương Lý thuyết tập thô

Trang 15

mờ sử dụng quan hệ tương đương mờ thay thế quan hệ tương đương, độ tương đương mờ của hai đối tượng là một giá trị nằm trong đoạn [0,1] cho thấy tính gần nhau, hay khả năng phân biệt giữa hai đối tượng Do đó, quan hệ tương đương mờ bảo toàn sự khác nhau, hay độ tương đương, giữa các đối tượng và các phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ có tiềm năng trong việc bảo toàn độ chính xác phân lớp sau khi thực hiện các phương pháp rút gọn thuộc tính

Chủ đề nghiên cứu về rút gọn thuộc tính theo tiếp cận tập thô mờ đã thu hút

sự quan tâm của các nhà nghiên cứu trong mấy năm gần đây Các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô mờ tập trung giải quyết hai bài toán chính:

1) Bài toán thứ nhất là rút gọn thuộc tính trực tiếp trên các bảng quyết định

có miền giá trị thực (miền giá trị thuộc tính là các số thực) không qua bước rời rạc hoá dữ liệu [15], [18], [24], [26], [36], [38], [39], [63], [79], [80], [97] Với bài toán này, đối tượng nghiên cứu là các bảng quyết định

miền giá trị thực Một quan hệ tương đương mờ được định nghĩa trên

miền giá trị của thuộc tính Quan hệ này cho phép xác định các ma trận tương đương mờ Dựa trên ma trận quan hệ tương đương mờ, các toán tử của tập thô mờ được xây dựng như lớp tương đương mờ, tập xấp xỉ dưới

mờ và xấp xỉ trên mờ, miền dương mờ Lớp tương đương mờ là đơn vị

cơ sở để xây dựng các độ đo hiệu quả giải quyết bài toán rút gọn thuộc tính Các kết quả nghiên cứu theo hướng tiếp cận này tập trung vào ba nhóm chính: Nhóm các phương pháp sử dụng miền dương mờ [9], [38]-[40], [72], nhóm phương pháp sử dụng ma trận phân biệt mờ [15], [18], [26], [80], nhóm phương pháp sử dụng entropy thông tin mờ [24], [38]-[40], [88], [89] Thực nghiệm trên một số bộ số liệu lấy từ kho dữ liệu UCI [99] cho thấy, các phương pháp rút gọn thuộc tính theo hướng tiếp cận này có độ chính xác phân lớp cao hơn các phương pháp rút gọn thuộc

tính theo tiếp cận tập thô truyền thống Tuy nhiên, chưa có nghiên cứu đầy

đủ để so sánh, đánh giá các phương pháp đã có về độ chính xác phân lớp

Trang 16

và thời gian thực hiện Do đó, việc tìm kiếm các phương pháp hiệu quả

hơn các phương pháp đã công bố theo hướng tiếp cận này nhằm nâng cao

độ chính xác phân lớp và thời gian thực hiện là vấn đề nghiên cứu thứ

nhất của luận án

2) Bài toán thứ hai là rút gọn thuộc tính và sinh luật trực tiếp trên bảng quyết định mờ, là bảng quyết định mà giá trị thuộc tính là các tập mờ [9], [44], [45], [47]-[51], [74], [88], [89].Với bài toán này, đối tượng nghiên cứu là

các bảng quyết định mờ (là các bảng quyết định sau khi được mờ hóa

bằng các tập mờ) Các phân hoạch mờ được tính toán trên miền giá trị các thuộc tính Trên cơ sở đó, các lớp tương đương mờ được xác định Các lớp tương đương mờ là đơn vị tính toán cơ sở để tính toán các toán tử trong lý thuyết tập thô mờ như các tập xấp xỉ mờ, miền dương mờ và là đơn vị cơ sở để tính toán các độ đo sử dụng để giải quyết bài toán rút gọn thuộc tính Sinh luật là bài toán tiếp theo của rút gọn thuộc tính nhằm sinh tập luật phân lớp dữ liệu Các nghiên cứu liên quan đến việc giải quyết bài toán sinh luật quyết định trên bảng quyết định mờ phải kể đến các công trình [19], [21], [44], [51], [56], [74], [92] Các công bố này sử dụng các

độ đo khác nhau nhằm trích lọc hệ luật mờ như sử dụng miền dương mờ

và một số độ đo khác Việc tìm kiếm các độ đo nhằm nâng cao hiệu quả

của phương pháp trích lọc hệ luật mờ về thời gian thực hiện và độ chính

xác phân lớp là vấn đề nghiên cứu thứ hai của luận án

Kỹ thuật sử dụng khoảng cách đóng vai trò quan trọng trong khai phá dữ liệu Trên thế giới, kỹ thuật này được nhiều người quan tâm nghiên cứu và áp dụng vào việc giải quyết các bài toán như phân lớp, phân cụm, lựa chọn đặc trưng,…Ở Việt Nam, luận án tiến sĩ của tác giả Nguyễn Long Giang là công trình nghiên cứu khá đầy đủ về một số phương pháp rút gọn thuộc tính của bảng quyết định theo tiếp cận lý thuyết tập thô, đặc biệt là phương pháp sử dụng khoảng cách [4] Phương pháp rút gọn thuộc tính sử dụng khoảng cách theo tiếp cận tập thô được chứng minh

là mang lại hiệu quả hơn so với các phương pháp khác [4] Do đó, việc phát triển

Trang 17

các độ đo khoảng cách theo tiếp cận tập thô mờ (gọi là khoảng cách mờ) có tiềm

năng trong việc giải quyết bài toán rút gọn thuộc tính và sinh luật theo tiếp cận tập

lý thuyết tập thô

2) Với bài toán thứ hai, nghiên cứu sinh nghiên cứu các phương pháp hiệu quả rút gọn thuộc tính và sinh luật quyết định trên bảng quyết định mờ Tính hiệu quả dựa trên hai tiêu chí đánh giá là độ chính xác phân lớp và thời gian thực hiện

Với mục tiêu đặt ra, luận án thu được các kết quả chính như sau:

1) Đề xuất các phương pháp rút gọn thuộc tính trực tiếp trên bảng quyết định miền giá trị thực theo tiếp cận tập thô mờ, bao gồm:

- Phương pháp rút gọn thuộc tính sử dụng miền dương mờ nhằm cải tiến một số phương pháp dựa trên miền dương mờ đã công bố trước đó [38]

để tìm tập rút gọn không dư thừa thuộc tính và bảo toàn miền dương mờ Kết quả này công bố trong công trình [CCN1], [CCN2]

- Phương pháp rút gọn thuộc tính sử dụng khoảng cách Jaccard mờ và khoảng cách phân hoạch mờ Khoảng cách Jaccard mờ được nghiên cứu sinh xây dựng dựa trên khoảng cách Jaccard giữa hai tập hợp hữu hạn [4]

để đo khoảng cách giữa hai tập mờ Khoảng cách phân hoạch mờ được xây dựng dựa trên khoảng cách mờ giữa hai tập mờ do nghiên cứu sinh

Trang 18

đề xuất Thực nghiệm trên một số bộ dữ liệu lấy từ kho dữ liệu UCI [99] chứng minh hai phương pháp sử dụng khoảng cách mờ hiệu quả hơn các phương pháp đã công bố trên cả hai tiêu chí: Độ chính xác phân lớp và thời gian thực hiện trên một số bộ dữ liệu thực nghiệm Các kết quả này

khác trên tiêu chí độ chính xác phân lớp dữ liệu

Đối tượng nghiên cứu của luận án là các bảng quyết định có miền giá trị

thực và bảng quyết định mờ

Phạm vi nghiên cứu của luận án tập trung trọng tâm vào hai bài toán:

1) Bài toán thứ nhất là rút gọn thuộc tính của bảng quyết định miền giá trị thực trong bước tiền xử lý số liệu

2) Bài toán thứ hai là rút gọn thuộc tính và sinh luật quyết định của bảng quyết định mờ

Phương pháp nghiên cứu của luận án là nghiên cứu lý thuyết và nghiên

cứu thực nghiệm Về nghiên cứu lý thuyết: Các định lý, mệnh đề trong luận án được chứng minh chặt chẽ dựa vào các kiến thức cơ bản và các kết quả nghiên cứu

đã công bố Về nghiên cứu thực nghiệm: Luận án thực hiện cài đặt các thuật toán, chạy thử nghiệm thuật toán với các bộ số liệu lấy từ kho dữ liệu UCI [99], so sánh

và đánh giá kết quả thực nghiệm so với kết quả nghiên cứu lý thuyết và các công bố khác để khẳng định được tính đúng đắn của kết quả nghiên cứu

Trang 19

Bố cục của luận án gồm phần mở đầu và bốn chương nội dung, phần kết

luận và danh mục các tài liệu tham khảo Cụ thể như sau:

Chương 1 trình bày một số khái niệm cơ bản gồm: Một số khái niệm về lý thuyết tập thô; một số khái niệm cơ bản về tập thô mờ xác định trên bảng quyết định miền giá trị thực; một số khái niệm về tập thô mờ xác định trên bảng quyết định mờ; tổng quan về bài toán rút gọn thuộc tính Các kiến thức cơ sở này được sử dụng trong các chương sau, là các đóng góp chính của luận án

Chương 2 trình bày các kết quả nghiên cứu về các phương pháp rút gọn thuộc tính trong bảng quyết định miền giá trị thực sử dụng miền dương mờ và khoảng cách Jaccard mờ, bao gồm:

1) Đề xuất cải tiến một thuật toán rút gọn thuộc tính của bảng quyết định dựa trên miền dương mờ; đây là phương pháp tìm một tập rút gọn sử dụng quan hệ tương đương mờ theo tiếp cận tập thô mờ có độ phức tạp tính toán

là hàm đa thức và bảo toàn miền dương mờ Phương pháp đề xuất khắc phục được một số hạn chế về thời gian tính toán hàm mũ như công bố của nhóm tác giả trong [44] và bảo toàn miền dương mờ, tìm được một tập rút gọn với số thuộc tính là nhỏ nhất, loại bỏ được các thuộc tính dư thừa như trong công bố của nhóm tác giả trong [38]

2) Xây dựng thuật toán rút gọn thuộc tính của bảng quyết định miền giá trị thực sử dụng khoảng cách Jaccard mờ Khoảng cách Jaccard mờ được nghiên cứu sinh xây dựng dựa trên khoảng cách Jaccard giữa hai tập hợp hữu hạn [4] để đo khoảng cách giữa hai tập mờ Kết quả so sánh đánh giá phương pháp đề xuất với các phương pháp khác dựa trên hai tiêu chuẩn:

Độ chính xác phân lớp dữ liệu và thời gian thực hiện của phương pháp

Chương 3 trình bày kết quả nghiên cứu về phương pháp rút gọn thuộc tính trong bảng quyết định miền giá trị thực sử dụng độ đo khoảng cách phân hoạch mờ, bao gồm:

Trang 20

1) Đề xuất độ đo khoảng cách phân hoạch mờ dựa trên khoảng cách mờ giữa hai tập mờ

2) Xây dựng thuật toán rút gọn thuộc tính của bảng quyết định miền giá trị thực sử dụng khoảng cách phân hoạch mờ Kết quả so sánh đánh giá phương pháp đề xuất với các phương pháp khác dựa trên hai tiêu chuẩn:

Độ chính xác phân lớp dữ liệu và thời gian thực hiện của phương pháp

Chương 4 trình bày phương pháp rút gọn thuộc tính và sinh luật quyết định của bảng quyết định mờ dựa trên tập thô mờ Phương pháp rút gọn thuộc tính

sử dụng miền dương mờ, phương pháp sinh luật sử dụng khoảng cách Jaccard mờ Dựa trên lý thuyết và các thực nghiệm, chứng minh rằng phương pháp đề xuất là

tương đương với các phương pháp khác dựa trên tiêu chí độ chính xác phân lớp dữ

liệu và thời gian thực hiện; độ phức tạp tính toán của các phương pháp sinh luật quyết định trong trường hợp tổng quát là O C D U( ) với |C| là số biến ngôn ngữ của

tất cả các thuộc tính điều kiện, |D| là số biến ngôn ngữ của tất cả các thuộc tính quyết định, |U| là số đối tượng của bảng dữ liệu

Cuối cùng, phần kết luận nêu những đóng góp của luận án, hướng phát triển tiếp theo và những vấn đề quan tâm của tác giả

Trang 21

CHƯƠNG 1 CÁC KIẾN THỨC CƠ SỞ

Nội dung của chương này trình bày những kiến thức cơ sở về tập thô, tập thô

mờ liên quan đến bài toán rút gọn thuộc tính và sinh luật quyết định; trình bày một số khái niệm cơ bản về tập thô mờ trên bảng quyết định miền giá trị thực để giải quyết bài toán rút gọn thuộc tính sử dụng quan hệ tương đương mờ; trình bày một số khái niệm cơ bản về tập thô mờ trên bảng quyết định mờ để giải quyết bài toán rút gọn thuộc tính và sinh luật quyết định dựa trên các phân hoạch mờ xác định trước trên mỗi thuộc tính Ngoài ra, Chương 1 trình bày tổng quan về rút gọn thuộc tính trong bảng quyết định theo tiếp cận lý thuyết tập thô truyền thống, là cơ sở để phát triển các kỹ thuật này theo tiếp cận tập thô mờ và định hướng nghiên cứu của luận án Các kết quả nghiên cứu được trình bày trong các chương tiếp theo của luận án

1.1 Một số khái niệm về tập thô

Phần này trình bày tóm tắt một số khái niệm cơ bản về lý thuyết tập thô truyền thống của Pawlak [66]

Ký hiệu a u  là giá trị thuộc tính a tại đối tượng u, IND P  được gọi là quan

hệ P-không phân biệt được Dễ thấy rằng đây là một quan hệ tương đương trên U Nếu ( , )u vIND P( ) thì hai đối tượng uv không phân biệt được bởi các thuộc tính trong

P Quan hệ tương đương IND P  xác định một phân hoạch trên U, ký hiệu là

 

/

U IND P hay U P/ , cụ thể:

Trang 22

Cho hệ thông tin IS U A,  và tập đối tượng XU Với một tập thuộc tính

PA cho trước, chúng ta có các lớp tương đương của phân hoạch U P/ Trong lý

thuyết tập thô truyền thống, để biểu diễn X thông qua các lớp tương đương của

/

U P (còn gọi là biểu diễn X bằng tri thức có sẵn P), người ta xấp xỉ X bởi hợp của

một số hữu hạn các lớp tương đương của U P/ Có hai cách xấp xỉ tập đối tượng X

thông qua tập thuộc tính P, được gọi là P-xấp xỉ dưới và P-xấp xỉ trên của X, ký

hiệu lần lượt là P XPX, được xác định như sau:

 

P XuU uX PX uU u PX   (1.3) Tập P X bao gồm tất cả các phần tử của U chắc chắn thuộc vào X, còn tập

PX bao gồm các phần tử của U có khả năng thuộc vào X dựa vào tập thuộc tính P

Từ hai tập xấp xỉ nêu trên, ta định nghĩa các tập

 

P

PN XP XP X : P-miền biên của X,

Dễ thấy miền biên của X là tập chứa các đối tượng có thể thuộc X, còn

P-miền ngoài của X chứa các đối tượng chắc chắn không thuộc X Sử dụng các lớp

của phân hoạch U /P , các xấp xỉ dưới và trên của X có thể viết lại

P X   YU P YX , P X  YU /P YX   (1.5)

Trong trường hợp PN P X   thì X được gọi là tập rõ, ngược lại X được gọi là tập thô

Trang 23

P-miền dương của Q Dễ thấy POS Q P( ) là tập các đối tượng trong U được phân lớp

đúng vào các lớp của U Q/ sử dụng tập thuộc tính P Rõ ràng, POS Q P( ) là tập tất cả

các đối tượng u sao cho với mọi v U mà u P v P  ta đều có u Q v Q  Nói

Q P

Bảng quyết định DT được gọi là nhất quán khi và chỉ khi phụ thuộc hàm C  D

nghiệm đúng, nghĩa là với mọi u v, U u C,  v C  kéo theo u D v D  Ngược lại

DT là không nhất quán Dễ thấy bảng quyết định DT là nhất quán khi và chỉ khi

 

C

POS DU Trong trường hợp bảng không nhất quán thì POS C D chính là tập con

cực đại của U sao cho phụ thuộc hàm CD đúng

Bảng quyết định DT được gọi là bảng quyết định miền giá trị thực nếu miền giá trị của mọi c C là các giá trị số thực

1.2 Một số khái niệm về tập thô mờ xác định trên bảng quyết định

miền giá trị thực

Trong mục này, luận án trình bày một số khái niệm về tập thô mờ xác định trên bảng quyết định miền giá trị thực Các khái niệm này được sử dụng để xây dựng phương pháp rút gọn thuộc tính trong bảng quyết định miền giá trị thực theo tiếp cận tập thô mờ, được trình bày ở Chương 2 và Chương 3 của luận án

Trang 24

1.2.1 Bảng quyết định miền giá trị thực

Cho bảng quyết định DT U C, D, nếu miền giá trị của mọi thuộc tính

c C là các giá trị số thực thì bảng quyết định DT được gọi là bảng quyết định miền giá trị thực

Ví dụ 1.1 Bảng quyết định miền giá trị thực DT U C, D cho ở Bảng 1.1 với

1.2.2 Quan hệ tương đương mờ

Cho bảng quyết định miền giá trị thực DT U C, D, một quan hệ R xác định trên miền giá trị thuộc tính được gọi là quan hệ tương đương mờ nếu thỏa mãn các điều kiện sau với mọi x y z U, , 

Trang 25

2) RP Q RPRQ  R x y ,  maxR Px y, ,RQx y,  ; (1.7) 3) RP Q  R PRQR x y ,  minRPx y, ,RQx y,  ; (1.8) 4) RP  R QRPx y,  R Qx y,  (1.9)

1.2.3 Ma trận tương đương mờ

Cho bảng quyết định miền giá trị thực DT U C, D với U x x1 , 2 , ,x n

và R P là quan hệ tương đương mờ xác định trên tập thuộc tính PC Quan hệ RP

được biểu diễn bởi ma trận tương đương mờ M R P pij n n

với p x i là giá trị của thuộc tính p tại đối tượng x i, pmax, pmin tương ứng là giá trị

lớn nhất, nhỏ nhất của thuộc tính p Dễ thấy, giá trị các phần tử của ma trận tương

đương mờ thuộc đoạn [0,1], nếu pmax  pmin (tử thức và mẫu thức đều bằng 0) thì định nghĩa p  ij 1 Khi đó sử dụng quan hệ tương đương mờ ở công thức (1.11) và quan hệ tương đương ở công thưc (1.12) là như nhau

Trang 26

để xây dựng các ma trận tương đương mờ, ma trận tương đương mờ của các thuộc tính định danh được xây dựng theo công thức (1.12)

1.2.4 Phân hoạch mờ và lớp tương đương mờ

Cho bảng quyết định miền giá trị thực DT U C, D và P Q, C Theo [72] ta có Pa

Trang 27

Ví dụ 1.2 Cho bảng quyết định miền giá trị thực (Bảng 1.1) của Ví dụ 1.1

Ma trận tương đương mờ của thuộc tính c1 xác định theo công thức (1.11) được tính

Ma trận tương đương mờ của thuộc tính D xác định theo công thức (1.11)

hoặc (1.12) cho kết quả như nhau

Phân hoạch mờ của quan hệ 

1

Rc thông qua ma trận M R c1 ở công thức (1.14) được xác định như sau:

Trang 28

Gọi  là tập tất cả các phân hoạch mờ trên U xác định bởi các quan hệ tương

đương mờ trên các tập thuộc tính, khi đó  được gọi là một không gian phân hoạch

mờ trên U Như vậy, một không gian phân hoạch mờ được xác định bởi quan hệ

tương đương mờ định nghĩa trực tiếp trên miền giá trị thuộc tính Mỗi tập thuộc tính

Trang 29

   là ma trận tương đương mờ của RP

Cho X là một tập mờ trên U và RP là một quan hệ tương đương mờ trên tập thuộc tính PC Khi đó, tập xấp xỉ dưới 

với ký hiệu inf, sup tương ứng là cận dưới đúng và cận trên đúng của tập hợp X; F

là các lớp tương đương mờ của phân hoạch mờ U / R P Bộ  ,P

P

R X R X được gọi

là tập thô mờ [32], [33], [44], [47] Mô hình tập thô mờ này được xây dựng trên

quan hệ tương đương mờ xác định trên miền giá trị thuộc tính của bảng quyết định giá trị thực

1.2.6 Miền dương mờ

Theo lý thuyết tập thô truyền thống, khái niệm miền dương được định nghĩa

là giao của tất cả các tập xấp xỉ dưới Trong lý thuyết tập thô mờ, với hai quan hệ tương đương mờ  ,

R R xác định trên hai tập thuộc tính P Q, C, miền dương mờ

Trang 30

1.3 Một số khái niệm về tập thô mờ xác định trên bảng quyết định mờ

Mục này trình bày một số khái niệm về tập thô mờ xác định trên bảng quyết định mờ Các khái niệm này được sử dụng để xây dựng phương pháp rút gọn thuộc tính và sinh luật trực tiếp trên bảng quyết định mờ theo tiếp cận tập thô mờ Các

khái niệm này được sử dụng ở Chương 4 của luận án

1.3.1 Bảng quyết định mờ

Bảng quyết định mờ là bảng quyết định mà các thuộc tính là các tập mờ (fuzzy set) Bảng quyết định DT U C,D với U u1 , ,u9, C={Thời tiết, Nhiệt độ, Độ ẩm}, D={Quyết định} cho ở Bảng 1.2 dưới đây là một ví dụ minh họa

Có mưa Nóng

Trung bình Lạnh

Ẩm ướt

Bình thường

Bóng chuyền Bơi

Lướt ván

Trang 31

mờ Ví dụ: Thuộc tính “nhiệt độ cơ thể” có thể sử dụng ba biến ngôn ngữ (3 tập mờ)

là nóng, trung bình, lạnh và phụ thuộc vào ngữ cảnh của mỗi bài toán cụ thể mà có

các phương án lựa chọn tốt nhất Trong phạm vi luận án, việc xây dựng phương

pháp rút gọn thuộc tính và sinh luật được thực hiện trên bảng quyết định mờ Còn

việc chuyển đổi từ bảng quyết định gốc sang bảng quyết định mờ là lĩnh vực nghiên cứu khác, ngoài phạm vi của luận án

Trong tập rõ, người ta sử dụng hàm thuộc để xác định một phần tử có thuộc

về tập A hay không theo công thức (1.21)

1( )0

Trang 32

Ngược lại, lý thuyết tập mờ cho phép xác định mức độ một phần tử u thuộc

1.3.2 Phân hoạch mờ và lớp tương đương mờ

Như đã trình bày ở mục 1.3.1, với bảng quyết định mờ DT U C,D, mỗi thuộc tính xác định được các tập mờ, mỗi tập mờ xác định được hàm thuộc của tất

cả các đối tượng, là giá trị của đối tượng trên cột (tập mờ) của bảng quyết định mờ

Cho bảng quyết định mờ DT U C,D, với thuộc tính aC, phân hoạch

mờ U/ a được xác định là các tập mờ (biến ngôn ngữ) của thuộc tính aC Khi

đó, phân hoạch mờ sinh ra bởi tập thuộc tính PC được xác định như sau:

Trang 33

1.3.3 Các tập xấp xỉ mờ

Cho bảng quyết định mờ DT U C,D và PC Với tập mờ X , dựa vào các lớp tương đương mờ, tập xấp xỉ dưới mờ và xấp xỉ trên mờ của tập X là các tập mờ và hàm thuộc của các đối tượng được xác định như sau:

X F là các lớp tương đương mờ của phân hoạch mờ U P/  được tính trên bảng

quyết định mờ theo mục 1.3.2 Bộ PX PX, được gọi là một tập thô mờ được xây

dựng trên các phân hoạch mờ xác định trước trên mỗi thuộc tính của bảng quyết định mờ.

1.3.4 Miền dương mờ

Cho bảng quyết định mờ DT U C,D với  P Q, C Khi đó, miền dương

mờ là tập mờ, hàm thuộc của các đối tượng được tính trực tiếp từ bảng quyết định

mờ bởi các tập xấp xỉ dưới mờ như sau [47]:

Trang 35

Tương tự đối với 

Trang 36

khai phá: Gia tăng tốc độ, cải thiện chất lượng, tính dễ hiểu của các kết quả thu được

Các kỹ thuật rút gọn thuộc tính được phân thành hai loại: Lựa chọn thuộc tính (Attribute selection) và biến đổi thuộc tính (Attribute transformation) [44]

Lựa chọn thuộc tính là chọn một tập con tốt nhất (theo một nghĩa nào đó) từ tập dữ liệu ban đầu

Biến đổi thuộc tính thực hiện việc biến đổi các thuộc tính ban đầu thành một tập các thuộc tính mới với số lượng ít hơn sao cho bảo tồn được thông tin nhiều nhất

Các công trình nghiên cứu về rút gọn thuộc tính thường tập trung vào nghiên cứu các kỹ thuật lựa chọn thuộc tính Lựa chọn thuộc tính là qúa trình lựa chọn một

tập con gồm P thuộc tính từ tập gồm A thuộc tính (P  A) sao cho không gian thuộc

tính được thu gọn lại một cách tối ưu theo một tiêu chuẩn nhất định Việc tìm ra một tập con thuộc tính tốt nhất thường khó thực hiện; bài toán liên quan đến vấn đề này thuộc lớp bài toán NP-khó Nhìn chung, một thuật toán lựa chọn thuộc tính thường bao gồm bốn khâu cơ bản:

Trang 37

 Đã thu được số thuộc tính quy định

 Số bước lặp quy định cho quá trình lựa chọn đã hết

 Việc thêm vào hay loại bớt một thuộc tính nào đó không cho một tập con trở nên tốt hơn

 Đã thu được tập con tốt nhất theo tiêu chuẩn đánh giá Tập con tốt nhất cuối cùng phải được kiểm chứng thông qua việc tiến hành các phép kiểm định, so sánh

các kết quả khai phá với tập thuộc tính “tốt nhất” này và tập thuộc tính ban đầu trên

các tập dữ liệu khác nhau Quá trình lựa chọn thuộc tính được biểu diễn như hình sau [44]:

Hình 1.1 Quá trình lựa chọn thuộc tính

Hiện nay có hai cách tiếp cận chính đối với bài toán lựa chọn thuộc tính: Lọc

(filter) và đóng gói (wrapper) Cách tiếp cận kiểu lọc thực hiện việc lựa chọn thuộc

tính độc lập với các thuật toán khai phá sử dụng sau này Các thuộc tính được chọn chỉ dựa trên độ quan trọng của chúng trong việc mô tả dữ liệu Ngược lại với cách tiếp cận lọc, lựa chọn thuộc tính kiểu đóng gói tiến hành việc lựa chọn bằng cách áp dụng ngay kỹ thuật khai phá cụ thể với tập rút gọn vừa thu được, độ chính xác của kết quả được lấy làm tiêu chuẩn để lựa chọn các tập con thuộc tính Các hướng tiếp cận lọc và đóng gói của bài toán lựa chọn thuộc tính được biểu diễn [44]

Tập con phù hợp

Kiểm chứng kết quả

Tập con

Trang 38

Hình 1.2 Lựa chọn thuộc tính theo hướng tiếp cận lọc & đóng gói

1.4.2 Tổng quan về rút gọn thuộc tính trong bảng quyết định theo tiếp cận tập thô

Lý thuyết tập thô được xem là công cụ hiệu quả để giải quyết bài toán rút gọn thuộc tính và được cộng đồng nghiên cứu về tập thô thực hiện lâu nay [1]-[8] Các phương pháp rút gọn thuộc tính theo tiếp cận lý thuyết tập thô đều thực hiện trên các bảng quyết định có miền giá trị rời rạc, nghĩa là các bảng quyết định thu được sau khi thực hiện bước rời rạc hóa dữ liệu Đối với một bảng quyết định có thể

có nhiều tập rút gọn khác nhau Tuy nhiên, thực tế thường không đòi hỏi tìm tất cả các tập rút gọn mà chỉ cần tìm được một tập rút gọn (tốt nhất) theo một tiêu chuẩn đánh giá nào đó là đủ Theo lý thuyết tập thô, Pawlak đưa ra khái niệm tập rút gọn dựa trên miền dương và xây dựng thuật toán heuristic tìm một tập rút gọn tốt nhất của bảng quyết định dựa trên tiêu chí đánh giá là độ quan trọng của thuộc tính Phương pháp heuristic tìm một tập rút gọn tốt nhất bao gồm các bước: Định nghĩa tập rút gọn, định nghĩa độ quan trọng của thuộc tính và sau đó xây dựng thuật toán heuristic tìm một tập rút gọn Phương pháp rút gọn thuộc tính heuristic được mô hình hóa như sau:

Trang 39

Hình 1.3 Mô hình phương pháp heuristic rút gọn thuộc tính

Các thuật toán heuristic tìm tập rút gọn thường được xây dựng theo hai hướng tiếp cận khác nhau: Hướng tiếp cận từ dưới lên (bottom-up) và hướng tiếp

cận từ trên xuống (top-down)

Hướng tiếp cận Botton-Up

 Xuất phát từ tập rỗng hoặc tập lõi

 Thêm dần các thuộc tính có độ quan trọng lớn nhất cho đến khi thu được Reduct

 Kiểm tra tính tối thiểu của tập rút gọn thu được

Hướng tiếp cận Top-Down

 Xuất phát từ tập thuộc tính ban đầu

 Loại bỏ thuộc tính có độ quan trọng nhỏ nhất cho đến khi thu được Reduct

 Kiểm tra tính tối thiểu của tập rút gọn thu được

Tập thuộc tính ban đầu

Định nghĩa tập rút gọn

Định nghĩa

độ quan trọng của thuộc tính

Xây dựng thuật toán heuristic tìm một tập rút gọn

Tập rút gọn

Trang 40

Tiêu chuẩn so sánh, đánh giá các phương pháp là số lượng thuộc tính của tập rút gọn, độ phức tạp của thuật toán heuristic tìm tập rút gọn và độ chính xác phân lớp của tập dữ liệu sau khi rút gọn

Thời gian qua đã chứng kiến sự phát triển mạnh mẽ và sôi động của lĩnh vực nghiên cứu về rút gọn thuộc tính sử dụng lý thuyết tập thô [1]-[8], [22], [28]-[30], [64] Trong xu thế đó, nhiều nhóm nhà khoa học trên thế giới quan tâm nghiên cứu các phương pháp rút gọn thuộc tính trong bảng quyết định Các phương pháp chính là: Phương pháp dựa trên miền dương, phương pháp sử dụng các phép toán trong đại số quan hệ, phương pháp sử dụng ma trận phân biệt, phương pháp sử dụng entropy thông tin, phương pháp sử dụng khoảng cách Kỹ thuật sử dụng khoảng cách tuy ra đời muộn hơn nhưng đóng vai trò quan trọng trong khai phá dữ liệu, đặc biệt với bài toán rút gọn thuộc tính theo tiếp cận lý thuyết tập thô đã thu được nhiều kết quả tốt [4] Do vậy, việc phát triển các độ đo khoảng cách theo tiếp cận tập thô

mờ có tiềm năng trong việc giải quyết bài toán rút gọn thuộc tính trực tiếp của bảng

quyết định miền giá trị thực

1.4.3 Định hướng nghiên cứu của luận án

Tiêu chuẩn so sánh, đánh giá các phương pháp là số lượng thuộc tính của tập rút gọn, độ phức tạp của thuật toán heuristic tìm tập rút gọn và độ chính xác phân lớp của tập dữ liệu sau khi rút gọn

Lý thuyết tập thô mờ (Fuzzy rough set) do Dubois, D., và Prade, H., [32], [33]

đề xuất được xem là công cụ hiệu quả để giải quyết bài toán rút gọn thuộc tính đã và đang thu hút sự quan tâm của cộng đồng nghiên cứu về tập thô mờ trong mấy năm gần đây [9]-[18], [23]-[26], [34]-[36], [38], [39], [44], [45], [47]-[51], [59]-[63], [74], [78]-[80], [85]-[89], [94]-[98] Các nghiên cứu về rút gọn thuộc tính trong bảng quyết

định theo tiếp cận tập thô mờ tập trung giải quyết hai bài toán: Bài toán rút gọn thuộc

tính trực tiếp trên bảng quyết định miền giá trị thực và bài toán rút gọn thuộc tính và sinh luật trên bảng quyết định mờ Do đó, định hướng nghiên cứu của luận án là đề

xuất các phương pháp hiệu quả nhằm giải quyết hai bài toán trên

Ngày đăng: 07/11/2017, 14:53

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w