Luận văn tốt nghiệp tiếp cận lý thuyết tập thô do z pawlak

Luận văn tốt nghiệp Tiếp cận lý thuyết tập thô do Z.Pawlak Lý thuyết tập thô được nhà logoc học Balan Zdzilaw Pawlak đề xuất ra vào đầu những năm 80 của thế...

Trang 1



Luận văn tốt nghiệp

Tiếp cận lý thuyết tập thô do Z.Pawlak

Trang 2

Mục lục

1.1 Giới thiệu 10

1.2 Hệ thống thông tin và tập thô 11

1.2.1 Hệ thống thông tin 11

1.2.2 Quan hệ không phân biệt được 12

1.2.3 Các tập xấp xỉ 13

1.2.4 Các tính chất của xấp xỉ 15

1.2.5 Độ chính xác của xấp xỉ 16

1.3 Bảng quyết định 16

1.3.1 Rút gọn và lõi 17

1.3.2 Ma trận và hàm phân biệt được 18

1.3.3 Luật quyết định 23

1.4 Phụ thuộc xấp xỉ 24

Trang 3

1.4.1 Hàm thành viên thô 24

1.4.2 Phụ thuộc hàm xấp xỉ 25

1.4.3 Rút gọn xấp xỉ 28

Chương 2 Một số thuật toán tìm tập rút gọn 31 2.1 Mở đầu 31

2.2 Thuật toán sử dụng các phép toán đại số 32

2.2.1 Tập lõi trong bảng quyết định 32

2.2.2 Đặc trưng của tập rút gọn 36

2.2.3 Các thuật toán 39

2.3 Thuật toán dựa vào số cặp phân biệt được 43

2.3.1 Một số ký hiệu 43

2.3.2 Cơ sở toán học 45

2.3.3 Thuật toán 47

2.4 Thuật toán tìm rút gọn xấp xỉ 52

2.4.1 Đặt vấn đề 52

2.4.2 Sai số của rút gọn xấp xỉ 52

2.4.3 Các thuật toán tìm rút gọn xấp xỉ 54

Chương 3 Khám phá phụ thuộc đa trị 58 3.1 Mở đầu 58

3.2 Khảo sát phụ thuộc bằng Ma trận phụ thuộc 60

3.2.1 Phụ thuộc và phụ thuộc xấp xỉ 60

3.2.2 Đặc trưng phụ thuộc bằng ma trận phụ thuộc 63

Trang 4

3.3 Thuật toán kiểm định và tìm kiếm phụ thuộc 69

3.3.1 Thuật toán tính độ dầy đặc của dãy ma trận 69

3.3.2 Thuật toán kiểm định phụ thuộc xấp xỉ 73

3.3.3 Thuật toán tìm kiếm phụ thuộc tối tiểu vế phải 75

3.4 Mở rộng phụ thuộc hàm và phụ thuộc đa trị 77

3.4.1 Quan hệ tương tự 78

3.4.2 Phụ thuộc mở rộng và các tính chất 81

3.4.3 Đặc trưng β−phụ thuộc bằng ma trận phụ thuộc 84

3.4.4 Thuật toán kiểm định β−phụ thuộc đa trị 88

3.5 Kết luận 91

Phần Kết luận 92 Tài liệu 94

Trang 5

DANH MỤC CÁC THUẬT NGỮ

Hệ thống thông tin ()

Tập thô (Rough Set)

Quan hệ không phân biệt được

Ma trận phân biệt được

Hàm phân biệt được

Luật quyết định

Phụ thuộc hàm

Phụ thuộc đa trị

Phụ thuộc xấp xỉ

Trang 6

BẢNG CÁC KÝ HIỆU

A = (U, A): Hệ thống thông tin

u(a): Giá trị của đối tượng u tại thuộc tính a

IND(B): Quan hệ B−không phân biệt được

IND(B|V ): Quan hệ B−không phân biệt được cảm sinh trên tập V

U/B: Tập hợp thương của quan hệ IND(B)

V /B: Tập hợp thương của quan hệ IND(B|V )

BV : B−xấp xỉ dưới của V

BV : B−xấp xỉ trên của V

T = (U, C ∪ D): Bảng quyết định

k(R, D): Độ phụ thuộc của tập thuộc tính quyết định D vào tập con các thuộc

Trang 7

tính điều kiện R.

ωV

nhau trên tập thuộc tính D

X 6→

Y

: Y không phụ thuộc hàm vào X trên U

X →/→ Y : Y không phụ thuộc đa trị vào X trên U

Trang 8

Danh sách bảng

1.1 Bảng dữ liệu các đồ chơi 13

1.2 Các triệu chứng của bệnh nhân 14

1.3 Bảng quyết định về bệnh cúm 18

1.4 Bảng rút gọn thứ nhất của hệ thống bệnh cúm (R1) 19

1.5 Bảng rút gọn thứ hai của hệ thống bệnh cúm (R2) 19

1.6 Dữ liệu bảng quyết định 20

1.7 Ma trận phân biệt được M 21

1.8 Bảng chọn ứng cử viên vào ngạch giảng dạy 24

1.9 Bảng dữ liệu 26

2.1 Bảng thông tin về các xe hơi 35

2.2 Bảng dữ liệu các đồ chơi 45

2.3 Bảng chọn lựa giáo viên 49

2.4 Bảng dữ liệu cho ví dụ rút gọn xấp xỉ 54

3.1 Bảng dữ liệu sinh viên 62

3.2 Dữ liệu của hệ thống 67

3.3 Bảng dữ liệu về các lập trình viên 80

Trang 9

3.4 Quan hệ tương tự trên Ib 80

3.5 Quan hệ tương tự trên Ic 80

3.6 Dữ liệu của hệ thống 83

3.7 Các quan hệ tương tự trên IX, IY và IZ 83

3.8 Bảng dữ liệu 86

3.9 Các quan hệ tương tự trên IY và IZ 86

Trang 10

PHẦN MỞ ĐẦU

Lý thuyết tập thô do Zdzisaw Pawlak [24] đề xuất vào những năm đầu thậpniên tám mươi của thế kỷ hai mươi đã được áp dụng ngày càng rộng rãi trong nhiềulĩnh vực của khoa học máy tính Lý thuyết tập thô được phát triển trên một nềntảng toán học vững chắc và cung cấp những công cụ hữu ích để giải quyết các bàitoán phân lớp dữ liệu, phát hiện luật v.v đặc biệt thích hợp đối với những bàitoán chứa dữ liệu mơ hồ không chắc chắn

Mười lăm năm trở lại đây đã đánh dấu sự phát triển mạnh mẽ của lĩnh vựckhai phá dữ liệu và phát hiện tri thức trong cơ sở dữ liệu Trong xu thế đó, nhiềunhóm khoa học trên thế giới đã nghiên cứu, phát triển lý thuyết tập thô vào lĩnh vựcnghiên cứu và ứng dụng nổi bật này Về phương diện nghiên cứu phát triển ứng dụng

lý thuyết tập thô vào các lĩnh vực như ngân hàng, tài chính, sinh học (biểu thị gen), có thể kể đến các công trình nghiên cứu [7, 8, 9, 10, 11, 12, 13, 18, 19, 20, 23, 27]

Về phương diện nghiên cứu phát triển mô hình và giải pháp theo tiếp cận tập thô

có thể kể đến các công trình [14, 26] quan tâm đến các bài toán tính toán lõi và rútgọn, hoặc các công trình [15, 16, 17, 25, 31, 32] nghiên cứu tìm kiếm các ràng buộctrong dữ liệu

Lý thuyết tập thô cho phép trình diễn một mô hình hình thức về tri thức từbảng dữ liệu đơn thuần Mô hình này được xác định như họ các mối quan hệ "không

Trang 11

phân biệt được", nhờ đó tri thức được định nghĩa một cách rõ ràng dưới dạng toánhọc và có thể được phân tích và xử lý bằng những công cụ mạnh mẽ và hiệu quảcủa toán học.

Trong lý thuyết tập thô, mô hình biểu diễn dữ liệu được trình bày thông qua hệthông tin hay bảng quyết định và ý tưởng chính trong việc phân tích dữ liệu xuấtphát từ khái niệm "không phân biệt được" Với cách tiếp cận như vậy, lý thuyết tậpthô cho phép phát hiện tri thức từ những bảng dữ liệu lớn với dữ liệu đa dạng, phứctạp, chưa tinh lọc nhằm phát hiện ra những quy luật tiềm ẩn từ khối dữ liệu này.Tri thức được biểu diễn dưới dạng các mẫu mô tả mối quan hệ bị che dấu trong

dữ liệu Trong lý thuyết tập thô, chất lượng của thông tin được đo thông qua cáckhái niệm xấp xỉ trên và xấp xỉ dưới Nhằm thu hẹp nhiều nhất kích thước dữ liệuđến miền thông tin chính xác, ý tưởng rút gọn được sử dụng để cho phép loại bỏnhững thông tin dư thừa, không cần thiết mà vẫn giữ được các tính chất xấp xỉ

cơ bản của hệ thống Nếu tìm được những quy luật chung nhất biểu diễn dữ liệu,người ta có thể tính toán độ mạnh của các thuộc tính hoặc độ phụ thuộc giữa chúngtrong hệ thông tin Vì vâỵ vấn đề phát hiện luật theo tiếp cận tập thô được đặt ra

là hoàn toàn tự nhiên

Mục tiêu của đề tài luận án là nghiên cứu khía cạnh đại số và logic của bàitoán phát hiện luật theo tiếp cận tập thô Đây là một hướng nghiên cứu rất rộng,bao gồm nhiều vấn đề đang được các nhà khoa học nghiên cứu xem xét Luận ánchỉ tập trung vào hai vấn đề, một là tìm các tập rút gọn của bảng quyết định, hai

là vấn đề phát hiện các mối ràng buộc có trong dữ liệu Cả hai vấn đề này đều đượcphân tích và xem xét dựa vào các công cụ của lý thuyết tập thô mà nền tảng làquan hệ "không phân biệt được"

Với mục tiêu đó, nội dung luận án được trình bày trong ba chương ChươngMột trình bày một cách tổng quan về các khái niệm cơ bản trong lý thuyết tập thônhư là hệ thống thông tin, quan hệ không phân biệt được, xấp xỉ dưới, xấp xỉ trên,bảng quyết định, rút gọn, lõi, ma trận phân biệt được Các khái niệm liên quan tới

Trang 12

xấp xỉ cũng được giới thiệu sơ bộ trong chương này như hàm thành viên thô, phụthuộc hàm xấp xỉ, rút gọn xấp xỉ.

Chương Hai trình bày các thuật toán tìm tập rút gọn của bảng quyết định.Các thuật toán này được chia làm hai nhóm Nhóm thứ nhất bao gồm hai thuậttoán (Thuật toán 2.2 và Thuật toán 2.3) dựa vào khái niệm độ phụ thuộc của tậpthuộc tính quyết định vào tập con các thuộc tính điều kiện; và với khái niệm mớinày, chúng tôi đã đưa ra đánh giá về khả năng đóng góp của một thuộc tính khitham gia đóng vai trò thành viên của tập rút gọn Nhóm thứ hai chỉ bao gồm mộtthuật toán (Thuật toán 2.4) tìm tập rút gọn dựa theo ý tưởng xây dựng ma trậnphân biệt được, tuy nhiên ở đây, các phần tử của ma trận (là các tập hợp) không

hề được tính toán Thay vào đó, chúng tôi phân tích các đối tượng có giá trị quyếtđịnh khác nhau có mối tương quan như thế nào đối với các giá trị trên tập thuộctính điều kiện Trên cơ sở đó, chúng tôi đã đưa ra tiêu chuẩn của tập rút gọn dựavào số cặp đối tượng phân biệt được bởi một tập các thuộc tính Cả ba thuật toánđược xây dựng trong chương này đều là các thuật toán heuristic và có độ phức tạptính toán theo thời gian là đa thức, do đó có thể áp dụng được trên bảng dữ liệuvới kích thước lớn

Nội dung của Chương Ba tập trung vào vấn đề thứ hai liên quan tới khái niệmphụ thuộc trong lý thuyết cơ sở dữ liệu quan hệ Cụ thể là, trong chương này chúngtôi khảo sát các phụ thuộc hàm và phụ thuộc đa trị tiềm ẩn trong bảng dữ liệu cósẵn Để kiểm chứng phụ thuộc đa trị đúng trên tập các đối tượng, chúng tôi đã mô

tả đặc trưng của phụ thuộc đa trị bằng một họ các ma trận phụ thuộc Do dữ liệutrong thực tế thường rất lớn và có thể bị nhiễu, nên các phụ thuộc đúng tiềm ẩntrong dữ liệu có thể khó phát hiện Vì vậy chúng tôi đã nghiên cứu các phụ thuộc đatrị đúng trên hầu hết các đối tượng trong bảng, gọi là phụ thuộc xấp xỉ, đồng thờiđưa ra đánh giá về sai số của phụ thuộc dựa vào khái niệm độ dầy đặc của họ các

ma trận phụ thuộc Phần cuối của Chương Ba, chúng tôi xây dựng các phụ thuộchàm và phụ thuộc đa trị mở rộng bằng cách thay quan hệ bằng nhau trên các giá

Trang 13

trị thuộc tính bởi quan hệ tương tự Một điều khá thú vị là các phụ thuộc mở rộngnày cũng được đặc trưng bởi họ các ma trận phụ thuộc tương ứng.

Trang 14

CÁC KHÁI NIỆM CƠ BẢN

1.1 Giới thiệu

Ngay từ khi xuất hiện, lý thuyết tập thô do Zdzisaw Pawlak [24] khởi xướngvào những năm đầu thập niên tám mươi của thế kỷ hai mươi đã ngay lập tức thuhút sự quan tâm của nhiều nhà nghiên cứu và thực nghiệm trên toàn thế giới Khảnăng ứng dụng trong nhiều lĩnh vực khác nhau cho thấy vai trò quan trọng của lýthuyết này trong việc nghiên cứu và ứng dụng công nghệ thông tin trong thời đạimới

Lý thuyết tập thô có thể được xem xét theo hai phương diện là mô hình và thựchành Theo phương diện mô hình, lý thuyết tập thô cho một cách tiếp cận mới chotính mơ hồ Các khái niệm mơ hồ được đặc trưng bởi một "miền biên" chứa tất cảcác phần tử mà không thể gộp vào miền các đối tượng quan sát hoặc phần bù củamiền này Lý thuyết tập thô được nghiên cứu và phát triển nhằm hiểu tốt hơn ýtưởng của tính mơ hồ Nó cũng xét đến một vài ý tưởng của Gottfried Leibniz (tínhkhông phân biệt được), George Boole (các phương pháp suy luận), Jan Lukasiewicz(các logic đa trị) và Thomas Bayes (suy luận quy nạp) Về phương diện thực hành,

lý thuyết tập thô là ý tưởng nền tảng cho trí tuệ nhân tạo và khoa học nhận thức,đặc biệt cho học máy, phát hiện tri thức, phân tích quyết định, suy luận quy nạp

Trang 15

và nhận dạng mẫu Nó là rất quan trọng cho các nghiên cứu về hệ trợ giúp quyếtđịnh và khai phá dữ liệu Thực tế tiếp cận lý thuyết tập thô là một cách tiếp cậnmới cho việc phân tích dữ liệu.

Bản chất toán học chặt chẽ làm cho các nội dung cơ sở của lý thuyết tập thô cóthể được nắm bắt và ứng dụng một cách dễ dàng Các hệ thống phần mềm sử dụng

lý thuyết tập thô (điển hình như ROSETTA) đã được cài đặt và nhiều ứng dụngquan trọng trong đời sống của phương pháp luận này đã được xây dựng, chẳng hạntrong y học, dược học, kỹ thuật, ngân hàng, nhận dạng mẫu, biểu thị gien v.v Bản chất toán học chặt chẽ làm cho lý thuyết này không mâu thuẫn mà còn

bổ sung cho các phương pháp đã có và dĩ nhiên cũng có thể được sử dụng đồng thờivới các cách tiếp cận khác

Mục đích chính của sự phân tích tập thô là đưa ra các tập xấp xỉ để biểu diễncác đối tượng không thể được phân lớp một cách chắc chắn bằng cách dùng tri thức

có sẵn Theo cách tiếp cận của lý thuyết tập thô, mọi tập thô được liên kết với haitập "rõ" là xấp xỉ dưới và xấp xỉ trên của nó Xấp xỉ dưới bao gồm các đối tượngchắc chắn thuộc, còn xấp xỉ trên chứa tất cả các đối tượng có khả năng thuộc vềtập đó Các tập xấp xỉ là cơ sở để đưa ra các kết luận từ dữ liệu

1.2 Hệ thống thông tin và tập thô

1.2.1 Hệ thống thông tin

Hệ thống thông tin là một cặp A = (U , A), với U là tập hữu hạn, khác rỗng,được gọi là tập vũ trụ các đối tượng và A là tập hữu hạn khác rỗng các thuộc tính.Với mỗi u ∈ U và a ∈ A, ta ký hiệu u(a) là giá trị của đối tượng u tại thuộc tính a

Trang 16

viết u(B) = v(B) nếu u(bi) = v(bi), với mọi i = 1, · · · , k.

1.2.2 Quan hệ không phân biệt được

Cho hệ thống thông tin A = (U, A) Với mỗi tập con các thuộc tính B ⊆ A,tồn tại một quan hệ hai ngôi trên U , ký hiệu IND(B), xác định bởi:

IND(B) = {(u, v) ∈ U × U | u(B) = v(B)}

IND(B) được gọi là quan hệ B−không phân biệt được Dễ kiểm chứng được rằngđây là một quan hệ tương đương trên U Với V ⊆ U , ta ký hiệu IND(B|V ) là quan

hệ tương đương trên V , cảm sinh bởi IND(B), tức là:

IND(B|V ) = {(u, v) ∈ V × V | u(B) = v(B)}

Nếu (u, v) ∈ IND(B) thì hai đối tượng u và v không phân biệt được bởi các

hợp thương của quan hệ IND(B) được ký hiệu [IND(B)] hay đơn giản là U/B, tức

nhau về kích thước và hình dáng, nhưng phân biệt được về màu sắc, v.v

Trang 17

xỉ trên của V , ký hiệu lần lượt là BV và BV , cụ thể các tập xấp xỉ này được xácđịnh như sau

Trang 18

Với các xấp xỉ trên, ta gọi B−miền biên của V là tập BNB(V ) = BV \ BV

và B−miền ngòai của V là tập U \ BV Dễ thấy B−miền biên của V là tập chứacác đối tượng không chắc chắn thuộc hay không thuộc V , còn B−miền ngòai của Vchứa các đối tượng chắc chắn không thuộc V Với ký hiệu tập thương của quan hệtương đương IND(B) trên U là U/B, các xấp xỉ trên và dưới của V có thể viết lại:

Ví dụ 1.2 Xét hệ thống thông tin biểu diễn các triệu chứng cúm của các bệnhnhân cho ở Bảng 1.2

Bảng 1.2: Các triệu chứng của bệnh nhân

Trang 19

Các lớp không phân biệt được bởi B = {Đau đầu, Thân nhiệt } là: {u1}, {u2}, {u3},

Trang 20

Với các khái niệm của tập xấp xỉ đối với phân hoạch IND(B), các tập thô đượcchia thành bốn lớp cơ bản:

1) Tập V là B−xác định thô nếu BV 6= ∅ và BV 6= U

2) Tập V là B−không xác định trong nếu BV = ∅ và BV 6= U

3) Tập V là B−không xác định ngòai nếu BV 6= ∅ và BV = U

4) Tập V là B− không xác định hoàn tòan nếu BV = ∅ và BV = U

1.3 Bảng quyết định

Một lớp đặc biệt của các hệ thống thông tin có vai trò quan trọng trong nhiềuứng dụng là bảng quyết định Bảng quyết định là một hệ thống thông tin T với tậpthuộc tính A được chia thành hai tập khác rỗng rời nhau C và D, lần lượt được gọi

là tập thuộc tính điều kiện và tập thuộc tính quyết định Tức là T = (U, C ∪ D) với

C ∩ D = ∅ Trong trường hợp không sợ bị nhầm lẫn, người ta ký hiệu T = (C, D).Bảng quyết định là mô hình thường gặp trong thực tế, khi mà giá trị dữ liệu tạicác thuộc tính điều kiện có thể cung cấp cho ta thông tin về giá trị của thuộc tínhquyết định Bảng quyết định được gọi là nhất quán nếu D phụ thuộc hàm vào C,

Trang 21

tức là với mọi u, v ∈ U , u(C) = v(C) kéo theo u(D) = v(D) Ngược lại thì gọi làkhông nhất quán hay mâu thuẫn.

U sao cho phụ thuộc hàm C → D đúng

1.3.1 Rút gọn và lõi

Trong bảng quyết định, các thuộc tính điều kiện được phân thành ba nhóm:Thuộc tính lõi, thuộc tính rút gọn và thuộc tính không cần thiết Thuộc tính lõi làthuộc tính cốt yếu, không thể thiếu trong việc phân hoạch chính xác tập dữ liệu.Thuộc tính không cần thiết là những thuộc tính dư thừa; nghĩa là có thể loại bỏmột thuộc tính như vậy (không phải tất cả!) mà không ảnh hưởng đến việc phânlớp dữ liệu Thuộc tính của tập rút gọn nằm giữa hai tập thuộc tính trên, với một

tổ hợp thuộc tính nào đó, nó là thuộc tính dư thừa và với một tổ hợp các thuộc tínhkhác nó có thể là cốt yếu

Chúng ta sẽ đưa ra các định nghĩa chính xác trong phần tiếp theo

Cho T = (U, C ∪D) là một bảng quyết định, thuộc tính c ∈ C được gọi là không

nghiệm đúng; ngược lại, c được gọi là cần thiết

Bảng quyết định T được gọi là độc lập nếu mọi thuộc tính c ∈ C đều cần thiết.Tập tất cả các thuộc tính cần thiết trong T được gọi là lõi và được ký hiệu Core(C).Lúc đó, một thuộc tính cần thiết còn được gọi là thuộc tính lõi

Tập các thuộc tính R ⊆ C được gọi là một rút gọn của tập thuộc tính điều

có thể có nhiều tập rút gọn của C Ta ký hiệu Red(C) là tập tất cả các rút gọn của

Trang 22

C trong T Một thuộc tính là cần thiết khi và chỉ khi nó thuộc vào mọi tập rút gọncủa C Điều đó được thể hiện trong mệnh đề sau.

R∈ Red(C)

R

Ví dụ 1.3 Xét bảng quyết định về bệnh cúm cho ở Bảng 1.3 Bảng này có hai

tập lõi là Core= {Thân nhiệt} và Thân nhiệt là thuộc tính cần thiết duy nhất Cácthuộc tính Đau đầu, Đau cơ đều không cần thiết theo nghĩa là, từ bảng dữ liệu, cóthể loại bỏ một trong hai thuộc tính này mà vẫn chẩn đoán đúng bệnh Tức là

POS{Đau cơ, Thân nhiệt}({Cảm cúm}) = POSC({Cảm cúm}),

POS{ Đau đầu, Thân nhiệt}({Cảm cúm}) = POSC({Cảm cúm})

Bảng 1.3: Bảng quyết định về bệnh cúm

1.3.2 Ma trận và hàm phân biệt được

Trang 23

U Đau cơ Thân nhiệt Cảm cúm

Trang 24

trị trên tập thuộc tính điều kiện nhưng khác nhau trên tập thuộc tính quyết định.

Ví dụ 1.4 Cho bảng quyết định như trong Bảng 1.6 với tập thuộc tính điều kiện

được tương ứng cho trong Bảng 1.7 Chú ý rằng, đây là ma trận đối xứng nên chúng

ta chỉ trình bày ma trận tam giác dưới

Trang 25

Bảng 1.7: Ma trận phân biệt được M.

giá trị quyết định khác nhau và chúng có thể phân biệt với nhau bởi các thuộc

u2(c1) = u3(c1) = 1, u2(c4) = u3(c4) = 0

Để tìm tập rút gọn dựa vào ma trận phân biệt được, người ta đưa vào khái

j6=i

_

trong đó, mỗi thuộc tính cho tương ứng một biến logic cùng tên và

Trong ví dụ trên ta có

Trang 27

1.3.3 Luật quyết định

Một công cụ cũng thường được sử dụng để nghiên cứu bảng quyết định là luậtquyết định Cụ thể, cho T = (U, C ∪ D) là một bảng quyết định, với mỗi u ∈ U ,

như là nhãn của luật quyết định đó [20]

luật du

Rõ ràng, bảng quyết định T là nhất quán khi và chỉ khi, với mọi cặp đối tượng

u 6= v, du|C = dv|C kéo theo du|D = dv|D

Ví dụ 1.5 Xét bảng quyết định chọn các ứng cử viên vào ngạch giảng viên của

thuộc tính quyết định d được cho trong Bảng 1.8

Các luật quyết định có thể có:

có được quyết định Chấp nhận

Bình thường thì có được quyết định Có thể Chấp nhận

· · ·

thể thì có được quyết định Có thể Từ chối

có du1|C = du4|C nhưng du1|D 6= du4|D

Từ định nghĩa ta thấy ngay rằng một bảng quyết định có thể được đặc trưng

Trang 28

Bảng 1.8: Bảng chọn ứng cử viên vào ngạch giảng dạy.

hoàn toàn bởi hệ các luật quyết định của nó Tuy vậy, các bảng quyết định trongthực tế thường lưu trữ một khối lượng lớn các đối tượng, và do đó hệ luật quyếtđịnh tương ứng cũng sẽ rất lớn Vấn đề đặt ra là làm thế nào có thể đặc trưng đượcbảng quyết định bằng một hệ con các luật quyết định Việc rút gọn dữ liệu, tức

là tìm tập rút gọn của tập thuộc tính điều kịên chính là một trong những cách đểgiải quyết vấn đề này Các đối tượng trong cùng một lớp tương đương của quan hệIND(R), với R là một rút gọn của tập thuộc tính điều kiện C sẽ có cùng quyết định

1.4 Phụ thuộc xấp xỉ

1.4.1 Hàm thành viên thô

Cho hệ thống thông tin A = (U, A), tập con các thuộc tính B ⊆ A và tập concác đối tượng V ⊆ U Với mỗi đối tượng u ∈ U , người ta cần xác định mức độ giao

Trang 29

nhau giữa lớp tương đương chứa u trong phân hoạch IND(B) với V Giá trị này

nghĩa như sau

Một cách hình thức, người ta có thể mở rộng các khái niệm xấp xỉ trên và xấp

xỉ dưới tương ứng với một độ chính xác α ∈ (0.5, 1] bằng cách sử dụng hàm thànhviên thô:

Card(U )

Trang 30

V ∈ U/Y

Card(X(V ))Card(U )Khi k < 1, ta nói rằng Y phụ thuộc một phần vào X (với độ phụ thuộc k) Khi

k = 1, Y được gọi là phụ thuộc hoàn toàn vào X, và ký hiệu đơn giản X → Y Rõràng, Y phụ thuộc hoàn toàn vào X nếu phụ thuộc hàm X xác định Y đúng trênbảng dữ liệu đã cho, tức là, với mọi cặp đối tượng u, v ∈ U, u(X) = v(X) suy rau(Y ) = v(Y ) Vì vậy trong trường hợp k < 1, chúng ta cũng nói rằng tồn tại phụthuộc hàm xấp xỉ X xác định Y trên U với sai số = 1 − k

Ví dụ 1.6 Xét hệ thống thông tin với tập thuộc tính A = {a, b, c} và U gồm chínđối tượng cho bởi Bảng 1.9

Trang 31

Vì XV1 = V1, XV2 = V2, XV3 = V3, nên γ(X, Y ) = 1, và do đó, Y phụ thuộchòan tòan vào X.

Định lý 1.3 [24] Những mệnh đề sau là tương đương

W ⇒ u(X) = v(X) Vì X → Y nên u(Y ) = v(Y ) suy ra u(X ∪ Y ) = v(X ∪ Y ) :

vô lý vì u 6∈ V Vậy V = W ∈ U/X Vì điều này đúng với mọi V ∈ U/(X ∪ Y ) nênU/(X ∪ Y ) = U/X

(c ⇒ d) Ta có XV ⊆ V Bây giờ ta chứng minh V ⊆ XV với mọi V ∈ U/Y

W ∈ U/Y

XW do đó tồn tại W ∈

Trang 32

(d ⇒ a) Với mọi cặp đối tượng u, v ∈ V ∈ U/X, đặt W1 = [u]Y và W2 = [v]Y.

Bằng kỹ thuật chứng minh tương tự, chúng ta cũng dễ dàng kiểm chứng định

Việc loại bỏ các thuộc tính dư thừa cũng tương đương với việc chọn nhữngthuộc tính nào để lại là phù hợp nhất Đây là một trong những vấn đề quan trọngtrong học máy và nhận dạng mẫu Nhiều chuyên gia đã giải quyết bài toán này vớinhững công cụ khác nhau, gần đây có một số nhà nghiên cứu đã dựa vào lý thuyết

Trang 33

tập thô để chọn lọc các thuộc tính, chẳng hạn như sử dụng bảng phân phối tổngquát, rời rạc hóa dữ liệu dựa vào tập thô và lập luận xấp xỉ v.v

Tuy nhiên dữ liệu trong thực tế thường rất lớn và đa dạng Các dữ liệu này cóthể không chắc chắn, không đầy đủ và biến động Vì vậy, một rút gọn đúng nghĩa

có thể tồn tại nhưng không chắc tìm được, hoặc chúng ta phải tốn rất nhiều côngsức để tìm ra được nó mà đôi khi kết quả đem lại không thực sự hữu ích Thay vào

đó, người ta tìm một rút gọn "chấp nhận được" là một rút gọn xấp xỉ, đúng với

"phần lớn" dữ liệu có được Với bài toán này, công sức tìm kiếm có thể sẽ giảm đinhiều, đặc biệt là khi sử dụng các thuật toán heuristic

Như phần trước đã trình bày, một rút gọn của bảng quyết định không thể thiếucác thuộc tính lõi Vì vậy, để tìm các rút gọn xấp xỉ người ta thường xuất phát từtập lõi và bổ sung dần các thuộc tính cho đến khi đạt được yêu cầu đánh giá mộtrút gọn xấp xỉ Vấn đề còn lại là chọn thuộc tính nào đây để đưa vào tập rút gọn.Điều này dẫn đến việc cần có sự đánh giá các thuộc tính theo yêu cầu nào đó đểchọn các thuộc tính có "chất lượng" đưa vào tập rút gọn, khái niệm ý nghĩa củathuộc tính xuất phát từ đó

Mỗi thuộc tính được gán tương ứng với một giá trị thực trong khỏang đóng[0,1] biểu diễn mức độ quan trọng của thuộc tính trong bảng thông tin Trong phầntrước, chúng ta đã được biết đến độ phụ thuộc của tập thuộc tính Y vào tập thuộctính X là γ(X, Y ) Ở đây chúng ta cũng sẽ xét bảng quyết đinh T = (U, C ∪ D) với

C là tập thuộc tính điều kiện và D là tập thuộc tính quyết định Khi đó chúng ta

sẽ xem xét giá trị của γ(C, D) sẽ thay đổi như thế nào khi chúng ta loại bỏ mộtthuộc tính trong C, nghĩa là hai hệ số γ(C, D) và γ(C \ {a}, D) sẽ khác nhau nhưthế nào? Sự khác nhau đó được dùng trong biểu diễn ý nghĩa của thuộc tính a, ký

Trang 34

và IND(C \ {a}) Hệ số ý nghĩa này có thể mở rộng đối với tập các thuộc tính

σ(C,D)(B) = γ(C, D) − γ(C \ B, D)

γ(C \ B, D)

ở đây B là một tập con của C Trong trường hợp C và D đã xác định rõ, chúng ta

ký hiệu các giá trị trên đơn giản là σ(a) và σ(B)

là các thuộc tính C \ B không có ý nghĩa, hay nói cách khác, các thuộc tính này cóthể không được xét đến trong khi xây dựng các luật

Một tập con B của C được gọi là một rút gọn xấp xỉ của C với sai số (B) nếu:

γ(B, D)

Vì (B) = 1 − σ(B) nên khái niệm rút gọn xấp xỉ (tương ứng miền khẳng định)

là sự tổng quát hóa của khái niệm rút gọn Thật vậy, một tập con cực tiểu B thỏamãn (B) = 0 chính là rút gọn theo nghĩa nguyên thủy

Trang 35

có thể đạt hiệu quả cao nhất mà chỉ dựa vào một tập con các thuộc tính đã đượclựa chọn.

Có nhiều thuật toán tìm tập rút gọn đã được đề nghị, chẳng hạn như thuậttoán dựa vào khái niệm ma trận phân biệt được, thuật toán rời rạc hoá và lập luậnlogic, thuật toán dựa vào bảng phân bố tổng quát và tập thô v.v Tuy nhiên, số

Trang 36

thực tế thường không đòi hỏi tìm tất cả các tập rút gọn mà chỉ cần tìm được mộttập rút gọn "tốt nhất" là đủ Vì vậy, các thuật toán heuristic là rất đáng được quantâm, các thuật toán này nhằm làm giảm khối lượng tính toán, nhờ đó có thể ápdụng đối với các bài toán có khối lượng dữ liệu lớn Không ngoài mục đích đó, trongchương này chúng tôi cũng đề nghị một số thuật toán heuristic tìm tập rút gọn củabảng quyết định Các thuật toán này đều có độ phức tạp tính toán theo thời gian

thuật toán đầu dựa vào mô hình tập thô mới được đề nghị bởi các tác giả Xiaohua

Hu, Jianchao Han và T.Y.Lin [14], thuật toán còn lại dựa vào ý nghĩa của ma trậnphân biêt được do A Skowron và C Rauser đề xướng [26]

2.2 Thuật toán sử dụng các phép toán đại số

2.2.1 Tập lõi trong bảng quyết định

Cho bảng quyết định T = (U, C ∪ D) Khi đó trên U có quan hệ tươngđương IND(D) Giả sử các lớp tương đương ứng với quan hệ này là U/D =

Xiao-hua Hu, Jianchao Han và T.Y Lin [14] đã đưa ra các khái niệm B−xấp xỉ dưới vàB−xấp xỉ trên tương ứng với tập quyết định D của tập đối tượng U Từ đó đưa racác khái niệm tương đương về tập lõi và rút gọn dựa vào các phép toán đại số quan

hệ Chúng ta sẽ lần lượt tiếp cận các khái niệm này thông qua các định nghĩa mộtcách chính xác như sau

Trang 37

Định nghĩa 2.2 Với các giả thiết như trong Định nghĩa 2.1, B−xấp xỉ trên tương

lúc nào cũng bằng chính tập U Điều này được suy ra từ định nghĩa của bảng quyếtđịnh nhất quán và các tính chất của quan hệ tương đương, cụ thể chúng ta có mệnh

Từ các định nghĩa xấp xỉ trên bảng quyết định các tác giả trong [14] đã đưa

ra định nghĩa mới về tập lõi dựa vào các phép toán của đại số quan hệ, đó là phépđếm và phép chiếu

Trang 38

Định nghĩa 2.3 Với các xấp xỉ được định nghĩa trong (2.1) và (2.2), ta gọi B−biêncủa U là tập

Định nghĩa 2.4 Cho T = (C, D) là một bảng quyết định nhất quán Thuộc tính

Định nghĩa này mang lại một ý nghĩa thực tiễn rất lớn, cho phép xác định cácthuộc tính lõi chỉ với những thao tác đơn giản mà không cần tìm tất cả các tập rútgọn, thậm chí chưa biết đến một tập rút gọn nào cả Hơn nữa, định nghĩa này hoàntoàn tương đương với định nghĩa theo lý thuyết tập thô truyền thống đã được trìnhbày trong Mục 1.3.1

Trang 39

Ví dụ 2.1 Ta xét bảng quyết định trong [14] được cho bởi Bảng 2.1, lưu thông tin về

Bảng 2.1: Bảng thông tin về các xe hơi

Trong bảng này ta có:

Card(Q({c1, c2, c3})) = 8 = Card(Q({c1, c2, c3, d}))

cũng không phải là thuộc tính lõi vì

Card(Q({c1, c2, c4})) = 8 = Card(Q({c1, c2, c4, d})),

Card(Q(c1, c3, c4)) = 6 = Card(Q(c1, c3, c4, d))

Trang 40

a) Cho R là một tập con các thuộc tính điều kiện: R ⊆ C Độ phụ thuộc giữa

R và tập thuộc tính quyết định D trong bảng quyết định T = (U, C ∪ D), kýhiệu K(R, D), là giá trị được định nghĩa bởi

dụ sau

Tiêu đề	Tiếp cận lý thuyết tập thô do z.pawlak
Trường học	Trường Đại Học Khoa Học Tự Nhiên
Thể loại	Luận văn tốt nghiệp
Thành phố	Hồ Chí Minh

Định dạng
Số trang	102
Dung lượng	542,15 KB