Tiểu luận môn Toán khoa học máy tính LÝ THUYẾT TẬP THÔ VÀ ỨNG DỤNG TRONG PHÁT HIỆN TRI THỨC

Vì lý thuyết tậphợp là nền móng xây dựng nên lý thuyết cơ sở dữ liệu quan hệ, một lĩnh vực mà số lượngứng dụng chiếm đến 80% các ứng dụng của công nghệ thông tin và tồn tại chủ yếu trong

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

Thành phố Hồ Chí Minh 11 – 2014.

Trang 2

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

Trang 3

Mục lục

1 Mở đầu 2

1.1 Giới thiệu tập thô 2

1.2 Ví dụ minh họa trong tiểu luận 3

2 Các khái niệm nền tảng của tập thô 4

2.1 Hệ thông tin 5

2.2 Quan hệ bất khả phân biệt 6

2.3 Xấp xỉ một tập hợp 7

2.4 Hàm thuộc thô 10

2.5 Rút gọn các thuộc tính 11

2.5.1 Sự phụ thuộc các thuộc tính 11

2.5.2 Các tập rút gọn (reducts) 13

2.6 Luật quyết định (decision rule) 14

3 Ứng dụng tập thô trong phát hiện tri thức 16

3.1 Khai phá dữ liệu (Data mining) 16

3.2 Phát hiện tri thức trong cơ sở dữ liệu (Knowledge Discovery in Database – KDD) 18 2.2 Vai trò, vị trí của tập thô trong Data mining 19

4 Kết luận 20

Tài liệu tham khảo 21

Trang 4

1 Mở đầu

Có lẽ ai trong chúng ta cũng biết rằng lý thuyết tập hợp là một trong những lý thuyếttoán học được sử dụng rông rãi nhất, sớm nhất trong công nghệ thông tin Vì lý thuyết tậphợp là nền móng xây dựng nên lý thuyết cơ sở dữ liệu quan hệ, một lĩnh vực mà số lượngứng dụng chiếm đến 80% các ứng dụng của công nghệ thông tin và tồn tại chủ yếu trongcác tổ chức, xí nghiệp Ngày nay khi mà khối lượng dữ liệu trong các kho dữ liệu của các

tổ chức, xí nghiệp ngày càng phình to với một tốc độ chóng mặt với nhiều loại dữ liệu khácnhau thì các công cụ xử lý dữ liệu cũng phát triển với một tốc độ chóng mặt đến nỗi trởthành một lĩnh vực nghiên cứu chuyên sâu, riêng biệt trong công nghệ thông tin đó là Datamining(Khai phá dữ liệu) Đó là điều tất yếu bởi công nghệ thông tin sinh ra và phát triển

là để phục vụ cho các nhu cầu phát triển kinh tế, xã hội của con người Nếu nguồn dữ liệuđầu vào không đầy đủ(incomplete) hoặc không chính xác thậm chí là mâuthuẫn(inconsistent) các kết quả thu được từ các công cụ Data mining có thể trở nên mâuthuẫn và không có nghĩa

Vấn đề là trong thực tế những nguồn dữ liệu như thế không phải là ít nếu không nói là nócòn nhiều hơn loại đầy đủ và thống nhất Lấy ví dụ trong các mẫu điều tra thống kê các vấn

đề xã hội, những dữ liệu mà người ta thu thập được thường là không đầy đủ, hoặc trong các

dữ liệu lưu trữ của một bệnh viện về triệu chứng của một căn bệnh, cùng một tập các triệuchứng thế nhưng có người thì bị bệnh có người lại không Và đó là nơi mà một khái niệm

toán học mới được đề xuất để giải quyết những trường hợp như thế: lý thuyết tập

thô(rough set theory) Lý thuyết tập thô là một cách tiếp cận mới trong việc phân tích, xử

lý dữ liệu không đầy đủ, không chắc chắn Vì vậy nó có một vai trò vô cùng quan trọngtrong khoa học Trí tuệ nhân tạo(Artificial Intelligent), khoa học về nhận thức(CognitiveScience) và đặc biệt là trong Máy học(Machine Learning), hệ Hỗ trợ quyết định(DecisionSupport System), hệ Chuyên gia(Expert System) và Suy luận dựa trên quy nạp (InductiveReasoning)

Trang 5

1.1 Giới thiệu tập thô

Lý thuyết tập thô được Zdzislaw Pawlak đề xuất vào đầu những năm 1980 với triết lý

là: mọi đối tượng trong vũ trụ đều gắn với một loại thông tin(dữ liệu, tri thức) nào đó Vì

vậy có thể mô hình hóa các đối tượng trong vũ trụ bằng một tập các thông tin quan tâm.Khi các đối tượng mà được đặc trưng bởi cùng thông tin thì từ góc độ thông tin sẵn có trêncác đối tượng ta không thể phân biệt giữa chúng với nhau được Lý thuyết tập thô định

nghĩa một quan hệ như thế giữa các đối tượng là quan hệ bất khả phân biệt Một cách tự

nhiên ta thấy rằng quan hệ này chia tách vũ trụ ban đầu thành các lớp rời nhau mà các đốitượng trong mỗi lớp là không thể phân biệt được Vì vậy về mặt trực giác, ta thấy rằng đó

là một quan hệ tương đương và đó là cơ sở toán học của tập thô Tập thô gọi các lớp tươngđương đó là các tập cơ bản hay các hạt(nguyên tử) tri thức trong vũ trụ (granule(atom) ofknowledge)

Trong thế giới của tập thô, một tập hợp bất kì được biểu diễn bằng cặp xấp xỉ trên/xấp xỉ

dưới(upper approximation/lower approximation) Xấp xỉ dưới là những phần tử mà chắc

chắn là thuộc về tập đang quan tâm(ví dụ tập các bệnh nhân có bệnh), xấp xỉ trên gồm cácphần tử có thể thuộc hay không thuộc về tập đang quan tâm Vậy tại sao không mô tả tậphợp với các phần tử chắc chắn thuộc về nó mà lại còn thêm các phần tử có thể thuộc hoặckhông ? Ý nghĩa của tập thô là ở chỗ thay vì dùng một số lớn các tính chất để mô hình hóa,phân loại các đối tượng thì sử dụng tập thô ta có thể sử dụng một số ít các tính chất, thông

tin mà vẫn xấp xỉ được một tập ban đầu Để đơn giản, ta cứ hình dung, bác sĩ “rõ”(đại diện

cho tập rõ) phải hỏi 10 câu mới biết là người bệnh có bệnh hay không Còn bác sĩ “thô”(đạidiện cho tập thô) chỉ cần hỏi 3 câu là phân loại được 90% người có bệnh hay không Nhưvây bác sĩ “thô” chỉ sữ dụng có 3 “tính chất” để phân loại 100 người, dẫu rằng còn khoảng

10 người là cần hỏi kĩ hơn Về mặt hiệu suất, tính hiệu quả, tính tiết kiệm chi phí thì bác sĩ

“thô” làm việc tốt hơn bác sĩ “rõ” Quan hệ bất khả phân biệt và khái niệm xấp xỉ trên/xấp

xỉ dưới là hai hòn đá tảng của lý thuyết tập thô

1.2 Ví dụ minh họa trong tiểu luận

Để dễ dàng mô tả các khái niệm của lý thuyết tập thô, sau đây ta sẽ xét một ví dụ minhhọa Đây là bảng dữ liệu về các triệu chứng bệnh của các bệnh nhân và kết luận là có bị

Trang 6

cảm cúm hay không Các ví dụ trong các phần lý thuyết sau đây đều dựa trên bảng dữ liệunày và ta thống nhất gọi bảng này là Bảng triệu chứng cúm

Bệnh nhân Thân nhiệt Đau đầu Mệt mỏi Buồn nôn Cảm cúm

Bảng dữ liệu này cũng được dùng để trả lời câu hỏi: với triệu chứng bệnh gì thì sẽ kết luận

là bị cảm cúm hay không trong phần tìm các luật quyết định(decision rule) Ta thấy đây làloại dữ liệu mâu thuẫn bởi hai bệnh nhân B7 và B8 có cùng triệu chứng bệnh nhưng B7 thìkhông bị cảm cúm còn B8 thì lại bị cảm cúm

2 Các khái niệm nền tảng của tập thô

Nếu như về mặt trực giác chúng ta có thể cảm nhận rằng quan hệ bất khả phân biệt là

một quan hệ tương đương, một khái niệm quen thuộc trong lý thuyết tập hợp thì khái niệm

xấp xỉ trên/xấp xỉ dưới lại khá mơ hồ và mới mẻ Nên trong phần này ta sẽ tìm hiểu kĩ hơn

về khái niệm xấp xỉ trên/xấp xỉ dưới để từ đó đi đến tính chất quan trọng của tập thô trong

Data mining: các tập rút gọn(reducts, sử dụng ít thông tin hơn nguồn dữ liệu ban đầu) vàmột ứng dụng quan trọng, cơ bản của lý thuyết tập thô: sinh luật quyết định từ bảng quyếtđịnh Như ta đã biết công dụng chủ yếu của lý thuyết tập thô là phân tích, xử lý dữ liệukhông chắc chắn, không đầy đủ Vì vậy, đầu tiên ta sẽ mô hình hóa các tính chất của cáctập dữ liệu này bằng khái niệm: hệ thông tin

Trang 7

2.1 Hệ thông tin

- Hệ thông tin (information system) là một bộ bốn: S=⟨U , A ,V , f⟩ trong đó:

 U ={x1, x2, … , x n}, U ≠ ∅, là một tập hữu hạn các đối tượng (objects) gọi là vũ trụ(univerce)

 A hữu hạn và A ≠ ∅, là tập thuộc tính và được chia thành 2 tập con Các thuộctính điều kiện (condition attribute) C và các thuộc tính quyết định (decisionattribute) D; A=C ∪ D

 V là tập hữu hạn các giá trị thuộc tính trong đó : V =¿a ∈ A V a với V a là miền giátrị (domain value) của thuộc tính a

 f :U × A → V là hàm thông tin (information function) trong đó

f ( x , a) ∈V a ; ∀ a ∈ A ; x ∈ U

Ví dụ: Bảng triệu chứng cúm là một hệ thông tin với:

U = { B1, B2, B3, B4, B5, B6, B7, B8 }

C = { Thân Nhiệt, Đau đầu, Mệt mỏi, Buồn nôn }, D = { Cảm cúm }, A=C ∪ D

VThân nhiệt = {bình thường, cao, rất cao}, VĐau đầu = {có, không}, VMệt mỏi = { có, không },

VBuồn nôn = { có, không }, VCảm cúm = { có, không }

f(B1, Thân nhiệt) = rất cao, f(B2, Cảm cúm) = có,…

- Nếu A=C ∪ D và C ∩ D=∅ lúc đó hệ thông tin được gọi là bảng quyết định Khi đó hệ

thông tin sẽ được kí hiệu là S=⟨U , C ∪ D ,V , f⟩ Một bảng quyết định gọi là có tính quyết

định nếu: ∀ x , y ∈U , x ≠ y , ∀ c i ∈ C , ∀ d i ∈ D , f(x , c i)=f(y ,c i)⇒ f(x , d i)=f(y , d i), ngược lại thì

nó không có tính quyết định

Ví dụ: Xét các bảng dữ liệu trong cơ sở dữ liệu quan hệ có thuộc tính khóa

chính(primary keys) Trong đó các cột biểu diễn cho các thuộc tính, các hàng biểu diễn chocác đối tượng Đặt A = {các thuộc tính của bảng dữ liệu}, C = {các thuộc tính khóa chính

Trang 8

chính}, D = { các thuộc tính còn lại } Ta có: A=C ∪ D và C ∩ D=∅ Vậy bảng dữ liệu này

là một bảng quyết định Mặt khác, theo định nghĩa vể thuộc tính khóa chính thì ta có 1 phụ

2.2 Quan hệ bất khả phân biệt

- Xét hệ thông tin S=⟨U , A ,V , f⟩, B ⊆ A, ∀x, y ∈U ta lập một quan hệ R Bnhư sau:

Vậy R B là một quan hệ tương đương, ta kí hiệu là IND(B) và gọi là quan hệ bất khả

phân biệt với tập thuộc tính B Vậy IND(B) = {(x, y) ∈ U x U | f(x, b) = f (y, b),

∀ b ∈ B } Quan hệ IND(B) chia tập U thành các lớp tương đương, ta kí hiệu sự phân

lớp này là U|IND(B) ∀ x ∈U, lớp tương đương của x trong quan hệ IND(B) được

kí hiệu là [x] IND(B)

- Nếu muốn nhấn mạnh đến các thuộc tính khác biệt của các đối tượng hơn là giá trị

các thuộc tính thì có thể biểu diễn hệ thông tin bằng ma trận phân biệt D(discernibility matrix), được định nghĩa như sau:

Trang 9

{D làma trận vuông cấp∨U∨¿D x , y={a ∈ A|f ( x , a) ≠ f ( y , a)}; x , y ∈U

Ví dụ: Xét bảng triệu chứng cúm, đặt P = {Thân nhiệt, Mệt mỏi}, Q = {Đau đầu, Buồn

nôn} Ta có quan hệ bất khả phân biệt trên P và Q như sau:

- Ý tưởng cơ bản của tập thô là mô tả hay xấp xỉ một tập hợp rõ bằng cặp xấp xỉ

trên/xấp xỉ dưới Với một tập thuộc tính P bất kì(P ⊆ A), nếu không thể dùng nó để mô tả

chính xác một tập hợp X, thì cặp xấp xỉ trên/xấp xỉ dưới được dùng đến Cho hệ thông tin

S=⟨U , A ,V , f⟩, P ⊆ A, X ⊆ U Bây giờ chúng ta muốn sử dụng tập thuộc tính P để mô tả

tập các đối tượng X(được đặc trưng bằng một số tính chất nào đó), khi đó X được sinh ra

bởi cặp xấp xỉ trên/xấp xỉ dưới kí hiệu bởi P X / P X như định nghĩa dưới đây:

P X={y ∈ U :[y]IND(P)⊆ X} và gọi là P – xấp xỉ dưới của X

P X={y ∈ U :[y]IND(P)∩ X ≠ ∅} gọi là P – xấp xỉ trên của X

Trang 10

Theo định nghĩa trên ta thấy rằng:

 P X là tập các đối tượng mà sử dụng tập thuộc tính mô tả P ta chắc chắn chúng

là thành viên của X

 P X là tập các đối tượng mà sử dụng tập thuộc tính mô tả P ta chỉ có thể nói rằngcác đối tượng đó có thể là thành viện của X

 P X ⊆ P X

- Nếu P X=¿ P X thì X là tập rõ hay tập P - chính xác(P – exact), ngược lại thì X là tập

P – thô(P – though) Đặt BN P ( X )=P X−P X, ta gọi BN P ( X ) là vùng P – biên(P – boundary) gồm các đối tượng mà sử dụng tập thuộc tính P ta không thể xác định chúng có thuộc X

hay không Tập hợp U −P X gọi là vùng P – ngoài của X(P – outside region of X) gồm các

đối tượng mà sử dụng tập thuộc tính mô tả P chắc chắn chúng không là thành viên của X.Một hình ảnh trực quan về các tập hợp được thể hiện qua hình sau:

Ví dụ: Xét Bảng triệu chứng cúm

Đặt P = { Đau đầu, buồn nôn }, X = { x ∈U | f(x, Cảm cúm) = có } Ta có:

X = { B1, B2, B4, B5, B8 }

Trang 11

- Một tập thô X có thể được đặc trưng bằng một hệ số gọi là hệ số chính xác hay độ

chính xác xấp xỉ(accuracy of approximation) định nghĩa như sau:

α P ( X )=¿P X∨ ¿

¿P X∨¿ ¿¿

Nhận xét:

 0 ≤ α P ( X ) ≤1, do P X ⊆ P X nên |P X| ≤ |P X

 α P ( X )=1, tập X là tập rõ đối với quan hệ P

 α P ( X )<1, tập X là tập thô đối với quan hệ P

 Cho P, Q ⊆ A và |P| = |Q|, nếu α P ( X ) < α Q ( X ) thì Q xấp xỉ tập X tốt hơn P

2.4 Hàm thuộc thô

- Trong lý thuyết tập hợp cổ điển, mỗi một tập hợp X có thể được mô tả bởi một hàm

số μ X: U → {0,1} (X ⊆U¿ gọi là hàm đặc trưng hay hàm thuộc của tập X, sao cho ∀ u ∈U,

Trang 12

μ X (u ) = 1 thì u ∈ X, ngược lại μ X (u ) = 0 thì u ∉ X Một cách tương ứng, trong lý thuyết tậpthô ta cũng định nghĩa một hàm thuộc thô như sau:

Cho hệ thông tin S=⟨U , A ,V , f⟩, X ⊆ U, P ⊆ A, hàm μ X P: U →[0,1], ∀ x ∈U:

μ X P ( x )=¿X ∩[x]IND(P)∨ ¿

¿[x]IND(P)∨¿¿¿

Khi đó hàm μ X P được gọi là hàm thuộc thô của tập P – thô X

- Từ định nghĩa của hàm thuộc thô, ta rút ra một số tính chất sau:

1) μ X P(x )=1 ⇔|X ∩[x]IND(P)|=|[x]IND(P)|⇔[x]IND(P)⊆ X ⇔ x ∈ P X

2) μ X P(x )=0 ⇔|X ∩[x]IND(P)|=0⇔ X ∩[x]IND(P)=∅ ⇔ x ∈ U−P X

3) 0¿μ X P(x )<1 ⇔ X ∩[x]IND(P)≠ ∅ và|X ∩[x]IND(P)|<|[x]IND(P)|

Trang 13

- Ta nói rằng tập thuộc tính Q phụ thuộc hoàn toàn vào tập thuộc tính P và kí hiệu là

P → Q ⇔ IND(P) ⊆ IND(Q) hay nói cách khác:

∀ x, y ∈U: f(x, p) = f(y, p) ⇒ f(x, q) = f(y, q) , ∀ p ∈ P , ∀ q ∈ QViệc tìm ra sự phụ thuộc giữa các thuộc tính là vấn đề rất quan trọng trong việc tìm cácluật quyết định(decision rules), một trong những ứng dụng quan trọng nhất của tập thôtrong Data mining

- Ta gọi vùng dương của phân loại U/Q đối với tập thuộc tính P là P – vùng dương

POS P (Q )=¿X ∈ U ∣ IND(Q) P X

Trang 14

Từ định nghĩa trên ta thấy rằng POSP(Q) gồm tất cả các đối tượng mà sử dụng tập thuộctính mô tả P ta có thể phân lớp chúng một cách chắc chắn vào một lớp tương đương trong

U|IND(Q) Hãy đặt nhận xét này trong ngữ cảnh của bảng quyết định, giả sử D = Q là tập

thuộc tính quyết định và P ⊆C là tập một số thuộc tính điều kiện thì POSP(Q) = POSP(D)

Lúc đó nhận xét này được phát biểu lại là POS P(D) là tập những đối tượng mà sử dụng tập

P gồm một số thuộc tính điều kiện ta có thể biết chắc chắn đối tượng đó thuộc một phân

- Nếu POS P (Q ) = U nghĩa là ∀ x ∈U, ∃ X ∈U|IND (Q) : [x]IND(P)⊆ X ⇒ IND(P) ⊆

IND(Q) ⇒ P → Q Như vậy khi POS P (Q ) = U thì Q phụ thuộc hoàn toàn vào tập thuộc tính

P, có nghĩa là nếu |POS P (Q)∨¿ < |U| thì Q “ít” phụ thuộc vào P hơn Từ đó, ta định nghĩa

một hệ số γ P (Q ) gọi là hệ số đo sự phụ thuộc của tập thuộc tính Q vào tập thuộc tính P như

(do các P X là rời nhau ∀ X ∈U ∨IND (Q )

Hiển nhiên là 0 ≤ γ P (Q )≤ 1 Khi γ P (Q ) = 1 thì Q phụ thuộc hoàn toàn vào P, ngược lại ta nói

Q phụ thuộc một phần vào P

2.5.2 Các tập rút gọn (reducts)

- Cho a ∈ P, P’ = P – {a}, nếu IND(P) = IND(P’) thì thuộc tính a gọi là bỏ qua

được(dispensable) ngược lại thì a gọi là không bỏ qua được(indispensable) Trong thực

hành cũng như trong lý thuyết ta luôn mong muốn tìm tập P với ít thuộc tính nhất mà vẫnkhông giảm khả năng phân loại Tập tất cả các thuộc tính không bỏ qua được của P gọi là

lõi(core) của P, kí hiệu là CORE(P).

- Một thuộc tính a ∈ P gọi là Q – bỏ qua được trong P nếu POSP(Q) = POSP-{a}(Q)

ngược lại thì a là Q – không thể bỏ được trong P Tập tất cả thuộc tính Q – không bỏ qua

Trang 15

- Nếu ∀a ∈ P, a là không bỏ qua được thì P gọi là trực giao(orthogonal) Cho P’ ⊆ P

và P’ là trực giao, nếu IND(P’) = IND(P) thì P’ gọi là một rút gọn(reduct) của P, kí hiệu là

P’ = RED(P) Từ đây ta suy ra CORE(P) = ¿(P)

- P gọi là Q – trực giao nếu tất cả thuộc tính của P là Q – không bỏ được Cho P’⊆ P

là Q – trực giao, nếu POSP’(Q) = POSP(Q) thì B gọi là một Q – rút gọn (Q – reduct) của P

và kí hiệu P’ = RED Q (P) Từ định nghĩa Q – rút gọn ta có COREQ(P) = ¿Q(P)

Ví dụ: Xét hệ thông tin sau đây:

Ta có U = {O1, O2, O3, O4, O5, O6, O7, O8, O9}, A = {a, b, c, d}

Đặt P = {a, b, c}, P1 = P – {c} = {a, b}, P2 = P – {a} = {b, c}, P3 = P - {b} = {a, c} Tacó:

U|IND(P) = {{O1}, {O2, O3, O4}, {O5, O6}, {O7, O8, O9}}

U|IND(P1 - {b}) = U|IND(P3 - {c}) = {{ O1, O2, O3, O4}, { O5, O6, O7, O8, O9}}

U|IND(P1 - {a}) = U|IND(P2 - {c}) = {{ O1, O5, O6}, {O2, O3, O4, O7, O8, O9}}

U|IND(P2 - {b}) = U|IND(P3 - {a}) = {{ O1, O2, O3, O4}, {O5, O6, O7, O8, O9}}

U|IND(P1) = {{O1}, {O2, O3, O4}, {O5, O6}, {O7, O8, O9}}

U|IND(P2) = {{O1}, {O2, O3, O4}, {O5, O6}, {O7, O8, O9}}

Định dạng
Số trang	23
Dung lượng	162,35 KB