Tiểu luận môn Toán khoa học máy tính TÌM HIỂU LÝ THUYẾT TẬP THÔ VÀ TIẾP CẬN TẬP THÔ ĐỂ KHÁM PHÁ LUẬT KẾT HỢP

LỜI NÓI ĐẦUTheo xu hướng mới đây, để xử lý các hệ thống thông tin bao hàm yếu tố mơ hồ, không đầy đủ và rời rạc, các nhà nghiên cứu đã đề xuất nhiều phương phápkhác với phương pháp logic

Trang 1

BÀI THU HOẠCH MÔN TOÁN KHOA HỌC MÁY TÍNH

TÌM HIỂU LÝ THUYẾT TẬP THÔ

TP HỒ CHÍ MINH, THÁNG 11/2014

LỜI CẢM ƠN

Trang 2

Nhóm xin chân thành cảm ơn sâu sắc đến TS Dương Tôn Đảm , người thầy đãtruyền đạt cho nhóm những kiến thức về lý thuyết tập thô, cung cấp những tàiliệu qúy báu trong suốt quá trình học.

Nhóm xin cảm ơn đến PGS.TS Đỗ Phúc đã dành thời gian một buổi lên lớp đểhướng dẫn cũng như trình bày những ứng dụng liên quan đến tập thô

Xin được cảm ơn các anh/chị học cùng khóa đã đóng góp và chia sẻ tài liệu vềmôn học, giúp nhóm hoàn thành tốt bài thu hoạch này

Xin chân thành cảm ơn

MỤC LỤC

Trang 3

LỜI NÓI ĐẦU

Theo xu hướng mới đây, để xử lý các hệ thống thông tin bao hàm yếu tố mơ

hồ, không đầy đủ và rời rạc, các nhà nghiên cứu đã đề xuất nhiều phương phápkhác với phương pháp logic cổ điển, ví dụ lý thuyết tập mờ (Fuzzy set theory), lýthuyết tập thô (Rough set theory), tính toán hạt (Granular computing) hay phântích khái niệm hình thức (Formal concept analysis) … Trong các phương phápnày, phương pháp tập thô được nhiều nhóm khoa học trên thế giới quan tâmnghiên cứu và phát triển Điều này có thể lý giải là do lý thuyết tập thô được xâydựng trên một nền toán học vững chắc, cung cấp những công cụ hữu ích để giảiquyết các bài toán phân lớp dữ liệu, phát hiện luật …, đặc biệt là phục vụ choviệc nghiên cứu các hệ thống thông minh, khai phá dữ liệu

Lý thuyết tập thô do Z.Pawlak đề xuất vào đầu những năm 80 của thế kỷ XX đãđược áp dụng ngày càng rộng rãi trong lĩnh vực khám phá tri thức Trong nhữngnăm gần đây, lý thuyết tập thô được nhiều nhóm nghiên cứu hoạt động trong lĩnhvực tin học nói chung và khai phá tri thức từ cơ sở dữ liệu nói riêng nghiên cứu

và áp dụng vào thực tế Những phương pháp dựa trên lý thuyết tập thô đặc biệthữu ích đối với những bài toán mà dữ liệu không rõ ràng, không chắc chắn.Ngoài ra, lý thuyết tập thô cho phép trình diễn một mô hình hình thức về tri thức

Mô hình này được xác định như họ các mối quan hệ “không phân biệt được”.Nhờ đó, tri thức được định nghĩa một cách rõ ràng theo nghĩa toán học, có thểphân tích và xử lý bằng những công cụ toán học

Trong lý thuyết tập thô, dữ liệu được biểu diễn thông qua hệ thông tin hay bảngquyết định Ý tưởng chính trong việc phân tích dữ liệu theo tiếp cận tập thô xuấtphát từ những khái niệm về sự xấp xỉ tập, về quan hệ “không phân biệt được” Từnhững bảng dữ liệu lớn với dữ liệu dư thừa, không hoàn hảo, dữ liệu liên tục hay

dữ liệu biểu diễn dưới dạng ký hiệu Lý thuyết tập thô cho phép khai thác từnhững loại dữ liệu như vậy nhằm phát hiện ra những quy luật tiềm ẩn Tri thứcđược biểu diễn dưới dạng các luật, mẫu mô tả mối quan hệ bị che giấu trong dữliệu Chất lượng thông tin trong việc vận dụng lý thuyết tập thô được đo bằng tập

Trang 4

xấp xỉ trên và tập xấp xỉ dưới Nhằm thu hẹp nhiều nhất chính xác thông tin, loại

bỏ những thông tin dư thừa không cần thiết mà vẫn giữ được ý nghĩa Khi tìmđược những quy luật chung nhất, người ta có thể tính toán độ mạnh, độ phụ thuộcgiữa các thuộc tính trong hệ thông tin

Việc tiếp cận tập thô để khám phá luật có rất nhiều những lợi ích như:

 Cho phép xử lý hiệu quả bảng dữ liệu lớn, loại bỏ dữ liệu dư thừa, dữ liệu bịthiếu, dữ liệu liên tục

 Hiệu quả cao trong việc tìm kiếm những mẫu tiềm ẩn trong dữ liệu

 Sử dụng được các kinh nghiệm về tri thức

 Nhận ra các mối quan hệ mà khi sử dụng các phương pháp thống kê kháckhông phát hiện được

 Sử dụng quan hệ thứ lỗi trong quá trình phát hiện mẫu

 Làm việc hiệu quả trên tập dữ liệu rút gọn

Với những ưu điểm trên, nhóm đã thống nhất tìm hiểu về lý thuyết tập thô đồngthời cũng vận dụng trong việc khám phá tri thức luật

Bài thu hoạch được trình bày thành hai phần chính:

 Tìm hiểu về lý thuyết tập thô

 Vận dụng tập thô trong việc khám phá luật kết hợp

 Đánh giá các luật dựa vào các độ đo

Trang 5

Hình thức hơn, hệ thông tin là một cặp S = (U, A), U là một tập hữu hạn khácrỗng các đối tượng gọi là tập vũ trụ hay là tập phổ dụng, A là một tập hữu hạnkhác rỗng các thuộc tính Với mỗi u∈U và a∈A, ta ký hiệu u(a) là giá trị của đốitượng u tại thuộc tính a Nếu gọi Ia là tập tất cả giá trị của thuộc tính a, thì u(a)∈Iavới mọi u∈U Bây giờ, nếu B = {b1 , b2 , ,bk} ⊂ A, ta ký hiệu bộ các giá trị u(bi)bởi u(B) Như vậy, nếu u và v là hai đối tượng, thì ta sẽ viết u(B) = v(B) nếuu(bi)= v(bi), với mọi i =1, 2, , k.

1.1.2 Quan hệ không phân biệt được

Xét hệ thông tin S = (U, A), với mỗi tập thuộc tính B ⊂ A tạo ra một mối quan

hệ hai ngôi trên U, ký hiệu là IND(B)

 IND(B) = {(u,v)∈U x U | u(a) = v(a), ∀a∈B}

 IND(B) được gọi là B_không phân biệt được

Ví dụ: Xét hệ thông tin cho bên dưới

x 4 Không Có Bình thường Không

Bảng 1-1: Bảng dữ liệu bệnh cúmTrong đó: U = {x1, x2, x3, x4, x5, x6}

A = {Đau đầu, Đau cơ, Nhiệt độ, Cúm}

Trang 6

Trong bảng, các bệnh nhân x2, x3 và x5 không phân biệt được đối với thuộc tínhĐau đầu, bệnh nhân x3 và x6 không phân biệt được đối với thuộc tính Đau cơ,Cúm và bệnh nhân x2, x5 không phân biệt được đối với thuộc tính Đau đầu, Đau

cơ và Nhiệt độ

Do đó:

 IND( {Đau đầu}) = {{x1, x4, x6},{x2, x3, x5}}

 IND( {Đau cơ}) = {{x1, x3, x4, x6}, {x2, x5}}

 lần lượt được gọi là R-xấp xỉ dưới và R-xấp xỉ trên của tập X

 Tập bao gồm tất cả các phần tử của U chắc chắn thuộc vào X

 Tập bao gồm các phần tử của U có khả năng phân loại vào những phần tửthuộc X ứng với quan hệ R

Từ hai tập xấp xỉ, người ta định nghĩa các tập sau:

 : B-miền biên của X

Trang 7

Đối với một hệ thông tin S = (U,A), B, D ⊆ A, ký hiệu R = IND(B), người tagọi B-miền dương của D là tập được xác định như sau:

Rõ ràng, là tập tất cả các đối tượng u sao cho ∀v∈U mà u(B) = v(B) ta đều cóu(D) = v(D) Nói cách khác, = {u∈U | [u]B ⊆ [u]D}

Bảng quyết định là một hệ thông tin có dạng T = (U, A), trong đó tập thuộc tính

A được chia thành hai tập thuộc tính rời nhau C và D, C được gọi là tập thuộctính điều kiện, còn D là tập thuộc tính quyết định Tức là T = (U, C ∪ D), với

C∩D = ∅ Ngoài ra, ta có thể ký hiệu T = (U, C, D)

Trang 8

Ví dụ: sử dụng lại Bảng 1-1: Bảng dữ liệu bệnh cúm là một bảng quyết địnhT=(U,C ∪ D) Trong đó:

 U = {x1, x2, x3, x4, x5, x6}

 A = {Đau đầu, Đau cơ, Nhiệt độ, Cúm}

 Tập thuộc tính điều kiện C = {Đau đầu, Đau cơ, Nhiệt độ}

Ta có thể thấy, bảng quyết định là nhất quán khi và chỉ khi POSC(D) = U

Trong trường hợp bảng không nhất quán thì POSC(D) chính là tập con cực đạicủa U sao cho phụ thuộc hàm C→D đúng

1.1.7 Rút gọn và nhân

Xét một bảng quyết định T = (U, C ∪ D)

Tập thuộc tính R ⊆ C được gọi là một rút gọn của C nếu POSR(D) = POSC(D).Nhân của tập thuộc tính điều kiện C, ký hiệu CORE(C) được định nghĩa:

Ở đây, RED(C) là tập hợp tất cả rút gọn của C

Ngoài ra, người ta cũng định nghĩa rút gọn C-miền khẳng định dương của D:Nếu B ⊆ C thỏa

 POSB(D) = POSC(D)

∀a ∈ B, POSC(D) ≠ POSC-{a}(D)

Thì B được gọi là rút gọn C-miền khẳng định dương của D

Trang 9

1.1.8 Ma trận phân biệt được và hàm phân biệt được

Xét bảng quyết định T = (U, C ∪ D), với U = {u1, u2, …, un} Ma trận phân biệtcủa T, ký hiệu là M(T) = (mij)nxn là một ma trận đối xứng, trong đó mỗi phần tửcủa nó là một tập thuộc tính được xác định như sau:

Hàm phân biệt được fT là một hàm boole, được xác định từ ma trận phân biệtM(T) như sau:

Trong đó, mỗi thuộc tính được đặt tương ứng một biến logic cùng tên và

∨ mij là biểu thức tuyển của tất cả các biến c ∈ mij, nếu mij ≠ ∅

∨ mij = true, nếu mij = ∅ và

∨ mij = false, nếu mij = ∅ và

Độ đo chắc chắn và độ hỗ trợ của luật quyết định Zij được định nghĩa như sau:

Dễ nhận thấy rằng, giá trị của của luật quyết định Zij rơi vào đoạn

1.1.10 Phụ thuộc độ k

Cho hệ thông tin S = (U, A), X, Y ⊆ A Ta nói rằng, tập thuộc tính Y phụ thuộc

độ k ∈[0,1] vào tập thuộc tính X, ký hiệu với k được xác định như sau:

Dễ thấy rằng, phụ thuộc độ k là sự tổng quát hóa của phụ thuộc hàm và là phụthuộc hàm đã biết trong cơ sở dữ liệu quan hệ

Trang 10

1.2 Phủ tập thô

1.2.1 Định nghĩa các loại phủ và không gian xấp xỉ phủ

1.2.1.1 Định nghĩa “phủ”

Cho U là một tập phổ dụng, ζ là họ các tập con khác rỗng của U, khi ∪ζ = U, ζ

được gọi là một phủ của U

Từ định nghĩa trên, ta suy ra một phân hoạch của U là một phủ của U Vì vậy,khái niệm phủ là mở rộng của khái niệm phân hoạch

1.2.1.2 Định nghĩa “không gian xấp xỉ phủ”

Cho U là một tập phổ dụng, ζ là 1 phủ của U Cặp thứ tự (U, ζ) được gọi là mộtkhông gian xấp xỉ phủ (CAS)

1.2.1.3 Định nghĩa “mô tả tối tiểu”

Cho một không gian xấp xỉ phủ (U, ζ), họ các tập hợp được xác định bởi x∈ U:Md(x) = {K∈ζ | x∈K ∧ (∀S∈ζ∧ x∈S ∧ S⊆K ⇒K=S)} được gọi là mô tả tối thiểu của x

1.2.1.4 Định nghĩa “phủ nửa thu gọn”

Cho một không gian xấp xỉ phủ (U, ζ), ζ được gọi là (phủ) nửa thu gọn hay nửakhông dư thừa nếu nó thỏa điều kiện sau:

1.2.1.5 Định nghĩa “phủ đơn vị”

Cho một không gian xấp xỉ phủ (U, ζ), ζ được gọi là phủ đơn vị nếu ∀x∈U,|Md(x)| = 1

1.2.1.6 Định nghĩa “phủ tựa điểm”

Cho một không gian xấp xỉ phủ (U, ζ), ζ được gọi là phủ tựa điểm nếu ∀K∈ζ

và x∈K thì K ⊆∪Md(x)

Trang 11

1.2.1.7 Địng nghĩa “phần tử loại được của một phủ”

Cho một không gian xấp xỉ phủ (U, ζ) và K∈ζ Nếu K là hợp của một số tậphợp nào đó của ζ - {K}, ta nói rằng K là phần tử loại được của ζ, ngược lại K làphần tử không loại được

1.2.2 Các phép xấp xỉ dựa vào phủ tập thô

Cho một không gian xấp xỉ phủ (U, ζ) Một tập X ⊆ U, xấp xỉ phủ dưới, xấp xỉphủ trên loại 1, 2, 3 của X được định nghĩa:

Bảng 1-2: Các phép xấp xỉ dựa vào phủ tập thô

Ký hiệu: ℘(U) là tập hợp chứa tất cả tập con của U: ℘(U) = {X | X ⊆ U}; ¬ làphép phủ định mệnh đề; ~X = U – X = XC

1.2.2.1 Phép xấp xỉ phủ tập thô loại 1

Cho ζ là một phủ của U, các phép toán CL và FH: ℘(U)→℘(U) được địnhnghĩa: ∀X ⊆ U,

Trang 12

Ta gọi CL là phép xấp xỉ phủ dưới và FH là phép xấp xỉ phủ trên loại 1 của Xđược sinh bởi ζ.

1.2.4 Không gian topo

Xét tập hợp X, một họ τ các tập con của X được gọi là topo trên X nếu thỏa cácđiều kiện:

 X và ∅ thuộc τ

 Hợp tùy ý các tập thuộc τ là thuộc τ

 Giao của hữu hạn các tập thuộc τ là thuộc τ

Trang 13

Một tập X cùng một topo trên X gọi là một không gian topo Để chỉ rõ τ là topotrên X ta viết (X, τ) Trên một không gian topo (X, τ), ta có các khái niệm sau:

 Tập mở, tập đóng: Tập G∈τ được gọi là tập mở của X Tập con F của Xđược gọi là tập đóng nếu X-F là tập mở

 Lân cận: Xét x∈X, tập con V của X được gọi là một lân cận của x nếu tồntại một tập mở G sao cho x∈G ⊂ V Nếu lân cận V của x là một tập mở thì

V được gọi là một lân cận mở của x

 Bao đóng: Xét A ⊆ X, ta gọi bao đóng của A, ký hiệu là là giao tất cả cáctập đóng chứa A

 Phần trong: Cho A ⊆ X, ta gọi phần trong của A, ký hiệu là Int(A) hay A0 làhợp tất cả các tập mở được chứa trong A

 Biên của tập A trong topo τ ta tập hợp Ab = – A0

1.2.5 Cơ sở và tiền cơ sở

Một họ con β của τ được gọi là một cơ sở của τ nếu mọi tập thuộc τ đều bằnghợp của một họ các tập thuộc β Nói cách khác, họ con β của τ là cơ sở của τ

nếu: ∀G∈τ, ∀x∈G, ∃V∈β: x∈V ⊂ G

Một họ con σ của τ gọi là một tiền cơ sở của τ nếu họ tất cả các giao hữu hạncủa các tập thuộc σ là một cơ sở của τ:

Trang 14

2 KHÁM PHÁ TRI THỨC TIẾP CẬN TẬP THÔ

2.1 Khám phá luật trong bảng quyết định

2.1.1 Luật trong bảng quyết định

Giả sử, ta có bảng quyết định T = (U, C ∪ D), X biểu thị sự kết hợp giữa các từnhận dạng bao hàm trong các thuộc tính điều kiện C Y biểu thị một từ nhận dạng

D = V trong đó V là giá trị bất kỳ nào của thuộc tính quyết định

Một luật quyết định có dạng “Nếu X thì Y” được biểu diễn bởi X → Y với S biểuthị độ mạnh của luật

2.1.2 Hai đặc trưng của luật: độ mạnh và độ nhiễu của luật

Cho luật X → Y, độ mạnh của luật, ký hiệu là S(X → Y) được cho bởi côngthức:

Với s(X) gọi là độ mạnh của X được xác định qua công thức:

 Trường hợp không sử dụng tri thức kinh nghiệm

• Với là số đối tượng quan sát thỏa mãn trong lần thứ i

 Trong trường hợp sử dụng tri thức kinh nghiệm

Độ nhiễu r(X → Y) được tính như sau:

 Với ) là số các đối tượng thuộc lớp Y trong các trường hợp thỏa mãn bộsinh X

2.2 Quá trình khám phá luật

Giả sử ta có bảng quyết định T = (U, C ∪ D) gồm n đối tượng và m thuộc tính,

tỷ lệ nhiễu r

Bước 1: Các đối tượng với các giá trị thuộc tính điều kiện được coi là một đối

tượng gọi là đối tượng ghép

Trang 15

Bước 2: Tính toán tỉ lệ nhiễu r cho mỗi đối tượng ghép.

Bước 3: Chọn một đối tượng u từ U và tạo một vector phân biệt được cho u Bước 4: Tìm tất cả các tập rút gọn cho đối tượng u sử dụng hàm phân biệt

được

Bước 5: Tạo các luật từ tập rút gọn cho u và xem lại độ mạnh của mỗi luật Bước 6: Chọn luật tốt nhất từ các luật ở bước 5, sử dụng phương pháp đánh giá

kinh nghiệm khi lựa chọn luật

Bước 7: U = U – {u} Nếu U ≠ ∅, thì quay lại bước 3, trường hợp khác thì đếnbước 8

Bước 8: Kết thúc nếu số các luật được chọn trong bước 6 cho mỗi trường hợp

là 1, trường hợp còn lại tìm một tập tối thiểu các luật mà chứa tất cả các trườnghợp trong bảng quyết định

2.3 Tiêu chuẩn lựa chọn luật trong tập thô

 Chọn các luật mà bao phủ nhiều nhất có thể các trường hợp

 Chọn các luật mà có chứa ít nhất các thuộc tính có thể, nếu chúng bao phủ

số các trường hợp giống nhau

 Chọn các luật với độ mạnh lớn, nếu chúng có giống nhau số các thuộc tínhđiều kiện và bao phủ số các trường hợp giống nhau

 Mối liên hệ giữa mẫu và luật theo hướng tiếp cận tập thô

Trong quá trình khám phá tri thức, một trong những mục tiêu chính của việcphân tích dữ liệu theo hướng tiếp cận tập thô là tìm ra những mẫu hay từ dữ liệu(các dữ liệu này được biểu diễn dưới dạng hệ thông tin hay bảng quyết định).Như vậy, luật quyết định là một kiểu đặc biệt của mẫu Một tập các mẫu giốngnhư một tập các luật trong trường hợp tập luật đó không chứa kết quả Mẫu là kếtquả của việc tính toán trên tập rút gọn khi người ta không quan tâm đến thuộctính quyết định Luật quyết định phản ánh một quan hệ hay một xác suất có thểgiữa tập thuộc tính điều kiện và tập thuộc tính quyết định

Với mẫu người ta sử dụng các độ đo là độ phù hợp fitnessS(T) biểu thị số đốitượng trong tập tổng thể phù hợp với mẫu T và độ chất lượng quantityS(T) =fitnessS(T) x length(T) (tích của độ phù hợp với số các từ khác nhau trong mẫu)biểu thị chất lượng của mẫu tìm được Còn với luật, người ta sử dụng độ mạnh để

Trang 16

biểu thị số các đối tượng thỏa mãn bộ sinh luật và độ nhiễu để biểu thị độ mạnhcủa luật khi xử lý loại dữ liệu có nhiễu.

Chúng ta nhận thấy rằng, việc phát hiện số lượng các luật là rất lớn, gây khókhăn cho người sử dụng trong việc chọn ra những tri thức thật sự có ích cho ứngdụng Ở phần tiếp theo bên dưới, nhóm xin trình bày các phương pháp đánh giátập luật dựa trên tập thô

2.4 Một số phương pháp đánh giá luật dựa trên tập thô

2.4.1 Độ đo sự hữu ích của luật

Độ đo sự hữu ích của luật được chia làm hai loại chính: độ đo khách quan và độ

đo chủ quan Phần lớn các độ đo sự hữu ích của luật sử dụng định nghĩa về xácsuất

2.4.1.1 Độ hỗ trợ

Độ hỗ trợ của luật X → Y được định nghĩa là số bộ giá trị chứa cả X và Y:

Độ hỗ trợ có giá trị trong khoảng [0,1] Nếu X và Y không đồng thời xuất hiệncùng nhau trong các bộ giá trị thì độ hỗ trợ của X → Y bằng 0 và ngược lại nếuchúng cùng xuất hiện trong tất cả các bộ giá trị thì độ hỗ trợ của nó bằng 1

2.4.1.2 Độ tin cậy

Độ tin cậy của luật X → Y được định nghĩa:

Các luật có độ tin cậy càng cao càng được xem là hữu ích Tuy nhiên, trongmột số ứng dụng độ đo này cũng cho kết quả khá mơ hồ

2.4.1.3 Độ đo Lift

Độ đo này dùng để đánh giá mối quan hệ giữa X và Y trong luật X → Y Độ đoLift được tính như sau:

Định dạng
Số trang	23
Dung lượng	111,01 KB