LỜI NÓI ĐẦUTheo xu hướng mới đây, để xử lý các hệ thống thông tin bao hàm yếu tố mơ hồ, không đầy đủ và rời rạc, các nhà nghiên cứu đã đề xuất nhiều phương phápkhác với phương pháp logic
Trang 1BÀI THU HOẠCH MÔN TOÁN KHOA HỌC MÁY TÍNH
TÌM HIỂU LÝ THUYẾT TẬP THÔ
TP HỒ CHÍ MINH, THÁNG 11/2014
LỜI CẢM ƠN
Trang 2Nhóm xin chân thành cảm ơn sâu sắc đến TS Dương Tôn Đảm , người thầy đãtruyền đạt cho nhóm những kiến thức về lý thuyết tập thô, cung cấp những tàiliệu qúy báu trong suốt quá trình học.
Nhóm xin cảm ơn đến PGS.TS Đỗ Phúc đã dành thời gian một buổi lên lớp đểhướng dẫn cũng như trình bày những ứng dụng liên quan đến tập thô
Xin được cảm ơn các anh/chị học cùng khóa đã đóng góp và chia sẻ tài liệu vềmôn học, giúp nhóm hoàn thành tốt bài thu hoạch này
Xin chân thành cảm ơn
MỤC LỤC
Trang 3LỜI NÓI ĐẦU
Theo xu hướng mới đây, để xử lý các hệ thống thông tin bao hàm yếu tố mơ
hồ, không đầy đủ và rời rạc, các nhà nghiên cứu đã đề xuất nhiều phương phápkhác với phương pháp logic cổ điển, ví dụ lý thuyết tập mờ (Fuzzy set theory), lýthuyết tập thô (Rough set theory), tính toán hạt (Granular computing) hay phântích khái niệm hình thức (Formal concept analysis) … Trong các phương phápnày, phương pháp tập thô được nhiều nhóm khoa học trên thế giới quan tâmnghiên cứu và phát triển Điều này có thể lý giải là do lý thuyết tập thô được xâydựng trên một nền toán học vững chắc, cung cấp những công cụ hữu ích để giảiquyết các bài toán phân lớp dữ liệu, phát hiện luật …, đặc biệt là phục vụ choviệc nghiên cứu các hệ thống thông minh, khai phá dữ liệu
Lý thuyết tập thô do Z.Pawlak đề xuất vào đầu những năm 80 của thế kỷ XX đãđược áp dụng ngày càng rộng rãi trong lĩnh vực khám phá tri thức Trong nhữngnăm gần đây, lý thuyết tập thô được nhiều nhóm nghiên cứu hoạt động trong lĩnhvực tin học nói chung và khai phá tri thức từ cơ sở dữ liệu nói riêng nghiên cứu
và áp dụng vào thực tế Những phương pháp dựa trên lý thuyết tập thô đặc biệthữu ích đối với những bài toán mà dữ liệu không rõ ràng, không chắc chắn.Ngoài ra, lý thuyết tập thô cho phép trình diễn một mô hình hình thức về tri thức
Mô hình này được xác định như họ các mối quan hệ “không phân biệt được”.Nhờ đó, tri thức được định nghĩa một cách rõ ràng theo nghĩa toán học, có thểphân tích và xử lý bằng những công cụ toán học
Trong lý thuyết tập thô, dữ liệu được biểu diễn thông qua hệ thông tin hay bảngquyết định Ý tưởng chính trong việc phân tích dữ liệu theo tiếp cận tập thô xuấtphát từ những khái niệm về sự xấp xỉ tập, về quan hệ “không phân biệt được” Từnhững bảng dữ liệu lớn với dữ liệu dư thừa, không hoàn hảo, dữ liệu liên tục hay
dữ liệu biểu diễn dưới dạng ký hiệu Lý thuyết tập thô cho phép khai thác từnhững loại dữ liệu như vậy nhằm phát hiện ra những quy luật tiềm ẩn Tri thứcđược biểu diễn dưới dạng các luật, mẫu mô tả mối quan hệ bị che giấu trong dữliệu Chất lượng thông tin trong việc vận dụng lý thuyết tập thô được đo bằng tập
Trang 4xấp xỉ trên và tập xấp xỉ dưới Nhằm thu hẹp nhiều nhất chính xác thông tin, loại
bỏ những thông tin dư thừa không cần thiết mà vẫn giữ được ý nghĩa Khi tìmđược những quy luật chung nhất, người ta có thể tính toán độ mạnh, độ phụ thuộcgiữa các thuộc tính trong hệ thông tin
Việc tiếp cận tập thô để khám phá luật có rất nhiều những lợi ích như:
Cho phép xử lý hiệu quả bảng dữ liệu lớn, loại bỏ dữ liệu dư thừa, dữ liệu bịthiếu, dữ liệu liên tục
Hiệu quả cao trong việc tìm kiếm những mẫu tiềm ẩn trong dữ liệu
Sử dụng được các kinh nghiệm về tri thức
Nhận ra các mối quan hệ mà khi sử dụng các phương pháp thống kê kháckhông phát hiện được
Sử dụng quan hệ thứ lỗi trong quá trình phát hiện mẫu
Làm việc hiệu quả trên tập dữ liệu rút gọn
Với những ưu điểm trên, nhóm đã thống nhất tìm hiểu về lý thuyết tập thô đồngthời cũng vận dụng trong việc khám phá tri thức luật
Bài thu hoạch được trình bày thành hai phần chính:
Tìm hiểu về lý thuyết tập thô
Vận dụng tập thô trong việc khám phá luật kết hợp
Đánh giá các luật dựa vào các độ đo
Trang 5Hình thức hơn, hệ thông tin là một cặp S = (U, A), U là một tập hữu hạn khácrỗng các đối tượng gọi là tập vũ trụ hay là tập phổ dụng, A là một tập hữu hạnkhác rỗng các thuộc tính Với mỗi u∈U và a∈A, ta ký hiệu u(a) là giá trị của đốitượng u tại thuộc tính a Nếu gọi Ia là tập tất cả giá trị của thuộc tính a, thì u(a)∈Iavới mọi u∈U Bây giờ, nếu B = {b1 , b2 , ,bk} ⊂ A, ta ký hiệu bộ các giá trị u(bi)bởi u(B) Như vậy, nếu u và v là hai đối tượng, thì ta sẽ viết u(B) = v(B) nếuu(bi)= v(bi), với mọi i =1, 2, , k.
1.1.2 Quan hệ không phân biệt được
Xét hệ thông tin S = (U, A), với mỗi tập thuộc tính B ⊂ A tạo ra một mối quan
hệ hai ngôi trên U, ký hiệu là IND(B)
IND(B) = {(u,v)∈U x U | u(a) = v(a), ∀a∈B}
IND(B) được gọi là B_không phân biệt được
Ví dụ: Xét hệ thông tin cho bên dưới
x 4 Không Có Bình thường Không
Bảng 1-1: Bảng dữ liệu bệnh cúmTrong đó: U = {x1, x2, x3, x4, x5, x6}
A = {Đau đầu, Đau cơ, Nhiệt độ, Cúm}
Trang 6Trong bảng, các bệnh nhân x2, x3 và x5 không phân biệt được đối với thuộc tínhĐau đầu, bệnh nhân x3 và x6 không phân biệt được đối với thuộc tính Đau cơ,Cúm và bệnh nhân x2, x5 không phân biệt được đối với thuộc tính Đau đầu, Đau
cơ và Nhiệt độ
Do đó:
IND( {Đau đầu}) = {{x1, x4, x6},{x2, x3, x5}}
IND( {Đau cơ}) = {{x1, x3, x4, x6}, {x2, x5}}
lần lượt được gọi là R-xấp xỉ dưới và R-xấp xỉ trên của tập X
Tập bao gồm tất cả các phần tử của U chắc chắn thuộc vào X
Tập bao gồm các phần tử của U có khả năng phân loại vào những phần tửthuộc X ứng với quan hệ R
Từ hai tập xấp xỉ, người ta định nghĩa các tập sau:
: B-miền biên của X
Trang 7Đối với một hệ thông tin S = (U,A), B, D ⊆ A, ký hiệu R = IND(B), người tagọi B-miền dương của D là tập được xác định như sau:
Rõ ràng, là tập tất cả các đối tượng u sao cho ∀v∈U mà u(B) = v(B) ta đều cóu(D) = v(D) Nói cách khác, = {u∈U | [u]B ⊆ [u]D}
Bảng quyết định là một hệ thông tin có dạng T = (U, A), trong đó tập thuộc tính
A được chia thành hai tập thuộc tính rời nhau C và D, C được gọi là tập thuộctính điều kiện, còn D là tập thuộc tính quyết định Tức là T = (U, C ∪ D), với
C∩D = ∅ Ngoài ra, ta có thể ký hiệu T = (U, C, D)
Trang 8Ví dụ: sử dụng lại Bảng 1-1: Bảng dữ liệu bệnh cúm là một bảng quyết địnhT=(U,C ∪ D) Trong đó:
U = {x1, x2, x3, x4, x5, x6}
A = {Đau đầu, Đau cơ, Nhiệt độ, Cúm}
Tập thuộc tính điều kiện C = {Đau đầu, Đau cơ, Nhiệt độ}
Ta có thể thấy, bảng quyết định là nhất quán khi và chỉ khi POSC(D) = U
Trong trường hợp bảng không nhất quán thì POSC(D) chính là tập con cực đạicủa U sao cho phụ thuộc hàm C→D đúng
1.1.7 Rút gọn và nhân
Xét một bảng quyết định T = (U, C ∪ D)
Tập thuộc tính R ⊆ C được gọi là một rút gọn của C nếu POSR(D) = POSC(D).Nhân của tập thuộc tính điều kiện C, ký hiệu CORE(C) được định nghĩa:
Ở đây, RED(C) là tập hợp tất cả rút gọn của C
Ngoài ra, người ta cũng định nghĩa rút gọn C-miền khẳng định dương của D:Nếu B ⊆ C thỏa
POSB(D) = POSC(D)
∀a ∈ B, POSC(D) ≠ POSC-{a}(D)
Thì B được gọi là rút gọn C-miền khẳng định dương của D
Trang 91.1.8 Ma trận phân biệt được và hàm phân biệt được
Xét bảng quyết định T = (U, C ∪ D), với U = {u1, u2, …, un} Ma trận phân biệtcủa T, ký hiệu là M(T) = (mij)nxn là một ma trận đối xứng, trong đó mỗi phần tửcủa nó là một tập thuộc tính được xác định như sau:
Hàm phân biệt được fT là một hàm boole, được xác định từ ma trận phân biệtM(T) như sau:
Trong đó, mỗi thuộc tính được đặt tương ứng một biến logic cùng tên và
∨ mij là biểu thức tuyển của tất cả các biến c ∈ mij, nếu mij ≠ ∅
∨ mij = true, nếu mij = ∅ và
∨ mij = false, nếu mij = ∅ và
Độ đo chắc chắn và độ hỗ trợ của luật quyết định Zij được định nghĩa như sau:
Dễ nhận thấy rằng, giá trị của của luật quyết định Zij rơi vào đoạn
1.1.10 Phụ thuộc độ k
Cho hệ thông tin S = (U, A), X, Y ⊆ A Ta nói rằng, tập thuộc tính Y phụ thuộc
độ k ∈[0,1] vào tập thuộc tính X, ký hiệu với k được xác định như sau:
Dễ thấy rằng, phụ thuộc độ k là sự tổng quát hóa của phụ thuộc hàm và là phụthuộc hàm đã biết trong cơ sở dữ liệu quan hệ
Trang 101.2 Phủ tập thô
1.2.1 Định nghĩa các loại phủ và không gian xấp xỉ phủ
1.2.1.1 Định nghĩa “phủ”
Cho U là một tập phổ dụng, ζ là họ các tập con khác rỗng của U, khi ∪ζ = U, ζ
được gọi là một phủ của U
Từ định nghĩa trên, ta suy ra một phân hoạch của U là một phủ của U Vì vậy,khái niệm phủ là mở rộng của khái niệm phân hoạch
1.2.1.2 Định nghĩa “không gian xấp xỉ phủ”
Cho U là một tập phổ dụng, ζ là 1 phủ của U Cặp thứ tự (U, ζ) được gọi là mộtkhông gian xấp xỉ phủ (CAS)
1.2.1.3 Định nghĩa “mô tả tối tiểu”
Cho một không gian xấp xỉ phủ (U, ζ), họ các tập hợp được xác định bởi x∈ U:Md(x) = {K∈ζ | x∈K ∧ (∀S∈ζ∧ x∈S ∧ S⊆K ⇒K=S)} được gọi là mô tả tối thiểu của x
1.2.1.4 Định nghĩa “phủ nửa thu gọn”
Cho một không gian xấp xỉ phủ (U, ζ), ζ được gọi là (phủ) nửa thu gọn hay nửakhông dư thừa nếu nó thỏa điều kiện sau:
1.2.1.5 Định nghĩa “phủ đơn vị”
Cho một không gian xấp xỉ phủ (U, ζ), ζ được gọi là phủ đơn vị nếu ∀x∈U,|Md(x)| = 1
1.2.1.6 Định nghĩa “phủ tựa điểm”
Cho một không gian xấp xỉ phủ (U, ζ), ζ được gọi là phủ tựa điểm nếu ∀K∈ζ
và x∈K thì K ⊆∪Md(x)
Trang 111.2.1.7 Địng nghĩa “phần tử loại được của một phủ”
Cho một không gian xấp xỉ phủ (U, ζ) và K∈ζ Nếu K là hợp của một số tậphợp nào đó của ζ - {K}, ta nói rằng K là phần tử loại được của ζ, ngược lại K làphần tử không loại được
1.2.2 Các phép xấp xỉ dựa vào phủ tập thô
Cho một không gian xấp xỉ phủ (U, ζ) Một tập X ⊆ U, xấp xỉ phủ dưới, xấp xỉphủ trên loại 1, 2, 3 của X được định nghĩa:
Bảng 1-2: Các phép xấp xỉ dựa vào phủ tập thô
Ký hiệu: ℘(U) là tập hợp chứa tất cả tập con của U: ℘(U) = {X | X ⊆ U}; ¬ làphép phủ định mệnh đề; ~X = U – X = XC
1.2.2.1 Phép xấp xỉ phủ tập thô loại 1
Cho ζ là một phủ của U, các phép toán CL và FH: ℘(U)→℘(U) được địnhnghĩa: ∀X ⊆ U,
Trang 12Ta gọi CL là phép xấp xỉ phủ dưới và FH là phép xấp xỉ phủ trên loại 1 của Xđược sinh bởi ζ.
1.2.4 Không gian topo
Xét tập hợp X, một họ τ các tập con của X được gọi là topo trên X nếu thỏa cácđiều kiện:
X và ∅ thuộc τ
Hợp tùy ý các tập thuộc τ là thuộc τ
Giao của hữu hạn các tập thuộc τ là thuộc τ
Trang 13Một tập X cùng một topo trên X gọi là một không gian topo Để chỉ rõ τ là topotrên X ta viết (X, τ) Trên một không gian topo (X, τ), ta có các khái niệm sau:
Tập mở, tập đóng: Tập G∈τ được gọi là tập mở của X Tập con F của Xđược gọi là tập đóng nếu X-F là tập mở
Lân cận: Xét x∈X, tập con V của X được gọi là một lân cận của x nếu tồntại một tập mở G sao cho x∈G ⊂ V Nếu lân cận V của x là một tập mở thì
V được gọi là một lân cận mở của x
Bao đóng: Xét A ⊆ X, ta gọi bao đóng của A, ký hiệu là là giao tất cả cáctập đóng chứa A
Phần trong: Cho A ⊆ X, ta gọi phần trong của A, ký hiệu là Int(A) hay A0 làhợp tất cả các tập mở được chứa trong A
Biên của tập A trong topo τ ta tập hợp Ab = – A0
1.2.5 Cơ sở và tiền cơ sở
Một họ con β của τ được gọi là một cơ sở của τ nếu mọi tập thuộc τ đều bằnghợp của một họ các tập thuộc β Nói cách khác, họ con β của τ là cơ sở của τ
nếu: ∀G∈τ, ∀x∈G, ∃V∈β: x∈V ⊂ G
Một họ con σ của τ gọi là một tiền cơ sở của τ nếu họ tất cả các giao hữu hạncủa các tập thuộc σ là một cơ sở của τ:
Trang 142 KHÁM PHÁ TRI THỨC TIẾP CẬN TẬP THÔ
2.1 Khám phá luật trong bảng quyết định
2.1.1 Luật trong bảng quyết định
Giả sử, ta có bảng quyết định T = (U, C ∪ D), X biểu thị sự kết hợp giữa các từnhận dạng bao hàm trong các thuộc tính điều kiện C Y biểu thị một từ nhận dạng
D = V trong đó V là giá trị bất kỳ nào của thuộc tính quyết định
Một luật quyết định có dạng “Nếu X thì Y” được biểu diễn bởi X → Y với S biểuthị độ mạnh của luật
2.1.2 Hai đặc trưng của luật: độ mạnh và độ nhiễu của luật
Cho luật X → Y, độ mạnh của luật, ký hiệu là S(X → Y) được cho bởi côngthức:
Với s(X) gọi là độ mạnh của X được xác định qua công thức:
Trường hợp không sử dụng tri thức kinh nghiệm
• Với là số đối tượng quan sát thỏa mãn trong lần thứ i
Trong trường hợp sử dụng tri thức kinh nghiệm
Độ nhiễu r(X → Y) được tính như sau:
Với ) là số các đối tượng thuộc lớp Y trong các trường hợp thỏa mãn bộsinh X
2.2 Quá trình khám phá luật
Giả sử ta có bảng quyết định T = (U, C ∪ D) gồm n đối tượng và m thuộc tính,
tỷ lệ nhiễu r
Bước 1: Các đối tượng với các giá trị thuộc tính điều kiện được coi là một đối
tượng gọi là đối tượng ghép
Trang 15Bước 2: Tính toán tỉ lệ nhiễu r cho mỗi đối tượng ghép.
Bước 3: Chọn một đối tượng u từ U và tạo một vector phân biệt được cho u Bước 4: Tìm tất cả các tập rút gọn cho đối tượng u sử dụng hàm phân biệt
được
Bước 5: Tạo các luật từ tập rút gọn cho u và xem lại độ mạnh của mỗi luật Bước 6: Chọn luật tốt nhất từ các luật ở bước 5, sử dụng phương pháp đánh giá
kinh nghiệm khi lựa chọn luật
Bước 7: U = U – {u} Nếu U ≠ ∅, thì quay lại bước 3, trường hợp khác thì đếnbước 8
Bước 8: Kết thúc nếu số các luật được chọn trong bước 6 cho mỗi trường hợp
là 1, trường hợp còn lại tìm một tập tối thiểu các luật mà chứa tất cả các trườnghợp trong bảng quyết định
2.3 Tiêu chuẩn lựa chọn luật trong tập thô
Chọn các luật mà bao phủ nhiều nhất có thể các trường hợp
Chọn các luật mà có chứa ít nhất các thuộc tính có thể, nếu chúng bao phủ
số các trường hợp giống nhau
Chọn các luật với độ mạnh lớn, nếu chúng có giống nhau số các thuộc tínhđiều kiện và bao phủ số các trường hợp giống nhau
Mối liên hệ giữa mẫu và luật theo hướng tiếp cận tập thô
Trong quá trình khám phá tri thức, một trong những mục tiêu chính của việcphân tích dữ liệu theo hướng tiếp cận tập thô là tìm ra những mẫu hay từ dữ liệu(các dữ liệu này được biểu diễn dưới dạng hệ thông tin hay bảng quyết định).Như vậy, luật quyết định là một kiểu đặc biệt của mẫu Một tập các mẫu giốngnhư một tập các luật trong trường hợp tập luật đó không chứa kết quả Mẫu là kếtquả của việc tính toán trên tập rút gọn khi người ta không quan tâm đến thuộctính quyết định Luật quyết định phản ánh một quan hệ hay một xác suất có thểgiữa tập thuộc tính điều kiện và tập thuộc tính quyết định
Với mẫu người ta sử dụng các độ đo là độ phù hợp fitnessS(T) biểu thị số đốitượng trong tập tổng thể phù hợp với mẫu T và độ chất lượng quantityS(T) =fitnessS(T) x length(T) (tích của độ phù hợp với số các từ khác nhau trong mẫu)biểu thị chất lượng của mẫu tìm được Còn với luật, người ta sử dụng độ mạnh để
Trang 16biểu thị số các đối tượng thỏa mãn bộ sinh luật và độ nhiễu để biểu thị độ mạnhcủa luật khi xử lý loại dữ liệu có nhiễu.
Chúng ta nhận thấy rằng, việc phát hiện số lượng các luật là rất lớn, gây khókhăn cho người sử dụng trong việc chọn ra những tri thức thật sự có ích cho ứngdụng Ở phần tiếp theo bên dưới, nhóm xin trình bày các phương pháp đánh giátập luật dựa trên tập thô
2.4 Một số phương pháp đánh giá luật dựa trên tập thô
2.4.1 Độ đo sự hữu ích của luật
Độ đo sự hữu ích của luật được chia làm hai loại chính: độ đo khách quan và độ
đo chủ quan Phần lớn các độ đo sự hữu ích của luật sử dụng định nghĩa về xácsuất
2.4.1.1 Độ hỗ trợ
Độ hỗ trợ của luật X → Y được định nghĩa là số bộ giá trị chứa cả X và Y:
Độ hỗ trợ có giá trị trong khoảng [0,1] Nếu X và Y không đồng thời xuất hiệncùng nhau trong các bộ giá trị thì độ hỗ trợ của X → Y bằng 0 và ngược lại nếuchúng cùng xuất hiện trong tất cả các bộ giá trị thì độ hỗ trợ của nó bằng 1
2.4.1.2 Độ tin cậy
Độ tin cậy của luật X → Y được định nghĩa:
Các luật có độ tin cậy càng cao càng được xem là hữu ích Tuy nhiên, trongmột số ứng dụng độ đo này cũng cho kết quả khá mơ hồ
2.4.1.3 Độ đo Lift
Độ đo này dùng để đánh giá mối quan hệ giữa X và Y trong luật X → Y Độ đoLift được tính như sau: