Phát hiện luật và tiền xử lý dữ liệu theo tiếp cận tập thô và ứng dụng rosetta phát hiện luật trong bài toán xử lý dữ li

Thông qua tìm hiểu và khai thác bộ công cụ ROSETTA do Aleksander 0 h m và cộng sự thuộc nhóm nghiên cứu tri thức thuộc khoa Khoa học máy tính và thông tin của trường đại học Norwegian, T

Trang 1

Kiêu Thu Hãng

PHÁT HIỆN LUẬT VẰTIỂN x ử LÝ Dữ LIỆU THEO TIẾP CẬN

TẬP THÔ VÀ ỨNG DỤNG ROSETTA PHẤT HIỆN LUẬT TRONG

BÀI TOÁN X ử LÝ Dữ LIỆU XUẤT NHẬP CẢNH

Trang 2

MỤC LỤC

MỞ ĐẦU

CHƯƠNG 1 TỔNG QUAN VỀ TẬP THÔ VÀ PHÁT HIỆN LUẬT THEO TIẾP CẬN TẬP THÔ

1.1 Tổng quan về tập thỏ

1.1.1 Khái niệm hộ thông tin

1.1.2 Khái niệm bảng quyết định

1.1.3 Tính không phân biệt được trong hộ thông tin

1.1.4 Khái niệm tập thô, tập xấp x ỉ

1.1.5 Độ chính xác và độ thô

1.1.6 Sự phụ thuộc của thuộc tính

1.1.7 Khái quát phụ thuộc hàm dựa trên lý thuyết tập thô

1.2 Luật theo tiếp cận tập t h ô

1.2.1 Luật kết hợp

1.2.2 Mẫu trong hệ thống thông tin

1.2.3 Mối liên hộ giữa mẫu và luật theo tiếp cận tập thô

1.4 Kết luận chương 1

CHƯƠNG 2 TIỀN XỬ LÝ DỮLIỆU VÀ TÌM TẬP RÚT GỌN THEO TIÊP CẬN TẬP THÔ VỚI BỘ CÔNG c ụ ROSETTA

2.1 Bộ công cụ ROSETTA

2.1.1 Giới thiệu bộ công cụ ROSETTA

2.1.2 Các thành phần cơ bản của ROSETTA

2.1.3 Các đặc trưng của ROSETTA

2.2 Tìm tập rút gọn theo tiếp cận tập thô

2.2.1 Tiêu chuẩn cho rút gọn tốt nhất

2.2.2 Tập thuộc tính rút gọn

Trang 3

2.2.3 Cách tiếp cận suy luận logic để rút gọn dữ liệu

2.3 Các luật quyết định tối thiểu

2.4 Tiền xử lý dữ liệ u

2.4.1 Dữ liệu đầy đủ

2.4.2 Dữ liệu không đầy đ ủ

CHƯƠNG 3 ÚNG DỤNG BỘ CÔNG c ụ ROSETTA ĐỂ g i ả i q u y ế t b à i TOÁN XỬ LÝ DỮ LIỆU XUẤT NHẬP CẢNH

3.1 Bài toán

3.1.1 Phát biểu bài toán

3.1.2 Phân tích bài toán

3.1.3 Một số đặc trưng

3.2 Tiền xử lý dữ liệu

3.2.1 Giới thiệu các phương pháp tiền xử lý được chọn

3.2.2 Thực nghiệm tiền xử lý

3.2.3 Đánh giá thực nghiệm

3.3 Tìm tập rút gọn

3.3.1 Thử nghiệm

3.3.2 Đánh giá

3.4 Sinh luật

KẾT L U Ậ N

TÀI LIỆU THAM KHẢO

Trang 4

CÁC KÝ HIỆU, VIẾT TẮT VÀ GIẢI THÍCH Ý NGHĨA

a

Một thuộc tính điều kiện trong tập thuộc tính điều kiện của

hệ thông tin

Trang 5

M Ở ĐẦUVới tốc độ tin học hoá rất nhanh trong vài thập kỷ qua, hầu hết các tổ chức và cá nhân đều thu thập và lưu trữ một khối lượng dữ liệu khổng lồ trong các cơ sở dữ liệu của họ Lúc đó, việc có thể hiểu được chúng vượt xa khả năng của con người Dữ liệu được thu thập trong các cơ sở dữ liệu vì thế trở thành dữ liệu “bị chôn vùi” - rất hiếm khi được xem xét Các quyết định thường được thực hiện dựa vào trực giác của người tạo quyết định mà không dựa vào dữ liệu giàu thông tin có sẩn trong cơ sở dữ liệu Đơn giản vì người tạo quyết định không có các công cụ để trích rút các tri thức có giá trị Các kỹ thuật hệ chuyên gia dựa vào thao tác thủ công để chuyển đổi các tri thức chuyên môn thành biểu diễn tri thức trong máy Các thao tác này thiên về tính chủ quan, có nhiều lỗi cộng với chi phí cao, thời gian xử lý rất lớn Tình huống lúc này được mô tả như “ Giàu dữ liệu nhưng nghèo thông tin”.

Lý thuyết tập thô được Pavvlak đề xuất vào đầu những năm 1980 được

xem như một cách tiếp cận mới để phát hiện tri thức và nó “tạo thành một cơ

sở vững chắc cho các ứng dụng khai phá dữ liệu Chúng ta đã chứng kiến sự phát triển rất nhanh trong việc nghiên cứu lý thuyết tập thô và các ứng dụng của chúng trên thế giới Cho đến nay, đã có hàng ngàn bài báo được công bố

về tập thô và các ứng dụng của chúng Lý thuyết tập thô đã được áp dụng thành công trong nhiều lĩnh vực như y học, dược học, ngân hàng, tài chính, phân tích thị trường Các kết quả thú vị cũng đạt được trong nhận dạng giọng nói và âm thanh Tiếp cận tập thô cũng đóng vai trò quan trọng đối với nhiều ứng dụng kỹ thuật như máy chẩn đoán, khoa học vật liệu, Lý thuyết tập thô

có các mối liên hệ với các phương pháp suy luận logic, thống kê, mạng nơron, hình thái toán học Nó bổ sung cho các phương pháp khác và cũng có thể được

sử dụng kết hợp với các cách tiếp cận khác như tập mờ, thuật toán di truyền, các phương pháp thống kê, mạng nơron

Trang 6

Trong lý thuyết tập thô, dữ liệu được biểu diễn thông qua hộ thông tin, hay bảng quyết định; ý tưởng chính trong việc phân tích dữ liệu theo tiếp cận tập thô xuất phát từ những khái niệm về sự xấp xỉ tập, về quan hộ "không phân biệt được" Từ những bảng dữ liệu lớn với dữ liệu dư thừa, không hoàn hảo, dữ liệu liên tục, hay dữ liệu biểu diễn dưới dạng ký hiệu, lý thuyết tập thô cho phép khai phá tri thức từ những loại dữ liệu như vậy nhằm phát hiện ra những quy luật tiềm ẩn từ khối dữ liệu này Tri thức được biểu diễn dưới dạng các luật, mẫu mô tả mối quan hệ bị che dấu trong dữ liệu Trong lý thuyết tập thô, chất lượng của thông tin được đo bằng cách sử dụng khái niệm tập xấp xỉ trên

và xấp xỉ duới Nhằm thu hẹp nhiều nhất chính xác thông tin, ý tưởng “rút gọn” được sử dụng để cho phép loại bỏ những thông tin dư thừa, không cần thiết mà vẫn giữ được ý nghĩa Sau khi tìm được những quy luật chung nhất biểu diễn dữ liệu, người ta có thể tính toán độ mạnh, độ phụ thuộc giữa các thuộc tính trong hệ thông tin

Với những lợi điểm quan trọng trên của lý thuyết tập thô, chúng tôi đã giành thời gian để nghiên cứu và tìm hiểu về lý thuyết này Luận văn đi sâu tìm hiểu

ý tưởng và cở sở toán học của lý thuyết tập thô, từ những hiểu biết về lý thuyết cũng như ứng dụng thực tế của tập thô trong lĩnh vực khai phá dữ liệu Thông qua tìm hiểu và khai thác bộ công cụ ROSETTA (do Aleksander 0 h m và cộng sự thuộc nhóm nghiên cứu tri thức thuộc khoa Khoa học máy tính và thông tin của trường đại học Norwegian, Trondheim, Na-uy cùng nhóm Logic thuộc ĐHTH Warsaw, Ba-lan xây dựng), luận văn cũng đưa ra một số đề xuất ứng dụng thử nghiệm lý thuyết tập thô vào việc hỗ trợ quyết định bài toán xử

lý dữ liệu xuất nhập cảnh và phát hiện đối tượng trong số khách xuất nhập cảnh tại cơ quan công tác

Phương pháp nghiên cứu chủ yếu của luận văn là khảo sát, phân tích nội đung các bài báo khoa học về lý thuyết tập thô và ứng dụng được công bố vào những năm gần đây

Trang 7

Luận văn được trình bày gồm có phần mở đầu, ba chương và phần kết luận Trong luận văn này chúng tôi sử dụng một ví dụ thống nhất trong bài toán xử

lý dữ liệu xuất nhập cảnh từ đầu đến cuối luận văn, đó cũng chính là bài toán chúng tôi thử nghiệm trên hệ thống thực tế tại cơ quan công tác Để đảm bảo tính bảo mật của hệ thống khi đưa các ví dụ cụ thể vào luận văn này chúng tôi

đã thay đổi các thuộc tính và các giá trị cho phù hợp

Trong chương một, chúng tôi trình bày các khái niệm cơ bản về lý thuyết tập thô như: hệ thông tin, bảng quyết định, khái niệm không phân biệt được, tập xấp xỉ trên, tập xấp xỉ dưới, miền biên, giới thiệu luật kết hợp, quá trình khám phá mẫu từ bảng quyết định Nội dung của chương này được tổng hợp từ các tài liệu trong [1, 2, 3, 4, 5, 6, 7, 8, 9, 15, 20, 21]

Trong chương hai, luận văn tập trung giới thiệu về bộ công cụ ROSETTA, các thành phần, đặc trưng của ROSETTA Các vấn đề về ma trận phân biệt được và hàm phân biệt được kết hợp với giải thuật Johnson của hệ thống ROSETTA để tìm ra các tập giá trị rút gọn của một hộ thông tin từ đó trích rút ra các luật quyết định và các vấn đề về tiền xử lý dữ liệu theo tiếp cận tập thô

Nội dung của chương này được tổng hợp từ các tài liệu trong [2, 12, 16, 17, 18,22]

Trong chương ba, từ kết quả nghiên cứu trình bày trong chương một và chương hai, thông qua bộ công cụ ROSETTA, chúng tôi đề xuất việc ứng dụng các phương pháp và thuật toán trong bộ công cụ ROSETTA vào thực tế bài toán xử lý dữ liệu xuất nhập cảnh tại cơ quan công tác đồng thời trong chương này chúng tôi cũng đề xuất việc ứng dụng luật kết hợp theo tiếp cận tập thô vào bài toán thực tế và nhận được một số luật tương đối chính xác và hợp lý

Trang 8

CHƯƠNG 1 TỔNG QUAN VỂ TẬP THÔ VÀ PHÁT HIỆN LUẬT

THEO TIẾP CẬN TẬP THỒ

1.1 TỔNG QUAN VÊ TẬP THÔ

1.1.1 Khái niệm hệ thông tin

Trong rất nhiều lĩnh vực, việc thu thập thông tin là nhu cầu cần thiết Các khái niệm cơ bản của lý thuyết tập thô có thể được phát biểu có hệ thống với tính khái quát cao, nhưng để có hiểu biết sâu sắc và trực quan về lý thuyết, chúng

ta sẽ bắt đầu nghiên cứu từ bảng dữ liệu B ảng dữ liệu còn được gọi là bảng

thông tin, hệ thông tin hay hệ thống thồng tin - giá trị Cột của bảng được gán nhãn bởi các thuộc tính, hàng được gán bởi các đối tượng và mục nhập của bảng là các giá trị thuộc tính Bảng này được gọi là một hệ thông tin (iníormation system) [1, 3, 4, 5]

Định nghĩa 1.1 Hệ thông tin là cặp cA = (A,U) trong đó u là một tập hữu

hạn khác rỗng các đối tượng được gọi là tập vũ trụ (universe) và A là một tập hữu hạn khác rỗng các thuộc tính Với mỗi thuộc tính a e A, có tương ứng tập

Va, gọi là tập giá trị (miên) của a Ký hiệu a: u -> Va với mọi a e A.

Ví du 1.1.1:

Một hệ thông tin gồm 6 đối tượng (Xj, x2, x 3, x4, x 5, x 6) và 4 thuộc tính

(Md_xn, Nghe_nghiep, Qt_hnay, XXety.

Bảng 1.1.1 Hệ thông tinMỗi hàng của bảng có thể được xem như thông tin về một khách xuất nhập cảnh riêng biệt Ví dụ khách x2 được mô tả trong bảng bởi tập thuộc tính - giá

Trang 9

trị sau đây: {(Md_xn, Thuong mai), (Nghe_nghiep, Nhan vien), (Qt_hnay, Malaisia), (XXet, Cam)}.

Chúng ta hãy quan sát mỗi tập con các thuộc tính chia tập tất cả các đối tượng trong bảng thành những lớp con có cùng những đặc trưng, tức là khối các đối tượng mà chúng không thể phân biệt được trong khuôn khổ của dữ liệu sẵn có

tính Md_xn, vì chúng có cùng giá trị thuộc tính Tương tự các khách x2 và x5 không phân biệt theo những thuộc tính Md_xn, Nghe_nghiep, Vì vậy, mỗi tập con các thuộc tính sinh ra một quan hệ tương đương chia tập đối tượng thành các lớp tương đương Mỗi lớp tương đương bao gồm các đối tượng có cùng những đặc trưng tương ứng Những lớp tương đương này sẽ được xem như các tập sơ cấp, chúng là những viên gạch xây dựng cơ bản của lý thuyết tập thô

1.1.2 Khái niệm bảng quyết định

Như ta đã biết, kết quả của việc phân lớp trong rất nhiều ứng dụng là quyết định phân lớp Pawlak z đã phát triển một số khía cạnh liên quan đến tập thô trong bảng quyết định Chúng ta sẽ chỉ ra rằng, bảng quyết định là một dạng đặc biệt của hệ thông tin [1,4, 21]

Định nghĩa 1.2 Bảng (hệ) quyết định là hệ thông tin bất kỳ có dạng c4 = (U, A u {d}), trong đó:

- A là tập các thuộc tính,

- dr \ A = ệ là thuộc tính quyết định Các thuộc tính thuộc A được gọi

là thuộc tính điều kiện hay điều kiện.

Bảng 1.1.1 thể hiện ví dụ về bảng quyết định, trong đó tập các khách có thể coi là tập trạng thái; tập A các thuộc tính {Md_xn, Nghe_nghiep, Qt_hnay,

X X et} Thuộc tính quyết định XXet và giá trị thông tin liên quan đến thuộc

tính đó đều được in nghiêng (trong bảng dưới đây) để dễ phân biệt

Trang 10

Md_xn Nghe_nghiep Qt_hnay XXet

Bảng 1.1.2 Bảng quyết định

N hận xét: Loại trừ việc tách tập thuộc tính làm hai tập thuộc tính điều kiện và

thuộc tính quyết định trong bảng quyết định, tồn tại sự tương ứng giữa các khái niệm trong các định nghĩa về Bảng quyết định và Hệ thông tin và sự tương ứng đó thể hiện trong bảng dưới đây:

Tập đối tượngÁnh xạ biểu diễn thông tin Hàm thông tin

Thuộc tính Miền giá trị

Tập trạng thái Hàm quyết định Luật quyết định Thuộc tính Miền giá trịBảng 1.1.3 Bảng so sánh Hệ thông tin - Bảng quyết định

1.1.3 Tính không phân biệt được trong hệ thông tin

1.1.3.1 Khái niệm tính không phàn biệt được

Một hệ quyết định (bảng quyết định) biểu diễn tất cả tri thức về mô hình (mẫu) Bảng này có thể không lớn, một phần vì nó dư thừa ít nhất theo hai trường hợp Các đối tượng giống nhau hoặc không phân biệt có thể xuất hiện nhiều lần, hoặc một số thuộc tính là dư thừa

Như đã biết, một quan hệ R có cả ba tính chất phản xạ, đối xứng và bắc

cầu được gọi là một quan hệ tương đương Quan hệ tương đương R sẽ phân

Trang 11

Định nghĩa 1.3 Với tập con bất kỳ B cA xác định một quan hộ hai ngôi IND(B) trên u được gọi là quan hệ không phân biệt được và được định nghĩa

như sau:

(jt,y)eIND(B) nếu và chỉ nếu a{x) = a(ỵ) với V aeB , a(x) ký hiệu giá trị

thuộc tính a với mọi phần tử X.

Hiển nhiên Ỉ NDị B) là quan hệ tương đương Họ của tất cả các lớp tương

đương IND(B), tức là phân hoạch xác định bởi B, được ký hiệu U/IND(B), hay đom giản U/B; một lớp tương đương IND(B), tức là khối phân hoạch U/B chứa

X được ký hiệu B(x)

Nếu (x,y)eIND(B) chúng ta nói rằng X và y là B-không phân biệt được Các lớp tương đương của IND(B) hay các khối phân hoạch U/B được xem như tập B-sơ cấp

Trong bảng, các khách x2, x3 và x5 không phân biệt được đối với thuộc tính Md_xn, khách x3 và x6 không phân biệt được đối với thuộc tính Nghe_nghiep, Qt_hnay và khách x2, x5 không phân biệt được đối với thuộc tính Md_xn, Nghe_nghiep và Qt_hnay Do đó, thuộc tính Md_xn sinh ra hai tập sơ cấp {x2, x3, x5} và {Xp x4, x6}, trái lại thuộc tính Md_xn, Nghe_nghiep tạo thành các tập sơ cấp sau: {Xj, x4, x6}, {x2, x5} và {x3}

1.1.3.2 Tập mô tả được và ngôn ngữ mô tả tập

Bảng chữ: các hằng 0,1; các phần tử của tập A tên các thuộc tính và tập

toán logic “hay là” V, “và” A, “phủ định”

Định nghĩa 1.4 Hạng thức (term) được định nghĩa độ quy như sau:

+ 0 và 1 là các hằng (hạng thức hằng) trong L^,

+ Nếu ae A và v e V a là các hạng thức (đơn giản) trong L 4 Ta thường

dùng cách viết (a=v) để chỉ hạng thức (a,v),

Trang 12

+Nếu t, ti, t2 là các hạng thức thì t , (tiv t2 ), (ti A t2) cũng là các hạng

thức

+ Hạng thức chỉ được xác định bằng cách như trên

Định nghĩa 1.5 Ngữ nghĩa ơ(t) của một hạng thức t được cho bằng ánh xạ

+ ơ(0) = 0 và ơ(l) = u

+ ơ((a,v)) = {xeU: a(x)=vỊ

+ ơ ( t ) = u - ơ ( t ) ; ơ(t[vt2) = ơ ( ti ) u ơ (t2 ); ơ(tiAt2) = ơ (ti) n ơ (t2 )

Nếu không xảy ra nhầm lẫn và tuân theo quy tắc ngầm định là phép toán logic

A có độ ưu tiên cao hơn phép toán logic V, thì được phép loại bỏ các dấu

ngoặc đơn ( và ) không cần thiết trong biểu diễn hạng thức

M ệnh đề 1.1 Tồn tại sự tương ứng 1-1 giữa tập E các tập sơ cấp với tập các

hạng thức dạng chuẩn có ngữ nghĩa khác rỗng

Hạng thức dạng t=tj V t2 V V tm (với mọi i: t| là hạng thức sơ cấp và m

là số tự nhiên nào đó) được gọi là hạng thức chuẩn

Thông qua hệ thông tin và ngôn ngữ L chúng ta có thể "mô tả" tập con các đối tượng Pawlak đã đưa ra khái niệm về tập mô tả được trong hệ thông tin như định nghĩa dưới đây

Định nghĩa 1.6 Một tập con X khác rỗng các đối tượng được gọi là tập mô tả

được khi và chỉ khi X là hợp của các tập sơ cấp trong hệ thông tin (Trường hợp đặc biệt là tập rỗng cũng được coi là một tập mô tả được)

Mệnh đề dưới đây là kết quả suy diễn từ mệnh đề 1.1 và định nghĩa 1.6

M ệnh đê 1.2 Tập X là mô tả được khi và chỉ khi tồn tại một hạng thức t trong

L để cho a(t) = X

ý nghĩa của khái niệm "mô tả được" trong mệnh đề 1.2 cho thấy chúng ta có thể dùng một hạng thức trong ngôn ngữ L để "mô tả" tập X

Trang 13

Theo các định nghĩa và mệnh đề trên đây thì không phải tập con nào của u cũng là tập mô tả được, nghĩa là tồn tại các tập con các đối tượng không là tập

mô tả được Khái niệm tập thô được Pawlak đề xuất được dùng để chỉ dẫn và

mở ra một mô hình ứng dụng rất rộng rãi trong lĩnh vực khai phá dữ liệu và khám phá tri thức trong cơ sở dữ liệu

1.1.4 Khái niệm tập thô, tập xấp xỉ

Lý thuyết tập thô, được Pawlak khỏi xướng trong những năm 1980, là một tiếp cận về tri thức không hoàn thiện Đặc biệt, nó đưa ra viễn cảnh mới

về những vấn đề không rõ ràng, không chắc chắn, cơ bản đã được bàn luận trong triết học hiện đại, logic và trí tuệ nhân tạo Gần đây, các nhà nghiên cứu liên quan đến các ngành khoa học nhận thức, học máy, khai phá dữ liệu và các ngành khác đã đóng góp chủ yếu cho lĩnh vực này Những đóng góp quan

trọng nhất, không nghi ngờ, là lý thuyết tập mờ và lý thuyết hiển nhiên Tập

thô bao gồm [1, 5, 8, 20]:

+ u là tập vũ trụ, khác rỗng,

+ R là quan hệ không phân biệt, hoặc quan hệ tương đương,

+ ct |= ( ư ,R), là một cặp có thứ tự, được gọi là không gian xấp xỉ.

+ [x]R là ký hiệu lớp tương đương của quan hệ R chứa đối tượng X, với mỗi phẩn tử X thuộc u ,

+ các tập thành viên trong A - lớp tương đương của quan hệ R,

+ tập mô tả được trong A - mọi phép hợp hữu hạn các tập thành viên trong A

Hom nữa, với bất kỳ không gian xấp xỉ đã cho xác định trên tập vũ trụ u và có một quan hệ tương đương R trên u , u được phân hoạch thành các lớp tương đương được gọi là các tập thành viên có thể dùng để định nghĩa các tập khác trong A Cho X cU , X có thể xác định theo các tập mô tả được trong A như sau:

Xấp xỉ dưới của X trong A là tập RX = {jc e u I [*]* c x }

Trang 14

Xấp xỉ trên của X trong A là tập RX = {* e u I [x]R n X * ộ)

Xấp xỉ dưới chứa tất cả các đối tượng được phân lớp hoàn toàn dựa trên dữ liệu đã được thu thập Xấp xỉ trên chứa tất cả các đối tượng được phân lớp bộ phận, trong đó miền biên là hiệu giữa xấp xỉ dưới và xấp xỉ trên

Có một cách khác để miêu tả các tập xấp xỉ như sau Cho xấp xỉ trên và xấp xỉ

dưới RX và RX , X là tập con của u , R- miền dương của X là POSR(X) = RX,

R - miền phủ định của X là NEGR(X) = U - R X , và R - miền biên của X là

BNr (X) = R X - R X X được gọi là R- mô tả được nếu và chỉ nếu RX = R X Ngược lại, RX * R X thì X là thô đối với R.

Ví du 1 ■ 1.4 về hê thống tin trong bảng 1.1.1:

Khách xuất nhập cảnh x2 bị cấm, trái lại khách x5 thì không và các đối tượng này không thể phân biệt được đối với các thuộc tính Md_xn, Nghe_nghiep và Qt_hnay, vì thế, XXet không thể được phân tích theo các thuộc tính Md_xn, Nghe_nghiep và Qt_hnay Hơn nữa, x2 và x5 là một ví dụ về miền biên, không thể phân lớp trong khuôn khổ của tri thức sẵn có Các khách còn lại như Xj, x3, x6 hiển thị chắc chắn bị cấm, x2, x5 khồng thể loại trừ bị cấm, x4 chắn chắn là không bị cấm Vì vậy, xấp xỉ dưới của tập các khách bị cấm là tập {Xị, x3, x6}

và xấp xỉ trên của tập này là tập {Xj, x2, x3, x5, x6}, trong đó, miền biên là khách x2 và x5

Tương tự, x4 không bị cấm và x2, x5 không loại trừ bị cấm, nên xấp xỉ dưới của khái niệm này là tập {x4}, ngược lại, xấp xỉ trên là tập {x2, x4, x5} và miền biên của khái niệm “không cấm” là tập {x2, x5} giống như trong trường hợp trên

1.1.4.1 Các tính chất của sự xấp xỉ [4, 5, 20]

(1) Ổ I c X c B X ,

(2) B ( 0 ) = B ( 0 ) , B ( U ) = B ( U ) = U,

(3) B ( X v r ) = B ( X ) v B ( r ) ,

Trang 15

Trong đó ký hiệu -X biểu thị cho U-X.

Có thể nhận thấy là tập xấp xỉ trên và xấp xỉ dưới của một tập về hình thức là

tương đổng với phần trong và bao đóng của tập hợp trong tôpô hình học được

sinh ra bởi quan hệ không phân biệt được

1.1.4.2 H àm thành viên thô

Tập thô còn có thể được định nghĩa bằng cách dùng một hàm thành viên thô Hàm thành viên thô của một tập hợp X c U (trong không gian xấp xỉ

R cho trước) được định nghĩa trong [5, 20] như sau:

Trang 16

n(x,x) = 0 nếu [x]ind n X = ệ

Ví du trong bảng 1.1.1

Chúng ta cũng có thể tính giá trị thành viên cho mỗi khách “Cấm” hoặc

“Không” Các giá trị của hàm thành viên trong trường hợp “Cấm” được tính như sau:

có toàn bộ các đối tượng tham gia trong tập thô và các miền xấp xỉ trên này chỉ có một bộ phận các đối tượng tham gia trong tập thô Tương tự, xấp xỉ dưới là miền chắc chắn và vùng biên của miền xấp xỉ trên là miền khả năng

Trang 17

Pavvlak đưa ra hai đặc tính số về sự mơ hồ của một tập thô X: độ chính xác và

độ thô Độ chính xác, tỉ lệ giữa số các thành phần trong xấp xỉ dưới của X,

đầy đủ về tập thô X đã cho [8]:

X* = card(RX) / card(RX), 0 < XR { X) < 1

Độ đo thứ hai, độ thô, biểu diễn độ không đầy đủ của tri thức trong tập thô

Nó được tính bằng hiệu của 1 vói độ chính xác: pR( X) = l-x ^ íX )

Những độ đo này đòi hỏi tri thức của số các thành phần trong mỗi miền xấp xỉ

và là độ đo tốt của tính khống chắc chắn khi phát sinh từ miền biên, tách các lớp tương đương khi chúng phụ thuộc một phần hay toàn bộ đến tập hợp Tuy nhiên, độ chính xác và độ thô không nhất thiết cung cấp thông tin không chắc chắn liên quan tới độ mịn của quan hệ không phân biệt mà chứa toàn bộ trong miền xấp xỉ dưới Ví dụ, cho tập thô X được định nghĩa như sau:

với miền xấp xỉ trên và dưói được xác định:

RX={A11, A12, A 21, A 22}

RX ={A11, A12, A21, A22, B ll, B12, B13, C l, C2}

Các miền xấp xỉ này có kết quả từ một số các phân hoạch Các quan hộ không phân biệt như sau:

A[={[A11, A12, A21, A22], [BI 1, B12, B13], [Cl, C2]}

A2={[A11, A12], [A21, A22], [B ll, B12, B13], [C1,C2]}

A3={[A11], [A12], [A21], [A22], [B ll, B12, B13], [C l, C2]Ị

Cả ba kết quả phân hoạch trong cùng miền xấp xỉ trên và dưới của tập X cho trước và cùng độ chính xác (4/9=0.444) chỉ từ các lớp thuộc miền xấp xỉ dưới

trong A2 và A2 lớn hơn A3 Hơn nữa, độ đo toàn diện hơn của tính không chắc chắn là cần thiết

+ Ví dụ về độ chính xác trong bảng 1.1.1

Trang 18

Tỉ số đô chính xác của khái niêm “cấm” là a{Cam) = -rp-L

|w

-1.1.6 Sự phụ thuộc của thuộc tính

Thay vào việc dùng tập xấp xỉ, chúng ta có thể dùng khái niệm sự phụ thuộc của thuộc tính

Một cách trực giác, một tập các thuộc tính D (được gọi là thuộc tính

quyết định) phụ thuộc hoàn toàn vào tập các thuộc tính c (được gọi là thuộc tính điều kiện), ký hiệu c => D, nếu tất cả các giá trị thuộc tính từ D được xác định duy nhất bởi các giá trị thuộc tính trong c , nếu tồn tại phụ thuộc hàm

giữa các giá trị của D và c Trong bảng 1.1.1, không có sự phụ thuộc hoàn

toàn nhưng nếu giá trị thuộc tính Md_xn đối với khách x5 là “Thuong mai” thay vào “Du lich”, thì sẽ có phụ thuộc hoàn toàn {Qt_hnay}=> {XXet}, vì với mỗi giá trị thuộc tính Qt_hnay sẽ tương ứng với giá trị thuộc tính XXet duy nhất

Sự phụ thuộc có thể được định nghĩa một cách hình thức như sau:

Cho D và c là các tập con của A Ta nói rằng D phụ thuộc hoàn toàn vào c , nếu và chỉ nếu ĨND(C) c: IND(D) Điều này có nghĩa là phân hoạch được sinh

ra bởi c tốt hơn phân hoạch được sinh ra bởi D.

Chúng ta sẽ cần một khái niệm sự phụ thuộc của thuộc tính tổng quát

hơn, được gọi là một sự phụ thuộc riêng của thuộc tính Ví dụ, trong bảng

1.1.1, thuộc tính Qt_hnay xác định duy nhất chỉ một số giá trị thuộc tính XXet Đó là (Qt_hnay, My) kéo theo (XXet, Cam), tương tự, (Qt_hnay, Viet nam) kéo theo (XXet, khong), nhưng (Qt_hnay, Malaysia) không luôn kéo theo (XXet, Cam) Như vậy, sự phụ thuộc riêng có nghĩa là chỉ một số giá trịcủa D được xác định bởi các giá trị của c.

Trang 19

Một cách hình thức, ý tưởng trên có thể được biểu diễn trong công thức sau [1, 5, 20]:

Cho D và c là các tập con của A Ta nói rằng D phụ thuộc vào c với độ

k, 0 <i k ^ 1, ký hiệu c =>t ỡ nếu:

k - r ( C , D) = I/>0^ (0)1 = T x M lDc ar d ^c l -ỵ ^ vói POS ị D y = ỊJc(Jf),

Biểu thức POSc(D) được gọi là miền dương của phân hoạch U/D đối với c , là

tập tất cả các phần tử của u mà có thể được phân lớp duy nhất thành khối của

phân hoạch UID, bởi trung bình của c

phụ thuộc một phần vào c

Hệ số k diễn tả tỉ lệ của các thành phần trong tập vũ trụ, với sự phân loại thành khối của phân hoạch Ư/D, các thuộc tính sử dụng trong c gọi là mức phụ

thuộc.

Tóm lại: D là phụ thuộc hoàn toàn (hay một phần) vào c nếu tất cả (một số)

phần tử của tập vũ trụ có thể được phân loại thành khối duy nhất của phân

hoạch U/D, sử dụng c

1.1.7 Khái quát phụ thuộc hàm dựa trên ỉý thuyết tập thô

ỉ c Dom(Aì)xDom(A2)x xDom(An) Chúng ta sử dụng ký hiệu Dom(A) cho

Dom(A])xDom(A2)x xDom(An) , và các chữ cái X, Y, z để chỉ tập các thuộc tính

Định nghĩa 1.7 Quan hệ tương đương RE(T,X), xác định bởi một tập các

thuộc tính X ^ Ả trên tập T, được định nghĩa:

(í,,t2) E REỢ, X) o /,[x] = t2[x] V*,,r2 € T

Trang 20

Phân hoạch PART(T,X), xác định bởi một tập thuộc tính X c A trên T, được

định nghĩa: PART(T,X)=T/RE(T,X)

Quy ước: ký hiệu RE(X) thay cho RE(T,X) và PART(X) thay cho PART(T,X) Các chữ cái u ,v ,w chỉ các khối thuộc vào một phân hoạch

Định nghĩa 1.8 Không gian dương (positive) xác định bởi một tập các thuộc

tính X c A đối với một tập các thuộc tính y Q Ả trên tập của bộ T, được định

nghĩa:

P O S Ợ , X , Y) = u{U e P A R T ( X ) I u £ V, V e P Á R T Ợ ) }

Ký hiệu POS(X,Y) là ký hiệu ngắn gọn của POS(T,X,Y)

Định nghĩa 1.9 Chúng ta nói rằng tập các thuộc tính Y phụ thuộc hàm với độ

k € [0,1] vào tập thuộc tính X và ký hiệu X —k—> Y , trong đó k được định nghĩa

card(T)

Quy ước: các ký hiệu X —'—> ■ Y bằng x~> Y và X — Y bằng X A Y

Chúng ta coi phụ thuộc này như một mẫu chung của phụ thuộc hàm trong cơ

Bổ đề 1: X —'—>Y là tương đương với phụ thuộc hàm X -> Y

Tính chất:

Đỉnh lý 1.1: POS(X, Y) c POS(XZ, YZ), X , Y , Z ^ A

Từ kết quả này chúng ta dễ dàng đưa ra:

Hệ quả 1: X —^ Y => XZ—^>YZ, k'> k

Định lý 1.2: Nếu POS(X,Y)=T thì POS(Y,Z) cPOS(X,Z), Với X,Y,ZcA.

Từ kết quả này chúng ta dễ dàng đưa ra:

Trang 21

H ệ q u ả 3 : X— ị-^>Y,Y^>Z=>X— —>z, k’>k

Hệ q u ả 4 : X —k-^Y Z = > X — k'ầ.k

Nói tóm lại, phụ thuộc hàm trong cơ sở dữ liệu thông thường đúng với 3 tiên

đề Amstrong như phản xạ, tăng trưởng và bắc cầu Trong lý thuyết tập thô, chỉ

có 2 tiên đề phản xạ và tăng trưởng được ánh xạ theo độ k, k ’ ( k ’>k) là đúng,

tiên đề bắc cầu nói chung là không còn đúng, tuy vậy, trong một số trường hợp đặc biệt (hệ quả 2 hoặc hệ quả 3) có thể nhận được một số kết quả xấp xỉ

Trang 22

1.2 LUẬT THEO TIẾP CẬN TẬP THÔ

Mặc dù phát hiện luật kết hợp có cách đặt bài toán đơn giản, nó đòi hỏi lượng tính toán và truy xuất dữ liệu rất lớn Khi dữ liệu tăng lên cả về số hướng (số các thuộc tính) và kích thước (số giao dịch), một trong những tính chất cần thiết của phát hiện luật kết hợp là khả năng mở rộng được: khả năng

xử lý kho dữ liệu rất lớn Các thuật toán tuần tự không thể cho khả năng này trong các cơ sở dữ liệu lớn Vì vậy ta phải dựa vào tính toán song song và phân tán hiệu suất cao

Tập phổ biến là cơ sở để tạo các luật kết hợp [15] Chúng ta xem xét một ví dụ khai phá luật kết hợp Cho một tập các thuộc tính I = {//, Ỉ2, ,I },

một giao dịch T được định nghĩa là một tập con bất kỳ các thuộc tính trong I Giả sử sơ sở dữ liệu D là một tập n giao dịch, mỗi giao dịch được gán một

định danh giao dịch duy nhất TID Giao dịch T là hỗ trợ một tập X e / nếu nó chứa tất cả các thuộc tính trong X, tức là X c ĩ Độ hỗ trợ của một tập thuộc tính X, ký hiệu ơ (X), là tỷ lệ của tất cả các giao dịch trong D hỗ trợ X.

Định nghĩa 1.10 (L uật kết hợp)

Một luật kết hợp là một biểu thức R: X-> Y, với X và Y là các tập thuộc

Định nghĩa 1.11 (Độ hỗ trợ và độ tin cậy của luật)

Trang 23

Độ hỗ trợ của luật là xác suất của một giao dịch chứa cả X và Y:

ơ ( x u y ) Độ tin cậy của một luật là xác suất có điều kiện để một giao dịch

chứa Y, nếu nó đã chứa X, và được tính bởi:

Độ hổ trợ của một luật là tần suất nó có thể xảy ra, trong khi độ tin cậy

của luật cho biết luật đó đáng tin ra sao Một luật là thích hợp nếu nó có đủ độ

hỗ trợ và độ tin cậy: ơ ( R ) t S nÁn (luật phổ biến) và a (/ỉ)£ (luật mạnh), điều

này chỉ xảy ra nếu cả vế trái và vế phải của luật đó là các tập phổ biến

Phát hiện luật kết hợp liên quan tới việc tìm ra tất cả các luật kết hợp

trong cơ sở dữ liệu có độ hỗ trợ > Smin và có độ tin cậy > cmin (các luật phổ biến

và mạnh) Công việc này bao gồm 2 bước:

1 Tìm tất cả các tập thuộc tính phổ biến có độ hỗ trợ tối thiểu Không

gian tìm kiếm để liệt kê tất cả các tập thuộc tính phổ biến là 2m, với m là số

thuộc tính Tuy nhiên, nếu ta giả sử chiều dài giao dịch là có giới hạn, thì có

thể chỉ ra rằng phát hiện luật kết hợp về cơ bản là tuyến tính với kích thước

của cơ sở dữ liệu

2 Tạo các luật mạnh có độ tin cậy tối thiểu từ các tập thuộc tính phổ

biến Ta tạo và thử độ tin cậy của tất cả các luật có dạng X \Y -► Y, với Y c X

và X phổ biến Vì ta phải xét mỗi tập con của X như là vế phải của luật, độ

phức tạp của bước tạo luật là OCr.21), với r là số tập thuộc tính phổ biến, / là

kích thước của tập phổ biến lớn nhất

Các tính chất của luật kết hợp

- Không có phép hợp các luật: Nếu X ->Z và Y -*Z , không có nghĩa là là

X u Y ->z Xét trường hợp X n Y = 0 , một giao dịch trong D hỗ trợ z khi và

chỉ khi nó hỗ trợ hoặc X, hoặc Y Độ hỗ trợ của X u Y là bằng 0, và do đó độ

tin cậy của X u Y -> z là bằng 0%.

Trang 24

- Phép tách các luật: Nếu X u Y -> Z thích hợp, các luật X ->Z và

Y -»Z có thể không thích hợp Ví dụ trong trường hợp z chỉ xuất hiện khi cả

X và Y xuất hiện, tức là ơ (X u y) = ơ(Z) , nếu X và Y có độ hỗ trợ khá lớn so

với X u Y thì hai luật tạo thành sẽ không có đủ độ tin cậy Trường hợp ngược

lại: X - > Y u Z = > X - > Y / \ X - > y A X - > Z l ạ i đúng, bởi ơ(XY) è ơ(XYZ) và

ơ(XZ) > ơ(XYZ), do đó độ hỗ trợ và độ tin cậy của luật nhỏ hom đều tăng so

với luật ban đầu

X->Z Ví dụ trong trường hợp T(X) c ĩ ( r ) c ĩ ( Z ) , với T(X) là tập các giao dịch hỗ trợ X, và độ tin cậy tối thiểu là cmin Giả sử

a(X ->Y) = a ự -> Z) = cnm (vì cmin < 1), như thế X ->Z không có đủ độ tin cậy

Mỗi hàng trong bảng biểu diễn các món hàng được mua bởi một khách

hàng Ví dụ, khách hàng 1 đã mua bánh mì và sữa, trong khi khách hàng 4 đã mua sữa và mứt Một luật kết hợp có thể được trích ra từ bảng trên là: một khách hàng mà mua bánh mì thì cũng mua sữa Ta biểu diễn như sau:

(Bánh mì = yes) =>(Miỉk = yes)

Từ đó tất cả các khách hàng đã mua bánh mì thì cũng mua sữa, độ tin

cậy của luật này là 1 Bây giờ xem xét luật

(Bánh mì = yes)A(Sữa = yes)=>(Mú7 = yes)

Trang 25

Một khách đã mua bánh mì và sữa thì cũng mua mứt Từ đó ba khách hàng đã mua cả bánh mì và sữa và hai người trong số họ đã mua mứt, độ tin

cậy của luật là 2/3

Định nghĩa 1.12 (Tập p h ổ biến)

Tập X c l được gọi là tập phổ biến nếu có ơ(X) > smn với Jmin là độ hỗ trợ

tối thiểu cho trước

Một tập X có lực lượng k=ỊXỊ được gọi là k-itemset Có ba tính chất

quan trọng của các tập phổ biến, đó là:

- Nếu A c B với A, B là các tập thuộc tính thì ơ(A) > ơ(B) , bởi tất cả các

giao dịch trong D hỗ trợ B thì đều phải hỗ trợ A

- Tập cha của một tập khống phổ biến là tập không phổ biến: Nếu tập

thuộc tính A không đủ độ hỗ trợ, tức là ơ(A) <smin thì mọi tập B chứa A cũng

sẽ không phổ biến, bởi vì ơ(B) < ơ(A) ắ snm.

- Tập con của tập phổ biến là tập phổ biến: Nếu tập thuộc tính B là phổ

biến trong D, tức là ơ(A) > ơ(B) > smtí.

Mọi tập phổ biến là cực đại nếu nó khồng là tập con của bất kỳ tập phổ biến nào khác

Giởi thiêu th u â t toán A priori T41- do Rakesh Agrawal và cộng sự đềxuất

Đây là một trong các thuật toán phát hiện luật kết hợp tốt nhất Nó cũng

là nền tảng cho hầu hết các thuật toán song song Apriori sử dụng cách tìm kiếm đầy đủ từ dưới lên trong dữ liệu trình bày theo chiều ngang và liệt kê tất

cả các itemset phổ biến Là một thuật toán lặp, Apriori đếm các itemset có chiều dài cụ thể trong cơ sở dữ liệu Quá trình bắt đầu với việc duyệt tất cả các giao địch trong cơ sở dữ liệu và tính các itemset phổ biến Tiếp theo, tạo một tập các ứng viên 2-itemset phổ biến từ các itemset phổ biến Một lần duyệt cơ

sở dữ liệu nữa để tính độ hỗ trợ của chúng Các 2-itemset phổ biến được duy

Trang 26

trì cho lần sau Quá trình lặp lại tới khi liệt kê hết các itemset phổ biến Thuật

toán có 3 bước chính:

- Tạo các ứng viên có độ dài k từ các (k-l)-item set phổ biến bằng cách

tự kết hợp trên Fk.j

- Tỉa bớt các ứng viên có ít nhất một tập con không phổ biến

- Duyệt tất cả các giao dịch để có độ hỗ trợ của các ứng viên Apriori

lưu các ứng viên trong một cây băm (hash tree) để đếm nhanh độ hỗ trợ

Trong một cây băm, các itemset được lưu tại các lá, các nút trong chứa các

bảng băm (trộn bởi các mục) để định hướng tìm kiếm các ứng viên

1.2.2 Mẫu trong hệ thống thông tin

1.2.2.1 Khái niệm mẫu

Giả sử dl = (U, A) là một hộ thông tin Một mẫu T của c t là công thức định đề

bất kỳ A(a, = V,) với a, G A, ứ, * < 2 j với i ■*- j, V E va Với A= | a ;, ,flraỊ có thể

miêu tả bất kỳ mẫu như sau [7]:

T = { a ix = v i] ) a a ( a ik =V ị k )

được trình bày dưới dạng dãy [x , xm] mà tại vị trí p của dãy là vp nếu p = i,

ik còn tai vi trí còn lai là '*' (Tức là, X = ị Vp p(E ’ ’** ^ )

Một đối tượng X được gọi là thoả mãn a = V (gọi a - v là từ nhận dạng hay từ)

nếu a(x) = V (đối tượng X được gọi là thoả mãn mầu T nếu nó thoả mãn tất cả

các từ trong mẫu).

Với mẫu T, ta định nghĩa ỉength(T) - biểu thị số các từ khác nhau a = V xuất

tượng trong tập tổng thể u thoả mãn T Nếu T gồm có một từ a = V (chỉ cần

viết n f(a,v) hoặc n(a,v) thay vì fitnessí4{T)) Độ đo chất lượng của mẫu T được

xác định bằng tích của độ phù hợp với số các từ khác nhau trong mẫu:

Trang 27

fitn e s s J J ) X length(T) Nếu s là một số nguyên thì Templatedís) biểu diễn tập

tất cả các mẫu của c/t với độ phù hợp là không nhỏ hơn s.

Ví du 1.2.2.1:

Giả sửc4 = (U,A u \d)) là một bảng quyết định (Bảng 4)

T = (Nơi sinh = CHINA) A (Tô« giáo = cao dai) A (Đến tới = 101) là một mẫu của c4 (T có thể biểu diển là: [CHINA,*,cao dai,*, 101]) và các đối

tượng X ị và x 4 là phù hợp với T

u

đinh

Bảng 1.2.2.1 Ví dụ về mẫu với ỷitness = 2 và length = 3

1.2.2.2 H ai bài toán mẫu cơ bản

Các tác giả Sinh Nguyen Hoa, Andrzej Skovvron, Piotr Synak [7], đã đề

xuất hai bài toán tìm kiếm mẫu Bài toán thứ nhất là tìm kiếm mẫu với độ phù

hợp cực đại - maximalỷitness (độ dài mẫu cực đại - maximal length) với điều

kiện length ịỷitness) nhỏ hơn hoặc bằng số L cho trước Bài toán thứ hai là tìm

hợp và độ dài các từ khác nhau trong mẫu),

a) Bài toán tìm mẫu vói độ ph ù hợp cực đại

Mục tiêu chính của phần này là tập trung vào việc xem xét độ phức tạp

tính toán của thuật toán tìm kiếm mẫu với độ phù hợp cực đại Mẫu là L-tối

ưu (L-optimaỉ) nếu số các đối tượng phù hợp với nó là cực đại trong một tập

các mẫu có độ dài mẫu bằng số L cho trước Hai vấn đề đặt ra là bài toán

Trang 28

quyết định mẫu có độ phức tạp tính toán NP đầy đủ và bài toán tối ưu là NP khó.

- Bài toán quyết định mẫu được định nghĩa như sau:

Bài toán mẫu phù hợp (Template Fitness Problem - TFP)

Giả thiết: Cho trước hệ thông tin CÂ - (U, A) và hai số nguyên dương F, L

Câu hỏi: Có hay không mẫu T với độ dài mẫu bằng L và độ phù hợp không nhỏ thua F?

- Bài toán tối ưu hoá tương ứng được định nghĩa như sau:

Bài toán mẫu phù hợp tối ưu (Optimal Template Fitness Problem - OTFP)

G iả thiết: Cho trước hệ thông tin dl - (U, A) và số nguyên dương L

Câu hỏi: Tìm một mẫu T với độ dài mẫu là L và độ phù hợp cực đại

Các tác giả [7] xem xét một số ví dụ về bài toán NP đầy đủ điển hình để qua

đó biểu diễn tính chất khó của bài toán mẫu với độ phù hợp (TFP)

• Ví du 1.2.2.2.1: Balanced Complete Bipartite Subgraph (BCBS)

Giả thiết: Cho đổ thị G = (V, u V2, E) được tách đôi đầy đủ, và sô nguyên dương K < min( I V; I , I V2 1)

Câu hỏi: Liệu có tồn tại hai tập con u t <z Vj, U2 <= V2 thoả mãn I U] I = I u 2 1

= K và Ịm,v} G E vói m ọi u G Uj, V E U 2?

BCBS là bài toán NP đầy đủ [20], các tác giả xem xét bài toán tiến của BCBS

là CBS (Complete Bipartite Subgraph) Bài toán BCBS có độ phức tạp đa

thức liên quan đến bài toán CBS, do đó tính NP-đầy đủ trong của bài toán CBS cũng chính là tính NP-đầy đủ của bài toán BCBS

• Ví du 1.2.2.2.2: Complete Bipartite Subgraph (CBS)

G iả thiết: Cho đổ thị G = (V! u v 2, E) được tách đôi đầy đủ, và hai số nguyên dương Kj < I Vj I , K2 ^ I V2 1

Trang 29

C âu hỏi: Liệu có tồn tại hai tập con Uị c= Vị, U2 c V2 thoả mãn I Uj I = Kị,

I u 21 > K2 và {ỉ/,v} e E vói mọi u e Up V e U2?

- Một s ố định lý và kết luận rút ra từ hai bài toán trên ịKết quả đã được

chứng minh trong [7]j:

• Định lý 1.4: CBS là bài toán NP đầy đủ

• Định lý 1.5: TFP và CBS là tương đương theo độ phức tạp thời gian đa

thức

• Định lý 1.6: Nếu bài toán p NP thì OTFP là bài toán NP khó

• Kết luận 1.2: Cho trước một bảng c i - (U,A) và s ố nguyên dương F, L

Bài toán quyết định có tồn tại hay không một mẫu với độ phù hợp F và độ dài mẫu ít nhất L là bài toán NP đầy đủ.

• K ết luận 1.3: Cho trước một bảng <?í - (Ư,A) và sô' nguyên dương F Bài toán tối ưu trong tìm kiếm mẫu T với độ phù hợp F và cực đại độ dài mẫu

là bài toán NP khó.

b) Bài toán tìm m ẫu với độ chất lượng cực đại

Chất lượng của mẫu có thể được xác định bằng tích giữa độ phù hợp với độ dài của mẫu hay có thể bằng tổng của độ phù hợp và độ dài của mẫu Trong phần này, ta tập trung xem xét độ phức tạp tính toán của bài toán mẫu trong

ngữ cảnh mới; mẫu là tối ưu nếu nó có độ chất lượng cực đại.

- Bài toán tìm mẫu với chất lượng cực đại TQP (Tempỉate Quality Problem)

được phát biểu như bài toán quyết định sau:

Bài toán chất lượng mầu (Template Quality Problem)

G iả thiết: Cho một hệ thông tin CÂ = (U, A), với số nguyên K

Câu hỏi: Có tồn tại hay không một mẫu T trong dl với độ đo chất lượng cao

hơn K?

Trang 30

Giả sử bài toán TQP với độ đo chất lượng được xác định như sau (theo hàm cộng):

quaỉityựĩ) = fitness(T) + lengthỢ)

thì có thể được giải quyết trong thời gian đa thức Tuy nhiên nếu chúng ta giả

sử bài toán TQP với độ đo chất lượng được xác định như sau (theo hàm nhân):

quaỉity(T ) = fitness(T) X ỉength(T)

thì bài toán có độ phức tạp tính toán giống như bài toán NP đầy đủ, hiện vẫn là

mở chưa được giải quyết

- Tối ưu hoá bài toán tìm mẫu với chất lượng cực đại OTQP (Optimaỉ

Template Quality Problem) được phát biểu như bài toán quyết định sau:

Bài toán chất lượng mẫu tối ưu

Giả thiết: Thông tin hộ thống A = (U,A)

cực đại)

Trong [7] đưa ra phát biểu tương đương của bài toán OTQP hữu ích trong việc chứng minh tính chất NP-khó của nó

Bài toán gán nhãn bản đồ (Labelled Subgraph Problem - LSP)

Input: Gán nhãn một cách không trực tiếp cho đồ thị G = (V,E,e) với hàm tô màu e: E -> 2X có các thuộc tính sau đây

Mệnh đề 1.4: Bài toán gán nhãn bản đồ (LSP) là tương đương đa thức với bài

toán OTQP (đã được chứng minh trong [7])

Trang 31

I.2.2.3 Các phương pháp sinh mẫu

Phần này tập trung xem xét một số phương pháp đánh giá kinh nghiêm để sinh mẫu gần tối ưu từ dữ liệu sử dụng thuộc tính quyết định trong bảng quyết định [7]

a) Tìm kiếm mẩu sử dụng trọng số

- Thuật toán trọng số đối tượng

Ý tưởng của phương pháp này dựa trên quan sát rằng bất kỳ tập đối tượng U| c u được sinh ra bởi tập T(Uj) của các mẫu phù hợp với tất cả các đối

mẫu thuộc T(Uj) Ta định nghĩa độ đo chất ỉượng cục bộ của mẫu Tự là tích giữa các yếu tố trong tập Uj với số độ dài mẫu 71/, (card{Uị) X lengthiỤ/)).

Tu x được gọi là độ đo chất lượng cục bộ tối ưu (ỉocal optimal) nếu độ đo chất

lượng cục bộ của nó là cực đại Mục tiêu của phương pháp này là tìm một tập

hợp con Uj mà mẫu Tụ được sinh ra bởi U] là tối ưu hoá cục bộ Tập đối

tượng Uj được sinh ra bởi một mẫu có độ chất lượng cao nếu các đối tượng trong tập U] là tương tự nhau Để thoả mãn mục đích này, ta tính toán trên mọi đối tượng trong hệ thông tin sử dụng thuật toán “tham lam” để ước tính đối tượng trong tập ƯỊ Bắt đầu từ tập rỗng Uj = 0 , với mỗi đối tượng ta chọn ngẫu nhiên một trọng số và gắn vào tập Uj Với một tập hợp mới Uj mẫu

Tụ và độ đo chất lượng cục bộ của nó được tính toán Nếu độ đo chất lượng

của Tụ là tốt hơn thì thuật toán tiếp tục, ngược lại sự quyết định phụ thuộc

vào giá trị của biến điều khiển Thuật toán sử dụng một kỹ thuật gọi là

“mutation - sự hoán chuyển”, một vài đối tượng được chọn sẽ bị xoá tại mỗi bước Điều này giải quyết vấn đề giá trị lặp vô hạn Dưới đây đưa ra một vài

độ đo tương tự hữu ích trong mô tả trọng số đối tượng

+ Trọng sô đối tượng phản ánh sự tương tự của các đối tượng

Trang 32

Đặt dL - (Ư,A) v à x e ư , cho bất kỳ y e u nào ta có:

g^y = I {a e A : a(x) = a(y)} I

+ Trọng sô đối tượng xuất phát từ giá trị thuộc tính thường xuất hiện

Đặt <A - (U,A) và X e Ư, cho bất kỳ a e A nào ta định nghĩa:

aeA

Các thử nghiệm cho thấy những trọng số được kể trên hoàn toàn thoả mãn nhóm các đối tượng trong một mẫu trong khi nhiều giá trị “naive” của trọng

số làm giảm bớt chất lượng của kết quả

- Thuật toán trọng s ố thuộc tính

Ý tưởng của phương pháp này rất giống với phương pháp “trọng số đối tượng”, tuy nhiên các trọng số thích hợp sẽ được gắn kèm với tất cả các thuộc tính trong bảng quyết định Với các thuộc tính mỗi giá trị của nó cũng chứa đựng một trọng số Trong quá trình tìm kiếm mầu, đầu tiên thuộc tính và giá trị của nó được chọn ngẫu nhiên đối với từng trọng số Mỗi lần một thuộc tính

mới và một giá trị thuộc tính được chọn, người ta tính toán độ phù hợp

(fitness) của mẫu tìm được Nếu tìm thấy một mẫu mới tốt hơn thì thuật toán tiếp tục, ngược lại thì phụ thuộc vào biến điều khiển Thuật toán sử dụng kỹ

Trang 33

thuật gọi là “sự hoán chuyển” Nó cho phép ta tránh được giá trị lặp vô hạn (local extrema).

Algorithm (Attribute Weight)

1 Initialize T = [*,*, *];

2 i = \ \ k = 1 \fitness = 0;

3 while điều kiện không thoả mãn

(b) If (r < wA(a,) and T[ỉ'] = *) then

ĩ > â ( v? ) - r -

m = vf';

if n ew jitn ess <fitness \fit_ c o e jf then

m = *;

else

ỷitness - new ỷitness; Store(T);

end if;

(c) If k = mutation coeff then

Đổi giá trị chọn ngẫu nhiên cho mẫu;

Trang 34

Đặt oí = (U,A), m = I u I , n = I A I, có thể sắp xếp giá trị thuộc tính của a e

giá trị thứ i của thuộc tính a bởi thứ tự sắp xếp Giá trị v f thường xuất hiện

-wc4(a) e (0,1] cho bất kỳ giá trị u của thuộc tính a, chúng ta định nghĩa trọng

số của u như sau:

khác nhân tố quan trọng nhất có thể là chất lượng của mẫu mà không lưu tâm

đến độ dài của mẫu Liên hệ với điều này, mẫu ban đầu có thể được đặt bởi một giá trị bất kỳ Fitness_coeff và Mutation_coeff phải được chọn qua thực nghiệm Chúng cho phép ta thu được những kiểu mẫu khác nhau với số thuộc tính cố định thay đổi

b) S ử dụng phương pháp M ax (cực đại hoá) đ ể lấy mẫu

Trang 35

Algorithm (Max I)

Input: 1 hệ thống thông tin A = (U,A) với n= I u I , m = IAI và một số nguyên dương s.

O utput: Một mẫu T lấy ra từ Template^(s) vói số các từ khác

nhau nửa cực đại

b e A \ A ự )

thuộc tính xuất hiện trong T;

(c) u = tập các đối tượng từ Ư phù hợp mẫu a = va\

(d) A = A \{flị;T = T u { a = va };

endwhile End _

Mục đích của phương pháp này là tìm kiếm mẫu dài nhất có thể với hộ

số phù họp không nhỏ hơn số s Các tác giả đã đề xuất ra một phương pháp tìm kiếm kinh nghiệm gọi là “M ax M e th o đ \ thuật toán bắt đầu với mẫu rỗng

tức là mẫu với độ dài=0 Mẫu mở rộng bằng cách thêm vào liên tục các từ của

a = va cho đến khi hệ số phù hợp của mẫu không nhỏ hơn giá trị cố định s

Nếu mẫu T hiện tại gồm có ỉ-1 biến và sau đó từ thứ i được chọn như sau: Tun trong các thuộc tính không xuất hiện trong mẫu T với một thuộc tính a và

a phù hợp với giá trị va giống như độ phù hợp của mẫu mới T u (a=va) là cực

đại Việc xây dựng mẫu có thể được thực hiện một cách hiệu quả như sau:

Đặt T là mẫu với i- 1 biến và dị.Ị = (U,.y A,.]) với U,.] là tập các đối tượng thoả

mãn trong T, AM bao gồm tất cả các thuộc tính từ A không xuất hiện trong

Trang 36

mẫu Thuật toán sắp xếp các đối tượng trong UM theo giá trị của thuộc tính.

Giữa các giá trị đã được sắp xếp của tất cả các thuộc tính nó chọn thuộc tính a

và giá tri V với hê s ố phù hơp cưc đai fitnesstìí (a = v ).

-1

Thuật toán cho phép xây dựng mẫu lớn một cách hiệu quả nhưng nó chỉ sinh

ra được một mẫu Các tác giả đã giới thiệu một thuật toán cải tiến của thuật toán Maxl cho phép tìm được nhiều hơn một mẫu tốt Thay vì chọn từ với sự phù hợp lớn nhất chúng ta sẽ quan tâm đến tất cả các từ được tạo trong bước2.a và chọn ngẫu nhiên một từ trong số đó theo xác suất chắc chắn Sau đó từ

được chọn a = va sẽ được thêm vào mẫu với xác suất:

Trang 37

Cả hai thuật tốn Maxl và MaxII đều cĩ thời gian thực hiện là 0 (m 2nlogn)

trong trường hợp xấu nhất

c) Tìm kiếm m ẫu sử dụng thuật tốn di truyền.

Thuật tốn di truyền là một lớp các siêu tìm kiếm theo kinh nghiệm dựa trên giải thuật di truyền (Thuyết tiến hố) Thuật tốn dựa trên một chuỗi các bước đơn giản sau đây:

Bước 1: Lấy một đối tượng x0 như là một đối tượng cơ sở

Bước 2: Đặt õ là phép hốn vị của các thuộc tính.

Bước 3: Coi như a là tập các mẫu của form: T! = («3] = v^); T2 = (aÕỊ = vổl) A

(ứõ 2 = Või), V, biểu thị 1 giá trị ỉ-th thuộc tính trên x0

Bước 4: Chọn mẫu tốt nhất giữa Tị, Tn Đây là kết quả được sinh ra bởi

phép hốn vị õ.

Đây là phương pháp đánh giá kinh nghiệm đơn giản để sinh ra các mẫu tốt

Tuy nhiên, kết quả phụ thuộc vào đối tượng cơ sở x0 và phép hốn vị d Đối

tượng x0 được chọn ngẫu nhiên, ngược lại phép hốn vị tối ưu được sinh ra bởi giải thuật di truyền tiến hố (order-based) Một hàm phù hợp của phép hốn vị

õ tương ứng với giá trị của mẫu tốt nhất được sinh ra bởi ổ.

d) Các mẫu suy rộng

Với ý tưởng một mẫu cĩ thể được mở rộng gọi là các mẫu suy rộng.

G T = { a it = vi| V VO,, =v,n)A A( a j t = ỵ /] V V«A = V j m )

Sự khác biệt chính ở đây là thay vì một giá trị chúng ta cĩ nhiều giá trị thế của

vm nếu giá trị của a trên X thuộc vào tập {v;, ,vm} M ột đối tượng X thoả mãn

mẫu suy rộng GT nếu nĩ thoả mãn tất cả các từ trong GT Trường hợp mở rộng của ý tưởng này cĩ thể thu được bởi mẫu với các từ khơng riêng rẽ

Trang 38

Đối với mẫu suy rộng GT có thể thay đổi độ dài của một từ trong GT bởi công thức sau:

Cho bất kỳ a G A, s ố k bằng số các từ khác nhau iẬength) của từ suy rộng a

Độ chất lượng của từ suy rộng a là tích số giữa lịa) và số các đối tượng thoả mãn Sử dụng chức năng / có thể dễ dàng sửa chữa sự phù hợp ựitness) và số các từ khác nhau (length) của mẫu suy rộng Trong đó fitnessx (GT) của GT

được hiểu là số các đối tượng thoả mãn GT và số các từ khác nhau của GT:

Một trong những chiến lược đơn giản nhất là cải tiến thuật toán Max Cho bất

kỳ thuộc tính a e A thay vì tìm kiếm một giá trị phù hợp với số lượng tối đa các đối tượng được rút ra trong tập giá trị Sa thì độ chất lượng của từ mở rộng được định nghĩa bởi a và giá trị từ Sa là cực đại Tập Sa được chọn từ lớp con

tuần tự từ danh sách được sắp xếp tất cả các giá trị Va được định nghĩa trên a

Tập con tuần tự Sa là tối ưu nếu độ đo chất lượng của từ V{ứ = V : V E Sa } là cực đại Bất đầu từ mẫu rỗng GT = 0 , giản đồ mô tả quá trình sinh GT như sau:

Bước 1: Cho bất kỳ thuộc tính a E A tính toán tối ưu tập Sa

Bước 2: Chọn 1 thuộc tính a và tương ứng với tập giá trị Sa như vậy độ đo chất

lượng của từ /7 = V {ữ = V : V E Sa } là cực đại.

Bước 3: Thêm từ p vào GT; Loại bỏ a trong A Tính toán độ đo chất lượng của

Bước 4: Lặp lại bước 1 đến 3 cho đến khi A rỗng.

nếu a xuất hiện trong mẫu

trong các trường hợp khác

length(GT) = ỵ i ( a )

Trang 39

Bước 5: Trong các mẫu được sinh ra chọn một mẫu tốt nhất chính là mẫu có

độ đo chất lượng cực đại

1.2.3 Mối liên hệ giữa mẫu và luật theo tiếp cận tập thô

Trong quá trình khám phá tri thức, một trong những mục tiêu chính của việc phân tích dữ liệu theo cách tiếp cận tập thô là tìm ra những mảu hay luật

từ dữ liệu (các dữ liệu này được biểu diễn dưới dạng hệ thông tin hay bảng

quyết định) Bảng quyết định C7Í = (U, A u {tí?}) là một kiểu đặc biệt của hệ

thông tin C7í = (U,A) Như vậy, luật quyết định là một kiểu đặc biệt của mẫu

[2, 6, 7] Một tập các mẫu giống như một tập luật trong trường hợp tập luật đó không chứa kết quả Mẫu là kết quả của việc tính toán trên tập rút gọn khi người ta không quan tâm đến thuộc tính quyết định Luật quyết định phản ánh một quan hệ, hay một xác xuất có thể giữa tập thuộc tính điều kiện và tập thuộc tính quyết định

Với mẫu người ta sử đụng các độ đo là độ phù hợp fitn essJ X ) biểu thị số các đối tượng trong tập tổng thể phù hợp với mẫu T và độ chất lượng quanỉity /T )

=fitn e s s J J) X lengthựT) (tích của độ phù hợp với số các từ khác nhau trong

mẫu) biểu thị chất lượng của mẫu tìm được Còn với luật, người ta sử dụng độ mạnh để biểu thị số các đối tượng thoả mãn bộ sinh luật và độ nhiễu để biểu thị độ mạnh của luật khi xử lý loại dữ liệu có nhiễu

1.4 KẾT LUẬN CHƯƠNG 1:

Phát hiện luật theo tiếp cận lý thuyết tập thô do Z.Pawlak đề xuất đầu tiên vào những năm 80 của thập kỷ XX Đây là một trong những phương pháp

đang được nhiều nhà khoa học nghiên cứu và sử dụng trong quá trình khám

phá tri thức từ dữ liệu Các khái niệm nền tảng trong lý thuyết tập thô là hệ thông tin, bảng quyết định, quan hệ không phân biệt được, tập xấp xỉ và sự phụ thuộc thô Trong chương này chúng tôi trình bày luật kết hợp, mẫu từ dữ liệu theo tiếp cận tập thô, trong đó đưa ra quá trình khám phá mẫu từ bảng quyết định Từ đó đưa ra mỗi liên hệ giữa mẫu và luật trong lý thuyết tập thô

Trang 40

CHƯƠNG 2 TIỂN XỬ LÝ D ữ LIỆU VÀ TÌM TẬP RÚT GỌN THEO TIẼP CẬN

TẬP THÔ VỚI BỘ CÔNG c ụ ROSETTA

2.1 BỘ CÔNG CỤ ROSETTA

2.1.1 Giới thiệu bộ công cụ [16]

Bộ công cụ ROSETTA do Aleksander 0 h m và cộng sựthuộc nhóm nghiên cứu tri thức thuộc khoa Khoa học máy tính và thông tin của trường đại học Norwegian, Trondheim, Na-uy cùng nhóm Logic thuộc ĐHTH Warsaw, Ba-lan xây dựng Đây là một bộ phần mềm gồm có các hàm và thư viện được cài đặt trên ngôn ngữ c*+ hỗ trợ việc phân tích dữ liệu và khai phá tri thức theo tiếp cận tập thô

Các lĩnh vực liên quan với mô hình kinh nghiệm cần bao gói nội dung ứng dụng cao Điều quan trọng đưa ra một tập các cồng cụ sẵn có đảm bảo sự thử nghiệm mềm dẻo Hơn nữa, việc xây dựng mô hình hoàn hảo và công cụ thử nghiệm phải cho phép lựa chọn từ nhiều thuật toán hữu ích Điều đó là cần thiết để đặt các công cụ trong thử nghiệm mà ngay lập tức các kết quả có thể được quan sát và phân tích, và việc quyết định đối với quá trình xử lý được thực hiện Về cơ bản, đòi hỏi một môi trường tương tác quản lý và xử lý dữ liệu

Hệ phần mềm ROSETTA một bộ công cụ cho phép nhận dạng mẫu khai phá dữ liệu trong khuôn khổ lý thuyết tập thô ROSETTA bao gồm một nhân tính toán và một giao diện người dùng đồ hoạ đầu cuối Giao diện người dùng đổ hoạ ROSETTA phản ánh nội dung của nhân và chạy trên hệ điều hành Window NT hoặc Window 95 của PC

ROSETTA đảm bảo tất cả các bước trong quá trình khai phá tri thức; từ tiền xử lý (duyệt ban đầu, lựa chọn dữ liệu mục tiêu và rời rạc hoá), qua các

Định dạng
Số trang	91
Dung lượng	45,49 MB