Nghiên cứu lý thuyết, ứng dụng hệ thống thông tin và những vấn đề liên quan

QUÁCH THỊ QUỲNH TRANG NGHIÊN CỨU LÝ THUYẾT, ỨNG DỤNG HỆ THỐNG THÔNG TIN VÀ NHỮNG VẤN ĐỀ LIÊN QUAN CHUYÊN NGÀNH: TRUYỀN DỮ LIỆU VÀ MẠNG MÁY TÍNH MÃ SỐ: 60.48.15 Người hướng dẫn khoa họ

Trang 1

QUÁCH THỊ QUỲNH TRANG

NGHIÊN CỨU LÝ THUYẾT, ỨNG DỤNG HỆ THỐNG THÔNG TIN VÀ NHỮNG VẤN ĐỀ LIÊN QUAN

CHUYÊN NGÀNH: TRUYỀN DỮ LIỆU VÀ MẠNG MÁY TÍNH

MÃ SỐ: 60.48.15

Người hướng dẫn khoa học: PGS.TS NGUYỄN BÁ TƯỜNG

LUẬN VĂN THẠC SĨ KỸ THUẬT

HÀ NỘI - 2010

Trang 2

Nghiên cứu lý thuyết và ứng dụng hệ thống thông tin và những vấn đề liên quan

PHẦN MỞ ĐẦU

1 Cơ sở khoa học và thực tiễn của đề tài

Hệ thống thông tin gọi tắt là hệ tin (system information) lần đầu tiên được đề xuất bởi Z Pawlak và nhanh chóng được xem như một công cụ hữu hiệu xử lý thông tin dạng bảng Hệ tin là trường hợp tổng quát của hệ quyết định, hệ chuyên gia, hệ khai thác dữ liệu Phương pháp trình bày bằng hệ tin đóng vai trò hết sức quan trọng trong lĩnh vực trí tuệ nhân tạo và các ngành khoa học khác liên quan đến nhận thức, đặc biệt là lĩnh vực máy học, thu nhận tri thức, phân tích quyết định, phát hiện và khám phá tri thức từ cơ sở dữ liệu, các hệ chuyên gia, các hệ hỗ trợ quyết định, lập luận dựa trên các bảng có các thuộc tính

Hệ tin là một công cụ đắc lực và không thể thiếu của lý thuyết tập thô, tập mờ

Hệ tin là trường hợp tổng quát của mô hình quan hệ Tất các các tính chất, ứng dụng của quan hệ đều có thể mở rộng và áp dụng trong hệ tin Khi diễn đạt, trình bày các thuật toan Quinlan, K_Mean, bằng hệ tin tạo một phương pháp và diễn đạt rõ ràng, dễ hiểu và mạch lạc hơn các phương pháp cũ

2 Mục đích, đối tượng và phạm vi nghiên cứu của đề tài

Nghiên cứu Hệ thống thông tin và các vấn đề liên quan đến hệ thống thông tin gọi tắt là Hệ Tin là cấp bách và cần thiết vì hệ tin xuất hiện hầu khắp trong các lĩnh vực của khoa học máy tính Tuy nhiên trong luận văn này em chỉ muốn nêu những vấn đề cơ bản nhất gắn chặt với hệ tin đó là những bài toán gắn với phân loại theo quan điểm giống nhau trên các thuộc tính, quan hệ bất khả phân biệt IND(X) với X

là tập thuộc tính

Trang 3

Chương I LÝ THUYẾT TẬP HỢP 1.1 Giới thiệu tập hợp

Trong toán học, tập hợp có thể hiểu tổng quát là một sự tụ tập của một số hữu

hạn hay vô hạn các đối tượng nào đó Các đối tượng này được gọi là các phần tử

của tập hợp Tập hợp là một khái niệm nền tảng (fundamental) và quan trọng của

Lý thuyết tập hợp cũng thừa nhận có một tập hợp không chứa phần tử nào, được gọi là tập hợp rỗng, ký hiệu là Các tập hợp có chứa ít nhất một phần tử được gọi

là tập hợp không rỗng

 Tập hợp có thể được xác định bằng lời:

A là tập hợp bốn số nguyên dương đầu tiên

B là tập hợp các màu trên quốc kỳ Pháp

 Có thể xác định một tập hợp bằng cách liệt kê các phần tử của chúng giữa cặp dấu { }, chẳng hạn:

C = {4, 2, 1, 3}

D = {đỏ, trắng, xanh}

1.2 Quan hệ tương đương

- 3 tính chất của quan hệ tương đương R

1.1 Phản xạ: xRx với x  U

1.2 Đối xứng: xRy suy ra yRx với x,y  U

1.3 Bắc cầu: xRy và yRz suy ra xRz với x, y, z  U

- Nếu quan hệ R chỉ thoả mãn hai tính chất phản xạ và đối xứng mà không thoả

mãn tính chất bắc cầu thì nó được gọi là một quan hệ dung sai (Tolerance

relation)

- Nếu R là một quan hệ dung sai thì hai phần tử x, y  U được gọi là tương tự

nhau theo R (R-similar);

- Nếu R là một quan hệ tương đương thì hai phần tử x, y  U được gọi là không thể phân biệt được bởi R (R-indiscernable)

Trang 4

Chương II HỆ TIN VÀ VẤN ĐÊ LIÊN QUAN 2.1 Định nghĩa Hệ thống thông tin

Hệ thống thông tin gọi tắt là Hệ Tin (Information System) là cặp S = (O, U)

Trong đó:

 O là tập hữu hạn khác rỗng các đối tượng

 U là tập hữu hạn khác rỗng các thuộc tính sao cho với mỗi thuộc tính a

 U, a có miền giá trị Va

 o  O vµ a  U, o các giá trị tại thuộc tính a là f(o, a)

2.2 Sự dư thừa thông tin

Một hệ quyết định (Bảng quyết định) biểu diễn tất cả các tri thực về mô hình

Bảng này có thể có kích thước lớn một cách không cần thiết do trong bảng này tồn tại ít nhất hai khả năng dư thừa thông tin sau:

 Nhiều đối tượng giống nhau, hay không thể phân biệt được với nhau lại được thể hiện lặp lại nhiều lần

 Một số thuộc tính có thể là dư thừa, nghĩa là trong các thuộc tính điều kiện ta cụ thể bỏ đi các thuộc tính thừa và không làm thay đổi các nhóm phân loại theo thuộc tính quyết định

Ví dụ: Trong bảng dưới đây là hệ thống thông tin với ba thuộc tính điều kiện {A, B,

C} và một thuộc tính quyết định {D}

Bảng 2.1: Hệ quyết định dư thừa thông tin

Đối tượng A B C D

1 0 0 1 0

2 1 0 0 1

3 0 0 1 0

4 0 0 1 0

5 1 0 0 1

6 1 0 0 1

7 1 0 0 1

Trang 5

8 1 0 0 1

9 0 0 1 0

10 1 0 0 1

11 0 0 1 0

Nếu xét ba điều kiện {A, B, C} thì có thể bỏ đi một thuộc tính C mà khi phân loại các đối tượng theo các thuộc tính AB ta được các nhóm như khi phân loại theo các thuộc tính AB

2.3 Quan hệ bất khả phân biệt ( quan hệ bằng nhau) trong hệ tin

Cho hệ thông tin S = (O, U) với tập thuộc tính P  R có quan hệ tương đương

ký hiệu là INDS(P)

INDS(P) = {(x, y)  U2,  A  P, A(x) = A(y)}

INDS(P) được gọi là quan hệ bất khả phân biệt theo P ( Ký hiệu S trong quan hệ bất khả phân biệt thường được loại bỏ vì ta xác định được đang khảo sát hệ thông

tin nào, do đó ta có thể ký hiệu là IND(P)) Nếu (x, y)  INDS(P) , thì các đối tượng x và y là không thể phân biệt được qua tập thuộc tính P Các lớp tương đương của quan hệ bất khả phân biệt theo P được ký hiệu là [x]P

Quan hệ bất khả phân biệt theo P phân hoạch tập đối tượng O thành các lớp tương đương mà ta ký hiệu là O/ IND(P) ( hoặc O/P)

Ví dụ:

Xét hệ tin về sinh viên O = { 1, 2, 3, 4, 5, 6, 7, 8}, U = { Hoten, NS, Que}

Bảng 2.2 : Ví dụ về quan hệ bất khả phân biệt

Hoten NS QUE

1 Anh 82 Hà Nội

2 Bình 82 Hà Nội

3 Linh 82 Nghệ An

4 Ngọc 83 Nghệ An

Trang 6

5 Hùng 83 Thái Nguyên

6 Trường 84 Thái Nguyên

7 Trang 84 Hà Tĩnh

8 Hoàn 84 Hà Tĩnh

Khi đó:

1 IND(NS) 2 & 1 IND(NS) 3 & 2 IND(NS)1& 2 IND(NS) 3 & 4 IND(NS) 5

Rõ ràng quan hệ IND(X) là quan hệ tương đương

Khi đó O/IND(X) là phân hoạch tương đương

O/IND(X) = { p1, p2, …, pk} mà mỗi pi là một nhóm gồm các đối tượng giống nhau trên tập X Xét ví dụ về tập sinh viên trên đây

O/IND(NS) = {p1, p2, p3}= {{ 1, 2, 3}, {4, 5}, {6, 7, 8}

O/IND({NS,QUE}) = { p1, p2, p3, p4, p5, p6}={{1, 2}, {3}, {4}, {5}, {6}, {7, 8}} Tương tự

O/IND(Hoten) = O/IND(Hote, NS, Que) = O/IND(U) = {{1}, {2}, {3}, {4}, {5}, {6}, {7}, {8} }, mỗi phần tử là một nhóm

2.4 Sự phụ thuộc hàm

Giả sử D và C là các tập con của U Vùng dương của phân hoạch O/IND(D) đối với

tập thuộc tính C gọi là vùng dương của C được định nghĩa là:



) ( /

OS

D IND O X

X C D

P





Đây là tập các đối tượng của U mà bằng cách sử dụng tập thuộc tính C ta có thể phân loại chúng một cách chắc chắn vào một lớp của phân hoạch O theo tập thuộc

tính D Ta nói D phụ thuộc vào C với mức k ( 0  k 1) biểu thị là C k D nếu:

|

| ) ( S

| ) ,

O

D PO D

C

) ( /

OS

D IND O X

X C D

P



 , suy ra 





) (

| ) (

| )

, (

D IND O

X C D

C



Trang 7

Nếu k = 1 ta nói D phụ thuộc hoàn toàn vào C, nếu D < 1 ta nói D phụ thuộc một phần vào C

Hệ số k diễn tả tỷ lệ của các thành phần trong tập tổng thể, với sự phân loại thành khối của phân hoạch U/D, các thuộc tính sử dụng trong C gọi là mức phụ thuộc

Dễ thấy rằng nếu D phụ thuộc hoàn toàn vào C thì IND(C)  IND(D), nghĩa là

phân hoạch được sinh ra bởi C tốt hơn phân hoạch được sinh ra bới D

Ví dụ: Xét hệ thông tin trong bảng sau:

Bảng 2.3: Một hệ thông tin đơn giản

U a0 a1 a2 a3 a4

x0 1 A 2 34 Vàng

x1 2 A 3 23 Trắng

x2 4 B 3 33 Xanh

x3 1 B 2 11 Vàng

x4 3 B 1 33 Trắng

x5 1 B 4 11 Vàng

Tập thuộc tính điều kiện: D = {a0, a2}

Tập thuộc tính quyết định: C = {a1}

O/IND(D) = {{x0, x3},{x1}, {x2}, {x4}, {x5}}

O/IND(C) = {{x0, x1},{x2, x3, x4, x5}}

Ta có POSC(D) = {x1}{x2}{x3}{x4}{x5} = {x1, x2, x3, x4, x5}

Vậy độ phụ thuộc k được tính như sau:

6

5 x , x , x , x , x , x

x , x , x , x , x

5 4 3 2 1 0

5 4 3 2 1



k

2.5 Hệ quyết định

Hệ quyết định hay hệ chuyên gia là hệ tin bất kỳ có dạng S = (O, U) với

U=CD, trong đó C ( condition) được gọi là tập thuộc tính điều kiện, D = {d1, d2,

, dk}(decision) là tập thuộc tính quyết định và C  D = 

Đôi khi ta viết hệ quyết định S = ( O, C  D)

Trang 8

Ví dụ:

Trong ví dụ này ta xét hệ tin các học sinh thi vào Đại học Quốc gia có thuộc tính quyết định ( KQ ) có hai giá trị 0 (trượt) và 1(đậu) Các thuộc tính điều kiện như: Môn 1,Môn 2, Môn 3, Điểm ưu tiên (ĐƯT), Khu vực (KV):

Bảng 2.4: Hệ tin các HS thi vào ĐHQGia

HỌC SINH _ THI ĐẠI HỌC

SBD Môn 1 Môn 2 Môn 3 ĐƯT KV KQ

AH01 7.25 5.0 6.5 1 1 1

AH02 7.0 5.5 8.0 0 2 1

AH03 1.75 4.0 3.5 0 2NT 0

AH04 1.55 5.0 4.0 1 1 0

AH05 1.5 5.0 6.0 1.5 2NT 0

Một lớp các bài toán liên quan đến hệ quyết định đó là tìm các luật của hệ quyết định: từ tập thuộc tính điều kiện làm thế nào để có được một giá trị mong muốn trong tập quyết định Ví dụ nhìn vào bảng trên ta thấy có một số luật như sau:

Rule 1

Nếu (Môn 1 = 7.25) & (Môn 2 = 5.0) & (Môn 3 = 6.5) & ( ĐƯT = 1) & ( KV=1) & ( KQ = 1) thì sẽ đậu vào trường Đại học Quốc gia

Rule 2

Nếu (Môn 1 = 7.0) & (Môn 2 = 5.5) & (Môn 3 = 8.0) & ( ĐƯT = 0) & ( KV=2)

&(KQ = 1) thì sẽ đậu vào trường Đại học Quốc gia

Rule 3

Nếu (Môn 1 = 1.75) & (Môn 2 = 4.0) & (Môn 3 = 3.5) & ( ĐƯT = 0) & ( KV=2NT ) &(KQ = 0) thì không đậu vào trường Đại học Quốc gia

Rule 4

Nếu (Môn 1 = 1.55) & (Môn 2 = 5.0) & (Môn 3 = 4.0) & ( ĐƯT = 1) & ( KV=1)

&(KQ = 0) thì không đậu vào trường Đại học Quốc gia

Rule 5

Trang 9

Nếu (Môn 1 = 1.5) & (Môn 2 = 5.0) & (Môn 3 = 6.0) & ( ĐƯT = 1.5) & ( KV=2NT) &(KQ = 0) thì không đậu vào trường Đại học Quốc gia

2.6 Hệ khai thác dữ liệu ( data mining system)

Hệ khai thác dữ liệu là hệ tin S = ( O, U, V, f) Trong đó tập O được gọi là

tập các hóa đơn Tập U = { i1, i2, , in} được gọi là tập các mặt hàng Tập V={0,1}

Ví dụ:

Giá trị f(oj, ik) =1 cho ta biết hóa đơn oj chứa mặt hàng ik và f(oj, ik) = 0 có nghĩa là hóa đơn oj không chứa mặt hàng ik

Bảng 2.5: Ví dụ về hệ khai thác dữ liệu

i1 i2 i3 i4 i5 i6 i7

o1 1 1 1 1 1 1 1

o2 1 1 1 0 0 1 0

o3 1 1 0 1 0 0 0

o4 1 0 0 0 1 0 0

o5 1 0 0 0 0 0 0

2.7 Độ phổ biến

Độ phổ biến hay còn gọi là độ thường xuyên của tập hàng s trong tập hóa đơn

Độ phổ biến của tập mặt hàng s, ký hiệu sp(s) là tỷ số giữa số lần xuất hiện trong

các hóa đơn của tập s trên số tất cả các hóa đơn Hay gọi m là số các hóa đơn khi đó

ta có Sp(s) = (số lần xuất hiện của s)/m

Ví dụ: Xét lại ví dụ ở bảng trên

Ta có sp({i1}) = 5/5 = 1; sp({i2,i3}) = 2/5 ;

sp({i2,i3,i4}) = 1/5; sp({i7}) = 1/5

Vậy với mọi tập hàng s  I thì 0  sp(s)  1 và mọi số minsup (0,1] chia họ

các tập con của I thành hai phần Một phần gồm các tập s mà sp(s) < minsup và phần kia gồm các tập s mà sp(s) mà sp(s)  minsup Trong khai thác dữ liệu tập {s

Trang 10

 I : sp(s)  minsup} được gọi là các tập phổ biến với ngưỡng minsup Gọi FS là

họ các tập s mà sp(s)  minsup Một bài toán quan trọng trong khai thác dữ liệu là tìm các thuật toán có độ phức tạp bé nhất để tính FS

2.8 Luật kết hợp

Cho hai tập hàng X, Y  I

xuất hiện

Giả sử nếu lấy X = {i1, i2} và Y = X thì khả năng xuất hiện của Y khi X xuất hiện là 100% và luật X  Y có độ tin cậy 100% Như vậy mỗi luật kết hợp có độ tin cậy CF(XY) và trong khai thác dữ liệu CF(XY) = sp(X  Y)/sp(X)

tức CF(X  Y) = sp(X  Y)/sp(X)

Xét dữ liệu trong ví dụ trên ta có

CF({i1,i2}{i3,i4,i5}) = sp({i1,i2,i3,i4,i5}) / sp({i1,i2}) = 1/3 CF({i1} {i2})

= sp({i1,i2}) / sp({i1}) = (3/5)/(5/5) = 3/5

2.9 Rút gọn hệ tin

Cho hệ tin S = ( O, U) Khi đó ta có PART(U) = {E1, E2, , Ek}

Tập thuộc tính reduct  U được gọi là rút gọn của U( đôi khi ta còn gọi là rút gọn

của hệ tin S) nếu reduct là tập tối thiểu mà PART(reduct) = PART(U)

Nói cách khác reduct  U được gọi là rút gọn của U nếu :

(1) PART(U) = PART(reduct)

(2) reduct tối thiểu

Thí dụ:

Xét hệ tin S = (O, U); với O = R = {t1, t2, t3, t4, t5, t6, t7} là quan hệ trên U={A, B, C,

D, E, H, I, J, L, M, N} và hàm thông tin được cho trong bảng sau :

Bảng 2.6: Ví dụ về hàm thông tin

R

A B C D E H I J L M N

Trang 11

t1 0 1 2 3 3 4 2 1 2 3 4

t2 0 0 0 0 3 3 3 3 4 0 3

t3 1 2 1 1 2 2 4 2 6 1 1

t4 4 4 4 5 5 5 5 5 5 5 5

t5 1 3 3 3 4 7 6 7 8 9 0

t6 2 5 6 4 5 6 8 6 7 8 9

t7 2 6 5 2 2 1 7 8 3 4 4

Khi đó ta có các reduct của hệ tin là :

Reduct1 = B ; reduct2 = C; reduct3 = H ; reduct4 = I; reduct5 = J ; reduct6 = L;

Reduct7 = M ; reduct2 = N; reduct8 = AD ; reduct9 = AE ; reduct10 = DE

a Thuật toán tìm 1 rút gọn của S = ( O,U ) dựa vào ma trận E

Input : S = ( O, U) dạng bảng

Output : k - reduct của S

Nội dung thuật toán:

Bước 1: Tính nửa trên của E

Bước 2: Lập họ cực đại M của E

M gồm các phần tử của E ( không xét trên đường chéo chính) không chứa trong các phần tử khác Tức M = {eij mà không có ekl chứa eij}

Bước 3: Đặt k = U

Bước 4: Lặp for each A in U nếu k- A không chứa trong một phần tử nào của M

then k:= k-A; { khi đó A gọi là thuộc tính thừa}

{ kết thúc vòng lặp ta được 1 reduct của S}

b Thuật toán tìm hết các Reduct của S = ( O, U) dựa vào ma trận D

Input S = ( O, U)

Output k1, k2, …, kl là các reduct của S

Nội dung thuật toán 2.2 :

Bước 1: Tính nửa trên D

Trang 12

Bước 2: Coi mỗi thuộc tính của U là một biến logic và đặt log = ٨(٧ dij ).{ đọc là hội của các tuyển dij}

Bước 3: Tối giản log và đưa log về dạng tuyển của các hội log = k1  k2 …  kl Khi đó mỗi ki là một reduct

c Thuật toán tìm các rút gọn của hệ tin S = ( O, U)

- Trường hợp S là hệ tin dạng quan hệ, các đối tượng từng đôi một khác nhau trên

U, khi đó thuật toán tìm một rút gọn, tìm tất cả các rút gọn được tiến hành như các thuật toán tìm khóa dựa vào ma trận bằng nhau, ma trận khác nhau đã xét trong quan hệ r

- Trường hợp S là hệ tin dạng không phải quan hệ ; tức có các đối tượng giống nhau trên tập thuộc tính Khi đó thực hiện hai bước :

Bước 1: Trong mỗi nhóm đối tượng giống nhau trên U chọn ra một đại diện

Bước 2: Gọi r là tập các đại diện như vậy và thực hiện như phần a của thuật toán

2.3

2.10 Quan hệ trên tập thuộc tính U

Mỗi tập con r của tích Descartes (Decac) các miền giá trị V(Ai) với

i = 1, 2, 3, , n được gọi là một quan hệ trên U

Về sau ta thường ký hiệu r hoặc R là quan hệ trên U Vậy R là quan hệ trên tập

thuộc tính U nếu: R  V(A1)  V(A2)   V(An).

Từ định nghĩa ta thấy tích Decac V(A1)  V(A2)  V(An) có rất nhiều tập con nên trên U có nhiều quan hệ khác nhau

2.11 Quan hệ R trên tập thuộc tính U là một Hệ tin

Từ định nghĩa Quan hệ và định nghĩa Hệ tin ta nhận thấy rằng:

Mọi quan hệ r trên U, với R = {t 1 , t 2 , , t m }; khi đó S = ( R, U ) là một hệ tin, với f(o i , A j ) = f(t i , A j ) = t i A j

Ví dụ: Xét hệ tin S = (O, U) ; Tập miền trị V hàm f được xác định như bảng sau:

Bảng 2.7: Hệ tin có các đối tượng giống nhau

HOTEN NS QUE

Tiêu đề	Nghiên cứu lý thuyết, ứng dụng hệ thống thông tin và những vấn đề liên quan
Tác giả	Quách Thị Quỳnh Trang
Người hướng dẫn	PGS.TS Nguyễn Bá Tường
Trường học	Học viện Công nghệ Bưu chính Viễn thông
Chuyên ngành	Truyền dữ liệu và mạng máy tính
Thể loại	Luận văn thạc sĩ kỹ thuật
Năm xuất bản	2010
Thành phố	Hà Nội

Định dạng
Số trang	20
Dung lượng	399,05 KB