QUÁCH THỊ QUỲNH TRANG NGHIÊN CỨU LÝ THUYẾT, ỨNG DỤNG HỆ THỐNG THÔNG TIN VÀ NHỮNG VẤN ĐỀ LIÊN QUAN CHUYÊN NGÀNH: TRUYỀN DỮ LIỆU VÀ MẠNG MÁY TÍNH MÃ SỐ: 60.48.15 Người hướng dẫn khoa họ
Trang 1QUÁCH THỊ QUỲNH TRANG
NGHIÊN CỨU LÝ THUYẾT, ỨNG DỤNG HỆ THỐNG THÔNG TIN VÀ NHỮNG VẤN ĐỀ LIÊN QUAN
CHUYÊN NGÀNH: TRUYỀN DỮ LIỆU VÀ MẠNG MÁY TÍNH
MÃ SỐ: 60.48.15
Người hướng dẫn khoa học: PGS.TS NGUYỄN BÁ TƯỜNG
LUẬN VĂN THẠC SĨ KỸ THUẬT
HÀ NỘI - 2010
Trang 2Nghiên cứu lý thuyết và ứng dụng hệ thống thông tin và những vấn đề liên quan
PHẦN MỞ ĐẦU
1 Cơ sở khoa học và thực tiễn của đề tài
Hệ thống thông tin gọi tắt là hệ tin (system information) lần đầu tiên được đề xuất bởi Z Pawlak và nhanh chóng được xem như một công cụ hữu hiệu xử lý thông tin dạng bảng Hệ tin là trường hợp tổng quát của hệ quyết định, hệ chuyên gia, hệ khai thác dữ liệu Phương pháp trình bày bằng hệ tin đóng vai trò hết sức quan trọng trong lĩnh vực trí tuệ nhân tạo và các ngành khoa học khác liên quan đến nhận thức, đặc biệt là lĩnh vực máy học, thu nhận tri thức, phân tích quyết định, phát hiện và khám phá tri thức từ cơ sở dữ liệu, các hệ chuyên gia, các hệ hỗ trợ quyết định, lập luận dựa trên các bảng có các thuộc tính
Hệ tin là một công cụ đắc lực và không thể thiếu của lý thuyết tập thô, tập mờ
Hệ tin là trường hợp tổng quát của mô hình quan hệ Tất các các tính chất, ứng dụng của quan hệ đều có thể mở rộng và áp dụng trong hệ tin Khi diễn đạt, trình bày các thuật toan Quinlan, K_Mean, bằng hệ tin tạo một phương pháp và diễn đạt rõ ràng, dễ hiểu và mạch lạc hơn các phương pháp cũ
2 Mục đích, đối tượng và phạm vi nghiên cứu của đề tài
Nghiên cứu Hệ thống thông tin và các vấn đề liên quan đến hệ thống thông tin gọi tắt là Hệ Tin là cấp bách và cần thiết vì hệ tin xuất hiện hầu khắp trong các lĩnh vực của khoa học máy tính Tuy nhiên trong luận văn này em chỉ muốn nêu những vấn đề cơ bản nhất gắn chặt với hệ tin đó là những bài toán gắn với phân loại theo quan điểm giống nhau trên các thuộc tính, quan hệ bất khả phân biệt IND(X) với X
là tập thuộc tính
Trang 3Chương I LÝ THUYẾT TẬP HỢP 1.1 Giới thiệu tập hợp
Trong toán học, tập hợp có thể hiểu tổng quát là một sự tụ tập của một số hữu
hạn hay vô hạn các đối tượng nào đó Các đối tượng này được gọi là các phần tử
của tập hợp Tập hợp là một khái niệm nền tảng (fundamental) và quan trọng của
Lý thuyết tập hợp cũng thừa nhận có một tập hợp không chứa phần tử nào, được gọi là tập hợp rỗng, ký hiệu là Các tập hợp có chứa ít nhất một phần tử được gọi
là tập hợp không rỗng
Tập hợp có thể được xác định bằng lời:
A là tập hợp bốn số nguyên dương đầu tiên
B là tập hợp các màu trên quốc kỳ Pháp
Có thể xác định một tập hợp bằng cách liệt kê các phần tử của chúng giữa cặp dấu { }, chẳng hạn:
C = {4, 2, 1, 3}
D = {đỏ, trắng, xanh}
1.2 Quan hệ tương đương
- 3 tính chất của quan hệ tương đương R
1.1 Phản xạ: xRx với x U
1.2 Đối xứng: xRy suy ra yRx với x,y U
1.3 Bắc cầu: xRy và yRz suy ra xRz với x, y, z U
- Nếu quan hệ R chỉ thoả mãn hai tính chất phản xạ và đối xứng mà không thoả
mãn tính chất bắc cầu thì nó được gọi là một quan hệ dung sai (Tolerance
relation)
- Nếu R là một quan hệ dung sai thì hai phần tử x, y U được gọi là tương tự
nhau theo R (R-similar);
- Nếu R là một quan hệ tương đương thì hai phần tử x, y U được gọi là không thể phân biệt được bởi R (R-indiscernable)
Trang 4Nghiên cứu lý thuyết và ứng dụng hệ thống thông tin và những vấn đề liên quan
Chương II HỆ TIN VÀ VẤN ĐÊ LIÊN QUAN 2.1 Định nghĩa Hệ thống thông tin
Hệ thống thông tin gọi tắt là Hệ Tin (Information System) là cặp S = (O, U)
Trong đó:
O là tập hữu hạn khác rỗng các đối tượng
U là tập hữu hạn khác rỗng các thuộc tính sao cho với mỗi thuộc tính a
U, a có miền giá trị Va
o O vµ a U, o các giá trị tại thuộc tính a là f(o, a)
2.2 Sự dư thừa thông tin
Một hệ quyết định (Bảng quyết định) biểu diễn tất cả các tri thực về mô hình
Bảng này có thể có kích thước lớn một cách không cần thiết do trong bảng này tồn tại ít nhất hai khả năng dư thừa thông tin sau:
Nhiều đối tượng giống nhau, hay không thể phân biệt được với nhau lại được thể hiện lặp lại nhiều lần
Một số thuộc tính có thể là dư thừa, nghĩa là trong các thuộc tính điều kiện ta cụ thể bỏ đi các thuộc tính thừa và không làm thay đổi các nhóm phân loại theo thuộc tính quyết định
Ví dụ: Trong bảng dưới đây là hệ thống thông tin với ba thuộc tính điều kiện {A, B,
C} và một thuộc tính quyết định {D}
Bảng 2.1: Hệ quyết định dư thừa thông tin
Đối tượng A B C D
1 0 0 1 0
2 1 0 0 1
3 0 0 1 0
4 0 0 1 0
5 1 0 0 1
6 1 0 0 1
7 1 0 0 1
Trang 58 1 0 0 1
9 0 0 1 0
10 1 0 0 1
11 0 0 1 0
Nếu xét ba điều kiện {A, B, C} thì có thể bỏ đi một thuộc tính C mà khi phân loại các đối tượng theo các thuộc tính AB ta được các nhóm như khi phân loại theo các thuộc tính AB
2.3 Quan hệ bất khả phân biệt ( quan hệ bằng nhau) trong hệ tin
Cho hệ thông tin S = (O, U) với tập thuộc tính P R có quan hệ tương đương
ký hiệu là INDS(P)
INDS(P) = {(x, y) U2, A P, A(x) = A(y)}
INDS(P) được gọi là quan hệ bất khả phân biệt theo P ( Ký hiệu S trong quan hệ bất khả phân biệt thường được loại bỏ vì ta xác định được đang khảo sát hệ thông
tin nào, do đó ta có thể ký hiệu là IND(P)) Nếu (x, y) INDS(P) , thì các đối tượng x và y là không thể phân biệt được qua tập thuộc tính P Các lớp tương đương của quan hệ bất khả phân biệt theo P được ký hiệu là [x]P
Quan hệ bất khả phân biệt theo P phân hoạch tập đối tượng O thành các lớp tương đương mà ta ký hiệu là O/ IND(P) ( hoặc O/P)
Ví dụ:
Xét hệ tin về sinh viên O = { 1, 2, 3, 4, 5, 6, 7, 8}, U = { Hoten, NS, Que}
Bảng 2.2 : Ví dụ về quan hệ bất khả phân biệt
Hoten NS QUE
1 Anh 82 Hà Nội
2 Bình 82 Hà Nội
3 Linh 82 Nghệ An
4 Ngọc 83 Nghệ An
Trang 6Nghiên cứu lý thuyết và ứng dụng hệ thống thông tin và những vấn đề liên quan
5 Hùng 83 Thái Nguyên
6 Trường 84 Thái Nguyên
7 Trang 84 Hà Tĩnh
8 Hoàn 84 Hà Tĩnh
Khi đó:
1 IND(NS) 2 & 1 IND(NS) 3 & 2 IND(NS)1& 2 IND(NS) 3 & 4 IND(NS) 5
Rõ ràng quan hệ IND(X) là quan hệ tương đương
Khi đó O/IND(X) là phân hoạch tương đương
O/IND(X) = { p1, p2, …, pk} mà mỗi pi là một nhóm gồm các đối tượng giống nhau trên tập X Xét ví dụ về tập sinh viên trên đây
O/IND(NS) = {p1, p2, p3}= {{ 1, 2, 3}, {4, 5}, {6, 7, 8}
O/IND({NS,QUE}) = { p1, p2, p3, p4, p5, p6}={{1, 2}, {3}, {4}, {5}, {6}, {7, 8}} Tương tự
O/IND(Hoten) = O/IND(Hote, NS, Que) = O/IND(U) = {{1}, {2}, {3}, {4}, {5}, {6}, {7}, {8} }, mỗi phần tử là một nhóm
2.4 Sự phụ thuộc hàm
Giả sử D và C là các tập con của U Vùng dương của phân hoạch O/IND(D) đối với
tập thuộc tính C gọi là vùng dương của C được định nghĩa là:
) ( /
OS
D IND O X
X C D
P
Đây là tập các đối tượng của U mà bằng cách sử dụng tập thuộc tính C ta có thể phân loại chúng một cách chắc chắn vào một lớp của phân hoạch O theo tập thuộc
tính D Ta nói D phụ thuộc vào C với mức k ( 0 k 1) biểu thị là C k D nếu:
|
|
| ) ( S
| ) ,
O
D PO D
C
) ( /
OS
D IND O X
X C D
P
, suy ra
) (
| ) (
| )
, (
D IND O
X C D
C
Trang 7Nếu k = 1 ta nói D phụ thuộc hoàn toàn vào C, nếu D < 1 ta nói D phụ thuộc một phần vào C
Hệ số k diễn tả tỷ lệ của các thành phần trong tập tổng thể, với sự phân loại thành khối của phân hoạch U/D, các thuộc tính sử dụng trong C gọi là mức phụ thuộc
Dễ thấy rằng nếu D phụ thuộc hoàn toàn vào C thì IND(C) IND(D), nghĩa là
phân hoạch được sinh ra bởi C tốt hơn phân hoạch được sinh ra bới D
Ví dụ: Xét hệ thông tin trong bảng sau:
Bảng 2.3: Một hệ thông tin đơn giản
U a0 a1 a2 a3 a4
x0 1 A 2 34 Vàng
x1 2 A 3 23 Trắng
x2 4 B 3 33 Xanh
x3 1 B 2 11 Vàng
x4 3 B 1 33 Trắng
x5 1 B 4 11 Vàng
Tập thuộc tính điều kiện: D = {a0, a2}
Tập thuộc tính quyết định: C = {a1}
O/IND(D) = {{x0, x3},{x1}, {x2}, {x4}, {x5}}
O/IND(C) = {{x0, x1},{x2, x3, x4, x5}}
Ta có POSC(D) = {x1}{x2}{x3}{x4}{x5} = {x1, x2, x3, x4, x5}
Vậy độ phụ thuộc k được tính như sau:
6
5 x , x , x , x , x , x
x , x , x , x , x
5 4 3 2 1 0
5 4 3 2 1
k
2.5 Hệ quyết định
Hệ quyết định hay hệ chuyên gia là hệ tin bất kỳ có dạng S = (O, U) với
U=CD, trong đó C ( condition) được gọi là tập thuộc tính điều kiện, D = {d1, d2,
, dk}(decision) là tập thuộc tính quyết định và C D =
Đôi khi ta viết hệ quyết định S = ( O, C D)
Trang 8Nghiên cứu lý thuyết và ứng dụng hệ thống thông tin và những vấn đề liên quan
Ví dụ:
Trong ví dụ này ta xét hệ tin các học sinh thi vào Đại học Quốc gia có thuộc tính quyết định ( KQ ) có hai giá trị 0 (trượt) và 1(đậu) Các thuộc tính điều kiện như: Môn 1,Môn 2, Môn 3, Điểm ưu tiên (ĐƯT), Khu vực (KV):
Bảng 2.4: Hệ tin các HS thi vào ĐHQGia
HỌC SINH _ THI ĐẠI HỌC
SBD Môn 1 Môn 2 Môn 3 ĐƯT KV KQ
AH01 7.25 5.0 6.5 1 1 1
AH02 7.0 5.5 8.0 0 2 1
AH03 1.75 4.0 3.5 0 2NT 0
AH04 1.55 5.0 4.0 1 1 0
AH05 1.5 5.0 6.0 1.5 2NT 0
Một lớp các bài toán liên quan đến hệ quyết định đó là tìm các luật của hệ quyết định: từ tập thuộc tính điều kiện làm thế nào để có được một giá trị mong muốn trong tập quyết định Ví dụ nhìn vào bảng trên ta thấy có một số luật như sau:
Rule 1
Nếu (Môn 1 = 7.25) & (Môn 2 = 5.0) & (Môn 3 = 6.5) & ( ĐƯT = 1) & ( KV=1) & ( KQ = 1) thì sẽ đậu vào trường Đại học Quốc gia
Rule 2
Nếu (Môn 1 = 7.0) & (Môn 2 = 5.5) & (Môn 3 = 8.0) & ( ĐƯT = 0) & ( KV=2)
&(KQ = 1) thì sẽ đậu vào trường Đại học Quốc gia
Rule 3
Nếu (Môn 1 = 1.75) & (Môn 2 = 4.0) & (Môn 3 = 3.5) & ( ĐƯT = 0) & ( KV=2NT ) &(KQ = 0) thì không đậu vào trường Đại học Quốc gia
Rule 4
Nếu (Môn 1 = 1.55) & (Môn 2 = 5.0) & (Môn 3 = 4.0) & ( ĐƯT = 1) & ( KV=1)
&(KQ = 0) thì không đậu vào trường Đại học Quốc gia
Rule 5
Trang 9Nếu (Môn 1 = 1.5) & (Môn 2 = 5.0) & (Môn 3 = 6.0) & ( ĐƯT = 1.5) & ( KV=2NT) &(KQ = 0) thì không đậu vào trường Đại học Quốc gia
2.6 Hệ khai thác dữ liệu ( data mining system)
Hệ khai thác dữ liệu là hệ tin S = ( O, U, V, f) Trong đó tập O được gọi là
tập các hóa đơn Tập U = { i1, i2, , in} được gọi là tập các mặt hàng Tập V={0,1}
Ví dụ:
Giá trị f(oj, ik) =1 cho ta biết hóa đơn oj chứa mặt hàng ik và f(oj, ik) = 0 có nghĩa là hóa đơn oj không chứa mặt hàng ik
Bảng 2.5: Ví dụ về hệ khai thác dữ liệu
i1 i2 i3 i4 i5 i6 i7
o1 1 1 1 1 1 1 1
o2 1 1 1 0 0 1 0
o3 1 1 0 1 0 0 0
o4 1 0 0 0 1 0 0
o5 1 0 0 0 0 0 0
2.7 Độ phổ biến
Độ phổ biến hay còn gọi là độ thường xuyên của tập hàng s trong tập hóa đơn
Độ phổ biến của tập mặt hàng s, ký hiệu sp(s) là tỷ số giữa số lần xuất hiện trong
các hóa đơn của tập s trên số tất cả các hóa đơn Hay gọi m là số các hóa đơn khi đó
ta có Sp(s) = (số lần xuất hiện của s)/m
Ví dụ: Xét lại ví dụ ở bảng trên
Ta có sp({i1}) = 5/5 = 1; sp({i2,i3}) = 2/5 ;
sp({i2,i3,i4}) = 1/5; sp({i7}) = 1/5
Vậy với mọi tập hàng s I thì 0 sp(s) 1 và mọi số minsup (0,1] chia họ
các tập con của I thành hai phần Một phần gồm các tập s mà sp(s) < minsup và phần kia gồm các tập s mà sp(s) mà sp(s) minsup Trong khai thác dữ liệu tập {s
Trang 10Nghiên cứu lý thuyết và ứng dụng hệ thống thông tin và những vấn đề liên quan
I : sp(s) minsup} được gọi là các tập phổ biến với ngưỡng minsup Gọi FS là
họ các tập s mà sp(s) minsup Một bài toán quan trọng trong khai thác dữ liệu là tìm các thuật toán có độ phức tạp bé nhất để tính FS
2.8 Luật kết hợp
Cho hai tập hàng X, Y I
xuất hiện
Giả sử nếu lấy X = {i1, i2} và Y = X thì khả năng xuất hiện của Y khi X xuất hiện là 100% và luật X Y có độ tin cậy 100% Như vậy mỗi luật kết hợp có độ tin cậy CF(XY) và trong khai thác dữ liệu CF(XY) = sp(X Y)/sp(X)
tức CF(X Y) = sp(X Y)/sp(X)
Xét dữ liệu trong ví dụ trên ta có
CF({i1,i2}{i3,i4,i5}) = sp({i1,i2,i3,i4,i5}) / sp({i1,i2}) = 1/3 CF({i1} {i2})
= sp({i1,i2}) / sp({i1}) = (3/5)/(5/5) = 3/5
2.9 Rút gọn hệ tin
Cho hệ tin S = ( O, U) Khi đó ta có PART(U) = {E1, E2, , Ek}
Tập thuộc tính reduct U được gọi là rút gọn của U( đôi khi ta còn gọi là rút gọn
của hệ tin S) nếu reduct là tập tối thiểu mà PART(reduct) = PART(U)
Nói cách khác reduct U được gọi là rút gọn của U nếu :
(1) PART(U) = PART(reduct)
(2) reduct tối thiểu
Thí dụ:
Xét hệ tin S = (O, U); với O = R = {t1, t2, t3, t4, t5, t6, t7} là quan hệ trên U={A, B, C,
D, E, H, I, J, L, M, N} và hàm thông tin được cho trong bảng sau :
Bảng 2.6: Ví dụ về hàm thông tin
R
A B C D E H I J L M N
Trang 11t1 0 1 2 3 3 4 2 1 2 3 4
t2 0 0 0 0 3 3 3 3 4 0 3
t3 1 2 1 1 2 2 4 2 6 1 1
t4 4 4 4 5 5 5 5 5 5 5 5
t5 1 3 3 3 4 7 6 7 8 9 0
t6 2 5 6 4 5 6 8 6 7 8 9
t7 2 6 5 2 2 1 7 8 3 4 4
Khi đó ta có các reduct của hệ tin là :
Reduct1 = B ; reduct2 = C; reduct3 = H ; reduct4 = I; reduct5 = J ; reduct6 = L;
Reduct7 = M ; reduct2 = N; reduct8 = AD ; reduct9 = AE ; reduct10 = DE
a Thuật toán tìm 1 rút gọn của S = ( O,U ) dựa vào ma trận E
Input : S = ( O, U) dạng bảng
Output : k - reduct của S
Nội dung thuật toán:
Bước 1: Tính nửa trên của E
Bước 2: Lập họ cực đại M của E
M gồm các phần tử của E ( không xét trên đường chéo chính) không chứa trong các phần tử khác Tức M = {eij mà không có ekl chứa eij}
Bước 3: Đặt k = U
Bước 4: Lặp for each A in U nếu k- A không chứa trong một phần tử nào của M
then k:= k-A; { khi đó A gọi là thuộc tính thừa}
{ kết thúc vòng lặp ta được 1 reduct của S}
b Thuật toán tìm hết các Reduct của S = ( O, U) dựa vào ma trận D
Input S = ( O, U)
Output k1, k2, …, kl là các reduct của S
Nội dung thuật toán 2.2 :
Bước 1: Tính nửa trên D
Trang 12Nghiên cứu lý thuyết và ứng dụng hệ thống thông tin và những vấn đề liên quan
Bước 2: Coi mỗi thuộc tính của U là một biến logic và đặt log = ٨(٧ dij ).{ đọc là hội của các tuyển dij}
Bước 3: Tối giản log và đưa log về dạng tuyển của các hội log = k1 k2 … kl Khi đó mỗi ki là một reduct
c Thuật toán tìm các rút gọn của hệ tin S = ( O, U)
- Trường hợp S là hệ tin dạng quan hệ, các đối tượng từng đôi một khác nhau trên
U, khi đó thuật toán tìm một rút gọn, tìm tất cả các rút gọn được tiến hành như các thuật toán tìm khóa dựa vào ma trận bằng nhau, ma trận khác nhau đã xét trong quan hệ r
- Trường hợp S là hệ tin dạng không phải quan hệ ; tức có các đối tượng giống nhau trên tập thuộc tính Khi đó thực hiện hai bước :
Bước 1: Trong mỗi nhóm đối tượng giống nhau trên U chọn ra một đại diện
Bước 2: Gọi r là tập các đại diện như vậy và thực hiện như phần a của thuật toán
2.3
2.10 Quan hệ trên tập thuộc tính U
Mỗi tập con r của tích Descartes (Decac) các miền giá trị V(Ai) với
i = 1, 2, 3, , n được gọi là một quan hệ trên U
Về sau ta thường ký hiệu r hoặc R là quan hệ trên U Vậy R là quan hệ trên tập
thuộc tính U nếu: R V(A1) V(A2) V(An).
Từ định nghĩa ta thấy tích Decac V(A1) V(A2) V(An) có rất nhiều tập con nên trên U có nhiều quan hệ khác nhau
2.11 Quan hệ R trên tập thuộc tính U là một Hệ tin
Từ định nghĩa Quan hệ và định nghĩa Hệ tin ta nhận thấy rằng:
Mọi quan hệ r trên U, với R = {t 1 , t 2 , , t m }; khi đó S = ( R, U ) là một hệ tin, với f(o i , A j ) = f(t i , A j ) = t i A j
Ví dụ: Xét hệ tin S = (O, U) ; Tập miền trị V hàm f được xác định như bảng sau:
Bảng 2.7: Hệ tin có các đối tượng giống nhau
HOTEN NS QUE