Gần đây nhất, từ năm 2011 đến nay, trong [8], [47] các nhóm nghiên cứu của Shaoxu Song, Lei Chen và Nguyễn Xuân Huy cùng các nghiên cứu sinh đã đề xuất khái niệm phụ thuộc sai khác và gi
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM
VIỆN CÔNG NGHỆ THÔNG TIN
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM
VIỆN CÔNG NGHỆ THÔNG TIN
LUẬN ÁN TIẾN SĨ TOÁN HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1 PGS.TSKH NGUYỄN XUÂN HUY
2 TS HOÀNG QUANG
HÀ NỘI - 2014
Trang 3LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu, kết quả trong luận án là trung thực và chưa từng công bố trong bất kỳ công trình nào khác
Tác giả luận án
Bùi Đức Minh
Trang 4LỜI CÁM ƠN
Luận án được thực hiện và hoàn thành tại Viện Công nghệ Thông tin, Viện Khoa học và Công nghệ Việt Nam, dưới sự hướng dẫn khoa học của PGS TSKH Nguyễn Xuân Huy và TS Hoàng Quang Nhân dịp này, xin cho tôi được gửi đến những người thầy của mình lời cám ơn chân thành về những chỉ dẫn khoa học và những hướng dẫn tận tình trong quá trình thực hiện luận án Đặc biệt, xin cho tôi được bày tỏ lòng biết ơn sâu sắc nhất đến PGS TSKH Nguyễn Xuân Huy, người Thầy mà tôi đã may mắn được học tập và làm việc trong khoảng thời gian dài, người đã định hướng, động viên và khơi gợi lòng ham mê nghiên cứu khoa học cũng như truyền thụ các kiến thức, kinh nghiệm sâu sắc về chuyên môn cho tôi trong quá trình học tập và thực hiện luận án
Lời cám ơn chân thành nhất xin gửi đến GS TS Vũ Đức Thi, PGS TS Đoàn Văn Ban, TS Lê Văn Phùng đã có nhiều nhận xét, góp ý quý báu và định hướng cho tác giả trong việc nghiên cứu đề tài đang thực hiện
Tôi xin trân trọng cám ơn đến lãnh đạo Viện CNTT, PGS TS Thái Quang Vinh, PGS TS Lương Chi Mai, PGS TS Đặng Văn Đức và các Thầy, Cô trong Viện
đã tạo điều kiện tốt nhất cho tôi trong quá trình học tập, nghiên cứu và thực hiện luận án tại Viện
Cuối cùng, xin cho tôi gửi lời cám ơn chân thành đến Ban Giám hiệu, lãnh đạo các phòng ban cùng các đồng nghiệp Khoa CNTT Trường CĐ GTVT Tp HCM và gia đình đã tạo điều kiện thuận lợi nhất về vật chất cũng như dành nhiều động viên
về mặt tinh thần để tôi có thể yên tâm học tập và hoàn thành luận án
Trang 5MỤC LỤC
LỜI CAM ĐOAN 1
LỜI CÁM ƠN 2
MỤC LỤC 3
DANH MỤC CÁC HÌNH 6
DANH MỤC CÁC BẢNG 7
DANH MỤC TỪ VIẾT TẮT 8
PHẦN MỞ ĐẦU 9
CHƯƠNG 1 MỘT SỐ KHÁI NIỆM CƠ BẢN VỀ CƠ SỞ DỮ LIỆU QUAN HỆ VÀ KHAI PHÁ DỮ LIỆU 18
1.1 Khái niệm về cơ sở dữ liệu quan hệ 19
1.2 Phụ thuộc hàm 19
1.2.1 Khái niệm phụ thuộc hàm 20
1.2.2 Lược đồ quan hệ 21
1.2.3 Bao đóng tập phụ thuộc hàm 21
1.2.4 Định lý tương đương 22
1.2.5 Bao đóng tập thuộc tính 23
1.2.6 Bài toán thành viên 24
1.3 Khóa và phản khóa của lược đồ quan hệ 24
1.3.1 Khóa của lược đồ quan hệ 25
1.3.2 Phản khóa của lược đồ quan hệ 26
1.4 Một số khái niệm trong khai phá dữ liệu 27
1.4.1 Một số khái niệm cơ bản 27
1.4.2 Luật kết hợp và kết nối Galois 29
1.5 Kết luận chương 1 30
CHƯƠNG 2 ÁNH XẠ ĐÓNG&LÝ THUYẾT GIÀN GIAO VÀ ỨNG DỤNG31 2.1 Ánh xạ đóng 33
2.1.1 Các khái niệm và tính chất ánh xạ đóng 33
2.1.2 Phép hạn chế trên ánh xạ đóng 35
2.1.3 Điểm bất động(tập đóng) trên ánh xạ đóng 35
2.2 Các phép toán trên ánh xạ đóng 36
Trang 62.2.1 Phép toán hội 36
2.2.2 Phép toán hợp thành 36
2.2.3 Ứng dụng phép toán hợp thành 41
2.3 Cơ sở và phản cơ sở ánh xạ đóng 43
2.3.1 Cơ sở ánh xạ đóng 43
2.3.2 Phản cơ sở ánh xạ đóng 44
2.4 Giàn giao 45
2.4.1 Một số khái niệm cơ bản 45
2.4.2 Sự tương quan giữa tập phản cơ sở và tập đối nguyên tử 48
2.5 Ứng dụng giàn giao với bài toán ẩn tập mục nhạy cảm 50
2.5.1 Đặt vấn đề 50
2.5.2 Phát biểu bài toán 51
2.5.3 Cơ sở lý thuyết 53
2.5.4 Thuật toán ẩn tập mục nhạy cảm 56
2.5.5 Kết quả thử nghiệm 60
2.6 Giàn giao và ứng dụng trong khai thác tập phổ biến 61
2.6.1 Cơ sở lý thuyết 62
2.6.2 Thuật toán xác định họ các tập phổ biến tối đại 63
2.7 Kết luận chương 2 65
CHƯƠNG 3 HỆ SINH AXĐ VÀ MỘT SỐ KẾT QUẢ NGHIÊN CỨU 66
3.1 Hệ sinh ánh xạ đóng 68
3.1.1 Khái niệm hệ sinh AXĐ 68
3.1.2 Ánh xạ cảm sinh 69
3.1.3 Thuật toán xác định ảnh một tập con trong hệ sinh 70
3.2 Giản lược tập luật sinh 71
3.2.1 Một số khái niệm cơ sở 71
3.2.2 Tập giản lược tự nhiên 75
3.2.3 Tập giản lược không dư 76
3.3 Thu gọn hệ sinh ánh xạ đóng 78
3.3.1 Các khái niệm và thuật toán thu gọn hệ sinh AXĐ 79
3.3.2 Biểu diễn ảnh tập con theo phép thu gọn hệ sinh AXĐ 80
3.4 Cơ sở và phản cơ sở hệ sinh ánh xạ đóng 81
3.4.1 Cơ sở hệ sinh AXĐ 82
3.4.2 Phản cơ sở hệ sinh AXĐ 83
3.4.3 Một dạng biểu diễn phản cơ sở hệ sinh AXĐ 84
3.4.4 Sự tương quan giữa các đối tượng trong hệ sinh AXĐ 87
Trang 73.5 Ứng dụng hệ sinh AXĐ giải bài toán hệ suy dẫn 90
3.5.1 Các khái niệm và quy tắc suy dẫn 90
3.5.2 Một số dạng bài toán suy dẫn 90
3.6 Hệ sinh cân bằng 94
3.6.1 Các khái niệm và một số tính chất 94
3.6.2 Thuật toán thu gọn hệ sinh AXĐ về dạng cân bằng 97
3.7 Ứng dụng hệ sinh AXĐ trong cơ sở dữ liệu 100
3.7.1 Bài toán phân rã và kết nối các quan hệ 100
3.7.2 Một dạng biểu diễn phản khóa của lược đồ quan hệ 103
3.8 Kết luận chương 3 105
PHẦN KẾT LUẬN 106
DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ 109
TÀI LIỆU THAM KHẢO 110
Trang 8DANH MỤC CÁC HÌNH
Hình 2.1 Đồ thị của giàn các tập mục phổ biến 53
Hình 2.2 Giàn giao đầy đủ của Poset(ABE) 54
Hình 2.3 Giàn các tập phổ biến sau khi xóa tập mục nhạy cảm 59
Hình 2.4 Giàn các tập phổ biến 64
Trang 9DANH MỤC CÁC BẢNG
Bảng 1.1 Bảng T với 22 giao tác 29
Bảng 1.2 Các tập mục phổ biến theo ngưỡng = 4 29
Bảng 2.1 Bảng các tập mục với độ phổ biến và số lần sửa 49
Bảng 2.2 Một số kết quả thử nghiệm 53
Bảng 2.3 Cơ sở dữ liệu giao tác minh họa 61
Bảng 2.4 Các tập con và ảnh tương ứng 64
Bảng 3.1 Danh sách các môn học 91
Bảng 3.2 Quan hệ học trước giữa các môn 92
Bảng 3.3 Tương ứng giữa CSDL và AXĐ 100
Trang 10PTBD: Phụ thuộc Boole dương
PTBDTQ: Phụ thuộc Boole dương tổng quát
PTBDĐT: Phụ thuộc Boole dương đa trị
PTBDTNB: Phụ thuộc Boole dương theo nhóm bộ
PTH: Phụ thuộc hàm
Trang 11PHẦN MỞ ĐẦU
1 Đặt vấn đề
Trong nghiên cứu và mô tả thế giới thực, cùng với việc phản ánh ngữ nghĩa dữ liệu của cơ sở dữ liệu (CSDL) thì lý thuyết về phụ thuộc dữ liệu đóng một vai trò rất
cơ bản Phụ thuộc dữ liệu trong thiết kế và quản trị một cơ sở dữ liệu được hiểu là
sự mô tả các ràng buộc mà dữ liệu phải thỏa mãn trong bài toán thực tế Đây cũng là yếu tố quyết định đến chất lượng dữ liệu trong quá trình xử lý và quản trị một hệ thống Phụ thuộc dữ liệu được Codd [16], người đặt những nền móng ban đầu cho
mô hình dữ liệu quan hệ từ những năm 70 với phụ thuộc logic đầu tiên là phụ thuộc hàm (PTH) Đây là loại phụ thuộc thiết lập mối quan hệ về mặt ngữ nghĩa giữa các tập thuộc tính trong cơ sở dữ liệu Định lý tương đương khẳng định sự tương đương giữa các loại suy dẫn bao gồm suy dẫn logic, suy dẫn theo quan hệ và suy dẫn theo
quan hệ có không quá p bộ là định lý rất cơ bản trong lý thuyết về phụ thuộc logic
này Sau đó, trong các công trình được công bố tiếp theo [10], [11], [12], các tác giả khác đã tiếp tục phát triển và xây dựng các hệ tiên đề với các dạng phụ thuộc bậc cao góp phần đặt những nền tảng đầu tiên về cơ sở lý thuyết cho phụ thuộc dữ liệu
Cụ thể, vào những năm 80, các nhóm nghiên cứu của Berman, Blok và Sagiv, Delobel [13], [14], [46] đã mở rộng khái niệm PTH sang khái niệm phụ thuộc Boole dương (PTBD), các ràng buộc dữ liệu được mô tả thông qua các công thức Boole dương với phép sánh đẳng thức Công thức Bool dương là những công thức có trị là
1 khi giá trị của các biến thành phần là 1 Định lý tương đương vẫn đúng đối với
phụ thuộc logic này Cũng trong thời gian này, nhóm nghiên cứu Viện Hàn lâm Khoa học Hungary, trong [22] công bố vào năm 1988 đã phát biểu về mối tương quan giữa các đối tượng khóa (cơ sở) và phản khóa (phản cơ sở) trong một lược đồ quan hệ (LĐQH) Đây là hai khái niệm đối ngẫu nhau theo nghĩa khóa là tập con
nhỏ nhất các thuộc tính có ảnh là U, phản khóa là tập con lớn nhất các thuộc tính có
Trang 12ảnh khác U, với U là tập toàn thể các thuộc tính trong lược đồ quan hệ đang khảo
sát Cũng trong công trình này, các tác giả đã chỉ ra từ tập các khóa của một LĐQH,
có thể dễ dàng thu được tập các phản khóa của LĐQH này với một thuật toán có độ phức tạp tính toán là đa thức và ngược lại, từ tập các phản khóa của một LĐQH thì tập các khóa của LĐQH này hoàn toàn xác định với một thuật toán có độ phức tạp tính toán đa thức Phát biểu này cho thấy khi tính toán, biễu diễn các đối tượng trong lược đồ quan hệ thì khóa và phản khóa có vai trò và ý nghĩa quan trọng như nhau Năm 1992, nhóm nghiên cứu Nguyễn Xuân Huy và Lê Thị Thanh, trong [42]
đã mở rộng PTBD thành phụ thuộc Boole dương tổng quát (PTBDTQ) Với loại phụ thuộc này, phép so sánh đẳng thức được thay bằng phép toán trên quan hệ hai ngôi thỏa các tính chất phản xạ, đối xứng và bộ phận Định lý tương đương vẫn được bảo toàn đối với PTBDTQ Năm 1994, trong [3] các nhà nghiên cứu lại tiếp tục mở rộng PTBDTQ, phát triển thành phụ thuộc Bool dương đa trị (PTBĐT) và phụ thuộc Bool dương theo nhóm bộ (PTBDTNB) Định lý tương đương vẫn được bảo toàn đối với các loại phụ thuộc này Gần đây nhất, từ năm 2011 đến nay, trong [8], [47] các nhóm nghiên cứu của Shaoxu Song, Lei Chen và Nguyễn Xuân Huy cùng các nghiên cứu sinh đã đề xuất khái niệm phụ thuộc sai khác và giải quyết một
số vấn đề kinh điển liên quan đến lớp phụ thuộc này như bài toán suy dẫn, tìm khoá
rạc, cụ thể là ánh xạ đóng được thiết lập trên tập hữu hạn U thỏa các tính chất phản
xạ, đồng biến và lũy đẳng Khái niệm này đã được các nhóm nghiên cứu trong [15], [25] sử dụng như một công cụ toán học để trợ giúp việc mô tả các khía cạnh về mặt
Trang 13lý thuyết cũng như ứng dụng trong một số lĩnh vực thuộc công nghệ thông tin như
cơ sở dữ liệu, các hệ suy dẫn, khai phá dữ liệu, …
Trong lý thuyết cơ sở dữ liệu quan hệ, có thể tìm thấy rất nhiều các ánh xạ đóng như phép tính bao đóng tập thuộc tính, phép tính bao đóng tập phụ thuộc hàm,
phép kết nối trong đại số quan hệ, … Kết nối Galois [40] được sử dụng rất phổ
biến khi xác định tập phổ biến trong khai phá dữ liệu cũng là một ánh xạ đóng Việc biểu diễn, tính toán các đối tượng theo ngôn ngữ ánh xạ đóng nhằm nâng cao hiệu quả tính toán đã được nhiều tác giả công bố trong nhiều công trình [5], [6], [15] Bên cạnh đó, từ đầu những năm 2000, các nhóm nghiên cứu gồm nhiều đơn vị tham gia như Viện Công nghệ Thông tin, Trường Đại học Khoa học Tự nhiên thuộc Đại học Quốc gia Hà Nội, Trường Đại học Bách khoa Đà Nẵng và các tác giả khác, trong các công trình [6], [7], [15] đã phát triển, vận dụng lý thuyết ánh xạ đóng vào việc giải quyết một số bài toán và thu được một số kết quả khả quan bước đầu như chứng minh sự tương đương giữa cấu trúc phụ thuộc hàm và ánh xạ đóng, thiết lập sự tương quan giữa khóa của lược đồ quan hệ và cơ sở của ánh xạ đóng, … Các kết quả nghiên cứu này cho thấy có thể vận dụng khái niệm ánh xạ đóng để tiếp tục nghiên cứu các vấn đề thuộc về ngữ nghĩa dữ liệu
Ngoài ra, lý thuyết giàn cũng được nhiều nhà khoa học, chẳng hạn như G Birkhoff công bố trong nhiều công trình và xuất bản thành sách [25] bắt đầu từ
những năm 1940 Cho đến cuối những năm 90 trở lại đây, trong các công trình [6], [40], các tác giả đã vận dụng lý thuyết giàn giao để chứng minh một số bài toán biểu diễn các đối tượng của một hệ suy dẫn cũng như ứng dụng lý thuyết giàn vào lĩnh vực khai phá dữ liệu, cụ thể là khai thác tập phổ biến, tập phổ biến đóng, khai thác luật kết hợp, … Việc tiếp tục nghiên cứu lý thuyết giàn để phát triển, biểu diễn các đối tượng của hệ suy dẫn cũng như ứng dụng vào một số lĩnh vực trong công nghệ thông tin cũng là một vấn đề rất đáng quan tâm
Trong lĩnh vực khai phá dữ liệu, một trong những bài toán cơ bản nhận được nhiều sự quan tâm cho đến nay là làm sao khai thác được luật kết hợp một cách hiệu
Trang 14quả Khai thác luật kết hợp là bài toán phát hiện mối quan hệ giữa các mục dữ liệu với nhau trong một cơ sở dữ liệu giao tác Từ năm 1993, trong [44] nhóm các nhà
nghiên cứu đứng đầu là Agrawal đã đề xuất bài toán khai thác luật kết hợp và cho
đến nay đã có rất nhiều thuật toán được công bố nhằm nâng cao hiệu quả khai thác Hầu hết các thuật toán này đều được thực hiện theo hai giai đoạn: giai đoạn đầu tiên khai thác các tập phổ biến, sau đó sinh luật kết hợp từ các tập phổ biến tìm được trong giai đoạn thứ nhất
Khai thác tập phổ biến là giai đoạn cơ bản và mất nhiều thời gian nhất trong quá trình khai thác luật kết hợp Nhìn chung, có hai nhóm phương pháp cơ bản để
khai thác tập phổ biến: Phương pháp sinh ứng viên mà đại diện là Apriori [45] và
phương pháp không sinh ứng viên dựa vào cây FP-tree do nhóm nghiên cứu của J Han đề xuất [32], dựa vào cây IT-tree do các nhóm nghiên cứu trong [17], [39] đề xuất và cải tiến
Mặc dù có nhiều kết quả đáng kể trong việc đề xuất và cải tiến các thuật toán khai thác tập phổ biến, tuy nhiên trong thực tế có rất nhiều cơ sở dữ liệu mà số lượng tập phổ biến khai thác được khá lớn dẫn đến việc quản lý không gian lưu trữ không hiệu quả cũng như sinh ra nhiều luật dư thừa cần loại bỏ trong quá trình khai thác luật kết hợp Để giải quyết vấn đề này, khái niệm tập phổ biến đóng là tập phổ biến thỏa tính chất không tồn tại tập phổ biến cha có cùng độ phổ biến với nó được
đề xuất lần đầu tiên vào năm 1999 trong [43] Tính chất này giúp cho việc quản lý các tập phổ biến giảm đi khá nhiều nhưng vẫn đảm bảo việc sinh luật kết hợp đầy
đủ Tuy nhiên, nếu các cơ sở dữ liệu quá lớn thì số lượng tập phổ biến đóng cần quản lý vẫn khá lớn, khái niệm tập phổ biến tối đại được sử dụng để giải quyết vấn
đề này Tập phổ biến tối đại là tập phổ biến thỏa tính chất không tồn tại tập phổ biến
là tập cha của tập này Khái niệm tập phổ biến tối đại được trình bày trong [18] vào năm 1997 và đến 2005 thì nhóm nghiên cứu của Zaki trong [34] cũng đề xuất một thuật toán để khai thác một cách hiệu quả tập phổ biến tối đại Phương pháp chính
mà nhóm của Zaki đề xuất trong thuật toán này là sử dụng chiến lược tìm kiếm quay lui và sử dụng một số kỹ thuật tối ưu trong việc xén không gian tìm kiếm Thuật
Trang 15toán này đã cải thiện hiệu quả tính toán khá tốt Từ năm 2007 đến nay, nhiều thuật toán khai thác tập phổ biến liên tục được đề xuất và cải tiến trên các cơ sở dữ liệu lớn được công bố, chẳng hạn như trong [33], [51] sử dụng các kỹ thuật như BitTableFI, trong [37] sử dụng kỹ thuật khai thác song song, trong [30] sử dụng kỹ thuật phân hoạch thứ cấp, … Bài toán khai thác tập phổ biến tối đại có sử dụng lại các thuật toán trên nhằm mục tiêu cải tiến hiệu quả tính toán là vấn đề cần tiếp tục nghiên cứu, bổ sung
Song song đó, một vấn đề thường gặp khi cung cấp dữ liệu khai thác cho các trung tâm khai thác dữ liệu, một số cơ sở không muốn công bố các luật vi phạm đến
tính riêng tư của cơ sở mình Thí dụ, X là tập mục thể hiện các thông tin về các máy bay xuất xưởng, Y là tập mục chứa các thông tin về các sự cố và tai nạn hàng không của loại máy bay đó Việc công bố mối tương quan giữa X và Y là điều bất lợi cho hãng sản xuất Các tập mục X, Y như thế được gọi là các tập mục nhạy cảm Để ẩn
các tập mục nhạy cảm này và không vi phạm các nguyên tắc trao đổi dữ liệu, đã có các thuật toán đề xuất của nhóm nghiên cứu của Xingzhi và cộng sự trong [50] vào năm 2007, sau đó được cải tiến bởi nhóm nghiên cứu của George V Moustakides
và các cộng sự trong [28] công bố vào năm 2008 với thuật toán MaxMin khảo sát
các tập mục nằm sát trên và sát dưới các tập mục nhạy cảm với chức năng xác định các mục dữ liệu cần sửa nhằm giảm độ phổ biến của các tập mục nhạy cảm Các thuật toán trên đã góp phần giải quyết được yêu cầu đề ra của bài toán Tuy nhiên,
cơ sở toán học để tiếp cận bài toán trên chưa được các tác giả đề cập đến Việc tìm kiếm một cơ sở toán học để tiếp cận, giải quyết bài toán được rõ ràng và trong sáng cũng là vấn đề cần tiếp tục nghiên cứu
Mặt khác, trong khoảng những năm 2000 trở lại đây, việc khảo sát về một hệ suy dẫn gọi là hệ sinh AXĐ cũng nhận được nhiều sự quan tâm của các nhà nghiên cứu Hệ sinh AXĐ là một cặp = (U,F), trong đó, U là tập nền (hay còn gọi là tập các sự kiện), F là tập các luật dẫn dạng L R; L, R U Cơ chế lập luận trong các
hệ sinh được xây dựng dựa trên hệ tiên đề Armstrong bao gồm các tiên đề phản xạ,
gia tăng và bắc cầu Điểm đặc biệt ở đây mà trong các công trình [5], [6] các tác giả
Trang 16đã chỉ ra là mỗi hệ sinh xác định duy nhất một ánh xạ đóng và ngược lại mỗi ánh xạ đóng thì được đặc trưng bởi một hệ sinh Một trong những hệ sinh AXĐ thường gặp
trong lý thuyết cơ sở dữ liệu là lược đồ quan hệ (LĐQH), trong dó U là tập các thuộc tính, F là tập các phụ thuộc hàm, các luật suy dẫn làm việc dựa trên hệ tiên đề Armstrong Tuy nhiên, để quản lý các hệ suy dẫn lớn và phức tạp thì cần phải có
nhiều thuật toán hiệu quả để tính toán các đối tượng như tập bao, cơ sở, phản cơ
sở, Một nhận xét hiển nhiên là nếu kích thước của các hệ suy dẫn càng nhỏ thì
có thể giảm được không gian lưu trữ và tăng hiệu quả các thuật toán xử lý chúng Trong các công trình được công bố [5], [6], các tác giả đã vận dụng kỹ thuật thu gọn
hệ sinh để giải quyết vấn đề này Bản chất của kỹ thuật thu gọn hệ sinh là loại bỏ đi một số phần tử trong hệ sinh ban đầu để thu được một hệ sinh mới đơn giản hơn theo nghĩa có ít phần tử hơn, tập luật sinh mới sau khi thu gọn cũng có thể giảm đi
về số lượng và kích thước của các vế trái và vế phải của các luật Điểm đặc biệt ở đây là mặc dù hệ sinh mới nhận được sau khi thực hiện phép thu gọn không tương đương với hệ sinh ban đầu, nhưng lại hoàn toàn có thể biểu diễn được các đối tượng như ảnh, cơ sở, phản cơ sở, … của hệ sinh ban đầu thông qua các đối tượng cơ sở, phản cơ sở, … của hệ sinh sau khi thu gọn bằng một số các phép toán đơn giản Từ
đó, các tác giả trong nhiều công trình [5], [6] đã phát biểu nhiều định lý, bổ đề với mục tiêu biểu diễn và tính toán các đối tượng như cơ sở, phản cơ sở, … của một hệ sinh trở nên đơn giản hơn và hiệu năng tính toán được cải thiện Tuy nhiên, việc chọn lựa các phần tử để loại bỏ trong hệ sinh, hay nói cách khác, việc chọn lựa một tập con như thế nào để đạt hiệu quả khi thực hiện phép thu gọn là vấn đề cần tiếp tục nghiên cứu
Bên cạnh kỹ thuật thu gọn hệ sinh, trong thời gian gần đây, một hệ sinh đặc biệt gọi là hệ sinh cân bằng được đề xuất trong [V], [VI] và được trình bày trong
luận án của tác giả Lương Nguyễn Hoàng Hoa [2] Hệ sinh AXĐ α = (U, F) gọi là cân bằng nếu α thỏa các tính chất: Hợp các vế trái, vế phải của các luật sinh trong F đúng bằng tập U; F không chứa các luật sinh tầm thường, tức là các luật sinh có vế trái chứa vế phải; Hai vế trái và phải của mọi luật sinh trong F rời nhau (không giao
Trang 17nhau); Các vế trái của mọi luật sinh trong F khác nhau đôi một
Các tác giả đã chỉ ra sau khi thu gọn một hệ sinh về hệ sinh cân bằng thi tập cơ
sở của hệ sinh ban đầu được dễ dàng xác định thông qua phép hợp tập cơ sở của hệ
sinh cân bằng sau khi thu gọn với tập U I (U I là giao các cơ sở của hệ sinh ban đầu)
Thuật toán xác định U I được thực hiện với độ phức tạp tính toán đa thức Vấn đề cần tiếp tục nghiên cứu là xây dựng một thuật toán để thu gọn một hệ sinh bất kỳ về dạng hệ sinh cân bằng
1 Tiếp tục nghiên cứu, biểu diễn các đối tượng của một hệ suy dẫn về mặt ngữ nghĩa theo ngôn ngữ của ánh xạ đóng
2 Nghiên cứu lý thuyết giàn để tiếp tục phát triển, biểu diễn các đối tượng của
hệ suy dẫn cũng như ứng dụng vào một số lĩnh vực trong công nghệ thông tin
3 Nghiên cứu, xây dựng một thuật toán để thu gọn một hệ sinh AXĐ về dạng
hệ sinh cân bằng
3 Phương pháp nghiên cứu
- Vận dụng các phương pháp và cấu trúc của toán học rời rạc (bao gồm cả logic hình thức) để chứng minh một số kết quả trong luận án
- Đối sánh các kết quả thu được về mặt lý thuyết và thuật toán với các kết quả
đã công bố nhằm đánh giá ý nghĩa và hiệu quả của các kết quả trong khuôn khổ luận án
Trang 18- Tổng hợp tài liệu và các kết quả nghiên cứu đã được công bố có liên quan đến
đề tài
- Trao đổi, học hỏi với các chuyên gia đang làm việc cùng lĩnh vực đang nghiên cứu và các lĩnh vực có liên quan
4 Bố cục luận án
Luận án gồm 115 trang được trình bày trong ba chương, phần mở đầu, phần
kết luận, danh mục các công trình và tài liệu tham khảo với cấu trúc như sau:
Chương 1 Một số khái niệm cơ bản trong cơ sở dữ liệu quan hệ và khai
phá dữ liệu
Chương này đề cập đến một số khái niệm chung và cơ bản nhất về lý thuyết cơ
sở dữ liệu quan hệ, cụ thể như khái niệm về quan hệ, bộ, thuộc tính, LĐQH, khái niệm phụ thuộc hàm, bao đóng của tập phụ thuộc hàm, bao đóng tập thuộc tính, bài toán thành viên, khóa và phản khóa, … Ngoài ra, trong chương cũng trình bày thêm một số khái niệm cơ bản được sử dụng khi khai phá dữ liệu như khái niệm về
cơ sở dữ liệu giao tác, tập phổ biến, luật kết hợp, … , kết nối Galois và một số tính
chất cơ bản
Chương 2 Ánh xạ đóng & Lý thuyết giàn giao và ứng dụng
Chương này giới thiệu một số khái niệm, tính chất của ánh xạ đóng và lý thuyết giản giao Kết quả mới trong chương gồm có phát biểu về một điều kiện đủ
để phép hợp thành các AXĐ là một AXĐ và điều kiện để một họ con các AXĐ đóng với phép hợp thành Ngoài ra, một số kết quả đạt được khi xây dựng các ứng dụng của AXĐ, lý thuyết giàn giao trong các bài toán khai phá dữ liệu và lý thuyết
cơ sở dữ liệu cũng được trình bày ở đây
Chương 3 Hệ sinh ánh xạ đóng và một số kết quả nghiên cứu
Trong chương chủ yếu trình bày các định nghĩa, tính chất quan trọng của hệ sinh AXĐ và các định lý, bổ đề biểu diễn cơ sở, phản cơ sở của hệ sinh AXĐ thông
Trang 19qua kỹ thuật thu gọn hệ sinh Kết quả mới và chủ yếu trong chương này là đề xuất một dạng biểu diễn phản cơ sở của hệ sinh theo vế phải tối đại của tập luật sinh cùng với thuật toán thu gọn một hệ sinh bất kỳ về một hệ sinh đơn giản gọi là hệ sinh cân bằng và định lý về tính đúng của thuật toán Bên cạnh đó, trong chương cũng trình bày một số kết quả nghiên cứu thu được khi xây dựng các dạng giản lược của tập luật sinh, sự tương quan giữa các đối tượng trong hệ sinh AXĐ, …
Các ký hiệu và quy ước sau cũng được sử dụng xuyên suốt trong các chương
Các phần tử của tập hợp được ký hiệu bằng các ký tự đầu bảng chử cái A, B, C,… Các tập được ký hiệu bằng các ký tự cuối bảng chữ cái X, Y, Z, Các phần tử trong
một tập được liệt kê như một xâu ký tự, không sử dụng các ký hiệu biểu diễn tập
hợp truyền thống, chẳng hạn ta viết X = ABC thay vì viết X = {A, B, C}, XY là biểu diễn hợp của hai tập X và Y, thay vì X Y Phép trừ hai tập X và Y được ký hiệu là X\Y Tập vũ trụ hay tập nền U được cho trước luôn luôn là hữu hạn và khác trống
|M| cho biết lực lượng của tập M Ký hiệu PoSet(U) là họ toàn thể các tập con của U với thứ tự bộ phận bao hàm () Với mỗi họ các tập con của U ta kí hiệu là
giao của các tập con trong họ
Trang 20CHƯƠNG 1
MỘT SỐ KHÁI NIỆM CƠ BẢN VỀ CƠ SỞ
DỮ LIỆU QUAN HỆ VÀ KHAI PHÁ DỮ LIỆU
Mô hình quan hệ là mô hình dữ liệu được sử dụng rộng rãi và phổ biến nhất hiện nay trong cơ sở dữ liệu do tính trực quan, kiến trúc đơn giản và có một cơ sở toán học chặt chẽ
Chương này sẽ tóm lược và trình bày lại một số nội dung và tính chất cơ bản trong lý thuyết cơ sở dữ liệu cùng với các khái niệm được sử dụng trong lĩnh vực khai phá dữ liệu Những nội dung này có liên quan đến việc trình bày một số ứng dụng từ các kết quả nghiên cứu thu được trong luận án Phần thứ nhất của chương trình bày các khái niệm mở đầu về cơ sở dữ liệu quan hệ Phần thứ hai của chương
mô tả các khái niệm và một số tính chất của phụ thuộc hàm cùng các hệ tiên đề cho
phụ thuộc hàm với nền tảng là hệ tiên đề Armstrong Trong phần này cũng trình bày
khái niệm về lược đồ quan hệ, khái niệm bao đóng của tập phụ thuộc hàm, định lý phát biểu về sự tương đương giữa các loại suy dẫn theo tiên đề, suy dẫn theo quan
hệ và suy dẫn theo quan hệ có không quá p bộ Một trong những khái niệm cơ bản
của phụ thuộc hàm là bao đóng của tập thuộc tính, các tính chất cơ bản của phép toán lấy bao đóng cùng với thuật toán tìm bao đóng của tập thuộc tính cũng được trình bày ở đây Cuối cùng trong phần này là phát biểu bài toán thành viên về điều kiện cần và đủ để một phụ thuộc hàm được suy dẫn từ một tập phụ thuộc hàm cho trước Các khái niệm cơ bản có liên quan đến phụ thuộc hàm như khóa, phản khóa cùng với đặc trưng của các thuộc tính khóa, công thức tính giao các khóa và điều kiện để một LĐQH có khóa duy nhất được trình bày trong phần thứ ba của chương Phần cuối cùng trong chương sẽ trình bày một số khái niệm cơ bản trong lĩnh vực khai phá dữ liệu như khái niệm về cơ sở dữ liệu giao tác, khái niệm tập phổ biến,
khái niệm luật kết hợp và một vài tính chất quan trọng trong kết nối Galois
Trang 211.1 Khái niệm về cơ sở dữ liệu quan hệ
Cơ sở dữ liệu quan hệ và các khái niệm cơ bản đã được trình bày đầu tiên trong các công trình của Codd [16] Trong [9], [10] đã trình bày khá đầy đủ các khái niệm liên quan đến các hệ cơ sở dữ liệu và tri thức Riêng về cơ sở dữ liệu quan hệ, các tác giả trong các công trình [1], [6], [9], [10], [11], [23], [26], [28], [35], [49] đã giới thiệu khá đầy đủ những khái niệm và các bài toán cơ bản liên quan đến các vấn
đề lý thuyết cũng như thực hành Ở đây, chỉ trình bày tóm tắt lại các khái niệm về quan hệ, thuộc tính, bộ cùng một vài ký hiệu và quy ước
Định nghĩa 1.1
Cho tập hữu hạn và khác rỗng U = {A 1 , A 2 , , A n } với n 0 Các phần tử
thuộc U gọi là thuộc tính Với mỗi thuộc tính A i U, i = 1, 2, , n là một tập tương ứng dom(A i) với dom(A i) 2 được gọi là miền giá trị của thuộc tính A i Gọi
D = ⋃ ( ) Ta ký hiệu quan hệ R với các thuộc tính trên U là R(U), với R
là một tập các ánh xạ t: U D với t(A i) dom(A i), A i U Mỗi ánh xạ gọi là một
bộ của quan hệ R
Mỗi quan hệ R(U) là hình ảnh của một bảng hai chiều, mỗi cột tương ứng với một thuộc tính, mỗi dòng tương ứng với một bộ, ký hiệu là t(U) Nếu một quan hệ không chứa bộ nào thì ta gọi đó là quan hệ rỗng, ký hiệu là
1.2 Phụ thuộc hàm
Một trong những lớp phụ thuộc logic được Codd đề xuất đầu tiên [16] là phụ thuộc hàm đóng một vai trò quan trọng trong việc thiết kế và xử lý các cơ sở dữ liệu Các khái niệm cơ bản về phụ thuộc hàm, bao đóng tập phụ thuộc hàm, các loại suy dẫn theo tiên đề, suy dẫn theo quan hệ, định lý tương đương giữa các loại suy dẫn và lược đồ quan hệ sẽ được trình bày trong phần này Ngoài ra, khái niệm bao đóng của tập thuộc tính và bài toán thành viên cùng với thuật toán tìm bao đóng tập thuộc tính cũng được trình bày ở đây Các khái niệm này cũng được nhiều tác giả
công bố đầy đủ trong các công trình [1], [6], [9], [10], [11], [16], [23], [35]
Trang 221.2.1 Khái niệm phụ thuộc hàm
Cho tập thuộc tính U hữu hạn, khác rỗng Một phụ thuộc hàm trên U có dạng:
f: X Y ; X, Y U Nếu f: XY là một phụ thuộc hàm trên U thì ta nói tập thuộc tính Y phụ thuộc vào tập thuộc tính X, hoặc tập thuộc tính X xác định hàm tập thuộc tính Y Để xác định vế trái và vế phải của PTH f, ta sử dụng các toán tử LS(f) và RS(f) Thí dụ như, nếu có f: X Y thì LS(f) = X và RS(f) = Y
Cho quan hệ R(U) và một PTH f: XY trên U Ta nói quan hệ R thoả PTH f
và viết R(f), nếu hai bộ tuỳ ý trong R giống nhau trên X thì chúng cũng giống nhau trên Y, nghĩa là,
R(XY) (u,v R): (u.X = v.X) (u.Y = v.Y)
Ký hiệu X ↛ Y cũng được sử dụng với ý nghĩa là tập thuộc tính Y không phụ thuộc hàm vào tập thuộc tính X
Cho tập PTH F trên tập thuộc tính U, quan hệ R(U) được gọi là thoả tập PTH
F, viết là R(F), nếu R thoả mọi PTH trong F Ta có thể viết,
R(F) ( f F): R(f) Cho tập PTH F trên tập thuộc tính U, ta ký hiệu SAT(F) là tập toàn thể các quan hệ trên U thoả tập PTH F, SAT p (U), p 1 là tập toàn thể các quan hệ có không quá p bộ trên U và thoả tập PTH F, REL(U) là tập toàn thể các quan hệ trên U, REL P (U) là tập toàn thể các quan hệ có không quá p bộ trên U Ta có thể viết,
SAT(F) = { R | RREL(U), R(F) }, SAT p (F) = { R | RREL p (U), R(F) }
Nếu gọi là tập các quan hệ trên tập thuộc tính U, ký hiệu FD() là tập các
PTH trên U đúng trong mọi quan hệ của
Trang 231.2.2 Lược đồ quan hệ
Cặp a = (U, F) được gọi là một lược đồ quan hệ (LĐQH) với U là tập hữu hạn các thuộc tính, F là tập các PTH trên tập thuộc tính U Khái niệm về lược đồ quan
hệ đã được các tác giả đề cập đến trong nhiều công trình như [6], [26], [35]
Trong trường hợp không chỉ rõ tập F, ta xem LĐQH chỉ là một tập hữu hạn các thuộc tính U
F, áp dụng các luật F1, F2 và F3 của hệ tiên đề Armstrong sau một số lần hữu hạn thì ta sẽ thu được PTH f.
Trang 24Định nghĩa 1.4
Gọi F là tập PTH trên tập thuộc tính U và f là một PTH trên U PTH f được nói là suy dẫn theo quan hệ từ tập PTH F, ký hiệu là F├ f, nếu mọi quan hệ R(U) thoả F thì cũng thoả f,
Tử các định nghĩa trên, trong công trình [10] tác giả đã khẳng định suy dẫn
theo quan hệ và suy dẫn theo tiên đề là một, nghĩa là F + = F* Nói cách khác, ta có:
F╞ f F├ f
Định nghĩa 1.6
Cho tập thuộc tính U và F là tập PTH trên U Gọi f là một PTH trên U f gọi
là PTH được suy dẫn theo quan hệ có không quá p bộ từ F và viết F ├ p f, nếu mọi quan hệ R trong REL p (U) thoả tập F thì R cũng thoả f
F├ p f SAT p (F) SAT p (f) Gọi F là tập PTH trên tập thuộc tính U, F' được định nghĩa là tập các PTH trên U được suy dẫn theo quan hệ có không quá hai bộ từ tập PTH F Khi đó,
Trang 25(i) Suy dẫn logic: F╞ f ,
(ii) Suy dẫn theo quan hệ: F├ f , và
(iii) Suy dẫn theo quan hệ có không quá hai bộ: F├ 2 f
1.2.5 Bao đóng tập thuộc tính
Bao đóng tập thuộc tính là một trong những khái niệm cơ bản của phụ thuộc hàm Phần này sẽ trình bày khái niệm về bao đóng tập thuộc tính cùng một số tính chất quan trọng Thuật toán xác định bao đóng tập thuộc tính cũng được trình bày
Việc xác định bao đóng tập thuộc tính giữ vai trò quan trọng khi tính toán, tìm
kiếm các đối tượng khóa, phản khóa và xác định dạng chuẩn trong LĐQH Chúng ta xét một số tính chất cơ bản của bao đóng sau đây,
Cho LĐQH a = (U, F) Khi đó X, Y U, ta có
(viii) X+ = Y+ khi và chỉ khi XY và YX
Thuật toán Closure trong [35] trình bày cách xác định bao đóng của tập thuộc tính X đối với tập phụ thuộc hàm F trên U như sau,
Trang 261.2.6 Bài toán thành viên
Để xác định một PTH f có thuộc về tập F+ của một LĐQH hay không, người ta
sử dụng bài toán thành viên Bài toán được phát biểu như sau: Cho tập thuộc tính U, một tập các PTH F trên U và một PTH f: XY trên U Hỏi rằng, f F+ hay không? Với bài toán này, trong [35] tác giả đã phát biểu định lý thành viên với nội dung cụ
thể là, XY F + khi và chỉ khi Y X + Thí dụ như, cho U=ABC, F={AB,
BC} Hỏi ACF+? Do A+ = ABC C Kết luận, ACF+
1.3 Khóa và phản khóa của lược đồ quan hệ
Khi làm việc với một LĐQH thì khóa và phản khóa là những khái niệm rất cơ bản và quan trọng Những khái niệm này đã được các tác giả trình bày đầy đủ trong
Trang 27các công trình [6], [9], [16], [26], [35], [49] Sau đây là phần trình bày lại một số
khái niệm và tính chất có liên quan đến khóa và phản khóa của LĐQH
1.3.1 Khóa của lược đồ quan hệ
Nếu K thoả điều kiện (i) (hoặc (i') thì K được gọi là một siêu khoá
Thuộc tính A U được gọi là thuộc tính khoá (nguyên thuỷ hoặc cơ sở) nếu A
có trong một khoá nào đấy A được gọi là thuộc tính không khoá (không nguyên thuỷ hoặc thứ cấp) nếu A không xuất hiện trong bất kỳ khoá nào của LĐQH
Cho LĐQH a = (U, F) Ta ký hiệu U K là tập các thuộc tính khóa của a và U 0 là
tập các thuộc tính không khóa của a Ta có thể nhận thấy U K |U o tạo thành một phân
hoạch trên U Một số các tính chất cơ bản về khóa của LĐQH được trình bày lại ở
đây qua các định nghĩa và tính chất sau,
Định nghĩa 1.8
Tập thuộc tính Y U được gọi là phụ thuộc đầy đủ vào tập thuộc tính X U,
và được ký hiệu là X Y nếu,
(i) X Y, và
(ii) (A X): X \ A ↛ Y
Khi nghiên cứu về khóa của một LĐQH, trong nhiều công trình, chẳng hạn
như trong [6], [35], [49], các tác giả đã phát biểu một số tính chất sau của khóa,
Trang 28Cho LĐQH a = (U, F) Khi đó,
(i) K U là một khoá khi và chỉ khi U phụ thuộc đầy đủ vào K
(ii) Hai khoá khác nhau của một LĐQH không bao nhau
(iii) Mọi LĐQH đều có ít nhất một khoá
Ngoài ra, trong công trình [6] tác giả đã phát biểu về tính chất đặc trưng của
các thuộc tính khóa như sau,
Cho K là một khóa của LĐQH a = (U, F) Khi đó, X K: X+ K=X
Việc xác định khóa của một LĐQH đóng vai trò quan trọng Trong [19], [20]
các tác giả đã trình bày một công thức tính giao các khóa và từ đó phát biểu điều
kiện để một LĐQH có duy nhất một khóa Công thức được mô tả như sau,
Cho LĐQH a = (U, F) với n thuộc tính trong U và m PTH trong F Gọi U I là giao các khóa của a Khi đó, ta có thể xác định giao các khóa của a bằng một thuật toán tuyến tính với độ phức tạp cỡ O(mn) qua công thức sau,
F R L
Từ công thức tính giao các khóa trên của LĐQH, phát biểu về điều kiện cần
và đủ để một LĐQH có khóa duy nhất được các tác giả trong [20] trình bày như sau,
Cho LĐQH a = (U, F) Gọi U I là giao các khóa trong a Khi đó a có một khóa duy nhất khi và chỉ khi U I + = U
Một khái niệm đối ngẫu với khóa là phản khóa Đối ngẫu ở đây được hiểu theo nghĩa khóa là tập nhỏ nhất có bao đóng là U, còn phản khóa là tập lớn nhất có bao đóng khác U Khái niệm về một tập con được gọi là phản khóa và ký hiệu về
các tập được sử dụng trong LĐQH được trình bày qua phần sau,
1.3.2 Phản khóa của lược đồ quan hệ
Định nghĩa 1.9
Cho LĐQH a = (U, F) Tập con P U được gọi là phản khóa của a nếu:
i P + U, và
Trang 29+ Key(a) là tập các khóa của a,
+ SuperKey1(a) là tập các phần tử đồng thời là siêu khóa của a, nghĩa là
SuperKey1(a) = { A U | f(A) = U } + AntiKey(a) là tập các phản khóa của a
+ U K là tập các phần tử phản khóa của a , tức là các phần tử có mặt trong một phản khóa nào đó của a,
+ U I là giao các phản khóa của a, tức là các phần tử có mặt trong mọi phản khóa của a,
+ U o là tập các phần tử không có trong bất kỳ phản khóa nào của a
Ta cũng có nhận xét, U o | U K tạo thành một phân hoạch trên U
1.4 Một số khái niệm trong khai phá dữ liệu
Khai phá dữ liệu là một lĩnh vực nhận được rất nhiều sự quan tâm hiện nay do
tính ứng dụng hiệu quả và đa dạng của nó Phần này sẽ trình bày một số khái niệm
thường sử dụng trong lĩnh vực này như khái niệm về cơ sở dữ liệu giao tác, khái niệm tập phổ biến, luật kết hợp và một số khái niệm khác có liên quan Cũng trong phần này, kết nối Galois và một số tính chất cũng sẽ được đề cập
1.4.1 Một số khái niệm cơ bản
Cho một bảng T chứa các giá trị 0/1 gồm N dòng và M cột Các cột được đặt tên lần lượt A, B, C,… lấy từ một tập hữu hạn các phần tử U Mỗi phần tử trong U gọi là một mục dữ liệu (item), mỗi tập con X của U gọi là một tập mục dữ liệu (itemset) Mỗi dòng t của bảng T dược gọi là một giao tác (transaction) Với mỗi
Trang 30giao tác t T và mỗi mục A U, ký hiệu t.A là trị tương ứng xuất hiện trên giao của dòng t và cột A trong bảng T [45]
Cơ sở dữ liệu giao tác được định nghĩa là một cặp α = (T, I) với
I = {x 1 , x 2 , …, x n } là tập các mục dữ liệu và T = {t 1 , t 2 , …, t m } là tập các giao tác trên
α Mỗi giao tác t T được biểu diễn dưới dạng một vector nhị phân, trong đó giá trị tại vị trí i bằng 1 cho biết mục xi xuất hiện trong t, bằng 0 cho biết mục xi không
xuất hiện trong t
Cho cơ sở dữ liệu giao tác α = (T, I) và tập mục dữ liệu X I Ta gọi độ phổ biến của X trong α là số giao tác trong α chứa X, ký hiệu là (X)
Tập X I được gọi là tập phổ biến nếu (X) ≥ minsup với minsup là ngưỡng phổ biến do người dùng quy định
Dễ dàng nhận thấy rằng, nếu X Y U thì (X) (Y) Hệ thức này thể hiện tính nghịch biến của hàm đo độ phổ biến Từ đây, ta có thể suy ra được một tính chất là, mọi tập con của tập phổ biến là tập phổ biến Ngược lại, mọi tập cha của một tập không phổ biến thì không phổ biến
Thí dụ 1.1
Cho bảng T gồm 22 giao tác trong bảng 1.1 với ngưỡng phổ biến = 4 Khi
đó, họ các tập mục phổ biến bao gồm P = {A/10, B/11, C/8, D/12, E/18, AB/4, AD/4, AE/10, BE/8, CE/7, DE/9, ABE/4, ADE/4}, với số viết kèm tập mục là độ phổ biến của mục đó Chẳng hạn, DE/9 mang ý nghĩa là tập mục DE có độ phổ biến là 9 Bảng 1.2 mô tả độ phổ biến của các tập phổ biến khai thác được,
Trang 31+ Độ phổ biến của luật kết hợp X 1 → X 2, là ( X 1 X 2) = (X 1 X 2)
+ Độ tin cậy của luật kết hợp X 1 → X 2, là tỷ số (X 1 X 2) / (X 1)
+ Ta gọi X 1 → X 2 là luật phổ biến nếu (X 1 X 2 ) ≥ minsup, là luật tin cậy nếu
(X 1 X 2) / (X 1 ) ≥ minconf với minsup, minconf là ngưỡng phổ biến và ngưỡng tin cậy do người dùng quy định
Định nghĩa 1.11[38]
Cho cơ sở dữ liệu giao tác α = (T, I) Ta định nghĩa các ánh xạ sau,
t: Poset(I) → Poset(T), với t(X) = {u T | u.X = 1} Nói cách khác, t(X) là tập tất cả các giao tác trên T chứa mọi mục dữ liệu trong X
i: Poset(T) → Poset(I), với i(Y) = {x I | t Y, t.x = 1} Nói cách khác, i(Y)
là tập tất cả các mục dữ liệu thuộc I có mặt ở tất cả các giao tác t thuộc Y
Trang 32Cặp ánh xạ (t, i) được gọi là kết nối Galois Kết nối Galois thỏa các tính chất sau,
Trong chương này luận án đã trình bày sơ lược một số khái niệm cơ bản về cơ
sở dữ liệu quan hệ như các khái niệm về LĐQH, PTH, bao đóng của tập phụ thuộc hàm, bao đóng của tập thuộc tính, các đối tượng khóa, phản khóa và các khái niệm, tính chất thường dùng trong lĩnh vực khai phá dữ liệu Những khái niệm được trình bày lại một cách tóm lược là cơ sở để giải trình những kết quả nghiên cứu cũng như các đóng góp của luận án trong các chương tiếp theo
Trang 33Trong chương này của luận án sẽ trình bày một số khái niệm và tính chất cơ bản của ánh xạ đóng, vai trò của AXĐ trong việc ứng dụng giải quyết các bài toán
về khai phá dữ liệu và lý thuyết cơ sở dữ liệu Các khái niệm trình bày ở đây đóng vai trò cơ bản trong kết quả nghiên cứu của luận án Phần thứ nhất của chương trình bày các định nghĩa cơ sở và một số tính chất quan trọng của AXĐ Phần tiếp theo giới thiệu phép toán hội trên các AXĐ và mệnh đề khẳng định không gian các AXĐ
là đóng với phép hội Một phép toán quan trọng khác là phép hợp thành các AXĐ được giới thiệu trong phần này cùng với phát biểu và chứng minh các định lý về điều kiện cần và đủ để hợp thành các AXĐ là một AXĐ Bên cạnh đó, trong phần này cũng trình bày một số kết quả nghiên cứu thu được của luận án, cụ thể là phát biểu và chứng minh một điều kiện đủ để phép hợp thành các AXĐ là một AXĐ cũng như chỉ ra điều kiện để họ tập con các AXĐ đóng với phép hợp thành Cuối cùng trong phần này cũng trình bày một ứng dụng của phép hợp thành các AXĐ trong lý thuyết CSDL Phần thứ ba của chương trình bày các khái niệm về cơ sở và phản cơ sở của ánh xạ đóng Các khái niệm về giàn giao và một số dạng biểu diễn tập sinh của giàn giao, sự tương quan giữa các tập cực đại trong giàn giao và tập sinh của giàn giao, phát biểu về tập các điểm bất động của AXĐ tạo thành một giàn
giao, đặc trưng tập đối nguyên tử của giàn giao cùng với thuật toán Gen dùng để
Trang 34xác định tập sinh, tập đối nguyên tử của giàn giao được trình bày trong phần thứ tư của chương Trong phần này cũng trình bày sự tương quan giữa tập phản cơ sở của ánh xạ đóng và tập đối nguyên tử của giàn giao Phần thứ năm của chương phát biểu và đề xuất một giải pháp với bài toán ứng dụng lý thuyết giàn giao để ẩn các tập mục nhạy cảm trong khai phá dữ liệu Phần cuối cùng của chương trình bày một kết quả thu được với ứng dụng lý thuyết giàn giao vào bài toán xác định tập phổ biến tối đại trong lĩnh vực khai phá dữ liệu
Để đơn giản và tiện theo dõi, trong chương cũng sử dụng ký hiệu X Y, X được gọi là tập con thực sự của Y, theo nghĩa X Y và X Y
Trang 352.1 Ánh xạ đóng
AXĐ thuộc về họ các ánh xạ dùng để thiết lập mối quan hệ giữa các tập con của một tập hữu hạn thỏa các tính chất phản xạ, đồng biến và lũy đẳng AXĐ được xem là một công cụ toán học có nhiều ứng dụng trong các lĩnh vực như cơ sở dữ liệu, khai phá dữ liệu, … Các khái niệm này đã được trình bày khá đầy đủ trong nhiều tài liệu [6], [24], [41], phần sau đây chỉ trình bày lại một cách tóm lược các định nghĩa và tính chất cơ bản của AXĐ
Ánh xạ tối đại: (X) = U với mọi X U,
Ánh xạ đồng nhất: e(X) = X với mọi X U,
Ánh xạ tịnh tiến: h T (X) = TX với mọi X U và T là tập con cố định tùy ý cho trước trong U
Trường hợp T = U thì ánh xạ tịnh tiến theo T trở thành ánh xạ tối đại,
h U = , trường hợp T = thì ánh xạ tịnh tiến theo T trở thành ánh xạ đồng nhất,
h = e Điều này cho thấy có thể dùng ánh xạ tịnh tiến làm cơ sở đặc tả họ các ánh
xạ đóng { , h T , e}
Ngoài ba tính chất phản xạ, đồng biến và lũy đẳng, AXĐ còn thỏa một số các tính chất sau,
Trang 36Gọi f là một AXĐ cho trước trên U Khi đó, với mọi X,Y U, ta thu được, (iv) f(f(X)Y) = f(Xf(Y)) = f(XY)
YX F + Áp dụng tính chất bắc cầu cho các phụ thuộc hàm trên, ta được
YA F + Hay nói cách khác thì A Y + Tính đồng biến chứng minh xong
- Tính lũy đẳng: (X +)+ = X +
Do bao đóng thỏa tính phản xạ nên X +(X +)+ Mặt khác, giả sử A (X +)+ ,
ta chứng minh A X + Do A (X +)+ nên X + A F +. Ngoài ra, B X + thì theo định nghĩa bao đóng ta được XB F + Suy ra, XX + F + Áp dụng tính bắc cầu cho các phụ thuộc hàm trên, ta được XA F +. Hay nói cách khác thì A X + Vậy (X +)+ X + Từ hai bao hàm thức trên, ta suy ra (X +)+ = X + Tính lũy đẳng được chứng minh
Thí dụ 2.3
Cho cơ sở dữ liệu giao tác α = (T, I) Với X I và Y T, ta định nghĩa,
C it : Poset(I) → Poset(I), C it (X) = i.t = i(t(X))
C ti : Poset(T) → Poset(T), C ti (Y) = t.i = t(i(Y))
Sử dụng các phát biểu (i), (ii) và (iii) trong tính chất của kết nối Galois đã được trình bày trong mục 1.4.2, ta chứng minh các ánh xạ hợp C it và C ti là AXĐ
Trang 37Trước hết, ta chứng minh C it là ánh xạ đóng, việc chứng minh C ti là AXĐ hoàn toàn tương tự
- Phản xạ: X C it (X)
Theo phát biểu (iii) thì X I thì X i(t(X)) = C it (X)
- Đồng biến: X Y C it (X) C it (Y)
Theo (ii), X, Y I thỏa X Y t(Y) t(X) Mặt khác, theo (i) với t(Y) t(X)
T thì i(t(X)) i(t(Y)) hay nói cách khác thì C it (X) C it (Y)
- Lũy đẳng: C it (X) = C it (C it (X)) hay i(t(i(Y))) = i(Y)
Y T, theo (iii) thì Y t(i(Y)) Mặt khác, áp dụng (i) ta có i(t(i(Y))) i(Y) Theo (iii), X I, X i(t(X)), Y T, i(Y) I Suy ra, Y T , i(Y) i(t(i(Y)))
Từ hai bao hàm thức trên, ta suy ra i(t(i(Y))) = i(Y)
Vậy C it là ánh xạ đóng
2.1.2 Phép hạn chế trên ánh xạ đóng
Bên cạnh các khái niệm trên, sau đây sẽ là phần trình bày về tính chất của
phép hạn chế AXĐ trên một tập con Đây cũng được xem là một tính chất cơ bản
của AXĐ,
Định nghĩa 2.2
Cho AXĐ f trên U và một tập con M của U Hạn chế của f trên M, ký hiệu f M
là ánh xạ trên M được xác định như sau:
X M: f M (X) = f(X ) M
Trong công trình [6], tác giả cũng đã phát biểu và chứng minh là với mọi
AXĐ f trên U và với mọi tập con M của U thì f M là một AXĐ trên M
2.1.3 Điểm bất động(tập đóng) trên ánh xạ đóng
Cho AXĐ f trên tập U hữu hạn Tập X U gọi là điểm bất động (tập đóng) của AXĐ f nếu f(X) = X
Trang 38Ta ký hiệu Fix(f) là tập toàn bộ các điểm bất động của AXĐ f Fix(f) luôn chứa
U do f(U) = U Mặt khác, dựa vào tính lũy đẳng của các AXĐ, ta còn có thể mô tả Fix(f) như sau, Fix(f) = { f(X) | X U }.
2.2 Các phép toán trên ánh xạ đóng
Bên cạnh các khái niệm và tính chất về AXĐ đã trình bày ở trên thì khi khảo
sát các phép toán trên AXĐ, các nhà nghiên cứu nhận thấy phép toán hội và phép toán hợp thành trên AXĐ cũng đóng một vai trò cơ bản trong việc giải quyết một số
bài toán ứng dụng trong cơ sở dữ liệu Phần sau đây sẽ lần lượt trình bày các định nghĩa, mệnh đề và định lý có liên quan đến hai phép toán trên Ngoài những kết quả
đã được tác giả công bố có liên quan đến các phép toán trên trong công trình [6], trong phần này của luận án cũng trình bày một vài kết quả nghiên cứu liên quan đến
các phép toán này, cụ thể là phát biểu một điều kiện đủ để phép toán hợp thành các
AXĐ là một AXĐ, đồng thời cũng chỉ ra điều kiện để họ con các AXĐ đóng với
phép toán hợp thành Ở đây, Close(U) được ký hiệu là tập toàn thể các AXĐ trên tập U hữu hạn
2.2.1 Phép toán hội
Định nghĩa 2.3
Cho các AXĐ f, g trên tập U hữu hạn Ánh xạ h được xác định trên U như sau, h(X) = f(X) g(X), với mọi X U Ta gọi h là phép hội của các AXĐ f và g Ký hiệu, h = f g
Trong [6] tác giả đã phát biểu và chứng minh rằng hội của hai AXĐ là một AXĐ Nói một cách khác, không gian các AXĐ đóng với phép toán hội
2.2.2 Phép toán hợp thành
Định nghĩa 2.4
Cho hai AXĐ f và g trên tập U hữu hạn Ánh xạ k được xác định trên U như sau, k(X) = f(g(X)), với mọi X U Ta gọi k là phép hợp thành của hai ánh xạ đóng f và g Ký hiệu, k = f g
Trang 39Ngoài ra, cũng trong tài liệu trên, tác giả cũng phát biểu và chứng minh tính phản xạ, tính đồng biến luôn đúng với phép hợp thành các AXĐ Tuy nhiên, phép toán này lại không thỏa tính lũy đẳng Phản thí dụ sau đây minh họa cho điều này
Giả sử có các ánh xạ f và g trên tập U = ABC như sau,
Đặt C là phần tử cố định trong U Giả sử X U Nếu C X ta đặt g(X)=X, ngược lại ta đặt g(X) = U Đối với ánh xạ f , X U, ta đặt f(X) = XC
Do ánh xạ tịnh tiến f = h C là AXĐ Ta sẽ chứng minh g cũng là AXĐ
Tính phản xạ của g là hiển nhiên Ta kiểm tra tính đồng biến và lũy đẵng của g Giả sử X Y U Nếu C X thì C Y và do đó g(X)=g(Y)=U Nếu C Y thì C X và ta có g(X)=X Y = g(Y) Nếu C Y và C X thì g(X)=X U= g(Y) Vậy g thỏa tính đồng biến
Nếu C X, theo giả thiết thì g(g(X)) = g(U) = U = g(X) Nếu C X thì cũng theo giả thiết ta có g(X) = X, suy ra g(g(X)) = g(X) Vậy g thỏa tính lũy đẵng
Hay nói cách khác, g là AXĐ
Đặt k = f g, ta chứng minh k không là AXĐ Thật vậy, xét tập X ={A} Khi
đó, k ( X ) = f ( g ( A ) ) = f ( A ) = A C
Mặt khác, k(k(X))=k(AC)=f(g(AC))=f(U)=U Bất đẳng thức k(k(X)) k(X) cho thấy phép hợp thành hai AXĐ không thoả tính lũy đẳng Do đó, k không là AXĐ
Từ phản thí dụ trên, do f g(A)=f(A)=AC, trong khi g f(A)=g(AC) = U Như
vậy, phép hợp thành cũng không thỏa tính giao hoán
Ngoài ra, nếu ký hiệu Map(U) là tập các ánh xạ từ Poset(U) Poset(U), trong [6] tác giả đã chỉ ra hợp thành của các ánh xạ trong Map(U) thỏa tính chất kết
hợp Do đó, trong biểu thức gồm một dãy các phép hợp thành các ánh xạ trong
Map(U), ta có thể gộp các phép hợp thành liên tiếp nhau thành từng nhóm bằng cách sử dụng các cặp dấu ngoặc Chẳng hạn, nếu có các ánh xạ f, g, h, k thuộc Map(U), thì ta có thể viết, f g h k = (f g) (h k).
Trang 40Một số tính chất của quan hệ “hẹp hơn” với các ánh xạ trên Map(U) cũng
được tác giả trình bày như sau,
(i) Phản xạ: f f,
(ii) Phản xứng: Nếu f g và g f thì f = g,
(iii) Bắc cầu: Nếu f g và g h thì f h
Tử các tính chất trên, ta kết luận quan hệ “hẹp hơn” là một thứ tự bộ phận trên Map(U)
Ngoài ra, một số tính chất về tính thành phần, tính gia tăng và tính tương đẳng của quan hệ “hẹp hơn” cũng được tác giả trong [6] trình bày qua các mệnh đề