sự phát triển nhanh chóng của các ứng dụng công nghệ thông tin và internet vào nhiều lĩnh vực đời sống xã hội, quản lý kinh tế, khoa học lỹ thuật... đã tạo ra nhiều cơ sở dữ liệu khổng lồ
Trang 10.1.MỞ ĐẦU
0.1.1 Khai thác dữ liệu
0.1.2 Khai thác dữ liệu trong các trình tự sinh học
0.2 MỤC TIÊU NGHIÊN CỨU CỦA LUẬN ÁN
0.3 CÁC CHƯƠNG MỤC CỦA LUẬN ÁN
0.4 CÁC ĐÓNG GÓP CỦA LUẬN ÁN
CHUONG 1:TAP PHO BIẾN VÀ LUẬT KẾT HỢP
1.1.MỞ ĐẦU
1.2 BÀI TOÁN KHAI THÁC TẬP PHỔ BIẾN
1.2.1 Các khái niệm cơ bản
1.2.2 Phát biểu bài toán và độ phức tạp
1.3 PHÁT TRIỂN THUẬT GIẢI KHÔNG TĂNG CƯỜNG ĐỂ TÌM
TẬP PHỔ BIẾN
1.3.1 Các khái niệm cơ bản
1.3.2.Phát triển thuật giải không tăng cường để tìm tập phổ biến
1.4 TÌM TẬP PHỔ BIẾN TỐI ĐẠI
1.4.1 Tìm tập phổ biến tốt đại bằng đồ thị liên kết các tập phổ biến
1.4.2 Quan hệ giữa bao đóng và tập phổ biến tối đại
1.4.3 Dùng bao đóng để giảm số lượng ứng viên cần tính độ phổ biến
1.4.4 So sánh thời gian truy cập đĩa
1.5 PHÁT TRIỂN THUẬT GIẢI TĂNG CƯỜNG ĐỂ TÌM TẬP PHỔ
BIẾN
19
21
26
26
27
30
33 35
Trang 2‘ii
1.5.1 Các khái niệm cơ bản
1.5.2 Dùng thuật giải tạo dàn khái niệm để tìm tập phổ biến
1.5.3 Duyệt dàn khái niệm tìm tập phổ biến bị đóng
1.5.4 Tìm các tập không phổ biến từ dàn khái niệm
1.5.5 Phân tích phí tổn bộ nhớ để lưu trữ dàn khái niệm
1.6 PHÁT TRIỂN THUẬT GIẢI TÌM LUẬT KẾT HỢP
1.6,1 Các khái niệm cơ bản
1.6.2 Phát biểu bài toán tìm luật kết hợp
1.6.3 Phát triển thuật giải tìm luật kết hợp
1.7 MỞ RỘNG BÀI TOÁN TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP
1.7.1 Luật kết hợp ở dạng phủ định
1.7.2 Luật kết hợp mờ
1.7.3 Dùng ngữ cảnh khai thác dữ liệu mờ vào bài toán bán hàng trong siêu thị có xem xét số lượng hàng mua
1.7.4 Tìm luật kết hợp giữa các ngữ cảnh khai thác dữ liệu mờ
1.8 DÙNG LUẬT KẾT HỢP ĐỂ PHÂN LỚP DỮ LIỆU VÀ MỞ
RỘNG HỆ SỐ PHỤ THUỘC THUỘC TÍNH TRONG LÝ THUYẾT
TẬP THÔ
1.8.1 Các khái niệm cơ bản
1.8.2 Độ chính xác của hàm phân lớp
1.8.3 Dùng luật kết hợp làm luật phân lớp dữ liệu
1.8.4 Dùng luật kết hợp để mở rộng hệ số phụ thuộc thuộc tính trong
lý thuyết tập thô
1.9 KẾT LUẬN
51
52
53
55
66
Trang 3CHUONG 2: DOAN LAP PHO BIEN
2.1 MG DAU
2.2 CÁC KHÁI NIỆM CƠ BẢN
2.3 PHÁT BIỂU BÀI TOÁN VÀ ĐỘ PHỨC TẠP
2.4 XÂY DỰNG THUẬT GIẢI KHÔNG TĂNG CƯỜNG ĐỂ TÌM ĐOẠN LẶP PHỔ BIẾN
2.5 XÂY DỰNG THUẬT GIẢI TĂNG CƯỜNG ĐỂ TÌM ĐOẠN LẶP
PHỔ BIẾN
2.5.1 Các khái niệm cơ bản
2.5.2 Thiết kế cấu trúc dữ liệu cho cây hậu tố
2.5.3 Thuật giải chèn chuỗi vào cây hậu tố mở rộng :
2.5.4 Thuật giải duyệt cây hậu tố mở rộng tìm đoạn lặp phổ biến
2.5.5 Phân tích ưu khuyết điểm của tiếp cận cây hậu tố mở rộng
2.6 DÙNG ĐOẠN LẶP PHỔ BIẾN ĐỂ PHÂN LỚP TRÌNH TỰ SINH
HỌC
2.6.1 Phát biểu bài toán
2.6.2 Định nghĩa hàm phân lớp qua đoạn lặp phổ biến
26.3 Chỉ số Gini
2.6.4 Tìm tổ hợp đồng hiện các đoạn lặp phổ biến
2.6.5 Tìm tổ hợp thứ tự các đoạn lặp phổ biến làm tiêu chuẩn phân lớp trình tự sinh học
2.7 KẾT LUẬN
67
68
70
70
75
75
76
79
81
81
82
82
83
84
84
86
92
Trang 4iv
CHƯƠNG 3: GOM CUM DU LIEU 3.1.MỞ ĐẦU
3.2 KHOẢNG CÁCH VÀ MỨC ĐỘ TƯƠNG TỰ
3.3 GOM CỤM PHẲNG BẰNG MẠNG KOHONEN
3.3.1 Kiến trúc cụm phẳng
3.3.2 Tiêu chuẩn đánh giá chất lượng gom cụm phẳng
3.3.3 Mạng Kohonen
3.3.4 Gom cụm từ lớp ra Kohonen
3.3.5 Học theo lối cạnh tranh
3.3.6 Thuật giải huấn luyện mạng Kohonen
3.3.7 Vấn đề hội tụ của thuật giải huấn luyện mạng Kohonen
3.3.8 Cải tiến thuật giấi huấn luyện mạng Kohonen dựa trên vùng lân
cận nơron chiến thắng
3.3.9 Cải tiến thuật giải huấn luyện mạng Kohonen dựa trên đặc tính
của vector nhập
3.3.10 Đặc trưng các cụm trên lớp ra Kohonen
3.3.11 Truy vấn tương tự qua lớp ra Kohonen
3.4 TẠO KIẾN TRÚC PHÂN CẤP CỤM BẰNG CÂY M-TREE
3.4.1 Kiến trúc phân cấp cụm
3.4.2 Cấu trúc cây M-tree
3.4.3 Tạo cây M-Tree
3.4.4 Truy vấn tương tự trên cây M-tree
3.4.5 Chuyển cây M-Tree sang kiến trúc phân cấp và rút luật từ kiến
trúc phân cấp cụm
3.4.6 Sử dụng cây M-Tree với dữ liệu trình tự sinh học
93
94
95
95
96
96
97
98
99
100
101
104
110 1H
111
11
113
114
117
119
122
Trang 5CHƯƠNG 4:MỘT SỐ UNG DUNG
4.1.MỞ ĐẦU
4.2 TÌM LUẬT KẾT HỢP VÀ LUẬT PHÂN LỚP TRONG CSDL
NHÂN KHẨU TP HỒ CHÍ MINH
4.2.1 CSDL nhân khẩu
4.2.2 Tìm luật kết hợp
4.2.3 Tìm luật phân lớp
4.3 TÌM ĐOẠN LẶP PHỔ BIẾN TRONG TẬP DỮ LIỆU TRÌNH TỰ SINH HỌC ADN CỦA TRUC KHUAN E-COLI
4.3.1 Tập dữ liệu trình tự sinh học của trực khuẩn E-Coli Promoter
4.3.2 Tìm đoạn lặp phổ biến trong nhóm cộng
4.3.3 Tìm tổ hợp đoạn lặp phổ biến có khả năng phân lớp
4.2.4.Tìm tổ hợp thứ tự các đoạn lặp phổ biến có khả năng phân lớp
4.4.TẠO KIẾN TRÚC PHÂN CẤP DỮ LIỆU TRÌNH TỰ ADN VÀ
KHẢO SÁT TRÌNH TỰ TƯƠNG ĐỒNG CỦA KHUẨN XOẮN
ONCHOCERCA
4.4.1 Khuẩn xoắn Onchocerca
4.4.2 Tạo kiến trúc phân cấp cụm dữ liệu khuẩn Onchocerca
4.4.3 Tìm vùng bảo tổn gen qua các thế hệ tiến hoá
4.4.4 Truy vấn trình tự tương đồng
4.5.TÌM DÃY TỪ PHỔ BIẾN NHẰM ĐẶC TRƯNG CHO KHỐI NGỮ
LIỆU VĂN BẢN
4.5.1 Kho ngữ liệu các bài thơ của nhà thơ Xuân Diệu
125
125
125
127
127
128
128
129
129
130
130
130
131
133
134
135
135
Trang 6“ Vị
4.5.2.Dùng cây hậu tố mở rộng để phát hiện các dãy từ phổ biến 135 4.5.3.Tìm dãy từ phổ biến trong khối ngữ liệu gồm nhiều văn bản 137
4.6.1 Kho ngữ liệu tóm tắt báo cáo khoa học 138
4.6.2.Mô hình không gian vector các dãy từ phổ biến trong khối ngữ 139
liệu
4.6.4 Tạo vector đặc trưng văn bản 140 4.6.5 Gom cụm văn bản bằng mạng Kohonen 149 4.6.6 Truy vấn tương tự qua lớp ra Kohonen 149
DANH MUC CAC CONG TRINH CUA TAC GIA DA CONG BO C6 LIEN
QUAN DEN DE TÀI LUẬN ÁN
TAI LIEU THAM KHAO
PHAN PHY LUC
Phụ lục A1: Khai thác luật kết hợp trong CSDL nhân khẩu Tp.HCM
Phụ lục A2: Tìm các luật phân lớp trong CSDL nhân khẩu Tp HCM
Phu lục B1: Trình tự sinh học
Phụ lục B2: E-Coli Promoter
Phụ lục B3: Khuẩn Onchocerea volvunus
Phụ lục B4: Danh sách các đoạn lặp phổ biến trong 33 trình tự sinh học E-
Coli Promoter
Trang 7Phụ lục B5: Tổ hợp các đoạn lặp phổ biến xuất hiện đồng thời trong các trình
tự E-Coli Promoter
Phụ lục B6: Tổ hợp thứ tự các đoạn lặp phổ biến xuất hiện đồng thời có khả năng phân lớp E-Coli Promoter
Phụ lục B7: Trang web của NCBI về các trình tự tương tự các trình tự có mã U02740
Phụ lục B§: Vùng bảo tổn gen của khuẩn Onchocerca
Phụ lục B9: Nguồn gốc các gen khuẩn Onchocerca Volvunus
Phụ lục B10: Kiến trúc phân cấp dữ liệu trình tự sinh học ADN của khuẩn Onchocerca
Phụ lục C1: Các dãy từ phổ biến trong truyện ngắn Ngậm Cười của nhà văn Nguyễn Công Hoan
Phụ lục C2: Các tổ hợp đồng hiện liên kết trong 10 truyện ngắn của nhà văn
Nguyễn Công Hoan
Phụ lục C3: Đồ thị đồng hiện các dãy từ phổ biến trong khối ngữ liệu các tóm
tắt báo cáo khoa học và các miễn liên thông
Phụ lục C4: Gom cựm và truy vấn tương tự văn bản qua lớp ra Kohonen có
sử dụng đồ thị đồng hiện các dãy từ phổ biến