1. Trang chủ
  2. » Luận Văn - Báo Cáo

nghiên cứu và phát triển một số thuật giải, mô hình ứng dụng khai thác dữ liệu 1

7 390 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên cứu và phát triển một số thuật giải, mô hình ứng dụng khai thác dữ liệu 1
Trường học Trường Đại Học Công Nghệ Thông Tin
Chuyên ngành Khai thác dữ liệu
Thể loại Luận án
Định dạng
Số trang 7
Dung lượng 1,6 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

sự phát triển nhanh chóng của các ứng dụng công nghệ thông tin và internet vào nhiều lĩnh vực đời sống xã hội, quản lý kinh tế, khoa học lỹ thuật... đã tạo ra nhiều cơ sở dữ liệu khổng lồ

Trang 1

0.1.MỞ ĐẦU

0.1.1 Khai thác dữ liệu

0.1.2 Khai thác dữ liệu trong các trình tự sinh học

0.2 MỤC TIÊU NGHIÊN CỨU CỦA LUẬN ÁN

0.3 CÁC CHƯƠNG MỤC CỦA LUẬN ÁN

0.4 CÁC ĐÓNG GÓP CỦA LUẬN ÁN

CHUONG 1:TAP PHO BIẾN VÀ LUẬT KẾT HỢP

1.1.MỞ ĐẦU

1.2 BÀI TOÁN KHAI THÁC TẬP PHỔ BIẾN

1.2.1 Các khái niệm cơ bản

1.2.2 Phát biểu bài toán và độ phức tạp

1.3 PHÁT TRIỂN THUẬT GIẢI KHÔNG TĂNG CƯỜNG ĐỂ TÌM

TẬP PHỔ BIẾN

1.3.1 Các khái niệm cơ bản

1.3.2.Phát triển thuật giải không tăng cường để tìm tập phổ biến

1.4 TÌM TẬP PHỔ BIẾN TỐI ĐẠI

1.4.1 Tìm tập phổ biến tốt đại bằng đồ thị liên kết các tập phổ biến

1.4.2 Quan hệ giữa bao đóng và tập phổ biến tối đại

1.4.3 Dùng bao đóng để giảm số lượng ứng viên cần tính độ phổ biến

1.4.4 So sánh thời gian truy cập đĩa

1.5 PHÁT TRIỂN THUẬT GIẢI TĂNG CƯỜNG ĐỂ TÌM TẬP PHỔ

BIẾN

19

21

26

26

27

30

33 35

Trang 2

‘ii

1.5.1 Các khái niệm cơ bản

1.5.2 Dùng thuật giải tạo dàn khái niệm để tìm tập phổ biến

1.5.3 Duyệt dàn khái niệm tìm tập phổ biến bị đóng

1.5.4 Tìm các tập không phổ biến từ dàn khái niệm

1.5.5 Phân tích phí tổn bộ nhớ để lưu trữ dàn khái niệm

1.6 PHÁT TRIỂN THUẬT GIẢI TÌM LUẬT KẾT HỢP

1.6,1 Các khái niệm cơ bản

1.6.2 Phát biểu bài toán tìm luật kết hợp

1.6.3 Phát triển thuật giải tìm luật kết hợp

1.7 MỞ RỘNG BÀI TOÁN TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP

1.7.1 Luật kết hợp ở dạng phủ định

1.7.2 Luật kết hợp mờ

1.7.3 Dùng ngữ cảnh khai thác dữ liệu mờ vào bài toán bán hàng trong siêu thị có xem xét số lượng hàng mua

1.7.4 Tìm luật kết hợp giữa các ngữ cảnh khai thác dữ liệu mờ

1.8 DÙNG LUẬT KẾT HỢP ĐỂ PHÂN LỚP DỮ LIỆU VÀ MỞ

RỘNG HỆ SỐ PHỤ THUỘC THUỘC TÍNH TRONG LÝ THUYẾT

TẬP THÔ

1.8.1 Các khái niệm cơ bản

1.8.2 Độ chính xác của hàm phân lớp

1.8.3 Dùng luật kết hợp làm luật phân lớp dữ liệu

1.8.4 Dùng luật kết hợp để mở rộng hệ số phụ thuộc thuộc tính trong

lý thuyết tập thô

1.9 KẾT LUẬN

51

52

53

55

66

Trang 3

CHUONG 2: DOAN LAP PHO BIEN

2.1 MG DAU

2.2 CÁC KHÁI NIỆM CƠ BẢN

2.3 PHÁT BIỂU BÀI TOÁN VÀ ĐỘ PHỨC TẠP

2.4 XÂY DỰNG THUẬT GIẢI KHÔNG TĂNG CƯỜNG ĐỂ TÌM ĐOẠN LẶP PHỔ BIẾN

2.5 XÂY DỰNG THUẬT GIẢI TĂNG CƯỜNG ĐỂ TÌM ĐOẠN LẶP

PHỔ BIẾN

2.5.1 Các khái niệm cơ bản

2.5.2 Thiết kế cấu trúc dữ liệu cho cây hậu tố

2.5.3 Thuật giải chèn chuỗi vào cây hậu tố mở rộng :

2.5.4 Thuật giải duyệt cây hậu tố mở rộng tìm đoạn lặp phổ biến

2.5.5 Phân tích ưu khuyết điểm của tiếp cận cây hậu tố mở rộng

2.6 DÙNG ĐOẠN LẶP PHỔ BIẾN ĐỂ PHÂN LỚP TRÌNH TỰ SINH

HỌC

2.6.1 Phát biểu bài toán

2.6.2 Định nghĩa hàm phân lớp qua đoạn lặp phổ biến

26.3 Chỉ số Gini

2.6.4 Tìm tổ hợp đồng hiện các đoạn lặp phổ biến

2.6.5 Tìm tổ hợp thứ tự các đoạn lặp phổ biến làm tiêu chuẩn phân lớp trình tự sinh học

2.7 KẾT LUẬN

67

68

70

70

75

75

76

79

81

81

82

82

83

84

84

86

92

Trang 4

iv

CHƯƠNG 3: GOM CUM DU LIEU 3.1.MỞ ĐẦU

3.2 KHOẢNG CÁCH VÀ MỨC ĐỘ TƯƠNG TỰ

3.3 GOM CỤM PHẲNG BẰNG MẠNG KOHONEN

3.3.1 Kiến trúc cụm phẳng

3.3.2 Tiêu chuẩn đánh giá chất lượng gom cụm phẳng

3.3.3 Mạng Kohonen

3.3.4 Gom cụm từ lớp ra Kohonen

3.3.5 Học theo lối cạnh tranh

3.3.6 Thuật giải huấn luyện mạng Kohonen

3.3.7 Vấn đề hội tụ của thuật giải huấn luyện mạng Kohonen

3.3.8 Cải tiến thuật giấi huấn luyện mạng Kohonen dựa trên vùng lân

cận nơron chiến thắng

3.3.9 Cải tiến thuật giải huấn luyện mạng Kohonen dựa trên đặc tính

của vector nhập

3.3.10 Đặc trưng các cụm trên lớp ra Kohonen

3.3.11 Truy vấn tương tự qua lớp ra Kohonen

3.4 TẠO KIẾN TRÚC PHÂN CẤP CỤM BẰNG CÂY M-TREE

3.4.1 Kiến trúc phân cấp cụm

3.4.2 Cấu trúc cây M-tree

3.4.3 Tạo cây M-Tree

3.4.4 Truy vấn tương tự trên cây M-tree

3.4.5 Chuyển cây M-Tree sang kiến trúc phân cấp và rút luật từ kiến

trúc phân cấp cụm

3.4.6 Sử dụng cây M-Tree với dữ liệu trình tự sinh học

93

94

95

95

96

96

97

98

99

100

101

104

110 1H

111

11

113

114

117

119

122

Trang 5

CHƯƠNG 4:MỘT SỐ UNG DUNG

4.1.MỞ ĐẦU

4.2 TÌM LUẬT KẾT HỢP VÀ LUẬT PHÂN LỚP TRONG CSDL

NHÂN KHẨU TP HỒ CHÍ MINH

4.2.1 CSDL nhân khẩu

4.2.2 Tìm luật kết hợp

4.2.3 Tìm luật phân lớp

4.3 TÌM ĐOẠN LẶP PHỔ BIẾN TRONG TẬP DỮ LIỆU TRÌNH TỰ SINH HỌC ADN CỦA TRUC KHUAN E-COLI

4.3.1 Tập dữ liệu trình tự sinh học của trực khuẩn E-Coli Promoter

4.3.2 Tìm đoạn lặp phổ biến trong nhóm cộng

4.3.3 Tìm tổ hợp đoạn lặp phổ biến có khả năng phân lớp

4.2.4.Tìm tổ hợp thứ tự các đoạn lặp phổ biến có khả năng phân lớp

4.4.TẠO KIẾN TRÚC PHÂN CẤP DỮ LIỆU TRÌNH TỰ ADN VÀ

KHẢO SÁT TRÌNH TỰ TƯƠNG ĐỒNG CỦA KHUẨN XOẮN

ONCHOCERCA

4.4.1 Khuẩn xoắn Onchocerca

4.4.2 Tạo kiến trúc phân cấp cụm dữ liệu khuẩn Onchocerca

4.4.3 Tìm vùng bảo tổn gen qua các thế hệ tiến hoá

4.4.4 Truy vấn trình tự tương đồng

4.5.TÌM DÃY TỪ PHỔ BIẾN NHẰM ĐẶC TRƯNG CHO KHỐI NGỮ

LIỆU VĂN BẢN

4.5.1 Kho ngữ liệu các bài thơ của nhà thơ Xuân Diệu

125

125

125

127

127

128

128

129

129

130

130

130

131

133

134

135

135

Trang 6

“ Vị

4.5.2.Dùng cây hậu tố mở rộng để phát hiện các dãy từ phổ biến 135 4.5.3.Tìm dãy từ phổ biến trong khối ngữ liệu gồm nhiều văn bản 137

4.6.1 Kho ngữ liệu tóm tắt báo cáo khoa học 138

4.6.2.Mô hình không gian vector các dãy từ phổ biến trong khối ngữ 139

liệu

4.6.4 Tạo vector đặc trưng văn bản 140 4.6.5 Gom cụm văn bản bằng mạng Kohonen 149 4.6.6 Truy vấn tương tự qua lớp ra Kohonen 149

DANH MUC CAC CONG TRINH CUA TAC GIA DA CONG BO C6 LIEN

QUAN DEN DE TÀI LUẬN ÁN

TAI LIEU THAM KHAO

PHAN PHY LUC

Phụ lục A1: Khai thác luật kết hợp trong CSDL nhân khẩu Tp.HCM

Phụ lục A2: Tìm các luật phân lớp trong CSDL nhân khẩu Tp HCM

Phu lục B1: Trình tự sinh học

Phụ lục B2: E-Coli Promoter

Phụ lục B3: Khuẩn Onchocerea volvunus

Phụ lục B4: Danh sách các đoạn lặp phổ biến trong 33 trình tự sinh học E-

Coli Promoter

Trang 7

Phụ lục B5: Tổ hợp các đoạn lặp phổ biến xuất hiện đồng thời trong các trình

tự E-Coli Promoter

Phụ lục B6: Tổ hợp thứ tự các đoạn lặp phổ biến xuất hiện đồng thời có khả năng phân lớp E-Coli Promoter

Phụ lục B7: Trang web của NCBI về các trình tự tương tự các trình tự có mã U02740

Phụ lục B§: Vùng bảo tổn gen của khuẩn Onchocerca

Phụ lục B9: Nguồn gốc các gen khuẩn Onchocerca Volvunus

Phụ lục B10: Kiến trúc phân cấp dữ liệu trình tự sinh học ADN của khuẩn Onchocerca

Phụ lục C1: Các dãy từ phổ biến trong truyện ngắn Ngậm Cười của nhà văn Nguyễn Công Hoan

Phụ lục C2: Các tổ hợp đồng hiện liên kết trong 10 truyện ngắn của nhà văn

Nguyễn Công Hoan

Phụ lục C3: Đồ thị đồng hiện các dãy từ phổ biến trong khối ngữ liệu các tóm

tắt báo cáo khoa học và các miễn liên thông

Phụ lục C4: Gom cựm và truy vấn tương tự văn bản qua lớp ra Kohonen có

sử dụng đồ thị đồng hiện các dãy từ phổ biến

Ngày đăng: 09/04/2013, 21:19

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w