Trang phụ bìa luận văn title page ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG PHẠM MẠNH HÙNG PHÂN LỚP DỮ LIỆU SỬ DỤNG LOGIC MỜ LuËn v¨n th¹c SÜ KHOA HỌC MÁ
Trang 1Đ
Mẫu 3 Trang phụ bìa luận văn (title page)
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
PHẠM MẠNH HÙNG
PHÂN LỚP DỮ LIỆU SỬ DỤNG LOGIC MỜ
LuËn v¨n th¹c SÜ KHOA HỌC MÁY TÍNH
THÁI NGUYÊN - 2012
Th¸i Nguyªn - 2012
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Trang 2TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
PHẠM MẠNH HÙNG
PHÂN LỚP DỮ LIỆU SỬ DỤNG LOGIC MỜ
Chuyªn ngµnh: Khoa học máy tính M· sè: 60 48 01
LuËn v¨n th¹c SÜ KHOA HỌC MÁY TÍNH
Ng-êi h-íng dÉn khoa häc: TS VŨ MẠNH XUÂN
THÁI NGUYÊN - 2012
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Trang 3Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Trang 4LỜI CAM ĐOAN
Tôi xin cam đoan toàn bộ nội dung trong luận văn hoàn toàn theo đúng nội dung của đề cương đã đăng ký và nội dung các phần trích lục tài liệu hoàn toàn chính xác Nếu có sai sót gì tôi xin hoàn toàn chịu trách nhiệm
Trang 5ii
MỤC LỤC
LỜI CAM ĐOAN i
DANH MỤC CÁC HÌNH v
DANH MỤC CÁC BẢNG vi
MỞ ĐẦU 1
CHƯƠNG 1: TỔNG QUAN VỀ PHÂN LỚP DỮ LIỆU 3
1.1 Khái quát về phân lớp dữ liệu 3
1.1.1 Các bước tiến hành phân lớp dữ liệu 4
1.1.2 Chuẩn bị dữ liệu 6
1.1.3 Làm sạch dữ liệu 7
1.1.4 Phân tích dữ liệu 7
1.1.5 Chuyển đổi dữ liệu 7
1.1.6 So sánh các mô hình phân lớp 8
1.2 Phân lớp dữ liệu với kỹ thuật cây quyết định 8
1.2.1 Khái niệm về cây quyết định 8
1.2.2 Giải thuật 9
1.2.3 Rút luật phân lớp từ cây quyết định 10
1.2.4 Ưu điểm và hạn chế của cây quyết định 11
1.3 Phân lớp dữ liệu với kỹ thuật mạng Bayes 12
1.3.1 Định lý Bayes 12
1.3.2 Phân loại Bayes ngây thơ (Bayes đơn giản) 12
1.4 Phân lớp dữ liệu với kỹ thuật mạng nơ-ron 13
1.4.1 Cơ sở về mạng nơ-ron 13
1.4.2 Cấu trúc và mô hình mạng nơ-ron 14
1.4.3 Dạng toán học của tổng liên kết 15
1.4.4 Dạng của hàm a(f) - Hàm hoạt tính phi tuyến 15
1.5 Phân lớp dữ liệu bằng Fuzzy C- MEANS (FCM) 17
1.6 Phân lớp dữ liệu bằng WEKA 19
1.6.1 Giới thiệu chung 19
1.6.2 Ứng dụng của phần mềm Weka 3.7.5 vào bài toán phân lớp dữ liệu điểm của học sinh 21
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Trang 61.7 Kết luận chương 1 23
CHƯƠNG 2: PHÂN LỚP DỮ LIỆU SỬ DỤNG LOGIC MỜ 24
2.1 Tập mờ: 24
2.1.1 Lý thuyết tập mờ 24
2.1.2 Khái niệm tập mờ 25
2.1.3 Một số định nghĩa cơ bản 27
2.1.4 Các phép toán trên tập mờ 29
2.2 Quan hệ mờ 31
2.2.1 Khái niệm chung 31
2.2.3 Các phép hợp thành mờ 38
2.3 Suy diễn mờ 39
2.3.1 Phép suy diễn: “if P then Q” 39
2.3.2 Phép suy diễn “if P then Q else Q1” 40
2.4 Logic mờ 40
2.4.1 Mở đầu 40
2.4.2 Biến ngôn ngữ và mệnh đề mờ 41
2.4.3 Các phép kết nối 43
2.5 Phân lớp dữ liệu dựa trên quan hệ mờ 45
2.5.1 Cơ sở lí thuyết 45
2.5.2 Phân hoạch các đối tượng mờ trong bài toán thực tế 45
2.5.3 Quan hệ mờ trong phân lớp dữ liệu 46
CHƯƠNG 3: CÀI ĐẶT THỬ NGHIỆM 50
3.1 Khái niệm chung bài toán phân lớp 50
3.2 Bài toán minh họa sự phân lớp các đối tượng mờ 51
3.2.1 Phát biểu bài toán 51
3.2.2 Thuật toán 51
3.3 Thử nghiệm bài toán ứng dụng phân lớp bằng logic mờ 52
3.4 Kết quả thử nghiệm 55
KẾT LUẬN VÀ KIẾN NGHỊ 61
TÀI LIỆU THAM KHẢO 63
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Trang 8DANH MỤC CÁC HÌNH
Hình 1.1: Quá trình phân lớp dữ liệu và bước xây dựng mô hình phân lớp 4
Hình 1.2: Quá trình phân lớp dữ liệu - ước lượng độ chính xác của mô hình 6
Hình 1.3: Quá trình phân lớp dữ liệu - phân lớp dữ liệu mới 6
Hình 1.4: Cây quyết định mua máy tính của sinh viên 10
Hình1.5: Minh hoạ về một nơ- ron 14
Hình1.6: Sự liên kết của hai nơ-ron 15
Hình1.7: Giao diện ban đầu của phần mềm WEKA 19
Hình 2.1: Khái niệm tập mờ 28
Hình2.2: Các tập mờ biểu diễn các giá trị ngôn ngữ: “Chậm”, “Trung bình" và “Nhanh” 42 Hình 2.3: Tập mờ “tuổi trẻ” 43
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Trang 9vi
DANH MỤC CÁC BẢNG
Bảng 1.1: Bảng mua máy tính của sinh viên 9
Hình 1.3: Hình minh họa đổi đuôi XLS sang CSV (comma delimited) 21
Bảng 1.4: Bảng dữ liệu đầu vào để phân lớp bằng WEKA 22
Bảng1.3: Bảng phân lớp các trường dữ liệu WEKA 22
Bảng 3.1: Bảng điểm học sinh 53
Bảng 3.2: Ma trận khoảng cách Hamming 55
Bảng 3.3: Ma trận phân lớp Hamming 57
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Trang 10MỞ ĐẦU
Phân lớp dữ liệu là một bài toán thường gặp trong đời sống hàng ngày Chẳng hạn người ta phân loại học lực sinh viên dựa vào điểm trung bình từng học kỳ hoặc phân chia theo từng vùng lãnh thổ, phân loại các bệnh tật thường gặp, các cách phân loại như vậy đều xuất phát từ việc xác định một quan hệ tương đương trên tập các đối tượng đang xét Tuy nhiên phân lớp thông qua quan hệ tương đương thông thường mặc dù thuận tiện, dễ lập trình, song thiếu mềm dẻo và đôi khi không phản ánh đúng thực chất đối tượng Chẳng hạn một sinh viên có điểm trung bình 6,9 thì được xếp loại trung bình, đồng hạng với người có điểm 5,0; song người có điểm trung bình 7,0 lại xếp hạng khá! Tương tự như vậy, trong đời sống người ta vẫn phân loại một cách “tương đối” chẳng hạn như “những người cao” Logic mờ được
ra đời và phát triển dựa trên lý thuyết tập mờ đã giúp cho tin học có cái nhìn gần với thực tiễn hơn, các công cụ của logic mờ cho phép xử lý những thông tin không đầy đủ, không chính xác, chẳng hạn việc tìm hai đối tượng “giống nhau” chứ không phải “bằng nhau” như với cách tìm kiếm thông thường
Nhằm tìm hiểu kỹ hơn về logic mờ và ứng dụng trong bài toán phân lớp dữ liệu, giúp cho việc phân lớp mềm dẻo hơn, gần với đời thường hơn, tôi đã lựa chọn đề tài “Phân lớp dữ liệu sử dụng logic mờ” làm đề tài luận văn của mình
Mục đích của đề tài:
Mục đích của đ ề tài này nh ằm nghiên cứu lý thuyết tập mờ , quan hệ mờ, logic
mờ, trên cơ sở đó nghiên cứu phương pháp phân lớp dữ liệu dựa trên logic mờ đồng thời minh hoạ trên một số bài toán cụ thể Nội dung chính của luận văn gồm
ba chương
Chương 1: Tổng quan về phân tích dữ liệu
Chương này trình bày khái quát về một số kỹ thuật phân lớp, cách phân lớp thông thường đã sử dụng Chương này cũng đưa ra một số ví dụ minh họa cụ thể
Chương 2: Phân lớp dữ liệu sử dụng logic mờ
Chương này trình bày khái niệm tập mờ, các phép toán trên tập mờ và quan hệ
mờ cùng với những tính chất cơ bản của quan hệ mờ mệnh đề mờ, các phép toán logíc mờ, đặc biệt là các luật logic mờ làm cơ sở cho chương sau
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Trang 11data error !!! can't not
read
Trang 12data error !!! can't not
read
Trang 13data error !!! can't not
read
Trang 14data error !!! can't not
read
Trang 15data error !!! can't not
read
Trang 17data error !!! can't not
read
Trang 18data error !!! can't not
read
Trang 19data error !!! can't not
read
Trang 20data error !!! can't not
read
Trang 21data error !!! can't not
read
Trang 22data error !!! can't not
read
data error !!! can't not
read
Trang 23data error !!! can't not
read
data error !!! can't not
read
Trang 24data error !!! can't not
read
data error !!! can't not
read
Trang 26data error !!! can't not
read
Trang 27data error !!! can't not
read