...Phan Anh Tuấn.pdf tài liệu, giáo án, bài giảng , luận văn, luận án, đồ án, bài tập lớn về tất cả các lĩnh vực kinh tế...
Trang 1TRƯỜNG ĐẠI H
KHOA CÔNG NGH
SINH VIÊN
NGHIÊN CỨU THU
MÁY (MACHINE LEARNING)
I HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ N
KHOA CÔNG NGHỆ THÔNG TIN
SINH VIÊN: PHAN ANH TUẤN
U THUẬT TOÁN K – MEANS TRONG H MÁY (MACHINE LEARNING)
Hà Nội – 2015
NG HÀ NỘI
MEANS TRONG HỌC
Trang 2TRƯỜNG ĐẠI H
KHOA CÔNG NGH
SINH VIÊN:
NGHIÊN CỨU THU
MÁY (MACHINE LEARNING)
Chuyên ngành: Công ngh
Mã ngành:
NGƯỜI HƯ
I HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ N
KHOA CÔNG NGHỆ THÔNG TIN
SINH VIÊN: PHAN ANH TUẤN
U THUẬT TOÁN K – MEANS TRONG H MÁY (MACHINE LEARNING)
Chuyên ngành: Công nghệ thông tin
ƯỚNG DẪN: TS BÙI NGỌC QUÝ
Hà Nội – 2015
NG HÀ NỘI
MEANS TRONG HỌC
Trang 3LỜI CẢM ƠN
Được sự chấp thuận của Khoa Công nghệ thông tin trường Đại học Tài nguyên và Môi trường Hà Nội, em đã thực hiện nghiên cứu đề tài tốt nghiệp:
“Nghiên cứu thuật toán K-means trong học máy (Machine Learning)” Em xin gửi lời cảm ơn đến ban lãnh đạo nhà trường và Khoa Công nghệ thông tin đã tạo điều kiện cho em được thực hiện đề tài này Em xin chân thành cảm ơn thầy cô đã truyền đạt những kiến thức, cũng như những kinh nghiệm quý báu trong suốt thời gian học tập ở trường Trong suốt quá trình thực hiện nghiên cứu đề tài, em đã nhận được sự hướng dẫn và giúp đỡ tận tình của TS Bùi Ngọc Quý, giảng viên trường Đại học
Mỏ - Địa Chất Thầy đã truyền đạt cho em những kiến thức và kỹ năng hữu ích để
em có thể hoàn thành khóa luận tốt nghiệp này Em xin chân thành cảm ơn !
Sinh viên Phan Anh Tuấn
Trang 4DANH MỤC HÌNH ẢNH
Hình 1.1: Quy trình phát hiện tri thức 5
Hình 2.1: Ví dụ về gom cụm ảnh 13
Hình 2.2: Trường hợp tổng quát của gom cụm 14
Hình 2.3: Qúa trình gom cụm 15
Hình 2.4: Số cụm được tạo ra khi phân cụm 16
Hình 2.5: Minh họa quá trình gom cụm 16
Hình 2.6: Phân cụm phân hoạch 23
Hình 2.7: Phân cụm phân cấp 24
Hình 2.8: Mô tả thuật toán K - Means 30
Hình 2.9: Ví dụ minh họa thuật toán k-means 31
Hình 3.1: Giao diện của Weka 39
Hình 3.2: Giao diện của KnowledgeFlow 40
Hình 3.3: Giao diện tab Evaluation của KnowledgeFlow 40
Hình 3.4: Mô hình phân lớp giai đoạn 1 41
Hình 3.5: Mô hình phân lớp giai đoạn 2 41
Hình 3.6: Giao diện tham số của thuật toán 42
Hình 3.7: Giao diện tab Evaluation của KnowledgeFlow 43
Hình 3.8: Giao diện tab Visualization của KnowledgeFlow 43
Hình 3.9: Mô hình phân lớp giai đoạn 3 44
Hình 3.10: Xem kết quả bằng Show results 44
Hình 3.11: Kết quả mô hình 45
Hình 3.12: Ví dụ mô hình với 3 thuật toán phân lớp 46
Hình 3.13: Kết quả mô hình 46
Trang 5Hình 3.14: Các thuộc tính của khách hàng 47
Hình 3.15: Mô hình phân cụm sử dụng thuật toán K - Means 48
Hình 3.16: Thiết lập tham số cho thuật toán K - Means 48
Hình 3.17: Kết quả phân cụm 49
Trang 6MỤC LỤC
PHẦN MỞ ĐẦU 1
1 Tính cấp thiết của đề tài 1
2 Mục đích nghiên cứu 2
3 Đối tượng và pham vi nghiên cứu 2
4 Các phương pháp nghiên cứu 2
5 Những đóng góp của đồ án 2
6 Kết cấu của Đồ án 3
CHƯƠNG 1: CƠ SỞ LÝ THUYẾT HỌC MÁY 4
1.1 Khái niệm về học máy 4
1.2 Lĩnh vực của học máy 8
1.3 Các dạng của học máy 9
CHƯƠNG 2: THUẬT TOÁN K-MEANS TRONG PHÂN CỤM DỮ LIỆU 12
2.1 Phân cụm dữ liệu 12
2.1.1 Khái niệm và quá trình phân cụm của phân cụm dữ liệu 12
2.1.2 Các kiểu dữ liệu và độ đo tương tự trong phân cụm dữ liệu 17
2.1.3 Các kỹ thuật tiếp cận trong phân cụm dữ liệu 22
2.1.4 Các ứng dụng phân cụm dữ liệu 27
2.2 Giới thiệu về thuật toán K-means : 27
2.3 Đánh giá thuật toán 37
CHƯƠNG 3: ỨNG DỤNG CỦA THUẬT TOÁN K-MEANS 38
3.1 Giới thiệu về Weka 38
3.2 Xây dựng mô hình phân cụm cho thuật toán K-Means bằng WeKa 47
KẾT LUẬN 50
PHỤ LỤC VÀ TÀI LIỆU THAM KHẢO 51
Trang 71
PHẦN MỞ ĐẦU
1 Tính cấp thiết của đề tài
Trong những năm gần đây, sự phát triển mạnh mẽ của CNTT đã làm cho khả năng thu thập và lưu trữ thông tin của các hệ thống thông tin tăng nhanh một cách chóng mặt Bên cạnh đó, việc tin học hóa một cách ồ ạt và nhanh chóng các hoạt động sản xuất, kinh doanh cũng như nhiều lĩnh vực hoạt động khác đã tạo ra cho chúng ta một lượng dữ liệu lưu trữ khổng lồ
Sự bùng nổ này đã dẫn tới một yêu cầu cấp thiết là cần có những kỹ thuật
và công cụ mới để tự động chuyển đổi lượng dữ liệu khổng lồ kia thành các tri thức có ích Từ đó, các kỹ thuật học máy đã trở thành một lĩnh vực thời sự của nền CNTT thế giới hiện nay nói chung và Việt Nam nói riêng Học máy đang được
áp dụng một cách rộng rãi trong nhiều lĩnh vực kinh doanh và đời sống khác nhau: marketing, tài chính, ngân hàng và bảo hiểm, khoa học, y tế, an ninh, internet… Rất nhiều tổ chức và công ty lớn trên thế giới đã áp dụng kỹ thuật học máy vào các hoạt động sản xuất kinh doanh của mình và thu được những lợi ích to lớn Có rất nhiều ứng dụng thực tế khác nhau của học máy Hai lĩnh vực ứng dụng lớn nhất của học máy là khai phá dữ liệu (data mining) và nhận dạng mẫu (pattern recognition)
Khai phá dữ liệu là ứng dụng kỹ thuật học máy vào các cơ sở dữ liệu hoặc các tập dữ liệu lớn để phát hiện quy luật hay tri thức trong dữliệu đó hoặc để dự đoán các thông tin quan tâm trong tương lai Ví dụ, từ tập hợp hóa đơn bán hàng có thểphát hiện ra quy luật “những người mua bánh mì thường mua bơ”
Nhận dạng mẫu là ứng dụng các kỹthuật học máy để phát hiện các mẫu có tính quy luật trong dữ liệu, thường là dữ liệu hình ảnh, âm thanh Bài toán nhận dạng mẫu cụ thể thường là xác định nhãn cho đầu vào cụ thể, ví dụ cho ảnh chụp mặt người, cần xác định đó là ai
Trang 82
Bản đồ án này trình bày một số vấn đề về thuật toán K-means, một trong những thuật toán cơ bản để khai phá dữ liệu Đây là hướng nghiên cứu có triển vọng chỉ ra những sơ lược trong việc hiểu và khai thác CSDL khổng lồ, khám phá thông tin hữu ích ẩn trong dữ liệu; hiểu được ý nghĩa thực tế của dữ liệu Vì tất cả lý do trên em quyết định thực hiện đề tài: "Nghiên cứu thuật toán K-means trong học máy (Machine Learning)” để làm đề tài đồ án tốt nghiệp
2 Mục đích nghiên cứu
Nghiên cứu về học máy (Machine Learning)
Nghiên cứu về lĩnh vực ứng dụng lớn nhất của học máy là khai phá dữ liệu Cách thức hoạt động của thuật toán K-means, một trong những thuật toán cơ bản của phân cụm dữ liệu trong khaí phá dữ liệu
3 Đối tượng và pham vi nghiên cứu
Đối tượng nghiên cứu là vấn đề các kĩ thuật phân cụm dữ liệu trong lĩnh vực khai phá dữ liệu của học máy
Về phạm vi: Đồ án nghiên cứu vấn đề các kĩ thuật phân cụm dữ liệu trong lĩnh vực khai phá dữ liệu của học máy bằng thuật toán K-means
4 Các phương pháp nghiên cứu
Phương pháp nghiên cứu là tiến hành thu thập và phân tích các tài liệu, thông tin liên quan đến đề tài Từ đó, lựa chọn phương hướng giải quyết vấn đề, tìm hiểu thuật toán và ứng dụng của thuật toán
5 Những đóng góp của đồ án
Đồ án hoàn thành sẽ có những đóng góp chủ yếu sau đây:
Hệ thống hóa những vấn đề lý thuyết cơ bản về học máy (Machine Learning)
Hệ thống hóa những vấn đề lý thuyết cơ bản về các kĩ thuật phân cụm dữ liệu trong khai phá dữ liệu
Trang 93
Cách thức hoạt động và ứng dụng của thuật toán phân cụm dữ liệu K-means
6 Kết cấu của Đồ án
Đồ án được chia thành 3 chương như sau:
Chương 1:
Cơ sở lý thuyết về học máy (Machine Learning)
Chương 2:
Thuật toán K-means trong khai phá dữ liệu
Chương 3:
Ứng dụng của thuật toán K-Means