TRƯỜNG ĐẠI HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN XÂY DỰNG HỆ THỐNG TRỢ GIÚP KINH DOANH DU LỊCH BẰNG PHƯƠNG PHÁP BOOSTING Hà Nội - 2016... TRƯỜNG ĐẠI HỌC TÀI NGUY
Trang 1TRƯỜNG ĐẠI HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
XÂY DỰNG HỆ THỐNG TRỢ GIÚP KINH DOANH DU LỊCH BẰNG PHƯƠNG PHÁP
BOOSTING
Hà Nội - 2016
Trang 2TRƯỜNG ĐẠI HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
NGUYỄN THỊ THANH THỦY
XÂY DỰNG HỆ THỐNG TRỢ GIÚP KINH DOANH DU LỊCH BẰNG PHƯƠNG PHÁP
BOOSTING
Chuyên ngành: Công nghệ thông tin
Mã ngành : D480201
NGƯỜI HƯỚNG DẪN: THS NGUYỄN ANH THƠ
Hà Nội - 2016
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan:
Những nội dung trong đồ án này là do tôi thực hiện dưới sự hướng dẫn của th.s Nguyễn Anh Thơ
Mọi tham khảo trong luận văn đều được trích dẫn rõ ràng
Mọi sao chép hợp lệ, sai phạm quy chế đào tạo, gian trá, tôi xin chịu hoàn toàn trách nhiệm
Hà N ội, tháng 6 năm 2016
Sinh viên thực hiện
Nguyễn Thị Thanh Thủy
Trang 4LỜI CẢM ƠN
Trên thực tế không có sự thành công nào mà không gắn liền với những
sự giúp đỡ mọi người dù ít hay nhiều, dù trực tiếp hay gián tiếp Trong suốt thời gian học tập nhất là trong quá trìnhlàm đồ án, em đã nhận được rất nhiều
sự quan tâm giúp đỡ nhiệt tình của các thầy cô, bạn bè và gia đình
Đầu tiên em xin gửi lời cảm ơn sâu sắc đến thầy Nguyễn Anh Thơ, thầy
đã trực tiếp hướng dẫn và giúp đỡ em rất nhiều trong thời gian em làm bài luận này
Em cũng xin gửi lời cảm ơn đến thầy Ts.Hà Mạnh Đào, Trưởng khoa Công nghệ thông tin đồng thời cũng là giáo viên chủ nhiệm của lớp em, cùng các thầy cô giáo trong Khoa đã nhiệt tình giúp đỡ em trong quá trình học tập tại trường
Cuối cùng, em xin gửi lời cảm ơn chân thành tới gia đình và bạn bè đã luôn giúp đỡ, động viên và tạo điều kiện tốt nhất cho em trong suốt quá trình học tập cũng như trong cuộc sống
Vì năng lực có hạn nên bài báo cáo của em còn nhiều hạn chế và không thể tránh khỏi những thiếu sót, mong thầy cô và các bạn có những ý kiến đóng góp để em có thể hoàn thiện và phát triển đề tài hơn
Em xin chân thành cảm ơn!
Hà Nội, tháng 6 năm 2016
Sinh viên thực hiện
Nguyễn Thị Thanh Thủy
Trang 5MỤC LỤC
DANH MỤC HÌNH VẼ
MỞ ĐẦU 1
1 Lý do chọn đề tài 1
2 Đối tượng và phương pháp thực hiện đề tài 2
3 Mục tiêu và nội dung của đề tài 2
CHƯƠNG I : TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 4
1.1 Tổng quan về khai phá dữ liệu 4
1.1.1 Tại sao cần khai phá dữ liệu 4
1.1.2 Các khái niệm cơ bản 4
1.1.3 Quy trình khai phá dữ liệu 9
1.1.4 Các bài toán cơ bản trong khai phá dữ liệu 11
1.1.5 Các ứng dụng của khai phá dữ liệu 13
1.1.6 Các dạng dữ liệu có thể khai phá được 15
1.1.7 Quy trình xây dựng mô hình khai phá dữ liệu 16
1.2 Bài toán phân lớp và dự báo 18
1.2.1 Giới thiệu bài toán 18
1.2.2 Các bước giải quyết bài toán 22
CHƯƠNG II: PHƯƠNG PHÁP PHÂN LỚP VÀ THUẬT TOÁN BOOSTING-ADABOOST 24
2.1 Giới thiệu thuật toán Boosting – Adaboost 24
2.2 Mô tả thuật toán AdaBoost.M1 25
2.3 Boosting phù hợp với một mô hình phụ (Boosting Fits an Additive Model31 2.4 Chuyển tiếp Stagewise mô hình phụ (Forward Stagewise Additive Modeling)……… 32
2.5 Lũy thừa hao tổn và Adaboost (Exponential Loss and AdaBoost ) 33
2.6 Cây boosting (Boosting trees) 36
2.7 Phân loại dữ liệu bằng phương pháp Boosting 38
CHƯƠNG III: ỨNG DỤNG BÀI TOÁN PHÂN LỚP 39
Trang 63.1 Giới thiệu bài toán 39
3.2 Xây dựng mô hình học bằng phương pháp Boosting 41
3.3 Giới thiệu phần mềm Weka thực nghiệm phân lớp với Boosting – Adaboost……….42
3.4 Demo phân lớp khách hàng sử dụng dịch vụ du lịch bằng Adaboost.M1 trên Weka……… … 45
KẾT LUẬN VÀ KIẾN NGHỊ 49
TÀI LIỆU THAM KHẢO 50
PHỤ LỤC……… 51
Trang 7DANH MỤC HÌNH VẼ Hình 1.1 : Các bước trong khai phá tri thức Error! Bookmark not defined
Hình 1.2 : Quy trình xây dựng mô hình khai phá dữ liệuError! Bookmark not defined Hình 2.1: Sơ đồ AdaBoost Error! Bookmark not defined
Hình 2.2 : Dữ liệu mô phỏng Error! Bookmark not defined
Hình 2.3 : Dữ liệu mô phỏng Error! Bookmark not defined
Hình 3.2: Phân lớp dữ liệu huấn luyện bằng phương pháp Boosting -
Adaboost Error! Bookmark not defined
Hình 3.3: Phần mềm Weka Error! Bookmark not defined
Hình 3.4: Dữ liệu excel chuyển về file dạng *.csv 40.
Hình 3.6: Chuẩn hóa dữ liệu tuổi 41.
Hình 3.7: Chọn thuật toán phân lớp Adaboost.M1 41.
Hình 3.8: Kết quả phân lớp Error! Bookmark not defined.
Trang 8DANH MỤC TỪ VIẾT TẮT STT Từ viết tắt Giả thích
Database (Khai phá tri thức)