TRƯỜNG ĐẠI HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN ĐINH THỊ XUÂN DỰ BÁO SỐ BÌNH LUẬN TRÊN BLOG TRONG 24 GIỜ Hà Nội-2015... TRƯỜNG ĐẠI HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG
Trang 1TRƯỜNG ĐẠI HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
ĐINH THỊ XUÂN
DỰ BÁO SỐ BÌNH LUẬN TRÊN BLOG TRONG 24 GIỜ
Hà Nội-2015
Trang 2TRƯỜNG ĐẠI HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
ĐINH THỊ XUÂN
DỰ BÁO SỐ BÌNH LUẬN TRÊN BLOG TRONG 24 GIỜ
Chuyên ngành: Công nghệ thông tin
Mã ngành:
NGƯỜI HƯỚNG DẪN: THS NGUYẾN ANH THƠ
Hà Nội-2015
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan, đồ án này là hoàn toàn do tôi thực hiện Các kết quả nghiên cứu đưa ra trong đồ án này dựa trên các kết quả thu được trong quá trình nghiên cứu của tôi Nội dung của đồ án có tham khảo và sử dụng một số thông tin, tài liệu từ các nguồn sách, tạp chí được liệt kê trong danh mục các tài liệu tham khảo
Hà Nội, ngày 08 tháng 06 năm 2015 Sinh viên
Đinh Thị Xuân
Trang 4LỜI CẢM ƠN
Trong thời gian làm đồ án tốt nghiệp, tôi đã nhận được nhiều sự giúp đỡ, đóng góp ý kiến và chỉ bảo nhiệt tình của thầy cô, gia đình và bạn bè
Tôi xin chân thành cảm ơn các thầy, cô giáo khoa Công nghệ Thông tin- Đại học Tài nguyên và Môi trường Hà Nội đã tận tâm truyền dạy những kiến thức thiết thực trong suốt quá trình học, đồng thời tôi xin cảm ơn nhà trường đã tạo điều kiện tốt nhất cho tôi hoàn thành đồ án này
Đặc biệt, tôi xin bày tỏ sự biết ơn sâu sắc tới thầy giáo ThS Nguyễn Anh Thơ, người đã định hướng và giúp đỡ tôi tận tình trong suốt quá trình làm đồ án
Trong quá trình hoàn thành đồ án có thể còn nhiều thiếu sót, tôi rất mong nhận được sự đóng góp ý kiến từ tất cả thầy cô, bạn bè để đồ án có thể phát triển và hoàn thiện hơn
Hà Nội, ngày 08 tháng 06 năm 2015 Sinh viên
Đinh Thị Xuân
Trang 5DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT
Từ hoặc cụm từ Từ viết tắt Từ Tiếng Anh
Khai phá tri thức trong cơ sở
dữ liệu
KDD Knowledge Discovery in
Databases
Trang 6DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1: Quá trình phát hiện tri thức 4
Hình 1.2: Quá trình khai phá dữ liệu 7
Hình 1.3: Các lĩnh vực liên quan đến khám phá tri thức trong CSDL 9
Hình 1.4: Quá trình học 11
Hình 1.5: Quá trình phân lớp 12
Hình 1.6: Mẫu kết quả chức năng phân cụm 14
Hình 2.1: Cấu trúc cây quyết định 21
Hình 2.2: Thuật toán phân chia CART 31
Hình 3.1: Biểu đồ mô tả mỗi tương quan giữa các biến 39
Hình 3.2: Biểu đồ biểu diễn số lượng phản hồi trước 72h so với BaseTime 40
Hình 3.3: Biểu đồ biểu diễn số phản hồi sau 24h so với Basetime 41
Hình 3.4: Mô hình dự báo số bình luận trên Blog sau 24 giờ 45
Trang 7DANH MỤC CÁC BẢNG
Bảng 1.1: Bảng dữ liệu chẩn đoán bệnh nhân có bị gãy xương không 16 Bảng 2.1: Bảng dữ liệu chơi Golf 24 Bảng 3.1: Bảng kết quả dự báo số bình luận trên Blog trong 24 giờ 48
Trang 8MỤC LỤC
LỜI MỞ ĐẦU 1
Chương 1- 3
TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 3
1.1 Tại sao phải khai phá dữ liệu 3
1.2 Khái niệm khai phá dữ liệu 3
1.2.1 Gom dữ liệu (Gathering) 5
1.2.2 Lựa chọn dữ liệu (Selection) 5
1.2.3 Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu (Cleansing, Pre-processing and Preparation) 5
1.2.4 Chuyển đổi dữ liệu (Transformation) 5
1.2.5 Khai phá dữ liệu (Data Mining) 5
1.2.6 Đánh giá kết quả mẫu (Evaluation of Result) 6
1.3 Mục tiêu của khai phá dữ liệu 6
1.4 Quá trình khai phá dữ liệu 6
1.4.1 Lựa chọn dữ liệu (Selection) 7
1.4.2 Tiền xử lý dữ liệu (Pre-processing) 7
1.4.3 Khai phá dữ liệu (Data Mining) 8
1.4.4 Đánh giá và biểu diễn tri thức (Knowledge Representation and Evaluation) 8
1.5 Các kỹ thuật khai phá dữ liệu 8
1.6 Những chức năng chính của khai phá dữ liệu 10
1.6.1 Mô tả lớp và khái niệm 10
1.6.2 Phân lớp và dự đoán 10
1.6.3 Phân tích luật kết hợp 12
1.6.4 Phân cụm 13
1.6.5 Phân tích các đối tượng ngoài cuộc 14
1.6.6 Phân tích sự tiến hoá 14
1.7 Các kiểu dữ liệu và độ đo 15
1.7.1 Phân loại dữ liệu dựa vào kích thước miền 15
Trang 91.7.2 Phân loại dữ liệu dựa vào độ đo 17
1.8 Ứng dụng và những thách thức trong khai phá dữ liệu 18
1.8.1 Ứng dụng của khai phá dữ liệu 18
1.8.2 Những thách thức trong khai phá dữ liệu 18
Chương 2- 20
PHƯƠNG PHÁP PHÂN TÍCH CART 20
2.1 Tổng quan về cây quyết định 20
2.1.1 Khái niệm 20
2.1.2 Phương pháp xây dựng cây quyết định 21
2.1.3 Các độ đo để xác định điểm chia tốt nhất 22
2.1.4 Ưu, nhược điểm của cây quyết định 29
2.2 Phương pháp phân tích CART 29
2.2.1 Giới thiệu chung 30
2.2.2 Xây dựng cây lớn nhất 30
2.2.3 Chọn kích thước cây 33
2.2.4 Phân lớp dữ liệu mới sử dụng cấu trúc cây 34
2.2.5 Ưu, nhược điểm của phương pháp CART 35
CHƯƠNG 3- 36
XÂY DỰNG MÔ HÌNH DỰ BÁO BLOG TRONG 24 GIỜ 36
3.1 Mô tả dữ liệu dự báo 36
3.2.1 Các phương pháp tiền xử lý dữ liệu 42
3.2.2 Tiền xử lý dữ liệu cho bài toán 43
3.3 Mô hình dự báo số lượng bình luận trên Blog sử dụng phương pháp CART 44 KẾT LUẬN 52
TÀI LIỆU THAM KHẢO 53
Trang 101
LỜI MỞ ĐẦU
Trong những năm gần đây, cùng với sự phát triển mạnh mẽ của công nghệ thông tin và truyền thông, khối lượng thông tin của nhân loại đã trở thành một con số khổng lồ, và lượng thông tin đó không ngừng được tăng lên từng ngày Qua các tài liệu nghiên cứu, trang thông tin điện tử, báo chí, truyền hình, tất cả thông tin, dữ liệu của con người đều có thể được công bố, truyền bá một cách rộng rãi
Điều này đặt ra một thách thức đối với lĩnh vực nghiên cứu công nghệ tri thức nói chung và ngành khoa học máy tính nói riêng là tìm cách để khai thác lượng dữ liệu khổng lồ đó một cách hiệu quả Việc khai thác các dữ liệu này đã và đang ứng dụng thành công vào rất nhiều lĩnh vực đời sống như thương mại, tài chính, y học, thiên văn, môi trường, giáo dục và viễn thông…
Việc áp dụng thuật toán cây quyết định để xây dựng mô hình dự báo, dự đoán đã được nghiên cứu và ứng dụng cho hầu hết các lĩnh vực, thương mại, sinh học, y học, mạng xã hội, tài chính, bảo hiểm, Bởi vì tính dễ hiểu và rõ ràng và phù hợp với nhiều mục tiêu bài toán Với một số tính ưu việt trên và sự định hướng của Thầy giáo Th.S Nguyễn Anh Thơ cùng những kiến thức thu thập được trong thời gian qua, em đã quyết định chọn đề tài “Ứng dụng thuật toán CART dự báo số bình luận trên Blog trong 24 giờ”
Nội dung chính của đề tài là đi sâu vào tìm hiểu về khai phá dữ liệu cùng với phương pháp cây quyết định CART, áp dụng cho bài toán dự báo số bình luận trên Blog nhận được trong 24h, được thực hiện qua ba bước chính: tiền xử lý dữ liệu, xây dựng mô hình dự báo, đánh giá mô hình và đưa ra số lượng phản hồi cho Blog trong
24 giờ Được thử nghiệm trên dữ liệu lấy tại kho dữ liệu UCI với ngôn ngữ lập trình
R
Nội dung của báo cáo gồm 3 chương:
Trang 112
Chương 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU Chương này đề cập đến
các giai đoạn của quy trình khai phá tri thức, khai phá dữ liệu, các vấn đề chính trong khai phá dữ liệu, các phương pháp, các nhiệm vụ của khai phá dữ liệu
Chương 2: PHƯƠNG PHÁP PHÂN TÍCH CART Chương này trình bày
những nội dung thuật toán cây quyết định và phương pháp CART (Classification And Regression Tree)
Chương 3: XÂY DỰNG MÔ HÌNH DỰ BÁO TRÊN BLOG TRONG 24 GIỜ Nội dung của chương này là áp dụng thuật toán cây quyết định CART với
ngôn ngữ R để đưa ra mô hình dự báo số bình luận trên Blog trong 24 giờ qua các bước tiền xử lý dữ liệu, xây dựng mô hình dự báo và đánh giá mô hình dự báo
Do thời gian và trình độ còn có hạn, đồ án không tránh khỏi nhưng hạn chế và thiếu sót Em rất mong nhận được sự chỉ bảo, đóng góp ý kiến của các thầy cô giáo cũng như bạn bè
Em xin chân thành cảm ơn!