HCM, ngày 17 tháng 6 năm 2018 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Nguyễn Thị Thuỳ Oanh Giới tính: Nữ Ngày, tháng, năm sinh: 09-07-1988 Nơi sinh: Vũng Tàu Chuyên ngành: Công nghệ t
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM
-
NGUYỄN THỊ THUỲ OANH
ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG VIỆC
DỰ ĐOÁN KẾT QUẢ TỐT NGHIỆP TRƯỜNG
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM
-
NGUYỄN THỊ THUỲ OANH
ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG VIỆC
DỰ ĐOÁN KẾT QUẢ TỐT NGHIỆP TRƯỜNG
Trang 3CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM
Cán bộ hướng dẫn khoa học : TS Vũ Thanh Hiền
Luận văn Thạc sĩ được bảo vệ tại Trường Đại học Công nghệ TP HCM
ngày 17 tháng 6 năm 2018
Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm:
1 PGS.TS Quách Thành Thơ Chủ tịch
4 TS Nguyễn Thị Thúy Loan Ủy viên
Xác nhận của Chủ tịch Hội đồng đánh giá Luận sau khi Luận văn đã được
sửa chữa (nếu có)
Chủ tịch Hội đồng đánh giá LV
Trang 4TRƯỜNG ĐH CÔNG NGHỆ TP HCM
VIỆN ĐÀO TẠO SAU ĐẠI HỌC
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
TP HCM, ngày 17 tháng 6 năm 2018
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: Nguyễn Thị Thuỳ Oanh Giới tính: Nữ
Ngày, tháng, năm sinh: 09-07-1988 Nơi sinh: Vũng Tàu
Chuyên ngành: Công nghệ thông tin MSHV: 1541860020
I- Tên đề tài:
Ứng dụng khai thác dữ liệu vào việc dự đoán kết quả tốt nghiệp tại trường Cao đẳng Du lịch Vũng Tàu
II- Nhiệm vụ và nội dung:
Tìm hiểu, phân tích hiện trạng chất lượng học tập của sinh viên để đề ra giải pháp hợp lý trong việc xây dựng và triển khai hệ thống
Nghiên cứu lý thuyết về KTDL, lựa chọn phương pháp KTDL thích hợp
Nghiên cứu các thuật toán của cây quyết định, từ đó phân tích, đánh giá, triển khai và áp dụng thuật toán C4.5, CART và SVM trong dự báo kết quả
III- Ngày giao nhiệm vụ: 9/2016
IV- Ngày hoàn thành nhiệm vụ: 6/1018
V- Cán bộ hướng dẫn: TS.Vũ Thanh Hiền
CÁN BỘ HƯỚNG DẪN KHOA QUẢN LÝ CHUYÊN NGÀNH
Trang 51
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác
Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này
đã được cảm ơn và các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc
Nguyễn Thị Thùy Oanh
Trang 62
LỜI CẢM ƠN
Đầu tiên tôi xin bày tỏ lòng cảm ơn sâu sắc tới thầy TS Vũ Thanh Hiền là người hướng dẫn khoa học đã giúp tôi định hướng, hỗ trợ tôi về mọi mặt trong thời gian qua
và cung cấp tài liệu khoa học giúp tôi hoàn thành luận văn này
Tôi cũng xin được gởi lời cảm ơn đến các Thầy, Cô lớp Cao học trường Công Nghệ Hutech TP HCM đã giảng dạy và cung cấp những kiến thức quý báu cho tôi trong suốt quá trình học tập và nghiên cứu tại trường
Do thời gian có hạn và chưa có nhiều kinh nghiệm trong nghiên cứu nên luận văn này không thể tránh khỏi những hạn chế và thiếu sót Tôi kính mong nhận được sự góp
ý, bổ sung ý kiến của quý Thầy, Cô và các bạn học viên
Tôi xin chân thành cảm ơn
Trang 73
TÓM TẮT
Ngày nay công nghệ thông tin luôn phát triển và không ngừng đổi mới, lượng dữ liệu thu thập được ngày càng nhiều đòi hỏi chúng ta phải rút trích ra những thông tin tiềm ẩn nhằm đưa ra các quyết định đúng đắn trong công việc Do đó ứng dụng của lĩnh vực khai thác dữ liệu được phát triển giúp người sử dụng thu được những tri thức hữu ích từ những cơ sở dữ liệu hoặc các kho dữ liệu khổng lồ, trong đó đã có nhiều công trình nghiên cứu trong các lĩnh vực của đời sống như: tài chính, ngân hàng, marketing,bảo hiểm, giáo dục, y tế và an ninh…v.v
Trong việc ứng dụng khai thác dữ liệu vào nhiều lĩnh vực khác nhau, khai phá dữ liệu trong lĩnh vực giáo dục đang dần trở thành công cụ hữu ích và có tính khoa học cao, giúp các nhà nhà quản lý giáo dục có được những tri thức quý giá phục vụ cho công tác quản lý của mình và sinh viên cũng có thể sử dụng những kết quả hữu ích từ quá trình chắt lọc dữ liệu trong khai phá dữ liệu, từ đó nhằm nâng cao chất lượng đào tạo của nhà trường và kết quả học tập của sinh viên
Từ nhu cầu thực tế, luận văn “ Ứng dụng khai thác dữ liệu vào việc dự đoán
kết quả học tập của sinh viên trường Cao đẳng Du lịch Vũng Tàu” đã ứng dụng
các thuật toán trong việc đưa ra những quyết định hỗ trợ dự đoán kết quả học tập của sinh viên, hỗ trợ nhằm nâng cao chất lượng hiệu quả hoạt động giáo dục và đào tạo của nhà trường
Trang 84
ABSTRACT
Today, information technology is constantly evolving and constantly innovating, and the amount of data collected increasingly requires us to extract the hidden information to make the right decisions in the workplace Thus the application of the field of data mining has helped users gain useful knowledge from the database or the huge data warehouse There are many research projects in areas such as finance, banking, marketing, insurance, education, health and security, etc
In the application of data mining in many different areas of life, data mining in the education sector is gradually becoming a useful and scientific tool for educators There is valuable knowledge for management and students can also use the results of data mining in the data mining to improve the quality of training School and student learning outcomes
From the practical needs, the dissertation "Application of data mining to predict the learning outcomes of students at Vung Tau Tourism College" has applied algorithms in making decision according to improve the quality of education and training activities of the school
Trang 95
MỤC LỤC CHƯƠNG 1:TỔNG QUAN 11
1.1 LÝ DO CHỌN ĐỀ TÀI: 11
1.2 MỤC TIÊU NGHIÊN CỨU ĐỀ TÀI 12
1.2.1 Mục tiêu tổng quát: 12
1.2.2 Mục tiêu cụ thể 12
1.3 ĐỐI TƯỢNG, PHẠM VI VÀ HƯỚNG NGHIÊN CỨU 13
1.3.1 Đối tượng nghiên cứu 13
1.3.2 Phạm vi nghiên cứu 13
1.3.3 Phương pháp nghiên cứu 13
1.4 Ý NGHĨA KHOA HỌC THỰC TIỄN 14
1.4.1 Về mặt khoa học 14
1.4.2 Về mặt thực tiễn 14
1.5 BỐ CỤC LUẬN VĂN 14
CHƯƠNG 2:CƠ SỞ LÝ THUYẾT 15
2.1 TỔNG QUAN VỀ KỸ THUẬT KHAI THÁC DỮ LIỆU 15
2.1.1 Khái niệm khám phá tri thức và khai thác dữ liệu 15
2.1.2 Các ứng dụng của khai phá dữ liệu 16
2.1.3 Các bước trong quá trình phát hiện tri thức 17
2.2 NHỮNG THÁCH THỨC TRONG KỸ THUẬT KTDL 19
2.2.1 Các vấn đề về cơ sở dữ liệu 20
2.2.2 Một số vấn đề khác 22
2.3 CÁC KỸ THUẬT KHAI THÁC DỮ LIỆU 23
2.4 CÁC VẤN ĐỀ LIÊN QUAN ĐẾN PHÂN LỚP VÀ DỰ ĐOÁN 25
2.4.1 Chuẩn bị dữ liệu cho việc phân lớp 25
Trang 106
2.4.2 So sánh các mô hình phân lớp 41
2.4.3 Các phương pháp đánh giá độ chính xác 42
2.5 KỸ THUẬT KTDL SỬ DỤNG CÂY QUYẾT ĐỊNH 43
2.5.1 Cây quyết định 43
2.5.2 Các thuật toán khai phá dữ liệu bằng cây quyết định 45
2.5.3 Cắt tỉa cây quyết định 61
2.5.4 Đánh giá và kết luận về các thuật toán xây dựng cây quyết định 63
CHƯƠNG 3:XÂY DỰNG ỨNG DỤNG 66
3.1 GIỚI THIỆU SƠ LƯỢC TRƯỜNG CĐ DU LỊCH VŨNG TÀU 66
3.1.1 Giới thiệu chung 66
3.1.2 Chương trình khung các ngành học 67
3.1.3 Cách tính điểm, xếp hạng, tốt nghiệp và hạ bậc 67
3.1.4 Quy trình quản lý điểm 67
3.2 THIẾT KẾ HỆ THỐNG VÀ XÂY DỰNG ỨNG DỤNG 68
3.2.1 Giới thiệu bài toán 68
3.2.2 Mô hình cấu trúc hệ thống 69
3.2.3 Mô tả đầu vào/ đầu ra 70
3.2.4 Phương pháp xây dựng 70
3.2.5 Thu thập dữ liệu- Tiền xử lý dữ liệu 70
3.2.6 Cấu trúc lưu trữ 71
3.2.7 Xây dựng hệ thống dự đoán 82
3.3 Thực nghiệm và đánh giá kết quả 82
3.3.1 Dữ liệu thực nghiệm 82
3.3.2 Công cụ thực hiện 82
3.3.3 Kiến trúc thực tế của hệ thống 83
3.3.4 Sơ đồ giao tác giữa các lớp trong hệ thống 84
3.3.5 Kết quả của các lần chạy thực nghiệm 84
Trang 117
3.3.6 Các phương pháp đánh giá độ sai số 92
CHƯƠNG 4:KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 98
4.1 Kết quả thực hiện của luận văn 98
4.2 Hạn chế 98
4.3 Hướng phát triển 99
Trang 139
DANH MỤC CÁC BẢNG Bảng 3-1: Thông tin mã từng ngành học theo từng hệ 71
Bảng 3-2: Thông tin mã môn học của tất cả các ngành 72
Bảng 3-3: Bảng tỉ lệ dự đoán đúng kết quả ĐẬU/RỚT TN với số lượng 10 môn học 84
Bảng 3-4: Bảng tỉ lệ dự đoán đúng kết quả ĐẬU/RỚT TN với số lượng 20 môn học 85
Bảng 3-5:Bảng tỉ lệ dự đoán đúng kết quả ĐẬU/RỚT TN với số lượng 30 môn học 86
Bảng 3-6: Bảng tỉ lệ dự đoán đúng kết quả ĐẬU/RỚT TN với tất cả môn học 87
Bảng 3-7: Bảng tỉ lệ dự đoán đúng kết quả XẾP LOẠI TN với số lượng 10 môn học 88
Bảng 3-8: Bảng tỉ lệ dự đoán đúng kết quả XẾP LOẠI TN với số lượng 20 môn học 89
Bảng 3-9:Bảng tỉ lệ dự đoán đúng kết quả XẾP LOẠI TN với số lượng 30 môn học 90
Bảng 3-10:Bảng tỉ lệ dự đoán đúng kết quả XẾP LOẠI TN với tất cả môn học 91
Bảng 3-11: Độ chính xác của XẾP LOẠI TN với số lượng 10 môn học 93
Bảng 3-12: Độ chính xác của XẾP LOẠI TN với số lượng 20 môn học 93
Bảng 3-13:Độ chính xác của XẾP LOẠI TN với số lượng 30 môn học 94
Bảng 3-14:Độ chính xác của XẾP LOẠI TN với tất cả môn học 94
Bảng 3-15:Độ bao phủ của XẾP LOẠI TN với số lượng 10 môn học 94
Bảng 3-16: Độ bao phủ của XẾP LOẠI TN với số lượng 20 môn học 94
Bảng 3-17: Độ bao phủ của XẾP LOẠI TN với số lượng 30 môn học 95
Bảng 3-18: Độ bao phủ của XẾP LOẠI TN với số lượng 30 môn học 95
Bảng 3-19: Độ chính xác của kết quả ĐẬU/RỚT TN với số lượng 10 môn học 96
Bảng 3-20: Độ chính xác của kết quả ĐẬU/RỚT TN với số lượng 20 môn học 96
Bảng 3-21: Độ chính xác của kết quả ĐẬU/RỚT TN với số lượng 30 môn học 96
Bảng 3-22: Độ chính xác của kết quả ĐẬU/RỚT TN với số lượng tất cả môn học 96
Bảng 3-23: Độ bao phủ của kết quả ĐẬU/RỚT TN với số lượng 10 môn học 97
Bảng 3-24: Độ bao phủ của kết quả ĐẬU/RỚT TN với số lượng 20 môn học 97
Bảng 3-25: Độ bao phủ của kết quả ĐẬU/RỚT TN với số lượng 30 môn học 97
Trang 1410
DANH MỤC CÁC HÌNH Hình 2-1: Khai phá dữ liệu - Tìm kiếm tri thức từ dữ liệu được khai thác 15
Hình 2-2: Các bước trong quá trình phát hiện tri thức 18
Hình 2-3: Các bước tiền xử lý dữ liệu 26
Hình 2-4: Phân cụm dữ liệu khách hàng dựa trên thông tin địa chỉ 29
Hình 2-5: Dữ liệu bán hàng 38
Hình 2-6: Dữ liệu tổng hợp 38
Hình 2-7: Phương pháp Cross- Validation 43
Hình 2-8: Cấu trúc cây quyết định 44
Hình 2-9: Cây quyết định phân lớp mức lương 45
Hình 2-10: Mô hình Support Vector Machine 54
Hình 2-11: Mô hình phân hai lớp SVM 56
Hình 3-1: Quy trình quản lý điểm 67
Hình 3-2: Mô hình cấu trúc hệ thống dự báo xếp loại tốt nghiệp 70
Hình 3-3:Mô hình kiến trúc hệ thống dự báo kết quả tốt nghiệp 83
Hình 3-4: Giao tác giữa các lớp trong hệ thống 84
Hình 3-5: Tỉ lệ dự đoán đúng kết quả Đậu/Rớt TN với số lượng 10 môn học 85
Hình 3-6: Tỉ lệ dự đoán đúng kết quả Đậu/Rớt TN với số lượng 20 môn học 86
Hình 3-7:Tỉ lệ dự đoán đúng kết quả Đậu/Rớt TN với số lượng 30 môn học 87
Hình 3-8: Tỉ lệ dự đoán đúng kết quả Đậu/Rớt TN với tất cả môn học 88
Hình 3-9: Tỉ lệ dự đoán đúng kết quả XẾP LOẠI TN với số lượng 10 môn học 89
Hình 3-10: Tỉ lệ dự đoán đúng kết quả XẾP LOẠI TN với số lượng 20 môn học 90
Hình 3-11: Tỉ lệ dự đoán đúng kết quả XẾP LOẠI TN với số lượng 30 môn học 91
Hình 3-12:Tỉ lệ dự đoán đúng kết quả XẾP LOẠI TN với tất cả môn học 92
Trang 15Bên cạnh đó với thực tế hiện nay các trường Cao đẳng Trung cấp lại gặp nhiều khó khăn trong công tác tuyển sinh, do đó yếu tố về đội ngũ giáo viên, cơ sở vật chất
và trong đó quan trọng là chất lượng đào tạo để khẳng định thương hiệu Trường là một trong những việc làm cần thiết và quan trọng
Chất lượng đào tạo được đánh giá rõ nhất từ kết quả học tập của sinh viên, việc kiểm tra đánh giá này không chỉ là mục đích đánh giá kết quả quá trình học của người học mà còn là nguồn thông tin phản hồi, giúp giáo viên nắm được chất lượng, phương pháp giảng dạy, để từ đó có những điều chỉnh thích hợp cho công tác giảng dạy của mình
Vì vậy, việc đánh giá kết quả học tập của sinh viên có mối quan hệ mật thiết với quá trình giảng dạy của giáo viên Hiện nay, đa số sinh viên bậc cao đẳng trung cấp có chất lượng đầu vào thấp, các sinh viên ít chịu khó tư duy, sáng tạo Ngược lại, yêu cầu chất lượng đầu ra của sinh viên ra trường ngày càng cao Một câu hỏi dặt ra ở đây là bao nhiêu sinh viên đạt được kết quả học tập đúng với chất lượng kiến thức các em đạt được? Do vậy, làm thế nào để đánh giá được kết quả học tập của sinh viên một cách trung thực, chính xác, đầy đủ những kiến thức mà người học tiếp thu? Làm thế nào để
có phương pháp đánh giá kết quả học tập của sinh viên thích hợp nhất?
Như vậy, cần phải có những thông tin cụ thể, chính xác, và có tính thuyết phục,
có cơ sở khoa học, để đưa ra các giải pháp kịp thời Dựa trên cơ sơ đó, luận văn “ Ứng
Trang 1612
dụng khai thác dữ liệu vào việc dự báo kết quả học tập của sinh viên trường CĐN
Du Lịch Vũng Tàu” là công cụ hỗ trợ trong việc đánh giá và dự báo kết quả học tập
của sinh viên dựa vào điểm số kết quả đã đạt được Và qua ứng dụng này nhằm tiến hành các thực nghiệm đánh giá mức độ đạt được chính xác của ứng dụng
1.2 MỤC TIÊU NGHIÊN CỨU ĐỀ TÀI
1.2.1 Mục tiêu tổng quát:
Mục tiêu mà đề tài hướng đến là xây dựng và áp dụng có hiệu quả việc trợ giúp ra quyết định trong dự báo kết quả học tập của sinh viên trường cao đẳng Du Lịch Vũng Tàu Từ nhu cầu thực tế và dựa vào số liệu điểm nhiều năm của trường với hơn 4.000 record thể hiện thông tin về điểm và các yếu tố giới tính, vùng miền, kết quả tốt nghiệp… Dựa vào thông thông tin kết quả học tập thu nhập của sinh viên trường, xây dựng một công cụ có khả năng phân tích, cảnh báo, hỗ trợ các thông tin về kết quả học tập của sinh viên dựa trên dữ liệu sẵn có Nhờ đó ứng dụng hỗ trợ cố vấn học tập trong việc tư vấn, cảnh báo học vụ trong quá trình quản lý sinh viên
- Nghiên cứu lý thuyết về KTDL, lựa chọn phương pháp KTDL thích hợp
- Nghiên cứu các thuật toán của cây quyết định, từ đó phân tích, đánh giá, triển khai và áp dụng thuật toán C4.5, CART và SVM trong dự báo kết quả
- Áp dụng cơ sở lý thuyết làm nền tảng để xây dựng và triển khai ứng dụng dự đoán kết quả tốt nghiệp của sinh viên
Trang 1713
1.3 ĐỐI TƯỢNG, PHẠM VI VÀ HƯỚNG NGHIÊN CỨU
1.3.1 Đối tượng nghiên cứu
Tìm hiểu xếp hạng tốt nghiệp của các sinh viên đã tốt nghiệp các khoá từ năm
2008 đến năm 2017 thông qua bộ dữ liệu thực tế
Nghiên cứu lý thuyết về KTDL bằng phương pháp cây quyết định sử dụng thuật toán C4.5
1.3.2 Phạm vi nghiên cứu
Các phương pháp phân lớp, ứng dụng các hệ hỗ trợ quyết định vào bài toán Nghiên cứu sâu thuật toán C4.5 trong cây quyết định để xây dựng ứng dụng dự đoán kết quả tốt nghiệp của sinh viên trường Cao đẳng Du Lịch Vũng Tàu
1.3.3 Phương pháp nghiên cứu
Luận văn kết hợp 2 phương pháp nghiên cứu là lý thuyết và thực nghiệm
Phương pháp nghiên cứu lý thuyết
- Tìm hiểu và lựa chọn phương pháp KPDL thích hợp
- Tìm hiểu ngôn ngữ lập trình và cơ sở dữ liệu xây dựng ứng dụng
- Tổng hợp, thu thập các tài liệu liên quan đến việc đánh giá kết quả tốt nghiệp theo Quy chế đào tạo Cao đẳng
Phương pháp nghiên cứu thực nghiệm:
- Tổng hợp và phân tích dữ liệu điểm của Trường Cao đẳng Du Lịch Vũng Tàu
- Phân tích thiết kế hệ thống, triển khai xây dựng ứng dụng
- Thử nghiệm chương trình và đưa ra đánh giá, đề xuất giải pháp
Trang 18Luận văn ứng dụng KTDL dự báo kết quả tốt nghiệp của sinh viên đóng góp như
là một công cụ trong việc hỗ trợ đánh giá kết quả quá trình học của từng ngành, từ đó làm nguồn thông tin phản hồi, giúp đội ngũ giáo viên và nhà trường nắm được chất lượng học tập của sinh viên để từ đó có những điều chỉnh thích hợp cho công tác giảng dạy và quản lý của mình nhằm nâng cao, cải thiện hơn nữa chất lượng đào tạo để phù hợp với điều kiện và năng lực của sinh viên
Trang 1915
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT
2.1 TỔNG QUAN VỀ KỸ THUẬT KHAI THÁC DỮ LIỆU
2.1.1 Khái niệm khám phá tri thức và khai thác dữ liệu
Hình 2-1: Khai phá dữ liệu - Tìm kiếm tri thức từ dữ liệu được khai thác
Khai thác dữ liệu được dùng để mô tả quá trình phát hiện ra tri thức trong CSDL Quá trình này kết xuất ra các tri thức tiềm ẩn từ dữ liệu giúp cho việc dự báo trong kinh doanh, các hoạt động sản xuất, Khai phá dữ liệu làm giảm chi phí về thời gian
so với phương pháp truyền thống trước kia (ví dụ như phương pháp thống kê)
Sau đây là một số định nghiã mang tính mô tả của nhiều tác giả về khai phá dữ liệu
Định nghĩa của Ferruzza: “Khai phá dữ liệu là tập hợp các phương pháp được
dùng trong tiến trình khám phá tri thức để chỉ ra sự khác biệt các mối quan hệ và các mẫu chưa biết bên trong dữ liệu”
Trang 2016
Định nghĩa của Parsaye: “Khai phá dữ liệu là quá trình trợ giúp quyết định,
trong đó chúng ta tìm kiếm các mẫu thông tin chưa biết và bất ngờ trong CSDL lớn”
Định nghĩa của Fayyad: “Khai phá tri thức là một quá trình không tầm thường
nhận ra những mẫu dữ liệu có giá trị, mới, hữu ích, tiềm năng và có thể hiểu được”
“Khám phá tri thức (KDD) là quá trình tìm ra những tri thức, đó là những mẫu tìm ẩn, trước đó chưa biết và là thông tin hữu ích đáng tin cậy” Còn khai thác dữ liệu (KTDL) là một bước quan trọng trong quá trình khám phá tri thức, sử dụng các thuật toán KTDL chuyên dùng với một số qui định về hiệu quả tính toán chấp nhận được để chiết xuất ra các mẫu hoặc các mô hình có ích trong dữ liệu Nói một cách khác, mục đích của KDD và KTDL chính là tìm ra các mẫu hoặc mô hình đang tồn tại trong các
cơ sở dữ liệu (CSDL) nhưng vẫn còn bị che khuất bởi hàng núi dữ liệu
Nếu quan niệm tri thức là mối quan hệ của các mẫu giữa các phần tử dữ liệu thì quá trình phát hiện tri thức chỉ toàn bộ quá trình triết xuất tri thức từ cơ sở dữ liệu, trong đó trải qua nhiều giai đoạn khác nhau như: Tìm hiểu và phát hiện vấn đề, thu thập và tiền xử lý dữ liệu, phát hiện tri thức, minh hoạ và đánh giá tri thức đã phát hiện
và đưa kết quả vào thực tế
Khai thác dữ liệu có những điểm khác nhau về mặt ngữ nghĩa so với phát hiện tri thức từ cơ sở dữ liệu nhưng thực tế ta thấy khai thác dữ liệu là chỉ một giai đoạn phát hiện tri thức trong một chuỗi các giai đoạn quá trình phát hiện tri thức trong cơ sở dữ liệu Tuy nhiên đây là giai đoạn đóng vai trò chủ chốt và là giai đoạn chính tạo nên tính
đa ngành của phát hiện tri thức trong cơ sở dữ liệu
2.1.2 Các ứng dụng của khai phá dữ liệu
Phát hiện tri thức và khai phá dữ liệu liên quan đến nhiều ngành, nhiều lĩnh vực: thống kê, trí tuệ nhân tạo, cơ sở dữ liệu, thuật toán, tính toán song song và tốc độ cao, thu thập tri thức cho các hệ chuyên gia, quan sát dữ liệu Đặc biệt phát hiện tri thức
Trang 2117
và khai phá dữ liệu rất gần gũi với lĩnh vực thống kê, sử dụng các phương pháp thống
kê để mô hình dữ liệu và phát hiện các mẫu, luật Ngân hàng dữ liệu (Data
Warehousing) và các công cụ phân tích trực tuyến (OLAP- On Line Analytical Processing) cũng liên quan rất chặt chẽ với phát hiện tri thức và khai phá dữ liệu
Khai phá dữ liệu có nhiều ứng dụng trong thực tế, ví dụ như:
• Bảo hiểm, tài chính và thị trường chứng khoán: phân tích tình hình tài chính và
dự báo giá của các loại cổ phiếu trong thị trường chứng khoán Danh mục vốn và giá, lãi suất, dữ liệu thẻ tín dụng, phát hiện gian lận,
• Thống kê, phân tích dữ liệu và hỗ trợ ra quyết định trong ngành giáo dục
• Điều trị y học và chăm sóc y tế: một số thông tin về chuẩn đoán bệnh lưu trong các hệ thống quản lý bệnh viện Phân tích mối liên hệ giữa các triệu chứng bệnh, chuẩn đoán và phương pháp điều trị (chế độ dinh dưỡng, thuốc, )
• Sản xuất và chế biến: Quy trình, phương pháp chế biến và xử lý sự cố
• Text mining và Web mining: Phân lớp văn bản và các trang Web, tóm tắt văn bản,
• Lĩnh vực khoa học: Quan sát thiên văn, dữ liệu gene, dữ liệu sinh vật học, tìm kiếm, so sánh các hệ gene và thông tin di truyền, mối liên hệ gene và một số bệnh di truyền,
• Mạng viễn thông: Phân tích các cuộc gọi điện thoại và hệ thống giám sát lỗi, sự
cố, chất lượng dịch vụ,
2.1.3 Các bước trong quá trình phát hiện tri thức
Trang 2218
Hình 2-2: Các bước trong quá trình phát hiện tri thức
Phát hiện tri thức bao gồm nhiều giai đoạn được lặp đi lặp lại nhiều lần mà không cần phân biệt từng bước trong quá trình thực hiện
Giai đoạn 1: Hình thành, xác định và định nghĩa bài toán Là việc tìm hiểu lĩnh
vực ứng dụng từ đó hình thành bài toán, xác định các nhiệm vụ cần phải hoàn thành Bước này sẽ quyết định cho việc rút ra được các tri thức hữu ích và cho phép chọn các phương pháp khai phá dữ liệu thích hợp với mục đích ứng dụng cùng với bản chất của
dữ liệu
Giai đoạn 2: Thu thập và tiền xử lý ( xử lý thô) Bước này còn được gọi là tiền xử
lý dữ liệu nhằm loại bỏ nhiễu (dữ liệu dư thừa), làm sạch dữ liệu, xử lý và khắc phục vấn đề thiếu hoặc thừa dữ liệu, biến đổi dữ liệu và rút gọn dữ liệu nếu cần thiết Bước này thường chiếm nhiều thời gian nhất (bước quan trọng) trong toàn bộ quy trình phát hiện tri thức
Trang 2319
Giai đoạn 3: Biến đổi dữ liệu Chọn lựa một số phương pháp Phân loại
(Classification), hồi quy (Regression), phân nhóm (Clustering), quy nạp, tổng hợp kết quả (Summarization)
Giai đoạn 4: Khai phá dữ liệu, rút ra các tri thức Là khai phá dữ liệu, hay nói
cách khác là trích ra các mẫu hoặc/và các mô hình ẩn dưới các dữ liệu Giai đoạn này rất quan trọng, bao gồm các công đoạn như: chức năng, nhiệm vụ và mục đích của khai phá dữ liệu, dùng phương pháp khai phá nào? Thông thường, các bài toán khai phá dữ liệu bao gồm: các bài toán mang tính mô tả - đưa ra tính chất chung nhất của dữ liệu, các bài toán dự báo - bao gồm cả việc phát hiện các suy diễn dựa trên dữ liệu hiện có Tuỳ theo bài toán xác định được mà ta lựa chọn các phương pháp khai phá dữ liệu cho phù hợp
Giai đoạn 5: Sử dụng các tri thức phát hiện được Là hiểu tri thức đã tìm được,
đặc biệt là làm sáng tỏ các mô tả và dự đoán Các bước trên có thể lặp đi lặp lại một số lần, kết quả thu được có thể được lấy trung bình trên tất cả các lần thực hiện Các kết quả của quá trình phát hiện tri thức có thể được đưa và ứng dụng trong các lĩnh vực khác nhau Do các kết quả có thể là các dự đoán hoặc các mô tả nên chúng có thể được đưa vào các hệ thống hỗ trợ ra quyết định nhằm tự động hoá quá trình này
Tóm lại: Quá trình phát hiện tri thức từ trong kho dữ liệu (KDD – Knowledge Discovery Database) là quá trình chiết xuất ra tri thức từ kho dữ liệu mà trong đó khai phá dữ liệu là công đoạn quan trọng nhất
Trang 2420
2.2.1 Các vấn đề về cơ sở dữ liệu
Đầu vào chủ yếu của một hệ thống khai thác tri thức là các dữ liệu thô trong cơ sở phát sinh trong khai phá dữ liệu chính là từ đây Do các dữ liệu trong thực tế thường động, không đầy đủ, lớn và bị nhiễu Trong những trường hợp khác, người ta không biết cơ sở dữ liệu có chứa các thông tin cần thiết cho việc khai thác hay không và làm thế nào để giải quyết với sự dư thừa những thông tin không thích hợp này
Dữ liệu lớn: Cho đến nay, các cơ sở dữ liệu với hàng trăm trường và bảng, hàng triệu bản ghi và với kích thước đến gigabytes đã là chuyện bình thường Hiện nay đã bắt đầu xuất hiện các cơ sở dữ liệu có kích thước tới terabytes Các phương pháp giải quyết hiện nay là đưa ra một ngưỡng cho cơ sở dữ liệu, lấu mẫu, các phương pháp xấp
xỉ, xử lý song song (Agrawal et al, Holsheimer et al)
Kích thước lớn: không chỉ có số lượng bản ghi lớn mà số các trường trong cơ
sở dữ liệu cũng nhiều Vì vậy mà kích thước của bài toán trở nên lớn hơn Một tập dữ liệu có kích thước lớn sinh ra vấn đề làm tăng không gian tìm kiếm mô hình suy diễn Hơn nữa, nó cũng làm tăng khả năng một giải thuật khai phá dữ liệu có thể tìm thấy các mẫu giả Biện pháp khắc phục là làm giảm kích thước tác động của bài toán và sử dụng các tri thức biết trước để xác định các biến không phù hợp
Dữ liệu động: Đặc điểm cơ bản của hầu hết các cơ sở dữ liệu là nội dung của chúng thay đổi liên tục Dữ liệu có thể thay đổi theo thời gian và việc khai phá dữ liệu cũng bị ảnh hưởng bởi thời điểm quan sát dữ liệu Ví dụ trong cơ sở dữ liệu về tình trạng bệnh nhân, một số giá trị dữ liệu là hằng số, một số khác lại thay đổi liên tục theo thời gian (ví dụ cân nặng và chiều cao), một số khác lại thay đổi tùy thuộc vào tình huống và chỉ có giá trị được quan sát mới nhất là đủ (ví dụ nhịp đập của mạch) Vậy thay đổi dữ liệu nhanh chóng có thể làm cho các mẫu khai thác được trước đó mất giá trị Hơn nữa, các biến trong cơ sở dữ liệu của ứng dụng đã cho cũng có thể bị thay đổi,
bị xóa hoặc là tăng lên theo thời gian Vấn đề này được giải quyết bằng các giải pháp
Trang 25 Các giá trị bị thiếu: Sự có mặt hay vắng mặt của giá trị các thuộc tính dữ liệu phù hợp có thể ảnh hưởng đến việc khai phá dữ liệu Trong hệ thống tương tác, sự thiếu vắng dữ liệu quan trọng có thể dẫn đến việc yêu cầu cho giá trị của nó hoặc kiểm tra để xác định giá trị của nó Hoặc cũng có thể sự vắng mặt của dữ liệu được coi như một điều kiện, thuộc tính bị mất có thể được coi như một giá trị trung gian và là giá trị không biết
Các trường bị thiếu: Một quan sát không đầy đủ cơ sở dữ liệu có thể làm cho các dữ liệu có giá trị bị xem như có lỗi Việc quan sát cơ sở dữ liệu phải phát hiện được toàn bộ các thuộc tính có thể dùng để giải thuật khai phá dữ liệu có thể áp dụng nhằm giải quyết bài toán Giả sử ta có các thuộc tính để phân biệt các tình huống đáng quan tâm Nếu chúng không làm được điều đó thì có nghĩa là đã có lỗi trong dữ liệu Đối với một hệ thống học để chuẩn đoán bệnh sốt rét từ một cơ sở dữ liệu bệnh nhân thì trường hợp các bản ghi của bệnh nhân có triệu chứng giống nhau nhưng lại có các chẩn đoán khác nhau là do trong dữ liệu đã bị lỗi Đây cũng là vấn đề thường xảy ra trong cơ sở dữ liệu kinh doanh Các thuộc tính quan trọng có thể sẽ bị thiếu nếu dữ liệu không được chuẩn bị cho việc khai phá dữ liệu
Độ nhiễu và không chắc chắn: Đối với các thuộc tính đã thích hợp, độ nghiêm trọng của lỗi phụ thuộc vào kiểu dữ liệu của các giá trị cho phép Các giá trị của các thuộc tính khác nhau có thể là các số thực, số nguyên, chuỗi và có thể thuộc vào tập
Trang 2622
các giá trị định danh Các giá trị định danh này có thể sắp xếp theo thứ tự từng phần hoặc đầy đủ, thậm chí có thể có cấu trúc ngữ nghĩa
Một yếu tố khác của độ không chắc chắn chính là tính kế thừa hoặc độ chính xác
mà dữ liệu cần có, nói cách khác là độ nhiễu crên các phép đo và phân tích có ưu tiên,
mô hình thống kê mô tả tính ngẫu nhiên được tạo ra và được sử dụng để định nghĩa độ mong muốn và độ đúng sai của dữ liệu Thường thì các mô hình thống kê được áp dụng theo cách đặc biệt để xác định một cách chủ quan các thuộc tính để đạt được các thống kê và đánh giá khả năng chấp nhận của các (hay tổ hợp các) giá trị thuộc tính Đặc biệt là với dữ liệu kiểu số, sự đúng đắn của dữ liệu có thể là một yếu tố trong việc khai phá Ví dụ như trong việc đo nhiệt độ cơ thể, ta thường cho phép chênh lệch 0.1
độ
Nhưng việc phân tích theo xu hướng nhạy cảm nhiệt độ của cơ thể lại yêu cầu độ chính xác cao hơn Để một hệ thống khai thác có thể liên hệ đến xu hướng này để chuẩn đoán thì lại cần có một độ nhiễu trong dữ liệu đầu vào
Mối quan hệ phức tạp giữa các trường: các thuộc tính hoặc các giá trị có cấu trúc phân cấp, các mối quan hệ giữa các thuộc tính và các phương tiện phức tạp để diễn tả tri thức về nội dung của cơ sở dữ liệu yêu cầu các giải thuật phải có khả năng sử dụng một cách hiệu quả các thông tin này Ban đầu, kỹ thuật khai phá dữ liệu chỉ được phát triển cho các bản ghi có giá trị thuộc tính đơn giản
Tuy nhiên, ngày nay người ta đang tìm cách phát triển các kỹ thuật nhằm rút ra mối quan hệ giữa các biến này
2.2.2 Một số vấn đề khác
“Quá phù hợp” (Overfitting): Khi một giải thuật tìm kiếm các tham số tốt nhất
cho đó sử dụng một tập dữ liệu hữu hạn, nó có thể sẽ bị tình trạng “quá độ” dữ liệu (nghĩa là tìm kiếm quá mức cần thiết gây ra hiện tượng chỉ phù hợp với các dữ liệu đó
Trang 2723
mà không có khả năng đáp ứng cho các dữ liệu lạ), làm cho mô hình hoạt động rất kém đối với các dữ liệu thử Các giải pháp khắc phục bao gồm đánh giá chéo (cross-validation), thực hiện theo nguyên tắc nào đó hoặc sử dụng các biện pháp thống kê khác
Đánh giá tầm quan trọng thống kê: Vấn đề (liên quan đến overfitting) xảy ra khi
một hệ thống tìm kiếm qua nhiều mô hình Ví dụ như nếu một hệ thống kiểm tra N mô hình ở mức độ quan trọng 0,001 thì với dữ liệu ngẫu nhiên trung bình sẽ có N/1000
mô hình được chấp nhận là quan trọng Để xử lý vấn đề này, ta có thể sử dụng phương pháp điều chỉnh thống kê trong kiểm tra như một hàm tìm kiếm, ví dụ như điều chỉnh Bonferroni đối với các kiểm tra độc lập
Khả năng biểu đạt của mẫu: Trong rất nhiều ứng dụng, điều quan trọng là những
điều khai thác được phải cáng dễ hiểu với con người càng tốt Vì vậy, các giải pháp thường bao gồm việc diễn tả dưới dạng đồ họa, xây dựng cấu trúc luật với các đồ thị
có hướng (Gaines), biểu diễn bằng ngôn ngữ tự nhiên (Matheus et al.) và các kỹ thuật khác nhằm biểu diễn tri thức và dữ liệu
Sự tương tác với người sử dụng và các tri thức sẵn có: rất nhiều công cụ và
phương pháp khai phá dữ liệu không thực sự tương tác với người dùng và không dễ dàng kết hợp cùng với các tri thức đã biết trước đó Việc sử dụng tri thức miền là rất quan trọng trong khai phá dữ liệu Đã có nhiều biện pháp nhằm khắc phục vấn đề này như sử dụng cơ sở dữ liệu suy diễn để phát hiện tri thức, những tri thức này sau đó được sử dụng để hướng dẫn cho việc tìm kiếm khai phá dữ liệu hoặc sử dụng sự phân
bố và xác suất dữ liệu trước đó như một dạng mã hóa tri thức có sẵn
2.3 CÁC KỸ THUẬT KHAI THÁC DỮ LIỆU
Các kỹ thuật khai thác dữ liệu để khám phá tri thức được chia thành 2 nhóm chính:
Trang 2824
- Nhóm mô tả dữ liệu: có nhiệm vụ mô tả về các tính chất hoặc các đặc tính chung của dữ liệu trong cơ sở dữ liệu hiện có gồm các kỹ thuật: phân cụm (clustering), luật kết hợp (Association rules), tóm tắt (Sumerization), trực quan hóa (Visualization),
- Nhóm dự đoán: đưa ra các dự đoán dựa vào các suy diễn trên dữ liệu hiện thời, gồm có các kỹ thuật: phân lớp (Classification), hồi quy (Regession)
Trong đó, có 3 kỹ thuật thông dụng nhất được sử dụng để khai thác dữ liệu là: luật kết hợp, phân cụm dữ liệu, phân lớp và dự đoán
- Phân tích luật kết hợp: là một trong những phương pháp của Data Mining Nhiệm
vụ của phương pháp này là phân tích dữ liệu trong cơ sở dữ liệu nhằm phát hiện và đưa
ra những mối liên hệ giữa các giá trị dữ liệu Đó chính là tập các luật kết hợp Luật kết hợp thu được thường có dạng một mệnh đề có 2 vế: A => B Trong đó, A là tiền đề, B
là mệnh đề kết quả Hai thông số quan trọng của luật kết hợp là độ hỗ trợ (Support) và
độ tin cậy (Confidence) Khai thác các luật kết hợp từ cơ sở dữ liệu là việc tìm các luật
có độ hỗ trợ và độ tin cậy lớn hơn ngưỡng mà người sử dụng xác định từ trước
Luật kết hợp tuy khá đơn giản nhưng những thông tin mà luật đem lại là rất đáng kể và
hỗ trợ không nhỏ trong quá trình ra quyết định Tìm kiếm các luật “quý hiếm” và mang nhiều thông tin từ cơ sở dữ liệu giao dịch (transactional database) là một trong những hướng tiếp cận chính trong khai thác dữ liệu
- Phân cụm dữ liệu (Clustering): mục tiêu chính của phương pháp phân cụm dư liệu
là nhóm các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một lớp là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng Phân cụm dữ liệu là một phương pháp học không có thầy Không giống như phân lớp dữ liệu, phân cụm dữ liệu không đòi hỏi phải định nghĩa trước các mẫu dữ liệu huấn luyện Vì thế, có thể coi phân cụm dữ liệu là một cách học bằng phương pháp quan sát (learning by observation), trong khi phân lớp dữ liệu là học bằng
Trang 2925
ví dụ (learning by example) Với phương pháp này bạn sẽ không thể biết kết quả các cụm thu được sẽ như thế nào khi bắt đầu quá trình Vì vậy, thông thường cần có một chuyên gia về lĩnh vực đó để đánh giá các cụm thu được Phân cụm dữ liệu được sử dụng nhiều trong các ứng dụng về phân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang web Ngoài ra, phân cụm dữ liệu còn có thể được sử dụng như một bước tiền xử lý cho các thuật toán khai thác khác
- Phân lớp và dự đoán (Classification & Prediction): xếp đối tượng vào một
trong các lớp đã biết trước Ví dụ như phân loại cước hoặc dịch vụ dựa trên số máy bị gọi của cuộc gọi, phân lớp khu vực dựa trên số máy chủ gọi, phân lớp giờ cao điểm, thấp điểm dựa trên giờ bắt đầu đàm thoại v.v Phân lớp là một lĩnh vực rất quan trọng trong khai phá dữ liệu Phân lớp còn được gọi là học có giám sát (supervised learning),
hướng tiếp cận này thường sử dụng một số kỹ thuật như cây quyết định (decision
tree), mạng nơ-ron nhân tạo (neural network)
2.4 CÁC VẤN ĐỀ LIÊN QUAN ĐẾN PHÂN LỚP VÀ DỰ ĐOÁN
2.4.1 Chuẩn bị dữ liệu cho việc phân lớp
Việc tiền xử lý dữ liệu cho quá trình phân lớp là một việc làm không thể thiếu và
có vai trò quan trọng quyết định tới sự áp dụng được hay không của mô hình phân lớp Quá trình tiền xử lý dữ liệu sẽ giúp cải thiện độ chính xác, tính hiệu quả và khả năng
mở rộng được của mô hình phân lớp
Quá trình tiền xử lý dữ liệu gồm có các công việc sau:
Trang 3127
xử lý với những giá trị thiếu và lỗi trong tập dữ liệu, nhưng bước tiền xử lý này có thể làm giảm sự hỗn độn trong quá trình xây dựng mô hình phân lớp
Thiếu giá trị
Hãy xem xét một kho dữ liệu bán hàng và quản lý khách hàng Trong đó có thể
có một hoặc nhiều giá trị mà khó có thể thu thập được ví dụ như thu nhập của khách hàng Vậy làm cách nào để chúng ta có được các thông tin đó, hãy xem xét các phương pháp sau
- Bỏ qua các bộ: Điều này thường được thực hiện khi thông tin nhãn dữ liệu bị mất Phương pháp này không phải lúc nào cũng hiệu quả trừ khi các bộ có chứa một số thuộc tính không thực sự quan trọng
- Điền vào các giá trị thiếu bằng tay: Phương pháp này thường tốn thời gian và
có thể không khả thi cho một tập dữ liệu nguồn lớn với nhiều giá trị bị thiếu
- Sử dụng các giá trị quy ước để điền vào cho giá trị thiệu: Thay thế các giá trị thuộc tính thiếu bởi cùng một hằng số quy ước, chẳng hạn như một nhãn ghi giá trị
“Không biết” hoặc “∞” Tuy vậy điều này cũng có thể khiến cho chương trình khai phá dữ liệu hiểu nhầm trong một số trường hợp và đưa ra các kết luận không hợp lý
Sử dụng các thuộc tính có nghĩa là để điền vào cho giá trị thiếu: Ví dụ, ta biết thu nhập bình quân đầu người của một khu vực lầ 800.000đ, giá trị này có thể được dùng thể thay thế cho giá trị thu nhập bị thiếu của khách hàng trong khu vực đó
- Sử dụng các giá trị của các bộ cùng thể loại để thay thế cho giá trị thiếu: Ví dụ, nếu khách hàng A thuộc cùng nhóm phân loại theo rủi ro tín dụng với một khách hàng
B khác trong khi đó khách hàng này có thông tin thu nhập bình quân Ta có thể sử dụng giá trị đó để điền vào cho giá trị thu nhập bình quân của khách hàng A
Trang 3228
- Sử dụng giá trị có tỉ lệ xuất hiện cao để điền vào cho các giá trị thiếu.: Điều này
có thể xác định bằng phương pháp hồi quy, các công cụ suy luận dựa trên lý thuyết Bayersian hay cây quyết định
Nhiễu dữ liệu là một lỗi ngẫu nhiên hay do biến động của các biến trong quá trình thực hiện, hoặc sự ghi chép nhầm lẫn ko được kiểm soát… Ví dụ cho thuộc tính như giá cá, làm cách nào để có thể làm mịn thuộc tính này để loại bỏ dữ liệu nhiễu Hãy xem xét các kỹ thuật làm mịn sau:
Trang 33Ví dụ, bin 1 có các giá trị 4, 8, 15 với giá trị trung bình là 9 Do vậy nếu làm mịn trung vị các giá trị ban đầu sẽ được thay thế bằng 9 Còn nếu làm mịn biên giá trị 8 ở gần giá trị 4 hơn nên nó được thay thế bằng 4
Hồi quy: Phương pháp thường dùng là hồi quy tuyến tính, để tìm ra được một
mối quan hệ tốt nhất giữa hai thuộc tính (hoặc các biến), từ đó một thuộc tính có thể dùng để dự đoán thuộc tính khác Hồi quy tuyến tính đa điểm là một sự mở rộng của phương pháp trên, trong đó có nhiều hơn hai thuộc tính được xem xét, và các dữ liệu tính ra thuộc về một miền đa chiều
Hình 2-4: Phân cụm dữ liệu khách hàng dựa trên thông tin địa chỉ
Trang 3430
Nhóm cụm: Các giá trị tương tự nhau được tổ chức thành các nhóm hay “cụm"
trực quan Các giá trị rơi ra bên ngoài các nhóm này sẽ được xem xét để làm mịn để đưa chúng
2.4.1.2 Tích hợp (Phân tích sự cần thiết của dữ liệu)
Có rất nhiều thuộc tính trong tập dữ liệu có thể hoàn toàn không cần thiết hay liên quan đến một bài toán phân lớp cụ thể Ví dụ dữ liệu về ngày trong tuần hoàn toàn không cần thiết đối với ứng dụng phân tích độ rủi ro của các khoản tiền cho vay của ngân hàng nên thuộc tính này là dư thừa Phân tích sự cần thiết của dữ liệu nhằm mục đích loại bỏ những thuộc tính không cần thiết, dư thừa khỏi quá trình phân lớp vì thuộc tính đó sẽ làm chậm, phức tạp và gây ra sự hiểu sai trong quá trình phân lớp dẫn tới mô hình phân lớp không đúng
Trong nhiều bài toán phân tích, chúng ta phải đồng ý rằng nguồn dữ liệu dùng để phân tích không thông nhất Để có thể phân tích được, các dữ liệu này cần phải được tích hợp, kết hơp thành một kho dữ liệu thống nhất Về dạng thức, các nguồn dữ liệu có thể được lưu trữ rất đa dạng từ: các cơ sở dữ liệu phổ dụng, các tập tin flat-file, các dữ liệu khối … Vấn đề đặt ra là làm thế nào có thể tích hợp chúng mà vẫn đảm bảo tính tương đương của thông tin giữa các nguồn
Ví dụ, làm thế nào mà người phân tích dữ liệu hoặc máy tính chắc chắn rằng thuộc tính id của khách hàng trong một cơ sở dữ liệu A và số hiệu cust trong một flat-file là các thuộc tính giống nhau về tính chất? Việc tích hợp luôn cần các thông tin diễn tả tính chất của mỗi thuộc tính (siêu dữ liệu) như: tên, ý nghĩa, kiểu dữ liệu, miền xác định, các quy tắc xử lý giá trị rỗng, bằng không … Các siêu dữ liệu sẽ được sử dụng để giúp chuyển đổi các dữ liệu Do vậy bước này cũng liên quan đến quá trình làm sạch dữ liệu
Trang 3531
Dư thừa dữ liệu: Đây cũng là một vấn đề quan trọng, ví dụ như thuộc tính
doanh thu hàng năm có thể là dư thừa nếu như nó có thể được suy diễn từ các thuộc tính hoặc tập thuộc tính khác
Một số dư thừa có thể được phát hiện thông qua các phân tích tương quan, Giả sử cho hai thuộc tính, việc phân tích tương quan có thể chỉ ra mức độ một thuộc tính phụ thuộc vào thuộc tính kia, dựa trên các dữ liệu có trong nguồn Với các thuộc tính số học, chúng ta có thể đánh giá sự tương quan giữa hai thuộc tính
A và B bằng cách tính toán độ tương quan như sau:
- ai và bi là các giá trị của thuộc tính A và B tại bộ thứ i
- A và B biểu diễn ý nghĩa các giá trị của A và B
- Avà Bbiểu diễn độ lệch chuẩn của A và B
- Nếu lớn hơn 0, thì A và B có khả năng có mối liên hệ tương quan với nhau, nghĩa
là nếu giá trị A tăng thì giá trị cua B cũng tăng lên Giá trị này càng cao thì mối quan hệ càng chặt chẽ Và hệ quả là nếu giá trị r A B, đủ cao thì một trong hai thuộc tính A (hoặc B) có thể được loại bỏ
Trang 3632
- Nếu r A B, bằng 0 thì A và B là độc lập với nhau và giữa chúng không có mối quan
hệ nào
- Nếu r A B, nhỏ hơn 0 thì A và B có mối quan hệ tương quan nghịch, khi đó nếu một
thuộc tính tăng thì giá trị của thuộc tính kia giảm đi
Chú ý rằng, nếu giữa A và B có mối quan hệ tương quan thì không có nghĩa chúng có mối quan hệ nhân quả, nghĩa là A hoặc B biến đổi là do sự tác độ từ thuộc tính kia Ví dụ có thể xem xét mối quan hệ tương quan giữa số bệnh viện và số vụ tai nạn ô tô ở một địa phương Hai thuộc tính này thực sự không có quan hệ nhân quả trực tiếp mà chúng quan hệ nhân quả với một thuộc tính thứ 3 là dân số
Với nguồn dữ liệu rời rạc, một mối quan hệ tương quan giữa hai thuộc tính A và
B có thể được khám phá ra qua phép kiểm 2
x Giả sử A có c giá trị không lặp được ký hiệu là a1, a2, …, ac B có r giá trị không lặp, ký hiệu b1, b2, …, br Bảng biểu diễn mối quan hệ A và B có thể được xây dựng như sau:
- c giá trị của A tạo thành cột
- r giá trị của B tạo hành hàng
- Gọi (Aj, Bj) biểu diễn các trường hợp mà thuộc tính A nhận giá trị ai, B nhận giá trị bi
Giá trị 2
x được tính như sau
2
ij ij 2
Trang 3750 (210)
1000 (840)
1050
Tổng 300 1200 1500 Vậy chúng ta tính được
ij
901500
count Nam count Nu e
N
Trang 3834
Chú ý trên mỗi dòng tổng số các tần xuất xuất hiện dự kiến được ghi trong cặp ngoặc () và tổng số tần xuất dự kiến trên mỗi cột bằng với tổng số tần xuất quan sát được trên cột đó
2.4.1.3 Biến đổi dữ liệu
Trong phần này các dữ liệu sẽ được biến đổi sang các dạng phù hợp cho việc khai phá dữ liệu Các phương pháp thường thấy như:
- Làm mịn: Phương pháp này loại bỏ các trường hợp nhiễu khỏi dữ liệu ví
dụ như các phương pháp binning, hồi quy, nhóm cụm
- Tổng hợp: trong đó tổng hợp hoặc tập hợp các hành động được áp dụng trên dữ liệu Ví dụ thấy rằng doanh số bán hàng hàng ngày có thể được tổng hợp để tính toán hàng tháng và hàng năm Bước này thường được sử dụng để xây dựng một khối dữ liệu cho việc phân tích
- Khái quát hóa dữ liệu, trong đó các dữ liệu mức thấp hoặc thô được thay thế bằng các khái niệm ở mức cao hơn thông qua kiến trúc khai niệm Ví dụ, các thuộc tính phân loại ví dụ như “Đường phố” có thể khái quát hóa lên mức cao hơn
Trang 39- Trong phần này chúng ta sẽ xem xét phương pháp chuẩn hóa làm chủ đạo
Một thuộc tính được chuẩn hóa bằng cách ánh xạ một cách có tỉ lệ dữ liệu về một khoảng xác định ví dụ như 0.0 đến 1.0 Chuẩn hóa là một phần hữu ích của thuật toán phân lớp trong mạng noron, hoặc thuật toán tính toán độ lệch sử dụng trong việc phân lớp hay nhóm cụm các phần tử liền kề Chúng ta sẽ xem xét ba phương pháp: min-max, z-score, và thay đổi số chữ số phần thập phân (decimal scaling)
a Min-Max
Thực hiện một biến đổi tuyến tính trên dữ liệu ban đầu Giả sử rằng minA và maxA là giá trị tối thiểu và tối đa của thuộc tính A Chuẩn hóa min-max sẽ ánh xạ giá trị v của thuộc tính A thành v’ trong khoảng [new_minA, new_maxA] bằng cách tính toán
Trang 40Với phương pháp này, các giá trị của một thuộc tính A được chuẩn hóa dựa vào
độ lệch tiêu chuẩn và trung bình của A Một giá trị v của thuộc tính A được ánh xạ thành v‟ như sau:
'
A
v A v
' 2.500.000 1.000.000 1.500.000
3500.000 500.000
c Thay đổi số chữ số phần thập phân (decimal scale)
Phương pháp này sẽ di chuyển dấu phân các phần thập phân của các giá trị của thuộc tính A Số chữ số sau dấu phân cách phần thập phân được xác định phụ thuộc vào giá trị tuyệt đối lớn nhất có thể có của thuộc tính A Khi đó giá trị v sẽ được ánh
Trong đó j là giá trị nguyên nhỏ nhất thỏa mãn Max(|v’|) < 1
Ví dụ: Giả sử rằng các giá trị của thuộc tính A được ghi nhận nằm trong khoảng
-968 đến 917 Giá trị tuyệt đối lớn nhất của miền là 986 Để thực hiện chuẩn hóa theo