Ứng dụng khai phá dữ liệu để tư vấn học tập tại trường Đại học Sư phạm Thể dục thể thao Hà NộiỨng dụng khai phá dữ liệu để tư vấn học tập tại trường Đại học Sư phạm Thể dục thể thao Hà NộiỨng dụng khai phá dữ liệu để tư vấn học tập tại trường Đại học Sư phạm Thể dục thể thao Hà NộiỨng dụng khai phá dữ liệu để tư vấn học tập tại trường Đại học Sư phạm Thể dục thể thao Hà NộiỨng dụng khai phá dữ liệu để tư vấn học tập tại trường Đại học Sư phạm Thể dục thể thao Hà Nội
Trang 1HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
-
HOÀNG THU THỦY
ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐỂ TƯ VẤN HỌC TẬP TẠI TRƯỜNG ĐẠI HỌC SƯ PHẠM THỂ DỤC THỂ THAO
HÀ NỘI
LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)
HÀ NỘI - 2016
Trang 2HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
-
HOÀNG THU THỦY
ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐỂ TƯ VẤN HỌC TẬP TẠI TRƯỜNG ĐẠI HỌC SƯ PHẠM THỂ DỤC THỂ THAO
Trang 3i
LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào
TÁC GIẢ
HOÀNG THU THỦY
Trang 4ii
LỜI CẢM ƠN
Trước tiên, cho em gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới thầy giáo
PGS.TS Trần Đình Quế, người đã trực tiếp hướng dẫn, tạo mọi điều kiện thuận lợi
và tận tình chỉ bảo cho em trong suốt quá trình thực hiện luận văn tốt nghiệp
Em xin chân thành cảm ơn quý Thầy, Cô giáo Học viện Công nghệ Bưu chính Viễn thông đã tận tình chỉ bảo em trong suốt thời gian học tập tại nhà trường
Bên cạnh đó, đề hoàn thành luận văn này, em cũng đã nhận được rất nhiều sự giúp đỡ, những lời động viên quý báu của bạn bè, gia đình và đồng nghiệp Em xin chân thành cảm ơn
Tuy nhiên, do thời gian hạn hẹp, mặc dù đã nỗ lực hết sức mình, nhưng chắc rằng luận văn khó tránh khỏi thiếu sót Em rất mong nhận được sự thông cảm và chỉ bảo tận tình của quý thầy cô và các bạn
TÁC GIẢ
HOÀNG THU THỦY
Trang 5iii
MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
MỤC LỤC iii
DANH MỤC TỪ VIẾT TẮT v
DANH MỤC CÁC BẢNG vi
DANH MỤC CÁC HÌNH VẼ vii
MỞ ĐẦU 1
Tính cấp thiết của đề tài 1
Tổng quan về vấn đề nghiên cứu 2
Mục đích nghiên cứu 3
Đối tượng và phạm vi nghiên cứu 3
CHƯƠNG 1: TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 5
1.1 Giới thiệu chung về khám phá tri thức và khai phá dữ liệu 5
1.1.1 Khái niệm về khám phá tri thức và khai phá dữ liệu 5
1.1.2 Các hướng tiếp cận cơ bản trong khai phá dữ liệu 6
1.1.3 Những vấn đề khó khăn trong khai phá dữ liệu 7
1.2 Quá trình khám phá tri thức và khai phá dữ liệu 7
1.2.1 Quá trình khám phá tri thức 7
1.2.2 Quá trình khai phá dữ liệu 8
1.2.3 Các phương pháp khai phá dữ liệu 8
1.3 Ứng dụng khai phá dữ liệu trong giáo dục 9
1.3.1 Khai phá dữ liệu giáo dục 9
1.3.2 Mục tiêu của khai phá dữ liệu giáo dục 10
1.3.3 Các giai đoạn của khai phá dữ liệu giáo dục 10
1.3.4 Một số lĩnh vực ứng dụng của EDM 11
1.4 Kết luận chương 11
CHƯƠNG 2: MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU 12
2.1 Một số kỹ thuật phân cụm 12
2.1.1 Phương pháp phân hoạch (Partitioning Methods) 12
2.1.1.1 Thuật toán k-means 12
2.1.1.2 Thuật toán PAM (Partitioning Around Medoids) 13
Trang 6iv
2.1.2 Phương pháp phân cấp (Hierarchical Methods) 15
2.1.2.1 Thuật toán BIRCH 16
2.1.2.2 Thuật toán CURE 18
2.1.3 Phương pháp dựa trên mật độ (Density-Based Methods) 19
2.1.3.1 Thuật toán DBSCAN 20
2.1.3.2 Thuật toán OPTICS (Ordering Points To Indentify the Clustering Structure) 22
2.1.3.3 Thuật toán DENCLUDE (DENsity – Base CLUstEring) 23
2.1.4 Phương pháp dựa trên lưới (Grid-Based Methods) 24
Thuật toán STING 25
2.2 Tổng hợp các thuật toán 26
2.3 Kết luận chương 27
CHƯƠNG 3: TƯ VẤN HỌC TẬP CHO SINH VIÊN TRƯỜNG ĐẠI HỌC SƯ PHẠM THỂ DỤC THỂ THAO HÀ NỘI 28
DỰA TRÊN KHAI PHÁ DỮ LIỆU 28
3.1 Giới thiệu bài toán 28
3.2 Lựa chọn thuật toán 30
3.3 Xây dựng hệ thống tư vấn học tập 30
3.3.1 Mục đích của hệ thống 30
3.3.2 Yêu cầu hệ thống 30
3.3.3 Phân tích xây dựng hệ thống 31
3.3.3.1 Cơ sở dữ liệu 31
3.3.3.2 Các chức năng chính của hệ thống 33
3.4 Kết luận chương 41
KẾT LUẬN 42
TÀI LIỆU THAM KHẢO 43
PHỤ LỤC 44
Trang 8vi
DANH MỤC CÁC BẢNG
Bảng 2.1: Đặc tính của các thuật toán 27
Bảng 3.1: Bảng thống kê số lượng SV năm học 2013 – 2014 29
Bảng 3.2: Bảng thống kê số lượng SV năm học 2014 – 2015 29
Bảng 3.3: Bảng thống kê số lượng SV năm học 2015 – 2016 30
Trang 9vii
DANH MỤC CÁC HÌNH VẼ
Hình 3.1: Các bảng CSDL 32
Hình 3.2: Bảng CSDL danh sách sinh viên 32
Hình 3.3: Bảng CSDL sinh viên đăng ký chuyên sâu Thể dục 33
Hình 3.4: Giao diện chính của hệ thống 34
Hình 3.5: Thông tin sinh viên đăng ký chuyên sâu Điền kinh 35
Hình 3.6: Thông tin của một sinh viên 36
Hình 3.7: Lưu đồ thuật toán k-means 36
Hình 3.8: Phân cụm điểm của sinh viên 40
Hình 3.9: Kết quả điểm các môn thi và đánh giá cho một sinh viên 40
Trang 101
MỞ ĐẦU
Tính cấp thiết của đề tài
Giáo dục và đào tạo giữ vai trò hết sức quan trọng đối với sự phát triển của mỗi quốc gia, mỗi dân tộc Thế hệ trẻ, những người đang ngày ngày học tập và làm việc cần được định hướng đúng đắn để tránh mắc phải những sai lầm không đáng
có Một trong những vấn đề chính mà các sinh viên phải đối mặt khi ngồi trên ghế nhà trường là có một quyết định đúng đắn liên quan tới quá trình học tập của bản thân để có thể đạt được thành tích học tập tốt nhất
Vì vậy, việc tư vấn học tập để chọn chương trình học phù hợp nhằm đạt được kết quả cao luôn được quan tâm đặc biệt Đây không chỉ là khó khăn của mỗi sinh viên mà còn là khó khăn của những giảng viên tham gia tư vấn, từ khối dữ liệu khổng lồ để đưa ra những tư vấn tốt trong việc lựa chọn chuyên ngành học cho sinh viên không phải là dễ dàng Khai phá dữ liệu đã và đang được ứng dụng thành công trong giáo dục, có thể giúp sinh viên có thể đưa ra lựa chọn tốt hơn cho quá trình học tập của bản thân
Trong giáo dục, giáo dục thể chất được xem là một trong những hoạt động thu hút sự tham gia đông đảo của học sinh, sinh viên Bởi lẽ, giáo dục thể chất mang trong nó những vai trò hết sức quan trọng góp phần vào việc rèn luyện và đào tạo một con người có sức khỏe, đạo đức và tri thức
Giáo dục thể chất là một trong những mục tiêu giáo dục toàn diện của Đảng
và Nhà nước ta, nằm trong hệ thống giáo dục quốc dân Trường Đại học Sư phạm Thề dục Thể thao Hà Nội, nơi đào tạo ra đội ngũ giáo viên giáo dục thể chất tương lai cho đất nước luôn cố gắng để hoàn thành tốt công việc của mình Để giúp các
em sinh viên chính quy có thể đưa ra quyết định lựa chọn đúng đắn theo học một chuyên sâu phù hợp với năng lực, mong muốn của bản thân trong quá trình học tập
tại trường, tác giả đã lựa chọn đề tài luận văn “Ứng dụng khai phá dữ liệu để tư
vấn học tập tại trường Đại học Sư phạm Thể dục Thể thao Hà Nội”
Trang 112
Tổng quan về vấn đề nghiên cứu
Trong những thập kỷ gần đây sự phát triển nhanh chóng của mạng Internet và công nghệ đa phương tiện đã được áp dụng nhiều hơn trong giáo dục Một loạt các hội thảo về Educational Data Mining (EDM) đã được tổ chức từ năm 2000-2007, như là một phần của một số hội nghị nghiên cứu quốc tế Năm 2008, đã trở thành hội nghị quốc tế hằng năm về EDM, diễn ra lần đầu tiên ở Montreal, Canada Vì lợi ích của EDM ngày càng tăng nên các nhà nghiên cứu EDM đã thành lập một tạp chí khoa học vào năm 2009, “Tạp chí khai thác dữ liệu giáo dục”, để chia sẻ và phổ biến kết quả nghiên cứu
Bên cạnh đó, các hệ thống công nghệ thông tin đã được xây dựng để đáp ứng nhu cầu tìm hiểu kiến thức ngày càng cao của học sinh, sinh viên Các kỹ thuật khai phá dữ liệu đã được xem xét và sử dụng trong xây dựng hệ thống tư vấn môn học cho sinh viên, giúp sinh viên đang theo học tại các trường đào tạo theo tín chỉ có thể định hướng trong lựa chọn môn học hay chuyên ngành Hay xây dựng mô hình khai phá dữ liệu dựa vào thông tin tuyển sinh đầu vào và kết quả thu thập được của sinh viên, nhằm dự đoán kết quả học tập, từ đó giúp sinh viên có thể chọn lựa một lộ trình học đạt kết quả tối ưu nhất phù hợp với điều kiện và năng lực của mình
Học viện Công nghệ Bưu chính Viễn thông đã có một số đề tài nghiên cứu như:
đề tài thạc sĩ kỹ thuật năm 2010 của Phạm Thị Phúc “Khai phá dữ liệu cho tư vấn lựa chọn môn học” Hay đề tài: “Phương pháp khai phá dữ liệu bằng cây quyết định”, đề tài thạc sĩ của Phạm Duy An năm 2012 với mục đích xây dựng hệ thống
tư vấn môn học cho sinh viên theo học bằng hình thức đào tạo tín chỉ
Luận văn của tác giả tập trung vào nghiên cứu một số kỹ thuật phân cụm dữ liệu, từ đó chọn kỹ thuật phù hợp để xây dựng hệ thống tư vấn học tập giúp sinh viên trường Đại học Sư phạm Thể dục Thể thao Hà Nội đánh giá đúng về kỹ năng
và năng lực của bản thân trước khi đăng ký theo học một chuyên sâu phù hợp nhất với bản thân
Trang 123
Mục đích nghiên cứu
- Nghiên cứu, tìm hiểu các vấn đề cơ bản về khai phá dữ liệu, một số kỹ thuật phân cụm dữ liệu để đưa ra một bản tổng hợp có thể giúp cho những nghiên cứu sau này
- Ứng dụng để xây dựng được hệ thống tư vấn học tập giúp sinh viên chính quy lựa chọn theo học một chuyên sâu phù hợp với bản thân, dựa vào kết quả học tập của sinh viên và dữ liệu thu thập được từ giảng viên trường Đại học Sư phạm Thể dục Thể thao Hà Nội
Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu:
- Một số kỹ thuật phân cụm dữ liệu
- Dữ liệu đào tạo chuyên ngành giáo dục thể chất
Phạm vi nghiên cứu:
- Giới hạn trong một số kỹ thuật phân cụm dữ liệu
- Dữ liệu thu thập được tại trường Đại học Sư phạm TDTT Hà Nội
Cấu trúc luận văn:
Ngoài phần mở đầu và kết luận, luận văn được cấu trúc thành 3 chương như sau:
Chương 1: Tổng quan về khám phá tri thức và khai phá dữ liệu
Trình bày tổng quan về khám phá tri thức, khai phá dữ liệu và một số ứng dụng của khai phá dữ liệu trong giáo dục
Chương 2: Một số kỹ thuật phân cụm dữ liệu
Chương này trình bày khái quát về một số kỹ thuật phân cụm dữ liệu Phân tích, đánh giá các kỹ thuật để quyết định lựa chọn được thuật toán phù hợp cho việc xây dựng hệ thống tư vấn mà luận văn đưa ra
Chương 3: Tư vấn học tập cho sinh viên trường Đại học Sư phạm Thể dục Thể thao Hà Nội dựa trên khai phá dữ liệu
Giới thiệu về bài toán thực tế trong chương trình đào tạo cho sinh viên tại trường Đại học Sư phạm Thể dục Thể thao Hà Nội Khó khăn cho các sinh viên khi
Trang 134
quyết định lựa chọn cho mình một chuyên sâu phù hợp tại trường Dựa trên khai phá dữ liệu và thuật toán lựa chọn được để xây dựng hệ thống tư vấn học tập cho sinh viên, giúp sinh viên có thể đưa ra quyết định đúng đắn để kết quả học tập đạt tối ưu
Trang 145
CHƯƠNG 1: TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ
KHAI PHÁ DỮ LIỆU
1.1 Giới thiệu chung về khám phá tri thức và khai phá dữ liệu
1.1.1 Khái niệm về khám phá tri thức và khai phá dữ liệu
Khám phá tri thức (KPTT) là quá trình tìm ra những tri thức, đó là những mẫu tiềm ẩn, trước đó chưa biết và là thông tin hữu ích đáng tin cậy Còn khai phá
dữ liệu (KPDL) là một bước quan trọng trong quá trình khám phá tri thức, sử dụng các thuật toán KPDL chuyên dùng với một số quy định về hiệu quả tính toán chấp nhận được để chiết xuất ra các mẫu hoặc mô hình có ích trong dữ liệu
Khám phá tri thức từ cơ sở dữ liệu (CSDL) là một quá trình sử dụng các phương pháp và công cụ tin học, trong đó con người là trung tâm của quá trình Do
đó, con người cần phải có kiến thức cơ bản về lĩnh vực cần khám phá để có thể chọn được tập con dữ liệu tốt, từ đó phát hiện các mẫu phù hợp với mục tiêu đề ra Tuy nhiên, quá trình khám phá tri thức mang tính chất hướng nhiệm vụ vì không phải mọi tri thức tìm được đều áp dụng được vào thực tế
Dữ liệu là tập hợp những bộ thông tin chính xác và quá trình khám phá tri thức được xem là sự lọc bỏ các dư thừa, được rút gọn tới mức tối thiểu, chỉ để lại các đặc trưng cơ bản cho dữ liệu Tri thức được tìm thấy là các thông tin tích hợp, bao gồm các sự kiện và các mối quan hệ trong chúng Các mối quan hệ này có thể được hiểu ra, có thể được phát hiện, hoặc có thể được học
Khai phá dữ liệu (KPDL) là một giai đoạn quan trọng trong quá trình khám phá tri thức Về bản chất nó là giai đoạn duy nhất tìm ra được thông tin mới KPDL được định nghĩa là quá trình trích lọc các thông tin có giá trị ẩn trong lượng lớn dữ liệu được lưu trữ trong các CSDL hoặc các kho dữ liệu,… KPDL còn được coi là quá trình tìm kiếm, khám phá ở nhiều góc độ để tìm ra các mối tương quan, các mối liên hệ dưới nhiều góc độ khác nhau nhằm tìm ra các mẫu hay các mô hình tồn tại bên trong cơ sở dữ liệu đang bị che khuất Để trích rút các mẫu, mô hình tiềm ẩn ta phải tìm và áp dụng các phương pháp, kỹ thuật khai phá phù hợp với đặc trưng, tính
Trang 151.1.2 Các hướng tiếp cận cơ bản trong khai phá dữ liệu
Khai phá dữ liệu được chia nhỏ thành một số hướng chính như sau:
- Mô tả khái niệm (Concept description) : thiên về mô tả, tổng hợp và tóm
tắt khái niệm Ví dụ: tóm tắt văn bản
- Luật kết hợp (Association rules): là dạng luật biểu diễn tri thức ở dạng
khá đơn giản Luật kết hợp được ứng dụng nhiều trong lĩnh vực kinh doanh, y học, tài chính, giáo dục, viễn thông,…
- Phân lớp và dự đoán (Classification and prediction): xếp một đối tượng
vào một trong những lớp đã biết trước Hướng tiếp cận này thường sử dụng một số
kỹ thuật của machine learning như cây quyết định (decision tree), mạng nơron nhân tạo (neural network),…Người ta còn gọi phân lớp là học có giám sát – học có thầy (supervised learning)
- Phân cụm (Clustering): xếp các đối tượng theo từng cụm dữ liệu tự nhiên,
(số lượng cũng như tên của cụm chưa được biết trước) Các đối tượng được gom cụm sao cho mức độ tương tự giữa các đối tượng trong cùng một cụm là lớn nhất
và mức độ tương tự giữa các đối tượng nằm trong các cụm khác nhau là nhỏ nhất Người ta còn gọi phân cụm là học không có giám sát – học không thầy (unsupervised learning)
- Khai phá chuỗi (Sequential/Temporal patterns): tương tự như khai phá
luật kết hợp nhưng có thêm tính thứ tự và tính thời gian Một luật mô tả mẫu tuần tự
có dạng tiêu biểu X->Y, phản ánh sự xuất hiện của biến cố X sẽ dẫn đến việc xuất hiện biến cố Y Hướng tiếp cận này được ứng dụng nhiều trong lĩnh vực tài chính
và thị trường chứng khoán bởi chúng có tính dự báo cao
Trang 167
1.1.3 Những vấn đề khó khăn trong khai phá dữ liệu
Khai phá dữ liệu là một lĩnh vực liên ngành và được ứng dụng rộng rãi trên nhiều lĩnh vực Tuy nhiên với đặc điểm là việc xử lý các CSDL lớn nên khai phá dữ liệu cũng có những vấn đề khó khăn riêng Sau đây là một số vấn đề khó khăn:
- Các cơ sở dữ liệu lớn, các tập dữ liệu cần xử lý có kích thước rất lớn
- Mức độ nhiễu cao hoặc dữ liệu bị thiếu
- Số chiều lớn
- Thay đổi dữ liệu và tri thức có thể làm cho các mẫu đã phát hiện không còn phù hợp
- Quan hệ giữa các trường phức tạp
1.2 Quá trình khám phá tri thức và khai phá dữ liệu
1.2.1 Quá trình khám phá tri thức
Quá trình khám phá tri thức là một chuỗi lặp gồm các bước sau:
Data Cleaning (Làm sạch dữ liệu): Loại bỏ dữ liệu nhiễu và dữ liệu không
nhất quán
Data Intergation (Tích hợp dữ liệu): Dữ liệu của nhiều nguồn có thể tổ hợp
lại
Data Selection (Lựa chọn dữ liệu): Lựa chọn những dữ liệu phù hợp với
nhiệm vụ phân tích trích rút từ cơ sở dữ liệu
Data Transformation (Biến đổi dữ liệu): Dữ liệu được chuyển đổi hay được
hợp nhất về dạng thích hợp cho việc khai phá
Data Mining (Khai phá dữ liệu): Đây là một tiến trình cốt yếu trong đó các
phương pháp được áp dụng nhằm trích rút ra mẫu dữ liệu
Pattern Evaluation (Đánh giá mẫu): Dựa trên một độ đo nào đó xác định lợi
ích thực sự, độ quan trọng của các mẫu biểu diễn tri thức
Knowledge Presentation (Biểu diễn tri thức): Ở giai đoạn này các kỹ thuật
biểu diễn và hiển thị được sử dụng để đưa tri thức lấy ra cho người dùng
Trang 178
1.2.2 Quá trình khai phá dữ liệu
KPDL là một giai đoạn quan trọng trong quá trình khám phá tri thức Về bản chất, nó là giai đoạn duy nhất tìm ra được thông tin mới, thông tin tiềm ẩn có trong CSDL chủ yếu phục vụ cho dự đoán và mô tả
Mô tả dữ liệu là tổng kết hoặc diễn tả những đặc điểm chung của những thuộc tính dữ liệu trong kho dữ liệu mà con người có thể hiểu được
Dự đoán là dựa trên những dữ liệu hiện thời để dự đoán những quy luật được phát hiện từ các mối liên hệ giữa các thuộc tính của dữ liệu trên cơ sở đó chiết xuất
ra các mẫu, dự đoán được những giá trị chưa biết hoặc những giá trị tương lai của các biến quan tâm
Quá trình khai phá dữ liệu bao gồm:
Xác định nhiệm vụ: Xác định chính xác các vấn đề cần giải quyết
Xác định dữ liệu liên quan: Dùng để xây dựng giải pháp
Thu thập và tiền xử lý dữ liệu: Thu thập các dữ liệu liên quan và tiền xử lý
chính sao cho thuật toán KPDL có thể hiểu được Đây là một quá trình rất khó khăn,
có thể gặp phải rất nhiều các vướng mắc như: dữ liệu phải được sao ra thành nhiều bản, quản lý tập các dữ liệu, phải lặp đi lặp lại nhiều lần toàn bộ quá trình (nếu mô hình dữ liệu thay đổi),…
Thuật toán KPDL: Lựa chọn thuật toán KPDL và thực hiện việc KPDL để
tìm được các mẫu có ý nghĩa, các mẫu này được biểu diễn dưới dạng luật kết hợp, cây quyết định,… tương ứng với ý nghĩa của nó
1.2.3 Các phương pháp khai phá dữ liệu
Với mục đích mô tả và dự đoán, thường sử dụng các phương pháp sau cho khai phá dữ liệu:
+ Luật kết hợp (Association rules)
+ Phân lớp (Classfication)
+ Hồi quy (Regression)
+ Trực quan hóa (Visualiztion)
+ Phân cụm (Clustering)
Trang 189
+ Tổng hợp (Summarization)
+ Mô hình phụ thuộc (Dependency modeling)
+ Đánh giá mô hình (Model Evaluation)
+ Phương pháp tìm kiếm (Search Method)
Có ba phương pháp được sử dụng nhiều nhất là: Luật kết hợp, Phân lớp dữ liệu và Phân cụm dữ liệu
1.3 Ứng dụng khai phá dữ liệu trong giáo dục
1.3.1 Khai phá dữ liệu giáo dục
Khai phá dữ liệu giáo dục (EDM) mô tả một lĩnh vực nghiên cứu liên quan đến việc áp dụng khai thác dữ liệu, máy học và thống kê các thông tin được tạo ra
từ các thiết lập giáo dục (ví dụ, các trường đại học và các hệ thống thông minh) Ở mức độ cao, lĩnh vực này tìm cách phát triển và cải tiến phương pháp để khám phá
dữ liệu, thường có nhiều cấp độ của hệ thống phân cấp có ý nghĩa Khai phá dữ liệu giáo dục đã đóng góp lý thuyết về nghiên cứu học tập của các nhà nghiên cứu tâm
lý giáo dục và các ngành khoa học học tập, các lĩnh vực liên quan chặt chẽ với các phân tích học tập
Khai phá dữ liệu giáo dục đề cập đến các kỹ thuật, công cụ, và nghiên cứu thiết kế để tự động trích xuất thông tin có ích từ các kho dữ liệu lớn được tạo bởi người học, liên quan đến người học hoặc các hoạt động trong môi trường giáo dục
Ứng dụng khai phá dữ liệu trong giáo dục là một lĩnh vực đang ngày càng được quan tâm, đóng góp không nhỏ cho các hoạt động giáo dục Cung cấp những thông tin hữu ích để thiết kế môi trường học tập, cho phép học sinh, sinh viên, giáo viên, các nhà quản lý và hoạch định chính sách giáo dục đưa ra các quyết định phù hợp
Khai phá dữ liệu giáo dục đã trở thành hội nghị quốc tế diễn ra hằng năm từ
năm 2008 Thêm vào đó còn các bài báo như: “Education Data Mining
Applycation” của S.Lakshmi Prabha và A.R.Mohamed Shanavas, “A survey of education data mining research” của Richard A Huebner, “Recommendation in Higher Education Using Data Mining Techniques” của Vialardi et al
Trang 1910
1.3.2 Mục tiêu của khai phá dữ liệu giáo dục
Baker và Yacef xác định bốn mục tiêu sau đây của EDM:
Dự đoán hành vi học tập trong tương lai của sinh viên: với việc sử dụng các
mô hình sinh viên, mục tiêu này có thể đạt được bằng cách tạo ra mô hình sinh viên
có kết hợp các đặc điểm của người học, bao gồm thông tin chi tiết như: kiến thức, hành vi và động lực học tập Những kinh nghiệm sử dụng của người học và tổng thể của họ hài lòng với việc học cũng được đo
Khám phá hoặc cải thiện các mô hình miền: thông qua các phương pháp khác nhau và các ứng dụng của EDM, phát hiện mới và cải tiến mô hình hiện tại là có thể Ví dụ như minh họa các nội dung giáo dục để thu hút người học và xác định trình tự giảng dạy tối ưu để hỗ trợ phương pháp học tập của học sinh
Nghiên cứu ảnh hưởng của hỗ trợ giáo dục có thể được thực hiện thông qua
hệ thống học tập
Thúc đẩy sự hiểu biết khoa học về việc học tập bằng cách xây dựng và kết hợp mô hình sinh viên, các lĩnh vực nghiên cứu EDM và các công nghệ và phần mềm sử dụng
1.3.3 Các giai đoạn của khai phá dữ liệu giáo dục
Hiện nay, lĩnh vực nghiên cứu khai thác dữ liệu giáo dục đang tiếp tục phát triển, vô số các kỹ thuật khai thác dữ liệu đã được áp dụng cho một loạt các phạm vi giáo dục Trong mỗi trường hợp, mục tiêu là để dịch dữ liệu thô thành các thông tin
có ý nghĩa về quá trình học tập để đưa ra quyết định tốt hơn về thiết kế và quy trình của một môi trường học tập Như vậy, EDM thường bao gồm bốn giai đoạn:
+ Giai đoạn đầu tiên của quá trình EDM (không kể tiền xử lý) được khám phá mối quan hệ trong dữ liệu Điều này liên quan đến việc tìm kiếm thông qua một kho lưu trữ dữ liệu từ một môi trường giáo dục với mục tiêu tìm kiếm các mối quan
hệ phù hợp giữa các biến Một số thuật toán để xác định các mối quan hệ đó đã được sử dụng, bao gồm phân loại, hồi quy, phân nhóm, phân tích nhân tố, phân tích mạng xã hội, khai thác luật kết hợp và khai thác mô hình tuần tự
Trang 2011
+ Giai đoạn 2: Các mối quan hệ phát hiện ra sau đó phải được xác nhận để tránh overfitting
+ Giai đoạn 3: Mối quan hệ xác thực được áp dụng để làm các dự báo về các
sự kiện trong tương lai trong môi trường học tập
+ Giai đoạn 4: Dự đoán được sử dụng để hỗ trợ quá trình ra quyết định và quyết định cách giải quyết
1.3.4 Một số lĩnh vực ứng dụng của EDM
Một số lĩnh vực ứng dụng của EDM là:
- Phân tích và trực quan dữ liệu
- Cung cấp thông tin phản hồi để hỗ trợ giáo viên
- Dự đoán kết quả học tập
- Kiến nghị cho sinh viên
- Phát hiện hành vi sinh viên không mong muốn
Trang 2112
CHƯƠNG 2: MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU
2.1 Một số kỹ thuật phân cụm
Các kỹ thuật phân cụm có rất nhiều cách tiếp cận và các ứng dụng trong thực
tế, nó đều hướng tới hai mục tiêu chung đó là chất lượng của các cụm khám phá được và tốc độ thực hiện của thuật toán Hiện nay, các kỹ thuật phân cụm có thể phân loại theo các phương pháp tiếp cận chính sau: phương pháp phân hoạch (Partitioning Methods); phương pháp phân cấp (Hierarchical Methods); phương pháp dựa trên mật độ (Density-Based Methods); phương pháp dựa trên lưới (Grid-Basesd Methods)
2.1.1 Phương pháp phân hoạch (Partitioning Methods)
Ý tưởng chính của phương pháp phân hoạch là phân một tập dữ liệu có n phần tử cho trước thành k nhóm dữ liệu sao cho mỗi phần tử dữ liệu chỉ thuộc về một nhóm dữ liệu và mỗi nhóm có ít nhất một phần tử dữ liệu Phương pháp này tốt cho việc tìm các cụm hình cầu trong không gian Euclidean Tuy nhiên, phương pháp này không thể xử lý các cụm có hình dạng kỳ quặc hoặc các cụm có mật độ các điểm dày đặc Các thuật toán phân hoạch có độ phức tạp rất lớn khi xác định nghiệm tối ưu toàn cục cho vấn đề phân cụm dữ liệu, vì nó phải tìm kiếm tất cả các cách phân hoạch có thể được Vì vậy, trên thực tế thường đi tìm giải pháp tối ưu cục
bộ cho vấn đề này bằng cách sử dụng một hàm tiêu chuẩn để đánh giá chất lượng của cụm cũng như để hướng dẫn cho quá trình tìm kiếm phân hoạch dữ liệu.Vậy nên, ý tưởng chính của thuật toán phân cụm phân hoạch là sử dụng chiến lược tham
ăn (Greedy) để tìm kiếm nghiệm
Điển hình trong phương pháp tiếp cận theo phương pháp phân hoạch là các thuật toán như: k-means, PAM, CLARA (Clustering Large Applications), CLARANS (Clustering Large Applications based on Randomized Search)…
2.1.1.1 Thuật toán k-means
Thuật toán k-means do MacQueen giới thiệu trong tài liệu “J Some methods for Classification and Analysis of Multivariate Observations” năm 1967 Mục đích
Trang 2213
của thuật toán là sinh ra k cụm dữ liệu {C1, C2,…, Ck} từ một tập dữ liệu ban đầu gồm n đối tượng trong không gian d chiều Xi= (xi1, xi2, …, xid) ( = 1, n), sao cho hàm tiêu chuẩn = ∑ ∑ ∈ ( − ) đạt giá trị cực tiểu Trong đó mi là trọng tâm của cụm Ci D là khoảng cách giữa hai đối tượng Thuật toán k-means gồm các bước cơ bản sau:
Input: Số các cụm k, cơ sở dữ liệu gồm n đối tượng
Output: Các cụm Ci (i=1,…, k) sao cho hàm tiêu chuẩn E đạt giá trị tối
Bước 3: Thuật toán dừng khi giá trị E không thay đổi
Để khoảng cách giữa điểm tâm tới các điểm, dùng độ đo khoảng cách Euclidean
Thuật toán k-means chỉ áp dụng khi trung bình của một cụm được xác định
Đánh giá thuật toán k-means:
Ưu điểm:
+ k-means có độ phức tạp tính toán O(Ikn), với I là số vòng lặp
+ k-means phân tích cụm đơn giản nên có thể áp dụng với tập dữ liệu lớn
Nhược điểm:
k-means phải chỉ ra số lượng cụm và yêu cầu cơ sở dữ liệu cần phân nhóm phải xác định được tâm Thuật toán này không phù hợp với việc khai phá các dữ liệu gồm các cụm có hình dạng không lồi hay các cụm có kích thước khác nhau
2.1.1.2 Thuật toán PAM (Partitioning Around Medoids)
Thuật toán PAM là thuật toán mở rộng của thuật toán k-means, có khả năng
xử lý hiệu quả đối với dữ liệu nhiễu hoặc các phần tử ngoại lai PAM sử dụng các
Trang 23Để quyết định hoán chuyển hai đối tượng O m và O p hay không, thuật toán
PAM sử dụng giá trị tổng chi phí hoán chuyển C jmp làm căn cứ:
- O m: là đối tượng medoid hiện thời cần thay thế
- O p : là đối tượng medoid mới thay thế cho O m
- O j: là đối tượng không phải medoid, có thể được di chuyển sang cụm khác
- O m,2 : là đối tượng medoid hiện thời khác với O m mà gần đối tượng O j nhất
Trong bốn trường hợp mô tả như trên, PAM tính giá trị hoán đổi C jmp cho tất
cả các đối tượng O j Trong mỗi trường hợp C jmp được tính với bốn cách khác nhau như sau:
+ Trường hợp 1: Giả sử O j hiện thời thuộc về cụm có đại diện là O m và O j tương tự với O m,2 hơn O p , (d(O j , O p)≥d(Oj ,O m,2)) Trong trường hợp này, ta thay thế
O m bởi đối tượng medoid mới O p và O j sẽ thuộc về cụm có đối tượng đại diện là
O m,2 Vì thế, giá trị hoán chuyển C jmp = d(O j , O m,2 ) – d(O j , O m ), giá trị C jmp là không
âm
+ Trường hợp 2: O j hiện thời thuộc về cụm có đại diện là O m , nhưng O j ít
tương tự với O m,2 so với O p (d(O j , O p )<d(O j , O m,2 )) Nếu thay thế O m bởi O p thì O j sẽ
thuộc về cụm có đại diện là O p Vì thế, C jmp = d(O j , O p )-d(O j , O m ) C jmp ở đây có thể
là âm hoặc dương
+ Trường hợp 3: Giả sử O j hiện thời không thuộc về cụm có đối tượng đại
diện là O m , mà thuộc về cụm có đối tượng đại diện là O m,2 Mặt khác, giả sử O j
Trang 2415
tương tự với O m,2 hơn so với O p , khi đó, nếu O m được thay thế bởi O p thì O j vẫn sẽ ở
lại trong cụm có đại diện là O m,2 Do đó, C jmp =0
+ Trường hợp 4: O j hiện thời thuộc về cụm có đối tượng đại diện là O m,2 nhưng O j ít tương tự với O m,2 hơn so với O p Vậy nên, nếu ta thay thế Om bởi Op thì
đây luôn âm
Kết hợp cả bốn trường hợp trên, tổng giá trị hoán chuyển O m bằng O p được
xác định như sau: TC mp= ∑
Các bước thực hiện thuật toán:
Input: Số nguyên k và CSDL gồm n đối tượng cần phân cụm
Output: Một tập gồm k cụm mà tổng giá trị của sự khác nhau của tất cả các
đối tượng đến đối tượng tâm của nhóm chứa nó là nhỏ nhất
Bước 1: Chọn k đối tượng medoid bất kỳ
Bước 2: Tính TC mp cho tất cả các cặp đối tượng O m, , O p Trong đó, O m là đối
tượng medoid và O p là đối tượng không phải medoid
Bước 3: Với mỗi cặp đối tượng O m và O p Tính minO m , minO p , TC mp Nếu
TC mp là âm, thay thế O m bởi O p và quay lại bước 2 Nếu TC mp dương, chuyển sang bước 4
Bước 4: Với mỗi đối tượng không phải medoid, xác định đối tượng medoid
tương tự với nó nhất, đồng thời gán nhãn cụm cho chúng
Đánh giá thuật toán PAM:
Trong bước 2 và bước 3, PAM phải duyệt tất cả k(n-k) cặp O m , O p Với mỗi
cặp, việc tính toán TC mp yêu cầu kiểm tra n-k đối tượng Vì vậy độ phức tạp tính
toán của PAM là O(Ik(n-k)2), trong đó I là số vòng lặp Như vậy, thuật toán PAM kém hiệu quả về thời gian tính toán khi giá trị của k và n lớn
2.1.2 Phương pháp phân cấp (Hierarchical Methods)
Phương pháp này xây dựng một phân cấp trên cơ sở các đối tượng dữ liệu đang xem xét Nghĩa là sắp xếp một tập dữ liệu đã cho thành một cấu trúc có dạng
Trang 25Tiếp cận “trên xuống” (Top - Down): Bắt đầu với trạng thái là tất cả các đối tượng được xếp trong cùng một cụm Một vòng lặp thành công, một cụm được tách thành các cụm nhỏ hơn theo giá trị của một phép đo độ tương tự nào đó cho đến khi mỗi đối tượng là một cụm, hoặc cho đến khi điều kiện dừng thỏa mãn Cách tiếp cận này sử dụng chiến lược chia để trị trong quá trình phân cụm
Điển hình trong phương pháp tiếp cận theo phương pháp phân cấp là các thuật toán như: AGNES (Agglomerative Nesting), DIANA (Divisive Analysis), BIRCH (Balance Iterative Reducing and Clustering Using Hierarchies), CURE (Clustering Using Representatives), CHAMELEON,…
Trong áp dụng thực tế, có nhiều trường hợp kết hợp cả phương pháp phân hoạch và phương pháp phân cấp, nghĩa là kết quả thu được của phương pháp phân cấp có thể cải tiến thông qua bước phân cụm phân hoạch
2.1.2.1 Thuật toán BIRCH
Thuật toán BIRCH được đề xuất năm 1996 bởi Tian Zhang, Amakrishnan và Livny, BIRCH là thuật toán phân cụm phân cấp sử dụng chiến lược Top-Down Ý tưởng của thuật toán là không cần lưu toàn bộ các đối tượng dữ liệu của các cụm trong bộ nhớ mà chỉ lưu các đại lượng thống kê Đối với mỗi cụm dữ liệu, BIRCH chỉ lưu một bộ ba (n, LS, SS), với n là số đối tượng trong cụm, LS là tổng các giá trị thuộc tính của các đối tượng trong cụm và SS là tổng bình phương các giá trị thuộc tính của các đối tượng trong cụm Các bộ ba này được gọi là các đặc trưng của cụm CF= (n, LS, SS) và được lưu giữ trong một cây được gọi là cây CF
Trang 2617
Cây CF là cây cân bằng nhằm để lưu trữ các đặc trưng của cụm Cây CF chứa các nút trong lá và nút lá Nút trong lưu giữ tổng các đặc trưng cụm của các nút con của nó Một cây CF được đặc trưng bởi hai tham số:
- Yếu tố nhánh (B): nhằm xác định số tối đa các nút con của mỗi nút trong của cây
- Ngưỡng (T): là khoảng cách tối đa giữa bất kỳ một cặp đối tượng trong nút
lá của cây, khoảng cách này còn gọi là đường kính của các cụm con được lưu tại các nút lá
Hai tham số này có ảnh hưởng lớn đến kích thước của cây CF
Các bước của thuật toán BIRCH:
Input: CSDL gồm n đối tượng, ngưỡng T
Output: k cụm dữ liệu
Bước 1: Duyệt tất cả các đối tượng trong CSDL và xây dựng một cây CF
khởi tạo Mỗi đối tượng được chèn vào nút lá gần nhất tạo thành cụm con Nếu đường kính của cụm con này lớn hơn T thì nút lá được tách Khi một đối tượng thích hợp được chèn vào nút lá, tất cả các nút trỏ tới gốc của cây được cập nhật với các thông tin cần thiết
Bước 2: Nếu cây CF hiện thời không có đủ bộ nhớ trong thì tiến hành xây
dựng một cây CF nhỏ hơn bằng cách điều khiển bởi tham số T (vì tăng T sẽ làm hòa nhập một số các cụm con thành một cụm, điều này làm cho cây CF nhỏ hơn) Bước này không cần yêu cầu bắt đầu đọc dữ liệu lại từ đầu nhưng vẫn đảm bảo hiệu chỉnh cây dữ liệu nhỏ hơn
Bước 3: Thực hiện phân cụm: các nút lá của cây CF lưu giữ các đại lượng
thống kê của các cụm con Trong bước này, BIRCH sử dụng các đại lượng thống kê này để áp dụng một số kỹ thuật phân cụm ví dụ như k-means và tạo ra một khởi tạo cho phân cụm
Bước 4: Phân phối lại các đối tượng dữ liệu bằng cách dùng các đối tượng
trọng tâm cho các cụm đã được khám phá từ bước 3 Đây là một bước tùy chọn để duyệt lại tập dữ liệu và gán nhãn lại cho các đối tượng dữ liệu tới các trọng tâm gần
Trang 27Đánh giá thuật toán BIRCH:
Ưu điểm: Sử dụng cấu trúc cây CF làm cho thuật toán BIRCH có tốc độ
thực hiện PCDL nhanh và có thể áp dụng đối với tập CSDL lớn, BIRCH cũng có hiệu quả khi áp dụng với tập dữ liệu tăng trưởng theo thời gian BIRCH chỉ duyệt toàn bộ dữ liệu một lần với một lần quét thêm tùy chọn, nghĩa là độ phức tạp của nó
là O(n) (n là số đối tượng dữ liệu)
Nhược điểm: Chất lượng của các cụm được khám phá không được tốt Nếu
BIRCH sử dụng khoảng cách Euclidean, nó thực hiện tốt chỉ với dữ liệu số Mặt khác, tham số vào T có ảnh hưởng rất lớn tới kích thước và tính tự nhiên của cụm Việc ép các đối tượng dữ liệu làm cho các đối tượng của một cụm có thể là đối tượng kết thúc của cụm khác, trong khi các đối tượng gần nhau có thể bị hút bởi các cụm khác nếu chúng được biểu diễn cho thuật toán theo một thứ tự khác BIRCH không thích hợp với dữ liệu đa chiều
2.1.2.2 Thuật toán CURE
Thuật toán CURE được đề xuất năm 1998 bởi Sudipto Guha, Rajeev Rastogi
và Kyuseok Shim, là thuật toán sử dụng chiến lược Bottom – Up của kỹ thuật phân cụm phân cấp CURE sử dụng nhiều đối tượng để diễn tả cho mỗi cụm dữ liệu Thay vì sử dụng một trọng tâm đơn đại diện một cụm, CURE ấn định một số lượng các điểm đại diện được lựa chọn để miêu tả một cụm Các điểm đại diện này được sinh ra bằng cách trước tiên lựa chọn các điểm rải rác đều trong cụm, sau đó chúng được di chuyển bằng cách co lại theo một tỷ lệ nhất định Hai cụm với cặp đối tượng đại diện gần nhất sẽ được trộn lại thành một cụm tại mỗi bước của thuật toán Với cách sử dụng nhiều hơn một điểm đại diện cho các cụm, CURE có thể khám phá được các cụm có các dạng hình thù và kích thước khác nhau trong cơ sở dữ liệu
Trang 2819
lớn Việc co các đối tượng đại diện lại có tác dụng làm giảm tác động của các phần
tử ngoại lai
Các bước của thuật toán CURE:
Bước 1: Chọn một mẫu ngẫu nhiên từ tập dữ liệu ban đầu
Bước 2: Phân hoạch mẫu này thành nhiều nhóm dữ liệu có kích thước bằng
nhau, ý tưởng ở đây là phân hoạch mẫu thành p nhóm dữ liệu bằng nhau, kích thước của mỗi phân hoạch là ′⁄ (với ′ là kích thước của mẫu)
Bước 3: Phân cụm các điểm của mỗi nhóm: ta thực hiện phân cụm dữ liệu
cho các nhóm cho đến khi mỗi nhóm được phân thành ′⁄( ) cụm (với q>1)
Bước 4: Loại bỏ các phần tử ngoại lai: trước hết, khi các cụm được hình
thành cho đến khi số các cụm giảm xuống một phần so với số các cụm ban đầu Sau
đó, trong trường hợp các phần tử ngoại lai được lấy mẫu cùng với quá trình pha khởi tạo mẫu dữ liệu, thuật toán sẽ tự động loại bỏ các nhóm nhỏ
Bước 5: Phân cụm các cụm không gian: các đối tượng đại diện cho các cụm
di chuyển về hướng trung tâm cụm, nghĩa là chúng được thay thế bởi các đối tượng gần trung tâm hơn
Bước 6: Đánh dấu dữ liệu với các nhãn tương ứng
Đánh giá thuật toán CURE:
Độ phức tạp tính toán của CURE là O(n2log(n)) CURE là thuật toán tin cậy trong việc khám phá các cụm với hình thù bất kỳ và có thể áp dụng tốt trên tập dữ liệu hai chiều Tuy nhiên, nó lại rất nhạy cảm với các tham số như là tham số các đối tượng đại diện, tham số co của các phần tử đại diện Nhìn chung thì BIRCH tốt hơn so với CURE về độ phức tạp, nhưng kém về chất lượng phân cụm
2.1.3 Phương pháp dựa trên mật độ (Density-Based Methods)
Phương pháp dựa trên mật độ nhóm các đối tượng dữ liệu dựa trên hàm mật
độ xác định, mật độ là số các đối tượng lân cận của một đối tượng dữ liệu theo một nghĩa nào đó Trong cách tiếp cận này, khi một dữ liệu đã xác định thì nó tiếp tục được phát triển thêm các đối tượng dữ liệu mới miễn là số các đối tượng lân cận này phải lớn hơn một ngưỡng đã được xác định trước Phương pháp dựa trên mật độ của
Trang 2920
các đối tượng để xác định các cụm dữ liệu có thể phát hiện ra các cụm dữ liệu với hình thù bất kỳ Phương pháp này có khả năng loại bỏ phần tử nhiễu và phần tử ngoại lai, phù hợp với các đối tượng có trường dữ liệu kiểu số, dữ liệu thuộc tính chỉ là thuộc tính mô tả thêm cho các đối tượng không gian
Điển hình trong phương pháp tiếp cận theo phương pháp dựa trên mật độ là các thuật toán như: DBSCAN (Density Based Spatial Clustering of Application with Noise), DENCLUE (Density-based Clustering), OPTICS (Ordering Points to Identify the Clustering Structure),…
2.1.3.1 Thuật toán DBSCAN
Thuật toán DBSCAN được Ester, Kriegel và Sander đề xuất năm 1996 khi nghiên cứu các thuật toán gom cụm dữ liệu không gian dựa trên định nghĩa cụm là tập tối đa các điểm liên thông về mật độ DBSCAN phát hiện các cụm có hình dạng tùy ý, khả năng phát hiện nhiễu tốt DBSCAN thực hiện tốt trên không gian nhiều chiều, thích hợp với cơ sở dữ liệu có mật độ phân bố dày đặc kể cả có phần tử nhiễu
Ý tưởng chính để phát hiện ra các cụm của thuật toán DBSCAN là bên trong mỗi cụm luôn tồn tại một mật độ cao hơn bên ngoài cụm Hơn nữa, mật độ ở những vùng nhiễu thì thấp hơn mật độ bên trong của bất kỳ cụm nào Trong mỗi cụm phải xác định bán kính vùng lân cận (Eps) và số lượng điểm tối thiểu trong vùng lân cận của một điểm trong cụm (MinPts) Hình dạng vùng lân cận của một điểm được xác
định dựa vào việc chọn hàm khoảng cách giữa hai điểm p và q, ký hiệu là dist(p,q) hay d(p,q)
Sau đây là một số định nghĩa và bổ đề sử dụng trong thuật toán DBSCAN: