Ứng dụng khai phá dữ liệu để tư vấn học tập tại trường đại học sư phạm thể dục thể thao hà nội

Ứng dụng khai phá dữ liệu để tư vấn học tập tại trường Đại học Sư phạm Thể dục thể thao Hà NộiỨng dụng khai phá dữ liệu để tư vấn học tập tại trường Đại học Sư phạm Thể dục thể thao Hà NộiỨng dụng khai phá dữ liệu để tư vấn học tập tại trường Đại học Sư phạm Thể dục thể thao Hà NộiỨng dụng khai phá dữ liệu để tư vấn học tập tại trường Đại học Sư phạm Thể dục thể thao Hà NộiỨng dụng khai phá dữ liệu để tư vấn học tập tại trường Đại học Sư phạm Thể dục thể thao Hà Nội

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

-

HOÀNG THU THỦY

ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐỂ TƯ VẤN HỌC TẬP TẠI TRƯỜNG ĐẠI HỌC SƯ PHẠM THỂ DỤC THỂ THAO

HÀ NỘI

LUẬN VĂN THẠC SĨ KỸ THUẬT

(Theo định hướng ứng dụng)

HÀ NỘI - 2016

Trang 2

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

-

ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐỂ TƯ VẤN HỌC TẬP TẠI TRƯỜNG ĐẠI HỌC SƯ PHẠM THỂ DỤC THỂ THAO

Trang 3

i

LỜI CAM ĐOAN

Tôi cam đoan đây là công trình nghiên cứu của riêng tôi

Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào

TÁC GIẢ

Trang 4

ii

LỜI CẢM ƠN

Trước tiên, cho em gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới thầy giáo

PGS.TS Trần Đình Quế, người đã trực tiếp hướng dẫn, tạo mọi điều kiện thuận lợi

và tận tình chỉ bảo cho em trong suốt quá trình thực hiện luận văn tốt nghiệp

Em xin chân thành cảm ơn quý Thầy, Cô giáo Học viện Công nghệ Bưu chính Viễn thông đã tận tình chỉ bảo em trong suốt thời gian học tập tại nhà trường

Bên cạnh đó, đề hoàn thành luận văn này, em cũng đã nhận được rất nhiều sự giúp đỡ, những lời động viên quý báu của bạn bè, gia đình và đồng nghiệp Em xin chân thành cảm ơn

Tuy nhiên, do thời gian hạn hẹp, mặc dù đã nỗ lực hết sức mình, nhưng chắc rằng luận văn khó tránh khỏi thiếu sót Em rất mong nhận được sự thông cảm và chỉ bảo tận tình của quý thầy cô và các bạn

TÁC GIẢ

Trang 5

iii

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

MỤC LỤC iii

DANH MỤC TỪ VIẾT TẮT v

DANH MỤC CÁC BẢNG vi

DANH MỤC CÁC HÌNH VẼ vii

MỞ ĐẦU 1

Tính cấp thiết của đề tài 1

Tổng quan về vấn đề nghiên cứu 2

Mục đích nghiên cứu 3

Đối tượng và phạm vi nghiên cứu 3

CHƯƠNG 1: TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 5

1.1 Giới thiệu chung về khám phá tri thức và khai phá dữ liệu 5

1.1.1 Khái niệm về khám phá tri thức và khai phá dữ liệu 5

1.1.2 Các hướng tiếp cận cơ bản trong khai phá dữ liệu 6

1.1.3 Những vấn đề khó khăn trong khai phá dữ liệu 7

1.2 Quá trình khám phá tri thức và khai phá dữ liệu 7

1.2.1 Quá trình khám phá tri thức 7

1.2.2 Quá trình khai phá dữ liệu 8

1.2.3 Các phương pháp khai phá dữ liệu 8

1.3 Ứng dụng khai phá dữ liệu trong giáo dục 9

1.3.1 Khai phá dữ liệu giáo dục 9

1.3.2 Mục tiêu của khai phá dữ liệu giáo dục 10

1.3.3 Các giai đoạn của khai phá dữ liệu giáo dục 10

1.3.4 Một số lĩnh vực ứng dụng của EDM 11

1.4 Kết luận chương 11

CHƯƠNG 2: MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU 12

2.1 Một số kỹ thuật phân cụm 12

2.1.1 Phương pháp phân hoạch (Partitioning Methods) 12

2.1.1.1 Thuật toán k-means 12

2.1.1.2 Thuật toán PAM (Partitioning Around Medoids) 13

Trang 6

iv

2.1.2 Phương pháp phân cấp (Hierarchical Methods) 15

2.1.2.1 Thuật toán BIRCH 16

2.1.2.2 Thuật toán CURE 18

2.1.3 Phương pháp dựa trên mật độ (Density-Based Methods) 19

2.1.3.1 Thuật toán DBSCAN 20

2.1.3.2 Thuật toán OPTICS (Ordering Points To Indentify the Clustering Structure) 22

2.1.3.3 Thuật toán DENCLUDE (DENsity – Base CLUstEring) 23

2.1.4 Phương pháp dựa trên lưới (Grid-Based Methods) 24

Thuật toán STING 25

2.2 Tổng hợp các thuật toán 26

CHƯƠNG 3: TƯ VẤN HỌC TẬP CHO SINH VIÊN TRƯỜNG ĐẠI HỌC SƯ PHẠM THỂ DỤC THỂ THAO HÀ NỘI 28

DỰA TRÊN KHAI PHÁ DỮ LIỆU 28

3.1 Giới thiệu bài toán 28

3.2 Lựa chọn thuật toán 30

3.3 Xây dựng hệ thống tư vấn học tập 30

3.3.1 Mục đích của hệ thống 30

3.3.2 Yêu cầu hệ thống 30

3.3.3 Phân tích xây dựng hệ thống 31

3.3.3.1 Cơ sở dữ liệu 31

3.3.3.2 Các chức năng chính của hệ thống 33

KẾT LUẬN 42

TÀI LIỆU THAM KHẢO 43

PHỤ LỤC 44

Trang 8

vi

DANH MỤC CÁC BẢNG

Bảng 2.1: Đặc tính của các thuật toán 27

Bảng 3.1: Bảng thống kê số lượng SV năm học 2013 – 2014 29

Trang 9

vii

DANH MỤC CÁC HÌNH VẼ

Hình 3.1: Các bảng CSDL 32

Hình 3.2: Bảng CSDL danh sách sinh viên 32

Hình 3.3: Bảng CSDL sinh viên đăng ký chuyên sâu Thể dục 33

Hình 3.4: Giao diện chính của hệ thống 34

Hình 3.5: Thông tin sinh viên đăng ký chuyên sâu Điền kinh 35

Hình 3.6: Thông tin của một sinh viên 36

Hình 3.7: Lưu đồ thuật toán k-means 36

Hình 3.8: Phân cụm điểm của sinh viên 40

Hình 3.9: Kết quả điểm các môn thi và đánh giá cho một sinh viên 40

Trang 10

1

MỞ ĐẦU

Tính cấp thiết của đề tài

Giáo dục và đào tạo giữ vai trò hết sức quan trọng đối với sự phát triển của mỗi quốc gia, mỗi dân tộc Thế hệ trẻ, những người đang ngày ngày học tập và làm việc cần được định hướng đúng đắn để tránh mắc phải những sai lầm không đáng

có Một trong những vấn đề chính mà các sinh viên phải đối mặt khi ngồi trên ghế nhà trường là có một quyết định đúng đắn liên quan tới quá trình học tập của bản thân để có thể đạt được thành tích học tập tốt nhất

Vì vậy, việc tư vấn học tập để chọn chương trình học phù hợp nhằm đạt được kết quả cao luôn được quan tâm đặc biệt Đây không chỉ là khó khăn của mỗi sinh viên mà còn là khó khăn của những giảng viên tham gia tư vấn, từ khối dữ liệu khổng lồ để đưa ra những tư vấn tốt trong việc lựa chọn chuyên ngành học cho sinh viên không phải là dễ dàng Khai phá dữ liệu đã và đang được ứng dụng thành công trong giáo dục, có thể giúp sinh viên có thể đưa ra lựa chọn tốt hơn cho quá trình học tập của bản thân

Trong giáo dục, giáo dục thể chất được xem là một trong những hoạt động thu hút sự tham gia đông đảo của học sinh, sinh viên Bởi lẽ, giáo dục thể chất mang trong nó những vai trò hết sức quan trọng góp phần vào việc rèn luyện và đào tạo một con người có sức khỏe, đạo đức và tri thức

Giáo dục thể chất là một trong những mục tiêu giáo dục toàn diện của Đảng

và Nhà nước ta, nằm trong hệ thống giáo dục quốc dân Trường Đại học Sư phạm Thề dục Thể thao Hà Nội, nơi đào tạo ra đội ngũ giáo viên giáo dục thể chất tương lai cho đất nước luôn cố gắng để hoàn thành tốt công việc của mình Để giúp các

em sinh viên chính quy có thể đưa ra quyết định lựa chọn đúng đắn theo học một chuyên sâu phù hợp với năng lực, mong muốn của bản thân trong quá trình học tập

tại trường, tác giả đã lựa chọn đề tài luận văn “Ứng dụng khai phá dữ liệu để tư

vấn học tập tại trường Đại học Sư phạm Thể dục Thể thao Hà Nội”

Trang 11

2

Tổng quan về vấn đề nghiên cứu

Trong những thập kỷ gần đây sự phát triển nhanh chóng của mạng Internet và công nghệ đa phương tiện đã được áp dụng nhiều hơn trong giáo dục Một loạt các hội thảo về Educational Data Mining (EDM) đã được tổ chức từ năm 2000-2007, như là một phần của một số hội nghị nghiên cứu quốc tế Năm 2008, đã trở thành hội nghị quốc tế hằng năm về EDM, diễn ra lần đầu tiên ở Montreal, Canada Vì lợi ích của EDM ngày càng tăng nên các nhà nghiên cứu EDM đã thành lập một tạp chí khoa học vào năm 2009, “Tạp chí khai thác dữ liệu giáo dục”, để chia sẻ và phổ biến kết quả nghiên cứu

Bên cạnh đó, các hệ thống công nghệ thông tin đã được xây dựng để đáp ứng nhu cầu tìm hiểu kiến thức ngày càng cao của học sinh, sinh viên Các kỹ thuật khai phá dữ liệu đã được xem xét và sử dụng trong xây dựng hệ thống tư vấn môn học cho sinh viên, giúp sinh viên đang theo học tại các trường đào tạo theo tín chỉ có thể định hướng trong lựa chọn môn học hay chuyên ngành Hay xây dựng mô hình khai phá dữ liệu dựa vào thông tin tuyển sinh đầu vào và kết quả thu thập được của sinh viên, nhằm dự đoán kết quả học tập, từ đó giúp sinh viên có thể chọn lựa một lộ trình học đạt kết quả tối ưu nhất phù hợp với điều kiện và năng lực của mình

Học viện Công nghệ Bưu chính Viễn thông đã có một số đề tài nghiên cứu như:

đề tài thạc sĩ kỹ thuật năm 2010 của Phạm Thị Phúc “Khai phá dữ liệu cho tư vấn lựa chọn môn học” Hay đề tài: “Phương pháp khai phá dữ liệu bằng cây quyết định”, đề tài thạc sĩ của Phạm Duy An năm 2012 với mục đích xây dựng hệ thống

tư vấn môn học cho sinh viên theo học bằng hình thức đào tạo tín chỉ

Luận văn của tác giả tập trung vào nghiên cứu một số kỹ thuật phân cụm dữ liệu, từ đó chọn kỹ thuật phù hợp để xây dựng hệ thống tư vấn học tập giúp sinh viên trường Đại học Sư phạm Thể dục Thể thao Hà Nội đánh giá đúng về kỹ năng

và năng lực của bản thân trước khi đăng ký theo học một chuyên sâu phù hợp nhất với bản thân

Trang 12

3

Mục đích nghiên cứu

- Nghiên cứu, tìm hiểu các vấn đề cơ bản về khai phá dữ liệu, một số kỹ thuật phân cụm dữ liệu để đưa ra một bản tổng hợp có thể giúp cho những nghiên cứu sau này

- Ứng dụng để xây dựng được hệ thống tư vấn học tập giúp sinh viên chính quy lựa chọn theo học một chuyên sâu phù hợp với bản thân, dựa vào kết quả học tập của sinh viên và dữ liệu thu thập được từ giảng viên trường Đại học Sư phạm Thể dục Thể thao Hà Nội

Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu:

- Một số kỹ thuật phân cụm dữ liệu

- Dữ liệu đào tạo chuyên ngành giáo dục thể chất

Phạm vi nghiên cứu:

- Giới hạn trong một số kỹ thuật phân cụm dữ liệu

- Dữ liệu thu thập được tại trường Đại học Sư phạm TDTT Hà Nội

Cấu trúc luận văn:

Ngoài phần mở đầu và kết luận, luận văn được cấu trúc thành 3 chương như sau:

Chương 1: Tổng quan về khám phá tri thức và khai phá dữ liệu

Trình bày tổng quan về khám phá tri thức, khai phá dữ liệu và một số ứng dụng của khai phá dữ liệu trong giáo dục

Chương 2: Một số kỹ thuật phân cụm dữ liệu

Chương này trình bày khái quát về một số kỹ thuật phân cụm dữ liệu Phân tích, đánh giá các kỹ thuật để quyết định lựa chọn được thuật toán phù hợp cho việc xây dựng hệ thống tư vấn mà luận văn đưa ra

Chương 3: Tư vấn học tập cho sinh viên trường Đại học Sư phạm Thể dục Thể thao Hà Nội dựa trên khai phá dữ liệu

Giới thiệu về bài toán thực tế trong chương trình đào tạo cho sinh viên tại trường Đại học Sư phạm Thể dục Thể thao Hà Nội Khó khăn cho các sinh viên khi

Trang 13

4

quyết định lựa chọn cho mình một chuyên sâu phù hợp tại trường Dựa trên khai phá dữ liệu và thuật toán lựa chọn được để xây dựng hệ thống tư vấn học tập cho sinh viên, giúp sinh viên có thể đưa ra quyết định đúng đắn để kết quả học tập đạt tối ưu

Trang 14

5

CHƯƠNG 1: TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ

KHAI PHÁ DỮ LIỆU

1.1 Giới thiệu chung về khám phá tri thức và khai phá dữ liệu

1.1.1 Khái niệm về khám phá tri thức và khai phá dữ liệu

Khám phá tri thức (KPTT) là quá trình tìm ra những tri thức, đó là những mẫu tiềm ẩn, trước đó chưa biết và là thông tin hữu ích đáng tin cậy Còn khai phá

dữ liệu (KPDL) là một bước quan trọng trong quá trình khám phá tri thức, sử dụng các thuật toán KPDL chuyên dùng với một số quy định về hiệu quả tính toán chấp nhận được để chiết xuất ra các mẫu hoặc mô hình có ích trong dữ liệu

Khám phá tri thức từ cơ sở dữ liệu (CSDL) là một quá trình sử dụng các phương pháp và công cụ tin học, trong đó con người là trung tâm của quá trình Do

đó, con người cần phải có kiến thức cơ bản về lĩnh vực cần khám phá để có thể chọn được tập con dữ liệu tốt, từ đó phát hiện các mẫu phù hợp với mục tiêu đề ra Tuy nhiên, quá trình khám phá tri thức mang tính chất hướng nhiệm vụ vì không phải mọi tri thức tìm được đều áp dụng được vào thực tế

Dữ liệu là tập hợp những bộ thông tin chính xác và quá trình khám phá tri thức được xem là sự lọc bỏ các dư thừa, được rút gọn tới mức tối thiểu, chỉ để lại các đặc trưng cơ bản cho dữ liệu Tri thức được tìm thấy là các thông tin tích hợp, bao gồm các sự kiện và các mối quan hệ trong chúng Các mối quan hệ này có thể được hiểu ra, có thể được phát hiện, hoặc có thể được học

Khai phá dữ liệu (KPDL) là một giai đoạn quan trọng trong quá trình khám phá tri thức Về bản chất nó là giai đoạn duy nhất tìm ra được thông tin mới KPDL được định nghĩa là quá trình trích lọc các thông tin có giá trị ẩn trong lượng lớn dữ liệu được lưu trữ trong các CSDL hoặc các kho dữ liệu,… KPDL còn được coi là quá trình tìm kiếm, khám phá ở nhiều góc độ để tìm ra các mối tương quan, các mối liên hệ dưới nhiều góc độ khác nhau nhằm tìm ra các mẫu hay các mô hình tồn tại bên trong cơ sở dữ liệu đang bị che khuất Để trích rút các mẫu, mô hình tiềm ẩn ta phải tìm và áp dụng các phương pháp, kỹ thuật khai phá phù hợp với đặc trưng, tính

Trang 15

1.1.2 Các hướng tiếp cận cơ bản trong khai phá dữ liệu

Khai phá dữ liệu được chia nhỏ thành một số hướng chính như sau:

- Mô tả khái niệm (Concept description) : thiên về mô tả, tổng hợp và tóm

tắt khái niệm Ví dụ: tóm tắt văn bản

- Luật kết hợp (Association rules): là dạng luật biểu diễn tri thức ở dạng

khá đơn giản Luật kết hợp được ứng dụng nhiều trong lĩnh vực kinh doanh, y học, tài chính, giáo dục, viễn thông,…

- Phân lớp và dự đoán (Classification and prediction): xếp một đối tượng

vào một trong những lớp đã biết trước Hướng tiếp cận này thường sử dụng một số

kỹ thuật của machine learning như cây quyết định (decision tree), mạng nơron nhân tạo (neural network),…Người ta còn gọi phân lớp là học có giám sát – học có thầy (supervised learning)

- Phân cụm (Clustering): xếp các đối tượng theo từng cụm dữ liệu tự nhiên,

(số lượng cũng như tên của cụm chưa được biết trước) Các đối tượng được gom cụm sao cho mức độ tương tự giữa các đối tượng trong cùng một cụm là lớn nhất

và mức độ tương tự giữa các đối tượng nằm trong các cụm khác nhau là nhỏ nhất Người ta còn gọi phân cụm là học không có giám sát – học không thầy (unsupervised learning)

- Khai phá chuỗi (Sequential/Temporal patterns): tương tự như khai phá

luật kết hợp nhưng có thêm tính thứ tự và tính thời gian Một luật mô tả mẫu tuần tự

có dạng tiêu biểu X->Y, phản ánh sự xuất hiện của biến cố X sẽ dẫn đến việc xuất hiện biến cố Y Hướng tiếp cận này được ứng dụng nhiều trong lĩnh vực tài chính

và thị trường chứng khoán bởi chúng có tính dự báo cao

Trang 16

7

1.1.3 Những vấn đề khó khăn trong khai phá dữ liệu

Khai phá dữ liệu là một lĩnh vực liên ngành và được ứng dụng rộng rãi trên nhiều lĩnh vực Tuy nhiên với đặc điểm là việc xử lý các CSDL lớn nên khai phá dữ liệu cũng có những vấn đề khó khăn riêng Sau đây là một số vấn đề khó khăn:

- Các cơ sở dữ liệu lớn, các tập dữ liệu cần xử lý có kích thước rất lớn

- Mức độ nhiễu cao hoặc dữ liệu bị thiếu

- Số chiều lớn

- Thay đổi dữ liệu và tri thức có thể làm cho các mẫu đã phát hiện không còn phù hợp

- Quan hệ giữa các trường phức tạp

1.2 Quá trình khám phá tri thức và khai phá dữ liệu

1.2.1 Quá trình khám phá tri thức

Quá trình khám phá tri thức là một chuỗi lặp gồm các bước sau:

Data Cleaning (Làm sạch dữ liệu): Loại bỏ dữ liệu nhiễu và dữ liệu không

nhất quán

Data Intergation (Tích hợp dữ liệu): Dữ liệu của nhiều nguồn có thể tổ hợp

lại

Data Selection (Lựa chọn dữ liệu): Lựa chọn những dữ liệu phù hợp với

nhiệm vụ phân tích trích rút từ cơ sở dữ liệu

Data Transformation (Biến đổi dữ liệu): Dữ liệu được chuyển đổi hay được

hợp nhất về dạng thích hợp cho việc khai phá

Data Mining (Khai phá dữ liệu): Đây là một tiến trình cốt yếu trong đó các

phương pháp được áp dụng nhằm trích rút ra mẫu dữ liệu

Pattern Evaluation (Đánh giá mẫu): Dựa trên một độ đo nào đó xác định lợi

ích thực sự, độ quan trọng của các mẫu biểu diễn tri thức

Knowledge Presentation (Biểu diễn tri thức): Ở giai đoạn này các kỹ thuật

biểu diễn và hiển thị được sử dụng để đưa tri thức lấy ra cho người dùng

Trang 17

8

1.2.2 Quá trình khai phá dữ liệu

KPDL là một giai đoạn quan trọng trong quá trình khám phá tri thức Về bản chất, nó là giai đoạn duy nhất tìm ra được thông tin mới, thông tin tiềm ẩn có trong CSDL chủ yếu phục vụ cho dự đoán và mô tả

Mô tả dữ liệu là tổng kết hoặc diễn tả những đặc điểm chung của những thuộc tính dữ liệu trong kho dữ liệu mà con người có thể hiểu được

Dự đoán là dựa trên những dữ liệu hiện thời để dự đoán những quy luật được phát hiện từ các mối liên hệ giữa các thuộc tính của dữ liệu trên cơ sở đó chiết xuất

ra các mẫu, dự đoán được những giá trị chưa biết hoặc những giá trị tương lai của các biến quan tâm

Quá trình khai phá dữ liệu bao gồm:

Xác định nhiệm vụ: Xác định chính xác các vấn đề cần giải quyết

Xác định dữ liệu liên quan: Dùng để xây dựng giải pháp

Thu thập và tiền xử lý dữ liệu: Thu thập các dữ liệu liên quan và tiền xử lý

chính sao cho thuật toán KPDL có thể hiểu được Đây là một quá trình rất khó khăn,

có thể gặp phải rất nhiều các vướng mắc như: dữ liệu phải được sao ra thành nhiều bản, quản lý tập các dữ liệu, phải lặp đi lặp lại nhiều lần toàn bộ quá trình (nếu mô hình dữ liệu thay đổi),…

Thuật toán KPDL: Lựa chọn thuật toán KPDL và thực hiện việc KPDL để

tìm được các mẫu có ý nghĩa, các mẫu này được biểu diễn dưới dạng luật kết hợp, cây quyết định,… tương ứng với ý nghĩa của nó

1.2.3 Các phương pháp khai phá dữ liệu

Với mục đích mô tả và dự đoán, thường sử dụng các phương pháp sau cho khai phá dữ liệu:

+ Luật kết hợp (Association rules)

+ Phân lớp (Classfication)

+ Hồi quy (Regression)

+ Trực quan hóa (Visualiztion)

+ Phân cụm (Clustering)

Trang 18

9

+ Tổng hợp (Summarization)

+ Mô hình phụ thuộc (Dependency modeling)

+ Đánh giá mô hình (Model Evaluation)

+ Phương pháp tìm kiếm (Search Method)

Có ba phương pháp được sử dụng nhiều nhất là: Luật kết hợp, Phân lớp dữ liệu và Phân cụm dữ liệu

1.3 Ứng dụng khai phá dữ liệu trong giáo dục

1.3.1 Khai phá dữ liệu giáo dục

Khai phá dữ liệu giáo dục (EDM) mô tả một lĩnh vực nghiên cứu liên quan đến việc áp dụng khai thác dữ liệu, máy học và thống kê các thông tin được tạo ra

từ các thiết lập giáo dục (ví dụ, các trường đại học và các hệ thống thông minh) Ở mức độ cao, lĩnh vực này tìm cách phát triển và cải tiến phương pháp để khám phá

dữ liệu, thường có nhiều cấp độ của hệ thống phân cấp có ý nghĩa Khai phá dữ liệu giáo dục đã đóng góp lý thuyết về nghiên cứu học tập của các nhà nghiên cứu tâm

lý giáo dục và các ngành khoa học học tập, các lĩnh vực liên quan chặt chẽ với các phân tích học tập

Khai phá dữ liệu giáo dục đề cập đến các kỹ thuật, công cụ, và nghiên cứu thiết kế để tự động trích xuất thông tin có ích từ các kho dữ liệu lớn được tạo bởi người học, liên quan đến người học hoặc các hoạt động trong môi trường giáo dục

Ứng dụng khai phá dữ liệu trong giáo dục là một lĩnh vực đang ngày càng được quan tâm, đóng góp không nhỏ cho các hoạt động giáo dục Cung cấp những thông tin hữu ích để thiết kế môi trường học tập, cho phép học sinh, sinh viên, giáo viên, các nhà quản lý và hoạch định chính sách giáo dục đưa ra các quyết định phù hợp

Khai phá dữ liệu giáo dục đã trở thành hội nghị quốc tế diễn ra hằng năm từ

năm 2008 Thêm vào đó còn các bài báo như: “Education Data Mining

Applycation” của S.Lakshmi Prabha và A.R.Mohamed Shanavas, “A survey of education data mining research” của Richard A Huebner, “Recommendation in Higher Education Using Data Mining Techniques” của Vialardi et al

Trang 19

10

1.3.2 Mục tiêu của khai phá dữ liệu giáo dục

Baker và Yacef xác định bốn mục tiêu sau đây của EDM:

Dự đoán hành vi học tập trong tương lai của sinh viên: với việc sử dụng các

mô hình sinh viên, mục tiêu này có thể đạt được bằng cách tạo ra mô hình sinh viên

có kết hợp các đặc điểm của người học, bao gồm thông tin chi tiết như: kiến thức, hành vi và động lực học tập Những kinh nghiệm sử dụng của người học và tổng thể của họ hài lòng với việc học cũng được đo

Khám phá hoặc cải thiện các mô hình miền: thông qua các phương pháp khác nhau và các ứng dụng của EDM, phát hiện mới và cải tiến mô hình hiện tại là có thể Ví dụ như minh họa các nội dung giáo dục để thu hút người học và xác định trình tự giảng dạy tối ưu để hỗ trợ phương pháp học tập của học sinh

Nghiên cứu ảnh hưởng của hỗ trợ giáo dục có thể được thực hiện thông qua

hệ thống học tập

Thúc đẩy sự hiểu biết khoa học về việc học tập bằng cách xây dựng và kết hợp mô hình sinh viên, các lĩnh vực nghiên cứu EDM và các công nghệ và phần mềm sử dụng

1.3.3 Các giai đoạn của khai phá dữ liệu giáo dục

Hiện nay, lĩnh vực nghiên cứu khai thác dữ liệu giáo dục đang tiếp tục phát triển, vô số các kỹ thuật khai thác dữ liệu đã được áp dụng cho một loạt các phạm vi giáo dục Trong mỗi trường hợp, mục tiêu là để dịch dữ liệu thô thành các thông tin

có ý nghĩa về quá trình học tập để đưa ra quyết định tốt hơn về thiết kế và quy trình của một môi trường học tập Như vậy, EDM thường bao gồm bốn giai đoạn:

+ Giai đoạn đầu tiên của quá trình EDM (không kể tiền xử lý) được khám phá mối quan hệ trong dữ liệu Điều này liên quan đến việc tìm kiếm thông qua một kho lưu trữ dữ liệu từ một môi trường giáo dục với mục tiêu tìm kiếm các mối quan

hệ phù hợp giữa các biến Một số thuật toán để xác định các mối quan hệ đó đã được sử dụng, bao gồm phân loại, hồi quy, phân nhóm, phân tích nhân tố, phân tích mạng xã hội, khai thác luật kết hợp và khai thác mô hình tuần tự

Trang 20

11

+ Giai đoạn 2: Các mối quan hệ phát hiện ra sau đó phải được xác nhận để tránh overfitting

+ Giai đoạn 3: Mối quan hệ xác thực được áp dụng để làm các dự báo về các

sự kiện trong tương lai trong môi trường học tập

+ Giai đoạn 4: Dự đoán được sử dụng để hỗ trợ quá trình ra quyết định và quyết định cách giải quyết

1.3.4 Một số lĩnh vực ứng dụng của EDM

Một số lĩnh vực ứng dụng của EDM là:

- Phân tích và trực quan dữ liệu

- Cung cấp thông tin phản hồi để hỗ trợ giáo viên

- Dự đoán kết quả học tập

- Kiến nghị cho sinh viên

- Phát hiện hành vi sinh viên không mong muốn

Trang 21

12

CHƯƠNG 2: MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU

2.1 Một số kỹ thuật phân cụm

Các kỹ thuật phân cụm có rất nhiều cách tiếp cận và các ứng dụng trong thực

tế, nó đều hướng tới hai mục tiêu chung đó là chất lượng của các cụm khám phá được và tốc độ thực hiện của thuật toán Hiện nay, các kỹ thuật phân cụm có thể phân loại theo các phương pháp tiếp cận chính sau: phương pháp phân hoạch (Partitioning Methods); phương pháp phân cấp (Hierarchical Methods); phương pháp dựa trên mật độ (Density-Based Methods); phương pháp dựa trên lưới (Grid-Basesd Methods)

2.1.1 Phương pháp phân hoạch (Partitioning Methods)

Ý tưởng chính của phương pháp phân hoạch là phân một tập dữ liệu có n phần tử cho trước thành k nhóm dữ liệu sao cho mỗi phần tử dữ liệu chỉ thuộc về một nhóm dữ liệu và mỗi nhóm có ít nhất một phần tử dữ liệu Phương pháp này tốt cho việc tìm các cụm hình cầu trong không gian Euclidean Tuy nhiên, phương pháp này không thể xử lý các cụm có hình dạng kỳ quặc hoặc các cụm có mật độ các điểm dày đặc Các thuật toán phân hoạch có độ phức tạp rất lớn khi xác định nghiệm tối ưu toàn cục cho vấn đề phân cụm dữ liệu, vì nó phải tìm kiếm tất cả các cách phân hoạch có thể được Vì vậy, trên thực tế thường đi tìm giải pháp tối ưu cục

bộ cho vấn đề này bằng cách sử dụng một hàm tiêu chuẩn để đánh giá chất lượng của cụm cũng như để hướng dẫn cho quá trình tìm kiếm phân hoạch dữ liệu.Vậy nên, ý tưởng chính của thuật toán phân cụm phân hoạch là sử dụng chiến lược tham

ăn (Greedy) để tìm kiếm nghiệm

Điển hình trong phương pháp tiếp cận theo phương pháp phân hoạch là các thuật toán như: k-means, PAM, CLARA (Clustering Large Applications), CLARANS (Clustering Large Applications based on Randomized Search)…

2.1.1.1 Thuật toán k-means

Thuật toán k-means do MacQueen giới thiệu trong tài liệu “J Some methods for Classification and Analysis of Multivariate Observations” năm 1967 Mục đích

Trang 22

13

của thuật toán là sinh ra k cụm dữ liệu {C1, C2,…, Ck} từ một tập dữ liệu ban đầu gồm n đối tượng trong không gian d chiều Xi= (xi1, xi2, …, xid) ( = 1, n), sao cho hàm tiêu chuẩn = ∑ ∑ ∈ ( − ) đạt giá trị cực tiểu Trong đó mi là trọng tâm của cụm Ci D là khoảng cách giữa hai đối tượng Thuật toán k-means gồm các bước cơ bản sau:

Input: Số các cụm k, cơ sở dữ liệu gồm n đối tượng

Output: Các cụm Ci (i=1,…, k) sao cho hàm tiêu chuẩn E đạt giá trị tối

Bước 3: Thuật toán dừng khi giá trị E không thay đổi

Để khoảng cách giữa điểm tâm tới các điểm, dùng độ đo khoảng cách Euclidean

Thuật toán k-means chỉ áp dụng khi trung bình của một cụm được xác định

Đánh giá thuật toán k-means:

Ưu điểm:

+ k-means có độ phức tạp tính toán O(Ikn), với I là số vòng lặp

+ k-means phân tích cụm đơn giản nên có thể áp dụng với tập dữ liệu lớn

Nhược điểm:

k-means phải chỉ ra số lượng cụm và yêu cầu cơ sở dữ liệu cần phân nhóm phải xác định được tâm Thuật toán này không phù hợp với việc khai phá các dữ liệu gồm các cụm có hình dạng không lồi hay các cụm có kích thước khác nhau

2.1.1.2 Thuật toán PAM (Partitioning Around Medoids)

Thuật toán PAM là thuật toán mở rộng của thuật toán k-means, có khả năng

xử lý hiệu quả đối với dữ liệu nhiễu hoặc các phần tử ngoại lai PAM sử dụng các

Trang 23

Để quyết định hoán chuyển hai đối tượng O m và O p hay không, thuật toán

PAM sử dụng giá trị tổng chi phí hoán chuyển C jmp làm căn cứ:

- O m: là đối tượng medoid hiện thời cần thay thế

- O p : là đối tượng medoid mới thay thế cho O m

- O j: là đối tượng không phải medoid, có thể được di chuyển sang cụm khác

- O m,2 : là đối tượng medoid hiện thời khác với O m mà gần đối tượng O j nhất

Trong bốn trường hợp mô tả như trên, PAM tính giá trị hoán đổi C jmp cho tất

cả các đối tượng O j Trong mỗi trường hợp C jmp được tính với bốn cách khác nhau như sau:

+ Trường hợp 1: Giả sử O j hiện thời thuộc về cụm có đại diện là O m và O j tương tự với O m,2 hơn O p , (d(O j , O p)≥d(Oj ,O m,2)) Trong trường hợp này, ta thay thế

O m bởi đối tượng medoid mới O p và O j sẽ thuộc về cụm có đối tượng đại diện là

O m,2 Vì thế, giá trị hoán chuyển C jmp = d(O j , O m,2 ) – d(O j , O m ), giá trị C jmp là không

âm

+ Trường hợp 2: O j hiện thời thuộc về cụm có đại diện là O m , nhưng O j ít

tương tự với O m,2 so với O p (d(O j , O p )<d(O j , O m,2 )) Nếu thay thế O m bởi O p thì O j sẽ

thuộc về cụm có đại diện là O p Vì thế, C jmp = d(O j , O p )-d(O j , O m ) C jmp ở đây có thể

là âm hoặc dương

+ Trường hợp 3: Giả sử O j hiện thời không thuộc về cụm có đối tượng đại

diện là O m , mà thuộc về cụm có đối tượng đại diện là O m,2 Mặt khác, giả sử O j

Trang 24

15

tương tự với O m,2 hơn so với O p , khi đó, nếu O m được thay thế bởi O p thì O j vẫn sẽ ở

lại trong cụm có đại diện là O m,2 Do đó, C jmp =0

+ Trường hợp 4: O j hiện thời thuộc về cụm có đối tượng đại diện là O m,2 nhưng O j ít tương tự với O m,2 hơn so với O p Vậy nên, nếu ta thay thế Om bởi Op thì

đây luôn âm

Kết hợp cả bốn trường hợp trên, tổng giá trị hoán chuyển O m bằng O p được

xác định như sau: TC mp= ∑

Các bước thực hiện thuật toán:

Input: Số nguyên k và CSDL gồm n đối tượng cần phân cụm

Output: Một tập gồm k cụm mà tổng giá trị của sự khác nhau của tất cả các

đối tượng đến đối tượng tâm của nhóm chứa nó là nhỏ nhất

Bước 1: Chọn k đối tượng medoid bất kỳ

Bước 2: Tính TC mp cho tất cả các cặp đối tượng O m, , O p Trong đó, O m là đối

tượng medoid và O p là đối tượng không phải medoid

Bước 3: Với mỗi cặp đối tượng O m và O p Tính minO m , minO p , TC mp Nếu

TC mp là âm, thay thế O m bởi O p và quay lại bước 2 Nếu TC mp dương, chuyển sang bước 4

Bước 4: Với mỗi đối tượng không phải medoid, xác định đối tượng medoid

tương tự với nó nhất, đồng thời gán nhãn cụm cho chúng

Đánh giá thuật toán PAM:

Trong bước 2 và bước 3, PAM phải duyệt tất cả k(n-k) cặp O m , O p Với mỗi

cặp, việc tính toán TC mp yêu cầu kiểm tra n-k đối tượng Vì vậy độ phức tạp tính

toán của PAM là O(Ik(n-k)2), trong đó I là số vòng lặp Như vậy, thuật toán PAM kém hiệu quả về thời gian tính toán khi giá trị của k và n lớn

2.1.2 Phương pháp phân cấp (Hierarchical Methods)

Phương pháp này xây dựng một phân cấp trên cơ sở các đối tượng dữ liệu đang xem xét Nghĩa là sắp xếp một tập dữ liệu đã cho thành một cấu trúc có dạng

Trang 25

Tiếp cận “trên xuống” (Top - Down): Bắt đầu với trạng thái là tất cả các đối tượng được xếp trong cùng một cụm Một vòng lặp thành công, một cụm được tách thành các cụm nhỏ hơn theo giá trị của một phép đo độ tương tự nào đó cho đến khi mỗi đối tượng là một cụm, hoặc cho đến khi điều kiện dừng thỏa mãn Cách tiếp cận này sử dụng chiến lược chia để trị trong quá trình phân cụm

Điển hình trong phương pháp tiếp cận theo phương pháp phân cấp là các thuật toán như: AGNES (Agglomerative Nesting), DIANA (Divisive Analysis), BIRCH (Balance Iterative Reducing and Clustering Using Hierarchies), CURE (Clustering Using Representatives), CHAMELEON,…

Trong áp dụng thực tế, có nhiều trường hợp kết hợp cả phương pháp phân hoạch và phương pháp phân cấp, nghĩa là kết quả thu được của phương pháp phân cấp có thể cải tiến thông qua bước phân cụm phân hoạch

2.1.2.1 Thuật toán BIRCH

Thuật toán BIRCH được đề xuất năm 1996 bởi Tian Zhang, Amakrishnan và Livny, BIRCH là thuật toán phân cụm phân cấp sử dụng chiến lược Top-Down Ý tưởng của thuật toán là không cần lưu toàn bộ các đối tượng dữ liệu của các cụm trong bộ nhớ mà chỉ lưu các đại lượng thống kê Đối với mỗi cụm dữ liệu, BIRCH chỉ lưu một bộ ba (n, LS, SS), với n là số đối tượng trong cụm, LS là tổng các giá trị thuộc tính của các đối tượng trong cụm và SS là tổng bình phương các giá trị thuộc tính của các đối tượng trong cụm Các bộ ba này được gọi là các đặc trưng của cụm CF= (n, LS, SS) và được lưu giữ trong một cây được gọi là cây CF

Trang 26

17

Cây CF là cây cân bằng nhằm để lưu trữ các đặc trưng của cụm Cây CF chứa các nút trong lá và nút lá Nút trong lưu giữ tổng các đặc trưng cụm của các nút con của nó Một cây CF được đặc trưng bởi hai tham số:

- Yếu tố nhánh (B): nhằm xác định số tối đa các nút con của mỗi nút trong của cây

- Ngưỡng (T): là khoảng cách tối đa giữa bất kỳ một cặp đối tượng trong nút

lá của cây, khoảng cách này còn gọi là đường kính của các cụm con được lưu tại các nút lá

Hai tham số này có ảnh hưởng lớn đến kích thước của cây CF

Các bước của thuật toán BIRCH:

Input: CSDL gồm n đối tượng, ngưỡng T

Output: k cụm dữ liệu

Bước 1: Duyệt tất cả các đối tượng trong CSDL và xây dựng một cây CF

khởi tạo Mỗi đối tượng được chèn vào nút lá gần nhất tạo thành cụm con Nếu đường kính của cụm con này lớn hơn T thì nút lá được tách Khi một đối tượng thích hợp được chèn vào nút lá, tất cả các nút trỏ tới gốc của cây được cập nhật với các thông tin cần thiết

Bước 2: Nếu cây CF hiện thời không có đủ bộ nhớ trong thì tiến hành xây

dựng một cây CF nhỏ hơn bằng cách điều khiển bởi tham số T (vì tăng T sẽ làm hòa nhập một số các cụm con thành một cụm, điều này làm cho cây CF nhỏ hơn) Bước này không cần yêu cầu bắt đầu đọc dữ liệu lại từ đầu nhưng vẫn đảm bảo hiệu chỉnh cây dữ liệu nhỏ hơn

Bước 3: Thực hiện phân cụm: các nút lá của cây CF lưu giữ các đại lượng

thống kê của các cụm con Trong bước này, BIRCH sử dụng các đại lượng thống kê này để áp dụng một số kỹ thuật phân cụm ví dụ như k-means và tạo ra một khởi tạo cho phân cụm

Bước 4: Phân phối lại các đối tượng dữ liệu bằng cách dùng các đối tượng

trọng tâm cho các cụm đã được khám phá từ bước 3 Đây là một bước tùy chọn để duyệt lại tập dữ liệu và gán nhãn lại cho các đối tượng dữ liệu tới các trọng tâm gần

Trang 27

Đánh giá thuật toán BIRCH:

Ưu điểm: Sử dụng cấu trúc cây CF làm cho thuật toán BIRCH có tốc độ

thực hiện PCDL nhanh và có thể áp dụng đối với tập CSDL lớn, BIRCH cũng có hiệu quả khi áp dụng với tập dữ liệu tăng trưởng theo thời gian BIRCH chỉ duyệt toàn bộ dữ liệu một lần với một lần quét thêm tùy chọn, nghĩa là độ phức tạp của nó

là O(n) (n là số đối tượng dữ liệu)

Nhược điểm: Chất lượng của các cụm được khám phá không được tốt Nếu

BIRCH sử dụng khoảng cách Euclidean, nó thực hiện tốt chỉ với dữ liệu số Mặt khác, tham số vào T có ảnh hưởng rất lớn tới kích thước và tính tự nhiên của cụm Việc ép các đối tượng dữ liệu làm cho các đối tượng của một cụm có thể là đối tượng kết thúc của cụm khác, trong khi các đối tượng gần nhau có thể bị hút bởi các cụm khác nếu chúng được biểu diễn cho thuật toán theo một thứ tự khác BIRCH không thích hợp với dữ liệu đa chiều

2.1.2.2 Thuật toán CURE

Thuật toán CURE được đề xuất năm 1998 bởi Sudipto Guha, Rajeev Rastogi

và Kyuseok Shim, là thuật toán sử dụng chiến lược Bottom – Up của kỹ thuật phân cụm phân cấp CURE sử dụng nhiều đối tượng để diễn tả cho mỗi cụm dữ liệu Thay vì sử dụng một trọng tâm đơn đại diện một cụm, CURE ấn định một số lượng các điểm đại diện được lựa chọn để miêu tả một cụm Các điểm đại diện này được sinh ra bằng cách trước tiên lựa chọn các điểm rải rác đều trong cụm, sau đó chúng được di chuyển bằng cách co lại theo một tỷ lệ nhất định Hai cụm với cặp đối tượng đại diện gần nhất sẽ được trộn lại thành một cụm tại mỗi bước của thuật toán Với cách sử dụng nhiều hơn một điểm đại diện cho các cụm, CURE có thể khám phá được các cụm có các dạng hình thù và kích thước khác nhau trong cơ sở dữ liệu

Trang 28

19

lớn Việc co các đối tượng đại diện lại có tác dụng làm giảm tác động của các phần

tử ngoại lai

Các bước của thuật toán CURE:

Bước 1: Chọn một mẫu ngẫu nhiên từ tập dữ liệu ban đầu

Bước 2: Phân hoạch mẫu này thành nhiều nhóm dữ liệu có kích thước bằng

nhau, ý tưởng ở đây là phân hoạch mẫu thành p nhóm dữ liệu bằng nhau, kích thước của mỗi phân hoạch là ′⁄ (với ′ là kích thước của mẫu)

Bước 3: Phân cụm các điểm của mỗi nhóm: ta thực hiện phân cụm dữ liệu

cho các nhóm cho đến khi mỗi nhóm được phân thành ′⁄( ) cụm (với q>1)

Bước 4: Loại bỏ các phần tử ngoại lai: trước hết, khi các cụm được hình

thành cho đến khi số các cụm giảm xuống một phần so với số các cụm ban đầu Sau

đó, trong trường hợp các phần tử ngoại lai được lấy mẫu cùng với quá trình pha khởi tạo mẫu dữ liệu, thuật toán sẽ tự động loại bỏ các nhóm nhỏ

Bước 5: Phân cụm các cụm không gian: các đối tượng đại diện cho các cụm

di chuyển về hướng trung tâm cụm, nghĩa là chúng được thay thế bởi các đối tượng gần trung tâm hơn

Bước 6: Đánh dấu dữ liệu với các nhãn tương ứng

Đánh giá thuật toán CURE:

Độ phức tạp tính toán của CURE là O(n2log(n)) CURE là thuật toán tin cậy trong việc khám phá các cụm với hình thù bất kỳ và có thể áp dụng tốt trên tập dữ liệu hai chiều Tuy nhiên, nó lại rất nhạy cảm với các tham số như là tham số các đối tượng đại diện, tham số co của các phần tử đại diện Nhìn chung thì BIRCH tốt hơn so với CURE về độ phức tạp, nhưng kém về chất lượng phân cụm

2.1.3 Phương pháp dựa trên mật độ (Density-Based Methods)

Phương pháp dựa trên mật độ nhóm các đối tượng dữ liệu dựa trên hàm mật

độ xác định, mật độ là số các đối tượng lân cận của một đối tượng dữ liệu theo một nghĩa nào đó Trong cách tiếp cận này, khi một dữ liệu đã xác định thì nó tiếp tục được phát triển thêm các đối tượng dữ liệu mới miễn là số các đối tượng lân cận này phải lớn hơn một ngưỡng đã được xác định trước Phương pháp dựa trên mật độ của

Trang 29

20

các đối tượng để xác định các cụm dữ liệu có thể phát hiện ra các cụm dữ liệu với hình thù bất kỳ Phương pháp này có khả năng loại bỏ phần tử nhiễu và phần tử ngoại lai, phù hợp với các đối tượng có trường dữ liệu kiểu số, dữ liệu thuộc tính chỉ là thuộc tính mô tả thêm cho các đối tượng không gian

Điển hình trong phương pháp tiếp cận theo phương pháp dựa trên mật độ là các thuật toán như: DBSCAN (Density Based Spatial Clustering of Application with Noise), DENCLUE (Density-based Clustering), OPTICS (Ordering Points to Identify the Clustering Structure),…

2.1.3.1 Thuật toán DBSCAN

Thuật toán DBSCAN được Ester, Kriegel và Sander đề xuất năm 1996 khi nghiên cứu các thuật toán gom cụm dữ liệu không gian dựa trên định nghĩa cụm là tập tối đa các điểm liên thông về mật độ DBSCAN phát hiện các cụm có hình dạng tùy ý, khả năng phát hiện nhiễu tốt DBSCAN thực hiện tốt trên không gian nhiều chiều, thích hợp với cơ sở dữ liệu có mật độ phân bố dày đặc kể cả có phần tử nhiễu

Ý tưởng chính để phát hiện ra các cụm của thuật toán DBSCAN là bên trong mỗi cụm luôn tồn tại một mật độ cao hơn bên ngoài cụm Hơn nữa, mật độ ở những vùng nhiễu thì thấp hơn mật độ bên trong của bất kỳ cụm nào Trong mỗi cụm phải xác định bán kính vùng lân cận (Eps) và số lượng điểm tối thiểu trong vùng lân cận của một điểm trong cụm (MinPts) Hình dạng vùng lân cận của một điểm được xác

định dựa vào việc chọn hàm khoảng cách giữa hai điểm p và q, ký hiệu là dist(p,q) hay d(p,q)

Sau đây là một số định nghĩa và bổ đề sử dụng trong thuật toán DBSCAN:

Định dạng
Số trang	58
Dung lượng	0,97 MB