Nghiên cứu ứng dụng các kỹ thuật trong khai phá dữ liệu hỗ trợ học tập cho sinh viên

Chúng ta cĩ thể áp dụng lĩnh vực khai phá dữ liệu và phát hiện tri thức để giải quyết vấn đề trên, nhằm hỗ trợ cho học viên cĩ những định hướng trong việc lựa chọn, xây dựng thời khĩ

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

LÊ XUÂN LÂM

NGHIÊN CỨU ỨNG DỤNG CÁC KỸ THUẬT TRONG KHAI PHÁ DỮ LIỆU HỖ TRỢ HỌC TẬP

CHO SINH VIÊN

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội – 2020

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

LÊ XUÂN LÂM

NGHIÊN CỨU ỨNG DỤNG CÁC KỸ THUẬT TRONG KHAI PHÁ DỮ LIỆU HỖ TRỢ HỌC TẬP

CHO SINH VIÊN

Ngành: Công nghệ Thông tin

Chuyên ngành: Quản lý Hệ thống Thông tin

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN HÀ NAM

Hà Nội – 2020

Trang 3

1

LỜI CẢM ƠN

Tôi xin gửi lời cảm ơn sâu sắc tới PGS.TS Nguyễn Hà Nam, Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội, người thầy đã dành nhiều thời gian tận tình chỉ bảo, hướng dẫn, giúp đỡ tôi trong suốt quá trình tìm hiểu, nghiên cứu Thầy là người định hướng và đưa ra nhiều góp ý quý báu trong quá trình tôi thực hiện luận văn

Tôi xin gửi lời cảm ơn chân thành tới các thầy, cô ở khoa Công nghệ thông tin – Trường Đại học Công nghệ - ĐHQGHN đã trang bị những kiến thức và tạo điều kiện thuận lợi cho tôi trong suốt quá trình học tập tại trường

Tôi cũng xin bày tỏ lòng biết ơn về sự giúp đỡ của lãnh đạo cơ quan, đồng nghiệp đã cung cấp dữ liệu, tài liệu và cho tôi những lời khuyên quý báu Tôi xin cảm ơn gia đình, người thân, bạn bè luôn động viên và tạo mọi điều kiện tốt nhất cho tôi

Tôi xin chân thành cảm ơn!

Trang 4

ii

LỜI CAM ĐOAN

Tôi xin cam kết công trình nghiên cứu này là của tôi, được thực hiện dưới sự hướng dẫn của PGS.TS Nguyễn Hà Nam

Các số liệu, kết quả được nêu trong luận văn là trung thực và chưa được ai công bố ở bất cứ công trình nào khác

Hà Nội, tháng 9 năm 2020

Học viên

Lê Xuân Lâm

Trang 5

iii

MỤC LỤC

LỜI CẢM ƠN i

LỜI CAM ĐOAN ii

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT v

LỜI MỞ ĐẦU 1

Chương 1 Giới thiệu 3

1.1.Quy trình quản lý đào tạo tại trường CĐ.ANND I 3

1.2.Bài tốn ứng dụng KPDL để xây dựng hệ thống tư vấn tại trường CĐ.ANND I 6

1.3.Một số nghiên cứu về khai phá dữ liệu trong lĩnh vực giáo dục 8

1.4.Hướng tiếp cận của luận văn 9

1.5.Kết luận chương 1 10

Chương 2 Cơ sở lý thuyết 11

2.1.Khai phá dữ liệu 11

2.1.1 Khái niệm 11

2.1.2 Những hướng tiếp cận trong KPDL 12

2.1.3 Các bước xây dựng một giải pháp về KPDL 13

2.1.4 Các lĩnh vực ứng dụng của KPDL 13

2.2.Một số kỹ thuật KPDL trong phân lớp, dự đốn 15

2.2.1 Cây quyết định 15

2.2.2 Phân lớp Nạve Bayes 16

2.2.3 Luật kết hợp 17

2.2.4 Hồi quy tuyến tính 19

2.2.5 Mạng nơ-ron nhân tạo 21

2.3.KPDL với MS SQL Server 23

2.3.1 Giới thiệu chung 23

2.3.2 Data Mining eXtensions 25

2.3.3 Bộ cơng cụ SQL Server Data Tool – Business Intelligence 29

2.3.4 Lập trình KPDL với ADODE.NET 30

Trang 6

iv

2.3.5 Đánh giá tính hiệu quả các mô hình KPDL trong SSDT-BI 31

Chương 3 Giải quyết bài toán 33

3.1.Phát biểu bài toán 33

3.2.Mô tả một số giải thuật sử dụng trong bài toán 1 và bài toán 2 33

3.2.1 Thuật toán Apriori 33

3.2.2 Thuật toán C4.5 35

3.2.3 Thuật toán hồi quy tuyến tính của Microsoft 36

3.2.4 Thuật toán Back propagation 38

3.3.Xây dựng CSDL 39

3.4.Xây dựng mô hình KPDL 43

3.5.Lập trình KPDL với ADOMD.NET 55

3.6.Đánh giá mô hình 57

3.6.1 Đánh giá mô hình với Lift Chart 57

3.6.2 Đánh giá mô hình với Classification Matrix 63

3.7.Xây dựng ứng dụng hỗ trợ tư vấn học tập 64

KẾT LUẬN 70

HƯỚNG PHÁT TRIỂN 70

TÀI LIỆU THAM KHẢO 71

Trang 7

DMX Data Mining eXtensions

SSDT-BI SQL Server Data Tool - Bussiness Intelligence

Trang 8

vi

DANH MỤC CÁC BẢNG

Bảng 2.1: Lựa chọn các thuật toán KPDL theo mục đích 24

Bảng 2.2: Bảng danh sách thư viên API Analysis Services 30

Bảng 3.1: Bảng quy đổi thang điểm 40

Bảng 3.2: Thông tin dữ liệu cho bài toán 1 41

Bảng 3.3: Bảng giá trị Mining Legend 59

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1: Quá trình của khai thác tri thức 11

Hình 2.1: Cấu trúc của cây quyết định 15

Hình 2.2: Cây quyết định dự báo khả năng khách hàng 16

Hình 2.3: Biểu đồ hồi quy tuyến tính đơn 20

Hình 2.4: Mô hình nơ-ron đơn lẻ 21

Hình 2.5: Mô hình mạng nơ-ron đa tầng 21

Hình 2.6: Mạng nơ-ron trong MS Neural Network 22

Hình 2.7: Kiến trúc tổng quan KPDL với MS SQL Server 23

Hình 2.8: Biểu đồ đánh giá Lift Chart 31

Hình 2.9: Đánh giá mô hình với Classification Matrix 32

Hình 3.1: Danh sách kết quả các luật 34

Hình 3.2: Kết quả mô hình cây quyết định 36

Hình 3.3: Kết quả mô hình hồi quy tuyến tính 37

Hình 3.4: Dạng tổng quát của mạng nơ-ron truyền thẳng nhiều lớp 38

Hình 3.5: Lược đồ CSDL quan hệ 41

Hình 3.6: Bộ dữ liệu sử dụng cho bài toán số 1 42

Hình 3.7: Sơ đồ liên quan đến dữ liệu điểm 43

Hình 3.8: Danh sách điểm của các học viên 43

Hình 3.9: Tạo một dự án Data mining 44

Hình 3.10: Tạo Data Source 44

Hình 3.11: Tạo Data Source View 45

Hình 3.12: Lựa chọn Mining model structure 45

Hình 3.13: Thiết lập thuộc tính cho dự báo 46

Hình 3.14: Xác định kiểu dữ liệu các thuộc tính cho dự báo 46

Hình 3.15: Thiết lập dataset với training và testing 47

Hình 3.16: Một Mining Structure và Mining Model được tạo 47

Hình 3.17: Thêm mới một Mining Model 48

Hình 3.18: Tạo 04 mô hình cho một Mining Structure 49

Trang 9

vii

Hình 3.19: Kết quả viewer mơ hình Cây quyết định 49

Hình 3.20: Kết quả viewer mơ hình Luật kết hợp 50

Hình 3.21: Kết quả viewer mơ hình Nạve Bayes 50

Hình 3.22: Kết quả viewer mơ hình mạng nơ-ron nhân tạo 51

Hình 3.23: Biểu đồ Lift Chart cho 04 mơ hình 51

Hình 3.24: Kết quả Classification Matrix của 04 mơ hình 52

Hình 3.25: Thiết kế truy vấn Singleton Query DMX với mơ hình 53

Hình 3.26: Kết quả truy vấn Singleton Query với mơ hình 53

Hình 3.27: Tạo 3 mơ hình cho bài tốn 2 54

Hình 3.28: Biểu đồ Lift chart cho 3 mơ hình 54

Hình 3.29: Sử dụng ADMOD.NET trong C# 55

Hình 3.30: Lựa chọn Lift Chart với thuộc tính dự báo xác định 57

Hình 3.31: Kết quả Lift Chart với ĐTBKY2 = “K” cho 04 mơ hình 58

Hình 3.32: Lift Chart cho tất cả các trường hợp của thuộc tính dự đốn 60

Hình 3.33: Biểu đồ Lift Chart tất cả trường hợp của thuộc tính dự đốn 60

Hình 3.34: Mạng phụ thuộc mơ hình CayQĐ 61

Hình 3.35: Mạng phụ thuộc mơ hình CayQĐ 62

Hình 3.36: Biểu đồ phân tán đánh giá 3 mơ hình 62

Hình 3.37: Đánh giá 3 mơ hình với Classifications Matrix 64

Hình 3.38: Sơ đồ hoạt động hệ thống 65

Hình 3.39: Giao diện chính của hệ thống 66

Hình 3.40: Kết quả Ví dụ 1 67

Hình 3.41: Kết quả Ví dụ 2 67

Hình 3.42: Kết quả ví dụ 3 68

Trang 10

1

LỜI MỞ ĐẦU

Trong những năm gần đây, việc ứng dụng các kỹ thuật khai phá dữ liệu và phát hiện tri thức trong các lĩnh vực giáo dục, tài chính, ngân hàng, xây dựng…rất được quan tâm nghiên cứu Đối với giáo dục, đào tạo sinh viên trong các trường Đại học, Cao đẳng theo hình thức đào tạo tín chỉ địi hỏi học viên phải cĩ sự chủ động cao Sinh viên trong quá trình học tập phải tự mình lựa chọn, phân bổ các mơn học cho từng kỳ sao cho tích lũy đủ số tín chỉ theo quy chế đào tạo, Sinh viên hồn tồn cĩ thể ra trường sớm hoặc đúng hạn Qua quá trình dạy học tại trường Cao đẳng An ninh nhân dân I, tơi nhận thấy tỉ lệ học viên học tập tại trường đạt kết quả chưa cao Nguyên nhân là do các em mới bước chân từ mơi trường giáo dục THPT vào mơi trường Đại học, Cao đẳng cịn nhiều bỡ ngỡ, khĩ khăn trong việc định hướng học tập, làm ảnh hưởng tới kết quả học tập của bản thân cũng như đối với nhà trường Chúng ta cĩ thể áp dụng lĩnh vực khai phá dữ liệu và phát hiện tri thức để giải quyết vấn đề trên, nhằm hỗ trợ cho học viên cĩ những định hướng trong việc lựa chọn, xây dựng thời khĩa biểu phù hợp bản thân mang lại đạt kết quả cao trong quá trình học tập tại trường

Từ cơ sở thực tiễn đĩ, tơi đã chọn đề tài: “Nghiên cứu ứng dụng các kỹ

thuật trong khai phá dữ liệu hỗ trợ học tập cho sinh viên” Mục đích của đề

tài này là đi sâu tìm hiểu việc phân tích dữ liệu thơng tin cá nhân của sinh viên, kết hợp với kết quả học tập thực tế trong các kỳ nhằm hỗ trợ sinh viên lựa chọn mơn học phù hợp, đạt được kết quả cao nhất

Nội dung trình bày luận văn “Nghiên cứu ứng dụng các kỹ thuật trong khai phá dữ liệu hỗ trợ học tập cho học viên” được bố cục gồm 3 chương:

Chương 1: Giới thiệu

Chương này trình bày về hiện trạng cơng tác quản lý đào tạo của trường CĐ.ANND I, các đối tượng, phạm vi và hướng nghiên cứu của luận văn

Chương 2: Cơ sở lý thuyết

Chương này trình bày cơ sở về khai phá dữ liệu và phát hiện tri thức, các

kỹ thuật khai phá dữ liệu Cây quyết định, Luật kết hợp, Hồi quy tuyến tính, Neural Networks và Nạve Bayes, Cơng cụ SSDT-BI của SQL Server 2012

Chương 3: Giải quyết bài tốn

Mơ tả, xây dựng bài tốn dự đốn kết quả học tập cuối kỳ cho học viên, bài tốn dự đốn kết quả của một mơn học sắp tới Tổng hợp và xử lý các dữ liệu liên

Trang 11

2

quan dùng cho phát triển hệ thống Xây dựng một số mơ hình: Hồi quy tuyến tính, Luật kết hợp, Neural Networks, Cây quyết định, Nạve Bayes và đưa ra đánh giá các mơ hình tương ứng

Xây dựng cơ sở dữ liệu quản lý học viên và chuyển cơ sở dữ liệu thành kho

dữ liệu Sau đĩ tiến hành phân tích báo cáo và xây dựng mơ hình dựa trên cơng

cụ Business Intelligence của SQL Server 2012, đánh giá các mơ hình

Xây dựng ứng dụng thực nghiệm tư vấn cho học viên, dựa trên mơ hình đánh giá cho kết quả tốt nhất

Trang 12

3

Chương 1 Giới thiệu

1.1 Quy trình quản lý đào tạo tại trường CĐ.ANND I

Quy trình nghiệp vụ quản lý đào tạo cho hệ Cao đẳng tại trường CĐ.ANND

I được tổ chức thực hiện theo Quyết định số 17/VBHN-BGDĐT, ngày 15 tháng

5 năm 2014 của Bộ trưởng Bộ giáo dục và Đào tạo ban hành Quy chế đào tạo đại học và cao đẳng hệ chính quy theo hệ thống tín chỉ; Hướng dẫn số 11792/HD-X11-X14 của Tổng cục Chính trị Công an nhân dân hướng dẫn thực hiện quy chế đào tạo đại học, cao đẳng theo tín chỉ; Quyết định số 499/QĐ-T33(P5), ngày 27 tháng 5 năm 2016 của Hiệu trưởng Trường Cao đẳng An ninh nhân dân I ban hành Quy định đào tạo cao đẳng hệ chính quy theo hệ thống tín chỉ Lưu đồ sau được xây dựng quy định trách nhiệm, phương pháp tổ chức thực hiện và quản lý việc giảng dạy của Phòng Quản lý Đào tạo, các Khoa, Bộ môn và các Phòng chức năng khác liên quan

Xem xét/ điều chỉnh C

ó

K hông Lập Thời khoá biểu chi tiết Lập khung thời gian khoá học

Thực hiện công tác giảng dạy

Quản lý tổ chức giảng dạy

Quản lý

nội dung

giảng dạy

Quản lý tiến độ khoá học

Trang 13

4

8

Đề thi Bài thi Kết quả thi

9

Bảng điểm Mạng nội bộ

- Bước 1: Hàng năm, căn cứ vào chỉ tiêu tuyển sinh do Bộ Công an phê

quyệt, nhà trường thực hiện công tác tuyển sinh, họp xét điểm chuẩn, lập quyết định và danh sách thí sinh trúng tuyển;

- Bước 2: Căn cứ danh sách thí sinh trúng tuyển, phòng QLĐT tiến hành

phân lớp, phân công cán bộ quản lý đào tạo theo Quyết định thành lập từng khóa học;

- Bước 3: Hàng năm, căn cứ vào chương trình đào tạo và tiến độ đào tạo

của các khóa học, phòng QLĐT lập kế hoạch giảng dạy dự kiến của cả năm học;

- Bước 4: Kế hoạch giảng dạy dự kiến được cán bộ phòng QLĐT bố trí lịch

giảng cụ thể cho từng môn học Sau đó chuyển đến các khoa đào tạo để phân công giảng viên và đề nghị điều chỉnh lịch (nếu có);

- Bước 5: Căn cứ kế hoạch lịch giảng của năm học, cán bộ quản lý tiến

hành lập lịch giảng chi tiết cho các khóa (thực hiện cho cả năm học) kèm với phiếu báo lịch giảng cho từng môn học;

- Bước 6: Giảng viên thực hiện theo các lịch giảng chi tiết;

- Bước 7: Quản lí quá trình giảng dạy

Phân cấp trách nhiệm quản lí quá trình giảng dạy

+ Trưởng Khoa, Bộ môn

✓ Phân công giảng viên phụ trách các học phần và báo về phòng QLĐT;

Quản lý đánh giá kết quả giảng dạy

Cập nhật & lưu giữ hồ sơ Quản lý kết quả học tập

Xét tốt nghiệp

Trang 14

✓ Chịu trách nhiệm về chất lượng giảng dạy của Khoa, Bộ môn;

✓ Tổ chức sinh hoạt bộ môn theo đúng quy chế của Trường;

+ Giáo vụ khoa, bộ môn

✓ Cập nhật thời khoá biểu, lịch trình, lịch thi;

✓ Theo dõi việc thực hiện công tác giảng dạy và học tập của giảng viên

và sinh viên trong Khoa;

số giờ còn thiếu và yêu cầu dạy bù đủ số tiết;

✓ Tổng hợp (1 tháng /1lần) các trường hợp sai phạm và các trường hợp phát sinh: vắng tiết, quên giờ, bỏ giờ, lập báo cáo gửi về phòng Quản lý học viên

+ Chuyên viên Phòng thanh tra: Có trách nhiệm kiểm tra:

✓ Việc thực hiện giờ lên lớp theo quy định chung;

✓ Tiến độ giảng dạy theo lịch trình giảng dạy;

✓ Việc ghi chép, sử dụng theo biểu mẫu, sổ sách và quản lý giờ giảng + Ban Giám hiệu

✓ Là cấp có thẩm quyền quyết định hình thức kỷ luật khi có các giảng viên vi phạm Trong trường hợp nghiêm trọng, Hiệu trưởng - Chủ tịch Hội đồng khen thưởng, kỷ luật Trường sẽ triệu tập họp để xét khen thưởng hoặc kỷ luật các đơn vị và cá nhân liên quan

Quản lí nội dung giảng dạy

Căn cứ vào phân công trách nhiệm, quản lý nội dung giảng dạy gồm: + Quản lý khung chương trình

Trang 15

6

+ Quản lý đề cương chi tiết của các học phần

+ Quản lý giáo trình, giáo án

+ Đảm bảo số giáo trình, tài liệu tham khảo của các môn học

+ Bổ sung, cập nhật các thay đổi về chương trình giảng dạy sau khi đã có sự thống nhất của Hội đồng khoa học Khoa hoặc Hội đồng khoa học Trường

Quản lý tiến độ giảng dạy

Căn cứ vào phân công trách nhiệm, nội dung quản lý tiến độ gồm:

+ Tại các lớp học lý thuyết, việc thực hiện giờ giảng cho từng môn học được ghi chép vào Sổ theo dõi giảng dạy và học tập

+ Quản lý danh sách giảng viên báo nghỉ dạy và kiểm tra việc thực hiện dạy bù

+ Phòng QLĐT căn cứ vào theo dõi thực hiện thời khoá biểu sẽ thống kê

số giờ còn thiếu và yêu cầu giảng viên dạy bù đủ số tiết

- Bước 8: Phòng Khảo thí đảm bảo chất lượng thực hiện việc tổ chức thi

hết học phần cho các khóa, thực hiện việc chuyển đề thi và nhận bài thi (theo quy trình phối hợp), tổ chức chấm thi và chuyển điểm về phòng QLĐT theo thời gian quy định;

- Bước 9: Khi nhận bảng điểm từ phòng Khảo thí đảm bảo chất lượng,

phòng QLĐT photo 2 bản: 1 bản chuyển các khoa, bộ môn, 1 bản chuyển công bố cho SV Tổ điểm gốc tiến hành nhập điểm vào hệ thống mạng nội bộ;

- Bước 10: Căn cứ tiến độ đào tạo của từng khóa học và quy chế đào tạo,

phòng QLĐT tiến hành xét chuyển giai đoạn, xét điều kiện dự thi tốt nghiệp và xét tốt nghiệp cho học viên Sau khi được Hội đồng họp xét thông qua, kết quả xét được công bố cho học viên và phòng QLĐT thực hiện các bước tiếp theo của khóa học;

- Bước 11: Cập nhật và lưu trữ hồ sơ

1.2 Bài toán ứng dụng KPDL để xây dựng hệ thống tư vấn tại trường

CĐ.ANND I

Trường Cao đẳng An ninh nhân dân I là trường thuộc Bộ Công an có nhiệm

vụ đào tạo, huấn luyện chiến sĩ có trình độ cao, phẩm chất chính trị vững vàng, đáp ứng nhu cầu nhân lực cho lực lượng vũ trang Công an nhân dân Việt Nam

Về ngành, nghề đào tạo: Trong hơn 50 năm xây dựng và phát triền, nhà

Trang 16

7

trường đã xây dựng và đào tạo 3 chuyên ngành đào tạo cao đẳng chính quy, 4 chuyên ngành đạo tạo Trung cấp chuyên nghiệp và nhiều chương trình đào tạo ngắn hạn khác

Các lĩnh vực đào tạo: An ninh, Ngoại tuyến, Cảnh vệ

Nhiệm vụ đặt ra đối với trường CĐ.ANND I hiện nay là làm sao nâng cao được chất lượng học tập của học viên trong trường, đáp ứng được nhu cầu đào tạo trước tình hình mới là điểm trọng tâm hàng đầu được nhà trường quan tâm

Trường CĐ.ANND I đã triển khai đào tạo tín chỉ từ năm 2013-2018 Qua thực hiện triển khai mô hình giảng dạy theo tín chỉ tại Trường có rất nhiều vấn đề bất cập cần sửa đổi theo đúng nghĩa của mô hình đào tạo theo tín chỉ, cụ thể như:

- Chưa đáp ứng được yêu cầu đăng ký học tập của học viên (như phần mềm

hỗ trợ đăng ký, theo dõi lịch học…)

- Quản lý dữ liệu về học viên chủ yếu còn thủ công bằng Excel gặp nhiều khó khăn

- Chưa tổ chức cho học viên đăng ký theo khối lượng học tập, rút bớt học phần đăng ký mà học viên được học theo các học phần Nhà trường bố trí và lựa chọn

- Việc tổ chức cho học viên học cùng lúc hai chương trình chưa được thực hiện do quy định của ngành Công an hiện nay

Chính vì vậy nhu cầu tư vấn học tập của học viên thực sự không nhiều, ít thường xuyên, chủ yếu tập trung trong thời điểm đầu khóa mới nhập học Vai trò của đội ngũ cố vấn học tập cũng chưa thể hiện nhiều trong suốt quá trình đạo tạo

Thực tế tại các trường Đại học, Cao đẳng ở Việt Nam hiện nay, việc học viên tự chủ động đăng ký lựa chọn môn học phù cho bản thân còn chưa hiệu quả, chưa tận dụng được ưu điểm của việc học theo tín chỉ, chưa xây dựng được lộ trình học tập phù hợp với từng sinh viên Nhằm giúp phần hỗ trợ cho học viên lựa chọn được những môn học phù hợp với năng lực, đảm bảo hoàn thành khóa học sớm hoặc đúng hạn thì rất cần tới sự trợ giúp của giáo viên cố vấn Tuy nhiên, ngoài những kinh nghiệm của bản thân mình thì giáo viên cố vấn sẽ phải tra kết quả học tập của mỗi học viên để trợ giúp tùy theo năng lực cá nhân của mỗi em, điều đó khá tốn thời gian và mất nhiều công sức Việc dự đoán kết quả môn học sắp tới của học viên dựa trên các thông tin về những môn học đã học và kết quả của môn đó sẽ giúp cho học viên có thể đánh giá được năng lực của mình để có

Trang 17

Bài toán 1: Dựa vào các thông tin nhân khẩu học: Giới tính, điểm thi đầu

vào…và điểm trung bình của học kỳ trước đó nhằm dự đoán điểm trung bình kỳ tới của học viên

Bài toán 2: Dựa vào kết quả các môn học đã học của học viên, dự đoán kết

quả đạt được của môn học sắp tới

1.3 Một số nghiên cứu về khai phá dữ liệu trong lĩnh vực giáo dục

Khai phá dữ liệu cho giáo dục ngày càng được các nhà nghiên cứu trên toàn thế giới quan tâm Sự quan tâm đến việc phát triển các kỹ thuật để phân tích dữ liệu được tạo ra trong môi trường giáo dục được thể hiện bằng hàng loạt các hội thảo Education Data Mining Năm 2008, một nhóm các nhà nghiên cứu đã thành lập hội nghị nghiên cứu quốc tế thường niên về Education Data Mining, hội nghị đầu tiên diễn ra tại Montreal, Quebec, Canada Rất nhiều các công trình, bài báo

về Education Data Mining được xuất bản tại hội nghị International Conference on Educational Data Mining được tổ chức diễn ra hàng năm Có thể liệt kê ra một số công trình, bài báo về Educational Data Mining như:

Trong "Conceptual Framework of Data Mining Process in Management

Education in India: An Institutional Perspective" (Ranjan & Khalil, 2008) các tác

giả Ranjan J và Khalil S đã sử dụng cây quyết định và mạng Bayes để hỗ trợ quá trình nhập học, phân tích chất lượng của quá trình giáo dục và kết quả học tập của

học sinh ở Ấn Độ "Data mining for adaptive learning sequence in English

language instruction" (Y H Wang, Tseng, & Liao, 2009) được phát triển bởi

Wang Y., Tseng M và Liao H., đã sử dụng cây quyết định để đề xuất trình tự học tối ưu nhằm tạo điều kiện cho quá trình học tập của học sinh và để tối đa hóa kết

quả học tập của họ "Recommender system for predicting student performance"

(Thai-Nghe, Drumond, Krohn-Grimberghe, & Schmidt-Thieme, 2010) một bài báo của các tác giả Thai-Nghe N., Drumond L., Krohn-Grimberghe A và Schmidt-Thieme L., đã đề xuất một cách tiếp cận để sử dụng các kỹ thuật khai thác dữ liệu, đặc biệt là những kỹ thuật dự đoán kết quả hoạt động của học sinh

"Mining log data for the analysis of learners' Behavior in web-based learning

management systems" (Psaromiligkos, Orfanidou, Kytagias, & Zafiri, 2011) trong

đó Psaromiligkos Y., Orfanidou., Kytagias C và Zafiri E., đã sử dụng các quy tắc

Trang 18

9

kết hợp để cải thiện quy trình phản hồi liên tục trong suốt quá trình giáo dục

"Application of data mining in academic educational databases for predicting

trends and patterns" (Parack, Zahid, & Merchant, 2012) Parack S Merchant và

Zahid F Z đã sử dụng các quy tắc kết hợp và phân cụm để xác định hồ sơ của

sinh viên "Improving the Student's Performance Using Educational Data

Mining" (Priya, 2013) đã sử dụng cây quyết định để cải thiện hiệu suất của học

sinh trong các khóa học "Data Mining: A prediction for Student's Performance

Using Classification Method" (Badr, Din, & Elaraby, 2014) do Ahmed A và

Elaraby I phát triển, trong đó cây quyết định được sử dụng để dự đoán điểm của

học sinh cuối cấp "Educational Data Mining: Performance Evaluation of

Decision Tree and Clustering Techniques using WEKA Platform" (Saxena, 2015)

được phát triển bởi Saxena R., bài báo này sử dụng công cụ WEKA để so sánh hiệu suất của cây quyết định và kỹ thuật phân cụm trong dữ liệu từ lĩnh vực giáo dục

Có nhiều nghiên cứu điển hình trong đó các kỹ thuật khai thác dữ liệu được

áp dụng cho giáo dục, mỗi nghiên cứu sẽ tìm kiếm câu trả lời cho một tình huống

cụ thể trong Educational Data Mining Việc tri thức được khai phá không chỉ nhằm mục đích cho người khai phá sử dụng mà còn nhắm tới cả người sử hữu cũng có thể sử dụng Do dó, việc ứng dụng khai phá dữ liệu trong giáo dục có thể hướng tới nhiều tác nhân khác nhau dưới các góc nhìn như:

Hướng tới học viên: tư vấn, đề xuất kinh nghiệm học tập: chọn ngành học, chọn môn học, chọn lộ trình học…

Hướng tới giáo viên: tư vấn, đề xuất cho giáo viên các phương pháp dạy học thích hợp dựa trên việc phân lớp các học viên thành những nhóm theo tùy mức độ, đưa ra các điểm mâu thuẫn, bất thường trong lộ trình học của học viên, liệt kê ra các hoạt động hiệu quả giúp giáo viên cải thiện, xây dựng lại nội dung bài giảng của mình một cách hợp lý, đạt kết quả tốt hơn

Hướng tới nhà quản lý: giúp nhà quản lý đưa ra các phân tích, đánh giá chính xác về kết quả học tập của học viên qua đó đề ra các định hướng, hoạch định trong: đầu tư bồi dưỡng giáo viên hàng năm, phát hiện các học viên giỏi để bồi dưỡng, hoặc các học viên yếu trong diện cần nhắc nhở, có kế hoạch tăng giờ, tăng số tiết v.v…

1.4 Hướng tiếp cận của luận văn

Luận văn trú trọng tới việc nghiên cứu về lý thuyết khai phá dữ liệu bằng việc sử dụng công cụ khai phá dữ liệu SSDT-BI do Microsoft phát triển Dữ liệu

Trang 19

Từ các mô hình dự đoán, tác giả sẽ lựa chọn ra mô hình dự đoán tốt nhất

và xây dựng chương trình thực nghiệm để hỗ trợ học tập cho học viên

1.5 Kết luận chương 1

Chương này giới thiệu về bài toán thực tế tại Trường Cao đẳng ANND I, những vấn đề đặt ra cần giải quyết đối với bài toán, một số hướng nghiên cứu của KDPL trong giáo dục hiện nay và hướng tiếp cận của luận văn

Trang 20

Hình 1.1 cho thấy khai phá dữ liệu là một bước trong quá trình KDD (Knowledge Discovery in Database) và KDD được tiến hành qua 6 giai đoạn [3]

Hình 1.1: Quá trình của khai thác tri thức

1 Gom dữ liệu: là bước đầu tiên trong quá trình KPDL bằng việc thu thập

dữ liệu từ CSDL, kho dữ liệu hay là từ các Website

2 Trích lọc dữ liệu: Dữ liệu được tuyển chọn hoặc phân chia theo một tiêu chí nhất định dùng cho việc khai tác Ví dụ: chọn ra cá học viên có điểm trung bình học kỳ lớn hơn 7.0 và là người dân tộc thiểu số

3 Làm sạch, tiền xử lý dữ liệu: Là việc xử lý loại bỏ những dữ liệu dư thừa, thiếu logic dẫn tới kết quả bị sai lệch Ví dụ: Điểm Trung bình = 11.5

4 Chuyển đổi dữ liệu: Là đưa dữ liệu về dạng phù hợp, thuận tiện cho khai phá bằng cách nhóm hoặc tập hợp Ví dụ: Điểm TB học kỳ của học viên là biến

số, biến định lượng, nếu muốn đánh giá học lực của các học viên chúng ta phải tạo cột dữ liệu mới với biến định danh có giá trị “Giỏi”, “Khá”, “Trung bình”, “ Kém”, “Yếu” được đặt ra bằng cách phân theo điều kiện của mức điểm trung bình

Trang 21

12

5 Khai phá dữ liệu: Đây là bước thể hiện tư duy trong KPDL Trong giai đoạn này sử dụng các thuật toán, phương pháp, các mô hình phân tích khác nhau như: Decision Tree, Classification, Association, Regression, …mục đích phát hiện, trích xuất các thông tin hữu ích, giá trị tiềm năng từ những mẫu dữ liệu, quy luật và xu hướng dữ liệu

6 Đánh giá luật và biểu diễn tri thức: Ở giai đoạn này, các mẫu dữ liệu hay thông tin thu được từ quá trình khai khác sẽ được đánh giá, xác định mức độ chính xác bằng việc xây dựng các giả thuyết và tiến hành kiểm định, dựa trên mức độ tin cậy và kết quả kiểm định để xem xét Sau đó thể hiện kết quả bằng các công

cụ trực quan hóa, sử dụng đồ thị, bảng, biểu đồ để dễ dàng diễn giải kết quả đến người xem

2.1.2 Những hướng tiếp cận trong KPDL

Về cơ bản KPDL được chia theo một số hướng chính sau:

2.1.2.1 Mô tả khái niệm:

Mục đích là đưa ra những đặc trưng, tính chất thuộc về khái niệm Một số dạng điển hình như: Tổng quát hóa, tóm tắt, phát hiện đặc trưng rằng buộc, tương phản…

2.1.2.4 Phân cụm:

Phân cụm dữ liệu là bài toán gom các đối tượng dữ liệu vào thành từng nhóm/ cụm sao cho các đối tượng trong cùng một cụm có sự tương đồng theo một tiêu chí nào đó Trong bài toán phân cụm thì số lượng cũng như tên cụm chưa

Trang 22

13

được biết trước

Các đối tượng sẽ được gom cụm với mức độ tương quan giữa các đối tượng trong cùng một cụm là lớn nhất và mức độ tương quan giữa các đối tượng nằm trong các cụm khắc nhau là nhỏ nhất Bài toán phân cụm thường được gọi là học không giám sát (Unsupervised learning)

2.1.2.5 Phân tích chuỗi theo thời gian:

Giống như KPDL với luật kết hợp nhưng được kết hợp thêm tính thứ tự và tính thời gian Với luật mô tả tuần tự có dạng tiêu biểu X → Y, phản ánh sự xuất hiện của biến có X sẽ dẫn đến xuất hiện biến cố Y Các lĩnh vực có tính chất dự báo thường được ứng dụng theo hướng tiếp cận này như: lĩnh vực tài chính và thị trường chứng khoán

2.1.3 Các bước xây dựng một giải pháp về KPDL

Có thể liệt kê ra các bước của một hệ thống KPDL như sau:

- Bước 1: Xác định mục tiêu

- Bước 2: Tổng hợp dữ liệu

- Bước 3: Làm sạch, chuyển đổi dữ liệu

- Bước 4: Tạo mô hình khai phá

- Bước 5: Đánh giá mô hình

- Bước 6: Báo cáo

- Bước 7: Dự đoán

là một số những ngành và lĩnh vực KPDL đem lại những lợi ích sau:

- Trong lĩnh vực tài chính, ngân hàng: Hỗ trợ xác định phân khúc khách hàng hiệu quả, dự đoán khả năng vay và trả nợ các khoản tín dụng của từng khách hàng, tự động phát hiện và ngăn chặn các giao dịch gian lận, tội phạm tài chính

- Trong lĩnh vực y tế, chăm sóc sức khỏe: hỗ trợ kiểm soát các loại dịch bệnh thông qua thu thập và phân tích dữ liệu về nhân khẩu học, hồ sơ bệnh nhân

Trang 23

14

tại các bệnh viện Phát hiện các mồi quan hệ giữa những bệnh, triệu chứng bệnh, với những phương pháp chữa trị Dự đoán khả năng bệnh nhân có thể mắc các bệnh gì dựa trên các yếu tố rủi ro

- Trong lĩnh vực viên thông: Giúp phân khúc khách hàng theo nhiều yếu tố khác nhau, giới thiệu, cung cấp các dịch vụ phù hợp với khách hàng Xác định, dự báo các yếu tố ảnh hưởng khiến khách hàng rời dịch vụ

- Trong lĩnh vực Sales và Marketing: Giúp phát hiện ra các xu hướng, thông tin hữu ích, dự đoán được xu hướng tiêu dùng, xác định hành vi tiêu dùng của khác hàng Tìm ra sự phối hợp, sự kết hợp có liên quan giữa các sản phẩm với nhau

- Trong lĩnh vực E-commerce: Xây dựng hệ thống khuyến nghị sử dụng các thuật toán Data mining để phân tích hành vi khách hàng, dữ liệu lịch sử giao dịch hay những tương tác của họ trên các website bán hàng, hay các trang mạng xã hội

Ví dụ: tìm hiểu sản phẩm nào họ đang tìm kiếm và quan tâm nhất, những poster quản cáo, chương trình khuyến mãi nào thu hút để họ nhấn vô tìm hiểu

Ngoài ra KPDL còn hỗ trợ phân tích cảm xúc của khách hàng dựa vào phân tích các nhận xét, các đoạn đối thoại với khác hàng trên mạng xã hội dưới hình thức văn bản

- Trong lĩnh vực bán lẻ: Bên cạnh phân tích dữ liệu khách hàng để phân khúc khách hàng theo các nhóm có cùng sở thích, nhu cầu giúp triển khai các chiến lược KPDL còn giúp dự báo doanh số, lập các kế hoạch dự phòng hàng tồn kho, kế hoạch phân phối hàng hóa hợp lý qua các hoạt động quản lý chuỗi cung ứng bằng việc phân tích một khối lượng lớn dữ liệu từ dữ liệu về doanh số từng mặt hàng qua từng thời kỳ, lịch sử giao dịch, mua hàng của khách hàng, dữ liệu

về quá trình vận chuyển sản phẩm, dữ liệu về lượng tiêu thụ sản phẩm

- Trong lĩnh vực sinh học: KPDL hỗ trợ thu thập, lưu trữ và phân tích các

dữ liệu về di truyền học, dữ liệu trong nghiên cứu các căn bệnh, nghiên cứu các chất dinh dưỡng, … KPDL giúp các nhà nghiên cứu phát hiện, khám phá cấu trúc gen, … và trực quan hóa bằng các bảng biểu và đồ thị

- Trong lĩnh vực bảo mật, phòng chống tội phạm: Hệ thống KPDL cho phép lưu trữ dữ liệu về tội phạm, dữ liệu về các kẻ tình nghi, người dân, … ; và phân tích dữ liệu để tìm ra các hành vi phạm tội, nhận diện khuôn mặt Đối với bảo mật thông tin, chống tin tặc, KPDL giúp phát hiện các hành vi thâm nhập hệ thống bất hợp pháp, ngăn chặn các e-mail spam, tin rác, phần mềm độc hại

Trang 24

15

- Trong lĩnh vực giáo dục: KPDL giúp phát triển các phương pháp học tập KPDL hỗ trợ thu thập và lưu trữ dữ liệu trong môi trường giáo dục, phân tích dữ liệu để xác định tình hình học tập của mỗi học sinh và dự báo kết quả học tập trong tương lai để tìm hiểu vấn đề, đưa ra phương pháp dạy, phương pháp học phù hợp với học sinh Đây cũng chính là vấn đề nghiên cứu chính của luân văn

Tóm lại, KPDL có thể được ứng dụng trong tất cả các lĩnh vực khác nhau miễn là lĩnh vực ấy có thể tiếp cận, thu thập dữ liệu từ các nguồn và có nhu cầu phân tích dữ liệu để tìm kiếm các thông tin có giá trị phục vụ cho những mục đích riêng

2.2 Một số kỹ thuật KPDL trong phân lớp, dự đoán

2.2.1 Cây quyết định

Cây quyết định (Decision Tree) là các thuật toán cổ điển, được tổ chức theo cấu trúc giống cây, trong đó mỗi nút bên trong đại diện cho một 'thử nghiệm' trên một thuộc tính [10]

Decision Trees bao gồm các nút (node), nhánh (branches) và lá (leafs) Mỗi nút đại diện cho một thuộc tính hoặc tính năng, mỗi nhành đại diện cho một quy tắc hoặc quyết định và mỗi nút đại diện cho một kết quả Độ sâu của cây được xác định bởi số cấp và không bao gồm nút gốc

Hình 2.1: Cấu trúc của cây quyết định

Trong Hình 2.1 chúng ta có thể thấy:

Root: điểm ngọn chứa giá trị của biến đầu tiên được dùng để phân nhánh Internal node: các điểm bên trong thân cây là các biến chứa các thuộc tính, gía trị dữ liệu được dùng để xét cho các phân nhánh tiếp theo

Trang 25

16

Leaf node: là các lá cây chứa giá trị của biến phân loại sau cùng

Branch: là quy luật phân nhánh, hay nĩi đơn giản là mối quan hệ giữa giá trị của biến độc lập (Internal node) và giá trị của biến mục tiêu (Leaf node)

Trong khai phá dữ liệu hay Machine learning Decision tree được ứng dụng

để dự báo khả năng xảy ra dựa vào các thơng tin đầu vào Chúng ta cùng đi xem xét Hình 2.3 về ứng dụng của Decision tree trong lĩnh vực ngân hàng dự báo khả năng khách hàng cĩ thể trả được nợ - no default, hoặc khơng trả được nợ - default dựa trên các thơng tin về khoản tiết kiệm – Savings, thu nhập – Income, và tài sản – Assets

Hình 2.2: Cây quyết định dự báo khả năng khách hàng

Nhìn vào Hình 2.2 chúng ta thấy, nếu savings = medium, khách hàng cĩ khoản tiết kiệm trung bình thì chắc chắn sẽ khơng cĩ nợ xấu, nếu khác hàng cĩ savings = high chúng ta phải xét thêm thu nhập cĩ lớn hơn 10000k, nếu lớn hơn thì sẽ cĩ khả năng thanh tốn được nợ, ngược lại khách hàng khĩ trả được nợ

Nhiệm vụ sau cùng của Decision tree là phân loại đối tượng dữ liệu chưa được phân loại trước đĩ vào các nhĩm, các lớp phù hợp Tĩm lại, Decision tree là một trong những phướng pháp KPDL được sử dụng nhiều nhất trong các dự án nghiên cứu dữ liệu, là phương pháp học cĩ giám sát mang lại kết quả dự báo, phân loại chính xác, ổn định và dễ diễn giải

2.2.2 Phân lớp Nạve Bayes

Naive Bayes Classification (NBC) là một thuật tốn phân loại dựa trên tính tốn xác suất áp dụng định lý Bayes [5]

Trang 26

1 Real time Prediction: NBC chạy khá nhanh nên nó thích hợp áp dụng ứng dụng nhiều vào các ứng dụng chạy thời gian thực, như hệ thống cảnh báo, các hệ thống trading …

2 Multi class Prediction: Nhờ vào định lý Bayes mở rộng ta có thể ứng dụng vào các loại ứng dụng đa dự đoán, tức là ứng dụng có thể dự đoán nhiều giả thuyết mục tiêu

3 Text classification/ Spam Filtering/ Sentiment Analysis: NBC cũng rất thích hợp cho các hệ thống phân loại văn bản hay ngôn ngữ tự nhiên vì tính chính xác của nó lớn hơn các thuật toán khác Ngoài ra các hệ thống chống thư rác cũng rất ưu chuộng thuật toán này Và các hệ thống phân tích tâm lý thị trường cũng áp dụng NBC để tiến hành phân tích tâm lý người dùng ưu chuộng hay không ưu chuộng các loại sản phẩm nào từ việc phân tích các thói quen và hành động của khách hàng

4 Recommendation System: Naive Bayes Classifier và Collaborative Filtering được sử dụng rất nhiều để xây dựng cả hệ thống gợi ý, ví dụ như xuất hiện các quảng cáo mà người dùng đang quan tâm nhiều nhất từ việc học hỏi thói quen sử dụng internet của người dùng, hoặc như ví dụ đầu bài viết đưa ra gợi ý các bài hát tiếp theo mà có vẻ người dùng sẽ thích trong một ứng dụng nghe nhạc

2.2.3 Luật kết hợp

Khai phá luật kết hợp là một kỹ thuật quan trọng của KPDL Mục tiêu là tìm các mẫu phổ biến, hay các mối quan hệ giữa các tập đối tượng trong các CSDL

và những kho thông tin khác

Luật kết hợp được ứng dụng trong đời sống ở nhiều lĩnh vực khác nhau

(1)

(2)

Trang 27

18

như: khoa học, kinh doanh thương mại, phân tích thị trường tài chính…

Ví dụ:

{Bánh mì, bơ} → {Sữa tươi} [2%; 70%]

Luật này có nghĩa: Nếu mua bánh mì và bơ thì mua sữa tươi trong 70%

trường hợp Bánh mì, bơ, sữa tươi được mua chung trong 2% tổng giao dịch

Các khái niệm cơ bản:

Cho cơ sở dữ liệu gồm các mặt hàng I = {i1, i2, …, in} là tập n mục (item) Một tập X  I được gọi là tập mục (itemset) Nếu X có k mục (tức |X| = k) thì X được gọi là k-itemset

Cho cơ sở dữ liệu gồm các giao dịch T = {t1, t2, …, tm} T gọi là cơ sở dữ liệu giao dịch (Transaction Database) gồm m giao dịch Mỗi giao dịch Ti  T là một tập mục, tức là Ti  I

Luật kết hợp X → Y

Luật kết hợp có dạng: X → Y, với X và Y là hai tập mục (X, Y  I) và X

 Y = ∅ Luật đưa ra khả năng sự xuất hiện Y khi X xuất hiện Để để đo lường luật kết hợp chúng ta dùng 2 tham số độ hỗ trợ (Support) và độ tin cây (Confidence)

Trong phân tích giỏ thị trường, luật kết hợp X =>Y có thể hiểu rằng những người mua các mặt hàng trong tập X cũng thường mua các mặt hàng trong tập Y (X và Y gọi là itemset)

(3)

Trang 28

19

Ví dụ, nếu X = {Táo, Chuối} và Y = {Lê, Xoài} với luật kết hợp dạng X

→ Y thì có thể phát biểu rằng những người mua Táo và Chuối thì cũng thường mua Lê và Xoài

Độ hỗ trợ (Support) của luật kết hợp X → Y

Độ hỗ trợ (Support) của luật kết hợp X → Y chính là tần suất giao dịch chứa tất cả các items trong cả hai tập X và Y Ví dụ: với 8% độ hỗ trợ của luật X

→ Y có nghĩa là 8% các giao dịch X và Y được mua cùng nhau

Công thức tính độ hỗ trợ của luật X →Y như sau:

𝑠𝑢𝑝(𝑋→ 𝑌, 𝑇) = 𝑠𝑢𝑝(𝑋 ∪ 𝑌, 𝑇)

Độ tin cậy (Confidence) của luật kết hợp X → Y

Độ tin cậy (Confidence) của luật kết hợp X → Y là xác suất xảy ra Y khi

đã biết X Ví dụ 70% là độ tin cậy của luật kết hợp {Táo} → {Cam} có nghĩa là 70% khách hàng mua Táo cũng mua Cam

Công thức tính độ tin cậy của luật kết hợp X → Y chính là xác suất có điều kiện Y khi đã biết X như sau :

- Bước 1: Khai phá tất cả các tập phổ biến từ cơ sở dữ liệu T với ngưỡng

hỗ trợ tối thiểu minsup

- Bước 2: Sinh tất cả các luật mạnh từ các tập phổ biến được khai phá ở bước 1 với ngưỡng tin cậy tối thiểu minconf

2.2.4 Hồi quy tuyến tính

Hồi quy (Regression) là phương pháp nghiên cứu mối quan hệ giữa 2 biến: một biến độc lập (ảnh hưởng đến mục tiêu), và biến mục tiêu (bị ảnh hưởng bởi

(4)

(5)

(6)

Trang 29

20

biến độc lập), mô hình hóa, định lượng hóa mối quan hệ này để có thể xác định được giá trị của biến mục tiêu nếu các biến độc lập thây đổi ra sao Kết quả của phân tích hồi quy có thể được đem ra dự báo

Hồi quy tuyến tính (Linear Regression) được xem là mô hình hồi quy đơn bội, phổ biến nhất và chỉ nghiên cứu mối quan hệ tuyến tính giữa một biến độc lập và biến phụ thuộc, áp dụng cho biến định lượng và đồ thị là ở dạng đường thẳng [8]

Ta có phương trình tổng quát:

𝛾 = 𝛽0+ 𝛽1𝑥 + 𝜖 Trong đó:

y là biến phụ thuộc hay là biến chúng ta sẽ dự báo

x là biến độc lập

𝛽0 là giá trị ước lượng của y khi x đạt giá trị 0

𝛽1 là độ dốc của đường hồi quy tuyến tính, nói một cách khác là mức độ thay đổi của y khi x thay đổi 1 đơn vị

𝜖 là sai số, thể hiện giá trị của các yếu tố khác không thể nghiên cứu hết và các yếu tố này vẫn tác động lên giá trị của y

Phần 𝛽0+ 𝛽1𝑥 chính là phần dự báo

Đô thị minh họa:

Hình 2.3: Biểu đồ hồi quy tuyến tính đơn

Thuật toán Microsoft Linear Regression là một biến thể của thuật toán Microsoft Decision Trees giúp chúng ta tính toán mối quan hệ tuyến tính giữa biến phụ thuộc và biến độc lập, sau đó sử dụng mối quan hệ đó để dự đoán

Phương trình biểu diễn đường hồi quy của thuật toán Microsoft Linear Regression có dạng tổng quát của y = ax + b, và được gọi là phương trình hồi quy

(7)

Trang 30

2.2.5 Mạng nơ-ron nhân tạo

Mạng nơ-ron nhân tạo là một phương pháp tiếp cận tính toán dựa trên một tập hợp lớn các đơn vị thần kinh mô hình hóa cách bộ não giải quyết vấn đề Mạng nơ-ron nhân tạo được cấu trúc theo các lớp [10]

Một mạng nơ-ron được cấu thành bởi các nơ-ron đơn lẻ được gọi là các perceptron Một perceptron sẽ nhận một hoặc nhiều đầu x vào dạng nhị phân và cho ra một kết quả o dạng nhị phân duy nhất

Hình 2.4: Mô hình nơ-ron đơn lẻ

Mạng nơ-ron là sự kết hợp của các thần perception hay còn được gọi là perceptron đa tầng như Hình 2.5

Hình 2.5: Mô hình mạng nơ-ron đa tầng

Một mạng nơ-ron sẽ có 3 kiểu tầng:

- Tầng vào (input layer): Là tầng bên trái thể hiện cho các đầu vào của mạng nơ-ron

Trang 31

Hình 2.6: Mạng nơ-ron trong MS Neural Network

- Lớp đầu vào: Các nút đầu vào xác định tất cả các giá trị thuộc tính đầu vào cho mô hình khai thác dữ liệu và xác suất của chúng

-Lớp ẩn: Các nút ẩn nhận đầu vào từ các nút đầu vào và cung cấp đầu ra cho các nút đầu ra Lớp ẩn là nơi các xác suất khác nhau của các đầu vào được gán trọng số Trọng số mô tả mức độ liên quan hoặc tầm quan trọng của một đầu vào cụ thể đối với nút ẩn Trọng số được gán cho đầu vào càng lớn thì giá trị của đầu vào đó càng quan trọng

-Lớp đầu ra: Các nút đầu ra đại diện cho các giá trị thuộc tính có thể dự đoán được cho mô hình khai thác dữ liệu

Có ba loại neuron trong một mạng Neural được tạo ra với thuật toán Microsoft Neural Network:

Neurons đầu vào: Các nơ-ron đầu vào cung cấp các giá trị thuộc tính đầu vào cho mô hình khai thác dữ liệu Với thuộc tính đầu vào dạng rời rạc, một nơ-ron đầu vào thường biểu diễn một trạng thái duy nhất bao gồm các giá trị bị thiếu, nếu dữ liệu đào tạo chứa giá trị rỗng cho thuộc tính đó Với thuộc tính đầu vào liên tục tạo ra hai nơ-ron đầu vào: một trạng thái bị thiếu, một cho giá trị của chính thuộc tính liên tục

Neurons ẩn: Các nơ-ron ẩn nhận đầu vào từ các nơ-ron đầu vào và cung cấp đầu ra cho các nơ-ron đầu ra

Trang 32

23

Neurons đầu ra: Neural đầu ra đại diện cho các giá trị của thuộc tính dự đoán của mô hình KPDL Với thuộc tính đầu nhận giá trị là rời rạc, một neural đầu ra sẽ đại diện duy nhất cho một trạng thái dự đoán của thuộc tính dự đoán, gồm cả giá trị bị thiếu Với thuộc tính dự đoán liên tục sẽ tạo ra hai neural đầu ra: một ở dạng trạng thái bị thiếu, một cho chính các giá trị của thuộc tính liên tục đó

Trong quá trình học, từ tầng vào tới tầng ra của mạng nơ-ron là quá trình lan truyền tiến (feedforward), tức là đầu vào các nơ-ron tại 1 tầng đều lấy từ kết quả các nơ-ron tầng trước đó mà không có quá trình suy luận ngược lại

2.3 KPDL với MS SQL Server

2.3.1 Giới thiệu chung

Hình 2.7 dưới đây mô tả kiến trúc tổng quan của KPDL với Microsoft SQL Server:

Hình 2.7: Kiến trúc tổng quan KPDL với MS SQL Server

Một số công cụ hỗ trợ KPDL với SQL Server gồm:

- SQL Server Business Intelligence: hỗ trợ từ bản Microsoft Visual Studio

2010 trở lên

- Bộ công cụ SQL Server 2012 (Analysis Service): ứng dụng hỗ trợ lưu

trữ dữ liệu và phân tích dữ liệu

KPDL trong SQL Server bao gồm các loại thuật toán sau:

Trang 33

- Các thuật tốn phân đoạn chia dữ liệu thành các nhĩm hoặc cụm, các mục

cĩ các thuộc tính tương tự

- Các thuật tốn kết hợp tìm mối tương quan giữa các thuộc tính khác nhau trong một tập dữ liệu Ứng dụng phổ biến nhất của loại thuật tốn này là tạo ra các quy tắc liên kết, cĩ thể được sử dụng trong phân tích rổ thị trường

- Các thuật tốn phân tích trình tự tĩm tắt các chuỗi hoặc tập thường xuyên trong dữ liệu, chẳng hạn như một loạt các nhấp chuột trong một trang web hoặc một loạt các sự kiện nhật ký trước khi bảo trì máy

Việc lựa chọn một thuật tốn tối ưu phù hợp nhất cho bài tốn của mình được coi là thử thách Tuy nhiên, chúng ta khơng nên chỉ dùng một thuật tốn để giải quyết vấn đề Các nhà phân tích cĩ kinh nghiệm đơi khi sẽ sử dụng một thuật tốn để xác định các yếu tố đầu vào hiệu quả nhất, sau đĩ sẽ áp dụng một thuật tốn khác để dự đốn kết quả cụ thẻ dựa trên dữ liệu đĩ KPDL với SQL Server cho phép xây dựng nhiều mơ hình trên một cấu trúc khai thác duy nhất, vì vậy trong một giải pháp khai thác dữ liệu, chúng ta cĩ thể sử dụng thuật tốn phân cụm, mơ hình cây quyết định và mơ hình Nạve Bayes để cĩ các chế độ xem khác nhau về dữ liệu Chúng ta cũng cĩ thể sử dụng nhiều thuật tốn trong một giải pháp để thực hiện các nhiệm vụ riêng biệt Ví dụ: chúng ta cĩ thể sử dụng hồi quy

để thu được các dự báo tài chính và sử dụng thuật tốn mạng thần kinh để thực hiện phân tích các yếu tố ảnh hưởng đến dự báo

Bảng 2.1 sau gợi ý cho chúng ta lựa chọn thuật tốn phù hợp cho giải pháp KPDL với Microsoft SQL Server

Bảng 2.1: Lựa chọn các thuật tốn KPDL theo mục đích

Nhiệm vụ Thuật tốn Microsoft sử dụng

Dự đốn thuộc tính rời rạc

- Đưa ra khách hàng trong danh sách

người mua tiềm năng là khách hàng tiềm

năng tốt hoặc kém

MS Decision Trees Algorithm

MS Naive Bayes Algorithm

MS Clustering Algorithm

MS Neural Network Algorithm

Trang 34

25

- Tính xác suất để một máy chủ bị lỗi

trong vòng 6 tháng tới

- Phân loại kết quả của bệnh nhân và

khám phá các yếu tố liên quan

Dự đoán thuộc tính liên tục

- Dự đoán doanh số năm tới

- Dự đoán khách truy cập trang web theo

lịch sử trước đây và theo xu hướng

MS Time Series Algorithm

Dự đoán một trình tự

- Phân tích các yếu tố dẫn đến lỗi máy

chủ

- Nắm bắt và phân tích chuỗi các hoạt

động trong quá trình thăm khám bệnh

nhân ngoại trú, để xây dựng các phương

pháp hay nhất về các hoạt động chung

MS Sequence Clustering Algorithm

Tìm nhóm của những mục chọn trong

các giao dịch

- Đề xuất sản phẩm bổ sung cho khách

hàng để mua

- Phân tích dữ liệu khảo sát từ khách truy

cập vào một sự kiện, để tìm các hoạt động

hoặc gian hàng có tương quan, để lập kế

hoạch cho các hoạt động trong tương lai

MS Association Rules Algorithm

Tìm những mục giống nhau

- Tạo nhóm hồ sơ rủi ro bệnh nhân dựa

trên các thuộc tính như nhân khẩu học và

hành vi

MS Clustering Algorithm Microsoft Sequence Clustering Algorithm

2.3.2 Data Mining eXtensions

DMX – Data Mining eXtensions là một ngôn ngữ truy vấn khai phá dữ liệu được Microsoft định nghĩa trong OLE DB với mục đích dành cho khai phá dữ liệu [9, 11] Giống như SQL, nó hỗ trợ định nghĩa, thao tác và truy vấn dữ liệu với cú pháp giống SQL Người sử dụng SQL đã quen với việc các câu lệnh SQL hoạt

Trang 35

26

động trên các bảng quan hệ, tuy nhiên đối với các câu lệnh DMX sẽ hoạt động trên các mơ hình khai thác dữ liệu DMX được dùng để tạo cấu trúc các mơ hình khai thác dữ liệu mới, hay huấn luyện, duyệt, quản lý và dự đốn DMX bao gồm các câu lệnh ngơn ngữ định nghĩa dữ liệu (DDL), câu lệnh thao tác dữ liệu (DML), các hàm và tốn tử

- Kết xuất và nhập cấu trúc khai thác với các tốn tử: EXPORT, IMPORT

- Sao chép dữ liệu từ mơ hình khác thác này sang mơ hình khai thác khác với tốn tử: SELECT INTO

Với DML cho phép chúng ta cĩ thể:

- Huấn luyện mơ hình khai thác với tốn tử: INSERT INTO

- Duyệt dữ liệu trong các mơ hình khai thác với tốn tử: SELECT FROM

- Đưa ra dự đốn bằng mơ hình khai thác với tốn tử: SELECT FROM PREDICTION JOIN

DMX là ngơn ngữ biến đổi dữ liệu từ bảng với cột và hàng thành dữ liệu dạng case (trường hợp) và attributes (thuộc tính) để phù hợp cho các thuật tốn khai thác dữ liệu Cĩ hai đối tượng chính được sử dụng để biểu hiện sự chuyển đổi này là: cấu trúc khai thác (mining structure) và mơ hình khai thác (mining model)

Mining structure chứa tất cả các mơ hình được sử dụng để phân tích dữ

liệu nguồn Nĩ được định nghĩa là danh sách gồm các cột chứa kiểu dữ liệu và thơng tin của chúng sẽ mơ tả chúng nên được xử lý theo dạng phân loại (categorical) hoặc liên tục (continues) Điều này phù hợp với yêu cầu của mỗi thuật tốn cần dữ liệu khác nhau Ví dụ: Thuật tốn Microsoft Nạve Bayes chỉ chấp nhận dữ liệu dạng phân loại, trong khi thuật tốn Microsoft Linear Regression chỉ chấp nhận dữ liệu dạng liên tục

Mining model được coi là tác nhân chính để biến đổi các hàng dữ liệu

thành các trường hợp (case) và thực hiện việc học máy bằng thuật tốn khai thác

dữ liệu được ấn định Một mining model cĩ thể coi là tập con của các cột dữ liệu

Trang 36

27

trong cấu trúc được sử dụng giống như thuộc tính (nghĩa là chúng có thể là đầu

ra, đầu vào hoặc thậm chí là cả), cùng với các tham số thuật toán và thuật toán sẽ được sử dụng để thực hiện học máy trên dữ liệu cấu trúc

Case trong DMX là một ví dụ duy nhất dùng cung cấp cho thuật toán

KPDL Nó bao gồm một tập hợp các thuộc tính với các giá trị được liên kết với nhau và hầu hết thực tế một ‘Case’ được đại diện bởi một dòng trong bảng với các cột đại diện cho bảng thuộc tính Ví dụ: Câu hỏi đặt ra là: “Các yếu tố của khách hàng ảnh hưởng đến rủi ro tín dụng”, thì Case ở đây chính là khách hàng

và chứa tất cả thông tin bạn biết của khách hàng

Attribute là yếu tố cơ bản nhất của một truy vấn KPDL Ví dụ như giới tính một học viên, độ tuổi, điểm số…

Khi lựa chọn thuộc tính cho KPDL, ta nên cẩn thận để lựa chọn thuộc tính

có khả năng có liên quan đến truy vấn và cung cấp thông tin có thể được sử dụng bởi các thuật toán KPDL Nhiều thuộc tính không phải là thích hợp cho việc KPDL

Chúng ta đề cập đến hai loại thuộc tính sau:

- Thuộc tính phân loại (Categorical) thuộc tính được chia theo thang do

định danh không phân biệt dữ liệu nào lớn hơn hay tốt hơn Ví dụ: nam hay nữ, hoặc mã vùng…

- Thuộc tính liên tục (Continous) là những thuộc tính có giá trị trong khoảng liên tục Ví dụ: tuổi, thời gian…

Các lệnh truy vấn DMX:

Tạo cấu trúc khai phá (Creating Mining Structure)

CREATE MINING STRUCTURE [New Mailing]

(

CustomerKey LONG KEY,

Gender TEXT DISCRETE,

[Number Cars Owned] LONG DISCRETE,

[Bike Buyer] LONG DISCRETE

)

Tạo MINING STRUCTURE tên là New Mai1ing, với các cột CustomerKey, Gender, Number Cars Owned, Bike Buyer và CustomerKey là thuộc tính khóa

Trang 37

28

Tạo mẫu khai phá (Creating Mining Models)

ALTER MINING STRUCTURE [New Mailing]

ADD MINING MODEL [Naive Bayes]

(

CustomerKey,

Gender,

[Number Cars Owned],

[Bike Buyer] PREDICT

)

USING Microsoft_Naive_Bayes (MAXIMUM_STATES = 50)

Tạo mẫu khai phá từ mẫu có sẵn

SELECT * INTO [New_Clustering]

USING [Microsoft_Clustering] (CLUSTER_COUNT = 5)

FROM [TM Decision Tree]

SELECT TOP 500 * FROM [Targeted Mailing].Cases WHERE [Bike Buyer] = 1 ORDER BY Age DESC;

Truy xuất các kết quả (Prediction Function)

DMX cung cấp nhiều hàm để truy xuất các luật và các kết quả của quá trình

khai phá và phân tích, từ khóa Predict được sử dụng là cơ bản trong quá trình

truy vấn Trong nhiều trường hợp khác thì ta có thể cung cấp thêm nhiều tham số

và tham trị để truy tìm ra kết quả mà mình mong muốn

Trang 38

'5-10 Miles' AS [Commute Distance],

'1' AS [House Owner Flag],

2 AS [Number Cars Owned],

2 AS [Total Children]) AS t

Ngoài ra còn các hàm Predict khác như: PredictProbability,

PredictSupport, PredictAdjustedProbability, PredictVariance và PredictStdevall

trả về các kết quả như là trong quá trình phân tích:

SELECT

[ĐTB 2].[ĐTBKY2],

PredictHistogram([ĐTB 2].[ĐTBKY2]),

PredictProbability([ĐTB 2].[ĐTBKY2])

From [ĐTB 2] NATURAL PREDICTION JOIN

(SELECT 'Kinh' AS [Dantoc], 21.5 AS [Diemthi], 'HSPT' AS [Doituong], 'TB' AS [ĐTBKY1], 'False' AS [Gioitinh], 'A' AS [Khoithi],

'Trinh sát An ninh' AS [Tennganh]) AS t

2.3.3 Bộ công cụ SQL Server Data Tool – Business Intelligence

SQL Server Data Tool – Business Intelligence (SSDT-BI) là bộ công cụ thay thế Business Intelligence Development Studio (BIDS) cho các phiên bản từ Visual Studio 2010 trở lên SSDT-BI giống như BIDS với mục đích là tạo môi trường để phát triển các giải pháp kinh doanh với các dự án về Analysis Services, Integration Services, và Reporting Services [8]

SSDT-BI cho phép tổ chức, quản lý và khai thác kho dữ liệu, xây dựng các

mô hình KPDL Một số mô hình KPDL được hỗ trợ sẵn trong SSDT-BI bao gồm:

Trang 39

30

1) MS Decision Tree (Cây quyết định)

2) MS Clustering (Phân cụm)

3) MS Naive Bayes (Phân lớp Bayes)

4) MS Time Series (Chuỗi thời gian)

5) MS Association (Luật kết hợp)

6) MS Sequence Clustering (Phân tích chuỗi)

7) MS Neural Network (Mạng Neural)

8) MS Linear Regression (Hồi quy tuyến tính)

9) MS Logistics Regression (Hồi quy logistics)

Qui trình xây dựng mô hình KPDL với SSDT-BI như sau:

1) Tạo mới Project (Analysis Services Project)

2) Tạo Data Source

3) Tạo Data Source View

4) Tạo một Mining Models Structure

5) Tạo các Mining Models Structure

6) Khai thác Mining Models

7) Đánh giá mức chính xác của Mining Models

8) Dự đoán với Mining Models

2.3.4 Lập trình KPDL với ADODE.NET

Để viết một ứng dụng khai phá dữ liệu có rất nhiều loại API được hỗ trợ với Analysis Services Tuy nhiên có hai API quan trọng nhất là AMO và ADOMD.NET Theo khuyến cáo của Microsoft thì người dùng nên sử dụng AMO

để lập trình, xử lý và quản lý các mô hình, cấu trúc và thao tác trên máy chủ, sử dụng ADOMD.NET để tối ưu hóa cho các truy vấn duyệt, phân tích và dự đoán

AMO và ADOMD.NET là các API Analysis Services [9, 11] Để sử dụng được hai API trong ứng dụng, người dùng cần thêm vào dự án của mình các thư viện tương ứng trong Bảng 2.2 sau:

Bảng 2.2: Bảng danh sách thư viên API Analysis Services

Trang 40

31

ADOMD.NET Microsoft.AnalysisServices.AdomdClient

Ví dụ: Sử dụng ADOMD.NET trong C#:

Using Microsoft.AnalysisServices.AdomdClient

2.3.5 Đánh giá tính hiệu quả các mô hình KPDL trong SSDT-BI

Một mô hình khai phá dữ liệu được coi là hiệu quả hay không cần dựa theo một hay nhiều tiêu chí đánh giá Có thể kể ra ba tiêu chí thường được dùng đề làm thước đo đánh giá hiệu quả của mô hình khai phá dữ liệu là: Tính chính xác; tính

ổn định và tính hữu dụng Trong 3 tiêu chí trên thì tính chính xác là tiêu chí có tầm quan trọng được chú trọng đầu tiên đối với đánh giá các mô hình Trong SSDT-BI, công cụ thường dùng để đánh giá tính chính xác các mô hình khai phá

dữ liệu gồm có 2 công cụ là: Lift Chart và Classification Matrix.[9]

Lift Chart giúp mô tả chính xác của mô hình khai phá dữ liệu dưới dạng

trực quan, thể hiện được nhiều thông tin về kết quả cùng một lúc của các mô hình khai phá dữ liệu, từ đó dễ dàng so sánh đưa ra mô hình phù hợp nhất, tốt nhất

Hình 2.8: Biểu đồ đánh giá Lift Chart Classification Matrix thể hiện kết quả dự đoán của mô hình khai phá dữ

liệu ở dạng ma trận so sánh giữa kết quả thực của Testing Data với kết quả dự đoán của mô hình

Định dạng
Số trang	81
Dung lượng	2,54 MB