1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm hiểu về khai phá dữ liệu trong giáo dục và ứng dụng trong đào tạo tại trường đại học đồng tháp

71 147 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 71
Dung lượng 2,11 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Trong số những công cụ đó, khai phá dữ liệu là một công cụ hữu ích và có tính khoa học cao, giúp các nhà quản lý giáo dục có được những tri thức quý giá phục vụ cho công tác quản lý và s

Trang 1

TRƯỜNG ĐẠI HỌC VINH

NGUYỄN ĐỨC HUY

TÌM HIỂU VỀ KHAI PHÁ DỮ LIỆU TRONG GIÁO DỤC

VÀ ỨNG DỤNG TRONG ĐÀO TẠO TẠI TRƯỜNG ĐẠI

HỌC ĐỒNG THÁP

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

ĐỒNG THÁP, 2017

Trang 2

NGUYỄN ĐỨC HUY

TÌM HIỂU VỀ KHAI PHÁ DỮ LIỆU TRONG GIÁO DỤC

VÀ ỨNG DỤNG TRONG ĐÀO TẠO TẠI TRƯỜNG ĐẠI

HỌC ĐỒNG THÁP

Chuyên ngành: CÔNG NGHỆ THÔNG TIN

Mã số: 60480201

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

ĐỒNG THÁP, 2017

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan số liệu và kết quả nghiên cứu trong luận văn này là trung thực và chưa hề được sử dụng để bảo vệ một học vị nào Mọi sự giúp đỡ cho việc thực hiện luận văn này đã được cảm ơn và thông tin trích dẫn trong luận văn đã được chỉ rõ nguồn gốc rõ ràng và được phép công bố

Đồng Tháp, ngày…tháng…năm Học viên thực hiện luận văn

Nguyễn Đức Huy

Trang 4

LỜI CẢM ƠN

Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc tới TS Nguyễn Ngọc Hiếu, Trường Đại học Vinh Thầy đã dành nhiều thời gian tận tình hướng dẫn, giúp đỡ tôi trong định hướng và thực hiện nội dung luận văn

Tôi xin chân thành cảm ơn lãnh đạo cơ quan, bạn bè đồng nghiệp đã cung cấp tài liệu và cho tôi những lời khuyên quý báu để thực hiện luận văn

Tôi xin gửi lời cảm ơn tới các thầy/cô ở Trường Đại học Đồng Tháp

và Trường Đại Học Vinh đã giảng dạy chúng tôi trong suốt quá trình học tập

Trang 5

MỤC LỤC

MỞ ĐẦU 1

Chương 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU TRONG GIÁO DỤC (EDM) 4

1.1 Giới thiệu về EDM 4

1.2 Người dùng EDM / Bên liên quan 6

1.3 Một số công cụ dùng trong EDM 8

1.3.1 Sự quan trọng của các công cụ 8

1.3.2 Giới thiệu một số công cụ 9

1.3.2.1 Microsoft Excel/Google Sheets 9

1.3.2.2 Structuresd Query Language (SQL) 10

1.3.2.3 Python and Jupyter notebook 10

1.3.2.4 RapidMiner 11

1.3.2.5 KNIME 12

1.3.2.6 Weka 12

Chương 2: CÁC ỨNG DỤNG TRONG GIÁO DỤC VÀ KỸ THUẬT KHAI PHÁ DỮ LIỆU 14

2.1 Giới thiệu 14

2.2 Khả năng phân tích và tính trực quan của dữ liệu 14

2.3 Cung cấp thông tin phản hồi để hỗ trợ giáo viên hướng dẫn 15

2.4 Dự đoán kết quả học tập 18

2.5 Cơ sở lý thuyết của luật kết hợp 19

2.5.1 Lý thuyết về luật kết hợp 19

2.5.2 Một số tính chất của luật kết hợp 22

2.5.3 Phát biểu bài toán khai phá luật kết hợp 24

2.5.4 Một số hướng tiếp cận trong khai phá luật kết hợp 25

2.6 Các đặc trưng của luật kết hợp 28

2.6.1 Không gian tìm kiếm của luật 28

2.6.2 Độ hỗ trợ của luật 31

Trang 6

2.7 Cây quyết định 32

2.7.1 Định nghĩa cây quyết định 32

2.7.2 Ưu điểm của cây quyết định 33

2.7.3 Vấn đề xây dựng cây quyết định 33

2.7.4 Các thuật toán khai phá dữ liệu bằng cây quyết định 33

2.8 Phân tích trực tuyến (OLAP) 40

2.8.1 OLAP 40

2.8.2 Kiến trúc các thành phần OLAP trong SSAS 40

2.8.2.1 Cube 41

2.8.2.2 Dimension 41

2.8.2.3 Measure 41

2.8.3 Các mô hình lưu trữ cho OLAP 41

2.8.3.1 Mô hình Multidimensional OLAP (MOLAP): 41

2.8.3.2 Mô hình Relational OLAP (ROLAP): 43

2.8.3.3 Mô hình Hybird OLAP (HOLAP): 44

2.9 Ứng dụng khai phá dữ liệu ở Đại học Đồng Tháp 44

Chương 3: ỨNG DỤNG KHAI PHÁ LUẬT KẾT HỢP VÀ CÂY QUYẾT ĐỊNH TRONG ĐÀO TẠO 46

3.1 Bài toán 46

3.2 Xây dựng cơ sở dữ liệu: 46

3.3 Xây dựng kho dữ liệu từ cơ sở dữ liệu đã có 51

3.4 Khai phá từ kho dữ liệu 54

3.4.1 Phân tích OLAP 54

3.4.2 Xây dựng mô hình khai phá 55

3.4.3 Phân tích kết quả đạt được: 60

KẾT LUẬN 62

TÀI LIỆU THAM KHẢO 63

Trang 7

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

Trang 8

DANH MỤC CÁC HÌNH VẼ

Bảng 2.5.1.1: Ví dụ về một cơ sở dữ liệu dạng giao dịch –D 20

Bảng 2.5.1.2 : Các tập phổ biến trong cơ sở dữ liệu ở bảng 1với độ hỗ trợ tối thiểu 50% 21

Hình 2.6.1.1: Dàn cho tập I = {1,2,3,4} 29

Hình 2.6.1.2: Cây cho tập I = {1, 2, 3, 4} 30

Hình 3.1 Danh sách bảng điểm lớp CNTT08b 42

Hình 3.2 Sơ đồ cơ sở dữ liệu quan hệ về điểm ở trường Đại Học Đồng Tháp 43

Hình 3.3 Bảng điểm sinh viên lớp CNTT08b……….45

Trang 9

MỞ ĐẦU

1 Sự cần thiết của vấn đề nghiên cứu

Ngày nay công nghệ thông tin luôn luôn phát triển và không ngừng đổi mới, cùng với sự phát triển đó là các hệ thống thông tin phục vụ việc tự động hoá trong các lĩnh vực của con người cũng được triển khai vượt bậc Điều đó

đã tạo ra những dòng dữ liệu khổng lồ Nhiều hệ quản trị CSDL mạnh cũng

đã ra đời giúp chúng ta khai thác hiệu quả nguồn tài nguyên đã thu thập được Với lượng dữ liệu, thông tin thu thập được ngày càng nhiều như vậy đòi hỏi chúng ta phải trích rút ra những thông tin tiềm ẩn nhằm đưa ra các quyết định đúng đắn trong công việc Xuất phát từ thực tiễn đó, vào những năm cuối của thế kỷ 20 khai phá dữ liệu ra đời Đây là một lĩnh vực nghiên cứu khá mới mẻ của ngành khoa học máy tính và khai phá tri thức (KDD) Nó đã thu hút sự quan tâm của rất nhiều người ở các lĩnh vực khác nhau như : các hệ CSDL, thống kê, nhận dạng, máy học, trí tuệ nhân tạo

Khai phá dữ liệu sử dụng các công cụ phân tích dữ liệu như: truy vấn, báo cáo, dịch vụ phân tích trực tuyến (OLAP, ROLAP, MOLAP) để tìm ra các mẫu có giá trị trong kho dữ liệu Khai phá dữ liệu đã và đang được ứng dụng thành công vào các ngành thương mại, tài chính, kinh doanh, sinh học, y học, giáo dục, viễn thông

Trong việc ứng dụng khai phá dữ liệu vào nhiều lĩnh vực khác nhau của đời sống, khai phá dữ liệu trong lĩnh vực giáo dục đang dần có được sự quan tâm đúng mức Chúng ta cần phải nhìn nhận rằng giáo dục là nhân tố quyết định sự phát triển của đất nước về nhiều mặt Mục tiêu phát triển xã hội một cách bền vững đang đặt ra cho giáo dục những yêu cầu mới Giáo dục đào tạo có nhiệm vụ định hướng và hoạch định chính sách cho đối tượng chính của giáo dục là thế hệ trẻ, là lực lượng kế thừa của việc xây dựng, bảo

vệ và phát triển đất nước trong tương lai một cách đúng đắn và kịp thời Chính vì vậy,việc định hướng và xây dựng chính sách trong Giáo dục Đào tạo

Trang 10

cần phải được hỗ trợ bởi các công cụ khoa học để tránh những sai lầm đáng tiếc Trong số những công cụ đó, khai phá dữ liệu là một công cụ hữu ích và

có tính khoa học cao, giúp các nhà quản lý giáo dục có được những tri thức quý giá phục vụ cho công tác quản lý và sinh viên cũng có thể sử dụng những kết quả hữu ích từ quá trình chắt lọc dữ liệu trong khai phá dữ liệu

Đã có nhiều nghiên cứu cũng như hội thảo cùng các tổ chức được thành lập nhằm nâng cao khả năng của EDM như tổ chức Institute of Electrical and Electronics Engineers Bên cạnh đó là nhiều đề tài nghiên cứu của các Thạc sĩ Tiến sĩ trong nước để từng bước nâng cao khả năng ứng dụng khai phá dữ liệu vào giải quyết những công việc trong công tác giáo dục đạt hiệu quả cao, bằng những kinh nghiệm thực tế và qua kiến thức thu thập được Nhưng việc ứng dụng nó vào trong việc giáo dục tại trường đại học Đồng Tháp vẫn chưa

rõ ràng, chính vì vậy tôi chọn đề tài “TÌM HIỂU VỀ KHAI PHÁ DỮ LIỆU TRONG GIÁO DỤC VÀ ỨNG DỤNG TRONG ĐÀO TẠO TẠI TRƯỜNG ĐẠI HỌC ĐỒNG THÁP” Nội dung chính của đề tài là đi sâu vào tìm hiểu một số thuật toán khai phá luật kết hợp ứng dụng trong công tác đào tạo của trường đại học Đồng Tháp

Kết quả nghiên cứu sẽ cung cấp các thông tin hỗ trợ cho sinh viên lựa chọn môn học,ngành học, hướng nghiên cứu, đồng thời hỗ trợ cán bộ làm công tác tư vấn đào tạo, cán bộ phòng đào tạo được thuận lợi hơn trong công tác đào tạo

2 Mục tiêu nghiên cứu

 Nghiên cứu phương pháp khai phá tìm luật kết hợp dựa trên dữ liệu giáo dục

 Ứng dụng thực hiện nghiên cứu để xây dựng mô hình khai phá dữ liệu dựa vào chuẩn chất lượng của Bộ Giáo Dục và kết quả học tập đã thu thập được của sinh viên trường Đại Học Đồng Tháp Từ đó,triển khai xây dựng ứng dụng thử nghiệm từ mô hình đã được xây dựng nhằm xây dựng một lộ

Trang 11

trình học cho sinh viên có thể đạt kết quả tối ưu nhất khi ra trường phù hợp với điều kiện và năng lực của mình

3 Đối tượng và phạm vi nghiên cứu

3.1 Đối tượng nghiên cứu

- Kỹ thuật khai phá dữ liệu

- Dữ liệu đào tạo

3.2 Phạm vi nghiên cứu

- Ứng dụng của EDM ở trường Đại học Đồng Tháp

4 Nội dung nghiên cứu

Tìm hiểu về EDM và ứng dụng trong đào tạo tại trường Đại học Đồng Tháp

5 Kết cấu của luận văn

Chương 1: Tổng quan về khai phá dữ liệu trong giáo dục

Chương 2: Các nhiệm vụ giáo dục và kỹ thuật khai phá dữ liệu

Chương 3: Ứng dụng khai phá luật kết hợp và cây quyết định trong đào tạo

Trang 12

Chương 1: TỔNG QUAN

VỀ KHAI PHÁ DỮ LIỆU TRONG GIÁO DỤC (EDM)

1.1 Giới thiệu về EDM

Educational Data Mining (EDM) là việc áp dụng các kỹ thuật của Data Mining (DM) trong giáo dục, vì vậy mục tiêu của nó là phân tích các loại dữ liệu để giải quyết các vấn đề trong giáo dục

EDM là việc phát triển các phương pháp để khám phá các dữ liệu trong môi trường giáo dục, và sử dụng những phương pháp này, để hiểu rõ hơn các sinh viên, hiệu quả của chương trình giáo dục và sinh viên có thể nhận được gì từ nó Một mặt sự gia tăng các phần mềm giáo dục và cơ sở dữ liệu về sinh viên của nhà nước cho phép chúng ta có được một dữ liệu khổng

lồ về việc học của sinh viên Mặt khác, việc sử dụng INTERNET trong giáo dục cho đã tạo ra một cách dạy học mới được biết đến như là giáo dục trực tuyến (E-Learning) nơi mà cung cấp cho học viên một lượng tri thức một cách chủ động dù họ đang ở bất cứ đâu Tất cả những thông tin và dữ liệu này là một mỏ vàng cho dữ liệu của giáo dục EDM cho phép sử dụng kho dữ liệu

đồ sộ đó một cách hiệu quả hơn EDM đã nổi lên như là một lãnh vực mới trong những năm gần đây cho những nhà nghiên cứu trên khắp thế giới ở các lãnh vực khác nhau

E-learning và các hệ thống quản lý học tập (LMS) Giáo dục điện tử cung cấp hướng dẫn trực tuyến và LMS cũng cung cấp thông tin liên lạc, phối hợp, điều hành và các công cụ báo cáo Web Mining (WM) là kỹ thuật đã được áp dụng cho dữ liệu học sinh được lưu trữ bởi các hệ thống này trong các tập tin đăng nhập và cơ sở dữ liệu

EDM thực hiện việc chuyển đổi dữ liệu thô từ hệ thống giáo dục thành thông tin hữu ích có tác động lớn vào việc nghiên cứu giáo dục và thực hành Quá trình này không khác với nhiều lĩnh vực ứng dụng khác của khai thác dữ

Trang 13

liệu giống như kinh doanh, di truyền học, y học, vv vì nó theo các bước tương

tự như quá trình khai thác tổng hợp dữ liệu: pre-processing, data mining and post-processing Tuy nhiên, điều quan trọng là phải nhận thấy rằng data mining được sử dụng theo một ý nghĩa lớn hơn so với định nghĩa truyền thống DM Đó là, chúng ta sẽ mô tả các nghiên cứu EDM không chỉ sử dụng

kỹ thuật DM tiêu biểu như phân loại, phân nhóm khai thác luật kết hợp, khai thác liên tục, khai thác văn bản,…Mà còn các cách tiếp cận khác như hồi qui, tương quan, trực quan…

Từ một quan điểm thực tế EDM cho phép khám phá kiến thức mới dựa trên dữ liệu sử dụng của học sinh để giúp xác nhận / đánh giá hệ thống giáo dục, Một số ý tưởng tương tự đã được áp dụng thành công trong các hệ thống thương mại điện tử, ứng dụng đầu tiên và phổ biến nhất của khai thác dữ liệu Tuy nhiên, có tương đối ít sự tiến bộ theo hướng Giáo dục cho đến nay, mặc

dù tình hình này đang thay đổi và hiện nay có sự quan tâm ngày càng tăng trong việc áp dụng khai thác dữ liệu cho môi trường giáo dục Mặc dù vậy, có một số vấn đề quan trọng về sự khác biệt về cách ứng dụng của DM cho giáo dục so với cách nó được áp dụng trong các lĩnh vực khác (xem [6])

 Mục tiêu Mục tiêu của khai thác dữ liệu trong mỗi lĩnh vực ứng dụng

là khác nhau Ví dụ, trong kinh doanh là mục tiêu chính là để tăng lợi nhuận,

đó là dữ liệu hữu hình và có thể được đo bằng số tiền, số lượng khách hàng và lòng trung thành của khách hàng Nhưng EDM có cả mục tiêu nghiên cứu ứng dụng, chẳng hạn như cải thiện quá trình học tập và hướng dẫn học tập của sinh viên; cũng như mục tiêu nghiên cứu thuần túy, chẳng hạn như việc đạt được một sự hiểu biết sâu sắc hơn về hiện tượng giáo dục

 Dữ liệu Trong môi trường giáo dục có nhiều loại dữ liệu khác nhau

Có những dữ liệu cụ thể cho chuyên ngành khác nhau và do đó cónhững học thuật riêng biệt

 Kỹ thuật dữ liệu giáo dục và các vấn đề có một số đặc điểm đặc biệt

Trang 14

đòi hỏi các vấn đề khai thác được đối xử một cách khác nhau Mặc dù hầu hết các kỹ thuật DM truyền thống có thể được áp dụng trực tiếp, một số khác thì không thể

EDM liên quan đến các nhóm khác nhau của người dùng hoặc người tham gia Các nhóm khác nhau nhìn vào thông tin giáo dục từ các góc độ khác nhau tùy theo nhiệm vụ riêng, tầm nhìn và mục tiêu của họ cho việc sử dụng khai thác dữ liệu

1.2 Người dùng EDM / Bên liên quan (xem [6])

dữ liệu

Người học/ học sinh/sinh viên

Để tự chủ hơn trong việc học, giới thiệu các hoạt động cho người học và các nguồn lực và các nhiệm vụ học tập mà có thể cải thiện hơn nữa việc học tập của mình; chỉ ra kinh nghiệm học tập thú vị cho học sinh; giới thiệu các khóa học, thảo luận có liên quan, các cuốn sách hay…

Người làm sư phạm/ giáo viên/ người

hướng dẫn/ gia sư

Để có được thông tin phản hồi khách quan về giảng dạy; để phân việc tích học tập và hành vi của học sinh; để phát hiện các sinh viên cần được hỗ trợ; để dự đoán kết quả học tập; để phân loại học viên thành các nhóm;

để xác định các sai sót thường gặp; để xác định các hoạt động hiệu quả; để cải thiện sự thích ứng và tùy biến của

Trang 15

các khóa học…

Các nhà nghiên cứu giáo dục

Để đánh giá và duy trì chương trình học; để cải thiện việc học của học sinh; để đánh giá cấu trúc của nội dung khóa học và hiệu quả của nó trong quá trình học tập; để tự động xây dựng mô hình sinh viên và các

mô hình gia sư; dùng kỹ thuật khai phá dữ liệu để tìm ra các phần có hiệu quả cao nhất; để phát triển các công

cụ khai thác dữ liệu cụ thể cho các mục đích giáo dục…

Các tổ chức/ trường học/ các khóa

đào tạo riêng cho các tập đoàn

Để tăng cường các quá trình đưa ra quyết định trong tổ chức các khóa học tập cao hơn; tăng tính hiệu quả trong quá trình ra quyết định; để đạt được mục tiêu cụ thể; cho thấy các khóa học nhất định của người học nhất định sẽ có giá trị; để tìm ra cách hiệu quả nhất để cải thiện duy trì và công việc; để chọn các ứng viên đủ điều kiện nhất tốt nghiệp…

Quản trị viên / người quản trị mạng /

quản trị hệ thống

Để tận dụng nguồn lực sẵn có hiệu quả hơn; để tăng cường sự hiệu quả của chương trình giáo dục và xác định hiệu quả của các phương pháp đào tạo

từ xa; để đánh giá giáo viên và

Trang 16

chương trình giảng dạy; để thiết lập các thông số cho việc cải thiện hiệu suất trang web và thích nghi cho người sử dụng (kích thước máy chủ tối ưu, phân phối lưu lượng mạng, ).

1.3 Một số công cụ dùng trong EDM

1.3.1 Sự quan trọng của các công cụ

Trong EDM, cũng như trong các lĩnh vực khác của khai thác dữ liệu thì việc chuyển đổi dữ liệu thô và dữ liệu chưa sắp xếp vào các biến có ý nghĩa

là thách thức lớn đầu tiên trong quá trình này.Thường thì dữ liệu ở trong các hình thức (và các định dạng) không phải là sẵn sàng để phân tích; dữ liệu không chỉ cần được chuyển đổi sang một định dạng có ý nghĩa hơn, mà còn cần thêm vào đó các biến có ý nghĩa cho việc thiết kế Ngoài ra, dữ liệu cần phải được thường xuyên kiểm tra lại để loại bỏ trường hợp và giá trị mà không chỉ đơn giản là giá trị ngoại lai mà còn thiếu chính xác

Ngoài ra, dữ liệu cần phải thường được làm sạch để loại bỏ các trường hợp và các giá trị mà không phải chỉ đơn giản là giá trị ngoại lai nhưng chủ động không chính xác Chúng ta sẽ bắt đầu với tổng quan về hai công cụ rất thích hợp cho các thao tác, làm sạch, và định dạng của dữ liệu cũng như kỹ thuật tính năng và tạo dữ liệu: Microsoft Excel, Google Sheets

Sau khi làm sạch dữ liệu, và chuyển đổi sang một định dạng hoàn toàn khả thi hơn, câu hỏi tiếp theo phải đối mặt với một nhà nghiên cứu EDM là phân tích-những thí nghiệm có thể được thực hiện, những mô hình có thể được xây dựng, những mối quan hệ có thể được ánh xạ và khám phá, và làm thế nào chúng ta có thể xác nhận những phát hiện là đúng

Một khi một nhà nghiên cứu đã tiến hành được việc phân tích và có hiệu quả, mô hình hoạt động tốt, nghiên cứu này sau đó thường sẽ được chia

Trang 17

sẽ với các nhà nghiên cứu khác và các học viên trong các trường học và các trường đại học hoặc phát triển chương trình giảng dạy

Trước khi khai thác dữ liệu có thể được thực hiện, tập hợp dữ liệu trước tiên phải được làm sạch và chuẩn bị từ trạng thái thô của họ Trong khi vấn đề này thường có với bất kỳ dữ liệu, người khai thác dữ liệu thường làm việc với các dữ liệu hỗn độn hơn thống kê và psychometricians; thay vì thử nghiệm hoặc khảo sát dữ liệu có ý nghĩa ghi nhận, người khai thác dữ liệu thường xuyên làm việc với các dữ liệu đăng nhập hoặc học hệ thống quản lý (LMS)

dữ liệu được ghi trong các hình thức mà không phải là ngay lập tức áp dụng các nghiên cứu Người nghiên cứu có kinh nghiệm làm việc với các loại dữ liệu giáo dục biết rằng nó là lộn xộn; đôi khi không đầy đủ; đôi khi ở một số

bộ phận phải được sáp nhập; và đôi khi trong các định dạng quen thuộc, bất tiện, hoặc rất bất thường và đáng ngạc nhiên Một nhà nghiên cứu có thể quan tâm đến việc phân tích các sinh viên, nhưng dữ liệu của họ có thể bao gồm các hành động systemlogged

Khi tính năng đã được thiết kế, biến kết quả và thực địa đã được dán nhãn và dữ liệu đã được lấy mẫu và cấu trúc thích hợp để phân tích, bước tiếp theo là bắt đầu phân tích và mô hình hóa các tập dữ liệu và xác nhận các mô hình kết quả Các công cụ được liệt kê trong phần sau đây cung cấp một loạt các thuật toán và các khuôn khổ mô hình có thể được sử dụng để mô hình hóa

và dự đoán các quá trình và các mối quan hệ trong dữ liệu giáo dục

1.3.2 Giới thiệu một số công cụ(xem[5])

1.3.2.1 Microsoft Excel/Google Sheets

Microsoft Excel là công cụ dễ tiếp cận nhất cho các nhà nghiên cứu quan tâm đến thao tác, và chúng có một khả năng tuyệt vời để làm làm cho các dữ liệu có thể dễ dàng nhìn thấy cũng như là chỉnh sửa các dữ liệu Gần đây xuất hiện thêm Google Sheets Những công cụ này không hữu ích cho các

Trang 18

biến kỹ thuật trong bộ dữ liệu rất lớn (như dữ liệu bộ hơn 1 triệu hàng), nhưng chúng là những công cụ tuyệt vời cho các dữ liệu quy mô nhỏ hơn

Một trong những lý do quan trọng cho tính hữu dụng của Excel và Sheets để phân tích đợt đầu và tạo mẫu các tính năng dữ liệu mới bởi sự trình bày dữ liệu rõ ràng trong một giao diện hoàn toàn trực quan Điều này làm cho người nghiên cứu dễ dàng để xác định các vấn đề về cấu trúc hoặc ngữ nghĩa trong dữ liệu

Những công cụ này cũng giúp thiết kế các tính năng mới, áp dụng nhanh các tính năng này với toàn bộ bảng và kiểm tra trực quan các tính năng trên một loạt các dữ liệu cho hoạt động thích hợp

Tuy nhiên, Excel và Sheets không phải là lý tưởng cho tất cả các loại tính năng sáng tạo Tạo ra tính năng đòi hỏi phải quy tụ các dữ liệu khác nhau

có liên quan đến việc phân loại và tái phân loại các dữ liệu nhiều lần, làm khó theo dõi các việc đã được thực hiện Và cũng là cho nó dễ dàng thay đổi ngữ nghĩa của tính năng

Quan trọng hơn, Excel và Sheets có giới hạn về số lượng dữ liệu và vận

hành để vẫn duy trì hiệu suất hợp lý

1.3.2.2 Structured Query Language (SQL)

SQL được sử dụng để thiết lập một số cơ sở dữ liệu (nhưng không phải tất cả) truy vấn SQL có thể là một phương pháp mạnh mẽ để trích xuất chính xác các dữ liệu mong muốn, đôi khi được tích hợp trên nhiều bảng cơ sở dữ liệu Nhiều nhiệm vụ lọc cơ bản, chẳng hạn như lựa chọn một tập hợp cụ thể của học sinh hoặc lấy dữ liệu từ một phạm vi ngày cụ thể, nhanh hơn đáng kể trong SQL

Tuy nhiên, SQL có thể là một ngôn ngữ hơi phiền phức cho việc tạo ra các tính năng phức tạp trong với các tính năng kỹ thuật SQL có thể làm việc

hiệu quả trong việc kết hợp với các công cụ khác

1.3.2.3 Python and Jupyter notebook

Trang 19

Đối với các nhà nghiên cứu dữ liệu có kiến thức lập trình, đây là một trong số ít các ngôn ngữ mà đặc biệt phù hợp với các thao tác dữ liệu và tính năng kỹ thuật Python được nhiều người xem là một ngôn ngữ đặc biệt hữu ích cho nhiều mục đích Đặc biệt, các vấn đề về kỹ thuật phụ thuộc vào ngữ cảnh hay thời gian đều được thực hiện dễ dàng hơn trong Python hơn là trong Excel hoặc Google Sheets Một tính năng hữu ích khác là Jupyter notebook,

nó lưa giữ kết quả của các phân tích được tiến hành và kết quả trung gian, hiển thị mỗi hành động người dùng và kết quả của nó, theo thứ tự Tuy nhiên, bất chấp lợi thế này, thì vẫn dễ dàng hơn để kiểm tra trực quan dữ liệu và thiết lập các tính năng bằng Excel hoặc Google Sheets Dữ liệu bị mất, trường hợp trùng lặp, hoặc các giá trị bất thường có thể đặc biệt khó khăn để xác định trong tập hợp dữ liệu, và xác nhận các tính năng thiết kế có thể có nhiều thời gian, đặc biệt là cho các lập trình viên mới làm quen Ngoài ra, Python có thể

xử lý nhiều loại khác nhau của các định dạng dữ liệu khác thường hoặc chuyên ngành Mặc dù Python có khả năng tính toán mạnh hơn so với các công cụ khác, năng lực của nó trong các lĩnh vực này không phải là vô hạn

1.3.2.4 RapidMiner

RapidMiner là một gói phần mềm dùng để tiến hành khai thác dữ liệu phân tích và tạo ra các mô hình Những chức năng của nó có giới hạn tính năng cho kỹ thuật mới ngoài các tính năng hiện có và khả năng lựa chọn tính năng Tuy nhiên, RapidMiner có một tập hợp vô cùng phong phú của các thuật toán phân loại và hồi quy cũng như các thuật toán để phân nhóm, khai thác luật kết hợp, và các ứng dụng khác

Được viết trên ngôn ngữ lập trình Java Công cụ này đã cung cấp mẫu phân tích tiên tiến, thông qua các khôngg mẫu Một ưu điểm của chương trình này là người dùng không cần phải nhập code nào cả RapidMiner cũng có một loạt các số liệu có sẵn để đánh giá mô hình và có thể hiển thị trực quan như đường cong thu-hành để giúp người dùng đánh giá mô hình

Trang 20

Ngoài việc khai thác dữ liệu, RapidMiner cũng cung cấp các chức năng như tiền xử lý dữ liệu và hình ảnh, kiểu phân tích và mô hình thống kê, đánh giá và triển khai Điều gì làm cho nó mạnh mẽ hơn nữa là nó cung cấp chương trình học tập, mô hình và các thuật toán từ WEKA and R scripts

mô hình và phân tích, điều này thường không cần thiết

Môi trường làm việc của KNIME chủ yếu kéo-và-thả, và rất trực quan

Nó phục vụ cho người dùng mới làm quen những người có thể chỉ đơn giản là muốn dữ liệu trực quan, thông qua các nhà khoa học dữ liệu, những người cần

để xây dựng quy trình công việc phức tạp và các mô hình tiên đoán tinh vi KNIME là đã mở nền tảng phân tích nguồn vẫn đang được tích cực phát triển

- và có vẻ như nó sẽ ở lại như vậy

1.3.2.6 WEKA

Dựa trên phiên bản Java, nên công cụ này rất phức tạp và sử dụng trong nhiều ứng dụng khác nhau

WEKA hỗ trợ một số nhiệm vụ khai thác dữ liệu tiêu chuẩn, bao gồm

dữ liệu tiền xử lý, cụm, phân loại, hồi qui, trực quan và tính năng Người dùng có thể gọi các thuật toán khai thác dữ liệu từ dòng lệnh, giao diện người dùng đồ họa, hoặc bằng cách gọi các thuật toán từ một API Java Các giao diện dòng lệnh và các API mạnh hơn so với giao diện đồ họa, mà không cho người dùng truy cập vào tất cả các chức năng tiên tiến WEKA có thể xuất ra

Trang 21

các mô hình nó tạo ra hoặc trong điều khoản của mô hình toán học thực sự hay về ngôn ngữ đánh dấu mô hình dự đoán

Trang 22

CHƯƠNG 2: CÁC ỨNG DỤNG TRONG GIÁO DỤC VÀ KỸ THUẬT

KHAI PHÁ DỮ LIỆU 2.1 Giới thiệu

Có rất nhiều ứng dụng hoặc các công việc trong các môi trường giáo

dục đã được giải quyết thông qua DM Có bốn lĩnh vực chính của ứng dụng

cho EDM: cải thiện mô hình sinh viên, cải thiện các mô hình miền, nghiên

cứu hỗ trợ sư phạm cung cấp bởi phần mềm học tập, nghiên cứu khoa học vào

học tập và học viên; và năm phương pháp: dự đoán, clustering, khai thác mối

quan hệ, chưng cất dữ liệu để xét đoán con người và khám phá với các mô

hình Castro gợi ý các đối tượng sau: ứng dụng đối phó với việc đánh giá hiệu

suất học tập của học sinh, ứng dụng cung cấp các khóa học thích ứng và học

tập khuyến nghị dựa trên hành vi của học sinh học tập, phương pháp tiếp cận

đối phó với việc đánh giá học tập tài liệu và các khóa học giáo dục dựa trên

web, ứng dụng liên quan đến thông tin phản hồi để giáo viên và học sinh

trong các khóa học e-learning, và phát triển để phát hiện không điển hình học

sinh học hành vi Tuy nhiên, như chúng ta nghĩ rằng có có thể nhiều ứng dụng

hơn, chúng tôi đã thành lập chuyên mục riêng của chúng tôi cho các nhiệm vụ

giáo dục chính mà tôi đã sử dụng các kỹ thuật khai thác dữ liệu Các loại này

đến từ các cộng đồng nghiên cứu khác nhau và họ cũng sử dụng các tác vụ

DM khác nhau và kỹ thuật Một mặt, chúng ta có thể thấy là cộng đồng tích

cực nhất là e-learning / LMS và ITS / AEHS Mặt khác, chúng ta sẽ thấy

trong phần phụ sau đó tác vụ DM áp dụng phổ biến nhất là hồi quy, phân

cụm, phân loại và luật kết hợp khai thác khoáng sản; và các kỹ thuật DM sử

dụng nhiều nhất / phương pháp cây quyết định, mạng nơron và mạng Bayes 2.2 Khả năng phân tích và tính trực quan của dữ liệu

Mục tiêu của phân tích và hiển thị dữ liệu là để làm nổi bật thông tin

hữu ích và hỗ trợ việc ra quyết định.Trong môi trường giáo dục, nó có thể

giúp các nhà giáo dục và quản trị khóa học để phân tích các hoạt động học

Trang 23

của học sinh và thông tin sử dụng để có được một cái nhìn tổng quát về việc học tập của học sinh Thống kê và thông tin trực quan là hai kỹ thuật chính đã được sử dụng rộng rãi nhất cho nhiệm vụ này

Thống kê là một môn toán học khoa học liên quan đến việc thu thập, phân tích, hoặc giải thích, và trình bày dữ liệu Nó là tương đối dễ dàng để có được thống kê mô tả cơ bản từ phần mềm thống kê như SPSS Được sử dụng với dữ liệu giáo dục, phân tích mô tả này có thể cung cấp như đặc điểm dữ liệu toàn cầu như tóm tắt và báo cáo về hành vi của người học Phân tích thống kê số liệu giáo dục có thể cho biết những thứ như: các trang phổ biến nhất, các trình duyệt sinh viên có xu hướng sử dụng Mặt khác, giáo viên tìm thấy số liệu thống kê hạt mịn trong dữ liệu đăng nhập quá cồng kềnh để kiểm tra hoặc quá tốn nhiều thời gian để giải thích (xem [3])

Thông tin trực quan sử dụng kỹ thuật đồ họa để giúp mọi người hiểu và phân tích dữ liệu Hình ảnh đại diện và các kỹ thuật tương tác tận dụng lợi thế của khả năng quan sát của con người để cho phép người dùng xem, khám phá và hiểu được một lượng lớn các thông tin cùng một lúc Có một số nghiên cứu hướng tới việc hình dung dữ liệu giáo dục khác nhau như: mô hình hành vi người dùng hàng năm, theo mùa, từng ngày, từng giờ trên các diễn đàn trực tuyến

2.3 Cung cấp thông tin phản hồi để hỗ trợ giáo viên hướng dẫn

Mục tiêu là để cung cấp thông tin phản hồi để hỗ trợ khóa học tác giả/giáo viên/quản trị viên trong việc ra quyết định và cho phép họ thực hiện hành động chủ động hoặc xử lý thích hợp Điều quan trọng là biết rằng nhiệm

vụ này là khác hẳn so với việc phân tích dữ liệu, nó chỉ cung cấp thông tin cơ bản trực tiếp từ dữ liệu Hơn nữa, cung cấp thông tin phản hồi hoàn toàn mới, thông tin ẩn và thú vị được tìm thấy trong dữ liệu Một số kỹ thuật DM đã được sử dụng trong công việc này, mặc dù vậy khai phá luật kết hợp là phổ biến nhất khai thác luật kết hợp tiết lộ mối quan hệ thú vị giữa các biến trong

Trang 24

cơ sở dữ liệu lớn và trình bày chúng trong các hình thức quy tắc mạnh mẽ theo các mức độ khác nhau của sự quan tâm họ có thể trình bày

Có nhiều nghiên cứu áp dụng / so sánh một số mô hình khai thác dữ liệu cung cấp thông tin phản hồi luật kết hợp, phân nhóm, phân loại, phân tích mô hình tuần tự, mô hình phụ thuộc và dự đoán đã được sử dụng để nâng cao môi trường học tập dựa trên web để cải thiện mức độ mà các nhà giáo dục

có thể đánh giá quá trình học tập Phân tích liên kết, phân tích phân nhóm và lập luận theo tình huống cũng đã được sử dụng để tổ chức các khóa học và giao bài tập về nhà ở các cấp khó khác nhau Phân loại và khai thác luật kết hợp đã được áp dụng để phát triển một dịch vụ cho phép người đánh giá để thu thập thông tin phản hồi từ quá trình học tập tự động và do đó đánh giá hiệu quả khóa học trực tuyến mô hình Bayes và kỹ thuật dự báo khác đã được đề xuất để giải quyết nhập học và quá trình tư vấn để hỗ trợ trong việc cải thiện chất lượng giáo dục và kết quả học tập Một số thuật toán phân loại

đã được áp dụng để dự đoán xem các giáo viên sẽ đề nghị một chiến lược can thiệp cho các cấu hình động lực

Quy tắc khai thác đã được sử dụng để đối đầu với những vấn đề của thông tin phản hồi liên tục trong quá trình giáo dục;để phân tích dữ liệu học tập và tìm hiểu xem học sinh sử dụng các nguồn lực và có thể sử dụng cho dù

họ có bất kỳ tác động (tích cực), để xác định mối quan hệ giữa mỗi mô hình học tập hành vi để các giáo viên có thể thúc đẩy hành vi học tập hợp tác trên Web, để tìm thông tin được nhúng, có thể được cung cấp cho giáo viên để phân tích sâu hơn, tinh chỉnh hoặc sắp xếp lại các tài liệu giảng dạy, kiểm tra trong môi trường học tập thích nghi, để khám phá sự thú vị giữa các thuộc tính sinh viên, vấn đề thuộc tính và các chiến lược giải pháp để cải thiện hệ thống giáo dục trực tuyến cho cả giáo viên và học sinh để phân tích các biện pháp đánh giá quy tắc để khám phá các quy tắc thú vị nhất, để xác định các

Trang 25

mẫu học tập thú vị và bất ngờ do đó có thể cung cấp các dây chuyền quyết định cho phép giáo viên để tổ chức hiệu quả hơn cơ cấu giảng dạy của họ

Các kỹ thuật DM khác nhau đã được áp dụng để cung cấp thông tin phản hồi, chẳng hạn như: miền khai phá dữ liệu tương tác cụ thể để tìm ra mối quan hệ giữa các dữ liệu đăng nhập và hành vi của sinh viên trong một hệ thống giáo dục, thời gian khai thác dữ liệu để mô tả, giải thích và dự đoán hành vi của sinh viên, và đánh giá sự tiến bộ trong quan hệ với kết quả học tập trong ITSS, cảnh báo kịp thời phát hiện các mô hình giảng dạy và học tập quan trọng và để giúp giáo viên có ý nghĩa của những gì đang xảy ra trong lớp học, phân tích dữ liệu sử dụng để nâng cao hiệu quả của quá trình học tập trong các hệ thống e-learning

Một loại đặc biệt của thông tin phản hồi là khi dữ liệu đi cụ thể từ các bài kiểm tra, các câu hỏi, đánh giá Trong trường hợp này, mục tiêu là để phân tích nó để cải thiện các câu hỏi và trả lời các câu Một số phương pháp tiếp cận DM andtechniques một số phương pháp tiếp cận DM và kỹ thuật đã được

đề xuất để sử dụng chung trong việc khai thác dữ liệu đánh giá học sinh Phân tích chung yếu tố và lọc cộng tác đã được sử dụng để khám phá các chủ đề cơ bản của một khóa học từ lớp item-level Quy tắc khai thác đã được áp dụng để phân tích dữ liệu câu hỏi bằng cách khám phá các mô hình quy tắc trong dữ liệu câu hỏi

Cuối cùng, một loại đặc biệt của thông tin phản hồi liên quan đến việc

sử dụng các dữ liệu văn bản Trong trường hợp này, mục tiêu của việc áp dụng khai thác văn bản / dữ liệu để dữ liệu giáo dục là để phân tích nội dung giáo dục, để tóm tắt / phân tích các quá trình thảo luận của học viên để cung cấp thông tin phản hồi người hướng dẫn phân tích văn bản tự động, phân tích nội dung và khai thác văn bản đã được sử dụng để trích xuất và xác định những ý kiến được tìm thấy trên các trang web trong các hệ thống e-learning

Trang 26

2.4 Dự đoán kết quả học tập

Mục tiêu của dự đoán là để ước tính giá trị chưa biết của một biến mô

tả các sinh viên Trong giáo dục các giá trị bình thường dự đoán được hiệu suất, kiến thức, điểm số.Giá trị này có thể được số / giá trị liên tục (nhiệm vụ hồi quy) hoặc phân loại / giá trị rời rạc (nhiệm vụ phân loại) Phân tích hồi quy tìm thấy mối quan hệ giữa một biến phụ thuộc và một hoặc các biến độc lập hơn Phân loại là một thủ tục trong đó các cá nhân được đặt thành các nhóm dựa trên các thông tin định lượng về một hoặc nhiều đặc điểm vốn có trong các mục và dựa trên một tập huấn luyện của các mặt hàng được dán nhãn trước Dự đoán kết quả thành tích của học sinh là một trong những ứng dụng lâu đời nhất và phổ biến nhất của DM trong giáo dục, và các kỹ thuật khác nhau và các mô hình đã được áp dụng

Một so sánh các phương pháp học máy đã được thực hiện để dự đoán

sự thành công trong một khóa học (hoặc thông qua hoặc thất bại) trong Intelligent Tutoring Systems Các so sánh khác của thuật toán khai thác dữ liệu khác nhau được thực hiện để phân loại học sinh (dự đoán điểm cuối cùng) dựa trên dữ liệu sử dụng Moodle, để dự đoán thành tích học sinh (lớp cuối cùng) dựa trên tính năng chiết xuất từ dữ liệu đăng nhập và dự đoán kết quả học tập sinh viên Đại học

Các loại mô hình mạng thần kinh khác nhau đã được sử dụng để dự đoán diểm số cuối cùng của các sinh viên, để dự đoán số lượng các lỗi này là một sinh viên sẽ phạm phải

Mạng Bayes đã được sử dụng để dự đoán hiệu suất nộp đơn sinh viên,

để mô hình kiến thức sử dụng và dự đoán kết quả học tập trong một hệ thống dạy kèm, để dự đoán tích lũy điểm trung bình tốt nghiệp trong tương lai dựa trên nền kết quả tại thời điểm nhập học, mô hình có hai cách tiếp cận khác nhau để xác định xác suất một câu hỏi nhiều kỹ năng đã bị sửa chữa và dự

Trang 27

đoán hiệu suất nhóm trong tương lai trong học tập hợp tác mặt đối mặt (xem[4])

Một số kỹ thuật hồi quy đã được sử dụng để dự đoán điểm của sinh viên trong một trường đại học mở (sử dụng cây mô hình, mạng nơron, hồi quy tuyến tính, cục bộ nặng hồi quy và vector hỗ trợ máy tuyến tính), để dự đoán cuối cùng của năm điểm đánh giá trách nhiệm giải trình (sử dụng mô hình dự báo hồi quy tuyến tính); để dự đoán kết quả học tập từ điểm đăng nhập và thử nghiệm trong giảng dạy dựa trên web (sử dụng mô hình hồi quy đa biến); để

dự đoán cuối cùng của năm điểm đánh giá trách nhiệm giải trình (sử dụng hồi quy tuyến tính), để dự đoán điểm thi của học sinh (sử dụng hồi quy từng bước) và dự đoán xác suất mà phản ứng tiếp theo của học sinh có thành chính xác (sử dụng hồi quy tuyến tính)

Cuối cùng, tương quan phân tích đã được áp dụng với nhau để dự đoán hiệu suất web-sinh viên trong các lớp học trực tuyến; để dự đoán điểm thi cuối cùng của học sinh trong dạy kèm trực tuyến và để dự đoán xác suất thành công của học sinh trung học ở trường đại học

2.5 Cơ sở lý thuyết của luật kết hợp

2.5.1 Lý thuyết về luật kết hợp

Cho một tập I = {I1, I2, ,Im} là tập gồm m khoản mục (item), còn được gọi là các thuộc tính (attribute) Các phần tử trong I là phân biệt nhau XÍI được gọi là tập mục (itemset) Nếu lực lượng của X bằng k (tức là |X| = k) thì X được gọi là k-itemset

Một giao dịch (transaction) T được định nghĩa như một tập con (subset) của các khoản mục trong I (TÍI) Tương tự như khái niệm tập hợp, các giao dịch không được trùng lặp, nhưng có thể nới rộng tính chất này của tập hợp

và trong các thuật toán sau này, người ta đều giả thiết rằng các khoản mục trong một giao dịch và trong tất cả các tập mục (item set) khác, có thể coi chúng đã được sắp xếp theo thứ tự từ điển của các item

Trang 28

Gọi D là CSDL của n giao dịch và mỗi giao dịch được đánh nhãn với một định danh duy nhất (Unique Transasction IDentifier-TID) Nói rằng, một giao dịch T∈ D hỗ trợ (support) cho một tập X I nếu nó chứa tất cả các item của X, nghĩa là X T, trong một số trường hợp người ta dùng ký hiệu T(X) để chỉ tập các giao dịch hỗ trợ cho X Kí hiệu support (X) (hoặc supp(X), s(X))

là tỷ lệ phần trăm của các giao dịch hỗ trợ X trên tổng các giao dịch trong D, nghĩa là:

( ) = |{ ∈ | Í }|

Ví dụ về cơ sở dữ liệu D (dạng giao dịch) : I = {A, B, C, D, E}, T = {1,

2, 3, 4, 5, 6} Thông tin về các giao dịch cho ở bảng sau :

Bảng 2.5.1.1: Ví dụ về một cơ sở dữ liệu dạng giao dịch –D

Tập phổ biến (frequent itemset): Support tối thiểu minsup ∈ (0, 1](Minimum Support) là một giá trị cho trước bởi người sử dụng Nếu tập mục XÍI có supp(X) ≥ minsup thì ta nói X là một tập phổ biến-frequent itemset (hoặc large itemset) Một frequent itemset được sử dụng như một tập đáng quan tâm trong các thuật toán, ngược lại, những tập không phải frequent itemset là những tập không đáng quan tâm Trong các trình bày sau này, ta sẽ

sử dụng những cụm từ khác như “X có support tối thiểu”, hay “X không có support tối thiểu” cũng để nói lên rằng X thỏa mãn hay không thỏa mãn support(X) ≥ minsupp

Trang 29

Ví dụ: Với cơ sở dữ liệu D cho ở bảng trên, và giá trị ngưỡng minsupp = 50% sẽ liệt kê tất cả các tập phổ biến (frequent-itemset) như sau :

Các tập mục phổ biến Độ hỗ trợ (supp) tương ứng

A, C, D, AB, AE, BC, BD, ABE 67% (4/6)

AD, CE, DE, ABD, ADE, BCE, BDE 50% (3/6)

Bảng 2.5.1.2 : Các tập phổ biến trong cơ sở dữ liệu ở bảng 1với độ hỗ trợ tối

thiểu 50%

Một số tính chất (TC) liên quan đến các frequent itemset:

1 Support cho tất cả các subset: nếu A ÍB, A, B là các itemset thì supp(A) ≥supp(B) vì tất cả các giao dịch của D support B thì cũng support A

2 Nếu một item A không có support tối thiểu trên D nghĩa là support (A)

< minsupp thì một superset B của A sẽ không phải là một frequent vì support (B) ≤support(A) < minsup

3 Nếu item B là frequent trên D, nghĩa là support(B) ≥minsup thì mọi subset A của B là frequent trên D vì support(A) ≥support(B) > minsup

Định nghĩa luật kết hợp: Một luật kết hợp có dạng R: XÞ Y, trong đó

X, Y là các itemset, X, YÍ I và X Y =  X được gọi là tiên đề và Y được gọi là hệ quả của luật

Một số nhận xét :

 Luật X ÞY tồn tại một độ hỗ trợ support -supp Supp(X ÞY) được định nghĩa là khả năng mà tập giao dịch hỗ trợ cho các thuộc tính có có trong

cả X lẫn Y, nghĩa là: Support(XÞY) = support(XÈY)

 Luật X ÞY tồn tại một độ tin cậy c (confidence -conf) Conf c được định nghĩa là khả năng giao dịch T hỗ trợ X thì cũng hỗ trợ Y Nói cách khác

c biểu thị số phần trăm giao dịch có chứa luôn Y trong số những giao dịch có

Trang 30

chứa X

 Ta có công thức tính conf c như sau:

conf(XÞY) = p(YÍI|XÍI) = p(YÍTÙXÍT)

sup p(XÈ Y)sup p(X)

 Ta nói rằng, luật X ÞY là thoả trên D nếu với một support tối thiểu minsup và một ngưỡng cofidence tối thiểu minconf cho trước nào đó mà: Support(XÞ Y) ≥ minsup và confidence(X Þ Y) ≥ minconf

Chú ý rằng, nếu luật X ÞY mà thoả trên D thì cả X và Y đều phải là các Frequent Itemset trên D và khi xét một luật có thoả hay không, thì cả support

và confidence của nó đều phải quan tâm, vì một luật có thể có confidence = 100% > minconf nhưng có thể là nó không đạt support tối thiểu minsup

Khi khai phá các luật kết hợp, có 2 vấn đề chính cần phải giải quyết:

 Thứ nhất, đó là độ phức tạp của giải thuật Số lượng luật tăng theo cấp

độ luỹ thừa cùng với số lượng các mục (item) Tuy nhiên, các giải thuật hiện nay có thể giảm bớt không gian tìm kiếm này dựa trên các ngưỡng tối thiểu để đánh giá độ hiệu quả của luật

 Thứ hai, các luật tốt (tối ưu) phải được lấy ra từtập hợp các luật tìm được Điều này rất khó bởi vì tập hợp các luật tìm được là rất lớn, trong đó số lượng các luật có thể dùng được lại chiếm tỷ lệ vô cùng nhỏ Các nghiên cứu liên quan đến vấn đề thứ hai hầu hết chú trọng vào việc giúp người dùng duyệt tập luật cũng như việc phát triển các độ đo chất lượng của luật (xem [1])

Trang 31

Tương tự ta cũng có : Nếu XÞ Y và ZÞ Z không thể suy ra XÞYÈZ 2) Nếu luật XÈYÞZ là thoả trên D thì XÞZ và YÞZ có thể không thoả trên D

Chẳng hạn, khi Z là có mặt trong một giao dịch chỉ nếu cả X và Y đều

có mặt trong giao dịch đó, nghĩa là support(X ÈY)=support(Z) Nếu support cho X và Y lớn hơn support(XÈ Y), thì 2 luật trên sẽ không có confidence yêu cầu Tuy nhiên, nếu XÞYÈZ là thoả trên D thì có thể suy ra XÞY và XÞZ cũng thoả trên D Vì support(XY) ≥ support(XYZ) và support(XZ) ≥ support(XYZ)

3) Nếu XÞ Y và YÞ Z là thoả trên D thì không thể khẳng định rằng

XÞ Z cũng giữ được trên D

Giả sử

T(X)T(Y)T(Z) và confidence(XÞY)=confidence(YÞZ)=minconf Khi đó ta có confidence(XÞ Z) = minconf < minconf vì minconf <1, nghĩa là luật XÞ Z không có cofidence tối thiểu

4) Nếu luật AÞ (L-A) không có confidence tối thiểu thì cũng không có luật nào trong các luật BÞ (L-B) có confidence tối thiểu trong đó L-A.B là các intemset và BÍ A

Trang 32

Thật vậy, theo tính chất TC1, vì BÍ A Nên support(B) ≥ support(A) và theo định nghĩa của confidence, ta có :

( ) ≤

( )( ) <

Cũng vậy, nếu luật (L-C) Þ C là thoả trên D, thì các luật (L-K)Þ K với KÍC và K ≠ cũng thoả trên D (xem [1])

2.5.3 Phát biểu bài toán khai phá luật kết hợp

Bài toán khai phá luật kết hợp:

Có thể diễn đạt một bài toán khai phá luật kết hợp như sau: Cho một tập các item I, một cơ sở dữ liệu giao dịch D, ngưỡng support tối thiểu minsup, ngưỡng confidence tối thiểu minconf, tìm tất cả các luật kết hợp X

ÞY trên D sao cho: support(X Þ Y) ≥ minsup và confidence(X Þ Y) ≥ minconf

Bài toán khai phá luật kết hợp có thể dùng nhiều thuật toán để khai phá nhưng nhìn chung là các bài toán này đều phải qua 2 giai đoạn chính sau :

Khai phá tất cả các tập phổ biến-Frequent itemset (Large itemset)

Số lượng các tập phổ biến có khả năng tương đương với kích thước mũ của tập các item, trong đó hàm mũ tăng theo số các item Phương pháp cơ bản trong mỗi thuật toán là tạo một tập các itemset gọi là ứng cử viên (candidate) với hi vọng rằng nó là frequent

Điều mà bất kì thuật toán nào cũng phải quan tâm là làm sao để tập các ứng cử viên này càng nhỏ càng tốt vì nó liên quan chi phí bộ nhớ để lưu trữ các tập các ứng cử viên này chi phí thời gian cho việc kiểm tra nó là một tập phổ biến hay không

Để tìm ra những tập ứng cử viên (candidate itemset) là phổ biến (frequent) với các support cụ thể của nó là bao nhiêu thì support của mỗi tập ứng cử viên phải được đếm bởi mỗi giai đoạn trên CSDL (tức là thực hiện

Trang 33

một phép duyệt trên từng giao dịch của cơ sở dữ liệu để tính giao dịch support cho mỗi tập ứng cử viên)

Công việc khai phá các tập mục phổ biến được thực hiện lặp đi lặp lại qua một giai đoạn (pass) nhằm mục đích nhận được kết quả cuối cùng là mỗi tập mục phổ biến biểu thị tốt nhất sự tương quan giữa các item trong cơ sở dữ liệu giao dịch D

Khai phá luật kết hợp (sinh ra các luật kết hợp tốt từ các tập mục phổ biến)

Sau khi xác định được tập mục phổ biến cuối cùng, người ta thực hiện tiếp thuật toán sinh ra các luật dưa trên mỗi tập mục phổ biến này đồng thời xác định luôn confidence của chúng trên cơ sở các số đếm support của mỗi tập mục phổ biến và subset của mỗi tập mục phổ biến Với mỗi tập mục phổ biến X, mỗi subset riêng biệt của nó là được chọn như là tiền đề của luật và các item còn lại thì được đưa vào hệ quả của luật, do X chính nó là một frequent, và tất cả các subset của nó cũng là Frequent Mỗi luật được sinh ra như trên có được chấp nhận hay không chấp nhận còn phụ thuộc vào mức confidence tối thiểu (minconf) mà người sử dụng chỉ ra Một luật sẽ được coi là chấp nhận nếu confidence của nó lớn hơn hoặc bằng cofidence tối thiểu này Theo tính chất TC4, nếu một luật là không được chấp nhận thì không có một subset nào của tiền tố của nó là có thể cân nhắc

để sinh thêm các luật khác

Nói chung thì tư tưởng sinh ra luật kết hợp có thể mô tả như sau:

Nếu ABCD và AB là các frequent itemset thì ta có thể xác định xem luật AB Þ CD có được xem là chấp nhận hay không bằng cách tính

( ) Nếu conf ≥ minconf thì luật được coi là chấp nhận được (để ý rằng luật là thoả mãn yếu tố support

vì support (AB ÞCD) = support(ABCD) ≥ minsup)

2.5.4 Một số hướng tiếp cận trong khai phá luật kết hợp

Trang 34

Lĩnh vực khai phá luật kết hợp cho đến nay đã được nghiên cứu và phát triển theo nhiều hướng khác nhau Có những đề xuất nhằm cải tiến tốc độ thuật toán, có những đề xuất nhằm tìm kiếm luật có ý nghĩa hơn… và có một

số hướng chính sau đây

1 Luật kết hợp nhị phân(binary association rule hoặc boolean association rule): là hướng nghiên cứu đầu tiên của luật kết hợp Hầu hết các nghiên cứu

ở thời kỳ đầu về luật kết hợp đều liên quan đến luật kết hợp nhị phân Trong dạng luật kết hợp này, các mục (thuộc tính) chỉ được quan tâm là có hay không xuất hiện trong giao dịch của CSDL chứ không quan tâm về “mức độ” xuất hiện

Ví dụ: Trong hệ thống tính cước điện thoại thì việc gọi 10 cuộc điện thoại và

1 cuộc được xem là giống nhau Thuật toán tiêu biểu nhất khai phá dạng luật này là thuật toán Apriori và các biến thể của nó Đây là dạng luật đơn giản

và các luật khác cũng có thể chuyển về dạng luật này nhờ một số phương pháp như rời rạc hoá, mờ hoá, … Một ví dụ về dạng luật này : “gọi liên tỉnh=

‘yes’ và gọi di động = ‘yes’ => gọi quốc tế = ‘yes’ và gọi dịch vụ 108 = ‘yes’, với độ hỗ trợ 20% và độ tin cậy 80%”

2 Luật kết hợp có thuộc tính sốvà thuộc tính hạng mục (quantitative and categorial association rule): Các thuộc tính của các CSDL thực tế có kiểu rất

đa dạng (nhị phân - binary, số - quantitative, hạng mục - categorial,…) Để phát hiện luật kết hợp với các thuộc tính này, các nhà nghiên cứu đã đề xuất một số phương pháp rời rạc hoá nhằm chuyển dạng luật này về dạng nhị phân

để có thể áp dụng các thuật toán đã có Một ví dụ về dạng luật này “An toàn bảo mật thông tin [5 <7] và đồ hoạ máy tính [7 <9] => hệ điều hành [5 <7], với độ hỗ trợ là 35%, và độ tin cậy là %”

3 Luật kết hợp tiếp cận theo hướng tập thô (mining association rules base

on rough set): Tìm kiếm luật kết hợp dựa trên lý thuyết tập thô

4 Luật kết hợp nhiều mức (multi-level association rule) : Với cách tiếp

Trang 35

cận theo luật này sẽ tìm kiếm thêm những luật có dạng “ mua máy tính PC => mua hệ điều hành và mua phần mềm tiện ích văn phòng, …” thay vì chỉ những luật quá cụ thể như “mua máy tính IBM PC => mua hệ điều hành Microsoft Windows và mua phần mềm tiện ích văn phòng Microsoft Office, …” Như vậy dạng luật đầu là dạng luật tổng quát hoá của dạng luật sau và tổng quát theo nhiều mức khác nhau

5 Luật kết hợp mờ (fuzzy association rule): Với những hạn chế còn gặp phải trong quá trình rời rạc hoá các thuộc tính số (quantitave attributes), các nhà nghiên cứu đã đề xuất luật kết hợp mờ nhằm khắc phục các hạn chế trên

và chuyển luật kết hợp về một dạng tự nhiên hơn, gần gũi hơn với người sử dụng một ví dụ của dạng này là: “An toàn bảo mật thông tin trung bình và đồ hoạ máy tính khá=> hệ điều hành trung bình, với độ hỗ trợ là 35%, và độ tin cậy là %” Trong luật trên, điều kiện điểm các môn đã được mã hoá ở mức điểm yếu kém, trung bình, khá, và giỏi

6 Luật kết hợp với thuộc tính được đánh trọng số (association rule with weighted items): Trong thực tế, các thuộc tính trong CSDL không phải lúc nào cũng có vai trò như nhau Có một số thuộc tính được chú trọng hơn và có mức độ quan trọng cao hơn các thuộc tính khác

Ví dụ khi khảo sát về doanh thu hàng tháng, thông tin về thời gian đàm thoại, vùng cước là quan trọng hơn nhiều so với thông tin về phương thức gọi Trong quá trình tìm kiếm luật, chúng ta sẽ gán thời gian gọi, vùng cước các trọng số lớn hơn thuộc tính phương thức gọi Đây là hướng nghiên cứu rất thú vị và đã được một số nhà nghiên cứu đề xuất cách giải quyết bài toán này Với luật kết hợp có thuộc tính được đánh trọng số, chúng ta sẽ khai thác được những luật “hiếm” (tức là có độ hỗ trợ thấp, nhưng có ý nghĩa đặc biệt hoặc mang rất nhiều ý nghĩa)

7 Luật kết hợp song song (parallel mining of association rules): Bên cạnh khai phá luật kết hợp tuần tự, các nhà làm tin học cũng tập trung vào nghiên

Ngày đăng: 01/02/2021, 21:28

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Đỗ Phúc (2007), Bài giảng khai thác dữ liệu, Đại học Quốc gia TP. Hồ Chí Minh Sách, tạp chí
Tiêu đề: Bài giảng khai thác dữ liệu
Tác giả: Đỗ Phúc
Năm: 2007
[2] Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy (2013), Giáo trình khai phá dữ liệu, NXB Đại học Quốc gia Hà Nội Sách, tạp chí
Tiêu đề: Giáo trình khai phá dữ liệu
Tác giả: Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy
Nhà XB: NXB Đại học Quốc gia Hà Nội
Năm: 2013
[3] Nguyễn Thái Nghe, Paul Janecek, Peter Haddawy (2017), Một phân tích giữa các kỹ thuật trong dự đoán kết quả học tập, Khoa Công nghệ thông tin và Truyền thông, Đại học Cần Thơ Sách, tạp chí
Tiêu đề: Một phân tích giữa các kỹ thuật trong dự đoán kết quả học tập
Tác giả: Nguyễn Thái Nghe, Paul Janecek, Peter Haddawy
Nhà XB: Khoa Công nghệ thông tin và Truyền thông, Đại học Cần Thơ
Năm: 2017
[4] Nguyễn Thị Thanh Thủy (2012), Ứng dụng khai phá dữ liệu xây dựng công cụ dự đoán kết quả học tập của sinh viên, Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 8 Đại học Đà Nẵng. Tiếng Anh Sách, tạp chí
Tiêu đề: Ứng dụng khai phá dữ liệu xây dựng công cụ dự đoán kết quả học tập của sinh viên
Tác giả: Nguyễn Thị Thanh Thủy
Nhà XB: Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 8 Đại học Đà Nẵng
Năm: 2012
[5] Stefan Slater (2016) , Tools for Educational Data Mining, A Review, Columbia University Sách, tạp chí
Tiêu đề: Tools for Educational Data Mining, A Review
Tác giả: Stefan Slater
Nhà XB: Columbia University
Năm: 2016
[6] Cristóbal Romero, Sebastian Ventura (2010), Educational Data Mining: A Review of the State of the Art Sách, tạp chí
Tiêu đề: Educational Data Mining
Tác giả: Cristóbal Romero, Sebastian Ventura
Năm: 2010
[7] Jean – Marc Adamo (2001), Data Mining for Association Rules and Sequential Patterns, Sequential and Parallel Algorithms, Springer – Verlag New York, Inc Sách, tạp chí
Tiêu đề: Data Mining for Association Rules and Sequential Patterns
Tác giả: Jean – Marc Adamo
Nhà XB: Springer – Verlag New York, Inc
Năm: 2001
[8] Tang, Z. H., MacLennan, J.: “Data Mining with SQL Server 2005”, Indianapolis: Wiley, 2005 Sách, tạp chí
Tiêu đề: Data Mining with SQL Server 2005

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w