1. Trang chủ
  2. » Luận Văn - Báo Cáo

Hệ thống dự đoán kết quả và gợi ý lựa chọn môn học dùng giải thuật phân rã ma trận

75 486 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 75
Dung lượng 3,01 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Tuy nhiên, nh ng hướng tiếp cận này thường là gom cụm, phân lớp, tìm quy luật từ nh ng d liệu trong quá khứ để c được nh ng phân tích h u ích và gợi chung chung mà chưa c nh ng dự đo n c

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CẦN THƠ

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO

Trang 3

Ờ C ĐO N

Tôi xin cam đoan luận văn với đề tài “Hệ thống

” được hoàn thành là kết

quả nghiên cứu và quá trình thực hiện của tôi

Công việc nghiên cứu và nội dung trong luận văn chưa từng được nộp để lấy bằng cấp từ một trường nào, ngoại trừ phần lý thuyết và các kết quả từ các công trình nghiên cứu được trích dẫn ở tài liệu tham khảo

Cần Thơ, ngày 07 tháng 11 năm 2013

Học viên cam đoan

Ký tên

u nh Thanh Nh n

Trang 4

Tôi xin gửi lời cảm ơn ch n thành đến c c thầy cô trong Khoa CNTT Truyền Thông đã trực tiếp c ng như gi n tiếp hướng ẫn giảng ạy cho tôi c được

nh ng iến thức qu o để hoàn thành luận văn và đủ hành trang trong nghi n cứu hoa h c sau này

Tôi c ng xin gửi lời cảm ơn đến anh ch trong lớp cao h c HTTT-K18 đã chia

s và giúp đỡ tôi trong qu trình h c tập Tôi c ng xin gửi lời cảm ơn ch n thành đến c c ạn trong nh m thiết ế w về lập ế hoạch h c tập và chương trình đào tạo đã giúp đỡ và cung cấp cho tôi nh ng tài liệu tham hảo h u ch Đ c iệt tôi xin cảm ơn anh Nguy n H ng ng người đã giúp đỡ động vi n và chia s với tôi trong suốt qu trình h c tập làm việc nh m, c ng như nghi n cứu và thực hiện luận văn

n cạnh tôi c ng xin gửi lời cảm ơn đến cộng đ ng MyM iaLit N t đã

ph t hành ngu n mở với nh ng thư viện h u ch giúp tôi giải quyết nhiều vấn đề trong luận văn Tôi c ng xin cảm ơn các thầy cô trong phòng đào tạo trường Đại

h c Cần Thơ đã cung cấp d liệu điểm để tôi đưa vào ứng ụng

Tôi xin cảm ơn Ban giám hiệu trường Đại h c An Giang, Ban chủ nhiệm khoa

Kỹ thuật – Công nghệ - Môi trường đã tạo điều kiện, h trợ nhiều m t cho tôi được

h c tập h a cao h c 2011-2013 và thực hiện luận văn này

Cuối c ng tôi xin cảm ơn ch n thành với lòng iết ơn s u sắc đến ông à cha

m đã nuôi ưỡng và ạy ảo tôi n n người và tạo cho tôi c điều iện tốt để được

h c tập và ph t triển

Tuy đã n lực để hoàn thành luận văn nhưng sai s t là hông thể tránh khỏi kính mong quý thầy cô thông cảm và tận tình chỉ bảo nh ng sai s t đ Mong nhận được ý kiến đ ng g p của quý thầy cô và các bạn

H c vi n u nh Thanh Nh n

Trang 5

LỜI MỞ ĐẦU

Hiện nay, việc giải quyết bài toán dự đo n năng lực của sinh vi n đang được quan tâm bởi các nhà quản lý giáo dục và cả các nhà khoa h c Sự quan tâm ngày càng tập trung c ng vì nghĩa thực ti n của bài toán

Nhiều hướng nghiên cứu đã ph t triển như ph n loại sinh viên, nh ng môn h c mang yếu tố quan tr ng, dự đo n từ quy luật, Tuy nhiên, nh ng hướng tiếp cận này thường là gom cụm, phân lớp, tìm quy luật từ nh ng d liệu trong quá khứ để

c được nh ng phân tích h u ích và gợi chung chung mà chưa c nh ng dự đo n

cụ thể cho một quyết đ nh ở tương lai

Để đủ cơ sở tri thức dự đo n cụ thể đòi hỏi chúng ta thu thập nhiều d liệu bổ sung (m ta ata) như: qu qu n ỹ năng mềm, sở thích, hoàn cảnh gia đình …mà

qu trình này đòi hỏi tốn nhiều thời gian và công sức Đ y là một vấn đề rất h hăn cho nh ng nghiên cứu giải quyết bài toán dự đo n năng lực của sinh viên Bên cạnh đ chúng tôi đã thấy được sự tương đ ng gi a bài toán dự đo n ết quả sinh viên với bài toán xếp hạng trong hệ thống gợi nên tôi đã quyết đ nh ứng dụng công nghệ gợi ý vào giải quyết vấn đề mới chưa được giải quyết theo cách này Tuy nhi n đ y c ng là hướng giải quyết mới cho bài toán nên luận văn c thể

là ước khởi đầu cho hướng giải quyết bài toán dự đo n ết quả h c tập sinh viên

và gợi ý lựa ch n môn h c

Trang 6

T T T

Gần đ y số lượng sinh viên b cảnh báo h c vụ và buộc thôi h c có chiều hướng gia tăng Một trong nh ng nguyên nhân là do sinh viên không tự đo n trước được năng lực của mình c ng như lựa ch n môn h c hông hợp l để có kế hoạch

h c tập phù hợp theo khả năng của h Đ y là một tổn thất lớn cho sinh vi n gia đình nhà trường và xã hội Nhằm giải quyết vấn đề cấp thiết này chúng tôi đề xuất xây dựng “Hệ thống ự đo n ết quả h c tập của sinh vi n và gợi lựa ch n môn

h c ng giải thuật ph n rã ma trận” Với tưởng ựa tr n cơ sở liệu điểm thu thập được từ hệ thống quản lý kết quả h c tập của trường Đại h c Cần Thơ chúng tôi sử ụng ỹ thuật ias Matrix actorization ( M ) để ự đo n ết quả h c tập của sinh viên từ đ làm cơ sở cho h lựa ch n môn h c ph hợp n cạnh đ chúng tôi c ng sử ụng thư viện mã ngu n mở MyM iaLit để t ch hợp vào hệ thống đã đề xuất nhằm giảm ớt đ ng ể thời gian cài đ t giải thuật Hệ thống này

s giúp sinh vi n lựa ch n được nh ng môn h c th o đúng ràng uộc của chương trình đào tạo và phù hợp với năng lực của h Hệ thống được chia làm phần: chương trình ự đo n ết quả h c tập sinh vi n được x y ựng tr n nền s top và chương trình lập ế hoạch h c tập cho sinh vi n c t ch hợp hệ thống gợi được

x y ựng trên nền w

Trang 7

ABSTRACT

Recently the number of probation and expelled students seem to be increased One of the reasons is that the students could not predict their performance as well as select inappropriate subjects to establish their learning plan which is suitable for their ability This is a heavy loss for the students, their families, schools and society

In order to mitigate this critical issue, we propose "A system for course result prediction and recommendation using matrix factorization" The idea is based on the grading data that is collected from grading management system, we use Biased Matrix Factorization (BMF) technique to predict the student results which acts as the basis for selection of appropriate subjects Besides, we also use MyMediaLite (an open source recommendation library) for integrating into the proposed system The system is divided into two main parts: the course result prediction program should be built on the desktop application and academic planning for students with integrated recommeder system should be built on the web application

Trang 8

C C

Ờ C ĐO N i

LỜI CẢ ƠN ii

LỜI MỞ ĐẦU iii

T T T iv

ABSTRACT v

C C vi

DANH M C HÌNH viii

DANH M C BẢNG ix

DANH M C TỪ VIẾT T T x

DANH M C KÝ HIỆU xi

C ƯƠN 1 ỚI THIỆU TỔNG QUAN 1

1.1 iới thiệu t ng quan v o chọn đ t i 1

1.1.1 iới thiệu t ng quan 1

1.1.2 Đ t v n đ v hướng gi i qu t 2

1.1.3 o chọn đ t i 4

1.2 c đ ch 5

1.3 Đối tư ng v ph m vi nghiên c u 5

1.4 ngh a hoa học v thực tiễn c a đ t i 5

1.5 ố c c u n v n 6

C ƯƠN 2 Ệ THỐNG GỢI Ý VÀ NHỮNG NGHIÊN CỨU LIÊN QUAN 7

2.1 Hệ thống g i ý 7

2.1.1 Giới thiệu hệ thống g i 7

2.1.2 Gi i thu t dự đoán cơ sở 9

2.1.3 Gi i thu t Matrix Factorization 9

2.1.4 i i thu t Biased – Matrix Factorization 11

2.2 Thư viện m ngu n mở 13

2.3 Các hướng nghiên c u iên quan 15

C ƯƠN 3 CÀ ĐẶT VÀ ĐÁN Á ẢI THU T 16

3.1 C i đ t gi i thu t 16

3.2 Đánh giá gi i thu t 17

3.2.1 Các phương pháp đánh giá gi i thu t 17

3.2.2 Tìm ki m siêu tham số 17

Trang 9

3.3 K t qu v đánh giá gi i thu t 18

3.3.1 K t qu 18

3.3.2 Đánh giá 19

C ƢƠN 4 X Y ỰNG HỆ THỐNG DỰ ĐOÁN KẾT QUẢ HỌC T P VÀ GỢI Ý LỰA CHỌN MÔN HỌC 20

4.1 Xử lý dữ liệu 20

4.1.1 Khử nhiễu 20

4.1.2 Chuyển đ i dữ liệu 20

4.1.3 Đƣa ữ liệu v định d ng c a thu t toán 21

4.2 ệ thống ự đoán t qu học t p c a sinh viên 21

4.2.1 Bài toán dự đoán t qu học t p sinh viên 21

4.2.2 Tích h p thƣ viện MYMEDIALITE vào bài toán 23

4.3 Hệ thống g i ý lựa chọn môn học 25

4.3.1 ệ thống p ho ch học t p 25

4.3.2 Tích h p hệ thống g i ý vào website l p k ho ch học t p 27

4.4 Ph n t ch v thi t hệ thống 28

4.4.1 Ph n t ch hệ thống 28

4.4.2 Thi t v c i đ t hệ thống 46

C ƢƠN 5 KẾT LU N VÀ ƢỚNG PHÁT TRIỂN 56

5.1 K t u n 56

5.1.1 K t qu đ t đƣ c 56

5.1.2 Những việc chƣa m đƣ c 56

5.1.3 ƣớng gi i qu t v n đ chƣa m đƣ c 56

5.1.4 K t u n 57

5.2 ƣớng phát triển 57

Tài liệu tham khảo 59

Trang 10

DANH M C HÌNH

Hình - : Sự tương đ ng gi a hệ thống RS và hệ thống ự đo n ết quả h c tập 8

Hình - : Mô hình ph n rã ma trận 9

Hình - : C ch ự đo n cho sinh vi n h c môn n 13

Hình - : ng ụng mo của MyMediaLite 3.09 14

Hình - : ảng so s nh độ l i RMS của c c giải thuật ự đo n 19

Hình - : Sơ đ lớp li n quan đến liệu điểm (ratings) 21

Hình - : liệu điểm với a môn cần ự đo n của sinh vi n sv 22

Hình - : ảng điểm sau hi ự đo n và hướng gợi 22

Hình - : Kiến trúc của thư viện MML 24

Hình - : Sơ đ li n quan đối tượng ratings 24

Hình - : C c đối tượng li n quan đối tượng giải thuật M 25

Hình - : Sơ đ us cas hệ thống ự đo n 28

Hình - : Sơ đ us hệ thống gợi lựa ch n môn h c 28

Hình - : Sơ đ tuần tự ự đo n ết quả 37

Hình - : Sơ đ tuần tự sửa ế hoạch h c tập 38

Hình - : Mô hình liệu mức luận l của chương trình đào tạo 39

Hình 4- : Sơ đ tổng thể của hệ thống 47

Hình - : Sơ đ tương t c gi a c c thành phần (sit map) 48

Hình - : Giao iện chương trình huấn luyện và ự đo n 49

Hình 4-20: Giao diện đăng nhập 50

Hình 4-21: Giao diện quản lý môn h c 50

Hình 4-22: Quản lý môn h c bắt buộc 51

Hình 4-23: Quản l chương trình đào tạo và chương trình giảng dạy của khóa tuyển sinh 51

Hình 4-24: Lập kế hoạch h c tập và tạo kế hoạch h c tập mẫu từng h c kỳ 52

Hình 4-25: Thêm mới kế hoạch h c tập h c kỳ 52

Hình 4-26: Thêm môn h c vào kế hoạch h c tập h c kỳ 53

Hình 4-27: Giao diện xem kế hoạch h c tập 53

Hình 4- : Đ ng mở thời gian lập kế hoạch h c tập 54

Hình 4- : Qui đ nh số tín chỉ tối đa tối thiểu trong cho từng sinh viên 54

Hình 4- : Qui đ nh sô tín chỉ tối đa và tối thiểu cho h c kỳ tất cả sinh viên 55

Trang 11

DANH M C BẢNG

ảng - : Mô tả thông tin ảng ADMIN 40

ảng - : Mô tả thông tin ảng BAC_DAO_TAO 40

ảng - : Mô tả thông tin ảng C N O QU N LY 40

ảng - : Mô tả thông tin ảng CO_VAN_HOC_TAP 40

ảng -5: Mô tả thông tin ảng CON NGUOI 40

ảng - : Mô tả thông tin ảng CT T (Chương trình đào tạo) 40

ảng - : Mô tả thông tin ảng CTG (Chương trình giảng ạy) 41

ảng - : Mô tả thông tin ảng DON_VI_QUAN_LY 41

ảng - : Mô tả thông tin ảng DON_VI_TC 41

ảng - : Mô tả thông tin ảng HOC_KY_KHHT 41

ảng - : Mô tả thông tin ảng HOC KY KHHT CO MON HOC 42

ảng - : Mô tả thông tin ảng HOCKY NI NKHO 42

ảng - : Mô tả thông tin ảng K HO CH HOC T P 42

ảng - : Mô tả thông tin ảng KHHT M U 42

ảng - : Mô tả thông tin ảng KHO TS 42

ảng - : Mô tả thông tin ảng KHOI KI N THUC 43

ảng - : Mô tả thông tin ảng LO I ON VI TC 43

ảng - : Mô tả thông tin ảng LO I KHOI KI N THUC 43

ảng - : Mô tả thông tin ảng LO I NHOM MON HOC 43

ảng - : Mô tả thông tin ảng LOP QU N LY 43

ảng - : Mô tả thông tin ảng MON HOC 44

ảng - : Mô tả thông tin ảng 44

ảng - : Mô tả thông tin ảng MON HOC NHOM TU CHON 44

ảng - : Mô tả thông tin ảng MON HOC TI N QUY T 44

ảng - : Mô tả thông tin ảng NG NH 44

ảng - : Mô tả thông tin ảng NGUOI UNG 45

ảng - : Mô tả thông tin ảng NHOM MON HOC 45

ảng - : Mô tả thông tin ảng NHOM MON TU CHON 45

ảng - : Mô tả thông tin ảng NHU C U HOC 45

ảng - : Mô tả thông tin ảng NI N KHO HOC KY 45

ảng - : Mô tả thông tin ảng PH N QUY N 46

ảng - : Mô tả thông tin ảng R NG UOC HOC 46

ảng - : Mô tả thông tin ảng SINH VI N 46

ảng - : Mô tả thông tin ảng THOI H N 46

Trang 12

CT T: Chương trình đào tạo

ECMA: (European Computer Manufacturers Association)

KHHT: Kế hoạch h c tập

KHGD: Kế hoạch giảng dạy

MAE: Mean Absolute Error

Trang 13

p hay psi điểm số của sinh vi n s cho môn h c i

^ p hay ^ psi điểm ự đo n của sinh vi n s cho môn h c i

Trang 14

C ƯƠN 1 GIỚI THIỆU TỔNG QUAN

1.1 iới thiệu t ng quan v o chọn đ t i

1.1.1 iới thiệu t ng quan

Hiện nay nhiều trường cao đẳng, đại h c trên cả nước đã chuyển qua hình thức đào tạo theo h c chế tín chỉ Với hình thức này, nhiều trường đại h c nói chung và Đại h c Cần Thơ n i ri ng đã g p rất nhiều h hăn c ng như tốn rất nhiều thời gian và công sức trong công tác cố vấn h c tập cho sinh viên

Đại h c Cần Thơ c hoảng 200 sinh viên b buộc thôi h c trên một năm số lượng sinh viên buộc thôi h c này ngày càng tăng và thường tập trung vào nh ng sinh vi n năm thứ a và năm cuối Nh ng sinh viên h c ở năm thứ nhất và năm thứ hai thường ít b buộc thôi h c o chưa c nhiều môn lựa ch n Khi sinh vi n ước vào năm h c thứ ba ho c thứ tư thì số lượng môn lựa ch n ngày càng nhiều, nếu lựa

ch n nh ng môn h c không phù hợp với từng sinh viên thì s dẫn đến kết quả xấu

và dần dần ảnh hưởng đến kết quả của toàn khóa h c Với kết quả b buộc thôi h c

ở nh ng sinh vi n năm a và năm cuối là một tổn thất lớn của sinh vi n gia đình và còn là gánh n ng của nhà trường, của toàn xã hội Nhu cầu cấp thiết nhất đ t ra là cần có sự tư vấn tốt cho sinh vi n c được nh ng lựa ch n môn h c phù hợp với từng sinh viên

Vai trò của cố vấn h c tập ngày càng được chú tr ng đòi hỏi nhiều thông tin

và inh nghiệm ở cố vấn h c tập M i nhóm sinh viên thì cần một cố vấn h c tập Công việc của cố vấn h c tập phải thường xuy n th o õi và đ nh gi năng lực,

c ng như thường xuy n th o õi điểm số của sinh vi n chương trình đào tạo đ ng thời gợi ý nh ng môn h c tự ch n phù hợp cho từng sinh vi n th o từng h c ỳ từng năm h c Công việc này đòi hỏi tốn nhiều tiền của, thời gian và công sức, cố vấn h c tập phải nghiên cứu, theo dõi, thống điểm số của từng sinh vi n th o từng h c ỳ năm h c đ nh gi năng lực và quan t m nh ng vấn đề sư phạm trước

hi đưa ra gợi ý lựa ch n môn h c Đôi hi sinh viên nhận được gợi ý thiếu chính xác vì phụ thuộc chủ quan của cố vấn h c tập

Th m vào đ hiện nay hệ thống gợi c ng được ứng dụng rộng rãi trong nhiều lĩnh vực đ c biệt là thương mại điện tử Tuy nhiên, gần đ y nhiều nhà nghiên cứu bắt đầu quan tâm ứng dụng trong lĩnh vực giáo dục Nhiều hướng nghiên cứu ứng dụng khai thác d liệu giáo dục c ng ần mở rộng Nhiều nước trên thế giới đã nghiên cứu và phát triển hệ thống gợi và đ nh gi năng lực của sinh viên nhằm nâng cao chất lượng giáo dục Với xu thế phát triển nhanh chóng của hệ thống gợi ý

Trang 15

(Recommender System) và nhu cầu ứng dụng hệ thống gợi ý trong giáo dục nói chung và đào tạo theo h c chế tín chỉ nói riêng ngày càng cấp thiết

1.1.2 Đ t v n đ v hướng gi i qu t

1.1.2.1 Đ t v n đ

Đào tạo theo h c chế tín chỉ là một thách thức cho nhà trường, giảng viên và

kể cả sinh viên Nhà trường cần có giảng viên có nhiều kinh nghiệm, thời gian, và tâm huyết để tổng hợp thống điểm số của sinh vi n ph n t ch đ nh gi năng lực, nghiên cứu chương trình đào tạo và cuối c ng là đưa ra môn h c phù hợp nhất cho sinh viên Với nhu cầu này c c trường đại h c đã c sẵn d liệu điểm môn h c của

c c sinh vi n trong toàn trường Vấn đề thứ nhất đ t ra là chúng ta phải sử dụng ngu n d liệu điểm sinh vi n để hai th c ph n t ch và đưa ra đ nh gi sinh vi n để

có thể gợi ý cho sinh viên lựa ch n môn h c tự ch n một cách hiệu quả bằng hệ thống tin h c Nếu ứng dụng thành công hệ thống này s tiết kiệm được nhiều thời gian, công sức cho cố vấn h c tập và kể cả sinh viên

Vấn đề thứ hai đ t ra là chúng ta phải làm sao đ nh gi ch nh x c năng lực của sinh viên một cách khách quan Nh ng đ nh gi đòi hỏi phải được xem xét nhiều khía cạnh, nhiều đối tượng sinh viên, nhiều môn h c, nhiều giảng viên giảng dạy Thật vậy, nếu chúng ta dựa trên d liệu của nhóm sinh viên có sở trường về một môn h c nào đ thì s được đ nh gi cao còn nh ng nhóm sinh viên khác s g p

h hăn C ng như sự phụ thuộc vào môn h c c nh ng môn h c y u cầu cao, có

nh ng môn h c y u cầu thấp đối với sinh viên

Vấn đề thứ ba là phải xử lý các d liệu có sẵn của trường đại h c và xử lý các

d liệu đ th o đ nh dạng có thể hai th c được Hiện nay, d liệu điểm của các trường đại h c đều sẵn c nhưng chưa được khai thác tốt Trước quá trình khai thác, chúng ta cần xử lý nhi u và đưa về dạng phù hợp để sẵn sàng triển khai hệ thống gợi ý

Vấn đề thứ tư là o c c trường đại h c có số lượng lớn sinh vi n đăng môn

h c trong thời gian ngắn và cần sự cố vấn, gợi ý lựa ch n nhanh chóng và phải chính x c đến từng sinh vi n o đ chúng ta phải xây dựng hệ thống này trên một website với giao diện đơn giản, tiện lợi cho sinh viên tham khảo nhưng đảm bảo yếu tố chính xác của gợi ý

Vấn đề thứ năm là sinh vi n mới vào trường ở h c kỳ trong năm h c đầu

ti n C c trường đại h c đã lập sẵn kế hoạch h c tập cho h c kỳ 1 của sinh vi n năm nhất n n đề tài này không g p phải vấn đề sinh viên mới (new user)

Trang 16

Vấn đề thứ s u là ph t sinh môn h c mới trong chương trình đào tạo vấn đề này c ng rất ít xảy ra Do không phải là mục ti u ch nh đề tài s giải quyết vấn đề này bằng phương ph p nền (baseline) [29]

Vấn đề thứ ảy là tự cập nhật cho hệ thống gợi Qu trình đăng môn h c

và cần gợi của cố vấn h c tập chỉ xảy ra trong hoảng thời gian nhất đ nh mà nhà trường thông o n n hệ thống chỉ cần cập nhật một lần trước thời gian đăng h c phần o hệ thống cơ sở liệu quản l điểm của Đại h c Cần Thơ chưa cho ph p

ết nối trực tiếp từ hệ thống h c n ngoài, hiện tại chúng tôi phải sử ụng điểm số

tr n nh ng tệp ( ata as il - oxPro) được tr ch xuất ra sau m i lần nhà trường cập nhật điểm

Luận văn s mô tả được hệ thống cơ sở liệu th o hệ thống t n chỉ ( ao g m

nh ng môn h c ti n quyết môn h c trước môn h c ắt uộc số môn h c tự

ch n…) c ng với nh ng ràng uộc toàn v n Luận văn s x y ựng được hệ thống gợi ph hợp th o chương trình đào tạo và ph hợp t nh sư phạm

Th m vào đ luận văn c ng s giải quyết được vấn đề ph t sinh môn h c mới trong chương trình đào tạo và hệ thống s đ p ứng được nhu cầu gợi cho nh ng môn h c mới này

Bên cạnh đ luận văn s giải quyết vấn đề d liệu khách quan nhằm đưa ra gợi ý chính xác nhất cho sinh viên Giảm bớt sự ch nh lệch gi a nh ng y u cầu cao thấp h c nhau của c c môn h c C ng nhưng giảm thiểu sự gợi ý sai lệch do nhìn nhận từ nh ng sinh viên có sở trường hay sở đoản đối với môn h c nào đ

Và cuối cùng, luận văn s cung cấp cho sinh viên một hệ thống w sit đơn giản và phối hợp nhiều gợi để sinh viên có thể lựa ch n môn h c tự ch n thích hợp để giảm bớt áp lực, thời gian, công sức của cố vấn h c tập và sinh vi n c ng như của cả nhà trường

Cụ thể luận văn cần đạt các yêu cầu sau:

- Xử lý d liệu điểm trước khi áp dụng vào hệ thống gợi ý

- Xây dựng giải thuật Biased – Matrix Factorization

Trang 17

- Tìm kiếm siêu tham số (Hyper Parameters)

- Giải quyết bài toán môn h c mới (New Item)

- Dự đo n ết quả của sinh vi n đối với môn lựa ch n đ

- Đ nh gi ết quả thực nghiệm

- X y ựng cơ sở liệu hệ thống gợi lựa ch n môn h c

- Xây dựng website gợi ý tổng hợp cho sinh vi n trước hi đăng h c phần

1.1.3 o chọn đ t i

Việc sinh vi n được lựa ch n nh ng môn h c mình y u th ch, tạo ra một không gian rộng rãi cho phép giảng viên và sinh viên tập trung vào nh ng chuyên ngành h p và sâu, vốn là m i nh n của nghiên cứu khoa h c trong m i lĩnh vực

Đ y c ng là điểm mạnh và c ng là điểm yếu hi sinh vi n thường lựa ch n sai môn

h c ẫn đến ết quả thấp thậm ch ẫn đến uộc thôi h c Với kết quả b buộc thôi h c là một tổn thất lớn của sinh vi n gia đình và còn là g nh n ng của nhà trường, xã hội Để giải quyết nguy n nh n chủ yếu này là cần có sự gợi tốt cho

m i sinh vi n c được nh ng lựa ch n môn h c phù hợp

Hệ thống gợi ý (Recommender System - RS) hiện đang được ứng dụng rộng rãi trong nhiều lĩnh vực đ c biệt là thương mại điện tử Gần đ y nhiều nhà nghiên cứu bắt đầu quan tâm việc ứng dụng RS vào lĩnh vực giáo dục Đ c iệt hướng tiếp cận ias Matrix actorization ( M ) đang là một trong nh ng stat -of-the-arts (tuyệt tác) của RS

n cạnh đ ở một số trường đại h c đã x y ựng c c hệ thống lập ế hoạch

h c tập thu thập được nhu cầu h c từ hệ thống này làm cơ sở cho phòng đào tạo sắp xếp thời h a iểu tuy nhi n c c hệ thống này lại chưa c t ch hợp chức năng gợi (một trong nh ng nguy n nh n g y lựa ch n sai môn h c) n cạnh nh ng nghi n cứu hệ thống gợi về gi o ục hiện nay chỉ ừng lại ở đ nh gi giải thuật mà chưa

t ch hợp vào một hệ thống lập ế hoạch h c hay hệ thống đăng h c phần nào

Th m vào đ , cơ sở liệu về ết quả h c tập của sinh vi n ở c c trường đại h c đang được lưu tr rất lớn nhưng chưa được hai th c tốt

Từ nhu cầu cấp thiết về việc ự đo n ết quả h c tập sinh vi n gợi lựa ch n môn h c và nh ng thực trạng h hăn hiện nay trong công t c quản l gi o ục Với mong muốn của luận văn s giải quyết vấn đề t nh cấp thiết trong hoàn cảnh hiện nay và nhằm giúp hệ thống tư vấn cho sinh vi n ngày càng tốt hơn Đ y c ng

là l o tôi ch n đề tài này

Trang 18

1.2 c đ ch

Luận văn tập trung hai th c thông tin điểm số của sinh viên từ đ đưa ra được kết quả dự đo n Từ nh ng kết quả dự đo n này làm cơ sở cho sinh viên lựa ch n môn h c ph hợp

Luận văn s xây ựng cơ sở liệu quản l ế hoạch h c tập c t ch hợp hệ thống gợi nhằm giúp hệ thống đã đề xuất ph hợp với ràng uộc của chương trình đào tạo

Bên cạnh đ luận văn s giải quyết vấn đề d liệu khách quan nhằm đưa ra gợi ý chính xác cho sinh viên, giảm bớt sự ch nh lệch gi a nh ng y u cầu cao thấp

h c nhau của c c môn h c, c ng như giảm thiểu sự gợi ý sai lệch do nhìn nhận từ

nh ng sinh viên có sở trường hay sở đoản đối với môn h c nào đ

Và cuối cùng, luận văn s cung cấp một hệ thống w sit đơn giản để gợi ý cho sinh viên lựa ch n môn h c tự ch n thích hợp, nhằm giảm bớt áp lực, thời gian, công sức của sinh viên, cố vấn h c tập và nhà trường

1.3 Đối tư ng v ph m vi nghiên c u

- Đối tượng (vấn đề) nghi n cứu:

o ài to n ự đo n ết quả h c tập của sinh vi n

o Tìm hiểu và ứng ụng giải thuật ự đo n của RS

o X y ựng hệ thống gợi lựa ch n môn h c

- Phạm vi:

o liệu hai th c là ựa tr n điểm số

o liệu thu thập của khoa CNTT&TT, Đại h c Cần Thơ

o Thời gian của liệu điểm số: từ năm -2004

1.4 ngh a hoa học v thực tiễn c a đ t i

Đề tài c nghĩa khởi đầu cho việc ứng ụng công nghệ gợi vào giải quyết vấn đề mới chưa được giải quyết th o c ch này Hướng giải quyết gợi cụ thể ở tương lai hông ừng lại ở ph n t ch năng lực của h trong qu hứ

Về nghĩa thực ti n khi x y ựng thành công hệ thống đề xuất, số lượng sinh

vi n cảnh c o h c vụ và uộc thôi h c s được giảm ớt nhà trường s giảm được nhiều chi ph và công sức cho sinh vi n cố vấn h c tập và nhà trường Hướng sinh vi n ph t triển được năng lực tr n sở th ch của h

Trang 19

1.5 ố c c u n v n

Chương : L do và tính cấp thiết để thực hiện đề này Đề tài mang nghĩa khoa h c và thực ti n như thế nào đề tài nhằm mục đ ch gì và nh ng mục tiêu cần đạt được trong luận văn n cạnh đ trong chương này còn trình ày nh ng vấn đề

cụ thể cần giải quyết và hướng giải quyết vấn đề

Chương : Giới thiệu hệ thống gợi ý và nh ng giải thuật dự đo n c li n quan như: c c giải thuật dự đo n cơ sở, phân rã ma trận (Matrix Factorization) và Biased- Matrix Factorization (BMF) và luận văn s sử dụng giải thuật BMF này làm giải thuật ứng dụng chính cho hệ thống đã đề xuất Bên cạnh đ chúng tôi còn giới thiệu nh ng t nh năng ưu việt của thư viện ngu n mở MyMediaLite (MML), khi sử dụng MML s giảm đ ng ể thời gian cài đ t giải thuật dự đo n trong RS

Chương : Cài đ t giải thuật Biased-Matrix Factorization, c c phương ph p

đ nh gi giải thuật phù hợp cho bài toán ratings prediction (bài toán dự đo n từ

nh ng phản h i tường minh) Trong c c phương ph p đ phương ph p đo độ l i RMS để đ nh gi giải thuật là phù hợp nhất Khi chạy giải thuật thì chúng ta cần tìm các tham số đầu vào thích hợp để đ p ứng nhu cầu này nh ng phương ph p tìm tham số c ng được trình ày trong chương này

Chương : Sau khi tìm hiểu hệ thống gợi ý và các nghiên cứu liên quan, hệ thống dự đo n ết quả h c tập và gợi ý lựa ch n môn h c được đề xuất trong chương này ao g m cả phần phân tích và thiết kế hệ thống

Chương : Nh ng kết quả đạt được, thảo luận nh ng vấn đề h hăn thuận lợi và cuối c ng đưa ra nh ng hướng phát triển trong tương lai từ nh ng t n tại chưa được giải quyết trong luận văn này

Trang 20

C ƯƠN 2 HỆ THỐNG GỢI Ý VÀ NHỮNG NGHIÊN CỨU LIÊN QUAN

2.1 Hệ thống g i ý

2.1.1 Giới thiệu hệ thống g i

Hiện nay h ch hàng thường qu tải khi lựa ch n nh ng sản ph m được cung cấp tr n int rn t Nh ng nhà inh oanh trực tuyến hay nh ng nhà cung cấp thông tin trực tuyến đã đưa ra một số lượng sản ph m, tin tức hổng l Đ y là một

cơ hội để nh ng nhà inh oanh này đ p ứng y u cầu và sở th ch của h ch hàng Kết nối h ch hàng đến nh ng sản ph m ph hợp là chìa h a để n ng cao sự hài lòng của h ch hàng c ng như sự trung thành của h ch hàng với thương hiệu và sản ph m của h Vì vậy nhiều nhà inh oanh trực tuyến đã trở n n th ch thú với

hệ thống RS này, vì n c thể ph n t ch được đ c điểm nhu cầu của h ch hàng để

c nh ng tư vấn ph hợp với sở th ch của h ởi vì sự tư vấn tốt s mở ra hướng mới cho người ng c inh nghiệm c p để thỏa sức h m ph

Người ta nhận thấy có sự quan tâm ngày gia tăng về các hệ thống gợi (Recommender Systems - RS) trong hai thập kỷ qua [6], kể từ khi xuất hiện bài báo đầu tiên về chủ đề này vào gi a thập niên 1990 [24] RS được ph t triển rộng rãi ở nhiều lĩnh vực đ c iệt là thương mại điện tử Tuy vậy RS vẫn hông ngừng ph t triển và được nhiều nhà nghi n cứu quan t m ởi vì c rất nhiều vấn đề cần nghi n cứu được đ t ra và sự phong phú của nh ng ứng ụng RS trong thực tế nhằm giúp con người ra quyết đ nh trước sự qu tải thông tin và nhận được lời tư vấn ph hợp với h V ụ về nh ng ứng ụng hệ thống gợi ý như: giới thiệu s ch C c c loại sản ph m tại amazon com nh ng ộ phim tại movi l ns tin tức tại V RSI I Technologies (versifit.com), nh ng vi o ở youtu com …

Các tài nguyên có thể là bất kỳ kiểu gì như phim m nhạc, sách, trang web, tin tức trực tuyến, truyện cười, nhà hàng, đ a điểm u l ch thậm chí là phong cách sống, Các hệ thống gợi h trợ người dùng tìm thấy đúng tài nguy n mà h quan tâm dựa trên các thông tin cá nhân của h ho c nh ng đ nh gi phản h i (f ac s) được thu thập theo hình thức tường minh (explicit) ằng c ch yêu cầu người dùng đ nh gi ho c hông tường minh (implicit) ằng sự tự động suy luận dựa trên nh ng tương t c của người dùng với hệ thống như: clic chuột, thời gian quan sát, việc đ t hàng,

Có hai cách tiếp cận chính trong các hệ thống tư vấn [24][10][19]:

- L c dựa trên nội dung (content-based filtering - CB)

- L c cộng tác (collaborative filtering - CF)

Trang 21

Các hệ thống CB thực hiện việc tư vấn một tài nguy n đến người dùng dựa trên việc so s nh độ tương đ ng gi a nội dung tài nguyên và các đ c trưng của người dùng, nh ng tài nguy n c độ tương đ ng cao s được ch n để tư vấn Ví dụ, một người thích phim khoa h c vi n tưởng thì nh ng phim có nội dung liên quan đến khoa h c vi n tưởng s được tư vấn đến người ng đ

Các hệ thống CF thực hiện việc tư vấn một tài nguy n đến một người dùng dựa trên sở thích của nh ng người ng tương đ ng với người dùng đ Nếu phần lớn nh ng người ng tương đ ng với người ng u th ch tài nguy n i thì i c ng s được tư vấn đến u Tập hợp nh ng người ng tương đ ng nhau tạo thành cộng

đ ng

Gần đ y việc p ụng RS vào gi o ục đ c biệt là trong dự đo n ết quả h c tập của sinh vi n c ng được đầu tư nghi n cứu và ph t triển ởi sự tương đ ng gi a bài toán dự đo n ết quả h c tập của sinh vi n trong hệ thống e-learning và bài toán

dự đo n xếp hạng trong trong hệ thống gợi Sinh vi n h c tập c c môn h c s c điểm số người ng mua sản ph m s c đ nh gi sản ph m ình ch n sản ph m

th ch ộ phim hay ài h t v v X m h nh 2-1 thể hiện việc tương đ ng gi a hai hệ

thống -l arning và hệ thống gợi c ng như hai ài to n ự đo n ết quả h c tập và

ài to n xếp hạng sản ph m Đ y là cơ sở điều iện để chúng ta ứng ụng RS vào hai th c liệu gi o ục nhằm giải quyết vấn đề cấp thiết hiện nay hi sinh vi n lựa ch n môn h c ở m i h c ỳ

nh 2-1 Sự tương đ ng giữa hệ thống RS v hệ thống ự đoán t qu học t p

Trang 22

2.1.2 Gi i thu t dự đoán cơ sở

C ch đơn giản đầu ti n mà chúng ta c thể ự đo n được đ là phương ph p

t nh trung ình toàn cục (Glo al Average) [29 Thật vậy phương ph p này t nh trung ình tất cả c c us r đ nh gi tr n tất cả cả c c sản ph m và sau đ lấy gi tr trung ình này làm gi tr ự đo n cho tập iểm tra

Phương ph p thứ hai được cải tiến hơn trong nh m c c phương ph p ự đo n

cơ sở là Us r v rag phương ph p này c ng gần giống với phương ph p trung ình toàn cục nhưng được cải iến hơn mô hình toàn cục là t nh gi tr trung ình

tr n từng người ng th o công thức sau:

p p

train

s s D p i s s

Tương tự như t nh gi tr trung ình tr n từng us r phương ph p tiếp cận thứ

a là It m v rag phương ph p này lại t nh trung ình tr n từng it m

' ,

Trang 23

K S

H   

K: là số nhân tố tiềm n (latent factors) K << |S|; K << |I |

Công thức dự đo n và đo độ l i là:

2 si si test p pˆ

|D

|

1

RMSE

(4)Trong giải thuật ph n rã ma trận (Matrix actorization) chúng ta thực hiện huấn luyện sao cho tìm được hai ma trận W và H được tối ưu theo một điều kiện nào đ (chẳng hạn như RMS ) Phương ph p thực hiện là chúng ta hởi tạo ma trận với c c gi tr trong ma trận này là ngẫu nhi n th o ph n phối chu n với độ lệch chu n là Ở đ y hàm mục tiêu cần tối ưu là:

si

MF

e

),,(

si si

e

1

2 2

2

) (

) ˆ (

ik si si

ik si si

sk

h p p

h e e

sk si si

ik

w p p

w e e

h 2   2   2 (  ˆ )

(9) Tiếp th o chúng ta cần giảm thiểu tối đa độ l i này và cập nhật gi tr lại cho

Wsk và Hik được l p đi l p lại (tối ưu hóa bằng kỹ thuật stochastic gradient descent [Bottou, 2004])

ik si si sk

ik si sk

si sk sk

w w

Trang 24

sk si si ik

sk si ik

si ik ik

h h

Hàm mục tiêu cần tối ƣu y giờ là:

K

ik sk si

BMF

H W

h p

) ,

2 2

Quá trình dự đo n: Sau qu trình huấn luyện ta đƣợc ma trận W và H đã tối

ƣu thì qu trình ự đo n đƣợc thực hiện Qu trình ự đo n đƣợc t nh và iểu i n nhƣ sau:

2.1.4 i i thu t iased – Matrix Factorization

ựa vào c c h i niệm cơ sở của giải thuật Matrix actorization (M ) và th m

gi tr lệch ( ias) vào M để đƣợc giải thuật M [ Để ự đo n đƣợc năng lực của sinh vi n s cho môn h c i đƣợc iểu i n với công thức sau:

Trang 25

) (

) , ,

Gi tr i là độ lệch của môn h c (là gi tr lệch trung ình của y u cầu môn

h c so với gi tr trung ình toàn cục)

s i p D i i

p i i D p i s

) (

) , ,

ik sk i

s si

BMF

b b H W

h b

b p

)

,

2 2 2 2

sie

Trang 26

) 2

(

h     

Qu trình ự đo n: Sau qu trình huấn luyện ta được ma trận W và H đã tối

ưu thì qu trình ự đo n được thực hiện Qu trình ự đo n được t nh và iểu i n như Hình :

nh 2-3 Cách ự đoán cho sinh viên 4 học m n n2

h c là môn tự ch n mà sinh vi n chưa c điểm môn h c đ Sau hi ự đo n hết tất

cả cột điểm môn tự ch n của tất cả sinh vi n thì chúng ta đưa ết quả ự đo n này vào ảng matrix pr iction ao g m cột (i sinhvi n i monhoctuchon

i m u oan) để àng sử ụng cho gợi

2.2 Thư viện m ngu n mở

MyM iaLit là một thư viện được thiết ế nhỏ g n (hệ thống cốt lõi hoảng

K ) và linh động phục vụ nhiều t y ch n sử ụng của c c giải thuật giải quyết

ài to n hệ thống gợi Thư viện được viết ằng ngôn ng C nhưng vẫn c h trợ

t ch hợp c c thư viện ngôn ng h c như Ru y Python MyM iaLit được thiết ế tr n nền tảng N T với g i ph t triển Mono (Mono là một triển khai ngu n

mở của Microsoft NET Framework dựa trên các tiêu chu n ECMA, European Computer Manufacturers Association, cho C và Common Languag Runtim ) thư viện chạy được tr n m i hệ điều hành c h trợ ởi Mono như: UNIX Win ows Mac OS X

Thư viện MyM iaLit [15] đề cập đến hai ạng ài to n ự đo n thông ụng nhất của nh m giải thuật l c cộng t c là: ự đo n từ đ nh gi tường minh – xplicit

f ac s (tức là người ng s đ nh gi mức đến cho một sản ph m một c ch tường minh) và ự đo n từ phản h i ngầm đ nh – implicit f ac s (tức là ự đo n

Trang 27

từ nh ng phản h i ngầm đ nh như: số lần nhấp chuột số lần th ch ho c từ c c hoạt động đã mua hàng thời gian quan s t sản ph m )

MML cài đ t ứng ụng MyM iaLit Movi mo (h nh 2-4) sử ụng giải

thuật M với liệu Movi L ns để minh h a ài to n gợi Với ứng ụng này c

sử ụng cập nhật onlin hi chúng ta nhập một gi tr đ nh gi mới hệ thống s huấn luyện lại

M tho s …

n cạnh đ thư viện còn cung cấp nhiều phương ph p đ nh gi giải thuật trong RS phổ iến cho ạng ài to n Rating Pr iction và It m Pr iction như:

M RMS C UC pr c N M P an N CG MyM iaLit h trợ c c phương thức đ c liệu đầu vào với nhiều liệu h c nhau: ata as tập tin t xt với nhiều đ nh nghĩa ạng liệu h c nhau

Trang 28

Th m vào đ thư viện còn cung cấp nhiều t nh năng mở rộng như: h trợ lưu

tr mô hình ự đo n ự đo n onlin ự đo n song song và tuần tự đa ạng h a

c c thuộc tính dựa tr n phương ph p gợi

2.3 Các hướng nghiên c u iên quan

Một số nghiên cứu giải quyết vấn đề về ự đo n ết quả h c tập sử dụng tiếp cận luật kết hợp và một số cải tiến (L Thanh Minh [2]; Huỳnh Lý Thanh Nhàn, 2008; [1 ) n cạnh đ việc ph n t ch ằng nhiều kỹ thuật khai phá d liệu

để dự đo n ết quả h c tập của sinh vi n c ng được nghi n cứu và thực hiện (Nguy n Thái Nghe, 2006 [4]; Nguy n Th Thanh Thủy, 2012 [5 ) Tuy nhi n

nh ng hướng tiếp cận này thường p ụng cho việc đ nh gi năng lực h c tập cho

h c sinh sinh vi n Sau hi đ nh gi thì nh ng ự đo n này mang t nh chất là quy luật chung nhất chúng hông ự đo n cho từng sinh vi n cụ thể

Một số tiếp cận RS được đề xuất để giải quyết vấn đề dự đo n năng lực cho từng sinh vi n cụ thể đã được đưa ra: L c cộng t c KNN Matrix actorization để

dự đo n năng lực h c tập của sinh vi n ( ll Koren, 2007; Koren et al., 2009 [29]; Rendle & Schmidt-Thieme, 2008, Nguyen Thai-Nghe et al., 2011 [27][28]) Tuy vậy, nh ng nghiên cứu này đa phần mới chỉ dừng lại ở mức kiểm tra độ chính xác của giải thuật và chưa được ứng dụng để giải quyết vấn đề thực tế

Nhiều đề xuất ứng ụng RS vào gi o ục sử ụng l c cộng t c và hệ thống luật suy luận của ani l L mir [9], Enric Mor [11 nhưng hầu hết c c nghi n cứu này đều chỉ ứng ụng công nghệ c cho hệ thống trợ giảng thông minh (Int llig nt Tutoring Syst ms - ITS) o ở Việt Nam c c hệ thống này chưa được ph t triển mà chỉ c thể hai th c được từ ngu n tài nguy n sẵn c là điểm sinh vi n

Trang 29

C ƢƠN 3 CÀ ĐẶT VÀ ĐÁN Á ẢI THU T

11 while (Stopping criterion is NOT met) do

12 Draw randomly from

Trang 30

3.2 Đánh giá gi i thu t

3.2.1 Các phương pháp đánh giá gi i thu t

C rất nhiều phương ph p c thể ng để đ nh gi hiệu quả của giải thuật gợi nhưng phải phụ thuộc vào ạng ài to n [ 8 o đ hi thực hiện đ nh giải thuật chúng ta cần ch n phương ph p ph hợp với giải thuật và cả liệu ài to n Tuy nhi n o ài to n ự đo n ết quả h c tập của sinh vi n thuộc ạng rating

pr iction ( ự đo n từ đ nh gi tường minh) n n c hai c ch đ nh gi ph hợp nhất là: Root M an Squar rror (RMS ) và M an solut rror (M ) được biểu

2 si si

| D

si si test p pˆ

| D

|

1

MAE

(28) Phương ph p RMS s th ch hợp với sai số nhỏ và M s th ch hợp với sai

số lớn hơn ph t iểu này được giải th ch trong [18]

Hơn n a, các giải thưởng lớn trong lĩnh vực RS đều ng RMS để đ nh gi như N tflix Priz K Cup

Từ hai nhận x t tr n chúng tôi đã ch n phương ph p RMS cho đ nh gi hiệu quả của giải thuật M trong ài to n ự đo n ết quả h c tập của sinh vi n

n cạnh đ để đ nh gi và iểm chứng cho ài to n ự đo n ết quả h c tập của sinh vi n chúng ta c thể sử ụng đo độ ch nh x c với độ lệch α cho ph p gi a

ết quả ự đo n và ết quả thực tế o ài to n ự đo n điểm sinh vi n c nhiều lựa

Trang 31

 (10-4 , 10-3 , 10-2 , 5*10-5 , 5*10-4 , 5*10-3)

 (15*10-4 , 15*10-3 , 55*10-5 , 55*10-4 ,55*10-3)

k  (22 , 23 , 24… 8)

ƣớc 2: Tìm m n các giá tr tham số sau hi tìm đƣợc giá tr các tham số k, ,

 tốt nhất Sau đ tìm l p lại tìm lân cận của các giá tr tìm đƣợc để tìm xem các giá tr lận cận của các tham số này có tốt hơn n a hay không

Ví dụ nhƣ ta tìm đƣợc k=23=8 là giá tr tốt nhất nhƣ vậy ta s tìm các giá tr k=6,7,8,9,10 trong lần tìm m n này

Quá trình này có thể l p lại tùy thuộc vào tập d liệu của ài to n

3.3 K t qu v đánh giá gi i thu t

3.3.1 K t qu

Nghi n cứu này chúng tôi sử ụng tập liệu điểm của hoa CNTT TT đƣợc thu thập năm từ năm đến năm Tập liệu ao g m sinh vi n ( us r) và môn h c ( it m) của ngành h c và g m điểm chi tiết ( ratings) Để đ nh gi hiệu quả của giải thuật chúng tôi sử ụng nghi thức iểm tra hol -out: lấy ngẫu nhi n tập liệu để h c và còn lại để iểm tra

Để cài đ t giải thuật M chúng ta cần c c tham số đầu vào , , iter nhƣ:

- Độ l i RMSE: 0.9186

- Thời gian huấn luyện: 18.72s

- Thời gian iểm tra: 0.147s

Về đo độ ch nh x c ta c ết quả nhƣ sau:

Với α ta đƣợc độ ch nh x c là

Trang 32

Từ iểu đ so s nh (h nh 3-1) cho thấy hi p ụng giải thuật M vào ài

to n ự đo n ết quả sinh vi n đạt độ l i RMS thấp nhất so với c c giải thuật h c (RMS của M là )

nh 3-5 ng so sánh đ i R S c a các gi i thu t ự đoán

Giải thuật ias Matrix actorization đang là một trong nh ng tuyệt t c của

hệ thống gợi Qua nh ng th nghiệm cho thấy giải thuật mang lại hiệu quả cao hơn

c c phương ph p h c như: Glo al v rag Us r v rag It m v rag Matrix factorization n cạnh đ giải thuật M c ng g p phần giải quyết vấn đề độ lệch (us r ff ct it m ff ct) trong hệ thống gợi

Trang 33

C ƯƠN 4 XÂY DỰNG HỆ THỐNG DỰ ĐOÁN KẾT QUẢ HỌC

T P VÀ GỢI Ý LỰA CHỌN MÔN HỌC

4.1 Xử lý dữ liệu

4.1.1 Khử nhiễu

D liệu của chương trình quản lý kết quả h c tập của sinh viên có chứa d liệu nhi u như: điểm số ngoài phạm vi từ đến điểm số ở dạng ký tự, ký tự trống, null… N n chúng ta cần khử nhi u nh ng d liệu như sau:

- Điểm số âm s ỏ qua vì môn này sinh vi n được mi n

- Điểm số để null s ỏ qua vì môn này sinh vi n hông đăng h c

- Điểm số là ký tự như “v” ỏ qua vì môn này sinh vi n vắng h c

4.1.2 Chuyển đ i dữ liệu

Chúng ta cần thực hiện chuyển ba bảng liệu như sau: từ ảng sinh vi n chuyển thành anh s ch us r ảng môn h c chuyển thành anh s ch it m và cuối

c ng là điểm s chuyển thành matrix-ratings

Chuyển liệu sinh vi n về tập us r: o qu trình xử l cần tiết iệm ộ nhớ

n n ta chuyển thông tin sinh vi n về ạng số đ c trưng cho một sinh vi n g i là đ nh danh sinh viên (ID sinh viên)

Chuyển liệu môn h c về tập it m: Tương tự như qu trình chuyển đổi mã

số sinh vi n thành số để ng trong giải thuật M n n chúng tôi c ng chuyển mã môn h c thành đ nh anh môn h c (I môn h c)

Chuyển liệu điểm về ạng ratings: o hệ thống quản l điểm th o h c chế

t n chỉ n n chúng ta cần chuyển điểm hệ thành điểm hệ th o c ch thức qui đổi của m i trường qui đinh Ở đ y chúng tôi chuyển th o qui đ nh của trường Đại h c Cần Thơ:

- ưới điểm qui đổi thành điểm

- Từ đến ưới điểm qui đổi thành điểm

- Từ đến ưới điểm qui đổi thành điểm

- Từ đến ưới điểm qui đổi thành điểm

- Từ đến ưới điểm qui đổi thành điểm

- Từ đến ưới điểm qui đổi thành điểm

- Từ đến điểm qui đổi thành điểm

Trang 34

Chuyển ảng điểm thành ảng ratings ao g m mã sinh vi n mã môn h c và điểm hệ

4.1.3 Đưa ữ liệu v định d ng c a thu t toán

Để x y ựng hệ thống ự đo n và gợi đầu ti n chúng ta cần thiết ế một cơ

sở liệu để lưu tr liệu ế hoạch h c tập và điểm số của sinh vi n ph hợp với đào tạo th o t n chỉ o m i trường đại h c c c ch thực hiện h c nhau, n n tôi xin trình ày hệ thống được đề xuất đ p ứng một số vấn đề cơ ản trong hệ thống đào tạo t n chỉ

Th o đ nh ạng của giải thuật M thì chúng ta cần a thành phần liệu: liệu người ng (us r) liệu đối tượng môn h c (it m) và cuối c ng là liệu

đ nh gi hay ở đ y là điểm số (ratings)

liệu người ng (us r) li n quan đến c c ảng như: SINHVI N NG NH LOPQUANLY, KHOATUYENSINH, NIENKHOA_HOCKY, RANGBUOCHOC liệu đối tượng môn h c (it m) li n quan c c ảng như: MONHOC, KEHOACHHOCTAP_HOCKY_MONHOC, KEHOACHHOCTAP_HOCKY, KEHOACHHOCTAP, MONHOC_BATBUOC, MONHOC_DIEUKIEN, MONHOC_TUCHON, NHOM_MONHOC_TUCHON, LOAI_MON_HOC

liệu đ nh gi (ratings) li n quan đến c c ảng: MONHOC SINHVI N

M TRIX R TINGS Đ y là c ng là cấu trúc lưu tr ma trận điểm ự đo n sau hi chạy giải thuật M Sơ đ lớp được trình ày trong hình n ưới

nh 4-6 Sơ đ ớp iên quan đ n ữ iệu điểm ratings

4.2 ệ thống ự đoán t qu học t p c a sinh viên

4.2.1 Bài toán dự đoán t qu học t p sinh viên

Đầu ti n chúng ta cần hai th c thông tin điểm số của sinh viên từ đ đưa ra được kết quả dự đo n cho sinh viên theo từng h c kỳ trước hi sinh vi n tham gia lập ế hoạch h c tập ở đầu m i h c kỳ Từ nh ng dự đo n ết quả của sinh viên

MATRIX_RATINGS

+id_sinhvien +id_monhoc +diem

SINHVIEN

+id_sinhvien +mssv +khoa_tuyen_sinh +lop_quan_ly +id_nguoi_dung

Trang 35

làm cơ sở cho hệ thống cung cấp nh ng gợi ý nên ch n môn h c nào trong nh ng môn tự ch n là phù hợp vẫn đảm bảo áp dụng đúng với ràng buộc của chương trình đào tạo

V ụ: C năm sinh vi n: sv sv sv sv và sv h c c c môn Môn Môn2,…,Môn n Môn n Môn n Môn n được trình ày trong một ma trận như

h nh 4-2 m i ô trong ma trận chứa số điểm của sinh vi n h c môn h c tương ứng

nh ng sinh vi n chưa h c môn nào thì s điền gi tr ô đ ởi ấu chấm hỏi “ ” Trong nh ng môn h c đ c môn h c tự ch n là Môn n Môn n Môn n Sinh

vi n cần ch n môn trong môn h c tự ch n sao cho c ết quả ph hợp với mình nhất Như vậy hệ thống cần gợi cho sinh vi n sv là n n h c môn nào trong môn: Môn n1, Môn n2, Môn n3

nh 4-7 ữ iệu điểm với a m n cần ự đoán c a sinh viên sv5

Sau hi chạy giải thuật và ứng ụng ự đo n cho tất cả sinh vi n h c tất cả c c môn h c mà sinh vi n đ chưa h c và điền ết quả vào ma trận Từ nh ng ràng uộc về số t n chỉ hay số môn h c tự ch n mà sinh vi n cần h c trong một h c ỳ

để đưa ra gợi ph hợp Trở lại v ụ tr n hệ thống cần gợi môn h c tự ch n cho sinh vi n sv là môn: Môn n và Môn n Vì môn h c này c số điểm ự

đo n cao hơn môn h c Môn n ( và )

nh 4-8 ng điểm sau hi ự đoán v hướng g i

Chúng tôi thiết kế cơ sở liệu chương trình đào tạo đơn giản chỉ li n quan đến chức năng gợi môn h c n n chúng hông chứa nh ng thông tin quản l h c

Hệ thống tập trung xử a nh m liệu như sau: sinh vi n môn h c và điểm số (Us r It m Ratings) Về nh m môn h c (it m) ao g m nh ng ảng liệu như

Trang 36

sau: ế hoạch h c tập mẫu th o từng h c ỳ môn h c ti n quyết môn h c ắt uộc

nh m môn tự ch n môn h c tự ch n …) c ng với nh ng ràng uộc toàn v n

Nh m Sinh vi n (us r) g m c : sinh vi n năm h c ngành h c h a h c Nh m Điểm số (ratings) n cạnh việc x y ựng hệ thống gợi ph hợp th o chương trình đào tạo mà còn phải đảm ảo ph hợp t nh sư phạm

Bên cạnh đ để giải quyết vấn đề d liệu khách quan nhằm đưa ra gợi ý chính xác nhất cho sinh viên Giảm bớt sự ch nh lệch gi a nh ng y u cầu cao thấp h c nhau của c c môn h c C ng như giảm thiểu sự gợi ý sai lệch do nhìn nhận từ

nh ng sinh viên có sở trường hay sở đoản đối với môn h c nào đ Chúng tôi đề xuất sử ụng giải thuật Matrix actorization ết hợp một lượng gi tr đo độ lệch bias, đ y là một tuyệt t c (stat -of-th -art) của hệ thống gợi

4.2.2 Tích h p thư viện MYMEDIALITE vào bài toán

Trước hi ứng ụng thư viện MML chúng ta cần x y ựng liệu đầu vào của hệ thống ao g m c c lớp đối tượng sau: anh s ch c c sinh vi n (sinhvi n mapping) anh s ch c c môn h c (monhoc mapping) và điểm số hệ (ratings) Thư viện MyM iaLit h trợ hàm đ c liệu t ch chu i từ fil t xt

ho c đ c liệu từ cơ sở liệu với đối tượng ataR a r o cơ sở liệu (CS L) ết quả h c tập của sinh vi n được thiết ế tr n hệ quản tr CS L SQL

S rv r n n chúng tôi sử ụng hàm đ c liệu với ataR a r của thư viện Hiện nay MML chưa thiết ế nhiều hàm tiện ch cho việc thực hiện xử l liệu từ

CS L mà chủ yếu là c c hàm xử l liệu từ fil t xt cho c c tập liệu MovieLen, Netflix, Flixster

Kiến trúc của thư viện MML được chia thành nhiều phần (h nh 4-4): liệu

đầu vào của us r và it m c c mô hình giải thuật ự đo n c c si u tham số đầu vào lưu tr và lấy mô hình ự đo n và thành phần sau ự đo n

Trang 37

nh 4-9 Ki n tr c c a thư viện

Mô hình giải thuật ự đo n thực hiện việc huấn luyện trong ự đo n tường

minh (h nh 4-5) ao g m c c lớp: Glo al v rag Us rIt m as lin

MatrixFactorization, BiasedMatrixFactorization, ItemAverage, UserAverage,

Nh ng lớp này đều là nh ng giải thuật ự đo n của RS (h nh 4-6) n n chúng

đều c h trợ c c hàm xử l thông ụng của RS như: CanPr ict Pr ict LoadModel, SaveModel, Recommend, Train, Evaluate, ToString

nh 4-10 Sơ đ iên quan đối tư ng ratings

C c si u tham số đầu vào của hệ thống như: số lần l p (it ration) số nh n tố tìm n ( ) tốc độ h c (), regularization () và c c tham số h c để t y ch n cho

Ngày đăng: 13/08/2016, 20:10

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Huỳnh L Thanh Nhàn Nguy n Th i ƣ Tìm hiểu hai ph liệu ằng luật ết hợp và ng ụng vào x y ựng hệ thống ự đo n ết quả h c tập của sinh vi n Luận văn đại h c Trường Đại h c n Giang Sách, tạp chí
Tiêu đề: Tìm hiểu hai ph liệu ằng luật ết hợp và ng ụng vào x y ựng hệ thống ự đo n ết quả h c tập của sinh vi n
Tác giả: Huỳnh L Thanh Nhàn, Nguy n Th i ƣ
Nhà XB: Trường Đại h c n Giang
2. L Thanh Minh ng dụng khai khoáng d liệu và tập mờ trong việc phân loại h c sinh, 2002 Sách, tạp chí
Tiêu đề: ng dụng khai khoáng d liệu và tập mờ trong việc phân loại h c sinh
Tác giả: L Thanh Minh
Năm: 2002
3. Nguy n Thái Nghe, Kỹ thuật phân rã ma trận trong xây dựng hệ thống gợi ý. Kỷ yếu Hội thảo Công nghệ thông tin 2012, trang 68-77, Tạp chí khoa h c Trường Đại h c Đà Lạt Sách, tạp chí
Tiêu đề: Kỹ thuật phân rã ma trận trong xây dựng hệ thống gợi ý
Tác giả: Nguy n Thái Nghe
Nhà XB: Tạp chí khoa h c Trường Đại h c Đà Lạt
Năm: 2012
5. Nguy n Th Thanh Thủy Nguy n Trần Quốc Vinh ng ụng khai phá d liệu xây dựng công cụ dự đo n ết quả h c tập của sinh vi n Hội ngh sinh vi n nghi n cứu hoa h c lần thứ Đại h c Đà NẵngTi ng nh Sách, tạp chí
Tiêu đề: Hội ngh sinh vi n nghi n cứu hoa h c lần thứ Đại h c Đà Nẵng
Tác giả: Nguy n Th Thanh Thủy, Nguy n Trần Quốc Vinh
6. omavicius G Tuzhilin ( ) “Towar th n xt g n ration of recommender systems: A survey of the state-of-the-art and possible xt nsions” I Transactions on Knowl ge and Data Engineering, 17(6), 734–749 Sách, tạp chí
Tiêu đề: Towar th n xt g n ration of recommender systems: A survey of the state-of-the-art and possible xt nsions
7. Crist al Rom ro S asti n V ntura “ ucational ata Mining: R vi w of the State-of-the- rt” Nov Sách, tạp chí
Tiêu đề: Educational Data Mining: Review of the State-of-the-Art
Tác giả: Cristal Romro Sastin Ventura
8. illsus an M Pazzani “L arning colla orativ information filt rs ” in Proceedings of the 15th International Conference on Machine Learning (ICML '98), 1998 Sách, tạp chí
Tiêu đề: L arning colla orativ information filt rs
9. Daniel Lemire, Harold Boley, Sean McGrath, Marcel Ball, Collaborative Filtering and Inference Rules for Context-Aware Learning Object Recommendation, International Journal of Interactive Technology &amp; Smart Education, Volume 2, Issue 3, August 2005 Sách, tạp chí
Tiêu đề: Collaborative Filtering and Inference Rules for Context-Aware Learning Object Recommendation
Tác giả: Daniel Lemire, Harold Boley, Sean McGrath, Marcel Ball
Nhà XB: International Journal of Interactive Technology & Smart Education
Năm: 2005
10. Dietmar Jannach, Markus Zanker, Alexander Felfernig, Gerhard Friedrich 2011. Recommender Systems An Introduction. Cambridge University Press Sách, tạp chí
Tiêu đề: Recommender Systems An Introduction
Tác giả: Dietmar Jannach, Markus Zanker, Alexander Felfernig, Gerhard Friedrich
Nhà XB: Cambridge University Press
Năm: 2011
11. Enric Mor , Julià Minguillón, E-learning personalization based on itineraries and long-term navigational behavior, Proceedings of the 13th international World Wide Web conference on Alternate track papers &amp; posters, May 19- 21, 2004, New York, NY, USA Sách, tạp chí
Tiêu đề: E-learning personalization based on itineraries and long-term navigational behavior
Tác giả: Enric Mor, Julià Minguillón
Nhà XB: Proceedings of the 13th international World Wide Web conference on Alternate track papers & posters
Năm: 2004
12. a i n P Lousam uar o S nch z “ Taxonomy of Colla orative-Based R comm n r Syst ms” W P rsonalization in Int llig nt nvironm nts Studies in Computational Intelligence Volume 229, 2009, pp 81-117 Sách, tạp chí
Tiêu đề: Personalization in Intelligent Environments
Tác giả: a i n P Lousam uar o S nch z
Nhà XB: Studies in Computational Intelligence
Năm: 2009
14. Gantner, Z., Drumond, L., Freudenthaler, C., Rendle, S., and Schmidt-Thieme, L. (2010). Learning attribute-to-feature mappings for cold-start recommendations. In Proceedings of the 10th IEEE International Conference on Data Mining (ICDM-2010). IEEE Computer Society Sách, tạp chí
Tiêu đề: Learning attribute-to-feature mappings for cold-start recommendations
Tác giả: Gantner, Z., Drumond, L., Freudenthaler, C., Rendle, S., Schmidt-Thieme, L
Nhà XB: IEEE Computer Society
Năm: 2010
15. Gantner, Z., Rendle, S., L., Freudenthaler , C., Schmidt-Thieme, L. 2011. MyMediaLite: A Free Recommender System Library Sách, tạp chí
Tiêu đề: MyMediaLite: A Free Recommender System Library
Tác giả: Gantner, Z., Rendle, S. L., Freudenthaler, C., Schmidt-Thieme, L
Năm: 2011
22. Manouselis, N., Drachsler, H., Verbert, K., and Duval, E. Mar 2012. Recommender Systems for Learning Sách, tạp chí
Tiêu đề: Recommender Systems for Learning
Tác giả: Manouselis, N., Drachsler, H., Verbert, K., Duval, E
Năm: 2012
23. Nikos Manouselis, Hendrik Drachsler, Katrien Verbert and Erik Duval. Recommender Systems for Learning. March 23, 2012 Sách, tạp chí
Tiêu đề: Recommender Systems for Learning
Tác giả: Nikos Manouselis, Hendrik Drachsler, Katrien Verbert, Erik Duval
Năm: 2012
24. Pasquale Lops, Marco de Gemmis, Giovanni Semeraro, Cataldo Musto, lucio Nar ucci “Cont nt-based and collaborative techniques for tag r comm n ation: an mpirical valuation” Journal of Int llig nt Information Systems, February 2013, Volume 40, Issue 1, pp 41-61 Sách, tạp chí
Tiêu đề: Cont nt-based and collaborative techniques for tag r comm n ation: an mpirical valuation
Tác giả: Pasquale Lops, Marco de Gemmis, Giovanni Semeraro, Cataldo Musto, Lucio Nar ucci
Nhà XB: Journal of Int llig nt Information Systems
Năm: 2013
25. Takács, Pilászy, Németh and Tikk. 2009. Scalable Collaborative Filtering Approaches For Large Recommender Systems. Journal of Machine Learning Research 10 (2009) Sách, tạp chí
Tiêu đề: Scalable Collaborative Filtering Approaches For Large Recommender Systems
Tác giả: Takács, Pilászy, Németh, Tikk
Nhà XB: Journal of Machine Learning Research
Năm: 2009
4. Nguy n Thái Nghe, Paul Janecek, Peter Haddawy. Một phân tích gi a các kỹ thuật trong dự đo n ết quả h c tập, 2006 Khác
13. Feng, M., Heffernan, N., and Koedinger, K. (2009). Addressing the assessment challenge with an online system that tutors as it assesses. User Modeling and User-Adapted Interaction, 19(3):243–266 Khác
16. Gavin Shaw, Yue Xu, and Shlomo Geva. 2010. Using Association Rules to Solve the Cold-Start Problem in Recommender Systems. Lecture Notes in Computer Science, 6118, pp. 340-347 Khác

HÌNH ẢNH LIÊN QUAN

Hình 4-17  Sơ đ  t ng thể c a hệ thống - Hệ thống dự đoán kết quả và gợi ý lựa chọn môn học dùng giải thuật phân rã ma trận
Hình 4 17 Sơ đ t ng thể c a hệ thống (Trang 60)
Hình 4-21   iao  iện qu n    m n học - Hệ thống dự đoán kết quả và gợi ý lựa chọn môn học dùng giải thuật phân rã ma trận
Hình 4 21 iao iện qu n m n học (Trang 63)
Hình 4-20   iao  iện đ ng nh p - Hệ thống dự đoán kết quả và gợi ý lựa chọn môn học dùng giải thuật phân rã ma trận
Hình 4 20 iao iện đ ng nh p (Trang 63)
Hình 4-22  Qu n    m n học  ắt  u c - Hệ thống dự đoán kết quả và gợi ý lựa chọn môn học dùng giải thuật phân rã ma trận
Hình 4 22 Qu n m n học ắt u c (Trang 64)
Hình 4-24    p    ho ch học t p v  t o    ho ch học t p mẫu từng học - Hệ thống dự đoán kết quả và gợi ý lựa chọn môn học dùng giải thuật phân rã ma trận
Hình 4 24 p ho ch học t p v t o ho ch học t p mẫu từng học (Trang 65)
Hình 4-25  Thêm mới    ho ch học t p học - Hệ thống dự đoán kết quả và gợi ý lựa chọn môn học dùng giải thuật phân rã ma trận
Hình 4 25 Thêm mới ho ch học t p học (Trang 65)
Hình 4-27   iao  iện x m    ho ch học t p - Hệ thống dự đoán kết quả và gợi ý lựa chọn môn học dùng giải thuật phân rã ma trận
Hình 4 27 iao iện x m ho ch học t p (Trang 66)
Hình 4-26  Thêm m n học v o    ho ch học t p học - Hệ thống dự đoán kết quả và gợi ý lựa chọn môn học dùng giải thuật phân rã ma trận
Hình 4 26 Thêm m n học v o ho ch học t p học (Trang 66)
Hình 4-28  Đóng mở thời gian   p    ho ch học t p - Hệ thống dự đoán kết quả và gợi ý lựa chọn môn học dùng giải thuật phân rã ma trận
Hình 4 28 Đóng mở thời gian p ho ch học t p (Trang 67)
Hình 4-30  Qui định s  t n chỉ tối đa v  tối thiểu cho học    t t c  sinh viên - Hệ thống dự đoán kết quả và gợi ý lựa chọn môn học dùng giải thuật phân rã ma trận
Hình 4 30 Qui định s t n chỉ tối đa v tối thiểu cho học t t c sinh viên (Trang 68)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w