Trường Đại học Quảng Bình đ áp d ng hình th c học theo tín chỉ từ năm học 2008 đến nay Theo tinh th n của học chế tín chỉ sinh viên có th t xây d ng kế hoạch học tập cho cả quá trình học
Trang 1ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA
LÊ QUỐC HOÀNG
ỨNG DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU
ĐỂ TƯ VẤN HỌC TẬP CHO SINH VIÊN
TẠI TRƯỜNG ĐẠI HỌC QUẢNG BÌNH
Chuyên ngành: Khoa học máy tính
Mã số: 8480101
TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT
Đà Nẵng - Năm 2018
Trang 2Công trình được hoàn thành tại TRƯỜNG ĐẠI HỌC BÁCH KHOA
Người hướng dẫn khoa học: TS PHẠM XUÂN HẬU
Phản biện 1: TS NGUYỄN VĂN HIỆU
Phản biện 2: TS ĐẬU MẠNH HOÀN
Luận văn được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ chuyên ngành Khoa học máy tính họp tại Trường Đại học
Bách khoa Đà Nẵng vào ngày 05 tháng 01 năm 2019
Có thể tìm hiểu luận văn tại:
- Trung tâm Học liệu và Truyền thông Trường Đại học Bách khoa
Đại học Đà Nẵng tại
- Thư viện Khoa Công nghệ thông tin, Trường Đại học Bách khoa
Trang 3MỞ ĐẦU
1 Lý do chọn đề tài
Trong nh ng năm g n đây, khi công nghệ thông tin đang ngày càng phát tri n mạnh mẽ thì vấn đề khai phá d liệu đ và đang tr thành một trong nh ng hướng nghiên c u chính trong lĩnh v c khoa học máy tính và công nghệ tri th c Khai phá d liệu được ng d ng thành công vào rất nhiều các lĩnh v c khác nhau như thương mại, tài chính, th trường ch ng khoán, y học, sinh học, giáo d c và vi n thông,
Hình th c đào tạo tín chỉ là một phương pháp đào tạo tiên tiến trên thế giới và đang được áp d ng rộng r i tại một số trường đại học của Việt Nam hiện nay Ưu đi m của hình th c đào tạo này là tính liên thông gi a các hệ đào tạo, gi a các trường đ tạo điều kiện cho việc hội nhập với giáo d c thế giới Vì lý do đó mà chủ trương của nhà nước là m rộng áp d ng hình th c đào tạo tín chỉ trong mạng lưới các trường đại học, cao đẳng trong nước giai đoạn 2001- 2010 Trường Đại học Quảng Bình đ áp d ng hình th c học theo tín chỉ từ năm học 2008 đến nay Theo tinh th n của học chế tín chỉ sinh viên có th t xây d ng kế hoạch học tập cho cả quá trình học của mình suốt khóa học Có nghĩa là tùy theo năng l c và điều kiện của bản thân sinh viên sẽ đăng ký học ph n nhiều hay ít trong mỗi học kỳ nhưng vẫn đảm bảo đúng thời hạn đào tạo theo qui đ nh của Nhà trường Nhưng th c trạng hiện nay là h u hết sinh viên vẫn đăng
ký học ph n theo kế hoạch đào tạo của chương trình khung theo học
kỳ mà chưa có một s đ nh hình riêng con đường học tập của bản thân Trường hợp nh ng sinh viên giỏi có th đăng ký đ đẩy nhanh tiến độ học tập và rút ngắn thời gian đào tạo mà vẫn đảm bảo kết quả
Trang 4học tập tốt, phù hợp với điều kiện thời gian và năng l c Trường hợp
nh ng sinh viên có năng l c yếu hơn có th đăng ký dàn trải hơn sao cho kết quả học tập được gi m c tốt nhưng vẫn tuân thủ thời gian đào tạo tại trường Việc t xây d ng một lộ trình tối ưu phù hợp với năng l c học tập của từng sinh viên theo tinh th n học chế tín chỉ h u như vẫn chưa th hiện được tính hiệu quả của nó Do đó việc xây
d ng một công c hỗ trợ đề xuất cho sinh viên các lộ trình học tập phù hợp theo năng l c và điều kiện thời gian trong suốt khóa học là một nhu c u c n thiết và h a hẹn sẽ là công c đắc l c giúp cho sinh viên quản lý kế hoạch học tập một cách hiệu quả đ chủ động hơn trong việc chuẩn b hành trang cho tương lai của mình
Trước nh ng thách th c đặt ra về khai phá d liệu, đ hỗ trợ tốt nhất cho sinh viên và tăng cường ng d ng công nghệ thông tin trong hoạt động và quản lý đào tạo nhằm tăng hiệu quả và nâng cao chất lượng đào tạo tại Trường Đại học Quảng Bình thì việc xây d ng các hệ thống ph c v sinh viên là rất c n thiết Vì vậy tôi quyết đ nh
l a chọn chọn đề tài “Ứng d ng kỹ thuật khai phá d liệu đ tư vấn học tập cho sinh viên tại Trường Đại học Quảng Bình” làm đề tài tốt nghiệp luận văn cao học
2 Tính cấp thiết của đề tài
Với th c trạng đ nêu trên, việc xây d ng một công c hỗ trợ đề xuất cho sinh viên các lộ trình học tập phù hợp theo năng l c
và điều kiện thời gian trong suốt khóa học là một nhu c u c n thiết
và h a hẹn sẽ là công c đắc l c giúp cho sinh viên quản lý kế hoạch học tập một cách hiệu quả, chủ động hơn trong việc chuẩn b hành trang cho tương lai của mình
Trang 5Đối với hình th c đào tạo tín chỉ sinh viên phải đăng ký học
ph n bắt buộc và t chọn dưới s tư vấn của CVHT Vậy làm sao đ đảm bảo sinh viên chọn được nh ng học ph n phù hợp với năng l c bản thân và sắp xếp lộ trình học sao cho đạt hiệu quả nhất ? Liệu CVHT có th tư vấn cho sinh viên cả lớp chọn kế hoạch học tập phù hợp trong khi không th tiếp cận toàn bộ d liệu đi m của sinh viên?
Đ giải quyết các vấn đề nêu trên, chúng tôi tiến hành nghiên
c u th c hiện đề tài Ứng d ng kỹ thuật khai phá d liệu đ tư vấn học tập cho sinh viên tại Trường Đại học Quảng Bình
3 Mục tiêu đề tài
- Hi u được các vấn đề liên quan đến khai phá d liệu
- Nghiên c u lý thuyết mạng nơron
- Áp d ng thuật toán mạng nơron tư vấn chọn học ph n cho sinh viên
- Hỗ trợ phòng Đào tạo, các Khoa chuyên ngành và các CVHT, giáo viên chủ nhiệm có th tư vấn cho sinh viên trong việc chọn học ph n
- Nâng cao chất lượng đào tạo tại Trường Đại học Quảng Bình
Trang 65 Đối tượng và phạm vi nghiên c u
- Đối tượng nghiên c u của đề tài là khai phá d liệu đi m sinh viên, thuật toán mạng nơron nhân tạo và lan truyền ngược
- Trong khuôn khổ của một luận văn, tôi chỉ giới hạn th c nghiệm tạo ng d ng tư vấn môn học t chọn cho sinh viên ngành Giáo d c m m non – Khoa Sư phạm Ti u học M m non - Trường Đại học Quảng Bình
7 Ý nghĩa khoa học, tính khả thi của đề tài
Trường Đại học Quảng Bình đang th c hiện việc ng d ng công nghệ thông tin vào công tác dạy và học rất tốt Việc xây d ng
ng d ng t vấn môn t chọn sẽ hỗ trợ cho sinh viên trong việc l a chọn phương pháp học và môn học đ đạt kết quả tốt trong các học
kỳ kế tiếp
Ý tư ng xuất phát từ nhu c u th c tế của Nhà trường nên đề tài mang tính ng d ng cao, thiết th c hỗ trợ nâng cao hoạt đào tạo của nhà trường
8 Bố cục của luận văn
Ngoài ph n m đ u và kết luận, luận văn gồm ba chương:
Chư ng 1: Chương này chủ yếu nghiên c u tổng quan về khai
phá d liệu c th là các phương pháp, kỹ thuật trong khai phá d
Trang 7liệu và ng d ng của khai phá d liệu, l a chọn phương pháp đ ng
d ng cho đề tài
Chư ng 2: Nghiên c u và đi sâu vào tìm hi u thuật toán mạng
nơron nhân tạo, các hình th c học và một số phương pháp huấn luyện mạng nơron nhân tạo ng d ng thuật toán lan truyền ngược cho mô hình mạng nơron
Chư ng 3: Nghiên c u xây d ng ng d ng, trong chương này
các nội dung đề cập đến đó là: Mô tả bài toán, đề xuất mô hình áp
d ng thuật toán lan truyền ngược đ xây d ng ng d ng Phát tri n xây d ng demo ng d ng th c hiện ch c năng tư vấn học ph n cho sinh viên d a vào kết quả học tập các kỳ Và từ đó tư vấn cho giảng viên, CVHT có th chọn cho sinh viên hoặc SV t chọn cho mình môn tư chọn đạt kết quả cao nhất từ đó chọn được học ph n t chọn phù hợp nhất với sinh viên
Chư ng 1: TỔNG QUAN KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu
Khai phá d liệu được dùng đ mô tả quá trình phát hiện ra tri
th c trong CSDL Quá trình này là việc tính toán đ tìm ra các mẫu trong các bộ d liệu liên quan đến các bộ d liệu lớn giúp cho việc
d báo trong máy học, thống kê và các hệ thống cơ s d liệu Tùy vào cách tiếp cận, m c tiêu khai phá d liệu mà các Nhà khoa học đ đưa ra một số đ nh nghĩa như sau [1]:
Định nghĩa của Ferruzza: “Khai phá d liệu là tập hợp các
phương pháp được dùng trong tiến trình khám phá tri th c đ chỉ ra
s khác biệt các mối quan hệ và các mẫu chưa biết bên trong d liệu”
Trang 8Định nghĩa của Parsaye: “Khai phá d liệu là quá trình trợ
giúp quyết đ nh, trong đó chúng ta tìm kiếm các mẫu thông tin chưa biết và bất ngờ trong CSDL lớn”
Định nghĩa của Fayyad: “Khai phá tri th c là một quá trình
không t m thường nhận ra nh ng mẫu d liệu có giá tr , mới, h u
ích, tiềm năng và có th hi u được”
1.2 Các ng ụng của khai phá ữ liệu
1.3 Các bước của quá trình khai phá ữ liệu
1.4 Các phư ng pháp trong khai thác ữ liệu
1.4.1 Phân lớp (classification)
1.4.2 Hồi qui (regression)
1.4.3 Phân nhóm (clustering)
1.4.4 Tổng hợp (summarization)
1.4.5 Mô hình hoá sự phụ thuộc (dependency modeling)
1.4.6 Phát hiện sự biến đổi và độ lệch (change and deviation
dectection)
1.5 Các Kỹ thuật khai phá ữ liệu
1.5.1 Các thành phần của quá trình khai phá dữ liệu
a Biểu diễn mô hình:
b Đánh giá mô hình:
c Phương pháp tìm kiếm:
1.5.2 Kỹ thuật suy diễn/quy nạp
1.5.3 Kỹ thuật ứng dụng K-láng giềng gần
1.5.4 Kỹ thuật sử dụng cây quyết định và luật
1.5.5 Kỹ thuật phát hiện luật kết hợp
1.6 Những thách th c trong nghiên c u và ng ụng kỹ thuật khai phá ữ liệu
Trang 91.7 M t số vấn đề thách th c của khai phá ữ liệu
Kết luận chư ng 1: Chương này chủ yếu nghiên c u tổng
quan về khai phá d liệu c th là các phương pháp, kỹ thuật trong khai phá d liệu và ng d ng của khai phá d liệu, l a chọn phương pháp đ ng d ng cho đề tài
Chư ng 2: NGHIÊN CỨU MẠNG NƠRON NHÂN TẠO VÀ XÂY DỰNG MÔ HÌNH DỰA TRÊN MẠNG NƠRON 2.1 Giới thiệu về mạng n ron nhân tạo
2.1.1 Khái niệm
Mạng nơron nhân tạo, Artificial Neural Network (ANN) gọi tắt là mạng nơron Mạng nơron là một mô hình xử lý thông tin phỏng theo cách th c xử lý thông tin của các hệ nơron sinh học Nó được tạo lên từ một số lượng lớn các ph n tử (gọi là ph n tử xử lý hay nơron) kết nối với nhau thông qua các liên kết (gọi là trọng số liên kết) làm việc như một th thống nhất đ giải quyết một vấn đề c th
nào đó
Một mạng nơron nhân tạo được cấu hình cho một ng d ng c
th (nhận dạng mẫu, phân loại d liệu, d báo) thông qua một quá trình học từ tập các mẫu huấn luyện Về bản chất học chính là quá
trình hiệu chỉnh trọng số liên kết gi a các nơron
2.1.2 Lịch sử phát triển của mạng nơron nhân tạo
2.2 Mạng n ron nhân tạo
2.2.1 Mô hình mạng nơron nhân tạo
Trang 10Một nơron là một đơn v xử lý thông tin và là thành ph n cơ bản của một mạng nơron Cấu trúc của một nơron được mô tả như
hình 2.1
Hình 2.1 Mô hình mạng nơron nhân tạo [4]
Các thành ph n cơ bản của một nơron nhân tạo bao gồm:
+ Tập các đầu vào: Là các tín hiệu vào (input signals) của
nơron, các tín hiệu này thường được đưa vào dưới dạng một vector N chiều
+ Tập các liên kết: Mỗi liên kết được th hiện b i một trọng
số (gọi là trọng số liên kết – Synaptic weight) Trọng số liên kết gi a tín hiệu vào th j với nơron k thường được kí hiệu là wkj Thông thường, các trọng số này được kh i tạo một cách ngẫu nhiên thời đi m kh i tạo mạng và được cập nhật liên
t c trong quá trình học mạng
+ B tổng (Summing function): Thường dùng đ tính tổng
của tích các đ u vào với trọng số liên kết của nó
+ Ngưỡng (còn gọi là m t đ lệch - bias): Ngưỡng này
thường được đưa vào như một thành ph n của hàm truyền
Trang 11+ Hàm truyền (Transfer function): Hàm này được dùng đ
giới hạn phạm vi đ u ra của mỗi nơron Nó nhận đ u vào là kết quả của hàm tổng và ngưỡng đ cho Thông thường, phạm vi đ u ra của mỗi nơron được giới hạn trong đoạn [0,1] hoặc [-1, 1] Các hàm truyền rất đa dạng, có th là các hàm tuyến tính hoặc phi tuyến Việc l a chọn hàm truyền nào là tùy thuộc vào từng bài toán và kinh nghiệm của người thiết
kế mạng
+ Đầu ra: Là tín hiệu đ u ra của một nơron, với mỗi nơron sẽ
có tối đa là một đ u ra
2.2.2 Phân loại cấu trúc mạng nơron nhân tạo
Mạng nơron nhân tạo là một mạng gồm một tập các đơn v
(unit) được kết nối với nhau bằng các cạnh có trọng số
Trong một mạng nơron có ba ki u đơn v :
+ Các đơn v đ u vào, nhận tín hiệu từ bên ngoài
+ Các đơn v đ u ra, gửi d liệu ra bên ngoài
+ Các đơn v ẩn, tín hiệu vào của nó được truyền từ các đơn v trước nó và tín hiệu ra được truyền đến các đơn
v sau nó trong mạng
Khi nhận được các tín hiệu đ u vào, một đơn v sẽ nhận mỗi tín hiệu với trọng số tương ng rồi lấy tổng các giá tr vừa nhận được Kết quả sẽ được đưa vào một hàm số gọi là hàm kích hoạt (activation function) đ tính toán tín hiệu đ u ra Các đơn v khác nhau có th có các hàm kích hoạt khác nhau
Các đ u ra của nơron sinh học là các xung, có giới hạn chặn Trong mô phỏng, đ đảm bảo hệ ổn đ nh đ u ra, người ta gán hàm chặn lối ra cho các tín hiệu Đ đặc trưng cho điều đó, đ u ra của
Trang 12mỗi nơron phải đặt một hàm chặn, thường dạng phi tuyến Kết quả của hàm này là một giá tr đặc trưng cho m c độ kích hoạt của nơron
+ Hàm sigmoid (Sigmoid Function)
xe x
g
1
1 )
(
Hàm này sử d ng cho các mạng được huấn luyện (trained) b i thuật toán lan truyền ngược (Back – Propagation), b i vì nó d lấy đạo hàm, do đó giảm đáng k các phép tính trong quá trình huấn luyện mạng Hàm này được sử d ng cho nh ng ng d ng mà giá tr
đ u ra nằm trong khoảng [0 , 1]
Hình 2.2 Hàm sigmoid
Các hàm chuy n đối với các nơron lớp ẩn là c n thiết đ bi u
di n s phi tuyến vào trong mạng Lý do là hợp thành của các hàm đồng nhất là một hàm đồng nhất Mặc dù vậy nhưng nó mang tính chất phi tuyến (nghĩa là, khả năng bi u di n các hàm phi tuyến) làm cho các mạng nhiều lớp có khả năng rất tốt trong bi u di n các ánh
xạ phi tuyến Tuy nhiên, đối với luật học lan truyền ngược, hàm phải khả vi (differentiable) và sẽ có ích nếu như hàm được gắn trong một khoảng nào đó Do vậy, hàm sigmoid là l a chọn tốt nhất
Trang 13Đối với các đơn v đ u ra, các hàm chuy n được chọn sao cho phù hợp với s phân phối của các giá tr đích mong muốn Nếu giá
tr ra trong khoảng [0;1] thì hàm sigmoid là phù hợp nhất
+ Mạng truyền thẳng (Multilayered Feedforward Neural Network - MFNN)
Trong mạng nơron truyền thẳng, các liên kết đi theo một hướng nhất đ nh từ lớp vào tới lớp ra, không tạo thành đồ th có chu trình với các đỉnh là các nơron, các cung là các liên kết gi a chúng
Hình 2.3 Mạng nơron truyền thẳng nhiều lớp
2.3 Các hình th c học của mạng n ron nhân tạo
2.3.1 Khái niệm
Học là quá trình thay đổi hành vi của các vật theo một cách nào đó làm cho chúng có th th c hiện tốt hơn trong tương lai Một mạng nơron được huyấn luyện sao cho với một tập các vector đ u vào X, mạng có khả năng tạo ra tập các vector đ u ra mong muốn Y của nó Tập X được sử d ng cho huấn luyện mạng được gọi là tập huấn luyện (training set) Các ph n tử x thuộc X được gọi là các mẫu huấn luyện (training example) Quá trình huấn luyện bản chất là s thay đổi các trọng số liên kết của mạng Trong quá
Trang 14trình này, các trọng số của mạng sẽ hội t d n tới các giá tr sao cho với mỗi vector đ u vào x từ tập huấn luyện, mạng sẽ cho ra vector
đ u ra y như mong muốn
Có ba hình th c học học phổ biến: Học có giám sát (supervised learning), Học không giám sát (unsupervised learning), Học tăng cường (Reinforcement learning) [4]:
2.3.2 Học có giám sát
Học có giám sát trong các mạng nơron thường được th c hiện theo các bước sau:
+ Bước 1: Xây d ng cấu trúc thích hợp cho mạng nơron,
chẳng hạn có (n + 1) nơron vào (n nơron cho biến vào và 1 nơron cho ngưỡng x 0), m nơron đ u ra, và kh i tạo các trọng số liên kết của mạng
+ Bước 2: Đưa một vector x trong tập mẫu huấn luyện X vào
mạng
+ Bước 3: Tính vector đ u ra o của mạng
+ Bước : So sánh vector đ u ra mong muốn y (là kết quả
được cho trong tập huấn luyện) với vector đ u ra o do
mạng tạo ra; nếu có th thì đánh giá lỗi
+ Bước 5: Hiệu chỉnh các trọng số liên kết theo một cách nào
đó sao cho l n tiếp theo khi đưa vector x vào mạng, vector đ u ra o sẽ giống với y hơn
+ Bước 6: Nếu c n, lặp lại các bước từ 2 đến 5 cho tới khi
mạng đạt tới trạng thái hội t Việc đánh giá lỗi có th th c hiện theo nhiều cách, cách dùng nhiều nhất là sử d ng lỗi
t c thời: Err = (o - y), hoặc Err = |o - y|; lỗi trung bình bình phương (MSE: mean-square error): Err = (o- y) 2
/2