ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ THANH HƯƠNG ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐỂ XÂY DỰNG HỆ THỐNG TƯ VẤN HỌC TẬP TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI LUẬN VĂN
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THỊ THANH HƯƠNG
ỨNG DỤNG KHAI PHÁ DỮ LIỆU
ĐỂ XÂY DỰNG HỆ THỐNG TƯ VẤN HỌC TẬP TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Hà Nội - 2015
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THỊ THANH HƯƠNG
ỨNG DỤNG KHAI PHÁ DỮ LIỆU
ĐỂ XÂY DỰNG HỆ THỐNG TƯ VẤN HỌC TẬP TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI
Ngành: Công nghệ Thông tin
Chuyên ngành: Hệ thống Thông tin
Mã số: 60480104
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN HÀ NAM
Hà Nội - 2015
Trang 3LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn sâu sắc tới PGS.TS.Nguyễn Hà Nam, Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội, người thầy đã dành nhiều thời gian tận tình chỉ bảo, hướng dẫn, giúp đỡ tôi trong suốt quá trình tìm hiểu, nghiên cứu.Thầy là người đi ̣nh hướng và đưa ra nhiều góp ý quý báu trong quá trình tôi thực hiện luâ ̣n văn
Tôi xin chân thành cảm ơn các thầy, cô ở khoa Công nghệ thông tin – Trường Đại học Công nghệ - ĐHQGHN đã cung cấp cho tôi những kiến thức và tạo cho tôi những điều kiện thuận lợi trong suốt quá trình tôi học tập tại trường
Tôi cũng bày tỏ lòng biết ơn về sự giúp đỡ của lãnh đạo cơ quan, đồng nghiệp đã cung cấp dữ liệu, tài liệu và cho tôi những lời khuyên quý báu Tôi xin cảm ơn gia đình, người thân, bạn bè và các thành viên trong nhóm nghiên cứu luôn động viên và tạo mọi điều kiện tốt nhất cho tôi
Tôi xin chân thành cảm ơn!
Hà Nội, tháng 1 năm 2016
Họ và tên
Nguyễn Thị Thanh Hương
Trang 4LỜI CAM ĐOAN
Tôi xin cam đoan đây là đề tài nghiên cứu của riêng tôi, thực hiện dưới sự hướng dẫn của PGS.TS Nguyễn Hà Nam
Các kết quả nêu trong luận văn là trung thực và chưa được ai công bố trong bất cứ công trình nào khác
Hà Nội, tháng 1 năm 2016
Họ và tên
Nguyễn Thị Thanh Hương
Trang 5MỤC LỤC
LỜI CẢM ƠN 1
LỜI CAM ĐOAN 2
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT 5
DANH MỤC CÁC BẢNG 6
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 6
Chương 1 Giới thiệu tổng quan 8
1.1.Bài tốn ứng dụng KPDL để xây dựng hệ thống tư vấn tại trường ĐHCNHN 8 1.2 Một số hướng nghiên cứu về khai phá dữ liệu trong lĩnh vực giáo dục hiện nay
Error! Bookmark not defined
1.3 Hướng tiếp cận của luận văn Error! Bookmark not defined 1.4 Kết luận chương 1 Error! Bookmark not defined Chương 2 Các kiến thức cơ sở liên quan Error! Bookmark not defined 2.1 Khai phá dữ liệu Error! Bookmark not defined 2.1.1 Khái niệm KPDL Error! Bookmark not defined 2.1.2 Những nhĩm bài tốn của KPDL Error! Bookmark not defined 2.1.3 Các bước xây dựng một giải pháp về KPDL Error! Bookmark not defined 2.1.4 Ứng dụng KPDL trong giáo dục Error! Bookmark not defined 2.2 Một số kỹ thuật KPDL trong phân lớp, dự báo Error! Bookmark not defined 2.2.1 Cây quyết định Error! Bookmark not defined 2.2.2 Phân lớp Nạve Bayes Error! Bookmark not defined 2.2.3 Mạng nơ ron nhân tạo Error! Bookmark not defined 2.2.4 Luật kết hợp Error! Bookmark not defined 2.3 KPDL với hệ quản trị CSDL SQL Server Error! Bookmark not defined 2.3.1 Giới thiệu chung Error! Bookmark not defined 2.3.2 Ngơn ngữ truy vấn KPDL DMX (Data Mining Extensions) Error! Bookmark
not defined
2.3.3 Bộ cơng cụ SQL Server Business Intelligence Development Studio Error!
Bookmark not defined
2.3.4 Lập trình KPDL với Analysis Services APIs Error! Bookmark not defined 2.3.5 Đánh giá hiệu quả của các mơ hình KPDL Error! Bookmark not defined 2.4 Kết luận chương 2 Error! Bookmark not defined
Trang 6Chương 3 Phương pháp giải quyết bài toán Error! Bookmark not defined 3.1 Tìm hiểu và thu thập dữ liệu điểm Error! Bookmark not defined 3.2 Xây dựng mô hình Error! Bookmark not defined 3.3 Lập trình KPDL với Analysis Services APIs Error! Bookmark not defined 3.4 Đánh giá mô hình Error! Bookmark not defined 3.4.1 Đánh giá các mô hình dự báo với Lift Chart Error! Bookmark not defined 3.4.2 Đánh giá các mô hình dự báo với Classification Matrix Error! Bookmark not
defined
3.5 Kết luận chương 3 Error! Bookmark not defined Chương 4 Xây dựng hệ thống tư vấn học tập tại trường ĐHCNHN Error! Bookmark
not defined
KẾT LUẬN Error! Bookmark not defined HƯỚNG PHÁT TRIỂN Error! Bookmark not defined
TÀI LIỆU THAM KHẢO 9
Trang 7DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
BIDS Bussiness Intelligence Development Studio CSDL Cơ sở dữ liệu
DMX Data Mining Extensions
DMM Data Mining Model
KPDL Khai phá dữ liệu
SOM Self-Organizing Map
ĐHCNHN Đại học Công Nghiệp Hà Nội
Trang 8DANH MỤC CÁC BẢNG
Bảng 2.4: Lựa chọn các thuật tốn khai phá dữ liệu theo mục đích 23 Bảng 3.1: Bảng dữ liệu xây dựng hệ thống tư vấn học tập 34
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1: Các bước xây dựng một hệ thống KPDL Error! Bookmark not defined Hình 2 1: Biểu diễn cây quyết định cơ bản Error! Bookmark not defined Hình 2 2: Cây quyết định cho việc chơi Tennis Error! Bookmark not defined Hình 2 3: Mơ hình mạng nơron nhiều lớp Error! Bookmark not defined Hình 2 4: Tiến trình học Error! Bookmark not defined Hình 2 5: Hình ảnh tổng quan về KPDL với SQL 2008 Error! Bookmark not defined Hình 3 1: Mơ hình CSDL quan hệ được thu thập để xây dựng hệ thống Error!
Bookmark not defined.
Hình 3 2: Một phần bảng các lộ trình học theo ngành Error! Bookmark not defined Hình 3 3: Một phần dữ liệu xây dựng hệ thống Error! Bookmark not defined Hình 3 4: Tạo 04 Mining Models cho một Mining Structure Error! Bookmark not
defined.
Hình 3 5: Kết quả tạo viewer cho mơ hình Cây quyết định Error! Bookmark not
defined.
Hình 3 6: Kết quả tạo viewer cho mơ hình Luật kết hợp Error! Bookmark not defined Hình 3 7: Kết quả tạo viewer cho mơ hình Nạve Bayes Error! Bookmark not defined Hình 3 8: Kết quả tạo viewer cho mơ hình mạng nơ ron nhân tạo Error! Bookmark not
defined.
Hình 3 9: Biểu đồ Lift Chart cho 04 mơ hình Error! Bookmark not defined Hình 3 10: Kết quả của ma trận Classification Matrix của 04 mơ hình Error! Bookmark
not defined.
Hình 3 11: Thiết kế một truy vấn DMX với mơ hình được chọn Error! Bookmark not
defined.
Hình 3 12: Kết quả truy vấn với mơ hình được chọn Error! Bookmark not defined Hình 3 13: Sự phụ thuộc của thuộc tính dự đốn vào các thuộc tính khác Error!
Bookmark not defined.
Hình 3 14: Lựa chọn Lift Chart với Predict Value=”K” Error! Bookmark not defined Hình 3 15: Kết quả Lift Chart khơng xác định giá trị thuộc tính dự đốn Error!
Bookmark not defined.
Hình 3 16: Classification Matrix của 04 mơ hình Error! Bookmark not defined.
Trang 9Hình 3 17: Biểu đồ so sánh mức độ chính xác các mơ hình Error! Bookmark not
defined
Hình 4 1: Sơ đồ hoạt động của hệ thống Error! Bookmark not defined Hình 4 2: Kết quả tư vấn học tập với mơ hình Nạve Bayes Error! Bookmark not
defined.
Hình 4 3: Kết quả tư vấn học tập với mơ hình Cây quyết định Error! Bookmark not
defined.
Hình 4 4: Kết quả tư vấn học tập với mơ hình Luật kết hợp Error! Bookmark not
defined.
Hình 4 5: Kết quả tư vấn học tập với mơ hình Neural Network Error! Bookmark not
defined.
Hình 4 6: Kết quả tư vấn học tập với sinh viên nam Error! Bookmark not defined Hình 4 7: Kết quả tư vấn học tập với sinh viên nữ Error! Bookmark not defined Hình 4 8: Xem chi tiết một lộ trình học Error! Bookmark not defined.
LỜI MỞ ĐẦU
Trường ĐHCNHN là một trường nằm trong hệ thống các trường chuyên nghiệp trực thuộc Bộ cơng thương Một vấn đề cấp thiết đặt ra trong cơng tác quản lý và đào tạo của nhà trường là xây dựng các mục tiêu, chiến lược nhằm mở rộng quy mơ đào tạo, thu hút được nhiều sinh viên, bên cạnh đĩ là việc nâng cao chất lượng giảng dạy, đảm bảo đào tạo những sinh viên ra trường đáp ứng được yêu cầu cơng việc Cơng nghệ thơng tin
đã được ứng dụng trong cơng tác quản lý của nhà trường, song việc khai thác vẫn cịn nhiều hạn chế
Xuất phát từ yêu cầu đặt ra đối với đơn vị mình, tơi đã thực hiện đề tài luận văn
“ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐỂ XÂY DỰNG HỆ THỐNG TƯ VẤN HỌC
TẬP TẠI TRƯỜNG ĐẠI HỌC CƠNG NGHIỆP HÀ NỘI” Luận văn đi sâu vào việc
khai phá dữ liệu từ thơng tin cá nhân, điểm tuyển sinh đầu vào kết hợp với lộ trình học để
dự đốn kết quả học tập của sinh viên, hỗ trợ tư vấn cho sinh viên lựa chọn lộ trình học phù hợp để đạt được kết quả học tập cao nhất
Luận văn gồm cĩ phần mở đầu, kết luận và 04 chương, cụ thể như sau:
Chương 1: Giới thiệu tổng quan
Giới thiệu bài tốn ứng dụng KPDL để xây dựng hệ thống tư vấn tại trường ĐHCNHN, trình bày một số hướng nghiên cứu về KPDL trong giáo dục và hướng tiếp cận của luận văn
Chương 2: Các kiến thức cơ sở liên quan
Trang 10Nghiên cứu các cơ sở lý thuyết KPDL, các vấn đề liên quan đến KPDL trong lĩnh vực giáo dục Tìm hiểu các kỹ thuật khai phá dữ liệu sử dụng trong bài tốn phân lớp, dự báo (cây quyết định, phân lớp Nạve Bayes, mạng nơ ron nhân tạo, luật kết hợp) và kỹ thuật KPDL trên hệ quản trị CSDL MS SQL Server
Chương 3 Phương pháp giải quyết bài tốn
Mơ tả ứng dụng, xây dựng bài tốn liệt kê lộ trình học cho từng ngành học để tư vấn cho sinh viên chọn lộ trình phù hợp với ngành mình đang theo học Thu thập và xử lý các dữ liệu liên quan để phát triển hệ thống Xây dựng 4 mơ hình: Cây quyết định, Nạve Bayes, Neural Networks, Luật kết hợp và đưa ra đánh giá các mơ hình tương ứng
Chương 4: Xây dựng hệ thống tư vấn học tập tại trường ĐHCNHN
Dựa trên những đánh giá về mơ hình, lựa chọn mơ hình cho kết quả tốt nhất Xây dựng chương trình thực nghiệm để tư vấn cho sinh viên
Chương 1 Giới thiệu tổng quan
1.1 Bài tốn ứng dụng KPDL để xây dựng hệ thống tư vấn tại trường ĐHCNHN
Trường Đại học Cơng nghiệp Hà Nội cung cấp dịch vụ giáo dục - đào tạo nhiều ngành, nhiều trình độ, chất lượng cao, đáp ứng nguồn nhân lực cho cơng nghiệp hĩa, hiện đại hĩa đất nước và xuất khẩu lao động, tạo cơ hội học tập thuận lợi cho mọi đối tượng
Về ngành, nghề đào tạo: Trong những năm qua nhà trường đã xây dựng được chương
trình và triển khai đào tạo 21 chuyên ngành đại học chính quy, 18 chuyên ngành đào tạo cao đẳng chính quy, 14 chuyên ngành Trung cấp chuyên nghiệp và nhiều chương trình đào tạo trình độ khác nhau
Về qui mơ đào tạo: Trên 50.000 học sinh, sinh viên
Các lĩnh vực đào tạo: Cơng nghệ, kỹ thuật, Kinh tế, May, Thời trang, Sư phạm, Du lịch Các loại hình đào tạo: Chính qui, Vừa làm vừa học, Liên thơng, Liên kết nước ngồi,
Nâng bậc thợ, Đào tạo lao động xuất khẩu, Bồi dưỡng ngắn hạn và dài hạn theo nhu cầu
xã hội quan tâm
Một thực tế đặt ra đối với trường ĐHCNHN là làm sao thu hút được nhiều sinh viên dựa trên “thương hiệu” của nhà trường, để đáp ứng chỉ tiêu đào tạo Tuy nhiên, yêu cầu đặt ra về số lượng cũng phải kèm theo yêu cầu về chất lượng đào tạo Vấn đề nâng cao chất lượng đào tạo là một vấn đề luơn được nhà trường quan tâm
Nhằm đổi mới giáo dục đại học ở Việt Nam, Bộ Giáo dục và Đào tạo đã yêu cầu chuyển đổi từ việc thực hiện chương trình đào tạo theo hệ thống niên chế thành đào tạo
Trang 11theo hệ thống tín chỉ kiểu Hoa Kỳ, bắt đầu từ năm học 2008-2009 và đòi hỏi phải hoàn tất việc chuyển đổi này trước năm 2012
Trường Đại học Công nghiệp Hà Nội đã triển khai đào tạo theo học chế tín chỉ bắt đầu từ năm học 2008 – 2009 Đào tạo tín chỉ có ưu điểm giúp sinh viên có thể tự quản lý quỹ thời gian và tùy theo khả năng của mình để tự quyết định các môn học theo từng kỳ
Vì vậy, việc tư vấn học tập, chủ yếu liên quan đến lựa chọn lộ trình học phù hợp nhằm đạt được kết quả học tập cao nhất cho mỗi sinh viên được đặc biệt quan tâm Đó cũng là khó khăn chung không chỉ của sinh viên, mà còn của các cố vấn học tập, giáo viên chủ nhiệm và các tổ chức quản lý trong trường Các giảng viên chuyên trách, cố vấn học tập không thể tiếp cận toàn bộ dữ liệu về điểm của sinh viên
Đối với mỗi sinh viên, việc lựa chọn cho mình một lộ trình học phù hợp theo đúng quy trình đào tạo là một việc hết sức khó khăn, đặc biệt là với các sinh viên mới vào trường, khi mà kinh nghiệm học tập ở bậc đại học và hình thức đào tạo tín chỉ còn rất mới
mẻ Xuất phát từ thực tế đó, việc tư vấn lựa chọn lộ trình học cho sinh viên theo ngành học đã đăng ký là một việc làm hết sức thiết thực và ý nghĩa
TÀI LIỆU THAM KHẢO
Tiếng Việt
[1] Phan Xuân Hiếu (2013), Bài giảng môn học KPDL và kho dữ liệu, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội
[2] Hà Quang Thụy (2010), Bài giảng môn học Kho dữ liệu và KPDL, Trường Đại học
Công nghệ, Đại học Quốc gia Hà Nội
[3] Đỗ Phúc, Giáo trình khai thác dữ liệu, NXB Đại học Quốc gia TP HCM, 2005
[4] Nguyễn Thái Nghe, Paul Janecek, Peter Haddawy, Một phân tích giữa các kỹ thuật trong dự đoán kết quả học tập, Khoa Công nghệ thông tin và Truyền thông, Đại học
Cần Thơ
Tiếng Anh
[5] JamieMacLennan, ZhaoHui Tang, Bogdan Crivat Data Mining with Microsoft SQL Server 2008 Published by Wiley Publishing, Inc., Indianapolis, Indiana 2008
[6] Jiawei Han and Micheline Kamber Data Mining Concepts and Techniques, Second Edition Published by Elsevier Inc 2006
Trang 12[7] Brian Knight, Devin Knight, Adam Jorgensen, Patrick LeBlanc, Mike Davis Knight's Microsoft Business Intelligence 24-Hour Trainer Published by Wiley Publishing, Inc
2010
[8] Tang, Z H., MacLennan, J.: “Data Mining with SQL Server 2005”, Indianapolis:
Wiley, 2005
[9] Usama M.Fayyad, Gregory Piatesky-Shaporo, Padhraic Smyth and Ramasamy
Uthurusamy (1996), Advances in Knowledge Discovery and Data Mining, AAAI
Press