Data mining on the learning outcomes of students at a college in Van Lang Ha Noi NXB H. : ĐHCN, 2012 Số trang 95 tr. + Nguyễn Đăng Nhƣợng Trƣờng Đại học Công nghệ Luận văn ThS ngành: Hệ thống thông tin; Mã số: 60 48 05
Trang 1Khai phá dữ liệu về kết quả học tập của học sinh
trường Cao đẳng nghề Văn Lang Hà Nội
Data mining on the learning outcomes of students at a college in Van Lang Ha Noi
NXB H : ĐHCN, 2012 Số trang 95 tr +
Nguyễn Đăng Nhượng
Trường Đại học Công nghệ Luận văn ThS ngành: Hệ thống thông tin; Mã số: 60 48 05 Cán bộ hướng dẫn khoa học: PGS.TS Đỗ Trung Tuấn
Năm bảo vệ: 2012
Abstract Giới thiệu tổng quát về quá trình phát hiện tri thức nói chung và khai phá dữ liệu nói
riêng Đặc biệt nhấn mạnh về Kỹ thuật phân cụm Nghiên cứu kỹ thuật phân cụm trong khai phá
dữ liệu: phân cụm phân chia, phân cụm phân cấp, phân cụm dựa trên mật độ và phân cụm dựa trên lưới Trình bày một số kết quả đã đạt được khi tiến hành áp dụng các giải thuật khai phá dữ liệu để khai thác thông tin từ điểm học sinh của trường Cao đẳng nghề Văn Lang Hà Nội Sự ảnh hưởng của vùng miền, của hoàn cảnh gia đình, dân tộc, đạo đức… đến kết quả học tập của học sinh, phân loại kết quả học tập để đánh giá một cách nhanh chóng nhận thức của người học Từ đó có những điều chỉnh giảng dạy của giáo viên phù hợp với năng lực người học
Keywords: Hệ thống thông tin; Khai phá dữ liệu; Kết quả học tập; Học sinh; Trường Cao đẳng
nghề Văn Lang
Content
I MỞĐẦU
Kỹ thuật phát hiện tri thức và khai phá dữ liệu đã và đang được nghiên cứu, ứng dụng trong nhiều lĩnh vực khác nhau ở các nước trên thế giới, tại Việt Nam kỹ thuật này tương đối còn mới mẻ tuy nhiên cũng đang được nghiên cứu và dần đưa vào ứng dụng Bước quan trọng nhất của quá trình này là Khai phá dữ liệu giúp người sử dụng thu được những tri thức hữu ích từ những CSDL hoặc các nguồn dữ liệu khổng lồ khác Vì vậy, trong luận văn này, tôi sẽ đề cập tới kỹ thuật thường dùng trong Khai phá dữ liệu
đó là phân cụm
Bố cục tóm tắt luận văn gồm:
Phần I Tổng quan về phát hiện tri thức và khai phá dữ liệu
Phần này giới thiệu một cách tổng quát về quá trình phát hiện tri thức nói chung và khai phá dữ liệu nói riêng Đặc biệt nhấn mạnh về kỹ thuật chính được nghiên cứu trong luận văn đó là Kỹ thuật phân cụm
Phần II Kỹ thuật phân cụm
Trang 2Kỹ thuật phân cụm cũng được chia làm nhiều kiểu: phân cụm phân chia, phân cụm phân cấp, phân cụm dựa trên mật độ và phân cụm dựa trên lưới
Phần III Kết quả phân cụm học tập của sinh viên
Phần này trình bày một số kết quả đã đạt được khi tiến hành áp dụng các giải thuật khai phá dữ liệu để khai thác thông tin từ điểm học sinh của trường Cao đẳng nghề Văn Lang Hà Nội Sự ảnh hưởng của vùng miền, của hoàn cảnh gia đình, dân tộc, đạo đức… đến kết quả học tập của học sinh, phân loại kết quả học tập để đánh giá một cách nhanh chóng nhận thức của người học Từ đó có những điều chỉnh giảng dạy của giáo viên phù hợp với năng lực người học
II CHƯƠNG1.TỔNGQUANVỀPHÁTHIỆNTRITHỨCVÀKHAIPHÁDỮLIỆU
A 1 1 Về khai phá dữ liệu
Định nghĩa: Khai phá dữ liệu là một quá trình tìm kiếm, phát hiện những tri thức mới, tiềm ẩn hữu
dụng từ những dữ liệu đã thu thập được
B 1 2 Quá trình khai phá tri thức trong cơ sở dữ liệu
1 Gom dữ liệu
2 Trích lọc dữ liệu
3 Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu
4 Chuyển đổi dữ liệu
5 Khai phá dữ liệu
6 Đánh giá các luật và biểu diễn tri thức
C 1 3 Các kỹ thuật khai phá dữ liệu
1) 1 3 1 Khai phá dữ liệu dự đoán
a) 1 3 1 1 Phân loại
Mục tiêu của phương pháp phân loại dữ liệu là dự đoán nhãn lớp cho các mẫu dữ liệu Quá trình phân loại dữ liệu thường gồm 2 bước: Xây dựng mô hình và sử dụng mô hình để phân loại dữ liệu
b) 1 3 1 2 Hồi quy
Phương pháp hồi qui khác với phân loại dữ liệu ở chỗ, hồi qui dùng để dự đoán về các giá trị liên tục còn phân loại dữ liệu thì chỉ dùng để dự đoán về các giá trị rời rạc
2) 1 3 2 Khai phá dữ liệu mô tả
a) 1 3 2 1 Phân cụm
Mục tiêu chính của phương pháp phân cụm dữ liệu là nhóm các đối tượng tương tự nhau trong tập
dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một cụm là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng
b) 1 3 2 2 Luật kết hợp
Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu trong CSDL
Trang 3D 1.4 Lợi thế của khai phá dữ liệu so với các phương pháp khác
1) 1 4 1 Học máy
Phương pháp học máy chủ yếu được áp dụng trong các CSDL đầy đủ, ít biến động và tập dữ liệu không quá lớn
2) 1 4 2 Hệ chuyên gia
Các hệ chuyên gia nắm bắt các tri thức cần thiết cho một bài toán nào đó Các kỹ thuật thu thập giúp cho việc lấy tri thức từ các chuyên gia con người
3) 1 4 3 Thống kê
Các phương pháp thống kê không phù hợp với các kiểu dữ liệu có cấu trúc
Thống kê hoàn toàn tính toán trên dữ liệu, nó không sử dụng tri thức sẵn có về lĩnh vực quan tâm
Các kết quả của phân tích thống kê có thể rất nhiều và khó có thể làm rõ được
Các phương pháp thống kê cần có sự hướng dẫn của người dùng để xác định phân tích dữ liệu như thế nào và ở đâu
E 1 5 Các ứng dụng của phát hiện tri thức và những thách thức đối với phát hiện tri thức
1) 1 5 1 Các ứng dụng của phát hiện tri thức
Các kỹ thuật KDD có thể được áp dụng vào trong nhiều lĩnh vực:
Thông tin thương mại: Phân tích dữ liệu tiếp thị và bán hàng, phân tích vốn đầu tư, chấp thuận cho vay, phát hiện gian lận
Thông tin sản xuất: Điều khiển và lập lịch, quản lý mạng, phân tích kết quả thí nghiệm
Thông tin khoa học: Địa lý: Phát hiện động đất
Giáo dục đào tạo: Phân luồng học sinh, áp dụng các phương pháp dạy học tích cực để nâng cao chất lượng giáo dục
2) 1 5 2 Những thách thức đối với phát hiện tri thức
1 Số chiều cao
2 Thay đổi dữ liệu và tri thức
3 Dữ liệu thiếu và bị nhiễu
4 Mối quan hệ phức tạp giữa các trường
5 Tính dễ hiểu của các mẫu
6 Người dùng tương tác và tri thức sẵn có
7 Tích hợp với các hệ thống khác
III CHƯƠNG2.KỸTHUẬTPHÂNCỤMTRONGKHAIPHÁDỮLIỆU
A 2 1 Khái niệm thống kê
Thống kê là một hệ thống các phương pháp bao gồm thu thập, tổng hợp, trình bày số liệu, tính toán các đặc trưng của đối tượng nghiên cứu nhằm phục vụ cho quá trình phân tích, dự đoán và ra quyết định
Trang 4B 2 2 Khái niệm phân cụm
(a) Định nghĩa :
Cho x làm một tập dữ liệu: X = { x1, x2, … , xn } Ta định nghĩa m-phân cụm của X như một
sự phân chia X thành m tập (cụm) C 1 , C 2 , … , C m sao cho thỏa mãn 3 điều kiện:
(a) Hình 2 1 Gom cụm
Các yêu cầu điển hình của phân cụm trong khai phá dữ liệu:
1 Khả năng mở rộng
2 Khả năng xử lí các kiểu khác nhau của thuộc tính
3 Phát hiện các cụm với hình dạng tuỳ ý
4 Các yêu cầu tối thiểu cho miền tri thức để xác định rõ các tham số đầu vào
5 Khả năng giải quyết dữ liệu nhiễu
6 Sự không nhạy cảm khi sắp xếp các bản ghi đầu vào
7 Số chiều
8 Phân cụm dựa trên ràng buộc
9 Khả năng diễn dịch và tính tiện lợi
C 2 4 Phân loại các phương pháp phân cụm chính
Hiện có một số lượng lớn các giải thuật phân cụm trong các tài liệu Việc lựa chọn giải thuật phân cụm tuỳ thuộc vào kiểu dữ liệu cho sẵn, mục đích riêng và ứng dụng Nếu như phép phân tích cụm được dùng như một công cụ mô tả hay thăm dò thì có thể thử một vài giải thuật trên cùng dữ liệu để xem xem
dữ liệu có thể thể hiện được điều gì Nhìn chung, các phương pháp phân cụm chính được phân thành các loại sau:
1) 2 4 1 Các phương pháp phân chia
Cho trước một cơ sở dữ liệu với n đối tượng hay các bộ dữ liệu, một phương pháp phân chia được xây dựng để chia dữ liệu thành k phần, mỗi phần đại diện cho một cụm, k ≤ n Đó là phân loại dữ liệu vào trong k nhóm, chúng thoả mãn các yêu cầu sau: (1) Mỗi nhóm phải chứa ít nhất một đối tượng, (2) Mỗi đối tượng phải thuộc về chính xác một nhóm
Trang 5Cho trước k là số lượng các phần chia cần xây dựng Sau đó nó dùng kỹ thuật lặp lại việc định vị,
kỹ thuật này cố gắng cải thiện sự phân chia bằng cách gỡ bỏ các đối tượng từ nhóm này sang nhóm
khác Tiêu chuẩn là các đối tượng trong cùng cụm là "gần" hay có quan hệ với nhau, ngược lại, các đối tượng của các cụm khác nhau lại "tách xa" hay rất khác nhau
Trong phân cụm dựa trên phép phân chia, hầu hết các ứng dụng làm theo một trong hai phương pháp phổ biến: (1) Giải thuật K-means với mỗi cụm được đại diện bởi giá trị trung bình của các đối tượng trong cụm; (2) Giải thuật k-medoids với mỗi cụm được đại diện bởi một trong số các đối tượng định vị gần tâm của cụm Các phương pháp phân cụm này làm việc tốt khi tìm kiếm các cụm có hình cầu trong các cơ sở dữ liệu có kích thước từ nhỏ tới trung bình
2 4 2 Các phương pháp phân cấp
Một phương pháp phân cấp tạo một phân tích phân cấp tập các đối tượng dữ liệu đã cho Một phương pháp phân cấp có thể được phân loại như tích đống hay phân chia Tiếp cận tích đống còn được gọi là tiếp cận dưới-lên Tiếp cận phân ly còn được gọi là tiếp cận trên-xuống Sự kết hợp của việc lặp lại việc định vị và phân ly phân cấp sẽ thuận lợi bởi trước tiên sử dụng giải thuật phân ly phân cấp và sau đó cải tiến kết quả sử dụng định vị lặp Nhiều giải thuật phân cụm mở rộng như BIRCH và CURE được phát triển dựa trên một tiếp cận tích hợp như vậy
2) 2 4 3 Các phương pháp dựa trên mật độ
Ý tưởng chung đó là tiếp tục phát triển cụm cho trước với điều kiện là mật độ (số các đối tượng hay các điểm dữ liệu) trong "lân cận" vượt quá ngưỡng, tức là đối với mỗi điểm dữ liệu trong phạm vi một cụm cho trước thì lân cận trong vòng bán kính đã cho chứa ít nhất một số lượng điểm tối thiểu Một phương pháp như vậy có thể được dùng để lọc ra nhiễu và khám phá ra các cụm có hình dạng bất kỳ DBSCAN là một phương pháp dựa trên mật độ điển hình, nó tăng trưởng các cụm theo một ngưỡng mật
độ OPTICS là một phương pháp dựa trên mật độ, nó tính toán một thứ tự phân cụm tăng dần cho phép phân tích cụm tự động và tương tác
3) 2 4 4 Các phương pháp dựa trên lưới
Một phương pháp dựa trên lưới lượng tử hoá không gian đối tượng vào trong một số hữu hạn các
ô hình thành nên một cấu trúc lưới Sau đó nó thực hiện tất cả các thao tác phân cụm trên cấu trúc lưới (tức là trên không gian đã lượng tử hoá) STING là một ví dụ điển hình của phương pháp dựa trên lưới WaveCluster và CLIQUE là hai giải thuật phân cụm dựa trên cả lưới và mật độ
Nhiều giải thuật phân cụm tích hợp các ý tưởng của một vài phương pháp phân cụm, bởi vậy việc phân loại giải thuật đó không dễ như loại giải thuật chỉ phụ thuộc vào duy nhất một loại phương pháp phân cụm Hơn nữa, nhiều ứng dụng có thể có giới hạn phân cụm với yêu cầu tích hợp một số kỹ thuật phân cụm
Trang 6IV CHƯƠNG3.PHÂNCỤMKẾTQUẢHỌCTẬPTẠITRƯỜNGCAOĐẲNGNGHỀVĂNLANG
HÀHỘI
A 3 1 Giới thiệu lịch sử phát triển
Trường Cao đẳng nghề Văn Lang Hà Nội được thành lập theo quyết định số 130/QĐ-BLĐTBXH ngày 22/01/2009 của Bộ trưởng Bộ Lao động Thương binh và Xã hội.Các khoa của nhà trường gồm các ngành nghề cụ thể như sau:
1 Khoa Công nghệ thông tin
2 Khoa Kế toán-Ngân hàng
3 Khoa Du lịch
4 Khoa Thư viện-Thiết bị
5 Khoa Cơ khí
6 Khoa Điện-Điện tử
3 2 Yêu cầu xây dựng cơ sở dữ liệu học sinh
Bài toán đặt ra đối với hệ thống cơ sở dữ liệu là phân tích số liệu theo một số chủ đề quan tâm, phục vụ công tác quản lý đào tạo, như liệt kê sau :
1 Kết quả học tập của học sinh: Giỏi, khá, trung bình, yếu, kém
2 Kết quả vùng miền đến kết quả học tập đó như thế nào
3 Các dân tộc khác nhau có kết quả học tập ra sao
4 Hoàn cảnh gia đình, đạo đức lối sống của học sinh
5 Phân tích số liệu ảnh hưởng của các môn học tự nhiên đến các môn học xã hội và ngược lại, ở đây cụ thể là môn học toán, văn ảnh hưởng đến các môn học khác như thế nào
Nhu cầu xử lý dữ liệu theo nhu cầu của nhà trường cần được phân tích theo các chủ đề, chiều khác nhau Chúng được chi tiết hoá theo bảng sau:
Phân tích theo chủ
Điểm trung bình
Liên quan giữa
Môn toán và các
môn xã hội
Đơn vị hành chính,
Trang 7Đạo đức X X X X X
(i) Bảng 3 1 Các chiều phân tích theo chủ đề
B 3 3 Công cụ xử lý dữ liệu cùng với phân cụm
Công cụ SPSS là phần mềm chuyên dụng xử lý thông tin sơ cấp-thông tin được thu thập trực tiếp
từ đối tượng nghiên cứu Thông tin được xử lý là thông tin định lượng (có ý nghĩa về mặt thống kê) Một vài nhận xét về công cụ này :
• SPSS là một bộ chương trình mà nhiều người sử dụng ưa thích do nó rất dễ sử dụng;
• SPSS có một giao diện giữa người và máy cho phép sử dụng các menu thả xuống để chọn các lệnh
thực hiện Khi thực hiện một phân tích chỉ đơn giản chọn thủ tục cần thiết và chọn các biến phân tích và bấm OK là có kết quả ngay trên màn hình để xem xét;
• SPSS cũng có một ngôn ngữ cú pháp có thể học bằng cách dán cú pháp lệnh vào cửa sổ cú pháp từ
một lệnh vừa chọn và thực hiện, nhưng nói chung khá phức tạp và không trực giác
• SPSS có một bộ soạn thảo dữ liệu tương tự như Excel
• SPSS có một giao diện giữa người và máy rất đơn giản để tạo ra các đồ thị và khi đã tạo được một
đồ thị, nhờ giao diện này mà người sử dụng có thể tuỳ ý hiệu chỉnh đồ thị cũng như hoàn thiện chúng Các đồ thị có chất lượng rất cao và có thể dán vào các tài liệu khác, thí dụ như Word hoặc Powerpoint SPSS có ngôn ngữ cú pháp để tạo ra các đồ thị SPSS mạnh về lĩnh vực đồ thị và lập biểu bảng, báo cáo tổng hợp số liệu
1) * Phạm vi thực hiện
Với bài toán đặt ra, việc phân tích, thiết kế và xây dựng CSDL phải đáp ứng các chủ đề như trên nhưng điểm trung bình môn học của học sinh là quan trọng nhất vì học sinh có kết quả học tập tốt sẽ thúc đẩy sự phát triển của nhà trường, động cơ học tập của học sinh và giảng dạy của giáo viên
Một số câu hỏi được đặt ra trong công tác quản lý giáo dục:
1 Học sinh ở vùng nào thì có kết quả học tập tốt hơn, dân tộc nào có kết quả học tập cao hơn;
2 Ảnh hưởng của các vùng miền đến kết quả học tập của học sinh như thế nào ?
3 Môn toán học tốt có tác động đến kết quả của các môn khác không ? đặc biết các môn khoa học xã hội;
4 Đánh giá hạnh kiểm có ý nghĩa ra sao : Các em có đạo đức tốt thì kết quả học tập có tốt không…
5 Phân lớp học sinh thế nào là hiệu quả nhất
Việc phân cụm dữ liệu dựa trên kết quả học tập, tu dưỡng của học sinh sẽ giải quyết các yêu cầu trên Hay nói khác đi, trả lời các câu hỏi trên, người ta đã phân hoạch các học sinh theo các cụm khác nhau Các tìm hiểu lý thuyết trong các chương trên sẽ làm nền cho thực nghiệm
C 3 3 Áp dụng phân cụm học sinh tại trường Cao đẳng nghề Văn Lang Hà Nội
1) 3 3 1 Xây dựng CSDL học sinh
Trang 8STT Tên trường Kiểu dữ
liệu
Độ rộng trường
Phần thập phân
Mô tả
Điểm trung bình các môn học
Phân cụm chính k meas
Khoảng cách giữa các thành viên đến cụm
Phân cụm môn toán
Khoảng cách giữa các thành viên đến cụm toán
Trang 926 Kc_van Numeric 15 2
Khoảng cách giữa các thành viên đến cụm văn
(i) Bảng 3 3 Bảng xây dựng CSDL học sinh
Ở bảng CSDL trên thì khu vực ta chia ra như sau:
1 Khu vực Đồng bằng sông Hồng, Trung du và miền núi phía Bắc, và Bắc trung bộ Trong đó Đồng bằng sông Hồng gồm các tỉnh: Hà Nội, Hà Tây, Vĩnh phúc, Bắc Ninh, Quảng Ninh, Hải Dương, Hải Phòng, Hưng Yên, Thái Bình, Hà Nam, Nam Định, Ninh Bình
2 Khu vực Trung du và miền núi phía Bắc gồm: Hà Giang, Cao Bằng, Bắc Kạn, Tuyên Quang, Lào Cai, Yên Bái, Thái Nguyên, Lạng Sơn, Bắc Giang, Phú Thọ, Điện Biên, Lai Châu, Sơn
La, Hoà Bình
3 Khu vực Bắc Trung Bộ gồm: Thanh Hoá, Nghệ An, Hà Tĩnh, Quảng Bình, Quảng Trị, Thừa thiên Huế
Các môn học được đưa vào phân tích là môn học cuối lớp 12 Ở đây luận văn định nghĩa :
ĐTB là tổng trung bình các môn học trong đó môn toán và môn văn tính hệ số 2
Các trường như Cluster, cụm_toán, cum_van: là phân cụm theo thuật toán K-means để phân loại học sinh vào các cụm như; Giỏi, khá, trung bình, yếu, kém
Các trường như KC_toan, KC_van, Kc_cum là tính giá trị khoảng cách từ đối tượng đang xét đến trung tâm cụm
Xét kết quả học tập của học sinh khi tham gia phân cụm tổng số là 711 học sinh của khoá 5
(b) Hình 3 1 Kết quả học tập của học sinh khi tham gia phân
cụm
Ở hình trên ta nhận thấy kết quả học tập của học sinh tập trung nhiều ở điểm trung bình các môn học từ 5.0 đến 6.0 Đặc biệt số lượng học sinh nhiều nhất có kết quả học tập từ 5.5 đến 5.7 và nhiều nhất
là 5.6 Đây là một kết quả phản ánh đầu vào học sinh còn thấp, chiếm tỉ lệ cao các học sinh có kết quả trung bình và trung bình yếu Số lượng của 3 loại điểm trung bình 5.5; 5.6 và 5.7 tương ứng là 54; 63;
57 học sinh tổng số là 174 học sinh chiếm 24.5% tức là chiếm 1/4 tổng số học sinh ta tham gia phân tích
Trang 102) 3 3 2 Kết quả phân cụm theo thuật toán k-means
Mở chương trình SPSS và phân cụm kết quả học tập của học sinh theo thuật toán K-means Với kết quả học tập như trên, người dùng có thể xác định hình dạng cụm để thuận lợi cho việc phân tích, đáp ứng nhu cầu của quản lý giáo dục
Luận văn nhất trí phân chia làm 5 cụm: nhằm phản ánh đối tượng học sinh theo 5 cách đánh giá của Bộ giáo dục và đào tạo là : Giỏi, khá, trung bình, yếu, kém
Kết quả học tập của học sinh sau khi được phân ra 5 cụm, có các khoảng điểm cụ thể như sau:
Cụm
(6.3-7.3) (7.4-8.4) (5.0-5.6) (3.8-4.9) (5.7-6.2)
Số
lượng Tỉ lệ
Số lượng Tỉ lệ
Số lượng Tỉ lệ
Số lượng Tỉ lệ
Số lượng
Tỉ
lệ
82 11.5% 3 0.4% 315 44.3% 98 13.8% 213 30%
(i) Bảng 3 4 Kết quả phân cụm và số lượng cụ thể từng
cụm Theo kết quả phân cụm trên thì ta có thể thấy: Đối chiếu với kết quả xếp loại của Bộ giáo dục và đào tạo thì:
Cụm 1 là cụm có kết quả học sinh đạt loại khá
Cụm 2 là cụm giỏi
Cụm 3 và cụm 5 là cụm trung bình
Cụm 4 là cụm yếu
Trong đó cụm 3 dạng trung bình thấp và cụm 5 là trung bình cao Nhìn vào bảng số liệu trên ta
nhận thấy tỉ lệ điểm của học sinh có tỉ lệ điểm thấp chiếm tỉ lệ cao Do vậy nhà trường tuyển sinh chủ
yếu là các đối tượng có kết quả học tập đạt kết quả thấp trong các trường trung học phổ thông
Vùng
Các cụm 1-TC 6.5 2-TC 7.9 3-TC 5.3 4-TC 4.7 5-TC 5.9
(6.3-7.3) (7.4-8.4) (5.0-5.6) (3.8-4.9) (5.7-6.2)
Bắc
trung
bộ
12 14.5% 0 0.0% 36 43.4% 7 8.40% 28 33.7%
ĐB
sông
Hồng
45 13.3% 3 0.9% 142 42.0% 43 12.7% 105 31.1%
Trung 25 8.6% 0 0.0% 137 47.2% 48 16.6% 80 27.6%