1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng giải pháp dự đoán kết quả tốt nghiệp trong trường trung học phổ thông

73 93 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 73
Dung lượng 2,18 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Trần Văn Lăng NỘI DUNG TÓM TẮT - Thu thập các dữ liệu liên quan nằm trong phạm vi nghiên cứu của luận văn như: Tổng điểm trung bình theo từng môn học Toán, Ngữ Văn, Anh Văn, Vật Lý, Hóa

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC LẠC HỒNG

- -

LÊ THỊ THANH VANG

XÂY DỰNG GIẢI PHÁP DỰ ĐOÁN KẾT QUẢ TỐT NGHIỆP TRONG TRƯỜNG

TRUNG HỌC PHỔ THÔNG

LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN

Đồng Nai, Năm 2018

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC LẠC HỒNG

- -

LÊ THỊ THANH VANG

XÂY DỰNG GIẢI PHÁP DỰ ĐOÁN KẾT QUẢ TỐT NGHIỆP TRONG TRƯỜNG TRUNG HỌC

PHỔ THÔNG

CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN

MÃ SỐ: 8480201

LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:

PGS.TS TRẦN VĂN LĂNG

Đồng Nai, Năm 2018

Trang 3

Em cũng xin gửi lời cảm ơn đến những người thân trong gia đình; cùng các anh chị, các bạn trong lớp đã luôn quan tâm giúp đỡ trong suốt thời gian học tập cũng như làm luận văn

Do thời gian làm luận văn còn hạn chế, và kiến thức cũng có hạn; nên luận văn không tránh khỏi những thiếu sót Kính mong nhận được những ý kiến đóng góp của quí thầy cô và các bạn để luận văn được hoàn chỉnh hơn

Xin chân thành cảm ơn!

Đồng Nai, ngày 16 tháng 10 năm 2018

HỌC VIÊN

Lê Thị Thanh Vang

Trang 4

LỜI CAM ĐOAN

Tôi cam đoan rằng kết quả đạt được trong luận văn này là sản phẩm của riêng

cá nhân, là kết quả đạt được trong quà trình học tập và nghiên cứu khoa học độc lập

Trong toàn bộ nội dung của luận văn, những điều được trình bày là của cá nhân hoặc là được tổng hợp từ nhiều nguồn tài liệu Tất cả các tài liệu tham khảo đều

Trang 5

TRƯỜNG ĐẠI HỌC LẠC HỒNG

KHOA SAU ĐẠI HỌC

¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯

TÓM TẮT LUẬN VĂN

(Dùng cho học viên và người hướng dẫn)

Đề tài: Xây dựng giải pháp dự đoán kết quả tốt nghiệp trong trường trung học phổ thông Ngành: Công nghệ thông tin Mã số: 8480201

Học viên: Lê Thị Thanh Vang

Người hướng dẫn: PGS.TS Trần Văn Lăng

NỘI DUNG TÓM TẮT

- Thu thập các dữ liệu liên quan nằm trong phạm vi nghiên cứu của luận văn như: Tổng điểm trung bình theo từng môn học (Toán, Ngữ Văn, Anh Văn, Vật Lý, Hóa Học, Sinh Học, Lịch Sử, Địa Lí, Giáo Dục Công Dân), của năm học lớp 10, 11, 12; thông tin cá nhân của học sinh; tập dữ liệu huấn luyện ( kết quả các môn học và tốt nghiệp của các khóa học trước)

- Nghiên cứu, phân tích các vấn đề liên quan đến công việc dự đoán kết quả đậu tốt nghiệp của học sinh, các yếu tố ảnh hưởng đến kết quả tốt nghiệp của các

em

- Nghiên cứu thuật toán Kmeans, cách khai phá dữ liệu từ tập dữ liệu có sẵn trong trường về kết quả học tập, kết quả tốt nghiệp và thông tin cá nhân của học sinh Từ tập dữ liệu huấn luyện sử dụng phần mềm Weka để phân lớp

- Phân tích và thiết kế cơ sở dữ liệu sau khi có kết quả thu thập được

- Phân tích và thiết kế hệ thống để có các chức năng chương trình “Xây dựng giải pháp dự đoán kết quả tốt nghiệp trong trường trung học phổ thông”

- Thực nghiệm và đánh giá chương trình

Trang 6

định dạng chung, nếu không đúng định dạng thì chương trình sẽ không thể cập nhật được

dữ liệu

 Buớc 2: Trong bước này chúng ta cần phải chuẩn hóa dữ liệu vì dữ liệu ban đầu có thể dư hoặc thiếu các trường (cột) ví dụ: cột kết quả cuối năm, cột xếp loại, ….Bước này chúng ta cần cập nhật thêm những trường còn thiếu và loại bỏ những cột dư thừa

 Bước 3: Thực hiện quá trình làm sạch dữ liệu những dữ liệu không đúng (không phải số), dữ liệu bị nhiễu sẽ bị loại bỏ Dữ liệu bị khuyết sẽ được kiểm tra và thông báo yêu cầu bổ sung Bước này phải được thực hiện hoàn thành trước khi thực hiện các bước tiếp theo

 Bước 4: Sau khi dữ liệu đã được làm sạch và chuẩn hóa thành công Luận văn tiến hành phân cụm dữ liệu với thuật toán K-Means Khi thực hiện dữ liệu huấn luyện với thuật toán K-Means sẽ cho ta kết quả

 Bước 5: Kết quả khi thực hiện thuật toán K-Means với dữ liệu huấn luyện là một tập các cụm Các cụm cho ta biết dữ liệu cần kiểm tra đó thuộc cụm nào Từng cụm kết quả là khác nhau hoàn toàn

 Bước 6: Dựa vào tập các cụm và kết quả thống kê tỉ lệ theo từng cụm, chương trình thực hiện dự đoán kết quả tốt nghiệp trung học phổ thông, từ đó giúp giáo viên có cách nhìn tổng quan về tình hình học tập của học sinh và thực hiện bồi dưỡng kiến thức cho học sinh có học lực trung bình, yếu

Kết hợp các bước trên triển khai xây dựng thành một phần mềm có giao diện tương tác với người dùng bằng Windows Form Luận văn sử dụng hệ quản trị cơ sở dữ liệu SQL Server 2010 và sử dụng công nghệ Visual Studio 2013 để viết chương trình luận văn bằng ngôn ngữ C#

Đồng Nai, Ngày 16 tháng 10 năm 2018

PGS.TS Trần Văn Lăng Lê Thị Thanh Vang

Trang 7

MỤC LỤC

Trang LỜI CẢM ƠN I LỜI CAM ĐOAN II MỤC LỤC V DANH MỤC CÁC KÍ HIỆU, CÁC TỪ VIẾT TẮT VIII DANH MỤC CÁC HÌNH ẢNH IX DANH MỤC CÁC BẢNG BIỂU X

CHƯƠNG 1: TỔNG QUAN 1

1.1 MỞ ĐẦU 1

1.2 GIỚI THIỆU ĐỀ TÀI 2

1.2.1 Lý do chọn đề tài 2

1.2.2 Mục tiêu của đề tài 3

1.3 ĐỐI TƯỢNG PHẠM VI NGHIÊN CỨU CỦA ĐỀ TÀI 3

1.3.1 Kết quả học tập 3

1.3.2 Diện miễn thi 4

1.3.3 Điểm ưu tiên: 4

1.3.4 Điểm khuyến khích: 4

1.4 PHƯƠNG PHÁP NGHIÊN CỨU 5

1.4.1 Phương pháp nghiên cứu lý thuyết: 5

1.4.2 Phương pháp thực nghiệm 5

1.5 CÂU HỎI VÀ GIẢ THIẾT NGHIÊN CỨU CỦA ĐỀ TÀI 5

1.6 Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN CỦA ĐỀ TÀI 5

1.6.1 Ý nghĩa khoa học 5

1.6.2 Ý nghĩa thực tiễn 5

1.7 CẤU TRÚC LUẬN VĂN 6

CHƯƠNG 2: GIẢI PHÁP GIẢI QUYẾT BÀI TOÁN DỰ ĐOÁN 7

2.1 GIỚI THIỆU VỀ BÀI TOÁN DỰ ĐOÁN 7

2.2 MỤC TIÊU VÀ NHIỆM VỤ: 7

Trang 8

2.2.1 Mục tiêu: 7

2.2.2 Nhiệm vụ 7

2.3 PHÂN CỤM DỮ LIỆU TRONG KHAI PHÁ DỮ LIỆU 8

2.3.1 Định nghĩa về phân cụm dữ liệu 8

2.3.2 Gom cụm rõ: 8

2.3.3 Gom cụm mờ: 8

2.4 ĐỘ ĐO 9

2.4.1 CÁC TÍNH CHẤT CỦA ĐỘ ĐO 9

2.4.2 CAC KIỂU DỮ LIỆU CƠ SỞ 9

2.5 THUẬT TOÁN FUZZY C-MEANS (FCM)[11] 10

2.6 MỘT SỐ NGHIÊN CỨU MỚI VỀ GOM CỤM MỜ 11

2.6.1 Gom cụm mờ với tiêu chuẩn phân tách mới 11

2.6.2 Gom cụm gia tăng K-Means mờ dựa trên K-Center và véctơ lượng tử 14

2.7 CƠ SỞ DỮ LIỆU THỰC HIỆN GOM CỤM 18

2.7.1 Cở sở thu thập dữ liệu 18

2.7.2 Mục đích khai phá dữ liệu là kết quả học tập của học sinh là: 18

2.8 THỰC HIỆN PHÂN CỤM TRONG LUẬN VĂN 19

2.8.1 Dữ liệu thực hiện luận văn 19

2.8.2 Quá trình hình thành gom cụm 21

2.8.3 Kết quả thực hiện quá trình gom cụm 26

3.1XÂY DỰNG HỆ THỐNG DỰ ĐOÁN KẾT QUẢ TỐT NGHIỆP TRUNG HỌC PHỔ THÔNG 29 3.1.1 Tổng quan về hệ thống gom cụm trong luận văn 29

3.1.2 Công cụ thực hiện 32

3.1.3 Kiến trúc của hệ thống 32

3.1.4 Ưu điểm và nhược điểm của kiến trúc trên 33

3.2 MÔ TẢ MỐI QUAN HỆ GIỮA CÁC LỚP TRONG ỨNG DỤNG 35

3.3NHỮNG CHỨC NĂNG CHÍNH TRONG CHƯƠNG TRÌNH 36

3.3.1 Phân cụm sử dụng công cụ Weka 36

3.3.2 Thực hiện gom cụm trên Weka và kết quả 37

3.3.3 Áp dụng kết quả gom cụm vào ứng dụng 42 4.1DỮ LIỆU SỬ DỤNG TRONG HỆ THỐNG DỰ ĐOÁN KẾT QUẢ THI TỐT NGHIỆP THPT.45

Trang 9

4.2 PHƯƠNG PHÁP ĐÁNH GIÁ 46

4.3 KẾT QUẢ THỰC NGHIỆM 47

4.3.1 Kết quả thực nghiệm niên khóa 2013-2016 48

4.3.2 Kết quả thực nghiệm niên khóa 2014-2017 51

4.3.3 Kết quả thực nghiệm niên khóa 2015 - 2018 54

5.1 KẾT QUẢ ĐẠT ĐƯỢC CỦA LUẬN VĂN NÀY 57

5.1.1 Về mặt nội dung, luận văn đã đạt được những kết quả sau: 57

5.1.2 Bên cạnh những thuận lợi, do hạn chế về mặt thời gian và kiến thức luận văn vẫn còn hạn chế sau: 58

5.2 ĐỊNH HƯỚNG TƯƠNG LAI 58 TÀI LIỆU THAM KHẢO

Trang 10

DANH MỤC CÁC KÍ HIỆU, CÁC TỪ VIẾT TẮT

FCS Fuzzy Compactness and Separation

Trang 11

DANH MỤC CÁC HÌNH ẢNH

Trang Hình1.1: Chu trình mô tả tác động qua lại giữa hoạt động tư vấn và khai phá dữ liệu,

phát hiện tri thức 2

Hình 2 1: Hai trọng tâm xếp nhóm 16

Hình 2 2: Biểu đồ thể hiện các cụm với công cụ Weka 28

Hình 3 1: Sơ đồ hệ thống ứng dụng 31

Hình 3 2: Mô hình kiến trúc hệ thống dự đoán kết quả tốt nghiệp THPT 32

Hình 3 3: Giao tác giữa các lớp trong hệ thống 35

Hình 3 4: Màn hình Load dữ liệu trong công cụ Weka 36

Hình 3 5: Excel mẫu kết quả cuối năm 37

Hình 3 6: Thiết lập các tham số thực hiên gom cụm với Kmean trên Weka 38

Hình 3 7: Màn hình thực hiện gom cụm trên Weka 39

Hình 3 8: Màn hình kết quả gom cụm theo K-Means trên Weka 40

Hình 3 9: Màn hình biểu đồ thể hiện các cụm trong Weka 41

Hình 3 10: Lưu kết quả dữ liệu đã phân cụm 42

Hình 3 11: Kết quả load dữ liệu đã phân cụm vào ứng dụng 42

Hình 3 12: Màn hình thống kê theo nghề nghiệp của cha mẹ học sinh 43

Hình 3 13: Ứng dụng dự đoán kết quả tốt nghiệp THPT 44

Hình 3 14: Định dạng dữ liệu cần kiểm tra 43

Hình 4 1: Kết quả phân cụm niên khóa 2013-2016 48

Hình 4 2: Kết quả phân lớp niên khóa 2014 -2017 51

Hình 4 3: Kết quả phân lớp niên khóa 2015 -2018 54

Trang 12

DANH MỤC CÁC BẢNG BIỂU

Trang

Bảng 2 1: Bảng dữ liệu kết quả học tập của học sinh từ file excel 19

Bảng 2 2: Bảng dữ liệu kết quả thi tốt nghiệp của học sinh từ file excel 20

Bảng 2 3: Bảng dữ liệu kết quả và nghề nghiệp cha mẹ của học sinh 21

Bảng 2 4: Bảng điểm học sinh 22

Bảng 2 5: Tính khoảng cách Euclidean và xác định cụm lần 1 23

Bảng 2 6: Tính khoảng cách Euclidean và xác định cụm lần 2 24

Bảng 2 7: Tính khoảng cách Euclidean và xác định cụm lần 3 25

Bảng 4 1: Thống kê số lượng học sinh cuối năm và dự thi tốt nghiệp 45

Bảng 4 2: Thống kê số lượng dữ liệu Training và mẫu kiểm tra 46

Bảng 4 3: Kết quả thực nghiệm niên khóa 2013-2016 49

Bảng 4 4: Kết quả thực nghiệm niên khóa 2014-2017 52

Bảng 4 5: Kết quả thực nghiệm niên khóa 2015-2018 55

Trang 13

CHƯƠNG 1: TỔNG QUAN

Tại các trường trung học phổ thông (THPT) trên cả nước, tỉ lệ đậu tốt nghiệp rất được quan tâm, là tiêu chí để thầy cô hướng đến để chọn phương pháp dạy học cho các em, và là bước tiến rất quan trọng của các em học sinh Kết quả này còn là bước quyết định để các em học sinh vào các trường đại học, cao đẳng hay trung học chuyên nghiệp; thậm chí là bước quyết định để các em xin vào làm việc với vai trò của người công nhân, của người thợ ở các khu công nghiệp Thực tế nhiều em thuộc gia đình khó khăn, không có điều kiện đi học tiếp; phải đi làm để phụ giúp gia đình, nên các

em phải nghỉ học giữa chừng Khi xin vào làm ở các khu công nghiệp, yêu cầu tối thiểu cũng phải có bằng tốt nghiệp trung học phổ thông mới được nhận làm nhân viên chính thức Nếu không đủ điều kiện, các em phải làm nhân viên thời vụ Mọi quyền lợi về bảo hiểm ý tế, trợ cấp thất nghiệp, hay trợ cấp thai sản (đối với nữ) đều không

có Từ đó gây ra tâm lí chán nản, không chuyên tâm làm việc, khó tìm công việc ổn định; rất thiệt thòi cho tương lai của các em

Vì vậy, các em là phải tốt nghiệp trung học phổ thông Để đạt được mục tiêu đó,

cả thầy và trò đều cố gắng Thầy cố gắng chọn phương pháp dạy học phù hợp, dễ hiểu cho từng nhóm đối tượng học sinh Học sinh thì phải cố gắng học hỏi, chăm chỉ làm bài Có như thế thì mới đạt được kết quả cao Và để biết được tình hình học tập của các em như thế nào thể hiện qua điểm số của các bài kiểm tra, cuối cùng là điểm tổng kết cuối năm học của các môn Nhưng, kết quả học tập của các em còn bị ảnh hưởng của các yếu tố khác như: hạnh kiếm (em đó có đi học chuyên cần, vi phạm nội qui không), và thông tin cá nhân (sống với ai, nơi sinh sống, giới tính, dân tộc, hoàn cảnh gia đình, nhà có bao nhiêu anh chị em, con thứ mấy, diện ưu tiên, …), và nhận xét của giáo viên chủ nhiệm cũng ảnh hưởng rất lớn đến kết quả học tập của các em Hàng năm, tất cả các trường phổ thông đều muốn trường mình có tỉ lệ học sinh đậu tốt nghiệp cao nhất, thậm chí có trường còn hướng tới mục tiêu

là trăm phần trăm đậu tốt nghiệp (như trường Trung học phổ thông Nguyễn Huệ Quận 9, TP.HCM) Bởi vì tỉ lệ đậu tốt nghiệp, đại học nói lên chất lượng giảng dạy của một trường

Trang 14

Hiện nay, đã có một số đề tài nghiên cứu giúp giải quyết các yêu cầu thiết thực

cho công việc giáo dục đào tạo như “Ứng dụng lý thuyết tập mờ vào việc dự đoán kết quả tốt nghiệp phổ thông trung học” [1], “Ứng dụng Logic mờ xây dựng hệ trợ giúp

tư vấn hướng nghiệp” [2] Đề tài [1] chưa xét hết các yếu tố ảnh hưởng đến kết quả

đậu tốt nghiệp, đề tài [2] hỗ trợ trong công việc hướng nghiệp cho các em học sinh khối 12

Trước yêu cầu và nhu cầu thực tế đó, cần phải có một công cụ hỗ trợ khai thác tri thức trên tập dữ liệu rất lớn có sẵn Trong các CSDL này tiềm ẩn những tri thức có giá trị mà hệ thống cần khai thác để làm cơ sở đưa ra các quyết định điều hành hoặc điều chỉnh lại các hoạt động của dự đoán kết quả tốt nghiệp cho học sinh

Hình1.1: Chu trình mô tả tác động qua lại giữa hoạt động tư vấn và khai phá dữ

liệu, phát hiện tri thức

1.2 Giới thiệu đề tài

1.2.1 Lý do chọn đề tài

Cùng với sự thay đổi và phát triển không ngừng của ngành công nghệ thông tin thì việc thu thập và lưu trữ lượng thông tin ngày càng lớn, việc tin học hoá nhanh chóng các hoạt động trong sản xuất, kinh doanh, quản lí cũng như trong lĩnh vực hoạt động giáo dục đã tạo ra khối lượng lớn dữ liệu cần phải lưu trữ, có nhiều cơ sở dữ liệu rất lớn đã được sử dụng trong những hoạt động đó Dẫn đến yêu cầu cấp bách và cần thiết là phải có những kỹ thuật và công cụ mới để tự động chuyển đổi lượng dữ liệu lớn đó thành các tri thức có ích Từ đó, kỹ thuật khai phá dữ liệu đã trở thành một trong những lĩnh vực thời sự của nền công nghệ thông tin Vấn đề đặt ra là làm sao trích chọn được những thông tin có ý nghĩa từ tập cơ sở dữ liệu lớn, để đáp ứng việc giải quyết được các yêu cầu trong thực tế như trợ giúp ra quyết định, dự đoán, …

Trang 15

một trong những xu hướng nghiên cứu phổ biến trong lĩnh vực học máy tính Một trong những hướng nghiên cứu phổ biến và quan trọng đó là gom cụm dữ liệu

Gom cụm mờ dữ liệu là từ một tập cơ sở dữ liệu có nhiều đối tượng khác nhau, được phân chia, sắp xếp các đối tượng theo từng cụm dữ liệu Các đối tượng được gom vào cùng một cụm có khả năng gần giống nhau theo một tính chất hoặc một tiêu chí nào đó, những đối tượng không tương tự tính chất hoặc tiêu chí sẽ được gom vào một cụm khác Lớp bài toán này gọi là học không giám sát, và được ứng dụng trong nhiều lĩnh vực như trong sinh học, trong giáo dục, trong thư viện, trong kinh doanh

Đó chính là lý do luận văn được chọn để “ Xây dựng giải pháp dự đoán kết quả tốt nghiệp trong trường trung học phổ thông”

Ngoài ra, trong lĩnh vực giáo dục và đào tạo ở Phía Nam, chưa có đề tài hay phần mềm chuyên dụng nào liên quan đến việc dự đoán kết quả tốt nghiệp cho học sinh trường trung học phổ thông Để hổ trợ một phần nào trong công việc giáo dục trong nước nói chung và trong các trường trung học phổ thông nói riêng; nên luận văn được thực hiện nhằm xây dựng phần mềm có thể dự đoán kết quả tốt nghiệp trung học phổ thông trên cơ sở là dữ liệu điểm lớp 10, 11, 12 của học sinh

1.2.2 Mục tiêu của đề tài

Nghiên cứu để đưa ra giải pháp dự đoán kết quả tốt nghiệp phổ thông; từ đó xây dựng phần mềm có thể sử dụng để dự đoán kết quả tốt nghiệp sử dụng các số liệu của Trường Trung học Phổ thông Nguyễn Huệ và một vài trường khác

1.3 Đối tượng phạm vi nghiên cứu của đề tài

Dữ liệu để huấn luyện và kiểm tra: điểm và thông tin về gia đình của học sinh từ năm

2014 đến năm 2017 tại Trường THPT Nguyễn Huệ, Quận 9, TP.HCM

Dữ liệu cụ thể như sau:

1.3.1 Kết quả học tập

 Bảng tổng kết điểm các môn học cuối năm học của các em học sinh lớp 10,11,

12 của các năm học từ 2014 đến 2017 của các môn học: Toán, Lí, Hóa, Văn, Anh Văn,Sinh, Sử, Địa

 Bảng Hạnh kiểm: (Tốt, Khá, TB, Yếu) của cuối năm học lớp 10, 11, 12

 Bảng Học lực: (Giỏi, Khá, TB, Yếu) của cuối năm học lớp 10, 11, 12

 Bảng thống kê kết quả và tỉ lệ đậu tốt nghiệp của các năm học từ 2014 đến

2017

 Tiến độ học tập các môn của học sinh

Trang 16

1.3.2 Diện miễn thi

- Miễn thi các bài thi trong xét công nhận tốt nghiệp THPT :

- Miễn thi bài thi Ngoại ngữ : Là thành viên đội tuyển quốc gia dự thi Olympic quốc tế môn Ngoại ngữ theo Quyết định của Bộ trưởng Bộ GDĐT - Có một trong các chứng chỉ theo quy định của Bộ GDĐT

- Miễn thi tất cả các bài thi trong xét tốt nghiệp THPT: Đối tượng Người khuyết tật đặc biệt nặng và người khuyết tật nặng theo quy định tại khoản 1, khoản 2 Điều 3 Nghị định số 28/2012/NĐ-CP ngày 10 tháng 4 năm 2012 của Chính phủ; - Người hoạt động kháng chiến bị nhiễm chất độc hóa học suy giảm khả năng lao động từ 61% trở lên; - Con đẻ của người hoạt động kháng chiến bị nhiễm chất độc hóa học, bản thân bị suy giảm khả năng lao động từ 61% trở lên

- Miễn thi tốt nghiệp: Đối tượng miễn thi là:

- Người học lớp 12 được tham gia kỳ thi chọn đội tuyển quốc gia dự thi Olympic quốc tế, khu vực các môn văn hoá; Người học lớp 12 được tuyển chọn tham gia các cuộc thi quốc tế hoặc khu vực về khoa học kỹ thuật, thể dục thể thao, văn hoá văn nghệ và người học khuyết tật

- Đối với người khuyết tật không đáp ứng được chương trình giáo dục chung: Được Hiệu trưởng trường phổ thông nơi đăng ký học tập xác nhận kết quả thực hiện Kế hoạch giáo dục cá nhân từng năm ở cấp THPT; Có giấy xác nhận khuyết tật do cơ quan có thẩm quyền cấp

1.3.3 Điểm ưu tiên:

Những học sinh thuộc diện 2, hoặc diện 3 (diện 2 được cộng 0.25 điểm, diện 3 được cộng 0.5 điểm) [3] [4] [5] [6]

1.3.4 Điểm khuyến khích:

- Đoạt giải cá nhân và đồng đội trong các kỳ thi thí nghiệm thực hành (Vật lí, Hoá học, Sinh học); thi văn nghệ; thể dục thể thao; hội thao giáo dục quốc phòng; cuộc thi khoa học kỹ thuật; viết thư quốc tế do Ngành Giáo dục phối hợp với các ngành chuyên môn từ cấp tỉnh trở lên tổ chức ở cấp trung học phổ thông:"

- Điểm học nghề

Trang 17

 Ghi chú: Nếu thí sinh đồng thời có nhiều loại giấy chứng nhận để được cộng điểm khuyến khích theo quy định tại khoản này cũng chỉ được hưởng mức điểm cộng thêm nhiều nhất là 4,0 điểm

1.4 Phương pháp nghiên cứu

1.4.1 Phương pháp nghiên cứu lý thuyết:

 Tham khảo nhiều tài liệu liên quan về thuật toán gom cụm, trong đó tập trung thu thập tài liệu về thuật toán K-Means và Fuzzy Logic

 Tham khảo ý kiến các chuyên gia trong lĩnh vực nghiên cứu

 Thu thập thống kê số liệu từ dữ liệu thực tế tại Trung học phổ thông Nguyễn Huệ Quận 9, TP.HCM

1.4.2 Phương pháp thực nghiệm

Xây dựng ứng dụng và dự báo kết quả học tập của học sinh, từ đó tư vấn chọn môn thi tốt nghiệp phù hợp với năng lực học tập của học sinh

1.5 Câu hỏi và giả thiết nghiên cứu của đề tài

- Dựa vào kết quả học tập lựa chọn khối thi nào là phù hợp với từng học sinh?

- Phân luồng học sinh dựa vào năng lực từng học sinh như thế nào cho phù hợp?

1.6 Ý nghĩa khoa học và thực tiễn của đề tài

Trang 18

1.7 Cấu trúc luận văn

Luận văn gồm có 5 chương và tài liệu tham khảo

 Chương 1: Tổng quan

Chương này nêu lý do chọn đề tài, mục tiêu, đối tượng phạm vi ứng dụng, phương pháp nghiên cứu cũng như câu hỏi nghiên cứu của luận văn

 Chương 2: Giải pháp giải quyết bài toán dự đoán

o Phân cụm dữ liệu mờ trong khai phá dữ liệu

o Xác định bài toán cụ thể là xây dựng công cụ, tìm hiểu thuật toán, cơ sở

lý thuyết, chuẩn bị nguồn dữ liệu để xây dựng chương trình

 Chương 3: Phân tích và thiết kế hệ thống

o Xây dựng hệ thống khai phá kết quả học tập của học sinh trường Trung học phổ thông Nguyễn Huệ Quận 9, TP.HCM

o Xây dựng hệ thống chọn khối thi trung học phổ thông, thống kê kết quả thi tốt nghiệp theo từng cụm của 3 khối (10, 11, 12) và các cấu trúc bên trong của chương trình, mối liên hệ giữa các lớp cũng như giữa các chức năng chương trình

 Chương 4: Kết quả thực nghiệm

Chương này luận văn sẽ mô tả hệ thống chương trình thực thi, phương pháp sử dụng để đánh giá kết quả đạt đuợc và các thực nghiệm

 Chương 5: Đánh giá kết quả và kết luận

Trong chương này, luận văn đề cập lại những việc đã thực hiện được, nêu lên hướng mở rộng và phát triển tiếp theo cho luận văn

Trang 19

CHƯƠNG 2: GIẢI PHÁP GIẢI QUYẾT BÀI TOÁN DỰ ĐOÁN

2.1 Giới thiệu về bài toán dự đoán

Ngày nay, công nghệ thông tin được ứng dụng hầu hết các lĩnh vực hoạt động của

xã hội, và lĩnh vực giáo dục cũng không thể thiếu sự hổ trợ đắc lực của chiếc máy tính nói chung hay phần mềm ứng dụng nói riêng Giúp cho công việc giảng dạy thuận tiện hơn, đem lại kết quả cao hơn Để hổ trợ công việc giảng dạy ngày càng

tốt, luận văn nghiên cứu để "Xây dựng hệ thống dự đoán kết quả đậu tốt nghiệp của học sinh trung học phổ thông” Từ kết quả đó, giúp cho việc giảng dạy của giáo

viên được thuận tiện hơn, áp dụng phương pháp dạy học vào từng nhóm học sinh

cụ thể hơn, giúp các em đạt được kết quả học tập thật cao

2.2 Mục tiêu và nhiệm vụ:

2.2.1 Mục tiêu:

Mục tiêu cuối cùng của bài toán dự đoán kết quả tốt nghiệp trung học phổ thông

là giúp các em thấy được với lực học của mình đến đâu sẽ đậu được tốt nghiệp,

có những yếu tố nào làm ảnh hưởng đến kết quả đó và tầm quan trọng của việc đậu tốt nghiệp Từ đó các em có định hướng tốt hơn về việc học của mình ngay

từ đầu cấp đối với học sinh khối 10, hay học sinh khối 12 sẽ cố gắng hơn nữa để

có kết quả thật tốt Kết quả dự đoán có thể thay đổi bởi nhiều yếu tố tùy vào việc chăm chỉ học tập hay sự cố gắng học hỏi của mỗi học sinh khác nhau, có em sẽ chăm chỉ hơn, cũng có em sẽ lơ là việc học hơn làm ảnh hưởng đến kết quả dự đoán đó

2.2.2 Nhiệm vụ

Thấy được học lực hiện tại của học sinh, tiến độ học tập của học sinh

 Khuyến khích những học sinh có học lực tốt giúp các em phát huy kết quả

đó, động viên các em còn yếu kém để các em cố gắng rèn luyện thêm

những môn học còn thấp

 Hổ trợ, hướng dẫn học sinh giúp các em định hướng nghề nghiệp trong

tương lai để các em có mục tiêu phấn đấu mà cố gắng học tập

 Theo sát, giúp đỡ những học sinh gia đình có hoàn cảnh đặc biệt, giúp các

em ổn định tâm lí, tiếp tục việc học, hoàn thành chương trình học của mình

Trang 20

2.3 Phân cụm dữ liệu trong khai phá dữ liệu

2.3.1 Định nghĩa về phân cụm dữ liệu

Phân cụm dữ liệu (Data Clustering) hay phân cụm, cũng có thể gọi là phân tích cụm, phân tích phân đoạn, phân tích phân loại, là quá trình nhóm một tập các đối tượng thực thể hay trừu tượng thành lớp các đối tượng tương tự Một cụm là một tập hợp các đối tượng dữ liệu mà các phần tử của nó tương tự nhau cùng trong một cụm và phi tương tự với các đối tượng trong các cụm khác Một cụm các đối tượng dữ liệu có thể xem như là một nhóm trong nhiều ứng dụng[9][13]

2.3.2 Gom cụm rõ:

Là cách gom cụm mà một đối tượng dữ liệu khi ta xem xét ta thấy nó tương đồng với nhóm nào nhất thì ta cho chúng vào nhóm đó Nói cách khác trong gom cụm rõ một đối tượng dữ liệu hoặc là thuộc về hoàn toàn một nhóm nào đó hoặc là không thuộc hoàn toàn vào nhóm nào đó mà thuộc hoàn toàn vào nhóm kia Ví dụ trong Lớp việc sắp xếp học sinh theo ba nhóm sau: Giỏi, Khá, Trung bình Một học sinh mới chuyển đến chỉ có thể được xếp vào một trong ba nhóm đó mà không thể xếp vào hai hay cả

từng cụm Mức độ thuộc (gọi tắt là Độ thuộc) này là một giá trị thực nằm trong đoạn

[0,1] Khi Độ thuộc của các đối tượng dữ liệu đối với một cụm nào đó tiến đến bằng

1 hoặc 0 thì việc gom cụm tiến đến gom cụm rõ, ngược lại là gom cụm mờ Tổng độ thuộc của một đối tượng dữ liệu đối với tất cả các cụm luôn luôn bằng 1 Trong gom cụm mờ người ta luôn nói một đối tượng dữ liệu thuộc về một cụm nào đó kèm theo

độ thuộc của nó đối với cụm đó Ví dụ học học sinh A thuộc về nhóm học sinh có số điểm lớn với độ thuộc 0.8 Với ý nghĩa như vậy một đối tượng dữ liệu thuộc về một cụm với độ thuộc càng cao thì nó mang bản chất của cụm đó càng lớn và ngược lại Thuật toán gom cụm mờ nổi tiếng và tiêu biểu là FCM (Fuzzy C-Means) Việc tối ưu của các thuật toán gom cụm mờ thường dựa trên việc tối thiểu hóa một hàm mục tiêu Trong thuật toán gom cụm mờ FCM hàm mục tiêu được xác định như sau:

Trang 21

2.4 Độ đo

Để gom cụm chúng ta cần một tiêu chuẩn đánh giá sự tương đồng giữa các đối tượng dữ liệu cần gom cụm Thông thường đó chính là độ đo khoảng cách trong không gian các đối tượng dữ liệu cần gom cụm Do mỗi không gian đối tượng dữ liệu có những đặc trưng khác nhau nên không có một độ đo nào có thể dùng chung cho mọi trường hợp Tùy theo mục tiêu của bài toán gom cụm và bản chất của của các đối tượng dữ liệu cần gom cụm mà người dùng chọn cho mình một đo khoảng cách phù hợp với mục đích của bài toán đặt ra[17]

2.4.1 Các tính chất của độ đo

Gọi S là không gian các đối tượng dữ liệu, x, y, z là các phần tử dữ liệu trong X Độ

đo khoảng cách d làm hàm số d: SxS →R thỏa bốn tính chất sau:

- d(x,y) ≥ 0 (tính chất không âm)

- d(x,y) = 0 nếu x = y (tính chất điểm)

- d(x,y) = d(y,x) (tính chất đối xứng)

- d(x,y) ≤ d(x,z) + d(z,y) (tính chất bất đẳng thức tam giác) Với các điều kiện như vậy thì khi d(x,y) càng nhỏ thì x và y càng gần nhau tức càng tương đồng với nhau

2.4.2 Các kiểu dữ liệu cơ sở

Trong thực tế các đối tượng dữ liệu có thể có nhiều kiểu thuộc tính khác nhau Mỗi thuộc tính này đặc trưng bằng một kiểu dữ liệu cơ sở Do đó để xây dựng được độ đo cho đối tượng dữ liệu ta phải xây dựng được độ đo cho các kiểu cơ sở Các kiểu dữ liệu cơ sở thường gặp là biến trị khoảng (interval value), nhị phân đối xứng (symmetric binary), nhị phân bất đối xứng (asymmetric binary), định danh (niminal), thứ tự (ordinal), tỷ lệ khoảng (ratio-scaled)

Trang 22

2.5 Thuật toán Fuzzy C-means (FCM)[11]

Các bước của thuật toán Fuzzy C-Means:

1 Giả sử không gian dữ liệu gồm n điểm xi, i = 1 n cần phân hoạch thành c cụm (2 ≤ c < n)

∑𝑛 (𝜇𝑖𝑗)𝑛 𝑖=1

5 Cập nhật ma trận khoảng cách D (c x n) theo độ đo khoảng cách đã chọn dji

Ngược lại nếu dji = 0 thì xji trùng với trọng tâm Cj của cụm j, μji = 1

7 Nếu sự thay đổi của ma trận U là đủ nhỏ so với bước kế trước thì chuyển đến bước 8 Ngược lại thì lặp lại từ bước 4

Để xác định là U thay đổi nhỏ thì có thể dùng một độ đo khoảng cách ma trận nào đó như sai số trung bình, sai số lớn nhất…

Trang 23

từng cụm, đối tượng dữ liệu sẽ thuộc vào cụm nào có độ thuộc lớn nhất, nếu

có từ hai độ thuộc lớn nhất bằng nhau trở lên thì chọn một trong số các cụm

đó để đưa vào Thuật toán kết thúc

2.6 Một số nghiên cứu mới về gom cụm mờ

Để cập nhật một số thành tựu nghiên cứu mới về gom cụm mờ, phần này xin giới thiệu hai công trình là Gom cụm mờ với tiêu chuẩn phân tách mới (Fuzzy Clustering with Novel Separable Criterion) [19] và Gom cụm gia tăng K-Means mờ dựa trên K-Center và véctơ lượng tử (Fuzzy K-Means Incremental Clustering Based

on K-Center and Vector Quantization) [14]

2.6.1 Gom cụm mờ với tiêu chuẩn phân tách mới

Thuật toán gom cụm mờ cải tiến này đã được phát triển dựa trên thuật toán Fuzzy Means (FCM) cổ điển để đạt được các kết quả gom cụm chất lượng tốt hơn Việc cập nhật các biểu thức tính toán cho thành viên và trung tâm cụm nhận được từ thuật toán tối ưu luân phiên Hai ma trận phân bố mờ trong hàm mục tiêu đảm bảo cho độ chặt giữa các điểm dữ liệu và các trung tâm cụm và cũng củng cố sự phân chia giữa các trung tâm cụm bằng một tiêu chuẩn phân chia mới Các đặc tính của thuật toán gom cụm được đề nghị chỉ ra sự cải tiến hơn các đặc tính của phương pháp FCM Sự mô phỏng số học chỉ ra rằng thuật toán gom cụm này có nhiều kết quả gom cụm chính xác hơn phương pháp FCM

C-Theo các tác giả trong FCM hàm mục tiêu đi theo ma trận phân bố trong cụm với các cụm hình cầu nhằm đạt được sự cực tiểu hàm mục tiêu với sự tối ưu một cách luân phiên

Các thuật toán gom cụm khác như GK[10], GG[11] được phát triển để khám phá các cụm có cấu trúc không phải hình cầu nhưng cả hai phương pháp này đều thiếu quan tâm đến các mối quan hệ giữa các trung tâm cụm trong hàm mục tiêu Sự tương thích của các điểm với các trung tâm cụm là được bảo đảm trong phương pháp PCM được trình bày bởi Krishnapuram và Keller [18] Tuy nhiên thuật toán của họ biểu thị cách

xử lý không tốt bởi vì không có các mối liên hệ giữa các cụm [16] Khái niệm về sự qui tắc hóa đã được sử dụng bởi Ozdemir và Akarun [20] trong thuật toán sự phân chia giữa các cụm (ICS) và bởi Yang cùng những người khác [21] trong thuật toán phân tách và nén mờ (FCS) Không may thuật toán ICS có các hàm mục tiêu khác

Trang 24

nhau đối với các trung tâm cụm khác nhau với giới hạn điều chỉnh chỉ được xem xét như một sự xáo trộn Thuật toán FCS có các ranh giới nhân cứng phụ thuộc vào các thực nghiệm và tất cả các điểm dữ liệu trong một nhân không thể tách bạch bởi vì chúng có các giá trị độ thuộc giống nhau

Với việc phân tích về các thuật toán trên các tác giả đã thực hiện việc cải tiến bằng cách mô tả một hàm mục tiêu mở rộng gồm có một ma trận phân bổ bên trong cụm

mờ và một ma trận phân bố các trung tâm giữa các cụm mới Thuật toán gom cụm

mờ tương ứng đảm bảo độ chặt giữa các điểm dữ liệu và giữa các trung tâm cụm và cũng làm đủ mạnh sự phân tách giữa các trung tâm cụm dựa trên tiêu chuẩn phân tách

Thuật toán Gom cụm mờ với tiêu chuẩn phân tách mới:

Khởi tạo:

Cho tập dữ liệu Z, gán bộ đếm số lần lặp l = 0 và m > 1 Chọn số trung tâm cụm ban đầu c, tiêu chuẩn kết thúc Ԑ > 0 , và tham số 0 < β < 1 Khởi tạo

ngẫu nhiên ma trận độ thuộc U(0) = [μij]cxn với μij là độ thuộc của zj vào vi

Khởi tạo ma trận trọng số Û(0) = [ ˆik]cxc với  ˆik là trọng số giữa vi và

𝑖𝑘 𝑐

Trang 25

 Cả hai thuật toán sử dụng thuật toán tối ưu luân phiên

 So sánh biểu thức cập nhật trung tâm cụm của FCM và của thuật toán

đề nghị chỉ ra rằng cả tử số và mẫu số của biểu thức cập nhật trung tâm cụm của thuật toán đề nghị có những chức năng đặc biệt đó là cải thiện

sự chính xác của trung tâm cụm Tuy nhiên độ phức tạp tính toán của thuật toán đề nghị cũng gia tăng So sánh với biểu thức cập nhật trung tâm cụm của FCM, biểu thức cập nhật trung tâm cụm của thuật toán đề nghị tăng thêm 2(c+1) toán tử cộng (+), (3+c+3+2c2) toán tử nhân, 2 toán tử định chuẩn và 2 toán tử luận lý trong một bước lặp

Trang 26

2.6.2 Gom cụm gia tăng K-Means mờ dựa trên K-Center và véctơ lượng tử

Các tác giả đã kết hợp thuật toán K-means mờ và véc tơ lượng tử để bổ sung cho nhau trong phương thức tăng cường bởi vì mỗi phương pháp có những ưu điểm mà phương pháp kia không có Ngưỡng của véctơ lượng tử là được cho trước và kiểu tính toán khoảng cách giữa điểm dữ liệu mới đến và k trung tâm là được giới thiệu theo một cách mới Đầu tiên các tác giả giảm các thuộc tính dư thừa và loại trừ sự khác nhau

về đơn vị tính của các chiều và làm cho các đơn vị tính của tất cả các thuộc tính giống nhau [7]

Sau đó các tác giả sử dụng k-center để đưa ra k giá trị trung bình ban đầu và phân hoạch các điểm dữ liệu vào không nhiều hơn k cụm Bên cạnh đó các tác giả chọn véctơ lượng tử để phân lớp các điểm dữ liệu tăng cường và sau đó điều chỉnh các giá trị trung bình sau khi cấu trúc của cụm thay đổi

Cuối cùng áp dụng thuật toán mới vào tập dữ liệu thực và các kết quả của nó chỉ ra

sự hiệu quả và chính xác của nó

Đầu tiên trình bày thuật toán thuật toán k-means mờ có trọng số, sau đó trình bày thuật toán Gom cụm gia tăng K-Means mờ dựa trên K-Center và véctơ lượng tử:

Bước 1:

Nhập các tham số m, n, k, γ và thời gian lặp tối đa s

Khởi tạo các trọng số ban đầu ωli = 1/m

Bước 2:

Đặt tất cả các điểm dữ liệu vào trong tập H và để cho tập các trung tâm C

là rỗng Chọn một điểm ngẫu nhiên từ H làm trung tâm thứ nhất và đặt nó vào C đồng thời xóa khỏi H

Trang 27

Thu được T theo

Trang 28

Lặp lại Bước 5 đến Bước 6 cho đến khi F(T,W,C) không thể cải thiện thêm nữa hoặc thời gian lặp lớn hơn s

Sắp xếp k giá trị trung bình vào một vector lượng tử có cấu trúc hình cây

sử dụng hai trọng tâm gom cụm được chỉ ra trong Hình 2.7:

Hình 2 1: Hai trọng tâm xếp nhóm

Hoạt động thiết lập cây có thể được chỉ ra như sau:

1 Cho số của các lớp của cây là l = 1 và số của các nhóm g = 1 đối với lớp l, sau đó chúng ta tính toán giá trị trung bình của tất cả k trung tâm và đặt

nó vào gốc của mức đầu tiên của cây và tất cả các trung tâm là ở trong một nhóm

Trang 29

2 Tăng l = l + 1, chúng ta chia mỗi một nhóm của các nhóm đang tồn tại thành hai nhóm nhỏ và ở đây có thể có nhiếu nhất 2l-1 nhóm và để các giá trị trung bình của các trung tâm của các nhóm nhỏ mới thành các gốc của lớp l và mỗi giá trị trung bình thay thế cho một nhóm đối với lớp l, cho g là số nhóm thực sự

3 Nếu tất cả các nhóm chỉ có một trung tâm thì dừng lại, ngược lại đi đến bước 2

Trên thực tế, chúng ta biết rằng tất cả k giá trị trung bình của thuật toán means mờ là lá của cây từ quá trình của việc thiết lập cây

k-(Lưu ý: Tập dữ liệu ban đầu gồm có k cụm, giá trị trung bình của k cụm này là nút gốc đầu tiên, giá trị trung bình của k/2 cụm bên trái là nút gốc lớp tiếp theo và giá trị trung bình của k/2 cụm bên phải cũng là nút gốc lớp tiếp theo…)

hay bóc trích một mẫu dữ liệu từ ma trận dữ liệu một cách ngẫu nhiên hay có thứ tự (trường hợp offline), sử dụng (19) để làm nó không có chiều

x* là gần nhất đối với mi11

Trang 30

Cập nhật m chiều của cụm chiến thắng bằng cách di chuyển nó về phía điểm được chọn x* , như trong (14)

𝐶𝑙𝑖𝑁𝑒𝑤 = 𝐶𝑙𝑖𝑜𝑙𝑑 + 𝜇(𝑥∗ − 𝐶𝑙𝑖𝑜𝑙𝑑 (14)

Bước 9:

Nếu ma trận dữ liệu vẫn còn chứa các điểm dữ liệu chưa được xét (trường hợp offline) hay các điểm dữ liệu mới đến vẫn còn sẵn sàng sử dụng (trường hợp online) thì nhảy đến bước 4 Ngược lại thì dừng

2.7 Cơ sở dữ liệu thực hiện gom cụm

2.7.1 Cở sở thu thập dữ liệu

- Cơ sở dữ liệu được thu thập từ hệ thống quản lý kết quả học tập của trường THPT Nguyễn Huệ - Quận 9 được kết xuất dưới dạng file Excel

- Trong cơ sở dữ liệu này ngoài kết quả cuối năm lớp10, 11, 12 của học sinh còn

có kết quả thi tốt nghiệp của các năm 2013 - 2016, 2014 - 2017, 2015 - 2018

- Dữ liệu luận văn thu thập được kết quả học tập lớp10, 11, 12 năm học

2013-2016 là 583 học sinh, năm học 2014-2017 là 683 học sinh, Năm học 2015 –

2018 là 705 học sinh

2.7.2 Mục đích khai phá dữ liệu là kết quả học tập của học sinh là:

 Dựa vào việc gom cụm theo điểm trung bình của 9 môn học của các khối 10-11-12, từ đó có thể giúp BGH có cái nhìn tổng quát hơn về sức học tập của học sinh, BGH có thể định hướng lại việc phân công giảng dạy của giáo viên phù hợp với sức học tập của học sinh Mặc khác, trong quá trình học, học sinh sẽ không học tốt đều các môn, dựa vào việc gom cụm, BGH

mở lớp dạy bồi dưỡng cho học sinh trung bình, yếu giúp học sinh có thể thi tốt nghiệp đạt kết quả tốt nhất

Trang 31

 Ngoài ra, dựa vào điểm trung bình 9 môn học, BGH có thể đưa ra một vài nhận xét, môn nào học sinh học tốt hơn, môn nào học sinh có sức học đều nhau hơn Khối nào học sinh học tốt hơn Qua những nhận xét đó, dần dần cũng đánh giá được chất lượng giáo dục của nhà trường

2.8 Thực hiện phân cụm trong luận văn

2.8.1 Dữ liệu thực hiện luận văn

− Trong luận văn này, dữ liệu được lấy từ một hệ thống quản lý kết quả học tập của học sinh lớp 10, 11, 12 Trường THPT Nguyễn Huệ - Quận 9 Do

đó, dữ liệu có được chỉ là dữ liệu thô Muốn thực hiện quá trình phân cụm,

luận văn phải tiến hành quá trình làm sạch dữ liệu

− Do dữ liệu là thô nên các trường (Field) dữ liệu có chỗ thiếu, có chỗ thừa nên các file dữ liệu cần phải được chuẩn hóa lại Cụ thể được thể hiện ở

Bảng 2.1:

Bảng 2.1: Bảng dữ liệu kết quả học tập của học sinh từ file excel

 Trong dữ liệu này, luận văn thu thập dữ liệu của 9 môn học gồm: Toán,

lý, hóa, sinh, anh văn, văn, sử địa, giáo dục công dân Đây là 9 môn dùng để thi tốt nghiệp THPT

Trang 32

 Những học sinh nào không đạt trong từng năm học sẽ được loại bỏ, không được sử dụng làm dữ liệu gom cụm

 Ngoài dữ liệu là kết quả học tập của các lớp 10, 11, 12 còn có kết quả thi tốt nghiệp của các năm 2016, 2017

Bảng 2 2: Bảng dữ liệu kết quả thi tốt nghiệp của học sinh từ file excel

− Để thực hiện quá trình gom cụm thì dữ liệu phải được chuẩn hóa, làm sạch

trước khi thực hiện quá trình gom cụm

− Ngoài ra còn để thực hiện phân cụm mờ luận văn còn sử dụng thêm dữ liệu là

nghề nghiệp của cha mẹ học sinh, được thể hiện ở Bảng 2.3

Trang 33

Bảng 2.3: Bảng dữ liệu kết quả và nghề nghiệp cha mẹ của học sinh từ file excel

2.8.2 Quá trình hình thành gom cụm

 Để thực hiện quá trình gom cụm cho dữ liệu mẫu, luận văn phải thực hiện thu thập dữ liệu là kết quả học tập cuối năm lớp 10, 11, 12 cho 9 môn học

 Tiếp theo là làm sạch dữ liệu như dữ liệu khuyết, dữ liệu bị lỗi, dữ liệu cá biệt

 Mỗi cụm sẽ có một trọng tâm C, trọng tâm C này là một điểm có tọa độ là 3 môn học

 Ví dụ: C (5.6; 7.3; 6.0) với 5.6 là điểm trọng tâm môn thứ nhất, 7.3 là điểm trọng tâm môn thứ hai và 6.0 là điểm trọng tâm môn thứ ba

 Mỗi cụm sẽ có tối thiểu là một phần tử và có tối đa là N phần tử với N là số học sinh phân cụm (trường hợp dữ liệu chỉ gom có một cụm với N phần tử)

 Những phần tử nào gần trọng tâm nhất sẽ được gom thành một cụm

 Ví dụ gom cụm với thuật toán K-Mean:

Có 20 học sinh, yêu cầu gom thành 3 cụm, lấy điểm 3 môn Toán, Lý, Hóa được thể hiện ở Bảng 2.4:

Trang 34

Bảng 2 4: Bảng điểm học sinh

HS

Điểm Toán

Điểm

Điểm Hóa

 Trong 20 dữ liệu này, được gom thành 3 cụm

 Chọn ngẫu nhiên 3 phần tử làm 3 trọng tâm A01, A09, A20

 Cụm 1, khởi tạo trọng tâm C1 là dòng thứ 1 (6 ; 5 ; 10)

 Cụm 2, khởi tạo trọng tâm C2 là dòng thứ 9 (7 ; 3 ; 4)

 Cụm 3, khởi tạo trọng tâm C3 là dòng thứ 20 (1 ; 3 ; 4)

 Tính khoảng cách Euclidean và xác định cụm lần 1

Trang 35

Bảng 2 5: Tính khoảng cách Euclidean và xác định cụm lần 1

Tính khoảng cách Euclidean LẦN 1 Trọng

tâm C1

Trọng tâm C2

Trọng tâm C3

gần C2

gần C3

Điểm

Điểm Hóa

Trang 36

Trọng tâm C2

Trọng tâm C3 Cụm 1 Cụm 2 Cụm 3

Ngày đăng: 16/08/2020, 10:13

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[7]. Vũ Lan Phương “Nghiên cứu và cài đặt một số giải thuật phân cụm phân lớp” 2006 (Đại học Bách khoa Hà Nội) Sách, tạp chí
Tiêu đề: Nghiên cứu và cài đặt một số giải thuật phân cụm phân lớp
[8] Nguyễn Đình Thuân, Đoàn Huấn (2011), “Sử dụng thuật toán gom cụm mờ khai phá cơ sở dữ liệu ERP doanh nghiệp dược phẩm”, Báo cáo tại hội thảo quốc gia lần thứ XIV: Một số vấn đề chọn lọc của công nghệ thông tin và truyên thông, Trường Đại học Cần Thơ Sách, tạp chí
Tiêu đề: Sử dụng thuật toán gom cụm mờ khai phá cơ sở dữ liệu ERP doanh nghiệp dược phẩm”, "Báo cáo tại hội thảo quốc gia lần thứ XIV: Một số vấn đề chọn lọc của công nghệ thông tin và truyên thông
Tác giả: Nguyễn Đình Thuân, Đoàn Huấn
Năm: 2011
[9] Đỗ Phúc (2009), Giáo trình Khai thác dữ liệu, Nhà xuất bản Đại học quốc gia thành phố Hồ Chí Minh, Hồ Chí Minh.B. Tiếng Anh Sách, tạp chí
Tiêu đề: Giáo trình Khai thác dữ liệu
Tác giả: Đỗ Phúc
Nhà XB: Nhà xuất bản Đại học quốc gia thành phố Hồ Chí Minh
Năm: 2009
[11] Hesam I., Ajith A. (2011), “Fuzzy C-means and fuzzy swarm for fuzzy clustering problem”, Expert Systems with Applications 38 , 1835–1838 Sách, tạp chí
Tiêu đề: Fuzzy C-means and fuzzy swarm for fuzzy clustering problem”, "Expert Systems with Applications
Tác giả: Hesam I., Ajith A
Năm: 2011
[12] Gath I, Geva A B (1989), “Unsupervised optimal fuzzy clustering”, IEEE Trans. Pattern Anal. Machine Intell., (7), 773-781 Sách, tạp chí
Tiêu đề: Unsupervised optimal fuzzy clustering”, "IEEE Trans. "Pattern Anal. Machine Intell
Tác giả: Gath I, Geva A B
Năm: 1989
[13] A.K. Jain, M.N. Murty, P.J. Flynn (1999), “Data Clustering: A Review”, ACM Computing Surveys, Vol. 31, No. 3 Sách, tạp chí
Tiêu đề: Data Clustering: A Review”, "ACM Computing Surveys
Tác giả: A.K. Jain, M.N. Murty, P.J. Flynn
Năm: 1999
[14] Taoying L. and Yan C. (Nov 2010), “Fuzzy K-Means Incremental Clustering Based on K-Center and Vector Quantization”, Journal of computers, Vol 5, No 11 Sách, tạp chí
Tiêu đề: Fuzzy K-Means Incremental Clustering Based on K-Center and Vector Quantization”," Journal of computers
[15] Nguyen Bich Lien, Do Phuc (2010), “An application of data mining to revenue cycle in ERP and E-commerce environment”. Proceedings of the Sixth International Conference on Information Technology for Education and Research Sách, tạp chí
Tiêu đề: An application of data mining to revenue cycle in ERP and E-commerce environment”
Tác giả: Nguyen Bich Lien, Do Phuc
Năm: 2010
[16] Barni M, Cappellini V, Mecocci A (1996), “Comments on A possibilistic approach to clustering”. IEEE Trans. Fuzzy Sys-terms, 4(3), 393-396 Sách, tạp chí
Tiêu đề: Comments on A possibilistic approach to clustering”. "IEEE Trans. Fuzzy Sys-terms
Tác giả: Barni M, Cappellini V, Mecocci A
Năm: 1996
[17] Witold P. (2005), Knowledge-Based Clustering: Clustering and Fuzzy Clustering, ISBN 0-471-46966-1, John Wiley &amp; Sons, Inc Sách, tạp chí
Tiêu đề: Knowledge-Based Clustering: Clustering and Fuzzy Clustering
Tác giả: Witold P
Năm: 2005
[18] Krishnapuram R, Keller J M (1993), “A possibilistic approach to clustering”, IEEE Trans. Fuzzy Systerms, 1(2): 98-110 Sách, tạp chí
Tiêu đề: A possibilistic approach to clustering”, "IEEE Trans. Fuzzy Systerms
Tác giả: Krishnapuram R, Keller J M
Năm: 1993
[19] Yin Z., Tang Y., Sun F., Sun Z. (2006), “Fuzzy Clustering with Novel Separable Criterion”, Tsinghua Science And Technology ISSN 1007-0214 09/21 Volume 11, Number 1, pp50-53 Sách, tạp chí
Tiêu đề: Fuzzy Clustering with Novel Separable Criterion”, "Tsinghua Science And Technology ISSN 1007-0214 09/21
Tác giả: Yin Z., Tang Y., Sun F., Sun Z
Năm: 2006
[20] Ozdemir D, Akarun L (2001), “Fuzzy algorithms for combined quantization and dithering”, IEEE Trans. Image Processing, 10(6), 923-931 Sách, tạp chí
Tiêu đề: Fuzzy algorithms for combined quantization and dithering”, "IEEE Trans. Image Processing
Tác giả: Ozdemir D, Akarun L
Năm: 2001
[21] Yang M S, Wu K L, Yu J (2003), “A novel fuzzy clustering algorithm”, Computational Intelligence in Robotics and Auto-mation IEEE International Symposium, (2), 647-652 Sách, tạp chí
Tiêu đề: A novel fuzzy clustering algorithm”, "Computational Intelligence in Robotics and Auto-mation IEEE International Symposium
Tác giả: Yang M S, Wu K L, Yu J
Năm: 2003
[1] N. T. V. Hảo, Ứng dụng lý thuyết tập mờ vào việc dự đoán kết quả tốt nghiệp phổ thông trung học, Đại học Huế, 2014 Khác
[2] N. T. Bình, Ứng dụng Logic mờ xây dựng hệ trợ giúp tư vấn hướng nghiệp, Đại học Đà Nẵng, 2011 Khác
[3] Quy chế thi trung học phổ thông quốc gia và xét công nhận tốt nghiệp trung học phổ thông (Ban hành kèm theo Thông tư số 04/2017/TT-BGDĐT ngày 25 tháng 01 năm 2017 của Bộ trưởng Bộ giáo dục và Đào tạo), Quy chế, 2017 Khác
[4] Thông tư số 04/2017/TT-BGDĐT, của Bộ trưởng Bộ Giáo dục và Đào tạo về ban hành quy chế thi trung học phổ thông quốc gia và xét công nhận tốt nghiệp trung học phổ thông, từ trang 28 đến trang 34 Khác
[5] Thông tư số 02/2015/TT-BGDĐT, ngày 26 tháng 02 năm 2015 của Bộ trưởng Bộ Giáo dục và Đào tạo về việc ban hành Quy chế thi trung học phổ thông quốc gia Khác
[6] Thông tư số 02/2016/TT-BGDĐT, ngày 10 tháng 03 năm 2016 của Bộ trưởng Bộ Giáo dục và Đào tạo về việc sửa đổi, bổ sung một số điều của Quy chế thi trung học phổ thông quốc gia Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w