1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Hệ thống thông tin quản lý: Nghiên cứu và áp dụng kỹ thuật khai phá dữ liệu trong việc xác định các nhân tố tác động đến quyết định chọn ngành học của thí sinh đại học

84 3 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên cứu và áp dụng kỹ thuật khai phá dữ liệu trong việc xác định các nhân tố tác động đến quyết định chọn ngành học của thí sinh đại học
Tác giả Nguyễn Thị Hồng Hạnh
Người hướng dẫn TS. Nguyễn Trung Tuấn
Trường học Trường Đại học Kinh tế Quốc dân
Chuyên ngành Hệ thống thông tin quản lý
Thể loại Đề án tốt nghiệp thạc sĩ
Năm xuất bản 2025
Thành phố Hà Nội
Định dạng
Số trang 84
Dung lượng 6,63 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN **************** NGUYỄN THỊ HỒNG HẠNH NGHIÊN CỨU VÀ ÁP DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU TRONG VIỆC XÁC ĐỊNH CÁC NHÂN TỐ TÁC ĐỘNG

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN

****************

NGUYỄN THỊ HỒNG HẠNH

NGHIÊN CỨU VÀ ÁP DỤNG KỸ THUẬT KHAI PHÁ

DỮ LIỆU TRONG VIỆC XÁC ĐỊNH CÁC NHÂN TỐ TÁC ĐỘNG ĐẾN QUYẾT ĐỊNH CHỌN NGÀNH HỌC

CỦA THÍ SINH ĐẠI HỌC

ĐỀ ÁN TỐT NGHIỆP THẠC SĨ

NGÀNH HỆ THỐNG THÔNG TIN QUẢN LÝ

HÀ NỘI, NĂM 2025

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN

****************

NGUYỄN THỊ HỒNG HẠNH

NGHIÊN CỨU VÀ ÁP DỤNG KỸ THUẬT KHAI PHÁ

DỮ LIỆU TRONG VIỆC XÁC ĐỊNH CÁC NHÂN TỐ TÁC ĐỘNG ĐẾN QUYẾT ĐỊNH CHỌN NGÀNH HỌC

CỦA THÍ SINH ĐẠI HỌC

Trang 3

LỜI CAM ĐOAN

Tôi tên là: Nguyễn Thị Hồng Hạnh

thí sinh đại học” là kết quả nghiên cứu của bản thân tôi Đề án được TS Nguyễn Trung

Tuấn, Viện trưởng Viện Công nghệ thông tin và Kinh tế số, Trường Đại học Kinh tế Quốc dân hướng dẫn

Tôi đã đọc và hiểu về các hành vi vi phạm sự trung thực trong học thuật Tôi cam kết bằng danh dự cá nhân rằng nghiên cứu này do tôi tự thực hiện và không vi phạm yêu cầu về sự trung thực trong học thuật

Kính mong Hội đồng khoa học xem xét

Hà Nội, ngày … tháng … năm 2024

Người cam đoan

Trang 4

LỜI CẢM ƠN

Kính gửi: - Hội đồng khoa học;

- Ban Giám hiệu Trường Đại học Kinh tế Quốc dân;

- Viện Sau đại học, Trường Đại học Kinh tế Quốc dân;

- Viện Công nghệ thông tin và Kinh tế số;

- TS Nguyễn Trung Tuấn, Viện trưởng Viện CNTT và KTS; Lời đầu tiên, tôi xin gửi lời chào trân trọng và lời cảm ơn sâu sắc đến Hội đồng khoa học đã dành thời gian xem xét và đánh giá đề án tốt nghiệp thạc sĩ của tôi

Xin chân thành cảm ơn TS Nguyễn Trung Tuấn, Viện trưởng Viện Công nghệ thông tin và Kinh tế số, Trường Đại học Kinh tế Quốc dân đã tận tình hướng dẫn tôi trong suốt quá trình nghiên cứu và hoàn thành đề án Sự tâm huyết và những lời khuyên quý báu của thầy là động lực to lớn giúp tôi hoàn thành tốt công trình nghiên cứu này

Tôi xin gửi lời cảm ơn đến Ban Giám hiệu Trường Đại học Kinh tế Quốc dân, Viện Sau đại học, Viện Công nghệ thông tin và Kinh tế số đã tạo điều kiện cho tôi học tập và nghiên cứu Xin gửi lời cảm ơn chân thành đến các thầy cô đã giảng dạy và truyền đạt kiến thức cho tôi trong suốt thời gian học tập tại trường Cảm ơn các bạn đồng nghiệp

đã luôn giúp đỡ và động viên tôi trong suốt quá trình nghiên cứu Cuối cùng, tôi xin gửi lời cảm ơn đến gia đình, người thân và những người bạn đã luôn yêu thương, động viên

và tạo điều kiện cho tôi hoàn thành chương trình học tập

Đề án này là kết quả của sự nỗ lực của bản thân tôi, nhưng cũng là kết quả của

sự giúp đỡ, động viên của rất nhiều người Tôi xin ghi nhận và trân trọng những đóng góp của mọi người dành cho tôi trong suốt thời gian qua

Xin trân trọng cảm ơn!

Hà Nội, ngày … tháng … năm 2024

Nguyễn Thị Hồng Hạnh

Trang 5

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

MỤC LỤC iii

DANH MỤC CÁC TỪ VIẾT TẮT v

DANH MỤC BẢNG, HÌNH VẼ vi

TÓM TẮT KẾT QUẢ NGHIÊN CỨU ĐỀ ÁN viii

MỞ ĐẦU 1

1 Tính cấp thiết và lý do lựa chọn đề tài 1

2 Mục tiêu nghiên cứu 2

3 Câu hỏi nghiên cứu 2

4 Đối tượng và phạm vi nghiên cứu 2

5 Phương pháp nghiên cứu 3

6 Ý nghĩa khoa học của đề tài 3

7 Kết cấu của đề án 3

CHƯƠNG 1 CƠ SỞ LÝ THUYẾT VÀ MÔ HÌNH NGHIÊN CỨU 4

1.1 Cơ sở lý luận về khai phá dữ liệu 4

1.1.1 Khái niệm 4

1.1.2 Các lĩnh vực ứng dụng chính 4

1.1.3 Vai trò khai phá cơ sở dữ liệu 6

1.1.4 Quy trình xử lý dữ liệu 6

1.1.5 Một số kỹ thuật khai phá cơ sở dữ liệu cơ bản áp dụng trong đề án 7

1.2 Bài toán xác định các nhân tố tác động đến quyết định chọn ngành học của thí sinh đại học 13

1.2.1 Các khái niệm cơ bản 13

1.2.2 Bài toán xác định các nhân tố tác động đến quyết định chọn ngành học của thí sinh đại học 14

CHƯƠNG 2 ÁP DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU CHO BÀI TOÁN XÁC ĐỊNH CÁC NHÂN TỐ TÁC ĐỘNG TỚI QUYẾT ĐỊNH CHỌN NGÀNH HỌC CỦA THÍ SINH ĐẠI HỌC 16

2.1 Đề xuất mô hình nghiên cứu và các nhân tố 16

2.2 Quy trình tích hợp và phân tích 21

2.2.1 Tìm hiểu dữ liệu 21

2.2.2 Chuẩn hóa dữ liệu 29

2.2.3 Mô hình hóa 31

CHƯƠNG 3 PHÂN TÍCH KẾT QUẢ VÀ KHUYẾN NGHỊ 34

Trang 6

3.1 Phân tích kết quả 34

3.1.1 Thực hiện mô hình hóa 34

3.1.2 Đánh giá 66

3.2 Khuyến nghị 66

3.2.1 Trường đại học 66

3.2.2 Khuyến nghị cho các trường trung học phổ thông 67

KẾT LUẬN 70

DANH MỤC TÀI LIỆU THAM KHẢO 72

PHỤ LỤC 73

Trang 7

DANH MỤC CÁC TỪ VIẾT TẮT

KDD: Knowledge Discovery in Databases

IBM: International Business Machines Corporation

CRM: Customer Relationship Management

THPT: Trung học phổ thông

Trang 8

DANH MỤC BẢNG, HÌNH VẼ Bảng

Bảng 1.1: Ví dụ dữ liệu Trainning Data bài toán cây quyết định 8

Bảng 1.2: Ví dụ dữ liệu Testing Data bài toán cây quyết định 9

Bảng 1.3: Kết quả phân tích từng người đi phương tiện nào dựa trên cây quyết định 10 Bảng 2.1: Các nhân tố tác động đến quyết định chọn ngành học 20

Hình Hình 1.1: Quy trình khai phá tri thức trong CSDL 6

Hình 1.2: Ví dụ cây quyết định dựa trên tệp dữ liệu Training Data 9

Hình 1.3: Ví dụ về phương pháp Elbow 12

Hình 2.1: Mô hình nghiên cứu của D.W Chapman 18

Hình 2.2: Mô hình nghiên cứu của Nguyễn Thị Lan Hương 18

Hình 2.3: Mô hình nghiên cứu của Hoàng Thị Xuân 19

Hình 2.4: Mô hình nghiên cứu đề xuất 19

Hình 2.5: Số sinh viên tham ra khảo sát 21

Hình 2.6: Sự phân bổ về giới tính 22

Hình 2.7: Sự phân bổ về khoa/viện 22

Hình 2.8: Sự phân bổ về ngành học 23

Hình 2.9: Sự phân bổ về năm học hiện tại 23

Hình 2.10: Nhóm nhân tố sở thích cá nhân 24

Hình 2.11: Nhóm nhân tố năng lực cá nhân 25

Hình 2.12: Nhóm nhân tố định hướng cá nhân có ảnh hưởng 26

Hình 2.13: Nhóm nhân tố đặc điểm trường và sự hấp dẫn của ngành học 27

Hình 2.14: Nhóm nhân tố nhu cầu xã hội và cơ hội việc làm trong tương lai 28

Hình 3.1: Danh sách dữ liệu khảo sát 34

Hình 3.2: Đọc dữ liệu trong file khảo sát 35

Hình 3.3: Mô tả dữ liệu 35

Hình 3.4: Kiểm tra dữ liệu 36

Hình 3.5: Chuẩn hóa dữ liệu text về cùng định dạng và xóa bỏ dữ liệu lặp 36

Hình 3.6: Tách các yếu tố từ câu hỏi chính 37

Hình 3.7: Tạo trường nhóm ngành từ trường ngành học 40

Hình 3.8: Chuyển đổi dạng text sang dạng số 40

Trang 9

Hình 3.9: Gán biến đặc trưng và nhãn 41

Hình 3.10: Chia tệp dữ liệu để huấn luyện và kiếm thử 42

Hình 3.11: Thuật toán cây quyết định 42

Hình 3.12: Vẽ cây quyết định 42

Hình 3.13: Cây quyết định 43

Hình 3.14: Phương pháp Elbow tìm số cụm tối ưu 45

Hình 3.15: Kết quả phương pháp Elbow 45

Hình 3.16: Phân cụm dữ liệu bằng thuật toán K-Medoids 46

Hình 3.17: Heatmap của Medoids 46

Hình 3.18: Các Feature index tương ứng với các yếu tố trong heatmap 47

Hình 3.19: Gán biến đặc trưng và nhãn cụm thứ nhất 49

Hình 3.20: Chia tệp dữ liệu để huấn luyện và kiếm thử 50

Hình 3.21: Huấn luyện mô hình cây quyết đinh cụm 1 50

Hình 3.22: Cây quyết đinh cụm 1 51

Hình 3.23: Huấn luyện mô hình cây quyết đinh cụm 2 52

Hình 3.24: Cây quyết đinh cụm 2 53

Hình 3.25: Huấn luyện mô hình cây quyết đinh cụm 3 54

Hình 3.26: Cây quyết đinh cụm 3 55

Hình 3.27: Huấn luyện mô hình cây quyết đinh cụm 4 56

Hình 3.28: Cây quyết đinh cụm 4 57

Hình 3.29: Huấn luyện mô hình cây quyết đinh cụm 5 58

Hình 3.30: Cây quyết đinh cụm 5 59

Hình 3.31: Huấn luyện mô hình cây quyết đinh cụm 6 60

Hình 3.32: Cây quyết đinh cụm 6 61

Hình 3.33: Tìm các điểm ngoại lai 61

Hình 3.34: Danh sách các điểm ngoại lai 62

Hình 3.35: Cây quyết đinh cụm 7 62

Hình 3.36: Cây quyết đinh cụm 7 63

Hình 3.37: Cây quyết đinh cụm 8 65

Trang 10

TÓM TẮT KẾT QUẢ NGHIÊN CỨU ĐỀ ÁN

Càng ngày càng nhiều ngành nghề mới được ra đời, đòi hỏi các trường đại học phải không ngừng cập nhật và phát triển chương trình đào tạo để đáp ứng nhu cầu xã hội Tuy nhiên, sinh viên ra trường không có định hướng nghề nghiệp rõ ràng và làm trái ngành chiếm tỉ lệ cao, gây ra thách thức lớn cho giáo dục đại học trong việc cung cấp nguồn nhân lực chất lượng cao

Việc khai phá dữ liệu để tìm ra các yếu tố ảnh hưởng đến quyết định chọn ngành học của thí sinh là cần thiết Điều này không chỉ hỗ trợ nhà trường trong việc tuyển sinh

mà còn giúp xây dựng các chương trình học phù hợp cũng như hỗ trợ phía trường trung học phổ thông triển khai tư vấn hướng nghiệp, từ đó nâng cao chất lượng đào tạo và đảm bảo cung cấp nguồn nhân lực đáp ứng nhu cầu của xã hội theo từng giai đoạn phát triển

Trong khuôn khổ của nghiên cứu, tác giả đã áp dụng các phương pháp khai phá

dữ liệu để phát hiện và hiểu rõ hơn về các quy luật liên quan đến các yếu tố ảnh hưởng đến quyết định chọn ngành học của thí sinh thi đại học Dữ liệu được thu thập từ các sinh viên đang thao học tại Đại học Kinh tế Quốc dân, với tổng cộng 693 sinh viên Sau khi tiền xử lý dữ liệu và áp dụng xây dựng cây quyết định theo 2 trường hợp là xây dựng cây quyết định trên toàn bộ dữ liệu và trường hợp xây dựng cây quyết định cho từng cụm (sử dụng thuật toán K-Medoids phân cụm)

Sau khi thực hiện xây dựng cây quyết định theo từng trường hợp, tác giả so sánh

độ tin cậy giữa 2 trường hợp Kết quả cho thấy xây dựng cây quyết định cho từng cụm

có độ tin cậy cao hơn Tiếp theo, dựa vào cây quyết định và rút ra các luật để đưa ra các khuyến nghị cho trường đại học và trường trung học phổ thông

Kết quả nghiên cứu trong đề án về " Nghiên cứu và áp dụng kĩ thuật khai phá dữ liệu trong việc xác định các nhân tố tác động đến quyết định chọn ngành học của thí sinh đại học " đã mang lại những thông tin và giá trị quan trọng Nghiên cứu tập trung vào việc phân tích về các yếu tố ảnh hưởng đến quyết định chọn ngành học của thí sinh đại học

Trang 11

MỞ ĐẦU

1 Tính cấp thiết và lý do lựa chọn đề tài

Trong thế giới ngày nay, việc lựa chọn ngành học đại học không chỉ là một quyết định cá nhân mà còn là một bước quan trọng đối với sự phát triển và thành công sau này của sinh viên Với sự đa dạng và phong phú của các ngành học cũng như các chương trình đào tạo, việc đưa ra quyết định này đòi hỏi sự tỉ mỉ, cân nhắc và đôi khi cả sự hỗ trợ từ các bên thứ ba

Ở nhiều quốc gia trên thế giới, quyết định chọn ngành học đại học không chỉ phản ánh sự lựa chọn cá nhân mà còn chịu ảnh hưởng mạnh mẽ từ các yếu tố xã hội, gia đình

và môi trường giáo dục Áp lực từ phía gia đình, mong muốn đạt được sự thành công và

ổn định kinh tế, cùng với các yếu tố như xu hướng ngành nghề, tầm nhìn cá nhân và kiến thức về ngành học, đều đóng vai trò quan trọng trong quá trình quyết định này

Trong bối cảnh này, việc sử dụng công nghệ thông tin và kỹ thuật khai phá dữ liệu

là một phần không thể tách rời trong lĩnh vực giáo dục Sự tiến bộ trong lĩnh vực này đã mở

ra những cơ hội mới để hiểu rõ hơn về quyết định chọn ngành học của sinh viên thông qua việc phân tích dữ liệu lớn và xây dựng các mô hình dự đoán Các phương pháp và công cụ khai phá dữ liệu giúp tìm ra các mẫu ẩn và mối liên hệ phức tạp giữa các yếu tố khác nhau,

từ đó cung cấp thông tin quý giá cho quyết định chọn ngành học của sinh viên

Với nhu cầu ngày càng cao về việc cung cấp hỗ trợ tư vấn và quyết định cho sinh viên, việc nghiên cứu và áp dụng kỹ thuật khai phá dữ liệu để xác định các yếu tố ảnh hưởng đến quyết định chọn ngành học đại học trở nên cấp thiết và có ý nghĩa hơn bao giờ hết Bằng cách này, nghiên cứu không chỉ giúp hiểu rõ hơn về quy trình quyết định của sinh viên mà còn tạo ra những công cụ hữu ích để cải thiện quy trình tư vấn và hỗ trợ giáo dục, từ đó hỗ trợ sinh viên trong việc đưa ra quyết định chọn ngành học phù hợp và mang lại thành công cho tương lai của họ

Việc chọn đề tài "Nghiên cứu và áp dụng kỹ thuật khai phá dữ liệu trong việc xác định các nhân tố tác động đến quyết định chọn ngành học của thí sinh đại học" đến từ nhận thức sâu sắc về tầm quan trọng của việc chọn ngành học đối với sự thành công và phát triển cá nhân của sinh viên Quyết định này không chỉ ảnh hưởng đến sự nghiệp sau này của sinh viên mà còn đóng vai trò quyết định đến hạnh phúc và hài lòng nghề nghiệp của họ Tuy nhiên, việc lựa chọn ngành học không phải lúc nào cũng đơn giản

và dễ dàng Nhiều yếu tố như sở thích cá nhân, năng lực cá nhân, áp lực từ gia đình và

xã hội, kiến thức về ngành học, và tiềm năng nghề nghiệp cùng đối mặt với các lựa chọn ngành học đa dạng làm cho quyết định trở nên phức tạp và đòi hỏi sự cân nhắc kỹ lưỡng

Trang 12

Trong bối cảnh này, việc áp dụng kỹ thuật khai phá dữ liệu để nghiên cứu về quyết định chọn ngành học đại học trở nên cấp thiết và có ý nghĩa Sự phát triển của công nghệ thông tin và kỹ thuật khai phá dữ liệu mở ra những cơ hội mới để hiểu rõ hơn

về quy trình quyết định chọn ngành học của sinh viên Bằng cách này, nghiên cứu không chỉ giúp hiểu rõ hơn về quyết định của sinh viên mà còn tạo ra những công cụ hữu ích

để cải thiện quy trình tư vấn và hỗ trợ giáo dục, từ đó hỗ trợ sinh viên trong việc đưa ra quyết định chọn ngành học phù hợp và mang lại thành công cho tương lai của họ

2 Mục tiêu nghiên cứu

Xác định các nhân tố ảnh hưởng đến quyết định chọn ngành học của thí sinh tham gia kỳ thi đại học đóng vai trò quan trọng trong việc nâng cao chất lượng giáo dục và định hướng nghề nghiệp

Nghiên cứu này ứng dụng các kỹ thuật khai phá dữ liệu nhằm phân tích, khám phá những yếu tố then chốt, bao gồm ảnh hưởng từ gia đình, năng lực học tập, sở thích

cá nhân, xu hướng thị trường lao động và các chiến lược tuyển sinh của các trường đại học Kết quả của nghiên cứu không chỉ giúp các nhà quản lý giáo dục và chuyên viên tư vấn nắm bắt nhu cầu thực tế của thí sinh mà còn hỗ trợ xây dựng những chiến lược tư vấn, hỗ trợ phù hợp, góp phần định hướng hiệu quả và cải thiện chất lượng đào tạo

3 Câu hỏi nghiên cứu

- Những nhân tố nào ảnh hưởng đến quyết định chọn ngành học của các thí sinh đại học?

- Trong số các nhân tố ảnh hưởng, nhân tố nào được coi là quan trọng nhất đối với thí sinh khi quyết định chọn ngành học?

- Các khuyến nghị từ nghiên cứu các nhân tố quyết định chọn ngành học của thí sinh đại học là gì?

4 Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu: các phương pháp khai phá dữ liệu cho bài toán các nhân

tố tác động đến quyết định chọn ngành học của thí sinh thi đại học

Đối tượng thu thập dữ liệu: các sinh viên đại học năm nhất, năm hai, năm ba, năm tư đang học tập tại trường đại học, cụ thể ở đề tài nghiên cứu là ở trường đại học Kinh tế Quốc dân

Phạm vi thời gian: từ tháng 04/2023 đến tháng 04/2024

Không gian nghiên cứu: trường đại học Kinh tế Quốc dân

Trang 13

5 Phương pháp nghiên cứu

Phương pháp thu thập dữ liệu: thu thập dữ liệu trên các trang thông tin về sinh

viên đại học Kinh tế Quốc dân như trang “Nhóm thông tin sinh viên NEU” Qua việc

thiết kế bảng câu hỏi trên Google forms và tạo bài viết trên nhóm có đính kèm link phiếu

khảo sát đến các bạn sinh viên thực hiện khảo sát

Phương pháp tham khảo tài liệu: tham khảo các tài liệu từ các nguồn có sẵn trên

báo, tạp chí khoa học, trên các trang tài liệu uy tín như Scopus, Scholar, Wikipedia…

Sử dụng các công cụ để phân tích các dữ liệu: sử dụng các kỹ thuật khai phá dữ

liệu như cây quyết định, K-medoids để phân tích các dữ liệu đã thu thập được

6 Ý nghĩa khoa học của đề tài

Xác định các nhân tố tác động đến quyết định chọn ngành học của học sinh thông

qua việc ứng dụng các kỹ thuật khai phá dữ liệu hiện đại còn mới, cho độ chính xác cao

Ngoài ra việc áp dụng khai phá dữ liệu vào lĩnh vực giáo dục, góp phần phát triển cơ sở

lý thuyết liên quan đến hành vi lựa chọn ngành học

Kết quả nghiên cứu cho thấy nhân tố có ảnh hưởng lớn nhất đến quyết định chọn

ngành học, qua đó cung cấp thông tin quan trọng để các nhà hoạch định chính sách giáo

dục, chuyên gia tư vấn và các trường đại học tối ưu hóa chiến lược tuyển sinh và tư vấn

hướng nghiệp

Đề xuất quy trình khai phá dữ liệu tối ưu, có khả năng ứng dụng vào các bài

toán khác liên quan đến phân tích hành vi và ra quyết định trong giáo dục Quy trình

này không chỉ hữu ích trong nghiên cứu học thuật mà còn có tiềm năng áp dụng thực

tiễn cao, hỗ trợ các tổ chức giáo dục triển khai các giải pháp dựa trên dữ liệu một cách

hiệu quả

7 Kết cấu của đề án

Ngoài phần mở đầu, kết luận, danh mục tài liệu tham khảo, nội dung của đề án

gồm 3 chương:

CHƯƠNG 1: CƠ SỞ LÝ THUYẾT VÀ MÔ HÌNH NGHIÊN CỨU

CHƯƠNG 2: ÁP DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU CHO BÀI TOÁN

XÁC ĐỊNH CÁC NHÂN TỐ TÁC ĐỘNG TỚI QUYẾT ĐỊNH CHỌN NGÀNH HỌC

CỦA THÍ SINH ĐẠI HỌC

CHƯƠNG 3: PHÂN TÍCH KẾT QUẢ VÀ KHUYẾN NGHỊ

Trang 14

dữ liệu trước, suy xét mô hình và suy luận thống kê, các thước đo thú vị, các cân nhắc phức tạp, xuất kết quả về các cấu trúc được phát hiện, hiện hình hóa và cập nhật trực tuyến Khai thác dữ liệu là bước phân tích của quá trình "khám phá kiến thức trong cơ

sở dữ liệu" hoặc KDD”

Khai phá dữ liệu là một bước trong quy trình khám phá tri thức, qua đó trích rút những thông tin hữu ích, những thông tin tiềm ẩn trong khối dữ liệu lớn, từ đó tiến hành phân tích dữ liệu và giải thích dữ liệu trên các tập dữ liệu lớn Theo các báo cáo của IBM, chỉ có khoảng 80% dữ liệu đang được khai thác, 20% còn lại là những tri thức tiềm ẩn, vì vậy khai phá dữ liệu là việc hết sức quan trọng trong việc biến dữ liệu thành tri thức

Khai phá dữ liệu đem lại một cái nhìn bao quát về dữ liệu, cung cấp tri thức để

hỗ trợ cho việc ra quyết định, tiến hành đưa ra những dự báo cho nhà quản lý Từ đó có thể phát triển doanh nghiệp Khai phá dữ liệu là lợi thế của cạnh tranh Trong thời đại hiện nay, nếu ta biết sử dụng công nghệ để khai phá dữ liệu sẽ có cơ sở để hiểu khách hàng, từ đó có thể phát triển tốt hơn

1.1.2 Các lĩnh vực ứng dụng chính

a Phân tích dữ liệu tài chính

• Dự đoán khả năng vay và thanh toán của khách hàng, phân tích chính sách tín dụng đối với khách hàng

• Phân tích hành vi của khách hàng (vay, gửi tiền)

• Phân loại và phân nhóm khách hàng phục vụ cho mục tiêu tiếp thị tài chính

Trang 15

• Phát hiện các hoạt động rửa tiền và tội phạm tài chính khác

b Công nghiệp bán lẻ

• Khai phá dữ liệu trên kho dữ liệu khách hàng

• Phân tích đa chiều trên kho dữ liệu khách hàng về doanh số bán hàng, khách hàng, sản phẩm, thời gian và khu vực

• Phân tích tính hiệu quả của các chiến dịch bán hàng, Marketing

• Hỗ trợ quản trị quan hệ khách hàng (CRM)

• Giới thiệu và tư vấn sản phẩm phù hợp cho khách hàng

c Công nghiệp viễn thông

• Khai phá dữ liệu trên kho dữ liệu khách hàng

• Phân tích đa chiều trên kho dữ liệu khách hàng về doanh số bán hàng, khách hàng, sản phẩm, thời gian và khu vực

• Phân tích tính hiệu quả của các chiến dịch bán hàng, Marketing

• Hỗ trợ quản trị quan hệ khách hàng (CRM)

• Giới thiệu và tư vấn sản phẩm phù hợp cho khách hàng

d Phân tích dữ liệu sinh học

• Khai phá dữ liệu trên kho dữ liệu khách hàng

• Phân tích đa chiều trên kho dữ liệu khách hàng về doanh số bán hàng, khách hàng, sản phẩm, thời gian và khu vực

• Phân tích tính hiệu quả của các chiến dịch bán hàng, Marketing

• Hỗ trợ quản trị quan hệ khách hàng (CRM)

• Giới thiệu và tư vấn sản phẩm phù hợp cho khách hàng

e Giáo dục

• Phân tích kết quả học tập của sinh viên

• Cá nhân hóa quá trình học tập

• Phân tích và dự báo tỷ lệ bỏ học

• Phát hiện gian lận trong thi cử

Trang 16

• Hỗ trợ quá trình tư vấn và định hướng nghề nghiệp

1.1.3 Vai trò khai phá cơ sở dữ liệu

Vai trò chính của khai phá cơ sở dữ liệu có thể được nhìn nhận qua các khía cạnh sau:

• Hỗ trợ ra quyết định: Các kỹ thuật khai phá cơ sở dữ liệu giúp phát hiện các mẫu, xu hướng và mối quan hệ ẩn trong dữ liệu, từ đó cung cấp cơ sở khoa học cho việc ra quyết định hiệu quả trong nhiều lĩnh vực như kinh doanh, giáo dục, y tế, và công nghiệp

• Tối ưu hóa quy trình quản lý dữ liệu: Khai phá dữ liệu giúp tổ chức dữ liệu phức tạp thành các cấu trúc dễ hiểu hơn, tạo điều kiện thuận lợi cho việc lưu trữ, truy xuất và phân tích thông tin Điều này đặc biệt hữu ích trong việc quản

lý hệ thống thông tin và phát triển các ứng dụng phân tích dữ liệu

• Nâng cao hiệu quả trong dự đoán và phân loại: Các mô hình khai phá dữ liệu, như cây quyết định, mạng nơ-ron nhân tạo hoặc máy học, cho phép xây dựng các hệ thống dự đoán chính xác và hiệu quả, từ việc dự đoán nhu cầu thị trường đến phân loại hành vi của khách hàng hoặc học sinh

• Thúc đẩy đổi mới và sáng tạo: Việc ứng dụng khai phá cơ sở dữ liệu không chỉ mang lại tri thức từ dữ liệu hiện có mà còn khuyến khích phát triển các phương pháp và công nghệ mới nhằm giải quyết các bài toán phức tạp, góp phần thúc đẩy đổi mới trong nghiên cứu và sản xuất

1.1.4 Quy trình xử lý dữ liệu

Dưới đây là các bước trong quá trình khai phá tri thức:

Hình 1.1: Quy trình khai phá tri thức trong CSDL

(Nguồn: Francesco Gullo (2016) From Patterns in Data to Knowledge Discovery:

What Data Mining Can Do)

Trang 17

Bước 1: Lựa chọn dữ liệu (Data Selection): Đây là bước đầu tiên trong quy trình KDD, trong đó các dữ liệu liên quan từ các nguồn dữ liệu được xác định và lựa chọn để phục vụ cho việc khai phá Dữ liệu phải chứa các thông tin có ý nghĩa liên quan đến vấn đề cần giải quyết

Bước 2: Tiền xử lý dữ liệu (Data Preprocessing): Tiền xử lý dữ liệu bao gồm các hoạt động làm sạch dữ liệu, xử lý các giá trị bị thiếu, loại bỏ nhiễu và tích hợp dữ liệu từ nhiều nguồn khác nhau Bước này giúp cải thiện chất lượng dữ liệu, vì dữ liệu thực tế thường không đầy đủ, chứa nhiễu, hoặc không phù hợp cho các thuật toán khai phá

Bước 3: Biến đổi dữ liệu (Data Transformation): Dữ liệu sau khi làm sạch sẽ được biến đổi và chuẩn hóa thành một dạng phù hợp hơn cho quá trình khai phá Quá trình này có thể bao gồm rút trích các thuộc tính, tổng hợp dữ liệu, và giảm số chiều của

dữ liệu Biến đổi các thuộc tính hoặc dữ liệu để các thuật toán khai phá có thể hoạt động hiệu quả hơn

Bước 4: Khai phá dữ liệu (Data Mining): Đây là bước trọng tâm của KDD, nơi các thuật toán khai phá dữ liệu được áp dụng để tìm ra các mẫu hoặc tri thức hữu ích từ

dữ liệu Các phương pháp phổ biến bao gồm phân loại (classification), phân cụm (clustering), phân tích luật kết hợp (association rule learning), và hồi quy (regression) Chọn phương pháp khai phá dữ liệu phù hợp với mục tiêu của bài toán (dự đoán, phân loại, tìm mẫu…)

Bước 5: Đánh giá mẫu (Pattern Evaluation): Sau khi khai phá dữ liệu, các mẫu được tìm ra sẽ cần được đánh giá về độ chính xác, độ tin cậy và ý nghĩa thực tiễn Mục đích là xác định các mẫu có giá trị và loại bỏ các mẫu không hữu ích Các mẫu được lựa chọn phải có ý nghĩa thống kê và thực tế để có thể sử dụng làm tri thức

Bước 6: Biểu diễn tri thức (Knowledge Representation): Sử dụng các kỹ thuật trực quan hóa và biểu diễn tri thức để trình bày tri thức đã khai phá cho người dùng

1.1.5 Một số kỹ thuật khai phá cơ sở dữ liệu cơ bản áp dụng trong đề án

1.1.5.1 Cây quyết định

Cây quyết định (Decision Tree) là một cây phân cấp có cấu trúc được dùng để phân lớp các đối tượng dựa vào dãy các luật (series of rules)

Các thuộc tính của đối tượng (ngoại trừ thuộc tính phân lớp – Category attribute)

có thể thuộc các kiểu dữ liệu khác nhau (Nominal, Ordinal, Quantitative values) trong khi đó thuộc tính phân lớp phải có kiểu dữ liệu là Nominal hoặc Ordinal

Mục đích chính của cây quyết định là để dự đoán lớp của các đối tượng chưa biết (unseen data)

Trang 18

Ví dụ: ứng dụng được cây quyết định trong bài toán phân lớp

• Ta có dữ liệu (training data) về 10 đối tượng (người) Mỗi đối tượng được

mô tả bởi 4 thuộc tính là Gender, Car Ownership, Travel Cost/Km, Income Level và 1 thuộc tính phân loại (category attribute) là Transportation mode Trong đó các thuộc tính Gender và Car Ownership có kiểu dữ liệu Nominal, Travel Cost/Km và Income Level có kiểu dữ liệu Ordinal

• Training data cho biết sự lựa chọn về loại phương tiện vận chuyển (car, bus, train) của khách dựa vào 4 thuộc tính đã cho (xem bảng)

Bảng 1.1: Ví dụ dữ liệu Trainning Data bài toán cây quyết định

Attributes Classes Gender Car ownership Travel Cost

($)/km

Income Level Transportation

mode

Male 1 Cheap Medium Bus

Female 1 Cheap Medium Train

Male 1 Cheap Medium Bus

Male 0 Standard Medium Train

Female 1 Standard Medium Train

Female 1 Expensive High Car

Male 1 Female Medium Car

Female 1 Expensive High Car

Dựa vào Training Data ở trên, ta có thể tạo ra cây quyết định sau:

Trang 19

Hình 1.2: Ví dụ cây quyết định dựa trên tệp dữ liệu Training Data

(Nguồn: http://bis.net.vn)

(Lưu ý rằng trong cây quyết định trên, thuộc tính “Income Level” không xuất hiện trong cây bởi vì dựa vào training data đã cho, thuộc tính “Travel Cost/Km” sẽ sinh

ra cây quyết định dùng để phân loại tốt hơn “Income Level”)

• Giả sử rằng ta có dữ liệu về 3 người với các giá trị dữ liệu đã biết về các thuộc tính Gender, Car Ownership, Travel Cost/Km, Income Level Tuy nhiên ta chưa biết họ sẽ chọn phương tiện vận chuyển nào (Car, Bus, Train) Nhiệm vụ của chúng ta là sử dụng cây quyết định đã tạo ra để dự đoán (predict) Alex, Buddy và Cherry sẽ chọn phương tiện vận chuyển nào dựa vào 4 thuộc tính của họ Dữ liệu dưới đây còn được gọi là Testing Data

Bảng 1.2: Ví dụ dữ liệu Testing Data bài toán cây quyết định

Income Level

Transportation Mode

Alex Male 1 Sandard High ?

Buddy Male 0 Cheap Medium ?

Cherry Female 1 Cheap High ?

• Ta bắt đầu từ node gốc của cây (root node) từ thuộc tính Travel Cost/Km,

ta thấy rằng nếu Travel Cost/Km là Expensive thì người đó sẽ chọn phương tiện là Car Nếu Travel Cost/Km là standard thì họ sẽ chọn phương

Trang 20

tiện vận chuyển là Train Nếu Travel Cost/Km là Cheap thì cây quyết định cần tới giá trị của trường Gender của người đó, nếu Gender là Male thì chọn Bus, nếu giới tính là Female thì cây quyết định cần kiểm tra xem người đó có sử hữu bao nhiêu xe hơi (Car Ownership) Nếu số xe hơi sở hữu là 0 thì người đó sẽ chọn xe Bus, nếu số xe hơi sở hữu là 1 thì người

đó sẽ chọn Train

• Theo cây quyết định trên, các luật (Series of Rules) được sinh ra là:

❖ Rule 1: If Travel cost/km is expensive then mode = car

❖ Rule 2: If Travel cost/km is standard then mode = train

❖ Rule 3: If Travel cost/km is cheap and gender is male then mode = bus

❖ Rule 4: If Travel cost/km is cheap and gender is female and she owns

no car then mode = bus

❖ Rule 5: If Travel cost/km is cheap and gender is female and she owns

1 car then mode = train

• Lưu ý: Số luật được sinh ra bằng với số lá của cây

• Dựa vào các luật được sinh ra, việc dự đoán lớp cho các dữ liệu chưa biết (unseen data hay Testing data) rất đơn giản

• Trong ví dụ này, Alex có giá trị của thuộc tính Travel Cost/Km là Standard nên sẽ chọn phương tiện là Train (Rule 2) mà không cần quan tâm đến các thuộc tính khác của Alex Buddy có giá trị của thuộc tính Travel Cost/Km

là Cheap và Gender của anh ta là Male nên anh ta sẽ chọn Bus (Rule 3) Cheery cũng có giá trị thuộc tính Travel Cost/Km là Cheap nhưng Gender

là Female và sở hữu 1 xe hơi cho nên theo cây quyết định trên (Rule 5) cô

ta sẽ chọn phương tiện là Train

Bảng 1.3: Kết quả phân tích từng người đi phương tiện nào dựa trên cây quyết định

Income Level

Transportation Mode

Alex Male 1 Sandard High Train

Buddy Male 0 Cheap Medium Bus

Cherry Female 1 Cheap High Train

Cây quyết định là một phương pháp phân lớp rất hiệu quả và dễ hiểu Tuy nhiên có một số chú ý khi sử dụng cây quyết định trong xây dựng các mô hình phân lớp như sau:

Trang 21

• Hiệu quả phân lớp của cây quyết định phụ thuộc rất lớn vào training data Chẳng hạn cây quyết định được tạo ra bởi chỉ giới hạn 10 samples training data trong ví dụ trên thì hiệu quả ứng dụng cây quyết định để dự đoán các trường hợp khác là không cao (thường training data phải đủ lớn và tin cậy)

và vì vậy ta không thể nói rằng tập các luật (Series of Rules) được sinh ra bởi cây quyết định trên là tập luật tốt nhất

• Có rất nhiều thuật toán phân lớp như ID3, J48, C4.5, CART (Classification and Regression Tree), … Việc chọn thuật toán nào để có hiệu quả phân lớp cao tuy thuộc vào rất nhiều yếu tố, trong đó cấu trúc dữ liệu ảnh hưởng rất lớn đến kết quả của các thuật toán Chẳn hạn như thuật toán ID3 và CART cho hiệu quả phân lớp rất cao đối với dữ liệu định lượng (interval, ratio) trong khi đó các thuật toán như J48, C4.5 có hiệu quả hơn đối với

dữ liệu định tính (ordinal, nominal)

1.1.5.2 Thuật toán K-Medoids

a Mô tả thuật toán

Thuật toán K-Medoids là một thuật toán phân cụm dữ liệu, mục tiêu của nó là chia dữ liệu thành K nhóm sao cho mỗi dữ liệu được gán vào một nhóm sao cho tổng khoảng cách từ các điểm dữ liệu đến điểm trung tâm (medoid) của nhóm đó là nhỏ nhất

Dưới đây là mô tả cơ bản của thuật toán K-Medoids:

• Khởi tạo: Chọn ngẫu nhiên K điểm dữ liệu làm các Medoids ban đầu Các điểm này có thể được chọn từ dữ liệu thực tế hoặc ngẫu nhiên từ tập dữ liệu

• Gán các điểm dữ liệu vào nhóm: Với mỗi điểm dữ liệu, tính toán khoảng cách của nó đến tất cả các Medoids và gán nó vào nhóm của Medoid gần nhất

• Cập nhật Medoids: Với mỗi nhóm, chọn điểm dữ liệu mới làm Medoid sao cho tổng khoảng cách từ các điểm trong nhóm đến Medoid mới là nhỏ nhất

• Lặp lại quá trình: Lặp lại bước 2 và 3 cho đến khi không có sự thay đổi nào trong việc gán các điểm dữ liệu vào nhóm hoặc khi đạt đến số lần lặp tối đa đã được xác định trước

Trang 22

• Kết thúc: Khi thuật toán kết thúc, mỗi điểm dữ liệu đã được gán vào một nhóm cụ thể và các Medoids cuối cùng đã được xác định

Thuật toán K-Medoids được áp dụng phổ biến hơn K-Means trong các tình huống khi dữ liệu có nhiều nhiễu hoặc có tồn tại các điểm dữ liệu ngoại lệ (outliers) vì nó sử dụng các điểm dữ liệu thực tế làm Medoids thay vì trung tâm (mean) như trong K-Means

b Phương pháp Elbow tìm số cụm tối ưu

Phương pháp Elbow để tìm số cụm tối ưu dựa vào đồ thị trực quan hóa sự suy giảm của hàm biến dạng và lựa chọn ra điểm khuỷu tay (elbow point)

Hình 1.3: Ví dụ về phương pháp Elbow

(Nguồn: machine/9781788295758/c71ea970-0f3c-4973-8d3a-b09a7a6553c1.xhtml)

https://www.oreilly.com/library/view/statistics-for-Điểm khuỷu tay là điểm ở đó có sự thay đổi về hàm biến dạng lớn nhất, tức là sau đó mặc dù vẫn có sự thay đổi của hàm biến dạng, tuy nhiên sự thay đổi đó là không đáng kể Nếu thuật toán phân chia cụm phân chia số cụm bằng điểm khuỷu tay sẽ tránh được tình trạng quá khớp (overfitting) vì nếu quá nhiều cụm, dữ liệu sẽ quá khớp còn nếu phân cụm ít hơn điểm khuỷu tay thì cụm đó vẫn còn phân chia được nữa

Trang 23

Phương pháp Elbow là một phương pháp tìm số cụm tối ưu hiệu quả Tuy nhiên, đôi khi nhìn vào đồ thị không thể xác định được chính xác số cụm tối ưu là bao nhiêu Nhưng nhìn chung đây cũng là phương pháp hiệu quả và phổ biến nhất hiện nay

1.2 Bài toán xác định các nhân tố tác động đến quyết định chọn ngành học của thí sinh đại học

1.2.1 Các khái niệm cơ bản

a Ngành học

Theo Luật giáo dục Đại học năm 2012 của Việt Nam thì “ngành đào tạo là một tập hợp những kiến thức và kỹ năng chuyên môn của một lĩnh vực hoạt động nghề nghiệp, khoa học nhất định Ngành đào tạo bao gồm nhiều chuyên ngành đào tạo” Nghề nghiệp là một khái niệm dành để chỉ những công việc sẽ gắn liền với hầu hết phần lớn khoảng thời gian quan trọng trong đời bản thân của mỗi người Việc chọn lựa nghề nghiệp sai hướng sẽ mang đến nhiều bất lợi trong cuộc sống của bản thân sau này Do

đó, việc định hướng nghề nghiệp là một điều tối cần thiết đối với các bạn sinh viên đang ngồi trên ghế giảng đường hoặc thậm chí là những học sinh THPT để họ có lựa chọn đúng đắn về chuyên ngành mình sẽ theo học để ra nghề ngay từ đầu Tuy nhiên không phải em học sinh, sinh viên nào cũng có cái nhìn nghiêm túc và lâu dài về điều này

b Chọn ngành học

Theo Lê Ngọc Hùng (2009): “Lựa chọn là cách thức để cân nhắc, tính toán để quyết định sử dụng loại phương tiện hay cách thức tối ưu trong số những điều kiện hay cách thức hiện có để đạt được mục tiêu trong điều kiện khan hiếm các nguồn lực” Dựa theo khái niệm về “lựa chọn” trên, có thể hiểu: “Lựa chọn” dùng để nhấn mạnh việc phải cân nhắc, tính toán để quyết định sử dụng loại phương thức, cách thức tối ưu nào trong điều kiện khan hiếm của nguồn lực Trong nghiên cứu này, khái niệm chọn ngành được hiểu là quyết định chọn một ngành nào đó tại các trường Cao đẳng, Đại học đào tạo để đăng ký dự thi và theo học sau khi tốt nghiệp THPT

c Quyết định chọn ngành học

Trong cuộc sống luôn luôn tồn tại các vấn đề nảy sinh cần giải quyết, con người thường phải xây dựng và lựa chọn các phương án tối ưu để giải quyết các vấn đề này Việc này đòi hỏi sự cân nhắc, suy nghĩ, lựa chọn để đi đến quyết định đúng đắn “Ra quyết định là một quá trình nhận ra và xác định bản chất vấn đề, nhận ra các biện pháp

có thể được sử dụng, chọn và thi hành biện pháp phù hợp nhằm giải quyết các vấn đề nảy sinh nhằm đạt được một số kết quả mong muốn.” Quyết định chọn ngành học là một quyết định quan trọng, ảnh hưởng đến tương lai học tập và sự nghiệp của học sinh, sinh

Trang 24

viên Quyết định này thường được đưa ra sau quá trình tìm hiểu, tự đánh giá và tham khảo ý kiến từ nhiều nguồn khác nhau Các bước cơ bản trong quá trình quyết định chọn ngành học bao gồm:

Thu thập thông tin: Tìm hiểu về các ngành học khác nhau, chương trình đào tạo

và cơ hội nghề nghiệp liên quan

Tự đánh giá: Xác định sở thích, khả năng và giá trị cá nhân

Tham vấn: Trao đổi với giáo viên, cố vấn học tập, gia đình và các chuyên gia để nhận được tư vấn và hỗ trợ

Lập kế hoạch: Xác định các mục tiêu ngắn hạn và dài hạn, lên kế hoạch học tập

1.2.2 Bài toán xác định các nhân tố tác động đến quyết định chọn ngành học

của thí sinh đại học

Trong thế kỉ XXI, các ngành kinh tế, công nghệ, công nghiệp không ngừng phát triển, dẫn đến sự ra đời của nhiều ngành nghề mới trong xã hội Với việc ra đời của các nghề mới, các trường đại học cũng không ngừng phát triển các ngành học mới cũng như các ngành học cũ để đáp ứng nhu cầu xã hội Cũng như đối với thí sinh thi đại học cũng phải tìm hiểu, định hướng một ngành nghề phù hợp cho tương lai, vừa đáp ứng nhu cầu

xã hội trong tương lai cũng như phải phù hợp với bản thân cá nhân

Tuy nhiên, theo thống kê của Phòng Thương mại và công nghiệp Việt Nam năm

2023, mỗi năm cả nước có 38% sinh viên mới ra trường không có định hướng nghề nghiệp cụ thể, 60% làm trái ngành Trong khi, nguồn lao động chất lượng cao lại chưa đáp ứng đủ của các doanh nghiệp Có thể nói đây là một vấn đề lớn của ngành giáo dục đại học trong nước Cho nên các nhân tố có tác động đến quyết định đến quyết định lựa chọn ngành học của thí sinh thi đại học là một trong những vấn đề nghiên cứu rất được quan tâm trong bối cảnh giáo dục đại học trong nước và quốc tế đang có nhiều thay đổi Đối với mỗi thí sinh, việc đưa ra quyết định lựa chọn ngành học phù hợp là cơ sở của động cơ học tập và sự phát triển nghề nghiệp bền vững trong tương lai Trong khi đó,

Trang 25

đối với các cơ sở giáo dục đại học và các nhà hoạch định chính sách, việc tìm hiểu các yếu tố ảnh hưởng đến quyết định lựa chọn ngành học của thí sinh là cơ sở để xây dựng chương trình đào tạo, mở mã ngành, nhằm nâng cao số lượng, chất lượng tuyển sinh, từ

đó đảm bảo nguồn nhân lực chất lượng cao, đáp ứng nhu cầu của xã hội theo từng giai đoạn phát triển

Việc ứng khai phá dữ liệu để tìm ra các nhân tố ảnh hưởng đến quyết định chọn ngành học của thí sinh thi đại học trong các trường đại học là cần thiết nhằm hỗ trợ nhà trường trong việc tuyển sinh đại học cũng như xây dựng các chương trình học phù hợp hơn đối với sinh viên

Trang 26

CHƯƠNG 2

ÁP DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU CHO BÀI TOÁN XÁC ĐỊNH CÁC NHÂN TỐ TÁC ĐỘNG TỚI QUYẾT ĐỊNH CHỌN NGÀNH

HỌC CỦA THÍ SINH ĐẠI HỌC

2.1 Đề xuất mô hình nghiên cứu và các nhân tố

Thiết kế bảng hỏi là bước quan trọng để thu thập thông tin cần thiết từ đối tượng nghiên cứu Điều này bao gồm việc xây dựng các câu hỏi và thang đo phù hợp để đo lường các biến số trong nghiên cứu Để thiết kế được bảng hỏi phù hợp và chính xác, tác giả lựa chọn phân tích các nhân tố tác động đến quyết định chọn ngành học của thí sinh đại học từ các mô hình đã có trên thế giới và ở Việt Nam

Trên thế giới đã có nhiều nghiên cứu liên quan đến quyết định lựa chọn ngành học của sinh viên và học sinh Có thể kể đến các nghiên cứu: D.W.Chapman (1981), đã đưa ra mô hình tổng quát về việc lựa chọn trường đại học của học sinh Sử dụng phương pháp thống kê mô tả, Chapman cho rằng có 2 nhóm nhân tổ ảnh hưởng đến quyết định chọn trường đại học của học sinh là: đặc điểm cá nhân và gia đình; nhân tổ bên ngoài như: nỗ lực giao tiếp của trường đại học với học sinh, đặc điểm cố định của trường đại học và cá nhân có ảnh hưởng Michael Brochert (2002), Career choice factors of high school students, khảo sát 325 học sinh Trung học Germantown, bang Wiscosin, khẳng định nhân tố cá nhân là nhân tổ ảnh hưởng quan trọng nhất đến việc lựa chọn ngành nghề trong 3 nhân tố chính: môi trường, cơ hội nghề nghiệp và đặc điểm cá nhân

Tại Việt Nam cũng có một số nghiên cứu về đề tài lựa chọn ngành học của sinh viên, có thể kể đến:

Nguyễn Thị Lan Hương (2012), Nghiên cứu các yếu tố ảnh hưởng đến động cơ chọn ngành Quản trị Doanh nghiệp của sinh viên trường Cao đẳng Kinh tế - Kế hoạch

Đà Nẵng, điều tra nghiên cứu với 450 bảng hỏi dành cho sinh viên hệ chính quy chuyên ngành Quản trị Doanh nghiệp của trường, cho rằng trong 5 nhân tố: cơ hội nghề nghiệp,

sự tác động của đối tượng tham chiếu, cơ hội đào tạo liên thông, đặc điểm cá nhân và

sự hấp dẫn của kiến thức ngành thì cơ hội nghề nghiệp là nhân tố quan trọng nhất tác động đến động cơ chọn ngành của sinh viên Nghiên cứu cũng cho thấy đối với những sinh viên đạt nguyện vọng 1 thì 2 nhân tố tác động đến chọn ngành là động cơ chọn ngành và đối tượng tham chiếu, còn khi không đạt nguyện vọng 1 thì họ ưu tiên cho cơ hội nghề nghiệp lên hàng đầu Tuy nhiên, nghiên cứu chưa đưa ra câu hỏi nghiên cứu

Trang 27

của tác giả và tác giả đã liệt kê nhiều khái niệm khác nhau nhưng chưa đưa ra được ý kiến cá nhân về các khái niệm này

Hoàng Thị Xuân (2023) với đề tài “Các nhân tố tác động đến lựa chọn ngành học của sinh viên Trường Đại học Kinh tế - Đại học Quốc gia Hà Nội” với mục tiêu chính nhằm xác định và đo lường tầm quan trọng của các yếu tố ảnh hưởng tới quyết định chọn ngành sinh viên Đối tượng tham gia khảo sát là 400 SVkhóa QH-2021-E từ nhiều ngành khác nhau tại Trường Đại học Kinh tế - Đại học Quốc gia Hà Nội Tác giả cho rằng 3 nhóm nhân tố chính tác động đến yếu tó ảnh hưởng đến lựa chọn ngành học là: năng lực, sở trường và đam mê của bản thân; sự tư vấn và định hướng của gia đình, thầy cô; Cơ hội nghề nghiệp mang lại trong tương lai

Trần Văn Quí, Cao Hào Thi (2009), Các yếu tố ảnh hưởng đến quyết định chọn trường đại học của học sinh phổ thông trung học, nghiên cứu nhằm xác định và đánh giá tác động của các yếu tố ảnh hưởng đến quyết định chọn trường đại học Nghiên cứu chỉ

ra 5 nhân tố: cơ hội việc làm trong tương lai, bản thân học sinh, đặc điểm cổ định của trường đại học, người tham khảo và thông tin sẵn có ảnh hưởng đến quyết định chọn trường đại học bằng việc phân tích 277 bảng trả lời của học sinh lớp 12 của 5 trường THPT ở Quảng Ngãi năm 2008 – 2009 Tuy nhiên, trong kết quả nghiên cứu tác giả không đưa ra phương trình hồi quy, vì vậy mà tác giả cũng chưa có sự phân tích sâu từ phương trình hồi quy để đưa ra các phán đoán của mình

Dựa vào mô hình nghiên cứu của David W Chapman, mô hình của Nguyễn Thị Lan Hương và mô hình nghiên cứu của Hoàng Thị Xuân về nhân tố ảnh hưởng đến chọn ngành, chọn trường của học sinh, sinh viên:

Trang 28

Hình 2.1: Mô hình nghiên cứu của D.W Chapman

(Nguồn: Chapman, 1981)

Hình 2.2: Mô hình nghiên cứu của Nguyễn Thị Lan Hương

(Nguồn: Nguyễn Thị Lan Hương, 2012)

Trang 29

Hình 2.3: Mô hình nghiên cứu của Hoàng Thị Xuân

(Nguồn: Hoàng Thị Xuân, 2023)

Xuất phát từ những tổng quan về lý thuyết và công trình nghiên cứu kể trên kết hợp phỏng vấn chuyên sâu một số sinh viên thuộc các khoa khác nhau của trường đại học Kinh tế Quốc dân, mô hình nghiên cứu đề xuất của đề tài như sau:

Hình 2.4: Mô hình nghiên cứu đề xuất

(Nguồn: Tác giả)

Từ mô hình nghiên cứu đề xuất ta có bảng các nhân tố tác động đến quyết định chọn ngành học như sau:

Trang 30

- Có điều kiện sức khỏe phù hợp

- Điểm đầu vào phù hợp với kết quả học tập

- Chương trìnhđào tạo phù hợp

- Có năng khiếu về ngành lựa chọn

- Có kiến thức về ngành

D.W Chapman (1981), Hoàng Thị Xuân (2023)

- Người thân định hướng

- Người thân ép buộc lựa chọn

- Có người quen làm trong ngành

- Người thân trong gia đình đang theo học

- Bạn bè rủ chọn

D.W Chapman (1981), Nguyễn Thị Lan Hương (2012)

- Vị trí địa lý thuận lợi

- Giảng viên có danh tiếng

- Học phí phù hợp, cơ sở vật chất tốt

- Cơ hội đạt học bổng cao

D.W Chapman (1981), Nguyễn Thị Lan

- Nghề thu hút được sự đầu tư

- Nghề có nhu cầu cao về nhân sự

- Triển vọng phát triển ngành nghề tương lai

- Thu nhập cao, cơ hội dễ xin việc

Trần Văn Quí, Cao Hào Thi (2009), Nguyễn Thị Lan Hương (2012),

Hoàng Thị Xuân (2023)

(Nguồn: Tác giả tổng hợp và phân tích)

Trang 31

2.2 Quy trình tích hợp và phân tích

2.2.1 Tìm hiểu dữ liệu

Từ mô hình nghiên cứu đề xuất ta sẽ thu thập các dữ liệu liên quan đến các nhân

tố ảnh hưởng đến quyết định chọn ngành của thí sinh thi đại học để nghiên cứu và phân tích bao gồm: Sở thích cá nhân, năng lực cá nhân, định hướng cá nhân có ảnh hưởng, đặc điểm của trường và sự hấp dẫn của ngành học, nhu cầu xã hội và cơ hội việc làm trong tương lai

a Thu thập dữ liệu ban đầu

Thực hiện khảo sát bảng hỏi đối với các sinh viên qua Google forms ta thu thập được dữ liệu trên trang tính excel

Trang 32

Tổng số lượng sinh viên tham gia khảo sát là 693 sinh viên

Trang 33

Hình 2.8: Sự phân bổ về ngành học

(Nguồn: Tác giả)

Tổng số lượng sinh viên tham gia khảo sát đến từ 70 ngành học khác nhau

Hình 2.9: Sự phân bổ về năm học hiện tại

(Nguồn: Tác giả)

Tổng số lượng sinh viên tham gia đến từ năm tư là nhiều nhất (61,5%), tiếp theo là năm hai (24,4%), năm ba (9,4%) và năm 4 (5,7%)

Trang 34

Ngược lại, chỉ 8,5% (59/693) sinh viên cho rằng ngoại hình phù hợp với nghề đã chọn, cho thấy yếu tố ngoại hình ít ảnh hưởng đến quyết định chọn ngành, ngoại trừ một số ngành đặc thù

Trang 35

Hình 2.11: Nhóm nhân tố năng lực cá nhân

(Nguồn: Tác giả)

Kết quả khảo sát về năng lực cá nhân trong việc lựa chọn ngành học cho thấy phần lớn sinh viên dựa vào điểm đầu vào và thông tin tìm hiểu trước khi quyết định Cụ thể, có đến 77,1% (534/693) cho rằng điểm đầu vào của ngành tương đối phù hợp với kết quả học tập của họ, cho thấy đây là yếu tố quan trọng hàng đầu Bên cạnh đó, 58,2% (403/693) xác định ngành học dựa trên việc tìm hiểu về trường, ngành, thể hiện sự chủ động trong việc nghiên cứu thông tin Yếu tố sức khỏe cũng đóng vai trò đáng kể, khi 44,2% (306/693) cho rằng họ

có đủ sức khỏe để theo học ngành đã chọn Tuy nhiên, chỉ 14,7% (102/693) có năng khiếu

về ngành học, và 20,6% (143/693) có tích lũy kiến thức về ngành trước đó, cho thấy nhiều sinh viên chưa thực sự dựa vào năng khiếu hay nền tảng kiến thức khi quyết định chọn ngành Kết quả này phản ánh tầm quan trọng của việc định hướng sớm cũng như cung cấp thông tin đầy đủ về ngành học để giúp sinh viên có sự lựa chọn phù hợp hơn với khả năng và sở thích của mình

Trang 36

Hình 2.12: Nhóm nhân tố định hướng cá nhân có ảnh hưởng

(Nguồn: Tác giả)

Kết quả khảo sát về ảnh hưởng của định hướng cá nhân trong việc lựa chọn ngành học cho thấy gia đình và bạn bè đóng vai trò quan trọng trong quyết định của sinh viên Cụ thể, 53,7% (372/693) sinh viên cho biết bố mẹ hoặc anh/chị/em trong gia đình định hướng lựa chọn ngành học, cho thấy sự tác động lớn của gia đình trong việc quyết định hướng đi nghề nghiệp Trong khi đó, chỉ 1,3% (9/693) sinh viên cảm thấy bị ép buộc hoặc áp đặt, cho thấy đa số các định hướng đến từ gia đình mang tính gợi ý hơn là bắt buộc

Ngoài gia đình, bạn bè cũng có ảnh hưởng đáng kể, với 36,4% (252/693) sinh viên cho biết họ chọn ngành do những người bạn đang theo học chuyên ngành này khuyên chọn Điều này phản ánh tầm quan trọng của bạn bè trong việc đưa ra lời khuyên và chia sẻ kinh nghiệm thực tế Một số sinh viên cũng chịu ảnh hưởng từ anh/chị đang học trong trường, với 20,9% (145/693) chọn ngành theo lời khuyên của anh/chị Bên cạnh đó, 12,6% (87/693) sinh viên có bố mẹ hoặc anh/chị đang làm việc trong ngành và chịu tác động từ điều này, cho thấy một phần nhỏ có xu hướng đi theo truyền thống gia đình

Trang 37

Hình 2.13: Nhóm nhân tố đặc điểm trường và sự hấp dẫn của ngành học

(Nguồn: Tác giả)

Kết quả khảo sát về đặc điểm trường và sự hấp dẫn của ngành học cho thấy sinh viên lựa chọn trường học chủ yếu dựa trên chất lượng đào tạo và danh tiếng giảng viên Cụ thể, 87,6% (607/693) sinh viên chọn trường vì đây là một trong những trường top về đào tạo ngành mà họ theo học, cho thấy uy tín và chất lượng giảng dạy là yếu tố quan trọng nhất trong quyết định của sinh viên

Ngoài ra, 69,4% (481/693) sinh viên bị thu hút bởi đội ngũ giảng viên có danh tiếng, cho thấy chất lượng giảng dạy đóng vai trò lớn trong việc lựa chọn trường Bên cạnh đó, 57,6% (399/693) sinh viên quan tâm đến học phí phù hợp và cơ sở vật chất tốt, điều này phản ánh mức độ đầu tư của trường vào môi trường học tập cũng là một yếu tố hấp dẫn

Một số yếu tố khác cũng ảnh hưởng đến quyết định của sinh viên nhưng với tỷ lệ thấp hơn 29,3% (203/693) sinh viên lựa chọn trường vì vị trí thuận tiện, cho thấy yếu tố địa lý không phải là ưu tiên hàng đầu mà chỉ là một lợi thế bổ sung 24,4% (169/693) sinh viên bị thu hút bởi cơ hội học bổng, cho thấy tài chính có ảnh hưởng nhưng không phải là yếu tố quyết định chính

Trang 38

Hình 2.14: Nhóm nhân tố nhu cầu xã hội và cơ hội việc làm trong tương lai

(Nguồn: Tác giả)

Kết quả khảo sát về nhu cầu xã hội và cơ hội việc làm trong tương lai cho thấy sinh viên quan tâm nhiều nhất đến triển vọng phát triển của ngành học Cụ thể, 74,7% (518/693) sinh viên lựa chọn ngành vì có triển vọng phát triển trong tương lai, cho thấy yếu tố tăng trưởng bền vững của ngành là động lực chính trong quyết định chọn ngành học

Ngoài ra, 40,7% (282/693) sinh viên chọn ngành do có nhu cầu cao về nhân sự, phản ánh mong muốn có cơ hội việc làm ổn định sau khi tốt nghiệp Đồng thời, 36,5% (253/693) sinh viên quan tâm đến mức thu nhập cao và cơ hội xin việc dễ dàng, cho thấy yếu tố tài chính cũng đóng vai trò quan trọng trong quyết định của họ

Bên cạnh đó, 34,5% (239/693) sinh viên lựa chọn ngành vì có sự thu hút đầu tư, cho thấy một số sinh viên quan tâm đến tiềm năng mở rộng và cơ hội kinh doanh trong ngành học

c Đánh giá chất lượng dữ liệu

Việc đánh giá chất lượng dữ liệu là bước quan trọng nhằm đảm bảo tính chính xác, đáng tin cậy và đầy đủ của dữ liệu thu thập được để phục vụ cho quá trình phân tích Trong nghiên cứu này, dữ liệu đã được thu thập thông qua khảo sát sinh viên tại Trường Đại học Kinh tế Quốc dân Để đảm bảo chất lượng dữ liệu, các tiêu chí sau đã được xem xét và đánh giá:

Dữ liệu thu thập phải phản ánh đúng thông tin mà người tham gia cung cấp Để kiểm soát tính chính xác, quá trình khảo sát được thực hiện trực tiếp qua Google Forms, giúp giảm thiểu lỗi trong quá trình nhập liệu thủ công Hơn nữa, các câu hỏi trong khảo sát đã được thiết

kế rõ ràng và dễ hiểu để tránh sự hiểu lầm hoặc sai lệch trong câu trả lời

Trang 39

Tất cả các dữ liệu cần thiết liên quan đến các yếu tố ảnh hưởng đến quyết định chọn ngành của sinh viên như sở thích cá nhân, năng lực cá nhân, định hướng cá nhân, đặc điểm của trường và nhu cầu xã hội, cơ hội việc làm đều đã được thu thập đầy đủ Trong quá trình khảo sát, các câu hỏi bắt buộc đã được thiết lập trên Google Forms để đảm bảo không bỏ sót thông tin quan trọng

Dữ liệu được thu thập từ nhiều sinh viên khác nhau, do đó, việc đảm bảo tính nhất quán là vô cùng quan trọng Để đạt được điều này, các câu hỏi trong bảng khảo sát được thiết

kế đảm bảo sự nhất quán trong việc đánh giá các yếu tố và cho phép so sánh giữa các sinh viên

Dữ liệu được đánh giá về tính hợp lệ thông qua việc kiểm tra xem các câu hỏi có liên quan chặt chẽ đến các biến trong mô hình nghiên cứu hay không Đặc biệt, các biến đại diện cho các nhóm yếu tố ảnh hưởng (như sở thích cá nhân, năng lực cá nhân, định hướng cá nhân, đặc điểm của trường, nhu cầu xã hội và cơ hội việc làm) đều được xây dựng dựa trên cơ sở

lý thuyết và nghiên cứu trước đó, đảm bảo rằng dữ liệu thu thập được phản ánh đúng bản chất vấn đề nghiên cứu

Sau khi thu thập dữ liệu, quá trình làm sạch dữ liệu đã được tiến hành nhằm loại bỏ các dữ liệu không hợp lệ, chẳng hạn như các câu trả lời thiếu thông tin hoặc bất thường Ngoài

ra, việc kiểm tra tính phân bố của dữ liệu theo các tiêu chí như giới tính, khoa/viện, ngành học và năm học đã được thực hiện để đảm bảo rằng dữ liệu phản ánh một cách toàn diện các đặc điểm của sinh viên tham gia khảo sát

Để đánh giá chất lượng mẫu khảo sát, đã kiểm tra sự phân bố của mẫu theo các yếu

tố như giới tính, khoa/viện, ngành học và năm học Mẫu khảo sát cần phải đảm bảo tính đại diện cho tổng thể sinh viên tại trường, tránh việc dữ liệu chỉ phản ánh một nhóm nhỏ hoặc không đại diện cho toàn bộ sinh viên

2.2.2 Chuẩn hóa dữ liệu

a Lựa chọn dữ liệu

Trước khi bắt đầu quá trình khai phá dữ liệu, việc lựa chọn dữ liệu phù hợp là một bước quan trọng để đảm bảo sự thành công của bài toán Lựa chọn dữ liệu đúng sẽ giúp ta tập trung vào những thông tin quan trọng và có giá trị nhất, từ đó tối ưu hóa quá trình phân tích và đưa ra những quyết định thông minh

Đầu tiên, cần xác định rõ mục tiêu của khai phá dữ liệu để hiểu rõ loại thông tin cần thu thập Mục tiêu là dự đoán các nhân tố ảnh hưởng đến quyết định chọn ngành

Trang 40

học của thí sinh thi đại học Dựa trên mục tiêu này, có thể xác định các trường thông tin cần thiết để thu thập

b Làm sạch dữ liệu

Sau khi lựa chọn dữ liệu, bước tiếp theo là làm sạch dữ liệu để đảm bảo tính toàn vẹn và chính xác của thông tin Dữ liệu không đúng hoặc không đầy đủ có thể ảnh hưởng đến kết quả phân tích và đưa ra những quyết định sai lầm Một số bước cần thiết trong quá trình làm sạch dữ liệu:

Xử lý dữ liệu thiếu: Đầu tiên, cần kiểm tra và xử lý dữ liệu thiếu Dữ liệu thiếu

có thể làm giảm độ chính xác và ảnh hưởng đến kết quả phân tích Dữ liệu thiếu sẽ bị xóa khỏi mô hình

Loại bỏ dữ liệu trùng lặp: Dữ liệu trùng lặp không cung cấp thêm thông tin mới

và chỉ tốn tài nguyên trong quá trình phân tích Do đó, cần loại bỏ những bản ghi trùng lặp để đảm bảo tính duy nhất và chính xác của dữ liệu

Kiểm tra và xử lý ngoại lệ: Dữ liệu ngoại lệ là những giá trị không phù hợp hoặc không thể giải thích được Các giá trị này có thể làm sai lệch kết quả phân tích Cần xử

lý hoặc loại bỏ các giá trị ngoại lệ theo cách phù hợp

Kiểm tra và xử lý dữ liệu không hợp lệ: Dữ liệu không hợp lệ là những giá trị không tuân theo quy tắc hoặc không phù hợp với loại dữ liệu Ví dụ, trong trường hợp dữ liệu số điện thoại, nếu có giá trị không hợp lệ, cần xử lý và sửa lại cho đúng định dạng

Chuẩn hóa dữ liệu: Dữ liệu có thể xuất hiện trong nhiều định dạng khác nhau hoặc đơn vị đo lường khác nhau Chuẩn hóa dữ liệu giúp đưa chúng về cùng một định dạng và đơn vị, từ đó tạo điều kiện thuận lợi cho quá trình phân tích và so sánh

Xác định và xử lý dữ liệu không hợp lý: Dữ liệu không hợp lý có thể là do nhập liệu sai, lỗi hệ thống hoặc do sự cố kỹ thuật Cần kiểm tra và xử lý những dữ liệu không hợp lý này để đảm bảo tính chính xác và đáng tin cậy của thông tin

Quá trình làm sạch dữ liệu đòi hỏi sự cẩn thận và công phu Nó không chỉ là một bước quan trọng trong khai phá dữ liệu, mà còn đóng vai trò quyết định đối với chất lượng và đáng tin cậy của kết quả cuối cùng

c Chuyển đổi dữ liệu

Sau khi đã làm sạch dữ liệu, bước tiếp theo trong quá trình chuẩn bị dữ liệu là chuyển đổi dữ liệu vào định dạng phù hợp để tiến hành khai phá Việc chuyển đổi dữ

Ngày đăng: 03/03/2025, 20:12

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[3] Đoàn Quang Minh (2024), Slide bài giảng khai phá tri thức trong cơ sở dữ liệu, 21- 24 Sách, tạp chí
Tiêu đề: Slide bài giảng khai phá tri thức trong cơ sở dữ liệu
Tác giả: Đoàn Quang Minh
Năm: 2024
[5] ‘Khai phá dữ liệu’ (2024), Wikipedia, truy cập ngày 15 tháng 6 năm 2024, từ [https://vi.wikipedia.org/wiki/Khai_phá_dữ_liệu] Sách, tạp chí
Tiêu đề: Khai phá dữ liệu
Nhà XB: Wikipedia
Năm: 2024
[6] Nguyễn Thị Lan Hương (2012), Nghiên cứu các yếu tố ảnh hưởng đến động cơ chọn ngành Quản trị Doanh nghiệp của sinh viên trường Cao đẳng Kinh tế - Kế hoạch Đà Nẵng, Luận văn thạc sĩ, Trường đại học Đà Nẵng Sách, tạp chí
Tiêu đề: Nghiên cứu các yếu tố ảnh hưởng đến động cơ chọn ngành Quản trị Doanh nghiệp của sinh viên trường Cao đẳng Kinh tế - Kế hoạch Đà Nẵng
Tác giả: Nguyễn Thị Lan Hương
Nhà XB: Trường đại học Đà Nẵng
Năm: 2012
[7] Luật giáo dục đại học (2012), truy cập ngày 26 tháng 6 năm 2024, từ [https://vanban.chinhphu.vn/default.aspx?pageid=27160&docid=163054] Sách, tạp chí
Tiêu đề: Luật giáo dục đại học
Năm: 2012
[9] Trần Văn Quí, Cao Hào Thi (2009), Các yếu tố ảnh hưởng đến quyết định chọn trường đại học của học sinh phổ thông trung học, Tạp chí Phát triển Khoa học và Công nghệ, 12(5), 87-102 Sách, tạp chí
Tiêu đề: Các yếu tố ảnh hưởng đến quyết định chọn trường đại học của học sinh phổ thông trung học
Tác giả: Trần Văn Quí, Cao Hào Thi
Nhà XB: Tạp chí Phát triển Khoa học và Công nghệ
Năm: 2009
[10] ‘The elbow method’ (2024), truy cập ngày 26 tháng 6 năm 2024, từ [https://www.oreilly.com/library/view/statistics-for-machine/9781788295758/c71ea970-0f3c-4973-8d3a-b09a7a6553c1.xhtml] Sách, tạp chí
Tiêu đề: The elbow method
Năm: 2024
[1] ‘Cây quyết định (Decision Tree)’ (2024), bis.net.vn, truy cập ngày 12 tháng 6 năm 2024, từ [https://bis.net.vn/forums/t/378.aspx] Link
[2] D.W. Chapman (1981), A model of student college choice. The Journal of Higher Education 52.5: 490-505 Khác
[4] Francesco Gullo (2016), From Patterns in Data to Knowledge Discovery: What Data Mining Can Do Khác

HÌNH ẢNH LIÊN QUAN

Hình 1.2: Ví dụ cây quyết định dựa trên tệp dữ liệu Training Data - Luận văn thạc sĩ Hệ thống thông tin quản lý: Nghiên cứu và áp dụng kỹ thuật khai phá dữ liệu trong việc xác định các nhân tố tác động đến quyết định chọn ngành học của thí sinh đại học
Hình 1.2 Ví dụ cây quyết định dựa trên tệp dữ liệu Training Data (Trang 19)
Hình 2.1: Mô hình nghiên cứu của D.W Chapman - Luận văn thạc sĩ Hệ thống thông tin quản lý: Nghiên cứu và áp dụng kỹ thuật khai phá dữ liệu trong việc xác định các nhân tố tác động đến quyết định chọn ngành học của thí sinh đại học
Hình 2.1 Mô hình nghiên cứu của D.W Chapman (Trang 28)
Hình 2.2: Mô hình nghiên cứu của Nguyễn Thị Lan Hương - Luận văn thạc sĩ Hệ thống thông tin quản lý: Nghiên cứu và áp dụng kỹ thuật khai phá dữ liệu trong việc xác định các nhân tố tác động đến quyết định chọn ngành học của thí sinh đại học
Hình 2.2 Mô hình nghiên cứu của Nguyễn Thị Lan Hương (Trang 28)
Hình 2.5: Số sinh viên tham ra khảo sát - Luận văn thạc sĩ Hệ thống thông tin quản lý: Nghiên cứu và áp dụng kỹ thuật khai phá dữ liệu trong việc xác định các nhân tố tác động đến quyết định chọn ngành học của thí sinh đại học
Hình 2.5 Số sinh viên tham ra khảo sát (Trang 31)
Hình 2.14: Nhóm nhân tố nhu cầu xã hội và cơ hội việc làm trong tương lai - Luận văn thạc sĩ Hệ thống thông tin quản lý: Nghiên cứu và áp dụng kỹ thuật khai phá dữ liệu trong việc xác định các nhân tố tác động đến quyết định chọn ngành học của thí sinh đại học
Hình 2.14 Nhóm nhân tố nhu cầu xã hội và cơ hội việc làm trong tương lai (Trang 38)
Hình 3.1: Danh sách dữ liệu khảo sát - Luận văn thạc sĩ Hệ thống thông tin quản lý: Nghiên cứu và áp dụng kỹ thuật khai phá dữ liệu trong việc xác định các nhân tố tác động đến quyết định chọn ngành học của thí sinh đại học
Hình 3.1 Danh sách dữ liệu khảo sát (Trang 44)
Hình 3.13: Cây quyết định - Luận văn thạc sĩ Hệ thống thông tin quản lý: Nghiên cứu và áp dụng kỹ thuật khai phá dữ liệu trong việc xác định các nhân tố tác động đến quyết định chọn ngành học của thí sinh đại học
Hình 3.13 Cây quyết định (Trang 53)
Hình 3.17: Heatmap của Medoids - Luận văn thạc sĩ Hệ thống thông tin quản lý: Nghiên cứu và áp dụng kỹ thuật khai phá dữ liệu trong việc xác định các nhân tố tác động đến quyết định chọn ngành học của thí sinh đại học
Hình 3.17 Heatmap của Medoids (Trang 56)
Hình 3.22: Cây quyết đinh cụm 1 - Luận văn thạc sĩ Hệ thống thông tin quản lý: Nghiên cứu và áp dụng kỹ thuật khai phá dữ liệu trong việc xác định các nhân tố tác động đến quyết định chọn ngành học của thí sinh đại học
Hình 3.22 Cây quyết đinh cụm 1 (Trang 61)
Hình 3.24: Cây quyết đinh cụm 2 - Luận văn thạc sĩ Hệ thống thông tin quản lý: Nghiên cứu và áp dụng kỹ thuật khai phá dữ liệu trong việc xác định các nhân tố tác động đến quyết định chọn ngành học của thí sinh đại học
Hình 3.24 Cây quyết đinh cụm 2 (Trang 63)
Hình 3.26: Cây quyết đinh cụm 3 - Luận văn thạc sĩ Hệ thống thông tin quản lý: Nghiên cứu và áp dụng kỹ thuật khai phá dữ liệu trong việc xác định các nhân tố tác động đến quyết định chọn ngành học của thí sinh đại học
Hình 3.26 Cây quyết đinh cụm 3 (Trang 65)
Hình 3.28: Cây quyết đinh cụm 4 - Luận văn thạc sĩ Hệ thống thông tin quản lý: Nghiên cứu và áp dụng kỹ thuật khai phá dữ liệu trong việc xác định các nhân tố tác động đến quyết định chọn ngành học của thí sinh đại học
Hình 3.28 Cây quyết đinh cụm 4 (Trang 67)
Hình 3.30: Cây quyết đinh cụm 5 - Luận văn thạc sĩ Hệ thống thông tin quản lý: Nghiên cứu và áp dụng kỹ thuật khai phá dữ liệu trong việc xác định các nhân tố tác động đến quyết định chọn ngành học của thí sinh đại học
Hình 3.30 Cây quyết đinh cụm 5 (Trang 69)
Hình 3.36: Cây quyết đinh cụm 7 - Luận văn thạc sĩ Hệ thống thông tin quản lý: Nghiên cứu và áp dụng kỹ thuật khai phá dữ liệu trong việc xác định các nhân tố tác động đến quyết định chọn ngành học của thí sinh đại học
Hình 3.36 Cây quyết đinh cụm 7 (Trang 73)
Hình 3.37: Cây quyết đinh cụm 8 - Luận văn thạc sĩ Hệ thống thông tin quản lý: Nghiên cứu và áp dụng kỹ thuật khai phá dữ liệu trong việc xác định các nhân tố tác động đến quyết định chọn ngành học của thí sinh đại học
Hình 3.37 Cây quyết đinh cụm 8 (Trang 75)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w