1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân tích yếu tố ảnh hưởng quan trọng đến nâng cao chất lượng giảng dạy bằng data mining áp dụng với dữ liệu tại khoa kỹ thuật công nghệ trường đại học thủ dầu một

39 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 39
Dung lượng 849,57 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

UBND TỈNH BÌNH DƢƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT NGUYỄN THẾ BẢO PHÂN TÍCH YẾU TỐ ẢNH HƯỞNG QUAN TRỌNG ĐẾN NÂNG CAO CHẤT LƯỢNG GIẢNG DẠY BẰNG DATA MINING – ÁP DỤNG VỚI DỮ LIỆU TẠI KHOA KỸ THUẬT – CÔNG N.

Trang 2

UBND TỈNH BÌNH DƯƠNG

TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT

NGUYỄN THẾ BẢO

PHÂN TÍCH YẾU TỐ ẢNH HƯỞNG QUAN TRỌNG ĐẾN NÂNG CAO

CHẤT LƯỢNG GIẢNG DẠY BẰNG DATA MINING –

ÁP DỤNG VỚI DỮ LIỆU TẠI KHOA KỸ THUẬT – CÔNG NGHỆ

TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT

CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN

MÃ SỐ: 8480104

LUẬN VĂN THẠC SỸ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS LÊ TUẤN ANH

BÌNH DƯƠNG, năm 2019

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu, kết quả nêu trong Luận văn là trung thực và chƣa từng đƣợc ai công bố trong bất kỳ công trình nào khác

Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này đã đƣợc cảm

ơn và các thông tin trích dẫn trong Luận văn đã đƣợc chỉ rõ nguồn gốc

Học viên thực hiện đề tài Nguyễn Thế Bảo

Trang 4

ii

LỜI CẢM ƠN

Để có thể hoàn thành Luận văn này, tôi xin gửi lời cảm ơn chân thành tới PGS.TS Lê Tuấn Anh Thầy đã tận tình giảng dạy, hướng dẫn giúp tôi tiếp cận việc nghiên cứu của mình Thầy đã luôn tận tâm động viên, khuyến khích và chỉ dẫn giúp tôi hoàn thành được luận văn này

Bên cạnh đó, tôi xin gửi lời cảm ơn tới quý Thầy/Cô, các bạn sinh viên ở Khoa Kỹ thuật – Công nghệ, Trường Đại học Thủ Dầu Một đã hỗ trợ trong quá trình khảo sát dữ liệu Đặc biệt xin gửi lời cảm ơn tới Thạc sĩ Hồ Đắc Hưng đã nhiệt tình giúp đỡ trong quá trình thực hiện luận văn này

Học viên thực hiện đề tài Nguyễn Thế Bảo

Trang 5

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

MỤC LỤC iii

DANH MỤC BẢNG v

DANH MỤC HÌNH, ĐỒ THỊ vi

DANH MỤC CHỮ VIẾT TẮT vii

MỞ ĐẦU 1

CHƯƠNG 1. TỔNG QUAN 2

1.1 Giới thiệu 2

1.2 Khai phá dữ liệu 2

1.3 Mục tiêu của luận văn 5

1.4 Đối tượng nghiên cứu và phạm vi nghiên cứu 5

CHƯƠNG 2 CÁC NGHIÊN CỨU LIÊN QUAN 6

2.1 Khai phá dữ liệu giáo dục 6

2.2 Một số phương pháp khai phá dữ liệu được sử dụng trong luận văn 8

Cây quyết định 8

2.2.1 Naive Bayes 8

2.2.2 Support Vector Machine (SVM) 9

2.2.3 k-NN 9

2.2.4 Multilayer Perceptron 10

2.2.5 Bảng quyết định (Decision Table) 11

2.2.6 2.3 Tiêu chí đánh giá đặc trưng 11

Xếp hạng đặc trưng dựa vào độ tương quan (Correlation-based) (CB) 11

2.3.1 Xếp hạng đặc trưng dựa vào Info Gain (IG) 11

2.3.2 Xếp hạng đặc trưng dựa vào Gain Ratio (GR) [7] [9] 12

2.3.3 Xếp hạng đặc trưng OneR (OneR) 13

2.3.4 CHƯƠNG 3. XÂY DỰNG MÔ HÌNH 14

3.1 Mô hình 14

3.2 Thiết kế câu hỏi khảo sát 14

3.3 Lựa chọn đặc trưng 17

3.4 Áp dụng các phương pháp khai phá dữ liệu 18

Trang 6

iv

CHƯƠNG 4.ĐÁNH GIÁ KẾT QUẢ 19

4.1 Thực nghiệm 19

4.2 Đánh giá kết quả thực nghiệm 22

Khai phá dữ liệu với tập dữ liệu chưa rút trích đặc trưng (B1) 22

4.2.1 Khai phá dữ liệu với tập dữ liệu đã rút trích đặc trưng (B2) 22

4.2.2 So sánh các kết quả xây dựng mô hình từ tập dữ liệu ban đầu và tập dữ 4.2.3 liệu đã được trích chọn đặc trưng (B3) 24

Thử nghiệm trên dữ liệu của từng giảng viên 25

4.2.4 KẾT LUẬN VÀ KIẾN NGHỊ 28

TÀI LIỆU THAM KHẢO 29

Trang 7

DANH MỤC BẢNG

Bảng 3.1: Câu hỏi khảo sát 15

Bảng 4.1: Chi tiết tập dữ liệu 21

Bảng 4.2: Kết quả khai phá dữ liệu với tập dữ liệu chưa rút trích đặc trưng 22

Bảng 4.3: Sáu đặc trưng có ảnh hưởng nhất theo từng thuật toán xếp hạng 23

Bảng 4.4: Bốn đặc trưng có ít ảnh hưởng nhất theo từng thuật toán xếp hạng 23

Bảng 4.5: Độ chính xác của các mô hình khi khai phá dữ liệu với tập dữ liệu đã rút gọn đặc trưng 24

Bảng 4.6: Thời gian khi mô hình khi khai phá dữ liệu với tập dữ liệu đã rút gọn đặc trưng 24

Bảng 4.7: So sánh độ chính xác, thời gian thực thi khi áp dụng các thuật toán khai phá dữ liệu với tập dữ liệu ban đầu và tập dữ liệu đã rút gọn đặc trưng bằng OneR 25

Bảng 4.8 Độ chính xác (%) khi khai phá dữ liệu với tập dữ liệu GV1 26

Bảng 4.9: Thời gian thực thi khi khai phá dữ liệu với tập dữ liệu GV1 26

Bảng 4.10: Độ chính xác (%) khi khai phá dữ liệu với tập dữ liệu GV2 27

Bảng 4.11: Thời gian thực thi khi khai phá dữ liệu với tập dữ liệu GV2 27

Trang 8

vi

DANH MỤC HÌNH, ĐỒ THỊ

Hình 1.1: Quá trình khám phá tri thức [7] 3

Hình 2.1: Mạng nơ-ron truyền thẳng nhiều lớp [17] 10

Hình 3.1: Quá trình thực hiện 14

Hình 4.1: Lưu đồ thực nghiệm 20

Trang 9

DANH MỤC CHỮ VIẾT TẮT

AUN ASEAN University Network Hệ thống đại học ASEAN

AUN-QA ASEAN University Network –

Quality Assurance EDM Education Data Mining Khai phá dữ liệu trong giáo

dục

Optimization

Trang 10

1

MỞ ĐẦU

Việc đảm bảo, cải thiện chất lượng là một yếu tố sống còn đối với bất kỳ tổ chức nào, các cơ sở giáo dục đại học cũng không phải là ngoại lệ Nâng cao chất lượng đào tạo là nhiệm vụ quan trọng hàng đầu, là hướng đi mà các trường hướng tới

để có thể nâng tầm của mình, sánh vai với các trường trên thế giới Trường Đại học Thủ Dầu Một đang tập trung hoàn thiện lộ trình xây dựng chương trình đào tạo, đổi mới phương pháp giảng dạy theo sáng kiến CDIO, đáp ứng chuẩn kiểm định trong và ngoài nước, nên đảm bảo chất lượng là một nhiệm vụ quan trọng mà các Khoa, Chương trình đào tạo phải thực hiện

Data mining (Khai phá dữ liệu) là công cụ mạnh mẽ trong việc tìm kiếm thông tin hữu ích từ dữ liệu Khai phá dữ liệu được sử dụng để khám phá tri thức trong hầu hết các lĩnh vực của đời sống xã hội Áp dụng khai phá dữ liệu vào lĩnh vực giáo dục cũng rất được quan tâm ở những năm gần đây Cùng với sự gia tăng của các tài nguyên học tập điện tử, các phần mềm hỗ trợ học tập và sự kết nối internet trong giáo dục đã tạo ra một lượng lớn dữ liệu giáo dục Tùy vào nhu cầu của mình mà các cơ

sở giáo dục có phân tích đánh giá dữ liệu của riêng mình, từ đó hỗ trợ cho việc ra quyết định Ở các cơ sở giáo dục đại học, việc áp dụng khai phá dữ liệu để phân tích tìm ra các yếu tố ảnh hưởng đến chất lượng giáo dục từ đó có biện pháp cải thiện, nâng cao chất lượng giáo dục là một việc làm cần thiết

Trong đề tài này, chúng tôi sử dụng các phương pháp khai phá dữ liệu kết hợp với các phương pháp xếp hạng đặc trưng áp dụng vào dữ liệu khảo sát được, so sánh kết quả xây dựng mô hình trước và sau khi rút trích đặc trưng để xác định yếu tố nào ảnh hưởng quan trọng tới kết quả học tập của sinh viên tại Khoa Kỹ thuật Công nghệ, Trường Đại học Thủ Dầu Một

Luận văn này được chia làm 4 Chương: Chương 1 – Giới thiệu tổng quan về Đảm bảo chất lượng, cải thiện chất lượng tại cơ sở giáo dục đại học và quá trình Khám phá tri thức; mục tiêu và đối tượng nghiện cứu của đề tài Chương 2 – Giới thiệu về khai phá dữ liệu trong giáo dục và các nghiên cứu liên quan Chương 3 – Đề xuất mô hình và quá trình thực hiện Chương 4 – Các thực nghiệm trong luận văn

Trang 11

CHƯƠNG 1 TỔNG QUAN

1.1 Giới thiệu

Việc đảm bảo, cải thiện chất lượng là một yếu tố sống còn đối với bất kỳ tổ chức nào, các cơ sở giáo dục đại học cũng không phải là ngoại lệ Để có thể tồn tại và phát triển thì các cơ sở giáo dục đại học cần phải khẳng định được chất lượng đào tạo Đảm bảo chất lượng là mối quan tâm hàng đầu của các cơ sở giáo dục đại học hiện nay Theo Hệ thống các trường Đại học Đông Nam Á (ASEAN Network University – AUN), “Chất lượng” là sự phù hợp với mục tiêu và là sự điều chỉnh hợp lý giữa yêu cầu của các thành phần liên quan, chuyển tải thành công các yêu cầu đó vào mục tiêu đào tạo và đạt được mục tiêu đó [5] vì vậy việc đảm bảo chất lượng tại các cơ sở giáo dục đại học phải gắn liền với hoạt động khảo sát các bên liên quan Các bên liên quan bao gồm: Nhà nước, Doanh nghiệp, Nhà tuyển dụng, Ban giám hiệu, Giảng viên, Nhân viên hỗ trợ, Sinh viên, Cựu sinh viên,…

Trường Đại học Thủ Dầu Một đang tập trung hoàn thiện lộ trình xây dựng chương trình đào tạo, đổi mới phương pháp giảng dạy theo sáng kiến CDIO, đáp ứng chuẩn AUN-QA, nên đảm bảo chất lượng là một nhiệm vụ quan trọng mà các Khoa, Chương trình đào tạo phải thực hiện.Việc xác định được các yếu tố ảnh hưởng quan trọng tới việc kết quả học tập của sinh viên góp phần vào quá trình cải tiến chất lượng Từ đó, đưa ra giải pháp thực hiện phù hợp là việc làm cần thiết để nâng cao chất lượng đào tạo Do đó việc khảo sát ý kiến các bên liên quan từ đó sử dụng các

kỹ thuật khai phá dữ liệu để phân tích, đánh giá tìm ra các thông tin hữu ích sẽ giúp cho việc hỗ trợ ra các quyết định

1.2 Khai phá dữ liệu

Khai phá dữ liệu [7] là công cụ mạnh mẽ trong cuộc cách mạng trí tuệ nhân tạo Trong khi lượng dữ liệu không ngừng gia tăng, ngày càng áp đảo chúng ta với lượng lớn dữ liệu được tạo ra, thì khả năng hiểu biết của con người về nó lại giảm đi Nằm

ẩn bên trong dữ liệu là các thông tin hữu ích mà hiếm khi được làm sáng tỏ hay sử dụng đúng cách Khai phá dữ liệu để làm sáng tỏ các mô hình, phân tích dữ liệu thông minh là một nguồn tài nguyên vô cùng quý giá Nó có thể dẫn đến những hiểu biết mới, các thông tin có giá trị Khai phá dữ liệu là giải quyết các vấn đề bằng cách phân tích dữ liệu đã có Ví dụ các siêu thị có thể thu thập thông tin mua hàng của

Trang 12

Khai phá dữ liệu được định nghĩa là quá trình khám phá các mẫu dữ liệu một cách tự động Các mẫu được khai phá phải mang thông tin hữu ích để có thể tạo ra lợi thế, thông thường là lợi thế trong kinh doanh Dựa vào các mẫu hữu ích để có thể đưa

ra các dự đoán cho dữ liệu mới

Quá trình khám phá tri thức được thể hiện như Hình 1.1

Khai phá dữ liệu

Các mẫu

Đánh giá các mẫu

Nguồn Dữ liệu

Kho dữ liệu

Dữ liệu đã được tiền xử lý

Dữ liệu đã được chuyển đổi

Tri thức

Trang 13

Quá trình khám phá tri thức là một quá trình lặp đi lặp lại gồm các bước :

 Lựa chọn dữ liệu: phụ thuộc vào bài toán cần phân tích

 Tiền xử lý: làm sạch dữ liệu, tích hợp dữ liệu

 Chuyển đổi dữ liệu về dạng phù hợp, thuận lợi cho việc khai phá

 Khai phá dữ liệu

 Đánh giá các mẫu (xây dựng mô hình)

 Biểu diễn tri thức Trong quá trình phát hiện tri thức, khai phá dữ liệu là một bước chủ yếu trong quá trình đó có nhiệm vụ tạo ra các mẫu mới trong từ dữ liệu đã được xử lý và chuyển dạng Tùy vào miền ứng dụng, mục đích và nhiệm vụ khác nhau để sử dụng các phương pháp khai phá khác nhau Các nhóm bài toán chính của Khai phá dữ liệu: Bài toán phân loại (phân lớp - Classification): đây là bài phổ biến

trong khai phá dữ liệu Phân loại là việc xây dựng mô hình nhằm mô tả hay phát hiện lớp cho các dự báo tiếp theo Ví dụ phân lớp một văn bản vào một lớp văn bản đã biết, hoặc phân loại một email có phải là email spam hay không,… Các thuật toán sử dụng trong bài toán phân loại: Cây quyết định (Decision tree), Mạng nơ-ron, Luật kết hợp,…

Bài toán phân cụm (Clustering): Bài toán phân cụm hay còn gọi là

phân đoạn Điểm khác với bài toán phân loại là ở đây các nhãn lớp chưa biết và không có huấn luyện Các đối tượng được phân loại dựa trên các thuộc tính tương đồng giữa chúng Bài toán phân lớp hay còn gọi là học không có giám sát

Hồi quy (Regression): đây là bài toán điển hình trong thống kê và dự

báo, trong đó tiến hành dự đoán giá trị của một hoặc một số biến phụ thuộc vào giá trị của một tập hợp các biến độc lập Việc dự báo các giá trị số thường được làm bởi các phương pháp thống kê cổ điển, chẳng hạn như hồi quy tuyến tính Tuy nhiên, phương pháp mô hình hoá cũng được sử dụng, ví dụ: cây quyết định

Mô hình phụ thuộc (Dependency modeling): hướng tới việc tìm kiếm

mô hình mô tả sự phụ thuộc có ý nghĩa giữa các biến

Phát hiện biến đổi và độ lệch (Change and Deviation Dectection):

tập trung vào việc phát hiện sự thay đổi có ý nghĩa dưới dạng độ đo đã biết trước hoặc giá trị chuẩn, cung cấp những tri thức về sự biến đổi và độ lệch cho người dùng

Trang 14

5

1.3 Mục tiêu của luận văn

Mục tiêu của luận văn là xác định yếu tố ảnh hưởng quan trọng đến kết quả học tập của sinh viên nhóm ngành Công nghệ thông tin (Kỹ thuật Phần mềm và Hệ thống Thông tin) tại Khoa Kỹ thuật Công nghệ, Trường Đại học Thủ Dầu Một

1.4 Đối tượng nghiên cứu và phạm vi nghiên cứu

Đối tượng nghiên cứu các yếu tố ảnh hưởng đến kết quả học tập của sinh viên nhóm ngành Công nghệ thông tin và các thuật toán của khai phá dữ liệu (Decision Table (bảng quyết định), J48 (cây quyết định), Multilayer Perceptron, Naive Bayes, SMO và kNN) và các thuật toán rút trích đặc trưng

Phạm vi nghiên cứu: sinh viên nhóm ngành Công nghệ thông tin (Kỹ thuật Phần mềm và Hệ thống Thông tin) tại Khoa Kỹ thuật – Công nghệ, Trường Đại học Thủ Dầu Một

Trong chương này, luận văn đã giới thiệu tổng quan về cải thiện, đảm bảo chất lượng, cũng như công tác đảm bảo chất lượng tại Trường đại học Thủ Dầu Một nói chung và Khoa Kỹ thuật công nghệ nói riêng Bên cạnh đó, chương này còn giới thiệu tổng quan về quá trình khám phá tri thức, các vấn đề liên quan đến khai phá dữ liệu, các ứng dụng của khai phá dữ liệu Đồng thời trong chương này đã trình bày mục tiêu, đối tượng nghiên cứu của đề tài

Trong chương tiếp theo sẽ trình bày các nghiên cứu liên quan, các kỹ thuật của khai phá dữ liệu, các thuật toán xếp hạng đặc trưng được áp dụng vào luận văn này

Trang 15

CHƯƠNG 2 CÁC NGHIÊN CỨU LIÊN QUAN

Tổng quát về khai phá dữ liệu vào giáo dục, các nghiên cứu liên quan trong và ngoài nước, các phương pháp khai phá dữ liệu và các phương pháp xếp hạng đặc trưng dùng trong luận văn được trình bày trong chương này

2.1 Khai phá dữ liệu giáo dục

Khai phá dữ liệu được áp dụng trong nhiều lĩnh vực khác nhau Trong những năm gần đây, cùng với sự gia tăng của các tài nguyên học tập điện tử, các phần mềm

hỗ trợ học tập và sự kết nối internet trong giáo dục đã tạo ra một lượng lớn dữ liệu giáo dục Các dữ liệu này là tài nguyên vô cùng giá trị để khai phá dữ liệu có thể khai thác Với lượng dữ liệu lớn đó, nó đã tạo ra một thách thức đối với các cơ sở giáo dục

đó là làm sao có thể khai thác được nguồn dữ liệu này, từ đó có áp dụng vào cơ sở của mình để cải thiện chất lượng

Khai phá dữ liệu trong giáo dục (EDM) [4] liên quan tới việc nghiên cứu, phát triển và áp dụng các phương pháp bằng máy tính để khám phá ra các mẫu quan trọng

từ khối dữ liệu giáo dục khổng lồ EDM đã nổi lên như một lĩnh vực nghiên cứu độc lập, bắt đầu với nghiên cứu về hệ thống gia sư thông minh, trí tuệ nhân tạo trong giáo dục Hội thảo đầu tiên, được giới thiệu biết đến là “Khai thác dữ liệu giáo dục”, đã diễn ra vào năm 2005 và đến năm 2008 đã được nâng lên thành Hội nghị quốc tế thường niên về giáo dục Từ đó đến nay các Hội nghị được diễn ra hàng năm Hội nghị EDM lần thứ 11 năm 2018, diễn ra tại Đại học Buffalo NewYork từ ngày 15-18 tháng 07 năm 2018

Khai thác dữ liệu giáo dục là khai thác các bộ dữ liệu để trả lời các câu hỏi nghiên cứu giáo dục làm sáng tỏ quá trình học tập Các bộ dữ liệu này có thể bắt nguồn từ nhiều bối cảnh học tập, bao gồm hệ thống quản lý học tập, môi trường học tập tương tác, hệ thống trợ giảng thông minh Mục tiêu bao trùm của Khai thác dữ liệu giáo dục là hỗ trợ người học tốt hơn bằng cách phát triển sự hiểu biết dựa trên dữ liệu về quá trình học tập trong nhiều loại bối cảnh và nhiều người học khác nhau Khai phá dữ liệu được áp dụng thành công trong nhiều lĩnh vực khác nhau như y

tế, kinh doanh, di truyền học,…mặc dù phương pháp có thể giống nhau nhưng mục đích là khác nhau Ví dụ khi so sánh mục đích giữa kinh doanh và giáo dục, trong khi kinh doanh hướng đến lợi nhuận, lợi nhuận là thứ có thể đo đếm được thông qua thứ

Trang 16

7

hữu hình như là tổng doanh thu hoặc là thơng qua trung gian như là sự hài lịng của khách hàng Trong khi mục đích của giáo dục là cải thiện chất lượng giảng dạy – rất khĩ để đo đếm được Một cách tổng quát, khai phá dữ liệu trong giáo dục phải tạo ra được thơng tin cĩ tính định hướng hỗ trợ cho quá trình ra quyết định để cải thiện quá trình giảng dạy và học tập hiện nay Tuy nhiên, việc áp dụng khai phá dữ liệu vào giáo dục cịn phụ thuộc rất nhiều vào tình hình thực tế tại các sơ sở giáo dục

Ở nghiên cứu [1], [2] Nguyễn Thái Nghe và cộng sự đã sử dụng Kỹ thuật phân rã

ma trận để dự đốn kết quả học tập của sinh viên tại Trường đại học Cần Thơ Các tác giả kết hợp xây dựng ứng dụng từ đĩ giúp sinh viên lập kế hoạch học tập phù hợp Việc xác định được kế hoạch học tập phù hợp sẽ giúp sinh viên và nhà trường tránh được sự lãng phí về nhiều mặt

Ở nghiên cứu [3] đã sử dụng nhiều phương pháp khai phá dữ liệu như Cây quyết định (J48), Mạng nơ-ron nhiều lớp (Multilayer Perceptron), phương pháp Nạve Bayes và phương pháp SMO (Sequential Minimal Optimization) để dự đốn kết quả học tập của sinh viên dựa vào tập dữ liệu thu thập được tại Đại học Gazi ở Ankara, Thổ Nhĩ Kỳ Các tác giả đã so sánh độ chính xác giữa các thuật tốn khi áp dụng vào tập dữ liệu thu thập được

Sử dụng các phương pháp học máy [12] để dự đốn kết học tập của học viên cao học ở Đại học Ionia (Hoa Kỳ) dựa vào kiến thức nền và mức độ đáp ứng ở giữa kỳ của học viên Từ đĩ, phân loại được các nhĩm học viên để giúp giảng viên cĩ kế hoạch giảng dạy phù hợp

Lựa chọn đặc trưng là việc làm quan trọng đối với khai phá dữ liệu, dữ liệu ban đầu cĩ thể chứa rất nhiều thuộc tính nhưng khơng phải tất cả đều cĩ liên quan tới việc khai phá Nghiên cứu [11] đã so sánh kết quả phân tích dữ liệu trước và sau khi sử dụng các phương pháp lựa chọn đặc trưng bằng cơng cụ WEKA [12] Kết quả chỉ ra rằng phương pháp phân loại khi kết hợp với lựa chọn đặc trưng sẽ cho kết quả khả quan hơn

Trong luận văn này, chúng tơi kết hợp phương pháp lựa chọn đặc trưng và các phương pháp khai phá dữ liệu như Bảng quyết định, Cây quyết định, Mạng nơ-ron nhiều lớp, phương pháp Nạve Bayes, phương pháp k-NN và phương pháp SMO để tiến hành phân tích dữ liệu

Trang 17

2.2 Một số phương pháp khai phá dữ liệu được sử dụng trong luận văn

Một cây quyết định là một cấu trúc hình cây, bao gồm:

Mỗi nút trong (nút có thể khai triển được) biểu thị cho một phép thử đối với một thuộc tính;

Mỗi nhánh biểu thị cho một kết quả của một phép thử;

Các nút lá (các nút không khai triển được) biểu thị các lớp hoặc các phân bố lớp;

Nút trên cùng trong một cây được gọi là gốc

Trên mỗi tập mẫu huấn luyện, về cơ bản các thuật toán phân lớp dữ liệu bằng cây quyết định phải thực hiện 2 bước sau:

Bước 1: Chọn thuộc tính A i có các giá trị 𝑎𝑖1,𝑎𝑖2,…,𝑎𝑖𝑛

Bước 2: Với thuộc tính A i được chọn, tạo một nút của cây và sau đó chia tập

mẫu này thành v tập mẫu D1, D2, …, D v tương ứng với v nút được tạo và sau đó lại

tiếp tục

Trong đó, Bước 2 là bước phân chia với kết quả nhận được từ Bước 1, điều

này có nghĩa là chất lượng của cây kết quả phụ thuộc phần lớn vào cách chọn thuộc tính và cách phân chia tập mẫu tại mỗi nút Chính vì điều này, các thuật toán đều phải tính lợi ích thông tin nhận được trên các thuộc tính và chọn thuộc tính tương ứng có lợi ích thông tin tốt nhất để làm nút phân tách trên cây, nhằm để đạt được cây có ít nút nhưng có khả năng dự đoán cao

Naive Bayes

2.2.2

Navie Bayes là giải thuật phân loại dựa vào xác suất được sử dụng rộng rãi trong lĩnh vực học máy Với giả sử rằng các thuộc tính hoàn toàn độc lập với nhau Thuật toán phân lớp bằng Navie Bayes dựa trên định lý Bayes được phát biểu như sau:

( ⁄ ) ( ( )⁄ ) ( ), (1)

Trang 18

9

trong đó: Y đại diện một giả thuyết, giả thuyết này được suy luận khi có được chứng

cứ mới X; P(X): xác suất X xảy ra; P(Y): xác suất Y xảy ra; P(X|Y): xác suất X xảy

ra khi Y xảy ra (xác suất có điều kiện, khả năng X khi Y đúng); P(Y|X): xác suất của

Y nếu biết X

Áp dụng trong bài toán phân loại, các dữ kiện cần có:

- D: tập dữ liệu huấn luyện, trong đó các phần tử đã được vector hoá dưới dạng =( x1, x2, … , xn )

Khi áp dụng với tập dữ liệu lớn, việc tính toán P(X|Ci) sẽ mất chi phí rất lớn

bằng giả định các thuộc tính x1, x2, …xn độc lập xác suất với nhau, nên có thể tính: ( ⁄ ) ∏ ( ⁄ ) ( ⁄ ) ( ⁄ ) ( ) (3)

khi đó với một phần tử chưa biết X mới có n thuộc tính, Xmới = {x1, x2, … xn} Bộ

phân lớp sẽ dự đoán rằng X mới sẽ thuộc về lớp với xác suất có điều kiện cao nhất:

Xmới Ci khi và chỉ khi ( ) > ( ) với 1 ≤ i ≤ m, i≠j (4)

Support Vector Machine (SVM)

2.2.3

SVM (Support Vector Machine) [7] là một thuật toán học máy có giám sát được sử dụng rất phổ biến ngày nay trong các bài toán phân lớp (classification) hay hồi qui (Regression) Ý tưởng của SVM là tìm một siêu phẳng (hyper plane) để phân tách các điểm dữ liệu Siêu phẳng này chia không gian thành các miền khác nhau và mỗi miền chứa một loại dữ liệu Mỗi siêu phẳng đều có thể được viết dưới dạng một tập hợp các điểm X thỏa mãn:

Trang 19

Thuật toán k-NN làm việc như thế nào ?

 Bước 1: Xác định tham số k = số láng giềng gần nhất

 Bước 2: Tính toán khoảng cách giữa mẫu thử và những mẫu huấn luyện

 Bước 3: Sắp xếp khoảng cách và xác định k khoảng cách nhỏ nhất

 Bước 4: Thu thập giá trị thuộc tính của k láng giềng gần nhất

 Bước 5: Sử dụng giá trị trung bình của k láng giềng gần nhất để phán đoán giá trị của đối tượng đang được phán đoán

Một nhược điểm của k-NN là rất chậm khi kích thước của tập dữ liệu tăng lên

ẩn Các nơ-ron đầu vào thực chất không phải các nơ-ron theo đúng nghĩa, bởi lẽ chúng không thực hiện bất kỳ một tính toán nào trên dữ liệu vào, đơn giản nó chỉ tiếp nhận các dữ liệu vào và chuyển cho các lớp kế tiếp Các nơ-ron ở lớp ẩn và lớp ra mới thực sự thực hiện các tính toán, kết quả được định dạng bởi hàm đầu ra (hàm chuyển) Cụm từ “truyền thẳng” (feed forward) liên quan đến một thực tế là tất cả các nơ-ron chỉ có thể được kết nối với nhau theo một hướng: tới một hay nhiều các nơ-ron khác trong lớp kế tiếp (loại trừ các nơ-ron ở lớp ra)

Hình 2.1: Mạng nơ-ron truyền thẳng nhiều lớp [17]

trong đó: P: Vector đầu vào (vector cột); Wi

: Ma trận trọng số của các nơ-ron lớp thứ i; (Si x Ri : S hàng (nơ-ron) - R cột (số đầu vào)); bi : Vector độ lệch (bias) của lớp

Ngày đăng: 10/08/2022, 13:18

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[5] Facilitators notes – Guide to AUN-QA Assessment at Programme Level, Version 3 Sách, tạp chí
Tiêu đề: Facilitators notes – Guide to AUN-QA Assessment at Programme Level, Version 3
[6] PDCA, https://en.wikipedia.org/wiki/PDCA. Truy cập ngày 14/01/2019 Link
[12] Weka 3, https://www.cs.waikato.ac.nz/ml. Truy cập ngày 10/12/2018 Link
[1] Huỳnh L. Thanh Nhàn, Nguyễn Thái Nghe. 2013a. Hệ thống dự đoán kết quả học tập và gợi ý lựa chọn môn học. Kỷ yếu hội thảo quốc gia lần thứ XVI: Một số vấn đề chọc lọc của CNTT&TT (@2013), trang 110-118. Nhà xuất bản Khoa học kỹ thuật. ISBN: 987-604-67-0251-1 Khác
[2] Huỳnh L. Thanh Nhàn và Nguyễn Thái Nghe. 2013b. Hệ thống dự đoán kết quả học tập của sinh viên sử dụng thƣ viện hệ thống gợi ý mã nguồn mở MYMEDIALITE. Kỷ yếu Hội thảo toàn quốc về CNTT năm 2013. Trang 192-201.NXB Đại học Cần Thơ. ISBN: 978-604-919-012-4 Khác
[3] Ahmed Mohamed Ahmed, Ahmet Rizaner, Ali Hakan Ulusoy, Using data mining to predict instructor performance, International Conference on Application of Fuzzy Systems and Soft Computing, ICAFS 2016, Procedia Computer Science 102 ( 2016 ) 137 – 142 Khác
[4] Cristobal Romero and Sebastian Ventura, Data mining in education, WIREs Data Mining Knowl Discovery, vol 3, pp. 12–27, 2013 Khác
[7] Ian H. Witten, Eibe Frank, Data mining – Practical Machine Learning Tools and Techniques, Morgan Kaufman, 2005 Khác
[9] Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy, Giáo trình Khai phá dữ liệu, NXB ĐHQG Hà Nội, 2013 Khác
[10] K.Sutha, J. Jebamalar Tamilselvi, A Review of Feature Selection Algorithms for Data Mining Techniques, International Journal on Computer Science and Engineering (IJCSE), page: 63-67 (2015), ISSN: 0975-3397 Khác
[11] Gnanambal S, Thangaraj M, Meenatchi V.T, Gayathri V, Classification Algorithms with Attribute Selection: an evaluation study using WEKA, Int. J.Advanced Networking and Applications, Volume: 09 Issue: 06 Pages: 3640-3644 (2018) ISSN: 0975-0290 Khác
[15] Robert C. Holte, Very Simple Classification Rules Perform Well on Most Commonly Used Datasets, Machine Learning, 11, 63-91 (1993) Khác
[16] Hoàng Mạnh Dũng, Hoàng Thị Thanh Nhàn, Đo lường sự hài lòng của sinh viên hệ chính quy đối với chất lượng đào tạo tại Trường Đại học Thủ Dầu Một - năm 2017, Tạp chí Đại học Thủ Dầu Một, số 36 (2018), trang 99-107, ISSN: 1859-4433 Khác

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w