Khai phá dữ liệu và ứng dụng trong dự báo tiến trình học tập của sinh viên đại học thủy lợi

Khai phá dữ liệu và ứng dụng trong dự báo tiến trình học tập của sinh viên đại học Thủy LợiKhai phá dữ liệu và ứng dụng trong dự báo tiến trình học tập của sinh viên đại học Thủy LợiKhai phá dữ liệu và ứng dụng trong dự báo tiến trình học tập của sinh viên đại học Thủy LợiKhai phá dữ liệu và ứng dụng trong dự báo tiến trình học tập của sinh viên đại học Thủy LợiKhai phá dữ liệu và ứng dụng trong dự báo tiến trình học tập của sinh viên đại học Thủy LợiKhai phá dữ liệu và ứng dụng trong dự báo tiến trình học tập của sinh viên đại học Thủy Lợi

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

-

NGUYỄN XUÂN HẢI

KHAI PHÁ DỮ LIỆU

VÀ ỨNG DỤNG TRONG DỰ BÁO TIẾN TRÌNH HỌC TẬP

CỦA SINH VIÊN ĐẠI HỌC THỦY LỢI

LUẬN VĂN THẠC SĨ KỸ THUẬT

(Theo định hướng ứng dụng)

HÀ NỘI - 2016

Trang 2

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

-

NGUYỄN XUÂN HẢI

KHAI PHÁ DỮ LIỆU

VÀ ỨNG DỤNG TRONG DỰ BÁO TIẾN TRÌNH HỌC TẬP

CỦA SINH VIÊN ĐẠI HỌC THỦY LỢI

CHUYÊN NGÀNH : KHOA HỌC MÁY TÍNH

Trang 3

i

LỜI CAM ĐOAN

Tôi cam đoan đây là công trình nghiên cứu của riêng tôi

Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất cứ công trình nào

TÁC GIẢ

Nguyễn Xuân Hải

Trang 4

ii

LỜI CÁM ƠN

Trước hết, tôi xin được bày tỏ lòng biết ơn và gửi lời cám ơn chân thành đến

TS Nguyễn Đình Hóa - người hướng dẫn khoa học, đã tận tình chỉ bảo và hướng dẫn tôi tìm ra hướng nghiên cứu, tiếp cận thực tế, tìm kiếm tài liệu, xử lý và phân tích số liệu, giải quyết vấn đề… Ngoài ra, trong quá trình học tập, nghiên cứu và thực hiện đề tài tôi còn nhận được nhiều sự quan tâm, góp ý, hỗ trợ quý báu của quý thầy cô, đồng nghiệp, bạn bè và người thân… nhờ đó tôi mới có thể hoàn thành luận văn cao học của mình

Tôi xin bày tỏ lòng biết ơn sâu sắc đến: Cha mẹ và những người thân trong gia đình đã hỗ trợ, tạo điều kiện thuận lợi cho tôi trong suốt thời gian qua và đặc biệt trong thời gian tôi theo học khóa thạc sỹ; Các Quý thầy cô tại Học viện Công nghệ Bưu chính Viễn thông đã truyền đạt cho tôi những kiến thức bổ ích trong suốt hai năm học vừa qua; Ban Giám hiệu, các Phòng chức năng và đặc biệt là Phòng Đào tạo ĐH&SĐH – Trường Đại học Thủy lợi đã tạo điều kiện tối đa cho tôi được học tập, nghiên cứu trong suốt thời gian qua

Trong quá trình nghiên cứu của mình, mặc dù được sự hướng dẫn rất nhiệt tình, nghiêm túc của TS Nguyễn Đình Hóa và các thầy cô giáo trong Học viện Công nghệ Bưu Chính Viễn thông, Đại học Thủy lợi cùng với sự nỗ lực của cá nhân nhưng cũng không thể tránh được những thiếu sót Tác giả chân thành mong nhận được những ý kiến đóng góp từ quý Thầy, Cô và các bạn bè đồng nghiệp

Trân trọng cám ơn

Tác giả

Nguyễn Xuân Hải

Trang 5

iii

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CÁM ƠN………ii

MỤC LỤC….……….…iii

DANH MỤC TỪ VIẾT TẮT v

DANH MỤC CÁC BẢNG BIỂU vi

DANH MỤC CÁC HÌNH VẼ vii

MỞ ĐẦU……… ………1

Tính cấp thiết của đề tài 1

Tổng quan về vấn đề nghiên cứu 2

Mục đích, đối tượng, phạm vi và phương pháp nghiên cứu 2

Cấu trúc luận văn 3

CHƯƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU TRONG BÀI TOÁN DỰ BÁO 4

1.1 Tổng quan về khai phá dữ liệu 4

1.2 Một số phương pháp khai phá dữ liệu 6

Phân lớp (Classification) 6

Phân cụm (Clustering) 7

Luật kết hợp (Association Rules) 7

1.3 Tổng quan về bài toán dự báo 7

Khái niệm cơ bản 7

Đặc điểm của bài toán dự báo 8

Các phương pháp đánh giá cho bài toán phân lớp, dự báo 10

1.4 Một số kỹ thuật khai phá dữ liệu trong bài toán dự báo/phân lớp 11

Các phương pháp cây quyết định 11

Các phương pháp K-láng giềng gần nhất 12

Các phương pháp dựa trên luật 13

Các phương pháp Bayes «ngây thơ» và mạng tin cậy Bayes 14

1.5 Kết luận chương 1 14

CHƯƠNG 2 KHAI PHÁ DỮ LIỆU VÀ CÁC CÔNG CỤ HỌC MÁY 16

2.1 Cây quyết định 16

Tổng quan về cây quyết định 16

Cấu trúc của cây quyết định 17

Xây dựng cây quyết định 18

Biến đổi cây quyết định thành luật 22

Một số thuật toán xây dựng cây quyết định 22

Trang 6

iv

2.2 K Láng giềng gần nhất 41

2.2.1 Tổng quan về K láng giềng gần nhất 41

2.2.2 Thuật toán K láng giềng gần nhất 41

CHƯƠNG 3 DỰ BÁO TIẾN TRÌNH HỌC TẬP CỦA SINH VIÊN ĐẠI HỌC THỦY LỢI……… …53

3.1 Giới thiệu bài toán 53

3.2 Phân tích và xây dựng mô hình bài toán 53

Phân tích bài toán 53

Mô hình bài toán 54

3.3 Thực nghiệm 59

Phương pháp đánh giá tập dữ liệu 59

Các độ đo được dùng để dự báo 59

Mô hình dự báo tiến trình học tập của sinh viên 60

3.4 Đánh giá thuật toán 64

KẾT LUẬN……… ………67

TÀI LIỆU THAM KHẢO 69

PHỤ LỤC……… ………70

PHỤ LỤC 1 KẾT QUẢ DỰ BÁO TIẾN TRÌNH HỌC TẬP VỚI GIẢI THUẬT CÂY QUYẾT ĐỊNH ID3 70

PHỤ LỤC 2 KẾT QUẢ DỰ BÁO TIẾN TRÌNH HỌC TẬP VỚI GIẢI THUẬT CÂY QUYẾT ĐỊNH C4.5 76

PHỤ LỤC 3 KẾT QUẢ DỰ BÁO TIẾN TRÌNH HỌC TẬP VỚI GIẢI THUẬT K LÁNG GIỀNG GẦN NHẤT 83

Trang 7

5 GD&ĐT Giáo dục và Đào tạo

(K láng giềng gần nhất)

(Quy trình khám phá tri thức trong cơ sở dữ liệu)

(Đánh giá chéo dựa trên k phần)

10 TBTLDK Điểm trung bình tích lũy đến kỳ

12 TCTLDK Tổng số tín chỉ tích lũy đến kỳ

13 TCTLK Tổng số tín chỉ tích lũy kỳ

Trang 8

vi

DANH MỤC CÁC BẢNG BIỂU

Bảng 2.1 Tập mẫu huấn luyện chơi đá bóng (1) 24

Bảng 2.4 Tỷ lệ Gain cho thuộc tính Độ ẩm ở lần tạo cây thứ nhất 34

Bảng 2.5 Tỷ lệ Gain cho thuộc tính Độ ẩm ở lần tạo cây thứ hai 37

Bảng 2.6 Chuẩn hóa Min – Max, Z-Score thuộc tính tuổi 44

Bảng 2.7 Chuẩn hóa Min - Max thuộc tính tuổi và tỷ lệ Na/K 47

Bảng 2.8 Ước tính huyết áp cho bệnh nhân 17 tuổi với tỷ lệ Na/K=12.5 50

Bảng 3.1 Danh sách các thuộc tính đầu vào của bài toán 56

Bảng 3.2 Danh sách các thông tin đầu ra của bài toán 57

Bảng 3.3 Các độ đo dùng để dự báo 59

Bảng 3.4 So sánh tỷ lệ dự báo tiến độ chính xác giữa 2 phương án lấy dữ liệu đầu vào 61

Bảng 3.5 So sánh tỷ lệ dự báo xử lý học vụ chính xác giữa 2 phương án lấy dữ liệu đầu vào 61

Trang 9

vii

DANH MỤC CÁC HÌNH VẼ

Hình 1.1 Quá trình khám phá, phát hiện tri thức từ dữ liệu [4] 4

Hình 1.2 Ví dụ về quá trình học trong kỹ thuật phân lớp 9

Hình 1.3 Ví dụ quá trình phân lớp, dự báo 9

Hình 1.4 Đánh giá độ chính xác phân lớp với phương pháp holdout [8] 10

Hình 1.5 Cây quyết định cho sự kiện mua máy tính 11

Hình 2.1 Ví dụ về phép phân tách tốt và kém [4] 19

Hình 2.2 Cấp đầu tiên của Cây quyết định (ID3) với nút gốc là Quang cảnh 26

Hình 2.3 Cấp thứ hai của Cây quyết định (ID3) với nhánh Nhiệt độ 26

Hình 2.4 Cấp thứ hai của Cây quyết định (ID3) với nhánh Gió 27

Hình 2.5 Cấp thứ hai của Cây quyết định (ID3) với nhánh Độ ẩm 27

Hình 2.6 Cấp thứ hai của Cây quyết định (ID3) với nút kế tiếp là thuộc tính Độ ẩm 28

Hình 2.7 Mô hình cây quyết định xây dựng bằng thuật toán ID3 28

Hình 2.8 Cấp đầu tiên của Cây quyết định (C4.5) với nút gốc là Quang cảnh 32

Hình 2.9 Cấp đầu tiên của Cây quyết định (C4.5) với nút gốc là Gió 33

Hình 2.10 Cấp đầu tiên của Cây quyết định (C4.5) với nút gốc là Độ ẩm 34

Hình 2.11 Cấp đầu tiên của Cây quyết định (C4.5) với nút gốc là Nhiệt độ 35

Hình 2.12 Cấp thứ hai của Cây quyết định (C4.5) với nhánh Nhiệt độ 36

Hình 2.13 Cấp thứ hai của Cây quyết định (C4.5) với nhánh Gió 37

Hình 2.14 Cấp thứ hai của Cây quyết định (C4.5) với nhánh Ngày 38

Hình 2.15 Mô hình Cây quyết định xây dựng bằng thuật toán C4.5 39

Hình 2.16 Ví dụ minh họa thuật toán K-NN (1) 42

Hình 2.17 Ví dụ minh họa thuật toán K-NN (2) 46

Hình 2.18 Minh họa phân loại hồ sơ sử dụng thuật toán K-NN 51

Hình 3.1 Mô hình bài toán 55

Hình 3.2 Thông tin về tiến trình học tập của sinh viên 55

Hình 3.3 Quá trình phân lớp 58

Hình 3.4 Tỷ lệ dự báo chính xác theo Cây quyết định (ID3) 62

Hình 3.5 Tỷ lệ dự báo chính xác theo Cây quyết định (C4.5) 63

Hình 3.6 Tỷ lệ dự báo chính xác theo K láng giềng gần nhất 64

Hình 3.7 Đánh giá độ chính xác của 3 phương pháp khi dự báo kết quả học vụ 65

Hình 3.8 Đánh giá độ chính xác của 3 phương pháp khi dự báo tiến độ học tập 65

Trang 10

1

MỞ ĐẦU

Tính cấp thiết của đề tài

Mục tiêu chung của các em sinh viên cũng như của các bậc phụ huynh khi bước chân vào Trường Đại học chính là tấm bằng Đại học Tuy nhiên, với mô hình đào tạo theo tín chỉ hiện nay tại hầu hết các trường Đại học nói chung và Đại học Thủy lợi nói riêng thì việc tìm hiểu, thích nghi với quy chế đào tạo mới là một điều không hề dễ dàng (trong quá trình học 12 năm phổ thông thì người học được đào tạo theo niên chế) Trong thực tế, rất nhiều sinh viên vẫn giữ thói quen cũ từ thời phổ thông (thang điểm, phương thức học tập…) trong quá trình học đại học, từ đó phát sinh ra những trường hợp đáng tiếc mà do thiếu hiểu biết, các em đã bỏ lỡ mất

cơ hội của mình Ví dụ như tại Đại học Thủy lợi, có trường hợp sinh viên học đạt hầu hết các môn (Điểm D tức là từ 4-5.4 điểm theo thang 10 là đạt [1]) nhưng lại không đủ điều kiện làm Đồ án tốt nghiệp (điều kiện làm Đồ án tốt nghiệp là không

nợ môn và điểm trung bình chung các môn là 2.0 theo thang điểm 4 [3]), từ đó dẫn đến việc em bị chậm tiến độ học tập…

Để các em sinh viên và phụ huynh phần nào có cái nhìn rõ ràng hơn về tương lai việc học tập tại Trường Đại học mà không cần phải hiểu sâu về quy chế đào tạo theo tín chỉ: Đó là khả năng hoàn thành chương trình học như thế nào? Có đảm bảo tiến độ theo khung chung của nhà trường hay không? Có nguy cơ bị cảnh báo học tập hay không? Từ đó, các em và gia đình có thể có những quyết định hợp lý, kịp thời trong thời gian học tập Giải pháp tác giả đưa ra là cung cấp cho sinh viên và gia đình thông tin dự báo về tiến trình học tập trong tương lai của sinh viên dựa trên những dữ liệu hiện tại của sinh viên Thông qua đó, sinh viên sẽ có thể đưa ra được những quyết định kịp thời, hợp lý cho việc học tập của mình; nhà trường cũng có thể có những giải pháp kịp thời để quan tâm, cảnh báo, khuyến khích các em sinh viên; gia đình cũng có thể nhìn nhận và hỗ trợ, động viên con em của mình…

Xuất phát từ thực tế và mục tiêu như vậy, tác giả thực hiện đề tài luận văn có

tên “Khai phá dữ liệu và ứng dụng trong dự báo tiến trình học tập của sinh viên

Đại học Thủy lợi” để giải quyết vấn đề nêu trên

Trang 11

2

Tổng quan về vấn đề nghiên cứu

Khai phá dữ liệu (data mining) là quá trình khám phá các tri thức mới và các tri thức có ích ở dạng tiềm năng trong nguồn dữ liệu đã có Khai phá dữ liệu đã và đang được ứng dụng rộng rãi trong rất nhiều lĩnh vực hiện nay như: Tài chính, chứng khoán; Sinh học; Viễn thông

Dự báo là tiên đoán những sự việc sẽ xảy ra trong tương lai, trên cơ sở phân tích khoa học về các dữ liệu đã thu thập được; nói cách khác, dự báo được rút ra từ

mô hình được xây dựng từ các đặc trưng dữ liệu được trích xuất ra từ bộ dữ liệu ban đầu sau khi khai phá dữ liệu Trong thời đại công nghệ thông tin và toàn cầu hóa, dự báo đóng vai trò ngày càng quan trọng khi nhu cầu về thông tin tại thời điểm nào đó trong tương lai ngày càng lớn Trong thực tế, có rất nhiều các mô hình dự báo được ứng dụng trong rất nhiều lĩnh vực thực tế, ví dụ như dự báo khí tượng thủy văn (sử dụng mô hình GSM, HRM…), dự báo tỷ giá hay chứng khoán (sử dụng mô hình ARIMA), dự báo về sử dụng điện năng (mô hình mạng nơron…), hay trong giáo dục, gần đây có nghiên cứu về dự báo kết quả thi đại học từ kết quả thi đại học và

dữ liệu điểm các môn học sẽ thi đại học từ 03 năm học phổ thông

Tuy nhiên, hiện vẫn chưa có nghiên cứu cụ thể nào có thể giải quyết bài toán thực tế mà đề tài luận văn nhắc đến ở trên Do đó, tác giả tiến hành thực hiện đề tài luận văn nghiên cứu về vấn đề khai phá dữ liệu và ứng dụng vào giải quyết bài toán thực tế là dự đoán tiến trình học tập của sinh viên Đại học Thủy lợi

Mục đích, đối tượng, phạm vi và phương pháp nghiên cứu

Luận văn tiến hành nghiên cứu, tìm hiểu các vấn đề cơ bản về khai phá dữ liệu, các công cụ học máy Từ đó ứng dụng vào việc xây dựng mô hình dự báo tiến trình học tập của sinh viên Đại học Thủy lợi Qua luận văn này, tác giả mong muốn

có những nghiên cứu lý thuyết về khai phá dữ liệu, các công cụ học máy và các thuật toán dự báo (Cây quyết định, K láng giềng gần nhất); thực nghiệm, phân tích được kết quả dự báo tiến trình học tập của sinh viên

Thông qua phương pháp nghiên cứu lý thuyết và phương pháp nghiên cứu thực nghiệm, tác giả đã tiếp cận nghiên cứu các văn bản pháp quy và các hướng dẫn

Trang 12

3

thực hiện quy chế đào tạo theo tín chỉ; dữ liệu về chương trình đào tạo tạo, điểm, kết quả học vụ của sinh viên Đại học Thủy lợi hay các công nghệ liên quan đến khai phá dữ liệu để tổng hợp thu thập thông tin Từ đó phân tích được các yêu cầu của công việc, vận dụng các kết quả lý thuyết vào bộ dữ liệu cụ thể của Trường Đại học Thủy lợi để đánh giá và phân tích kết quả

Cấu trúc luận văn

Nội dung của luận văn được trình bày trong ba phần chính như sau:

1 Phần mở đầu

2 Phần nội dung: bao gồm ba chương

Chương 1: Tổng quan về Khai phá dữ liệu trong bài toán dự báo

Nội dung của chương trình bày một số kiến thức tổng quan về khai phá dữ liệu, những kiến thức cơ bản nhất về bài toán dự báo và một số kỹ thuật khai phá

dữ liệu trong bài toán dự báo Đề xuất phương pháp sử dụng để ứng dụng vào giải quyết bài toán dự báo của luận văn

Chương 2: Khai phá dữ liệu và các công cụ học máy

Chương này trình bày khái quát về các phương pháp khai phá dữ liệu trong bài toán dự báo; so sánh, đánh giá ưu nhược điểm của các phương pháp Trong chương này, tác giả cũng phân tích để đưa ra quyết định lựa chọn các công

cụ học máy là hai thuật toán Cây quyết định, và thuật toán K láng giềng gần nhất

để xây dựng mô hình dự báo mà luận văn đưa ra

Chương 3: Dự báo tiến trình học tập của sinh viên Đại học Thủy lợi

Trong chương này, tác giả giới thiệu về bài toán dự báo tiến độ học tập, cảnh báo sinh viên khi thuộc đối tượng bị cảnh báo học tập, xây dựng mô hình của bài toán, đưa ra kết quả thực nghiệm của bài toán với các phương pháp đã lựa chọn ở chương 2 Tác giả có sử dụng phương pháp đánh giá độ chính xác của thuật toán Tại chương này tác giả cũng giới thiệu về quá trình thực nghiệm cho bài toán, tổng hợp, so sánh và đánh giá các kết quả của bài toán

3 Phần kết luận

Trang 13

4

CHƯƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

TRONG BÀI TOÁN DỰ BÁO

1.1 Tổng quan về khai phá dữ liệu

Có nhiều định nghĩa về khai phá dữ liệu, trong đó có thể kể đến như [5]:

Định nghĩa của Ferruzza: “Khai phá dữ liệu là tập hợp các phương pháp

được dùng trong tiến trình khám phá tri thức để chỉ ra sự khác biệt các mối quan hệ

và các mẫu chưa biết bên trong dữ liệu”

Định nghĩa của Parsaye: “Khai phá dữ liệu là quá trình trợ giúp quyết định,

trong đó chúng ta tìm kiếm các mẫu thông tin chưa biết và bất ngờ trong cơ sở dữ liệu lớn”

Định nghĩa của Fayyad: “Khai phá tri thức là một quá trình không tầm

thường nhận ra những mẫu dữ liệu có giá trị, mới, hữu ích, tiềm năng và có thể hiểu được”

Như vậy có thể nói rằng: Khai phá dữ liệu (data mining) là quá trình khám phá các tri thức mới và các tri thức có ích ở dạng tiềm năng trong nguồn dữ liệu đã

có Ví dụ: từ các dữ liệu đã có về độ ẩm, nhiệt độ,… người ta có thể đưa ra dự đoán được được thời tiết của một ngày; hay từ các dữ liệu về huyết áp, tỷ lệ mỡ trong máu… người ta có thể dự đoán khả năng bị bệnh của một bệnh nhân

Hình 1.1 Quá trình khám phá, phát hiện tri thức từ dữ liệu [4]

Trang 14

5

Quy trình khám phá tri thức trong cơ sở dữ liệu (KDD) thường tuân theo các bước như hình 1.1 trên đây:

Bước 1- Gom dữ liệu: là tập hợp dữ liệu từ các nguồn khác nhau Dữ liệu

được gom lại từ một cơ sở dữ liệu, một kho dữ liệu và thậm chí các dữ liệu từ các nguồn ứng dụng Web

Bước 2 - Trích lọc dữ liệu: dữ liệu được lựa chọn hoặc phân chia theo một số

tiêu chuẩn nào đó phục vụ mục đích khai thác Ví dụ trong bộ dữ liệu của sinh viên thì chỉ lọc ra những dữ liệu như: điểm trung bình tích lũy từng học kỳ, điểm trung bình tích lũy toàn khóa tính đến thời điểm xét, số tín chỉ tích lũy từng học kỳ, số tín chỉ tích lũy toàn khóa tính đến thời điểm xét, kết quả xử lý học vụ từng kỳ

Bước 3 - Làm sạch, tiền xử lý dữ liệu: đây là một bước rất quan trọng trong

quá trình khai phá dữ liệu để tránh những kết quả sai lệch nghiêm trọng Trong quá trình gom dữ liệu thường mắc phải một số lỗi khiến cho dữ liệu không đủ chặt chẽ, thiếu sự logic Điều đó dẫn đến dữ liệu thường chứa các giá trị vô nghĩa và không

có khả năng kết nối dữ liệu Ví dụ: trong bài toán sử dụng kết quả thi cuối năm, người dùng nhập điểm thi = 95 hay có thể nhập 9,5 thay vì phải nhập là 9.5, Các thao tác thực hiện ở giai đoạn này là tiến hành xử lý những dạng dữ liệu không chặt chẽ nói trên

Bước 4 - Chuyển đổi dữ liệu: giai đoạn này dùng để chuyển đổi, tổ chức

chức lại dữ liệu về dạng phù hợp cho việc khai phá bằng cách thực hiện các thao tác nhóm hoặc tập hợp

Bước 5 - Khai phá dữ liệu: Đây là bước mang tính tư duy trong khai phá dữ

liệu Ở giai đoạn này thường sử dụng các thuật toán phân lớp, phân cụm, luật kết hợp hoặc mô hình hóa dữ liệu… để trích ra các thông tin mô tả cho các mẫu dữ liệu

Bước 6 - Đánh giá các luật và biểu diễn tri thức: Ở giai đoạn này, một số

tiêu chuẩn đánh giá (phép đo) được sử dụng để đánh giá sự hữu ích của các mẫu biểu diễn tri thức đạt được ở Bước 5 Quá trình đánh giá thường phụ thuộc vào các mẫu dữ liệu mới Ở đây không phải mẫu dữ liệu nào cũng đều chính xác, đôi khi có

Trang 15

dữ liệu, phải lặp đi lặp lại toàn bộ quá trình, v.v

Tóm lại: khám phá tri thức từ dữ liệu là một quá trình kết xuất ra tri thức từ

kho dữ liệu mà trong đó khai phá dữ liệu là công đoạn quan trọng nhất [5]

1.2 Một số phương pháp khai phá dữ liệu

Phân lớp (Classification)

Phân lớp là việc xác định một hàm ánh xạ từ một mẫu dữ liệu vào một trong

số các lớp đã được biết trước đó Mục tiêu của phương pháp phân lớp dữ liệu là dự đoán nhãn lớp cho các mẫu dữ liệu Như thế quá trình phân lớp có thể sử dụng mối quan hệ này để dự báo cho các mục (cá thể, mẫu) mới Các kiến thức được phát

hiện biểu diễn dưới dạng các luật theo cách sau: “Nếu các thuộc tính dự báo của

một mục thoả mãn điều kiện của các tiền đề thì mục nằm trong lớp chỉ ra trong kết luận”[6]

Quá trình phân lớp, hay phân loại dữ liệu thường gồm 2 bước: Xây dựng mô hình và sử dụng mô hình để phân lớp dữ liệu Ví dụ: Giả sử có một mục biểu diễn thông tin về bệnh nhân và có các thuộc tính dự báo là: họ tên, tuổi, giới tính, tỷ lệ Na/k, chỉ số huyết áp… và thuộc tính phân loại là có bị ung thư hay không

Các bài toán phân lớp có thể được chia thành hai dạng cơ bản :

a Phân lớp nhị phân/đa lớp: Phân lớp nhị phân là phân lớp mà giá trị của thuộc tính cần dự đoán chỉ có 2 giá trị ví dụ Yes/No, còn phân lớp đa lớp là phân lớp mà giá trị của thuộc tính cần dự đoán có hơn 2 giá trị Ví dụ như phân loại kết quả của sinh viên ở trường ĐHTL thì mỗi em có khả năng nhận các giá trị: Xuất sắc, giỏi, khá, trung bình, yếu kém

Trang 16

7

b Phân lớp đơn nhãn/ đa nhãn: Phân lớp đơn nhãn là phân lớp mà mỗi mẫu cần dự đoán sẽ được gán vào chính xác một lớp Ví dụ như dự đoán 1 bệnh nhân có mắc virut H5N1 hay không thì hệ thống chỉ có thể dự đoán là có hoặc không Trong trường hợp phân lớp đa nhãn, một mẫu mới có thể được gán vào nhiều hơn một lớp

Ví dụ như hệ thống dự đoán xem máy tính bị nhiễm những loại virut nào

Phân cụm (Clustering)

Phân cụm là việc mô tả chung để tìm ra các tập hay các nhóm, loại mô tả dữ liệu Các nhóm có thể tách nhau hoặc phân cấp hay gối lên nhau Có nghĩa là dữ liệu có thể vừa thuộc nhóm này lại vừa thuộc nhóm khác Mục tiêu chính của phương pháp phân cụm dữ liệu là nhóm các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một cụm là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng

Các ứng dụng khai phá dữ liệu có nhiệm vụ phân nhóm như phát hiện tập các khách hàng có phản ứng giống nhau trong CSDL tiếp thị; xác định các quang phổ từ các phương pháp đo tia hồng ngoại, Liên quan chặt chẽ đến việc phân nhóm là nhiệm vụ đánh giá dữ liệu, hàm mật độ xác suất đa biến/ các trường trong CSDL

Luật kết hợp (Association Rules)

Phương pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần dữ liệu trong CSDL Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết hợp tìm được Một ví dụ đơn giản về luật kết hợp như sau: sự kết hợp giữa hai thành phần A

và B có nghĩa là sự xuất hiện của A trong bản ghi kéo theo sự xuất hiện của B trong cùng bản ghi đó: A => B

1.3 Tổng quan về bài toán dự báo

Khái niệm cơ bản

Dự báo (hay còn gọi là dự đoán, tiên lượng) là tiên đoán những sự việc sẽ xảy ra trong tương lai, dựa trên cơ sở phân tích khoa học về các dữ liệu đã thu thập được; nói cách khác, dự báo được rút ra từ mô hình được xây dựng từ các đặc trưng

dữ liệu được trích xuất ra từ bộ dữ liệu ban đầu sau khi khai phá dữ liệu

Trang 17

8

Trong thời đại công nghệ thông tin và toàn cầu hóa, dự báo đóng vai trò ngày càng quan trọng khi nhu cầu về thông tin tại thời điểm nào đó trong tương lai ngày càng lớn Trong thực tế, có rất nhiều các mô hình dự báo được ứng dụng trong rất nhiều lĩnh vực thực tế, ví dụ như dự báo khí tượng thủy văn (sử dụng mô hình GSM, HRM…), dự báo tỷ giá hay chứng khoán (sử dụng mô hình ARIMA), dự báo

về sử dụng điện năng (mô hình mạng nơron…)

Dự báo dữ liệu là một quá trình gồm hai bước, nó gần giống với quá trình phân lớp Tuy nhiên để dự đoán, chúng ta bỏ qua khái niệm nhãn phân lớp bởi vì các giá trị được dự đoán là liên tục (được sắp xếp) hơn là các giá trị phân loại Ví dụ thay vì phân loại xem một khoản vay có là an toàn hay rủi ro thì chúng ta sẽ dự đoán xem tổng số tiền cho vay của một khoản vay là bao nhiêu thì khoản vay đó là

an toàn Do đó, ta có thể thấy rằng tất cả những đặc điểm của bài toán phân lớp hiện hữu trực tiếp tại bài toán dự báo

Đặc điểm của bài toán dự báo

Quá trình dự báo thường gồm 2 bước:

Bước 1: Xây dựng mô hình

Trong bước này, một mô hình sẽ được xây dựng dựa trên việc phân tích các mẫu dữ liệu sẵn có Đây là quá trình học, trong đó một thuật toán phân lớp được xây dựng bằng cách phân tích hoặc “học” từ tập dữ liệu huấn luyện được xây dựng sẵn bao gồm nhiều bộ dữ liệu (xem ví dụ ở Hình 1.2)

Đầu vào của quá trình này là một tập dữ liệu có cấu trúc được mô tả bằng các thuộc tính và được tạo ra từ tập các bộ giá trị của các thuộc tính đó Mỗi bộ giá trị được gọi chung là một mẫu (sample) Trong tập dữ liệu này, mỗi mẫu dữ liệu X biểu diễn bằng một vector n chiều, X = (x1, x2,…, xn), đây là các giá trị cụ thể của một tập n thuộc tính của nguồn dữ liệu {A1, A2, …, An} Mỗi mẫu được giả sử thuộc về một lớp định nghĩa trước, lớp ở đây là giá trị của một thuộc tính được chọn làm thuộc tính gán nhãn lớp hay thuộc tính quyết định

Đầu ra của bước này thường là các quy tắc phân lớp dưới dạng luật dạng then (nếu-thì), công thức logic, hay các công cụ phân lớp như mạng nơron, cây quyết định, SVM…

Trang 18

if-9

Quá trình đầu tiên của phân lớp có thể được xem như việc xác định ánh xạ từ các dữ liệu có sẵn sang tập các nhãn dữ liệu, thường được biểu diễn bằng hàm y = f(X), hàm này gán nhãn y cho mẫu X Nghĩa là với mỗi lớp dữ liệu chúng ta cần học (xây dựng) một ánh xạ hoặc một hàm tương ứng [8]

Hình 1.2 Ví dụ về quá trình học trong kỹ thuật phân lớp

Bước 2: Sử dụng mô hình đã xây dựng để phân lớp, dự báo dữ liệu

Trong bước này mô hình thu được sẽ được sử dụng để phân lớp, dự báo; việc đầu tiên trong bước này là phải tính độ chính xác của mô hình Để đảm bảo tính khách quan nên áp dụng mô hình này trên một tập kiểm thử hơn là làm trên tập

dữ liệu huấn luyện ban đầu Tính chính xác của mô hình phân lớp trên tập dữ liệu kiểm thử là số phần trăm các bộ dữ liệu kiểm tra được đánh nhãn đúng bằng cách so sánh chúng với các mẫu trong bộ dữ liệu huấn luyện Nếu như độ chính xác của mô hình dự đoán là chấp nhận được thì chúng ta có thể sử dụng mô hình để dự đoán nhãn lớp cho các mẫu dữ liệu khác với thông tin nhãn phân lớp chưa xác định trong tương lai [8] (xem minh họa ở Hình 1.3)

Hình 1.3 Ví dụ quá trình phân lớp, dự báo

Trang 19

10

Các phương pháp đánh giá cho bài toán phân lớp, dự báo

Đánh giá độ chính xác đóng vai trò quan trọng trong việc phân lớp Dữ liệu

để đánh giá là dữ liệu không dùng để huấn luyện phân lớp, độ chính xác một phân lớp là độ phù hợp của nhãn dữ liệu tương lai Ví dụ, huấn luyện một phân lớp từ dữ liệu bán hàng để dự đoán thói quen mua sắm của khách hàng, cần đánh giá độ chính xác phân lớp có thể dự đoán thói quen mua sắm của các khách hàng tương lai như thế nào Độ chính xác đánh giá này sẽ trợ giúp cho việc so sánh các phân lớp khác nhau

Có nhiều kỹ thuật để có thể đánh giá độ chính xác của các thuật toán phân lớp Trong đó Holdout và K-fold cross validation (đánh giá chéo dựa trên k phần) là hai kỹ thuật phổ biến để đánh giá độ chính xác phân lớp dựa trên các phân chia lấy mẫu ngẫu nhiên từ dữ liệu cho trước [8]

Hình 1.4 Đánh giá độ chính xác phân lớp với phương pháp holdout [8]

Trong phương pháp holdout, dữ liệu đã cho được phân chia ngẫu nhiên vào trong hai tập độc lập: một tập huấn luyện và một tập kiểm định Thông thường, hai phần ba dữ liệu được chỉ định là tập huấn luyện và còn lại một phần ba được chỉ định là tập kiểm định Tập huấn luyện được dùng để phân lớp, độ chính xác của nó được đánh giá với tập kiểm định (Hình 1.4) Việc đánh giá này là lạc quan bởi chỉ một phần dữ liệu ban đầu được dùng để phân lớp Lấy mẫu con ngẫu nhiên là một

sự thay đổi của phương pháp holdout trong đó phương pháp holdout được lặp lại k

lần Độ chính xác phân lớp bằng giá trị trung bình của các độ chính xác có được từ mỗi lần lặp

Trang 20

11

Trong K-fold, dữ liệu ban đầu được phân chia ngẫu nhiên vào trong k tập con riêng biệt ("các fold – phần dữ liệu") S1 S 2 , ,S k , chúng có kích thước xấp xỉ bằng

nhau Huấn luyện và kiểm định được thực hiện k lần Trong lần lặp thứ i, tập con Si

đóng vai trò như một tập kiểm định và các tập con còn lại được dùng chung để huấn luyện phân lớp Tức là phân lớp của lần lặp đầu tiên được huấn luyện trên các tập

con S2 ,S 3 , ,S k và được kiểm định trên S 1 ; phân lớp của lần lặp thứ 2 được huấn

luyện trên các tập con S1 ,S 3 , ,S k và được kiểm định trên S 2 , v.v Độ chính xác phân

lớp là toàn bộ số lượng các phân loại chính xác từ k lần lặp chia cho tổng số lượng

các mẫu trong dữ liệu ban đầu Trong hợp lệ chéo phân tầng, các phần dữ liệu được phân tầng để sự phân bố lớp của các mẫu trong mỗi fold xấp xỉ như sự phân bố lớp trong dữ liệu ban đầu [8]

1.4 Một số kỹ thuật khai phá dữ liệu trong bài toán dự báo/phân lớp

Các phương pháp cây quyết định

Cây quyết định (Decision Tree) là cấu trúc cây có dạng biểu đồ luồng, mỗi nút trong là kiểm định trên một thuộc tính, mỗi nhánh đại diện cho một kết quả kiểm định, các nút lá đại diện cho các lớp Nút cao nhất trên cây là nút gốc

Hình 1.5 Cây quyết định cho sự kiện mua máy tính

Ví dụ: Hình 1.5 thể hiện cây quyết định biểu diễn hoạt động mua máy tính

Nó dự đoán liệu một khách hàng nào đó có mua máy tính hay không Hình chữ nhật biểu thị các nút trong, hình elip biểu thị các nút lá

Trang 21

12

Để phân loại một mẫu chưa biết, các giá trị thuộc tính của mẫu sẽ được kiểm định trên cây Đường đi từ gốc tới một nút lá cho biết dự đoán lớp đối với mẫu đó Cây quyết định có thể dễ dàng chuyển đổi thành các luật phân loại

Với kỹ thuật phân lớp dựa trên cây quyết định, kết quả của quá trình xây dựng mô hình sẽ cho ra một cây quyết định Cây này được sử dụng trong quá trình phân lớp các đối tượng dữ liệu chưa biết hoặc đánh giá độ chính xác của mô hình Tương ứng với hai giai đoạn trong quá trình phân lớp là quá trình xây dựng và sử dụng cây quyết định

Quá trình xây dựng cây quyết định bắt đầu từ một nút đơn biểu diễn tất cả các mẫu dữ liệu Sau đó, các mẫu sẽ được phân chia một cách đệ quy dựa vào việc lựa chọn các thuộc tính Nếu các mẫu có cùng một lớp thì nút sẽ trở thành lá, ngược lại sử dụng một độ đo thuộc tính để chọn ra thuộc tính tiếp theo làm cơ sở để phân chia các mẫu ra các lớp Theo từng giá trị của thuộc tính vừa chọn, tạo ra các nhánh tương ứng và phân chia các mẫu vào các nhánh đã tạo Lặp lại quá trình trên cho tới khi tạo ra được cây quyết định, tất cả các nút triển khai thành lá và được gán nhãn

Quá trình đệ quy sẽ dừng lại khi một trong các điều kiện sau được thỏa mãn: (1) Tất cả các mẫu thuộc cùng một nút; (2) Không còn một thuộc tính nào để lựa chọn; (3) Nhánh không chứa mẫu nào

Phần lớn các giải thuật sinh cây quyết định đều có hạn chế chung là sử dụng nhiều bộ nhớ Lượng bộ nhớ sử dụng tỷ lệ thuận với kích thước của mẫu dữ liệu huấn luyện Một chương trình sinh cây quyết định có hỗ trợ sử dụng bộ nhớ ngoài song lại có nhược điểm về tốc độ thực thi Do vậy, vấn đề tỉa bớt cây quyết định trở nên quan trọng Các nút lá không ổn định trong cây quyết định sẽ được tỉa bớt Kỹ thuật tỉa trước là việc dừng sinh cây quyết định khi chia dữ liệu không có ý nghĩa

Các phương pháp K-láng giềng gần nhất

Sự miêu tả các bản ghi trong tập dữ liệu khi trỏ vào không gian nhiều chiều

là rất có ích đối với việc phân tích dữ liệu Với việc dùng các miêu tả này, nội dung của vùng lân cận được xác định, trong đó các bản ghi gần nhau trong không gian được xem xét thuộc về lân cận (hàng xóm – láng giềng) của nhau Khái niệm này

Trang 22

13

được dùng trong khoa học kỹ thuật với tên gọi K-láng giềng gần nhất, trong đó K là

số láng giềng được sử dụng Phương pháp này rất hiệu quả nhưng lại đơn giản Ý tưởng thuật toán học K-láng giềng gần là “thực hiện như các láng giềng gần của bạn

đã làm” Để dự đoán hoạt động của một mẫu xác định, K-láng giềng tốt nhất của mẫu đó sẽ được xem xét, và trung bình các hoạt động của các láng giềng gần sẽ đưa

ra được dự đoán về hoạt động của mẫu đó

Ví dụ: Để dự đoán điểm thi tiến độ học tập của một sinh viên với số láng giềng K=5 Sau khi xác định được 5 sinh viên gần nhất với sinh viên cần dự đoán (bằng cách tính khoảng cách) và xác định được trong 5 sinh viên đó thì có 4 em thực hiện đúng tiến độ và 1 không thực hiện đúng tiến độ thì sẽ dự đoán sinh viên này sẽ thực hiện đúng tiến độ học tập

Kỹ thuật K-láng giềng gần nhất là một phương pháp tìm kiếm đơn giản Tuy nhiên, nó có một số mặt hạn chế là giới hạn phạm vi ứng dụng của nó Đó là thuật toán này có độ phức tạp tính toán là luỹ thừa bậc 2 theo số bản ghi (mẫu) của tập dữ liệu

Vấn đề chính liên quan đến thuộc tính của bản ghi, một bản ghi gồm nhiều thuộc tính độc lập, nó bằng một điểm trong không gian tìm kiếm có số chiều lớn Trong các không gian có số chiều lớn, giữa hai điểm bất kỳ hầu như có cùng khoảng cách Vì thế mà kỹ thuật K-láng giềng rất khó có thể cho thêm một thông tin

có ích nào để dự đoán cho điểm hiện tại, vì khi tất cả các cặp điểm đều có thể coi các láng giềng của nó Cuối cùng, phương pháp K-láng giềng không đưa ra lý thuyết để hiểu cấu trúc dữ liệu như những quy luật mà con người có thể nhìn vào đó hiểu được Hạn chế đó có thể được khắc phục bằng kỹ thuật cây quyết định

Các phương pháp dựa trên luật

Phương pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần dữ liệu trong cơ sở dữ liệu Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết hợp tìm được Một ví dụ đơn giản về luật kết hợp là sự kết hợp giữa hai thành phần

A và B có nghĩa là sự xuất hiện của A trong bản ghi kéo theo sự xuất hiện của B trong cùng bản ghi đó: A => B

Trang 23

14

Nhiệm vụ của việc phát hiện các luật kết hợp là phải tìm tất cả các luật A=>B sao cho tần số của luật không nhỏ hơn ngưỡng σ cho trước và độ tin cậy của luật không nhỏ hơn ngưỡng θ cho trước Từ một cơ sở dữ liệu có thể tìm được hàng nghìn và thậm chí hàng trăm nghìn các luật kết hợp

Các luật kết hợp có thể là một cách hình thức hóa đơn giản Chúng rất thích hợp cho việc tạo ra các kết quả có dữ liệu dạng nhị phân Giới hạn cơ bản của phương pháp này là ở chỗ các quan hệ cần phải thưa theo nghĩa không có tập thường xuyên nào chứa nhiều hơn 15 thuộc tính Giải thuật tìm kiếm các luật kết hợp tạo ra số luật ít nhất phải bằng với số các tập phổ biến và nếu như một tập phổ biến có kích thước K thì phải có ít nhất là 2K tập phổ biến Thông tin về các tập phổ biến được sử dụng để ước lượng độ tin cậy của các tập luật kết hợp [8]

Các phương pháp Bayes «ngây thơ» và mạng tin cậy Bayes

Phân lớp Bayesian là phân lớp thống kê Phân lớp Bayesian dựa trên định lý

Bayes Một phân lớp đơn giản của Bayesian đó là Naive Bayesian, so với việc thực

thi của phân lớp cây quyết định và mạng nơron, phân lớp Bayesian đưa ra độ chính xác cao và nhanh khi áp dụng vào các cơ sở dữ liệu lớn

Các phân lớp Naive Bayesian giả định rằng hiệu quả của một giá trị thuộc

tính trên một lớp là độc lập so với giá trị của các thuộc tính khác Giả định này được gọi là độc lập có điều kiện lớp Như vậy sẽ đơn giản hoá các tính toán rắc rối, vì thế

coi nó là "ngây thơ"

Các mạng belief (dựa trên) Bayesian là các mô hình đồ thị, nó không giống

như phân lớp Bayesian ngây thơ, cho phép biểu diễn sự phụ thuộc giữa các tập con của các thuộc tính Các mạng belief Bayesian cũng được dùng cho phân loại [8]

1.5 Kết luận chương 1

Khai phá dữ liệu là lĩnh vực đã và đang trở thành một trong những hướng nghiên cứu thu hút được sự quan tâm của nhiều chuyên gia về CNTT trên thế giới Trong những năm gần đây, rất nhiều các phương pháp và thuật toán mới liên tục

Trang 24

15

được công bố Điều này chứng tỏ những ưu thế, lợi ích và khả năng ứng dụng thực

tế to lớn của khai phá dữ liệu

Nội dung của chương đã trình bày một số kiến thức tổng quan về khai phá dữ liệu, những kiến thức cơ bản nhất về bài toán phân lớp dữ liệu và một số kỹ thuật khai phá dữ liệu trong bài toán phân lớp, dự báo như phương pháp cây quyết định, phương pháp K láng giềng gần nhất, phương pháp dựa trên luật, phương pháp Bayes Chương này cũng đã đưa ra được đánh giá về ưu và nhược điểm với mỗi phương pháp Ví dụ như phương pháp K láng giềng gần nhất thì đây là phương pháp đơn giản nhưng lại hạn chế là giới hạn phạm vi ứng dụng của nó và nó không rút ra được những quy luật mà khi nhìn vào đó chúng ta có thể hiểu được Phương pháp cây quyết định có điểm hạn chế là khi sinh cây quyết định nó sẽ tốn nhiều bộ nhớ Trong trường hợp có hỗ trợ sử dụng bộ nhớ ngoài thì nó lại có nhược điểm về tốc độ thực thi Tuy nhiên, cây quyết định lại có khả năng biểu diễn các dữ liệu phức tạp thành một cấu trúc đơn giản Phương pháp dựa trên luật kết hợp là phương pháp nhằm phát hiện ra các luật kết hợp giữa các thành phần dữ liệu trong cơ sở dữ liệu, nó thích hợp cho việc tạo ra các kết quả có dữ liệu dạng nhị phân nhưng lại bị giới hạn là không có tập nào chứa hơn 15 thuộc tính Mặc dù K láng giềng gần nhất,

và cây quyết định có một số nhược điểm kể trên, nhưng chúng được sử dụng rất rộng rãi vì tính dễ minh họa và giải thích cho việc lựa chọn phân lớp Chính vì vậy, trong bản luận văn này hai kĩ thuật này sẽ được sử dụng cho bài toán dự báo tiến trình học tập của sinh viên Nội dung của chương sau sẽ đi vào tìm hiểu kỹ hơn về

kỹ thuật khai phá dữ liệu bằng cây quyết định và K láng giềng gần nhất

Trang 25

16

CHƯƠNG 2 KHAI PHÁ DỮ LIỆU VÀ CÁC CÔNG CỤ

HỌC MÁY

2.1 Cây quyết định

Tổng quan về cây quyết định

2.1.1.1 Giới thiệu chung

Cây quyết định (decision tree) là một phương pháp mạnh và thường được sử

dụng cho cả hai nhiệm vụ của khai phá dữ liệu là phân loại và dự báo Mặt khác, cây quyết định còn có thể chuyển sang dạng biểu diễn tương đương dưới dạng tri thức với các luật If-Then

Cây quyết định là cấu trúc biễu diễn dưới dạng cây Trong đó, mỗi nút trong (internal node) biễu diễn một thuộc tính, mỗi nhánh (branch) biễu diễn giá trị có thể

có của thuộc tính, mỗi lá (leaf node) biểu diễn các lớp quyết định và đỉnh trên cùng của cây gọi là nút gốc (root) Cây quyết định có thể được dùng để phân lớp bằng

cách xuất phát từ gốc của cây và di chuyến theo các nhánh cho đến khi gặp nút lá Cũng trên cơ sở phân lớp này có thể chuyển đổi về các luật quyết định

Cây quyết định thường được sử dụng để xây dựng một kế hoạch nhằm đạt được mục tiêu mong muốn Các cây quyết định được dùng để hỗ trợ quá trình ra quyết định Cây quyết định là một dạng đặc biệt của cấu trúc cây Tạo cây quyết định chính là quá trình phân tích cơ sở dữ liệu, phân lớp và đưa ra dự đoán Cây quyết định được tạo thành bằng cách lần lượt chia (đệ quy) một tập dữ liệu thành các tập dữ liệu con, mỗi tập con được tạo thành chủ yếu từ các phần tử của cùng một lớp Việc lựa chọn thuộc tính để tạo nhánh của cây được thực hiện thông qua Entropy và Gain

Học bằng cây quyết định cũng là một phương pháp thông dụng trong khai phá dữ liệu Khi đó, cây quyết định mô tả một cấu trúc cây, trong đó, các lá đại diện cho các phân loại còn các nhánh của cây đại diện cho các kết hợp của các thuộc tính dẫn tới phân loại đó Một cây quyết định có thể được học bằng cách chia tập hợp nguồn thành các tập con dựa theo việc kiểm tra giá trị thuộc tính Quá trình này

Trang 26

17

được lặp lại một cách đệ qui cho mỗi tập con dẫn xuất Quá trình đệ qui hoàn thành khi không thể tiếp tục thực hiện việc chia tách được nữa, hay khi một phân loại đơn

có thể áp dụng cho từng phần tử của tập con dẫn xuất

Như vậy, cây quyết định có thể được mô tả như là sự kết hợp của các kỹ thuật toán học và tính toán nhằm hỗ trợ việc mô tả, phân loại và tổng quát hóa một tập dữ liệu cho trước [4]

Dữ liệu được cho dưới dạng các bản ghi có dạng: (x,y) = (x1 ,x 2 , ,x k ,y) Biến

phụ thuộc (dependant variable) y là biến cần tìm hiểu, phân loại hay tổng quát hóa

còn xl ,x 2 ,x 3 là các biến sẽ giúp ta thực hiện công việc đó

Kết luận: Cây quyết định biến một biểu diễn dữ liệu phức tạp thành một cấu

trúc đơn giản hơn rất nhiều thông qua việc hình thành cây với nút gốc, các nhánh,

và các lá cây

2.1.1.2 Phân loại cây quyết định

2.1.1.2.1 Cây hồi quy (Regression tree)

Cây hồi quy là cây mà biến phụ thuộc y được ước lượng bởi các hàm có giá

trị là số thực thay vì được sử dụng cho các nhiệm vụ phân loại (ví dụ: ước tính giá một ngôi nhà)

2.1.1.2.2 Cây phân loại (Classification tree)

Cây phân loại là cây mà biến phụ thuộc y là một biến phân loại như: giới tính (nam hay nữ), kết quả của một trận đấu (thắng hay thua) hay đánh giá tiến trình học tập của một sinh viên (đúng tiến độ hay không; có thể bị cảnh báo học tập với mức nào) Cây phân loại này cũng chính là cây quyết định sẽ được sử dụng trong bài toán dự đoán tiến trình học tập của sinh viên Đại học Thủy lợi trong luận văn này

Cấu trúc của cây quyết định

Cây quyết định là một cấu trúc được sử dụng để chia liên tiếp một tập các bản ghi lớn thành các tập con nhỏ hơn bằng cách áp dụng một chuỗi các luật đơn giản Với mỗi phép chia liên tiếp, các tập con thu được trong tập kết quả sẽ ngày càng giống nhau Nó có cấu trúc như sau: Mỗi nút mang một thuộc tính (biến độc

Trang 27

Xây dựng cây quyết định

2.1.3.1 Phương pháp xây dựng cây quyết định

Việc xây dựng cây quyết định bao gồm 2 giai đoạn: Tạo cây và tỉa cây Giai đoạn Tạo cây: giai đoạn này phát triển bắt đầu từ gốc, đến từng nhánh và phát triển

quy nạp theo cách thức chia để trị cho tới khi đạt được cây quyết định với tất cả các

lá được gán nhãn lớp Giai đoạn tỉa cây: là xác định và xóa những nhánh mà có

phần tử hỗn loạn hoặc những phần tử nằm ngoài (những phần tử không thể phân vào một lớp nào đó) Giai đoạn này nhằm mục đích đơn giản hóa và khái quát hóa

từ đó làm tăng độ chính xác của cây quyết định

2.1.3.2 Chọn thuộc tính phân tách

Ngay từ khi khởi đầu, tập huấn luyện đã chứa tập các bản ghi mà được phân loại trước - tức là giá trị của biến đích được xác định trong tất cả các trường hợp Cây quyết định được xây dựng bằng cách phân tách các bản ghi tại mỗi nút dựa trên một thuộc tính đầu vào Như vậy, rõ ràng nhiệm vụ đầu tiên là phải chọn ra xem thuộc tính nào đưa ra được sự phân tách tốt nhất tại nút đó

Độ đo thường được sử dụng để đánh giá khả năng phân tách là độ đồng nhất Một sự phân tách được gọi là tốt nhất là sự phân tách mà làm tăng độ đồng nhất của tập bản ghi với số lượng lớn nhất Hơn nữa, một sự phân tách tốt nghĩa là nó cũng phải tạo ra các nút có kích cỡ tương tự nhau, nói cách khác nó không tạo ra các nút

có quá ít bản ghi (xem ví dụ về sự phân tách tốt và kém ở Hình 2.1)

Trang 28

19

Hình 2.1 Ví dụ về phép phân tách tốt và kém [4]

Thuật toán xây dựng cây quyết định được bắt đầu bằng việc chọn mỗi thuộc đầu vào chưa được chọn và đo mức độ tăng độ đồng nhất trong các kết quả ứng với mỗi thuộc tính Tìm ra trong đó thuộc tính có độ đồng nhất tốt nhất, đây sẽ là thuộc tính được gán nhãn cho nút tách và là thuộc tính đề phân tách tập dữ liệu theo giá trị của thuộc tính đó

Thuật toán cây quyết định có khả năng phân tách trên các biến đầu vào có kiểu sổ, phân tách trên các biến đầu vào định tính, phân tách với sự có mặt của các giá trị bị thiếu [4]

2.1.3.3 Phép kiểm tra để chọn phân tách tốt nhất

Để kiểm tra được thuộc tính nào phân tách tốt nhất sử dụng các độ đo sự đồng nhất như Entropy, Information Gain, Infomation Gain Ratio

2.1.3.3.1 Entropy

Hàm Entropy là một số đo để đo tính đồng nhất (độ pha trộn) của một tập

cho trước Giả sử có tập S là tập dữ liệu huấn luyện (tập mẫu), khi đó Entropy có giá trị nằm trong khoảng [0,1]

Nếu Entropy(S) = 0, khi đó tập mẫu S chỉ toàn mẫu thuộc cùng một loại, hay nói cách khác S gọi là đồng nhất Nếu Entropy(S) = 1, khi đó tập mẫu S có các mẫu thuộc các loại khác nhau với độ pha trộn là cao nhất Nếu 0 < Entropy(S) < 1 khi đó tập mẫu S có số lượng mẫu thuộc các loại khác nhau là không bằng nhau

Trang 29

20

Công thức Entropy tổng quát cho một tập mẫu S có 2 giá trị phân loại giả sử

là âm (-) và dương (+), trong đó p+ là phần các mẫu dương trong tập S, p- là phần các mẫu âm trong tập S

Khi đó công thức tổng quát có dạng

số giá trị phân biệt trong thuộc tính A Như vây, nếu thuộc tính A được sử dụng để chia thành V tập con thì những tập con này sẽ tương ứng với các nhánh con của nút hiện tại Độ đo thông tin có được sau khi phân lớp theo V tập con trên sẽ được tính như sau:

Đây là đại lượng dùng để đo tính hiệu quả của một thuộc tính trong việc

phân lớp dữ liệu Thuật toán ID3 sử dụng đại lượng Information Gain thông qua

hàm Entropy để đưa ra mức độ ưu tiên được chọn của các thuộc tính Thuộc tính nào có lượng Information Gain lớn nhất thì sẽ là thuộc tính được chọn và được

dùng để chia tập ứng viên ra thành các tập con thuần nhất Giá trị Gain của thuộc tính A trong tập S được tính như công thức (2.4) dưới đây

Trang 30

Values(A) : là tập hợp các giá trị có thể có của thuộc tính A,

Sv là tập con của S chứa các mẫu có thuộc tính A mang giá trị v

|Sv| là số phần thử trong tập Sv

|S| là số phần tử trong tập S

2.1.3.3.3 Information Gain Ratio

Đây là độ đo được mở rộng từ độ đo Information Gain, nó quan tâm đến số

lượng và độ lớn của các nhánh khi lựa chọn thuộc tính phân lớp Thuật toán C4.5 sử dụng độ đo này để đánh giá sự thay đổi của các thuộc tính Đại lượng Information Gain Ratio được biểu diễn dưới công thức (2.5) dưới đây

𝐺𝑎𝑖𝑛𝑅𝑎𝑡𝑖𝑜𝑛(𝑆, 𝐴) = 𝐺𝑎𝑖𝑛(𝑆, 𝐴)

𝑆𝑝𝑙𝑖𝑡𝐼𝑛𝑓𝑜𝑚𝑎𝑡𝑖𝑜𝑛(𝑆, 𝐴) (2.5)

Trong đó Gain(S,A) được tính theo công thức (2.4) còn Splitlnformation(S,A)

là thông tin tiềm ẩn được tạo ra bằng cách chia tập dữ liệu trong một số tập con nào

đó và được tính theo công thức (2.6)

Trong đó Sj là tập con của S chứa các mẫu có thuộc tính A mang giá trị Vj

Ta có thể thấy rằng Splitinfomation thực sự chính là Entropy của S với sự liên quan trên những giá trị của thuộc tính A

Trang 31

22

Biến đổi cây quyết định thành luật

Sau khi đã xây dựng được mô hình cây quyết định thì có thể biểu diễn tri

thức dưới dạng luật IF-THEN Các luật được xây dựng dựa trên các quy tắc sau:

- Mỗi luật tạo ra từ mỗi đường dẫn từ gốc đến lá

- Mỗi cặp giá trị thuộc tính dọc theo đường dẫn tạo nên phép kết hợp (phép AND - và)

- Các nút lá mang tên của lớp cần phân loại

Ví dụ: với cây quyết định như Hình 1.5 cho khái niệm mua máy tính thì có thể rút ra được các luật để biểu diễn tri thức như sau

IF 30<=Tuổi<=40 THEN Mua máy tính

IF Tuổi<30 and Sinh viên = Có THEN Mua máy tính

IF Tuổi<30 and Sinh viên = Không THEN Không mua máy tính

IF Tuổi >40 and Độ tín nhiệm = Tốt THEN Mua máy tính

IF Tuổi >40 and Độ tín nhiệm = Khá tốt THEN Không Mua máy tính

Một số thuật toán xây dựng cây quyết định

Có rất nhiều biến đổi khác nhau về nòng cốt của thuật toán cây quyết định, mặc dù vậy chúng vẫn tuân theo những bước cơ bản sau :

Bước 1: Chọn thuộc tính “tốt” nhất bằng một độ đo đã định trước

Bước 2: Phát triển cây bằng việc thêm các nhánh tương ứng với từng giá trị

của thuộc tính đã chọn

Bước 3: Sắp xếp, phân chia tập dữ liệu đào tạo tới node con

Bước 4: Nếu các mẫu được phân lớp rõ ràng thì dừng

Ngược lại: lặp lại bước 1 tới bước 4 cho từng node con

Trang 32

23

Hiện nay có rất nhiều các thuật toán khác nhau để xây dựng cây quyết định như thuật toán CLS, thuật toán ID3, thuật toán C4.5… Trong phạm vi nghiên cứu của mình, tác giả nghiên cứ 2 thuật toán được sử dụng khá phổ biến để xây dựng cây quyết định là ID3 và C4.5

2.1.5.1 Thuật toán ID3

2.1.5.1.1 Giới thiệu thuật toán ID3

ID3 xây dựng cây quyết định theo cách từ trên xuống Nó xác định sự phân lớp các đối tượng bằng cách kiểm tra giá trị của các thuộc tính Với bất kỳ thuộc tính nào, cũng có thể phân vùng tập hợp các mẫu huấn luyện thành những tập con tách rời, mà ở đó mọi mẫu trong một phân vùng (partition) có một giá trị chung cho thuộc tính đó

Tại mỗi nút của cây, ID3 chọn một thuộc tính để kiểm tra và dùng kết quả của phép kiểm tra này để phân vùng tập hợp các mẫu thành các phần theo kết quả

đó, việc này tiếp tục được thực hiện đệ quy cho đến khi mọi thành viên của phân vùng đều nằm trong cùng một lớp; lớp đó trở thành nút lá của cây

Như đã nói trên, ID3 phụ thuộc rất nhiều vào tiêu chuẩn chọn lựa thuộc tính

kiểm tra để làm gốc của cây Thuật toán ID3 sử dụng đại lượng Information gain

thông qua hàm Entropy để đưa ra mức độ ưu tiên được chọn của các thuộc tính Thuộc tính nào có lượng Information gain lớn nhất thì sẽ là thuộc tính được chọn và

được dùng để chia tập ứng viên ra thành các tập con thuần nhất

Trang 33

24

2.1.5.1.2 Giải thuật Cây quyết định ID3

Function induce_tree(tập_ví_dụ, tập_thuộc_tính)

begin

if mọi ví dụ trong tập_ví_dụ đều nằm trong cùng một lớp then

return một nút lá được gán nhãn bởi lớp đó

else if tập_thuộc_tính là rỗng then

return nút lá được gán nhãn bởi tuyển của tất cả các lớp trong

tập_ví_dụ

else

begin

chọn một thuộc tính P, lấy nó làm gốc cho cây hiện tại;

xóa P ra khỏi tập_thuộc_tính;

với mỗi giá trị V của P

begin

tạo một nhánh của cây gán nhãn V;

Đặt vào phân_vùngV các ví dụ trong tập_ví_dụ có giá trị V tại

Xây dựng cây quyết định với tập ví dụ chơi đá bóng

Bảng 2.1 Tập mẫu huấn luyện chơi đá bóng (1) Quang cảnh Nhiệt độ Độ ẩm Gió Chơi đá bóng?

Trang 34

25

Trong ví dụ tại bảng 2.1 thì tập mẫu huấn luyện S gồm 14 mẫu, và gồm 5 thuộc tính ứng viên Khi thực hiện thuật toán ID3 thì nút gốc được khởi tạo, việc tính độ đồng nhất của tập dữ liệu như sau:

Entropy(S) = - (9/14) log 2 (9/14) - (5/14) log 2 (5/14) = 0.940

Để xây dựng cây quyết định theo thuật toán ID3, cần xác định các giá trị Gain cho các thuộc tính ứng viên (quang cảnh, nhiệt độ, độ ẩm và gió)

Gain(Quang cảnh) = Entropy(S) – (5/14 Entropy(SNắng)

+ 4/14 Entropy(SÂm u) + 5/14 Entropy(SMưa) )

= 0.940 - (5/14* 0.971 + 4/14* 0 + 5/14* 0.971)

= 0.246 Tương tự ta tính cho các thuộc tính ‘Độ ẩm’, ‘Gió’, ‘Nhiệt độ’

Trang 35

26

Hình 2.2 Cấp đầu tiên của Cây quyết định (ID3) với nút gốc là Quang cảnh

b, Xây dựng cấp thứ 2 của cây quyết định

Sau khi lập được cấp đầu tiên của cây quyết định, để xây dựng cấp thứ 2 của cây quyết định, ta tiếp tục xét nhánh Nắng, cần thực hiện việc tính Entropy(SNắng)

và Gain cho từng thuộc tính trên nhánh nắng, ta có:

Entropy(S Nắng ) = - 2/51og2(2/5) - 3/51og2(3/5) = 0.971

Độ đo tỷ lệ Gain nhánh nắng cho thuộc tính “Nhiệt độ”

Gain(S Nắng ,Nhiệt độ) = Entropy(SNắng) - (2/5)Entropy(SNóng)

- (2/5) Entropy(Sấm áp) - (l/5) Entropy(SMát) = 0.971 - (2/5) x 0-(2/5) x l - (l/5) x 0 = 0.571

Hình 2.3 Cấp thứ hai của Cây quyết định (ID3) với nhánh Nhiệt độ

Độ đo tỷ lệ Gain nhánh nắng cho thuộc tính “Gió”

Trang 36

27

Hình 2.4 Cấp thứ hai của Cây quyết định (ID3) với nhánh Gió

Gain(S Nắng , Gió) = Entropy(SNắng) - (2/5)Entropy(SNhẹ)

- (3/5) Entropy(Smạnh)

= 0.971 - (2/5) x l - (3/5) x (-(1/3log2(1/3)- 2/3log2(2/3)) = 0.020

Độ đo tỷ lệ Gain nhánh nắng cho thuộc tính “Độ ẩm”

Hình 2.5 Cấp thứ hai của Cây quyết định (ID3) với nhánh Độ ẩm

Gain(S Nắng , Độ ẩm) = Entropy(SNắng) - (3/5)Entropy(Scao)

- (2/5) Entropy(STB) = 0.971 - (3/5) x 0 - (2/5) x 0 = 0.971

So sánh hiệu suất phân loại của 3 thuộc tính Nhiệt độ, Gió và Độ ẩm thì thuộc tính Độ ẩm có hiệu suất phân loại cao nhất trong nhánh Nắng nên chọn thuộc tính Độ ấm làm nút kế tiếp

Trang 37

28

Hình 2.6 Cấp thứ hai của Cây quyết định (ID3) với nút kế tiếp là thuộc tính Độ ẩm

Thực hiện tương tự với nhánh Mưa, ta có:

Entropy(S Mưa ) = 0.971;

Gain(S Mưa , Nhiệt độ) = 0.020;

Gain(S Mưa , Gió) = 0.971;

Trong nhánh này thuộc tính gió có hiệu suất phân loại cao nhất trong nhánh Mưa nên chọn thuộc tính Gió làm nút kế tiếp

Cây quyết định cuối cùng có dạng:

Hình 2.7 Mô hình cây quyết định xây dựng bằng thuật toán ID3

c Luật rút ra từ cây quyết định

Luật 1: if (Quang cảnh = Nắng) and (Độ ẩm = cao) then Chơi đá bóng =

Không

Trang 38

29

Luật 2: if (Quang cảnh = Nắng) and (Độ ẩm = Trung bình) then Chơi đá bóng=

Có

Luật 3: if (Quang cảnh = Âm u) then Chơi đá bóng = Có

Luật 4: if (Quang cảnh = Mưa) and (Gió = Nhẹ) then Chơi đá bóng = Có Luật 5: if (Quang cảnh = Mưa) and (Gió = Mạnh) then Chơi đá bóng =

Không

2.1.5.2 Thuật toán C4.5

2.1.5.2.1 Giới thiệu thuật toán C4.5

Thuật toán ID3 bị giới hạn bởi việc liên quan đến những thuộc tính mang những giá trị rời rạc rõ ràng, còn những thuộc tính liên tục hoặc những thuộc tính kiểu số thì thuật toán ID3 rất khó xử lý Trong thuật toán C4.5 sẽ mở rộng phạm vi hoạt của thuật toán cho những thuộc tính có giá trị liên tục (giá trị số) để phù hợp với thực tế; thuật toán C4.5 đưa ra định nghĩa những giá trị rời rạc mới để phân những giá trị liên tục thành những thuộc tính tượng trưng một lần nữa theo các quy tắc sau:

Dựa trên một giá trị nếu muốn phân chia nhị phân; Dựa trên vài giá trị nếu muốn có nhiều nhánh; Với mỗi giá trị tính các mẫu thuộc một lớp theo dạng A< v

và A >v (Cách chọn giá trị v hiệu quả: Sắp xếp các giá trị tăng dần; Chọn giá trị trung bình của từng cặp giá trị của thuộc tính để phân chia và tính chỉ số gain; Chọn giá trị phân chia có chỉ số Gain cao nhất)

Một vấn đề nữa là thuật toán ID3 bị giới hạn bởi việc liên quan đến những thuộc tính có nhiều giá trị, mà các giá trị này lại duy nhất Khi đó, việc chia một tập

dữ liệu thành thành quá nhiều các tập con dẫn đến số lượng các lớp tại mỗi nút giảm

và do đó Entropy trên thuộc tính đó cũng giảm theo, nên sự thu thập thông tin (Gain) sẽ cao hơn các thuộc tính khác Vì vậy thuộc tính này sẽ được lựa chọn thường xuyên để tách, dẫn đến độ phân nhánh lớn, cây sẽ rất lớn và phức tạp

Ví dụ: Thêm thuộc tính “Ngày” vào bảng dữ liệu thời tiết về chơi đá bóng như ví dụ trên Thuộc tính “Ngày” có nhiều nhất những giá trị trong việc phân chia tập dữ liệu huấn luyện thành những tập nhỏ Cũng chính vì điều này nó sẽ có thu

Trang 39

Một sự cải tiến nữa của của thuật toán C4.5 đó là thuộc tính thiếu giá trị, đây

là một vấn đề cũng hay xảy ra trong thực tế Một cách đơn giản là bỏ đi các mẫu này tuy nhiên nếu có quá nhiều giá trị thiếu hay vai trò của chúng là quan trọng thì

sẽ không khả thi Thuật toán C4.5 đưa ra giải pháp:

Giải pháp 1: Thay bằng giá trị xuất hiện nhiều nhất của thuộc tính A;

Giải pháp 2: Thay bằng giá trị xuất hiện nhiều nhất của thuộc tính A mà có

cùng giá trị hàm mục tiêu

Giải pháp 3: Tính lại các công thức dựa trên những giá trị đã có của thuộc

tính A (loại các giá trị bị thiếu, nếu số lượng các giá trị bị thiếu không nhiều)

Bảng 2.2 Tập mẫu huấn luyện chơi đá bóng (2) Ngày Quang cảnh Nhiệt độ Độ ẩm Gió Chơi đá bóng

Trang 40

31

Với ví dụ như bảng 2.3, ta có tập mẫu chơi đá bóng

Với giải pháp thứ nhất, ta có Thuộc tính Gió [9 Nhẹ, 5 Mạnh], do nhiều giá trị ‘Nhẹ’ hơn giá trị bản ghi 15 là “Nhẹ”

Với giải pháp thứ 2: dựa vào hàm mục tiêu Chơi đá bóng ta thấy rằng:

Với 3 giá trị ‘Mạnh’, 2 giá trị ‘Nhẹ’ của thuộc tính Gió dẫn tới quyết định Không chơi bóng nên bản ghi thứ 15 là Mạnh

2.1.5.2.2 Giải thuật Cây quyết định C4.5

Thuật toán tạo cây (S, C)

Bước 1 Tính toán tần suất các giá trị trong các lớp của S

Bước 2 Kiểm tra các mẫu, nếu thuộc cùng một lớp hoặc có rất ít mẫu khác

lớp> thì <trả về một nút lá>, ngược lại <Tạo một nút quyết định N>;

Bước 3 Tính giá trị Gain cho mỗi giá trị thuộc tính A

Bước 4 Tại nút N thực hiện kiểm tra để chọn ra thuộc tính có giá trị Gain lớn

nhất Gọi N.test là thuộc tính có Gain lớn nhất

Bước 5 Nếu N.test là thuộc tính liên tục thì <tìm ngưỡng cho phép tách của

N.test

Bước 6 Với tập S thành các tập con S’ (được tách theo quy tắc: Nếu N.test là

thuộc tính liên tục, tách theo ngưỡng ở bước 5; Nếu N.test là thuộc tính phân loại rời rạc tách theo các giá trị của thuộc tính này)

Bước 7 Nếu S’ = rỗng thì gán nút con này của N là nút lá, ngược lại thì gán

nút con này là nút được trả về bằng cách gọi đệ quy lại với hàm Create_tree(S’) với tập S’

Bước 8 Tính toán lại lỗi của nút N

Bước 9 Return N

Định dạng
Số trang	98
Dung lượng	1,75 MB