Phân tích dự báo (chương 4, đề cương khai phá dữ liệu)

Để tính toán cách đo này, nhãn lớp thực tế của một tập dữ liệu thử nghiệm được khớp với các nhãn lớp được mô hình dự đoán.. Sử dụng tập dữ liệu huấn luyện để thiết lập một mô hình phân l

Trang 1

ĐẠI HỌC BÁCH KHOA HÀ NỘI

HANOI UNIVERSITY OF SCIENCE AND TECHNOLOGY

BÁO CÁO CUỐI KỲ

Môn: Hệ hỗ trợ quyết định

Đề tài: Phân tích dự báo (Chương 4, đề cương Khai phá dữ liệu)

Hà Nội – 2020

Trang 2

MỤC LỤC

1) Phân tích hồi quy……… 2

1.1) Hồi quy tuyến tính đơn……… 3

1.2) Hồi quy tuyến tính bội……….10

1.3) Hồi quy Logistic……… 15

2) Đánh giá mơ hình ……… 19

2.1) Sai số……… 20

2.2) Độ chính xác………21

2.3) Sự phù hợp……… 27

2.4) Quá khớp và dưới khớp……… 32

3) Phân lớp……….35

3.1) Khái niệm……… ……….35

3.2) k-Nearest Neighbor……… …… 38

3.3) Nạve Bayes……….41

3.4) Cây quyết định……….46

3.5) Support Vector Machine……… 53

3.6) Mạng Neural………65

4) Phân tích chuỗi thời gian………79

4.1) Các yếu tố của chuỗi thời gian……….80

4.2) Mơ hình Holt-Winter……… 91

4.3) Quá trình dừng……… ……… 94

4.4) Mơ hình ARIMA……… …….112

4.5) Mơ hình SARIMA……… … 120

4.6) Mơ hình GARCH……… …124

5) Phân tích sự xuất hiện theo chuỗi……… 134

Trang 3

1 Phân tích hồi quy

Trong mô hình thống kê, phân tích hồi quy là một tập hợp các quá trình thống

kê để ước tính mối quan hệ giữa một biến phụ thuộc (thường được gọi là 'biến kết

quả' - ‘outcome’ variable) và một hoặc nhiều biến độc lập (thường được gọi là 'dự

đoán' (predictors), hoặc ‘đặc trưng’(features)) Từ đó người ta có thể dự báo về biến

phụ thuộc (chưa biết) dựa vào giá trị cho trước của biến độc lập (đã biết)

Ví dụ thực tế, ta có 1 bảng dữ liệu về chiều cao và cân nặng của 15 người như

dưới đây:

Biểu diễn các điểm dữ liệu bằng đồ thị ta được

Trang 4

Ta thấy các điểm dữ liệu gần như xếp dọc theo một đường thẳng nào đó Vậy trong trường hợp này ta sẽ tìm một đường thẳng phù hợp nhất, là đồ thị của hàm số biểu diễn sự tương quan giữa 2 biến chiều cao và cân nặng Từ đó ta có thể dự đoán chiều cao dựa vào cân nặng (hoặc ngược lại)

Ví dụ trên là một ví dụ về hồi quy tuyến tính (Linear Regression) sẽ được đề cập ở phần sau

1.1 Hồi quy tuyến tính đơn

Hồi quy tuyến tính đơn biến liên quan đến việc tìm mối quan hệ tuyến tính giữa một biến độc lập X và 1 biến phụ thuộc Y Mối quan hệ giữa X và Y được biểu diễn bằng phương trình tuyến tính:

Y     X 

Từ “tuyến tính” ở đây có nghĩa là giá trị kỳ vọng của biến Y là hàm tuyến tính đối với biến X Trong phương trình trên, β là hệ số chặn và β là hệ số góc của đường hồi quy, ϵ là sai số ngẫu nhiên của mô hình (bao gồm sai số khi đo đạc và tác động

của một số biến ngẫu nhiên khác không được xét đến trong mô hình)

Với n quan sát của biến Y và các giá trị tương ứng của X, mô hình của chúng

Giả thiết 1 ám chỉ rằng Yi chỉ phụ thuộc vào Xi và sự dao động của các giá trị Yi

quanh giá trị kỳ vọng là ngẫu nhiên Giả định 2 và 3 khẳng định phương sai của

i

 không phụ thuộc vào 𝑋 và các biến  không tương quan với nhau i

Trong thực tế, ta không thể biết được giá trị các tham số tập nền 𝛽 , 𝛽 nên

ta cần phải ước lượng chúng từ dữ liệu mẫu Gọi 𝑏 và 𝑏 là ước lượng của β và

β Mô hình ước lượng cho hồi quy đơn biến là:

Trang 5

a Phương pháp bình phương tối thiểu

Phương pháp bình phương tối thiểu là quy trình sử dụng dữ liệu mẫu để tìm giá trị ước lượng của các giá trị tham số Với mỗi giá trị b0và b1 ta thu được một đường phù hợp nhất tiềm năng Sử dụng phương pháp bình phương tối thiểu, ta thu được bộ tham số cực tiểu hóa tổng bình phương khoảng cách theo chiều dọc của mỗi điểm dữ liệu tới đường hồi quy:

1

2 0

b b i i





Trang 6

Hệ số b0 và b1 cực tiểu hóa SSE có thể tìm ra bằng phương pháp giải tích

i n

i n i

Ví dụ 1: Sinh viên trong 1 lớp học thống kê cho rằng làm bài tập về nhà không giúp

họ chuẩn bị cho bài thi giữa kỳ Điểm bài kiểm tra y và điểm bài tập về nhà x của 18 sinh viên được cho trong bảng sau:

Trang 7

61.389 0.8726(58.056) 10.73

n

i i i

i n i

Trang 8

mô hình Sự dự báo giá trị biến phụ thuộc bên ngoài vùng thí nghiệm được gọi là ngoại suy và có rủi ro bởi chứng ta không có bằng chứng thực nghiệm cho thấy quan hệ tuyến tính giữa Y và X là đúng cho cho các giá trị X bên ngoài khoảng giá trị của bộ dữ liệu Cần tránh ngoại suy khi có thể

b Kiểm đinh giả thuyết về hệ số hồi quy

Sự hữu dụng của biến X khi sử dụng để dự báo Y có thể được đánh giá một cách không chính thức bằng cách kiểm tra hệ số tương quan giữa chúng hoặc vẽ biểu đồ tán xạ (scatter plot) Một cách chính thức hơn để đánh giá là tiến hành kiểm định giả thuyết về hệ số hồi quy 1 Cần chú ý rằng giả thuyết 1 = 0 có nghĩa là không có quan hệ tuyến tính giữa Y và X Một phép kiểm định giả thuyết này cần 1 số giả định sau Với mỗi giá trị của X, các giá trị  tuân theo quy luật phân phối chuẩn với

kỳ vọng 0 và phương sai Với giả định này b0và b1 lần lượt là ước lượng không chệch của 0 và 1 Phương sai của chúng lần lượt là:

2 2

1ar(b )

XV

với SSE là tổng bình phương của thặng dư (residual) Phần mẫu số n – 2 được gọi

là bậc tự do và nó nó bằng với số điểm dữ liệu trừ đi số lượng hệ số hồi quy Thay thế 2 bằng ˆ2 ta thu được ước lượng không chệch của phương sai của b và 0 b 1

Trang 9

2 2

i

XV

Sau khi biết phân phối của b và 0 b , ta có thể tiến hành đánh giá sự hữu dụng của 1

X khi sử dụng để dự báo Y Với giả thiết chuẩn, thống kê phù hợp để kiểm định giả thuyết H0: 1 = 0 và giả thuyết đối 1  0 là thống kê Student:

2

1

1ˆ

bt

c Khoảng tin cậy cho hệ số hồi quy

Để xây dựng khoảng tin cậy cho hệ số hồi quy, ta cũng cần giả thiết chuẩn của  Khoảng tin cậy (1) x 100% cho b0 và b1 được cho bởi:

ˆ

Trang 10

d Đánh giá mô hình hồi quy

Sau khi khớp một mô hình tuyến tính đối với 1 bộ dữ liệu, ta không chỉ quan tâm liệu quan hệ tuyến tính giữa 2 biến có tồn tại, mà còn muốn đánh giá chất lượng của mô hình khi dùng để dự báo Chất lượng của mô hình có thể được đánh giá bằng 1 số cách:

- Khi sử dụng phép kiểm định hệ số hồi quy, nếu giả thuyết H0 bị bác bỏ, độ lớn của thống kê t1 cho chúng ta thông tin về cường độ của quan hệ tuyến tính giữa X và Y Về cơ bản, t1 càng lớn (theo giá trị tuyệt đối), quan hệ tuyến tính giữa X và Y càng mạnh

- Cường độ của quan hệ tuyến tính giữa X và Y có thể được đánh giá trực tiếp bằng cách kiểm tra biểu đồ tán xạ của X và Y và giá trị hệ số tương quan or( , )

C Y X Các điểm dữ liệu càng gần đường hồi quy (giá trị của Cor(Y, X) càng gần -1 hoặc 1), quan hệ tuyến tính càng mạnh Cách tiếp cận này khá chủ quan nhưng không cần giả thiết chuẩn của 

Hình 1.3

- Sau khi tính ước lượng bình phương tối thiểu của tham số mô hình, tiếp tục tính toán các đại lượng sau:

2 2 2

Trang 11

với SST là tổng bình phương độ lệch của Y khỏi giá trị trung bình Y , SSR là tổng độ lệch bình phương của Y khỏi giá trị dự báo bởi mô hình, SSE là tổng bình phương của thặng dư

Hình 1.4 Tổng độ lệch bình phương SST có thể phân rã thành 2 đại lượng Thứ nhất, SSR, đánh giá chất lượng của X khi dùng để dự báo Y Thứ hai, SSE, đánh giá sai

số khi dự báo

SST = SSR +SSE Tỷ lệ R2 = SSR/SST có thể hiểu là tỷ lệ tổng dao động trong Y được giải thích bởi

X Chú ý là 0R2  vì 1 SSE  SST Nếu R2 gần 1, X giải thích được phần lớn dao động trong Y Vì lý do này, R2 còn được gọi là hệ số quyết định vì nó cho ta biết vì nó cho ta biết độ tốt của X khi quyết định giá trị của Y

1.2 Hồi quy tuyến tính bội

Mô hình hồi quy tuyến tính bội là sự mở rộng của hồi quy tuyến tính đơn bằng cách dùng 2 hay nhiều hơn biến phụ thuộc Gọi X X1, 2, , Xplà các biến độc lập Phương trình hồi quy tuyến tính bội có dạng

với  0, , ,1 plà tham số của mô hình và  là sai số ngẫu nhiên

Trong 1 mẫu dữ liệu có n quan sát, mô hình hoàn chỉnh trở thành:

Trang 12

p p

Ma trận X ở đây được gọi là ma trận thiết kế và có cột đầu tiên toàn 1 là thừa số của

hệ số 0 Sai số ε tuân theo 1 số giả định:

( )

E ε 0 và Cov( )ε 2In

a Ước lượng bình phương tối thiểu

Dựa trên bộ dữ liệu mẫu, ta muốn ước lượng các tham số  0, , ,1 p Gọi các ước lượng của  0, , ,1 plần lượt là  ˆ0, ˆ ,1,ˆp Mô hình ước lượng cho hồi quy bội

2

2 0

i i

Trang 13

Ước lượng bình phương tối thiểu có các tính chất sau:

- Vector hệ số ˆβ là ước lượng không chệch của β và có phân phối chuẩn (p+1) chiều với E( ˆβ)β với ma trận hiệp phương sai

1 2

b Thuật toán gradient descent

Khi tính toán ước lượng bình phương tối thiểu của mô hình hồi quy tuyến tính, ta cần phải tính (X XT ) 1 là nghịch đảo của ma trận (p+1) x (p+1) Vì vậy, khi số biến độc lập tăng lên, tốc độ tính toán cũng chậm lại Trong trường hợp số biến độc lập lớn, gradient descent là phương pháp được ưa dùng hơn

Gradient descent là thuật toán tối ưu dùng để tìm giá trị tham số của 1 hàm f nào đó sao cho giá trị của “hàm mất mát” là nhỏ nhất Phần này sẽ mô tả thuật toán gradient descent cho hồi quy tuyến tính Để đơn giản, ta sẽ tập trung vào mô hình hồi quy đơn với 2 tham số: Y  0 1X

Với bộ dữ liệu gồm n quan sát, cần tìm bộ hệ só 0và 1 để cực tiểu hóa hàm mất mát

Trang 14

Hình 1.5

Một vị trí bất kỳ trong cái bát là giá trị của hàm mất mát với 1 bộ tham số  0, 1nào đó Đáy của cái bát chính là cực tiểu của hàm mất mát, ứng với bộ hệ số cần tìm

Gradient descent là 1 thuật toán lặp, tại bước lặp t, nó sẽ di chuyển vector hệ số theo hướng ngược lại của vector gradient của hàm mất mát:

với β ( 0, )1 T

Như đã học trong giải tích, hướng ngược lại của vector gradient là hướng mà hàm

số giảm nhanh nhất tại điểm đang xét Vì vậy, người ta còn gọi phương pháp này là phương pháp giảm nhanh nhất

Nói ngắn gọn, đầu tiên, thuật toán sẽ khởi tạo  0, 1 ngẫu nhiên Sau đó, tại mỗi bước lặp, tính gradient của hàm mất mát và cập nhật hệ số  0, 1 Để kiểm soát tốc

độ thay đổi của  0, 1, cần phải sử dụng tham số learning rate của thuật toán

Trang 15

1 1

L

nL

11

XXX

Một điều cần lưu ý khi chạy gradient descent là chọn learning rate Nếu learning

rate quá nhỏ, thuật toán sẽ phải chạy nhiều bước lặp để hội tụ

Hình 1.6 Learning rate quá bé

Trang 16

Mặt khác, nếu learning rate quá lớn, thuật toán có thể phân kỳ:

Hình 1.7 Learning rate quá lớn

Hàm mất mát của hồi quy tuyến tính là hàm lồi, nghĩa là nếu lấy 2 điểm bất kỳ trên

đồ thị và kẻ một đường thẳng thì không cắt điểm thứ 3 Điều này nghĩa là hàm mất mát không có cực tiểu địa phương (local minimum), chỉ có 1 cực tiểu toàn cục (global minimum) Thuật toán gradient descent sẽ chắc chắn hội tụ tới cực tiểu toàn cục hoặc gần cực tiểu toàn cục nếu chạy đủ số vòng lặp và learning rate không quá cao

1.3 Hồi quy logistic

a Mô hình

Mặc dù có từ hồi quy trong tên, nhưng hồi quy logistic lại không dùng để dự đoán giá trị của 1 biến phụ thuộc Y liên tục mà lại là mô hình tuyến tính dùng trong bài toán phân lớp nhị phân Hồi quy logistic có rất nhiều điểm chung với hồi quy tuyến tính Cả 2 để đều mô hình hóa biến phụ thuộc với 1 đường thẳng (hoặc mặt phẳng trong không gian nhiều chiều) Hồi quy tuyến tính sử dụng đường thẳng để dự đoán giá trị biến phụ thuộc, trong khi hồi quy logistic sử dụng đường thẳng để phân chia

2 lớp

Do biến phụ thuộc Y chỉ có 2 giá trị nên có thể mã hóa chúng thành 0 va 1 Thay vì

dự đoán 2 giá trị này, ta sẽ dùng mô hình để dự đoán xác suất biến phụ thuộc nhận

1 trong 2 giá trị

Hồi quy logistic mô hình hóa quan hệ giữa f X( ) P Y( 1| ,X )và X Nếu sử dụng mô hình hồi quy tuyến tính ở đây, ta sẽ có

Trang 17

0 1( )

1( )

Trang 18

p p

p p X

p X

ee

b Ước lượng hợp lý cực đại

Giống như ước lượng bình phương tối thiểu, ước lượng hợp lý cực đại là 1 cách để ước lượng tham số mô hình

Với mô hình logistic regression, ta có thể giả sử rằng xác suất để 1 điểm dữ liệu X rơi vào lớp 1 là fβ( )X và rơi vào lớp 0 là 1fβ( )X Với mỗi điểm dữ liệu trong bộ

dữ liệu có n quan sát, ta có thể viết:

)) 1

ββTrong đó, P Y( i 1|Xi,β) fβ( )Xi được hiểu là xác suất xảy ra sự kiện quan sát thứ i rơi vào class 1 với bộ tham số βvà dữ liệu đầu vào Xi Mục tiêu của chúng ta

là tìm bộ hệ số βsao cho fβ(Xi) càng gần với 1 càng tốt Hai biểu thức trên có thể viết gộp lại thành:

Trực tiếp tối ưu β là không đơn giản, vì vậy người ta thường đi tối ưu logarit tự nhiên của hàm likelihood:

Trang 19

Vậy làm cách nào ta có thể cực đại hóa hàm này Giống với hồi quy tuyến tính, ta

có thể dùng gradient descent Bằng cách đổi dấu của hàm log likelihood L β*( ) và lấy nó làm hàm mất mát

1

p p

ij 1

111

ij n

i n

Trang 20

( )T

Hình 2.1 Trong k-fold cross-validation, dữ liệu ban đầu được chia ngẫu nhiên thành k tập hợp con độc lập hỗ trợ lẫn nhau (folds), D D1, 2, , Dk, mỗi tập kích thước xấp xỉ bằng nhau Huấn luyện và thử nghiệm được thực hiện k lần Trong lần lặp i, tập

Trang 21

D được dành riêng như tập kiểm thử, và tập còn lại được sử dụng chung để huấn luyện mô hình Trong lần lặp đầu tiên, tập hợp D2, , Dk được dùng chung để huấn luyện để mô hình và được thử nghiệm trên D1; lần lặp thứ hai được huấn luyện trên các tập con D D1, 3, , Dk và thử nghiệm trên D2; và cứ thế Ở đây mỗi mẫu được sử dụng cùng một số lần để huấn luyện và một lần để thử nghiệm Đối với phân loại, ước tính độ chính xác chính là tổng số phân loại đúng từ số lần lặp k, chia cho tổng

số bộ dữ liệu trong dữ liệu ban đầu

x  x x   , với mỗi chiều được coi là một đặc trưng (feature)

Gọi miền của các instance là X, miền của các nhãn (label) là Y

Loss Function: Với mỗi instance x X  , gọi y Y  là nhãn thực sự và hàm dự đoán f x ( ) Hàm mất mát c x y f x ( , , ( )) 0,  đo lường mức độ tổn thất hoặc chi phí của việc dự đoán

Chẳng hạn, trong hồi quy, chúng ta có thể xác định lỗi bình phương (squared loss) là c x y f x ( , , ( )) (  y  f x ( )) 2

Trong phân lớp, hàm mất mát thường được sử dụng là 0 /1 loss

( , , ( )) 1

c x y f x  nếu y  f x ( )và bằng 0 nếu trái lại

Hàm mất mát có thể khác nhau Trong chẩn đoán y khoa, chúng ta có thể sử dụng c x y healthy f x ( ,  , ( )  diseased ) 1  và c x y diseased f x ( ,  , ( )  healthy ) 100  Hàm mất mát có thể phụ thuộc vào instance x: cùng một lỗi dự đoán y tế nhưng mất mát phải gánh chịu ở trẻ sơ sinh có thể cao hơn so với người lớn

Trang 22

2.2 Độ chính xác

a Đánh giá độ chính xác hệ thống phân loại

Phương pháp hai bước phổ biến nhất của hệ thống phân loại liên quan đến phát triển mô hình/huấn luyện và thử nghiệm/triển khai mô hình Trong gia đoạn phát triển mô hình, một tập dữ liệu đầu vào, bao gồm các nhãn lớp trên thực tế, được sử dụng Sau khi mô hình đã được huấn luyện, mô hình được kiểm tra dựa trên mẫu nắm giữ để đánh giá độ chính xác và cuối cùng được triển khai để sử dụng trên thực tế Khi đó mô hình phải dự đoán các lớp của các dữ liệu mới (lớp không biết rõ) Một số yếu tố được xem xét trong việc đánh giá mô hình, bao gồm những điều sau đây:

• Độ chính xác dự đoán (predictive accuracy): Khả năng mô hình hóa dự đoán chính xác nhãn lớp mới hoặc dữ liệu chưa từng thấy trước đây Độ chính xác dự đoán là yếu tố đánh giá được sử dụng phổ biến nhất cho các mô hình phân loại Để tính toán cách đo này, nhãn lớp thực tế của một tập dữ liệu thử nghiệm được khớp với các nhãn lớp được mô hình dự đoán Độ chính xác khi đó có thể được tính là tỷ

lệ chính xác, là tỷ lệ phần trăm của mẫu dữ liệu kiểm thử được phân loại chính xác theo mô hình

• Tốc độ (speed) Các chi phí tính toán liên quan đến việc tạo ra và sử dụng

mô hình, trong đó nhanh hơn được coi là tốt hơn

• Robustness Khả năng mô hình đưa ra dự đoán chính xác một cách hợp

lý, trong đó dữ liệu bị nhiễu hoặc dữ liệu với các giá trị thiếu và sai

• Scalability Khả năng xây dựng một mô hình dự đoán có hiệu quả với lượng dữ liệu lớn

• Interpertability Mức độ hiểu biết và tri thức sâu sắc (insight) được cung cấp bởi mô hình

b Các tiêu chí đánh giá

Ta này trình bày các phương pháp để đánh giá độ tốt hay mức độ chính xác của mô hình phân loại trong việc dự đoán nhãn của các bộ dữ liệu Ta sẽ xem xét trường hợp các lớp được phân phối nhiều hơn hoặc ít hơn, cũng như trường hợp các lớp không cân bằng

Các phương pháp đánh giá phân loại được trình bày trong phần này được tóm tắt trong Hình 2.2 Chúng bao gồm: tỷ lệ nhận dạng (accuracy), tỉ lệ tái hiện

Trang 23

(sensitivity/recall), specificity, tỉ lệ chính xác (precision), F1 và F Lưu ý rằng mặc dù độ chính xác (accuracy) là một thước đo cụ thể cho tỉ lệ nhận dạng, từ

“accuracy” cũng được sử dụng như một thuật ngữ chung để chỉ khả năng dự đoán phân loại

Sử dụng tập dữ liệu huấn luyện để thiết lập một mô hình phân loại và sau đó ước tính độ chính xác của mô hình đã học có thể dẫn đến các ước tính sai lệch quá mức do sự riêng biệt hóa của thuật toán đối với tập dữ liệu Thay vào đó, tốt hơn là

đo độ chính xác của mô hình phân loại trên tập kiểm thử bao gồm các bộ dữ liệu đã được gắn nhãn và chưa được sử dụng để huấn luyện mô hình

Chúng ta sẽ làm quen với một số thuật ngữ: các bộ dữ liệu positive (các bộ

dữ liệu của lớp “quan trọng”) và các bộ dữ liệu negative (các bộ dữ liệu còn lại) Giả sử cho hai lớp, các bộ dữ liệu positive là mua máy tính = có trong khi các bộ

dữ liệu negative là mua máy tính = không

Hình 2.2 Các phương pháp đánh giá Lưu ý rằng một số phương pháp có nhiều hơn một cách gọi TP, TN, FP, P, N theo thứ tự gắn với số các true positive, true

negative, false positive, positive và negative

Trang 24

Giả sử chúng ta sử dụng mô hình phân loại của mình trên một tập kiểm thử với các bộ dữ liệu đã được gán nhãn P là số các bộ dữ liệu positive và N là số các

bộ dữ liệu negative Đối với mỗi bộ, chúng ta so sánh lớp nhãn được dự đoán của

mô hình phân loại với nhãn đã biết của bộ dữ liệu

Có bốn thuật ngữ bổ sung mà chúng ta cần biết được sử dụng trong việc tính toán nhiều phương pháp đánh giá Hiểu chúng sẽ giúp ta dễ dàng nắm bắt ý nghĩa của nhiều phương pháp khác nhau:

True positives (TP): Chúng đề cập đến các bộ dữ liệu positive được phân loại chính xác bởi mô hình phân loại

True negatives (TN): Đây là các bộ dữ liệu negative được phân loại chính xác bởi mô hình phân loại

False positives(FP): Đây là các bộ dữ liệu negative được gắn nhãn không chính xác là positive (ví dụ: bộ thuộc lớp mua máy tính = không trong khi mô hình phân loại dự đoán mua máy tính = có)

False negatives (FN): Đây là các bộ dữ liệu positive được gắn nhãn không chính xác là negative (ví dụ: bộ thuộc lớp mua máy tính = có mà mô hình phân loại

dự đoán mua máy tính = không)

Các thuật ngữ này được tóm tắt trong confusion matrix (ma trận nhầm lẫn) Hình 2.3

Confusion matrix là một công cụ hữu ích để đánh giá chất lượng của mô hình phân lớp trong việc phán đoán các bộ dữ liệu thuộc nhiều lớp khác nhau TP

và TN cho ta biết khi mô hình phân loại đúng, trong khi FP và FN cho ta biết khi

mô hình đang phân loại sai (gán nhãn sai)

Hình 2.3 Ma trận nhầm lẫn (confusion matrix)

Trang 25

Hình 2.4 Confusion matrix cho các lớp mua máy tính = có và mua máy tính = không , trong đó mục trong hàng i và cột j hiển thị số bộ dữ liệu của lớp i được gắn nhãn của lớp j Lý tưởng nhất là khi các mục không nằm trên đường chéo bằng 0

hoặc gần bằng 0

Cho m lớp (trong đó m ), confusion matrix là một bảng có kích thước tối 2thiểu m m Mục CMi j, trong m hàng và m cột đầu tiên cho biết số các bộ dữ liệu của lớp i đã được phân loại gán nhãn là lớp j Để một mô hình phân loại có độ chính xác tốt, lý tưởng nhất là các bộ dữ liệu sẽ được biểu diễn dọc theo đường chéo của confusion matrix, từ mục CM1,1 đến mục CMm,m, với các mục còn lại bằng

0 hoặc gần bằng 0 Đó là trường hợp lý tưởng nhất, FP và FN gần bằng 0

Bảng có thể có các hàng hoặc cột bổ sung để cung cấp tổng số Ví dụ, trong confusion matrix của Hình 2.3, P và N được hiển thị Ngoài ra, P’ là số bộ dữ liệu được phân là positive (TP FP) và N’ là số bộ dữ liệu được phân là negative (TN FN) Tổng số bộ dữ liệu là TP  TN  FP  TN, hoặc P N  hoặc P '  N ' Lưu ý rằng mặc dù biểu diễn confusion matrix dành cho bài toán phân lớp nhị phân, confusion matrix có thể được mở rộng cho nhiều lớp với cách thức tương tự

Bây giờ ta xem xét các phương pháp đánh giá, bắt đầu với độ chính xác Độ chính xác tổng thể (accuracy) của mô hình phân loại trên một tập kiểm thử là tỷ lệ phần trăm mẫu của tập kiểm thử được phân loại chính xác bởi mô hình phân loại:

TP TN accuracy

Trang 26

trên mỗi lớp và tổng thể Bằng cách xem qua confusion matrix, ta dễ dàng xét xem liệu mô hình phân loại tương ứng có gây nhầm lẫn hai lớp hay không

Ví dụ, ta thấy rằng nó bị gắn nhãn sai 412 bộ là “yes” trong khi đúng phải là

“no” Độ chính xác có hiệu quả nhất khi phân phối lớp tương đối cân bằng

Chúng ta cũng có thể định nghĩa về tỷ lệ lỗi (error rate) hoặc tỷ lệ phân loại sai (misclassification rate) của mô hình phân loại M, đơn giản bằng 1  accuracy M ( ), trong đó accuracy M ( ) là độ chính xác của M Nó cũng có thể được tính bằng:

Bây giờ chúng ta xem xét vấn đề mất cân bằng lớp, trong đó lớp quan tâm chính là “hiếm” Phân phối tập dữ liệu phản ánh đáng kể của lớp negative chiếm đa

số và lớp positive thiểu số Ví dụ, trong các ứng dụng phát hiện gian lận, lớp quan tâm positive là lừa đảo (fraud), xảy ra ít thường xuyên hơn so với lớp negative không lừa đảo (nonfraudulent) Trong dữ liệu y tế, có thể có một lớp hiếm gặp, chẳng hạn như ung thư (cancer) Giả sử ta đã huấn luyện một mô hình phân loại để phân loại các bộ dữ liệu y tế, trong đó thuộc tính nhãn lớp là ung thư và các giá trị lớp có thể là có và không Tỷ lệ accuracy giả sử là 97% làm cho việc phân loại trông có vẻ khá chính xác, nhưng nếu chỉ 3% trong số các bộ dự liệu huấn luyện thực sự là ung thư? Rõ ràng, tỷ lệ chính xác 97% có thể không được chấp nhận – chẳng hạn mô hình phân loại có thể chỉ gắn nhãn chính xác cho các bộ dữ liệu không ung thư, và phân loại sai tất cả các bộ dữ liệu ung thư Thay vào đó, chúng

ta cần các cách khác để đánh giá chất lượng mà mô hình phân loại có thể nhận ra các bộ dữ liệu positive (cancer yes) và các bộ dữ liệu negative (cancer no)

Các chỉ số sensitivity và specificity có thể được sử dụng, tương ứng, cho mục đích này Sensitivity cũng được gọi là tỷ lệ nhận biết true positive (nghĩa là tỷ

lệ các bộ dữ liệu positive được xác định chính xác), trong khi specificity là tỷ lệ nhận biết false negative (nghĩa là tỷ lệ của các bộ dữ liệu negative được xác định chính xác) Những chỉ số này được định nghĩa:

Trang 27

TP sensitivity

P



TN specificity

Hình 2.5 Confusion matrix cho các lớp cancer = yes và cancer = no

Sensitivity của mô hình là 90 30.00%

chính xác tổng thể accuracy của mô hình phân loại là 9650 96.50%

10000  Do đó, cần lưu ý rằng mặc dù mô hình có độ chính xác accuracy cao, nhưng khả năng gắn nhãn chính xác của lớp positive (hiếm) là kém do sensitivity thấp Nó có

specificity cao, có nghĩa là nó có thể nhận ra chính xác các bộ dữ liệu negative

Các chỉ số precision và recall cũng được sử dụng rộng rãi trong phân lớp Precision có thể được coi là thước đo độ chính xác (nghĩa là phần trăm các bộ dữ liệu được dán nhãn positive là đúng), trong khi đó, recall là một thước đo về tính đầy đủ (bao nhiêu phần trăm các bộ dữ liệu positive được gán nhãn như vậy) Nếu recall có vẻ quen thuộc, thì đó là vì nó giống như sensitivity (hay tỷ lệ positive thực sự) Những chỉ số này có thể được tính:

Trang 28

TP precision

TP FP





TP TP recall

(1 ) precision recall F

2.3 Sự phù hợp

a Đánh giá sư phù hơp các mô hình giựa trên lợi ích - chi phí

Các thuật ngữ true positives, true negatives, false positives, and false

negatives rất hữu ích trong việc đánh giá chi phí và lợi ích (hoặc rủi ro và lợi

nhuận) của một mô hình phân loại Chi phí gắn với false negative (chẳng hạn như

dự đoán không chính xác rằng bệnh nhân ung thư không bị ung thư) lớn hơn nhiều

so với chi phí gắn với false positive (gán nhãn một bệnh nhân không ung thư là ung thư) Trong các trường hợp như vậy, ta có thể gán một trọng số chi phí cho nó Những chi phí này được cân nhắc qua sự nguy hiểm cho bệnh nhân, chi phí điều

Trang 29

trị, và các chi phí khác của bệnh viện Tương tự như vậy, những lợi ích gắn với true positive có thể khác so với true negative

Ta có thể kết hợp đánh giá chi phí và lợi ích bằng cách tính chi phí (hoặc lợi ích) trung bình trên mỗi quyết định Các ứng dụng của phân tích lợi ích - chi phí bao gồm ra quyết định cho vay và gửi thư quảng cáo Ví dụ, chi phí khi cho một người không trả nợ vay sẽ cao hơn nhiều so với chi phí kinh doanh bị mất bởi từ chối khoản vay cho người có trả nợ Tương tự, trong một ứng dụng cố gắng xác định các hộ gia đình có khả năng phản hồi thư quảng cáo, chi phí gửi thư cho rất nhiều hộ gia đình không phản hồi có thể vượt quá chi phí kinh doanh bị mất bởi không gửi thư đến các hộ gia đình sẽ phản hồi Các chi phí khác cần xem xét bao gồm chi phí để thu thập dữ liệu và chi phí phát triển các công cụ phân loại

b ROC curves

Receiver operating characteristic curves là một công cụ trực quan hữu ích

để so sánh hai mô hình phân loại ROC curves xuất phát từ lý thuyết phát hiện tín hiệu được phát triển trong Thế chiến II để phân tích hình ảnh radar ROC curve của một mô hình cho thấy sự đánh đổi giữa tỷ lệ true positive (TPR) và tỷ lệ false positive (FPR) Với một tập kiểm thử và một mô hình, TPR là tỷ lệ của các bộ dữ liệu positive được gắn nhãn chính xác bởi mô hình; FPR là tỷ lệ các bộ dữ liệu negative được gắn nhãn sai là positive Trong đó TPR TP

Để vẽ ROC curve cho một mô hình phân loại nhất định M, mô hình phải có khả năng trả về xác suất dự đoán lớp cho mỗi bộ kiểm thử Với thông tin này, ta xếp hạng và sắp thứ tứ các bộ dữ liệu sao cho bộ dữ liệu có khả năng là positive nhất xuất hiện ở đầu danh sách và bộ dữ liệu ít có khả năng là positive nhất nằm ở cuối danh sách Các mô hình phân loại Naive Bayesian và backpropagation trả về phân phối xác suất lớp cho mỗi dự đoán,và do đó phù hợp, các mô hình phân loại khác, chẳng hạn như cây quyết định, có thể dễ dàng được sửa đổi để trả về dự đoán xác suất lớp

Trang 30

Gọi giá trị một mô hình phân loại xác suất trả về cho một bộ X là

 

( ) 0,1

f X  Đối với bài toán nhị phân, một ngưỡng t thường được chọn để các bộ

dữ liệu trong đó f X ( ) t  được xem là positive và tất cả các bộ dữ liệu khác được coi là negative

Ý tưởng ROC curve: Trục tung của ROC curve đại diện cho TPR Trục

hoành đại diện cho FPR Bắt đầu từ phía dưới góc trái (TPR FPR   0), chúng ta

kiểm tra lớp nhãn trên thực tế ở đầu danh sách Nếu bộ positive được phân loại

đúng là positive thì TP tăng và do đó TPR tăng Trên biểu đồ, ROC curve di

chuyển lên trên và vẽ một điểm Nếu bộ negative bị phân loại sai là positive thì cả

FP và FPR tăng Trên biểu đồ, ta di chuyển sang phải và vẽ một điểm Quá trình

này được lặp lại với mỗi bộ kiểm thử theo thứ tự được xếp hạng, mỗi lần ta di

chuyển lên nếu là true positive hoặc hướng về bên phải nếu là false positive

Hình 2.6 Các bộ được sắp giảm dần theo giá trị xác suất phân loại

Hình 2.6 Cột 3 cho thấy xác suất được trả về bởi một mô hình phân loại xác suất của 10 bộ dữ liệu trong một tập kiểm thử, xác suất được sắp giảm dần Cột 1

là chỉ số bộ, cột 2 là nhãn lớp trên thực tế của bộ dữ liệu Có năm bộ dữ liệu

positive và năm bộ dữ liệu negative, do đó P  5 và N  5

Trang 31

Khi kiểm tra nhãn lớp của mỗi bộ, chúng ta có thể xác định các giá trị của các cột còn lại TP, FP, TN, FN, TPR và FPR:

Bắt đầu với bộ 1, xác suất cao nhất và lấy đó là ngưỡng t  0.9 Do đó, mô hình phân loại coi bộ 1 là positive và tất cả các bộ dữ liệu khác là negative Vì nhãn lớp thực tế của bộ 1 là positive được phân loại đúng, nên TP  1 và FP  0 Trong số chín bộ dữ liệu còn lại, tất cả được phân loại là negative, năm bộ thực sự

là negative (do đó, TN  5) Bốn bộ còn lại trên thực tế là positive, do đó FN  4

5

TP TPR

P

   , trong khi FPR  0 Do đó, ta có điểm (0.2,0)

trên ROC curve

Hình 2.7

Trang 32

Tiếp theo, ngưỡng được đặt là giá trị xác suất của bộ 2, t  0.8, vậy bộ dữ liệu này hiện được coi là positive, trong khi các bộ 3 đến 10 được coi là negative Thực tế nhãn lớp của tuple 2 là dương nên TP  2 Phần còn lại của hàng có thể được tính dễ dàng, ta được điểm (0.4,0)

Tiếp theo, chúng ta kiểm tra nhãn lớp của bộ 3 và đặt ngưỡng t là 0.7 Như vậy tuple 3 là được coi là positive, nhưng nhãn thực tế của nó là negative, và do đó

nó là false positive Vậy TP giữ nguyên và FP lên bằng 1 Phần còn lại của các giá trị trong hàng cũng có thể dễ dàng tính toán, ta được điểm (0.4,0.2) Biểu đồ ROC

là đường nét đứt trong Hình 2.7

Có nhiều cách để có được một đường cong trong số những điểm này, phổ biến nhất trong đó là sử dụng bao lồi (convex hull) Đồ thị cũng cho thấy một đường chéo, đường này đại diện cho đoán ngẫu nhiên

Hình 2.8 ROC curve của hai mô hình phân loại M1 và M2

Trang 33

Hình 2.8 cho thấy các đường ROC curve của hai mô hình phân loại Đường chéo đại diện cho đoán ngẫu nhiên cũng được hiển thị Đường ROC curve của mô hình càng gần là đến đường chéo, mô hình càng kém chính xác Nếu mô hình thực

sự tốt, thì ban đầu ta sẽ có nhiều khả năng gặp phải true positive khi đi xuống danh sách xếp hạng Do đó, đường cong sẽ di chuyển dốc lên từ số không Sau đó, khi ta bắt đầu gặp phải ngày càng ít true positive, và càng nhiều false positive, đường cong bớt dốc và trở nên thoai thoải

Để đánh giá độ chính xác của một mô hình, chúng ta có thể tính diện tích phía dưới đường cong Một số gói phần mềm có thể tính toán như thế Diện tích càng gần 0.5 thì mô hình tương ứng càng ít chính xác Một mô hình với độ chính xác hoàn hảo sẽ có diện tích bằng 1.0

2.4 Quá khớp và dưới khớp

a Quá khớp (overfitting)

Một quy tắc ra quyết định được học qua một tập dữ liệu trong đó các giá trị mục tiêu đã biết Những dữ liệu này thường được gọi là dữ liệu huấn luyện Ý tưởng cơ bản quá trình học là xem xét sự khác biệt giữa kết quả dự đoán và giá trị mục tiêu đã biết trên tập dữ liệu huấn luyện và qua đó giảm thiểu sai khác thông qua một lớp quy tắc chấp nhận được Cấu trúc của một quá trình như vậy được trình bày ở Hình 2.9

Hình 2.9

Trang 34

Khi đó ý tưởng là cần có một lớp các quy tắc chấp nhận và xác định rõ, vì tập huấn luyện là hữu hạn và do đó, có thể khớp một cách chính xác bằng cách sử dụng đủ số lượng các tham số Tuy nhiên, điều này sẽ chỉ có hiệu lực trên tập huấn luyện, bởi sự phù hợp sẽ mô phỏng cả các sai số và nhiễu không thể tránh khỏi trong các quy trình thu thập dữ liệu Với ví dụ bài toán hồi quy 2D trên Hình 2.10

mô tả bảy điểm trên mặt phẳng xOu tương ứng với sự quan sát giá trị u dựa trên đầu vào x

Hình 2.10 Bảy điểm trên Hình 2.10 có thể được khớp một cách chính xác bởi một đa thức bậc 6

2 3 4 5 6

0 1 2 3 4 5 6 ( )

u  p x  a  a x a x   a x  a x  a x  a x Thật vậy, nó sẽ dẫn đến 7 phương trình ui  p x ( )i (i 1, ,7)  , do đó 7 hệ số ak của

đa thức có thể được xác định chính xác Có Nđiểm sẽ cần một đa thức bậc N để khớp với chúng

Tuy nhiên đồ thị của đa thức đi qua các điểm trên không có khả năng dự đoán cả trong và ngoài phạm vi trên Đồ thị có thể theo một trong các hướng (như trong hình) tùy thuộc vào những thay đổi nhỏ trong dữ liệu Tính hiệu quả của lý thuyết – trong trường hợp này là một đường hồi quy - nằm ở tính tổng quát hóa (generalization) Trong trường hợp này, có thể coi như là mối quan hệ giữa số lượng điểm quan sát được và số lượng các tham số Khi tỷ lệ này tương đối nhỏ các nhà thống kê gọi đây là một quy tắc quá khớp (over-fitted rule) Quá khớp

Trang 35

(overfitting) thường tạo ra những dự đoán rất kém đối với các quan sát mới được thêm vào Đường thẳng của hình 2.10 không khớp với bất kỳ điểm nào, nhưng nó vừa đơn giản, vừa biểu thị hiệu quả xu hướng của dữ liệu và nên được sử dụng vì

nó tóm lược dữ liệu tốt Với đường thẳng, bảy điểm quan sát được “tóm lược” chỉ trong hai tham số, trong khi đó đường đa thức không có sự tóm lược: nó chỉ có

nhiều tham số như các điểm dữ liệu mà thôi

b Dưới khớp (underfitting)

Dưới khớp là hiện tượng khi mô hình xây dựng chưa có độ chính xác cao

trong tập dữ liệu huấn luyện cũng như tính tổng quát với toàn thể dữ liệu

Xem ví dụ trong hình dưới, có 50 điểm dữ liệu trong đó đầu ra bằng một đa thức bậc ba của đầu vào Tập dữ liệu được chia làm hai phần: 30 điểm dữ liệu màu

đỏ là tập huấn luyện, 20 điểm dữ liệu màu vàng là dữ liệu kiểm thử Đồ thị của đa thức bậc ba này được cho bởi đường nét đứt màu xanh lục Bài toán đặt ra là giả sử

ta không biết mô hình ban đầu mà chỉ biết các điểm dữ liệu, hãy tìm một mô hình tốt để mô tả quan hệ giữa đầu vào và đầu ra của dữ liệu đã cho Giả sử cho thêm

rằng mô hình được mô tả bởi một đa thức

Áp dụng polynomial regression với đa thức bậc N Với N  2mô hình

không thực sự tốt vì mô hình dự đoán (đồ thị biểu diễn bởi đường màu xanh lam) quá khác so với mô hình thực, thậm chí nó có xu hướng đi xuống khi mà dữ liệu đang có xu hướng đi lên Đây là ví dụ cho trường hợp mô hình bị dưới khớp

(underfitting) Tuy nhiên với bậc N  4, mô hình dự đoán khá giống mô hình thực

và là một mô hình tốt

Trang 36

3 Phân lớp

Phân lớp là một hình thức phân tích dữ liệu trích xuất các mô hình mô tả các lớp dữ liệu quan trọng Các mô hình như vậy, được gọi là phân lớp, dự đoán nhãn lớp phân loại (rời rạc, không có thứ tự) Ví dụ: chúng ta có thể xây dựng một mô hình phân loại để phân loại các đơn xin vay ngân hàng là an toàn hoặc rủi ro Phân tích như vậy có thể giúp cung cấp cho chúng ta hiểu rõ hơn về dữ liệu nói chung Nhiều phương pháp phân loại đã được đề xuất bởi các nhà nghiên cứu trong học máy (Machine Learning), nhận dạng mẫu (pattern recognition) và thống kê Hầu hết các thuật toán được thực hiện trên bộ nhớ địa phương (resident memory),

thường được giả sử với dữ liệu nhỏ Các nghiên cứu Khai phá dữ liệu gần đây được xây dựng dựa trên các công việc như vậy, phát triển các kỹ thuật phân lớp và

dự đoán có khả năng xử lý một lượng lớn dữ liệu trên đĩa Phân lớp có nhiều ứng dụng, bao gồm phát hiện gian lận, mục tiêu tiếp thị, dự đoán hiệu suất, sản xuất và chẩn đoán y tế

3.1 Khái niệm Phân lớp

Phân lớp là gì ?

Một nhân viên cho vay của ngân hàng cần phân tích dữ liệu của cô ấy để tìm hiểu những khách đến vay tiền nào là “an toàn” và đâu là “rủi ro” cho ngân hàng Một người quản trị tiếp thị cần phân tích dữ liệu để giúp đoán xem khách hàng với hồ

sơ cụ thể sẽ mua máy tính hay không Một nhà nghiên cứu y tế muốn phân tích dữ liệu ung thư vú để dự đoán một trong ba phương pháp điều trị cụ thể mà bệnh nhân nên nhận Trong các tình huống nêu trên, nhiệm vụ của phân tích dữ liệu là phân lớp, trong đó một mô hình hoặc phân lớp được xây dựng để dự đoán nhãn lớp (class label) Chẳng hạn như “an toàn” hay “nguy hiểm” đối với dữ liệu ứng dụng cho vay; phương pháp điều trị “A”, “B” hay “C” đối với dữ liệu y khoa Các thể loại này có thể được biểu diễn bằng các giá trị rời rạc, trong đó thứ tự giữa các giá trị không có ý nghĩa Ví dụ, các giá trị 1, 2 và 3 có thể được sử dụng để biểu diễn các phương pháp điều trị “A”, “B” và “C”, trong đó không có sự xếp thứ tự giữa các phương pháp điều trị này

Tổng quan và hướng tiếp cận chính

“Phân lớp hoạt động như thế nào?” Phân lớp dữ liệu là một tiến trình gồm 2 bước, bao gồm một bước học (learning step) (Ở đó mô hình phân lớp được xây dựng) và bước phân lớp (classification step) (Ở đó mô hình được sử dụng để dự đoán nhãn của dữ liệu đã cho)

Trang 37

Ở bước đầu tiên, một phân lớp được xây dựng mô tả một tập hợp các lớp dữ liệu hoặc khái niệm được xác định trước Đó là bước học (learning step) hoặc pha huấn luyện (training phase), ở đó mà một thuật toán phân lớp xây dựng các mô hình phân lớp bởi phân tích hoặc “học từ” tập huấn luyện (training set) tạo thành các bộ dữ liệu và các nhãn được liên kết của chúng Một bộ, X, được biểu diễn bởi một véctơ thuộc tính n-chiều, X = (x1, x2, ,xn), miêu tả n giá trị được tạo bởi bộ từ

n thuộc tính cơ sở dữ liệu, tương ứng A1, A2,…, An Mỗi bộ X được giả định thuộc

về một lớp xác định trước cũng như xác định bởi các thuộc tính cơ sở dữ liệu khác được gọi là thuộc tính nhãn lớp Các thuộc tính nhãn lớp là rời rạc và không sắp thứ tự Nó được phân loại (hoặc trên danh nghĩa) ở chỗ mỗi giá trị đóng vai trò là một danh mục (category) hoặc lớp (class) Các bộ dữ liệu độc lập tạo nên tập huấn luyện được gọi là bộ huấn luyện và được lấy mẫu ngẫu nhiên từ cơ sở dữ liệu đang phân tích Trong bối cảnh phân lớp, bộ dữ liệu có thể được gọi là mẫu, ví dụ, điểm dữ liệu hoặc đối tượng

Bởi vì nhãn lớp của mỗi bộ huấn luyện được cung cấp, bước này còn được gọi là học có giám sát supervised learning (việc học của mô hình phân loại được gọi là học có giám sát bởi nếu nó được biết mỗi bộ huấn luyện thuộc lớp nào) Nó ngược lại với học không giám sát unsupervised learning (hoặc phân cụm

clustering), trong đó nhãn lớp của mỗi bộ dữ liệu huấn luyện không biết và số lượng các lớp (hoặc tập các lớp) có thể không được biết trước Ví dụ, nếu ta không

có sẵn dữ liệu quyết định cho vay đối với tập huấn luyện, chúng ta có thể sử dụng phân cụm để cố gắng xác định các “nhóm như bộ dữ liệu”, nó có thể tương ứng với các nhóm rủi ro trong dữ liệu ứng dụng cho vay

Bước đầu tiên của quá trình phân lớp có thể được xem là việc học một ánh

xạ hoặc hàm y f X( ) có thể dự đoán nhãn lớp y của một bộ dữ liệu X Khi đó, chúng ta muốn tìm một ánh xạ hoặc hàm có thể phân tách các lớp dữ liệu Thông thường, ánh xạ này được thể hiện dưới dạng các quy tắc phân loại, cây quyết định, hoặc công thức toán học Trong ví dụ, ánh xạ được biểu diễn dưới dạng các quy tắc phân loại xác định đơn xin vay là an toàn hay rủi ro (Hình 8.1a) Các quy tắc có thể được sử dụng để phân lớp các bộ dữ liệu trong tương lai, cũng như cung cấp

insight sâu sắc hơn về nội dung dữ liệu Nó cũng cung cấp một sự diễn tả dữ liệu nén

Trang 38

Hình 8.1 Quá trình phân lớp dữ liệu: (a): Học (Learning) (b) Phân lớp

(Classification) “Thế còn độ chính xác phân loại thì sao?” Trong bước hai (Hình 8.1b), mô hình được dùng để phân lớp Đầu tiên, độ chính xác dự đoán của mô hình phân loại được ước tính Nếu chúng ta sử dụng tập huấn luyện để đo độ chính xác của mô hình phân lớp, ước tính này có thể lạc quan, bởi vì mô hình phân lớp có xu hướng quá khớp với dữ liệu (nghĩa là, trong quá trình học, nó có thể kết hợp một số dị thường riêng của tập huấn luyện mà không có trong dữ liệu tổng thể) Do đó, một tập kiểm thử nghiệm được sử dụng, bao gồm các bộ thử nghiệm và nhãn lớp của

Trang 39

chúng Chúng độc lập với các bộ dữ liệu huấn luyện, nghĩa là chúng đã không được sử dụng để xây dựng mô hình phân lớp

Độ chính xác của mô hình phân loại trên một tập kiểm thử cho trước là tỷ lệ phần trăm của bộ kiểm thử được phân loại chính xác bởi mô hình phân loại Nhãn lớp của mỗi bộ kiểm thử được so sánh với dự đoán lớp được dự đoán cho bộ dữ liệu đó Nếu độ chính xác của mô hình phân lớp được xem là chấp nhận được, thì

mô hình phân lớp có thể được sử dụng để phân loại các bộ dữ liệu trong tương lai với lớp nhãn chưa được biết (dữ liệu như vậy trong học máy được gọi là dữ liệu chưa biết (unknown) hoặc “previously unseen”) Ví dụ, các quy tắc phân lớp học được trong Hình 8.1a từ việc phân tích dữ liệu từ các đơn cho vay trước đây có thể được sử dụng để phê duyệt hoặc từ chối người xin vay mới trong tương lai

3.2 K - Nearest Neighbors (k-NN)

Thuật toán k-Nearest Neighbors (kNN) được cho là thuật toán Machine

Learning đơn giản nhất Xây dựng mô hình chỉ bao gồm lưu lại tập dữ liệu huấn luyện Để thực hiện dự báo cho một điểm dữ liệu mới, thuật toán này tìm kiếm các điểm dữ liệu gần nó nhất của tập huấn luyện, đó gọi là ‘hàng xóm gần nhất’

(nearest neighbors)

Điểm bắt đầu cho kNN là việc tính toán một ma trận khoảng cách theo yêu cầu cho ánh xạ phi tuyến tính Các khoảng cách khác nhau có thể được sử dụng để thể hiện sự giống nhau giữa các hợp chất nhưng khoảng cách Euclide, như được định nghĩa trong phương trình (4.2) là phổ biến nhất:

1

( P ( i k j k) )k

và ở đây chúng ta biểu diễn ngắn gọn bằng một ma trận tam giác dưới

Trang 40

A

0 2.5 2.6 2.2 2.4 3.4 5.3 9.7 9.9

B

0 1.3 2.8 3.1 4.1 4.3 4.0 4.4

C

0 2.1 3.0 3.0 3.0 3.7 4.0

D

0 1.3 1.3 3.0 6.2 6.3

E

0 1.3 3.2 7.5 7.6

F

0 2.9 6.2 6.4

G

0 3.5 3.6

H

0 1.2

I

0

J Bảng 5.1

Việc phân lớp bất kỳ mẫu chưa biết nào trong ma trận khoảng cách có thể được thực hiện bằng cách xem xét phân loại của ‘hàng xóm gần nhất’ của nó Điều này liên quan đến việc quét hàng và cột đại diện cho mẫu đó để xác định khoảng cách nhỏ nhất đến các mẫu khác Khi đã xác định được khoảng cách, người ta cho rằng việc phân lớp các ẩn số sẽ giống với khoảng cách của hàng xóm gần nhất, nói cách khác, các mẫu tương tự nhau về không gian thuộc tính mà từ đó ma trận khoảng cách được tạo ra sẽ hoạt động theo kiểu tương tự Điều này bắt chước lý luận ’ý thức chung’ (common-sense) được áp dụng theo cách thông thường để giải thích các sơ đồ hai chiều đơn giản, sự khác biệt ở đây là quá trình được áp dụng trong P-chiều Hình 5.1 cho thấy một ví dụ 2 chiều của quá trình này

Định dạng
Số trang	143
Dung lượng	5,86 MB