Bài giảng Học máy: Bài 2 - Nguyễn Hoàng Long

Bài giảng Học máy - Bài 2: Học có giám sát cung cấp cho người học các kiến thức: Giải thuật phân lớp đơn giản, lựa chọn K, giải thuật học máy tốt nhất, chuẩn bị dữ liệu, giới thiệu về học có giám sát, phân lớp và hồi quy,... Mời các bạn cùng tham khảo.

Trang 1

Học có giám sát

Bài giảng có sử dụng hình vẽ trong cuốn sách “An Introduction to Statistical Learning with Applications in R” với sự

cho phép của tác giả, có sử dụng slides các khóa học CME250 của ĐH Stanford và IOM530 của ĐH Southern California

Nguyễn Thanh Tùng Khoa Công nghệ thông tin – Đại học Thủy Lợi

tungnt@ tlu.edu.vn

Website môn học: https://sites.google.com/a/wru.vn/cse445fall2016

Trang 2

Giải thuật phân lớp đơn giản

(nhắc lại Bài 1)

Trang 3

K-Nearest Neighbor classiﬁer (KNN)

các mẫu đã biết nhãn

Trang 4

nhiều vùng

– Mỗi vùng được gắn với 1 nhãn lớp (class label)

– Ranh giới quyết định chia tách các vùng quyết định

có dạng:

Trang 5

– Việc dự đoán lớp cho mẫu X là lớp phổ biến nhất giữa K

láng giềng gần nhất (trong tập học)

Trang 6

Figure 2.14, ISL 2013

Trang 7

Lựa chọn K (bộ phân lớp KNN)

– Ranh giới quyết định linh hoạt hơn, tuy nhiên dễ bị overﬁt

– Ranh giới quyết định ít linh hoạt nhưng ít bị overﬁt

• Overﬁtting: Cho kết quả tốt trên tập học nhưng kém trên

tập thử nghiệm

Trang 8

Figure 2.16,

ISL 2013

Trang 9

Tại sao lỗi huấn luyện (trên dữ liệu học) tăng cùng K?

Tại sao lỗi kiểm thử lại khác?

Trang 10

Trang 11

• Liệu ta có thể dùng kỹ thuật KNN dự đoán một giá trị số thay

cho giá trị định danh (i.e “KNN hồi quy”)?

Trang 12

Các dạng giải thuật học máy

Cluster Analysis

Dimensionality Reduction Classiﬁcation Regression

KNN

Do you have labeled data?

Do you want to group the data?

Regression

Trang 13

Giải thuật Học máy “Tốt nhất”

• Tin tồi: Không có giải thuật nào tốt nhất

– Không có giải thuật học máy nào thực hiện tốt cho mọi bài toán

• Tin tốt: Tất cả các giải thuật học máy đều tốt

– Mỗi giải thuật học máy thực hiện tốt cho một số bài toán

• Định lý “No free lunch”

– Wolpert (1996): các giải thuật thực hiện như nhau khi ta lấy

trung bình kết quả chúng thực hiện trên tất cả các bài toán

Trang 14

Trade-oﬀs (đánh đổi) trong Học máy

mô hình về khả năng thấy được mối quan hệ giữa các biến)

Trang 15

Chuẩn bị dữ liệu

• Các giải thuật học máy cần phải có dữ liệu!

• Tiền xử lý dữ liệu để chuyển đổi dữ liệu trước khi áp dụng

vào giải thuật học máy

– Lấy mẫu: chọn tập con các quan sát/mẫu

– Trích chọn thuộc tính: Chọn các biến đầu vào

– Chuẩn hóa dữ liệu (Normalization) (standardization, scaling, binarization)

– Xử lý dữ liệu thiếu và phần tử ngoại lai (missing data and outliers)

– Cây quyết định có thể xử lý dữ liệu thiếu/phần tử ngoại lai

– PCA yêu cầu dữ liệu đã được chuẩn hóa

Trang 16

Các câu hỏi?

Trang 17

Giới thiệu về

Trang 18

Học giám sát

– Học bởi các ví dụ (quan sát)-“Learn by example”

được gắn nhãn

Trang 19

Dữ liệu học

?

Trang 20

Dữ liệu học

Figure 2.2 , ISL 2013

Trang 21

– Lấy hàm ước lượng “tốt nhất” trong tập các hàm

– Chọn 1 ước lượng tốt nhất từ dữ liệu học trong tập

các hàm tuyến tính

Trang 22

Phân lớp và Hồi quy

– Hồi quy: biến đầu ra Y là định lượng (quantitative)

– Phân lớp: biến đầu ra Y là định tính/hạng mục/rời rạc

Trang 23

Các dạng giải thuật học máy

Unsupervised

Do you have labeled data?

Classiﬁcation Regression

Supervised

What do you want to predict?

Category Quantity

Trang 24

Độ chính xác của mô hình

Trang 25

Đo hiệu năng bài toán hồi quy

lường sai số của mô hình

error - MSE)

– Độ đo thông dụng dùng để tính độ chính xác bài toán hồi quy

– Tập trung đo các sai số lớn hơn là các sai số nhỏ

Trang 26

Đo hiệu năng bài toán hồi quy

– Ta muốn cực tiểu hóa lỗi trên dữ liệu chưa biết, không phải

trên dữ liệu học.

– Vd: Dự đoán giá cổ phiếu trong tương lai vs giá cổ phiếu trong

quá khứ

– Vấn đề: Ta không thể cực tiểu lỗi trên dữ liệu huấn luyện.

Trang 27

Vấn đề: Overﬁtting

• Quá khớp (Overﬁtting): Học sự biến thiên ngẫu nhiên

trong dữ liệu hơn là xu hướng cơ bản

trên tập dữ liệu thử nghiệm.

Trang 28

Vấn đề: Overﬁtting

Figures 2.4 and 2.6 , ISL 2013

Trang 29

Đánh giá hiệu năng

• Lỗi huấn luyện và lỗi kiểm thử thể hiện khác nhau

– Tính linh hoạt của mô hình tăng lên…

– Lỗi huấn luyện giảm

– Lỗi kiểm thử ban đầu giảm,

Nhưng sau đó tăng lên vì overﬁtting “U-shaped” lỗi kiểm thử dạng chữ U.

Trang 30

Trang 31

hình tốt?

• Kỹ thuật kiểm tra chéo (Cross-validation):

một tập các kỹ thuật nhằm sử dụng dữ liệu huấn luyện

để ước lượng lỗi tổng quát (generalization error)

Trang 32

Dữ liệu

• Dữ liệu huấn luyện (Training data)

– Tập các quan sát (bản ghi) được sử dụng để xây dựng (học) mô hình.

• Dữ liệu kiểm chứng (Validation data)

– Tập các quan sát dùng để ước lượng lỗi nhằm tìm tham số hoặc

lựa chọn mô hình.

• Dữ liệu kiểm thử (Test data)

– Tập các quan sát dùng để đánh giá hiệu năng trên dữ liệu chưa biết

(unseen) trong tương lai.

– Dữ liệu này không sử dụng cho giải thuật học máy trong quá trình

Trang 33

Trade-off: Độ lệch vs Phương sai

ra dựa trên 2 đặc điểm của mô hình học máy:

–

Trang 34

• Phương sai của hàm ước lượng

– Chênh lệch giữa kết quả áp dụng mô hình với các quan sát

đầu vào khác nhau.

Các thay đổi lớn trong hàm ước lượng thống kê.

Trang 35

Trang 36

Trang 37

• Độ lệch (bias) của hàm ước lượng

– Bias là độ sai lệch giữa kết quả dự đoán của mô hình và

thực tế, sai số xấp xỉ một hàm khi áp dụng một mô hình

đơn giản.

– Vd: Hồi quy tuyến tính giả định các biến phải quan hệ

tuyến tính.

lỗi bias xuất hiện khi hệ thống là phi tuyến.

Trang 38

• Phương sai thấp và bias thấp Lỗi kiểm thử cũng thấp.

• Càng linh hoạt (phức tạp) Phương sai tăng, bias giảm.

• Lỗi kiểm thử đường cong hình chữ U (U-shaped):

– Ban đầu độ linh hoạt mô hình tăng, ta thấy bias giảm nhanh hơn tăng phương sai lỗi kiểm thử MSE giảm.

– Độ linh hoạt của mô hình có ảnh hưởng nhỏ hơn đến việc

giảm bias, tuy nhiên khi tăng độ linh hoạt nó ảnh hưởng lớn

đến phương sai lỗi kiểm thử MSE tăng.

Trang 39

Figures 2.9, 2.12, ISL 2013

Trang 40

• Phương pháp linh hoạt (phức tạp)

– Có thể xấp xỉ sát hàm ước lượng thống kê (bias thấp) ,

– Tuy nhiên các lỗi/rủi ro của mô hình học lại quá phụ thuộc vào dữ liệu huấn

luyện (phương sai cao)

• Phương pháp đơn giản hơn

– Có thể xấp xỉ hàm ước lượng với độ chính xác không cao (bias cao) ,

– Tuy nhiên chúng ít phụ thuộc vào dữ liệu huấn luyện (phương sai thấp)

• TradeIoﬀ

– Dễ đạt được phương sai thấp/bias cao hoặc phương sai cao/bias thấp,

– Tuy nhiên rất khó để đạt được cả phương sai và bias cùng thấp

Trang 41

Hồi quy:

Hồi quy tuyến tính

Trang 42

• Hồi quy tuyến tính : là phương pháp học máy có giám sát

đơn giản, được sử dụng để dự đoán giá trị biến đầu ra

dạng số (định lượng)

của hồi quy tuyến tính

– Là ví dụ để minh họa các khái niệm quan trọng trong bài

toán học máy có giám sát

Trang 43

• Tại sao dùng hồi quy tuyến tính?

– Mối quan hệ tuyến tính: là sự biến đổi tuân theo quy

luật hàm bậc nhất

– Nhiều quan hệ là tuyến tính cục bộ (trong vùng quan tâm)

– Ta có thể biến đổi các biến đầu vào để tạo ra mối

quan hệ tuyến tính

– Diễn giải các mối quan hệ giữa biến đầu vào và đầu

ra - sử dụng cho bài toán suy diễn

Trang 44

Hồi quy tuyến tính đơn giản

quan hệ tuyến tính giữa X và Y như sau:

hệ số chặn (khi các x i =0)

độ dốc

Trang 45

( ) = β1 + β0

= f x x y

độ dốc

hệ số chặn

Trang 46

chúng từ dữ liệu đầu vào

(“good ﬁt”) đối với tập huấn luyện

Trang 47

model”)?

dữ liệu?

Trang 48

Đường thẳng phù hợp nhất

Cho tập dữ liệu đầu vào, ta cần tìm cách tính toán các

tham số của phương trình đường thẳng

0 2 4 6 8 10 12 14

0 2 4 6 8 10

?

Trang 49

Bình phương nhỏ nhất

hình từ dữ liệu quan sát ta sử dụng phương pháp

bình phương nhỏ nhất (least squares)

Trang 50

Đường thẳng phù hợp nhất

Rất hiếm để có 1 đường thẳng khớp chính xác với dữ liệu,

do vậy luôn tồn tại lỗi gắn liền với đường thẳng

Đường thẳng phù hợp nhất là đường giảm thiểu độ dao

động của các lỗi này

0 2 4 6 8 10 12 14

) ˆ ( y i − y i

y ˆ

Trang 51

1

2

) ˆ (

Trang 52

Ước lượng tham số

xy x x y y

SS

1

) )(

Trang 53

Ước lượng tham số

Trang 54

Trang 55

Trang 56

xySS

83 1612

=

xSS

83 37

=

x

83 153

=

83 891 ˆ

37 553

0 83 153 ˆ

Trang 57

Diễn giải tham số

dốc là 0.553 Điều này có nghĩa là khi thay đổi 1 kg của X, giá của Y thay đổi 0.553 $

1

ˆ

β

Trang 58

là hệ số chặn của Y Nghĩa là, điểm mà đường thẳng cắt trục tung Y Trong ví dụ này là $132.91

$132.91

Đây là giá trị của Y khi X = 0

Diễn giải tham số

0

ˆ

β

Trang 59

Hồi quy tuyến tính đa biến

biến dùng để dự đoán biến đích

Trang 60

Trang 61

khi tăng X j lên một đơn vị Y sẽ tăng trung bình một lượng là β j

Trang 62

Bình phương nhỏ nhất

nhất

Trang 63

Trang 64

ˆ ˆ ˆ

ˆ ˆ

β β β β

1

0 1

7 1

3 3 1

6 1

4 2

9 4

3

1 2 8

1 3 4

1 1

6

1 9 3

X

Trang 65

448 295 53 35

315 153 38 26

72 35 26 6

7 4

4 4 2

3 3 9

2 3 8

4

3

1 1 1 1 1 1

1

6

T

X

Trang 66

0.00431 -

0.00144 -

0.13737 -

0.00431 -

0.01234

0.00014 -

0.01962 -

0.00144 -

0.00014 -

0.03965

0.15375 -

0.13737 -

0.01962 -

0.15375 -

2.59578

7 4

0.07573 -

.20975 3

20975

1 0 11162 0 46691 07573

0 20975

3

Trang 67

Dữ liệu định tính

trong mô hình hồi quy tuyến tính

– vd: biến “giới tính”: “male” hoặc “female”

variable)

Trang 68

Dữ liệu định tính

dùng nhiều biến giả

– vd: biến “màu mắt”: “blue”, “green” or “brown”

Trang 69

• Ưu điểm:

– Mô hình đơn giản, dễ hiểu

– Dễ diễn giải hệ số hồi quy

– Nhận được kết quả tốt khi dữ liệu quan sát nhỏ

– Nhiều cải tiến/mở rộng

• Nhược điểm:

– Mô hình hơi đơn giản nên khó dự đoán chính xác với dữ liệu có miền giá

trị rộng

– Khả năng ngoại suy (extrapolation) kém

– Nhạy cảm với dữ liệu ngoại lai (outliers) – do dung phương pháp bình

phương nhỏ nhất

Trang 70

Câu hỏi?

Trang 71

Bài toán phân lớp:

Hồi quy Logit

(Logistic Regression)

Trang 72

Phân lớp

– Trong nhiều ứng dụng, biến đầu ra là định tính hoặc kiểu

định danh/hạng mục

– vd: Bộ phân lớp K-láng giềng gần nhất trong bài học

trước

Trang 73

• Thị giác máy (Computer Vision)

– Hiểu được các đối tượng xuất hiện trong ảnh

Trang 74

Ví dụ về phân lớp

Figure 4.1 , ISL 2013*

Trang 75

Phân lớp và Hồi quy

lớp, ta gán vào 1 lớp có xác suất cao nhất

Trang 76

Câu đố:

• Ta dự đoán tình trạng sức khỏe của bệnh nhân dựa trên các triệu chứng.*

– Giả sử ta mã 3 chẩn đoán có thể xảy ra như sau:

và sử dụng hồi quy tuyến tính (bỏ qua thực tế Y là có giá trị rời rạc) để xây

dựng mô hình

• Liệu đó có phải là cách tiếp cận tốt không? Tại sao?

• Vấn đề gì xảy ra khi sử dụng phương pháp này để dự đoán biến đầu

ra dạng định tính?

*Ví dụ lấy từ mục 4.2, ISL 2013

Trang 77

Câu đố

• Vấn đề gì xảy ra khi sử dụng phương pháp này để dự đoán biến đầu ra dạng định tính?

– Các biến định tính chứa giá trị không có thứ tự

• Khi mã hóa chúng ở dạng số sẽ tạo ra sắp xếp tùy ý

• Mô hình tuyến tính (và kết quả dự đoán) phụ thuộc vào sự sắp xếp này do dùng phương pháp bình phương nhỏ nhất

Trang 78

Câu đố

• Vấn đề gì xảy ra khi sử dụng phương pháp này để dự đoán

biến đầu ra dạng định tính?

– Mã hóa biến định tính có thể phù hợp với kiểu dữ liệu có sắp xếp

tự nhiên: vd “mild”, “moderate” and “severe”

– Với biến nhị phân (chỉ có 2 lớp), phương pháp này không nhạy cảm

khi việc mã hóa thế nào

• Ta có thể dùng ngưỡng (threshold) để phân lớp các giá trị của biến định tính phục vụ cho bài toán dự đoán

• Giá trị của biến đích có thể không nằm trong đoạn [0, 1], và không thể được giải thích như là xác suất thuộc về một lớp cụ thể

Trang 79

Hồi quy Logistic

• Phân lớp nhị phân: Y nhận 2 giá trị (“0” hoặc “1”)

với 2 lớp tương ứng

nhị phân

xác suất trong [0, 1]

Trang 80

Hồi quy Logistic

• Hàm Logistic (sigmoid) xấp xỉ biến đầu ra

• Hàm Logistic

– Đường cong chữ S

– Luôn nhận giá trị trong (0, 1) xác suất hợp lệ

• Mô hình hồi quy Logistic

Trang 81

Hồi quy Logistic

=

(βO+ β1X)

1 + (βO+ β1X)

Trang 82

Hồi quy Logistic

(βO+ β1X)

1 + (βO+ β1X)

=

Trang 83

Hồi quy Logistic

=

(βO+ β1X)

1 + (βO+ β1X)

Trang 84

Hồi quy Logistic

lượng từ dữ liệu huấn luyện

bình phương nhỏ nhất

phương pháp Ước lượng hợp lý cực đại

(maximum likelihood estimation)

Trang 85

Hồi quy Logistic đa biến

hợp nhiều biến đầu vào:

Trang 86

Hồi quy Logistic

• Ưu điểm:

– Mở rộng của hồi quy tuyến tính

– Không cần siêu tham số điều chỉnh mô hình

• Nhược điểm:

– Không thể mô hình hóa được các bài toán có hàm quyết định

dạng phức tạp

– Có thể bị overﬁt dữ liệu huấn luyện

• Khắc phục được bằng cách điều chỉnh trong phương pháp hợp lý cực đại (maximum likelihood)

– Chỉ giải dạng bài toán phân lớp nhị phân

Trang 87

Tóm tắt

• Học có giám sát (Supervised learning) – học từ các mẫu quan

sát được

• Hồi quy tuyến tính (Linear regression) – đơn giản, mô

hình dễ diễn giải cho dự đoán biến đích dạng liên tục

• Hồi quy Logistic – phương pháp hồi quy dung để dự đoán xác

suất cho bài toán phân lớp nhị phân

lượng giá trị các tham số

Trang 88

Câu hỏi?

Trang 90

Maximum Likelihood

the available observations

– We want to estimate θ based on training data using

maximum likelihood estimation

Trang 91

Maximum Likelihood

x(1)

• For ﬁxed θ = α, we can ﬁnd the probability density

corresponding to a single observation x (1) : p(x (1) ; θ = α)

p(x; θ = α)

p(x(1); θ = α)

Trang 92

Maximum Likelihood

x

• The likelihood for a set of training observations is the product of

the individual densities (ﬁxed θ)

p(x; θ = α)

Trang 93

Maximum Likelihood

x

• If the value of θ is not ﬁxed, but the set of training observations is

ﬁxed, the likelihood will change as θ changes

p(x; θ = β)

Trang 94

Maximum Likelihood

x

• If the value of θ is not ﬁxed, but the set of training observations is

ﬁxed, the likelihood will change as θ changes

p(x; θ = γ)

Trang 95

Maximum Likelihood

• We can plot the likelihood value (y-axis) against the parameter value θ

(x-axis) for a fixed training set

• The maximum likelihood estimator ( ˆ) for θ is the parameter values that

corresponds to the highest likelihood

L(θˆ; x(1), …, x(7))

Trang 96

Maximum Likelihood

• Maximum likelihood estimation can be used to estimate

multiple parameters

• Likelihood function for logistic regression:

– Fit parameters O and 1 by maximizing this function using the

training set

Định dạng
Số trang	96
Dung lượng	1,63 MB