Bài giảng Học máy - Bài 2: Học có giám sát cung cấp cho người học các kiến thức: Giải thuật phân lớp đơn giản, lựa chọn K, giải thuật học máy tốt nhất, chuẩn bị dữ liệu, giới thiệu về học có giám sát, phân lớp và hồi quy,... Mời các bạn cùng tham khảo.
Trang 1Học có giám sát
Bài giảng có sử dụng hình vẽ trong cuốn sách “An Introduction to Statistical Learning with Applications in R” với sự
cho phép của tác giả, có sử dụng slides các khóa học CME250 của ĐH Stanford và IOM530 của ĐH Southern California
Nguyễn Thanh Tùng Khoa Công nghệ thông tin – Đại học Thủy Lợi
tungnt@ tlu.edu.vn
Website môn học: https://sites.google.com/a/wru.vn/cse445fall2016
Trang 2Giải thuật phân lớp đơn giản
(nhắc lại Bài 1)
Trang 3K-Nearest Neighbor classifier (KNN)
các mẫu đã biết nhãn
Trang 4K-Nearest Neighbor classifier (KNN)
nhiều vùng
– Mỗi vùng được gắn với 1 nhãn lớp (class label)
– Ranh giới quyết định chia tách các vùng quyết định
có dạng:
Trang 5K-Nearest Neighbor classifier (KNN)
– Việc dự đoán lớp cho mẫu X là lớp phổ biến nhất giữa K
láng giềng gần nhất (trong tập học)
Trang 6K-Nearest Neighbor classifier (KNN)
Figure 2.14, ISL 2013
Trang 7Lựa chọn K (bộ phân lớp KNN)
– Ranh giới quyết định linh hoạt hơn, tuy nhiên dễ bị overfit
– Ranh giới quyết định ít linh hoạt nhưng ít bị overfit
• Overfitting: Cho kết quả tốt trên tập học nhưng kém trên
tập thử nghiệm
Trang 8Figure 2.16,
ISL 2013
Lựa chọn K (bộ phân lớp KNN)
Trang 9Figure 2.17, ISL 2013
Lựa chọn K (bộ phân lớp KNN)
Tại sao lỗi huấn luyện (trên dữ liệu học) tăng cùng K?
Tại sao lỗi kiểm thử lại khác?
Trang 10Figure 2.15, ISL 2013
Lựa chọn K (bộ phân lớp KNN)
Trang 11• Liệu ta có thể dùng kỹ thuật KNN dự đoán một giá trị số thay
cho giá trị định danh (i.e “KNN hồi quy”)?
Trang 12Các dạng giải thuật học máy
Cluster Analysis
Dimensionality Reduction Classification Regression
KNN
Do you have labeled data?
Do you want to group the data?
Regression
Trang 13Giải thuật Học máy “Tốt nhất”
• Tin tồi: Không có giải thuật nào tốt nhất
– Không có giải thuật học máy nào thực hiện tốt cho mọi bài toán
• Tin tốt: Tất cả các giải thuật học máy đều tốt
– Mỗi giải thuật học máy thực hiện tốt cho một số bài toán
• Định lý “No free lunch”
– Wolpert (1996): các giải thuật thực hiện như nhau khi ta lấy
trung bình kết quả chúng thực hiện trên tất cả các bài toán
Trang 14Trade-offs (đánh đổi) trong Học máy
mô hình về khả năng thấy được mối quan hệ giữa các biến)
Trang 15Chuẩn bị dữ liệu
• Các giải thuật học máy cần phải có dữ liệu!
• Tiền xử lý dữ liệu để chuyển đổi dữ liệu trước khi áp dụng
vào giải thuật học máy
– Lấy mẫu: chọn tập con các quan sát/mẫu
– Trích chọn thuộc tính: Chọn các biến đầu vào
– Chuẩn hóa dữ liệu (Normalization) (standardization, scaling, binarization)
– Xử lý dữ liệu thiếu và phần tử ngoại lai (missing data and outliers)
– Cây quyết định có thể xử lý dữ liệu thiếu/phần tử ngoại lai
– PCA yêu cầu dữ liệu đã được chuẩn hóa
Trang 16Các câu hỏi?
Trang 17Giới thiệu về
Học có giám sát
Trang 18Học giám sát
– Học bởi các ví dụ (quan sát)-“Learn by example”
được gắn nhãn
Trang 19Dữ liệu học
?
Trang 20Dữ liệu học
Figure 2.2 , ISL 2013
Trang 21Học có giám sát
– Lấy hàm ước lượng “tốt nhất” trong tập các hàm
– Chọn 1 ước lượng tốt nhất từ dữ liệu học trong tập
các hàm tuyến tính
Trang 22Phân lớp và Hồi quy
– Hồi quy: biến đầu ra Y là định lượng (quantitative)
– Phân lớp: biến đầu ra Y là định tính/hạng mục/rời rạc
Trang 23Các dạng giải thuật học máy
Unsupervised
Do you have labeled data?
Classification Regression
Supervised
What do you want to predict?
Category Quantity
Trang 24Độ chính xác của mô hình
Trang 25Đo hiệu năng bài toán hồi quy
lường sai số của mô hình
error - MSE)
– Độ đo thông dụng dùng để tính độ chính xác bài toán hồi quy
– Tập trung đo các sai số lớn hơn là các sai số nhỏ
Trang 26Đo hiệu năng bài toán hồi quy
– Ta muốn cực tiểu hóa lỗi trên dữ liệu chưa biết, không phải
trên dữ liệu học.
– Vd: Dự đoán giá cổ phiếu trong tương lai vs giá cổ phiếu trong
quá khứ
– Vấn đề: Ta không thể cực tiểu lỗi trên dữ liệu huấn luyện.
Trang 27Vấn đề: Overfitting
• Quá khớp (Overfitting): Học sự biến thiên ngẫu nhiên
trong dữ liệu hơn là xu hướng cơ bản
trên tập dữ liệu thử nghiệm.
Trang 28Vấn đề: Overfitting
Figures 2.4 and 2.6 , ISL 2013
Trang 29Đánh giá hiệu năng
• Lỗi huấn luyện và lỗi kiểm thử thể hiện khác nhau
– Tính linh hoạt của mô hình tăng lên…
– Lỗi huấn luyện giảm
– Lỗi kiểm thử ban đầu giảm,
Nhưng sau đó tăng lên vì overfitting “U-shaped” lỗi kiểm thử dạng chữ U.
Trang 30Đánh giá hiệu năng
Figure 2.9 , ISL 2013
Trang 31Đánh giá hiệu năng
hình tốt?
• Kỹ thuật kiểm tra chéo (Cross-validation):
một tập các kỹ thuật nhằm sử dụng dữ liệu huấn luyện
để ước lượng lỗi tổng quát (generalization error)
Trang 32Dữ liệu
• Dữ liệu huấn luyện (Training data)
– Tập các quan sát (bản ghi) được sử dụng để xây dựng (học) mô hình.
• Dữ liệu kiểm chứng (Validation data)
– Tập các quan sát dùng để ước lượng lỗi nhằm tìm tham số hoặc
lựa chọn mô hình.
• Dữ liệu kiểm thử (Test data)
– Tập các quan sát dùng để đánh giá hiệu năng trên dữ liệu chưa biết
(unseen) trong tương lai.
– Dữ liệu này không sử dụng cho giải thuật học máy trong quá trình
Trang 33Trade-off: Độ lệch vs Phương sai
ra dựa trên 2 đặc điểm của mô hình học máy:
–
–
Trang 34Trade-off: Độ lệch vs Phương sai
• Phương sai của hàm ước lượng
– Chênh lệch giữa kết quả áp dụng mô hình với các quan sát
đầu vào khác nhau.
Các thay đổi lớn trong hàm ước lượng thống kê.
Trang 35Trade-off: Độ lệch vs Phương sai
Trang 36Trade-off: Độ lệch vs Phương sai
Trang 37• Độ lệch (bias) của hàm ước lượng
– Bias là độ sai lệch giữa kết quả dự đoán của mô hình và
thực tế, sai số xấp xỉ một hàm khi áp dụng một mô hình
đơn giản.
– Vd: Hồi quy tuyến tính giả định các biến phải quan hệ
tuyến tính.
lỗi bias xuất hiện khi hệ thống là phi tuyến.
Trade-off: Độ lệch vs Phương sai
Trang 38• Phương sai thấp và bias thấp Lỗi kiểm thử cũng thấp.
• Càng linh hoạt (phức tạp) Phương sai tăng, bias giảm.
• Lỗi kiểm thử đường cong hình chữ U (U-shaped):
– Ban đầu độ linh hoạt mô hình tăng, ta thấy bias giảm nhanh hơn tăng phương sai lỗi kiểm thử MSE giảm.
– Độ linh hoạt của mô hình có ảnh hưởng nhỏ hơn đến việc
giảm bias, tuy nhiên khi tăng độ linh hoạt nó ảnh hưởng lớn
đến phương sai lỗi kiểm thử MSE tăng.
Trade-off: Độ lệch vs Phương sai
Trang 39Figures 2.9, 2.12, ISL 2013
Trade-off: Độ lệch vs Phương sai
Trang 40• Phương pháp linh hoạt (phức tạp)
– Có thể xấp xỉ sát hàm ước lượng thống kê (bias thấp) ,
– Tuy nhiên các lỗi/rủi ro của mô hình học lại quá phụ thuộc vào dữ liệu huấn
luyện (phương sai cao)
• Phương pháp đơn giản hơn
– Có thể xấp xỉ hàm ước lượng với độ chính xác không cao (bias cao) ,
– Tuy nhiên chúng ít phụ thuộc vào dữ liệu huấn luyện (phương sai thấp)
• TradeIoff
– Dễ đạt được phương sai thấp/bias cao hoặc phương sai cao/bias thấp,
– Tuy nhiên rất khó để đạt được cả phương sai và bias cùng thấp
Trade-off: Độ lệch vs Phương sai
Trang 41Hồi quy:
Hồi quy tuyến tính
Trang 42Hồi quy tuyến tính
• Hồi quy tuyến tính : là phương pháp học máy có giám sát
đơn giản, được sử dụng để dự đoán giá trị biến đầu ra
dạng số (định lượng)
của hồi quy tuyến tính
– Là ví dụ để minh họa các khái niệm quan trọng trong bài
toán học máy có giám sát
Trang 43Hồi quy tuyến tính
• Tại sao dùng hồi quy tuyến tính?
– Mối quan hệ tuyến tính: là sự biến đổi tuân theo quy
luật hàm bậc nhất
– Nhiều quan hệ là tuyến tính cục bộ (trong vùng quan tâm)
– Ta có thể biến đổi các biến đầu vào để tạo ra mối
quan hệ tuyến tính
– Diễn giải các mối quan hệ giữa biến đầu vào và đầu
ra - sử dụng cho bài toán suy diễn
Trang 44Hồi quy tuyến tính đơn giản
quan hệ tuyến tính giữa X và Y như sau:
hệ số chặn (khi các x i =0)
độ dốc
Trang 45Hồi quy tuyến tính đơn giản
Figure 3.1 , ISL 2013
( ) = β1 + β0
= f x x y
độ dốc
hệ số chặn
Trang 46Hồi quy tuyến tính đơn giản
chúng từ dữ liệu đầu vào
(“good fit”) đối với tập huấn luyện
Trang 47Hồi quy tuyến tính đơn giản
model”)?
dữ liệu?
Trang 48Đường thẳng phù hợp nhất
Cho tập dữ liệu đầu vào, ta cần tìm cách tính toán các
tham số của phương trình đường thẳng
0 2 4 6 8 10 12 14
0 2 4 6 8 10
?
?
?
Trang 49Bình phương nhỏ nhất
hình từ dữ liệu quan sát ta sử dụng phương pháp
bình phương nhỏ nhất (least squares)
Trang 50Đường thẳng phù hợp nhất
Rất hiếm để có 1 đường thẳng khớp chính xác với dữ liệu,
do vậy luôn tồn tại lỗi gắn liền với đường thẳng
Đường thẳng phù hợp nhất là đường giảm thiểu độ dao
động của các lỗi này
0 2 4 6 8 10 12 14
) ˆ ( y i − y i
y ˆ
Trang 511
2
) ˆ (
Trang 52Ước lượng tham số
xy x x y y
SS
1
) )(
Trang 53Ước lượng tham số
Trang 54Hồi quy tuyến tính đơn giản
Figure 3.1 , ISL 2013
Trang 55Hồi quy tuyến tính đơn giản
Trang 56xySS
83 1612
=
xSS
83 37
=
x
83 153
=
83 891 ˆ
37 553
0 83 153 ˆ
Trang 57Diễn giải tham số
dốc là 0.553 Điều này có nghĩa là khi thay đổi 1 kg của X, giá của Y thay đổi 0.553 $
1
ˆ
β
Trang 58là hệ số chặn của Y Nghĩa là, điểm mà đường thẳng cắt trục tung Y Trong ví dụ này là $132.91
$132.91
Đây là giá trị của Y khi X = 0
Diễn giải tham số
0
ˆ
β
Trang 59Hồi quy tuyến tính đa biến
biến dùng để dự đoán biến đích
Trang 60Hồi quy tuyến tính đa biến
Figure 3.4 , ISL 2013
Trang 61Hồi quy tuyến tính đa biến
khi tăng X j lên một đơn vị Y sẽ tăng trung bình một lượng là β j
Trang 62Bình phương nhỏ nhất
nhất
Trang 63Hồi quy tuyến tính đa biến
Figure 3.4 , ISL 2013
Trang 64ˆ ˆ ˆ
ˆ ˆ
β β β β
1
1
0 1
7 1
3 3 1
6 1
4 2
9 4
3
1 2 8
1 3 4
1 1
6
1 9 3
X
Trang 65448 295 53 35
315 153 38 26
72 35 26 6
7 4
4 4 2
3 3 9
2 3 8
4
3
1 1 1 1 1 1
1
1
6
T
X
Trang 660.00431 -
0.00144 -
0.13737 -
0.00431 -
0.01234
0.00014 -
0.01962 -
0.00144 -
0.00014 -
0.03965
0.15375 -
0.13737 -
0.01962 -
0.15375 -
2.59578
7 4
0.07573 -
.20975 3
20975
1 0 11162 0 46691 07573
0 20975
3
Trang 67Dữ liệu định tính
trong mô hình hồi quy tuyến tính
– vd: biến “giới tính”: “male” hoặc “female”
variable)
Trang 68Dữ liệu định tính
dùng nhiều biến giả
– vd: biến “màu mắt”: “blue”, “green” or “brown”
Trang 69Hồi quy tuyến tính
• Ưu điểm:
– Mô hình đơn giản, dễ hiểu
– Dễ diễn giải hệ số hồi quy
– Nhận được kết quả tốt khi dữ liệu quan sát nhỏ
– Nhiều cải tiến/mở rộng
• Nhược điểm:
– Mô hình hơi đơn giản nên khó dự đoán chính xác với dữ liệu có miền giá
trị rộng
– Khả năng ngoại suy (extrapolation) kém
– Nhạy cảm với dữ liệu ngoại lai (outliers) – do dung phương pháp bình
phương nhỏ nhất
Trang 70Câu hỏi?
Trang 71Bài toán phân lớp:
Hồi quy Logit
(Logistic Regression)
Trang 72Phân lớp
– Trong nhiều ứng dụng, biến đầu ra là định tính hoặc kiểu
định danh/hạng mục
– vd: Bộ phân lớp K-láng giềng gần nhất trong bài học
trước
Trang 73• Thị giác máy (Computer Vision)
– Hiểu được các đối tượng xuất hiện trong ảnh
Trang 74Ví dụ về phân lớp
Figure 4.1 , ISL 2013*
Trang 75Phân lớp và Hồi quy
lớp, ta gán vào 1 lớp có xác suất cao nhất
Trang 76Câu đố:
• Ta dự đoán tình trạng sức khỏe của bệnh nhân dựa trên các triệu chứng.*
– Giả sử ta mã 3 chẩn đoán có thể xảy ra như sau:
và sử dụng hồi quy tuyến tính (bỏ qua thực tế Y là có giá trị rời rạc) để xây
dựng mô hình
• Liệu đó có phải là cách tiếp cận tốt không? Tại sao?
• Vấn đề gì xảy ra khi sử dụng phương pháp này để dự đoán biến đầu
ra dạng định tính?
*Ví dụ lấy từ mục 4.2, ISL 2013
Trang 77Câu đố
• Vấn đề gì xảy ra khi sử dụng phương pháp này để dự đoán biến đầu ra dạng định tính?
– Các biến định tính chứa giá trị không có thứ tự
• Khi mã hóa chúng ở dạng số sẽ tạo ra sắp xếp tùy ý
• Mô hình tuyến tính (và kết quả dự đoán) phụ thuộc vào sự sắp xếp này do dùng phương pháp bình phương nhỏ nhất
Trang 78Câu đố
• Vấn đề gì xảy ra khi sử dụng phương pháp này để dự đoán
biến đầu ra dạng định tính?
– Mã hóa biến định tính có thể phù hợp với kiểu dữ liệu có sắp xếp
tự nhiên: vd “mild”, “moderate” and “severe”
– Với biến nhị phân (chỉ có 2 lớp), phương pháp này không nhạy cảm
khi việc mã hóa thế nào
• Ta có thể dùng ngưỡng (threshold) để phân lớp các giá trị của biến định tính phục vụ cho bài toán dự đoán
• Giá trị của biến đích có thể không nằm trong đoạn [0, 1], và không thể được giải thích như là xác suất thuộc về một lớp cụ thể
Trang 79Hồi quy Logistic
• Phân lớp nhị phân: Y nhận 2 giá trị (“0” hoặc “1”)
với 2 lớp tương ứng
nhị phân
xác suất trong [0, 1]
Trang 80Hồi quy Logistic
• Hàm Logistic (sigmoid) xấp xỉ biến đầu ra
• Hàm Logistic
– Đường cong chữ S
– Luôn nhận giá trị trong (0, 1) xác suất hợp lệ
• Mô hình hồi quy Logistic
Trang 81Hồi quy Logistic
=
(βO+ β1X)
1 + (βO+ β1X)
Trang 82Hồi quy Logistic
(βO+ β1X)
1 + (βO+ β1X)
=
Trang 83Hồi quy Logistic
=
(βO+ β1X)
1 + (βO+ β1X)
Trang 84Hồi quy Logistic
lượng từ dữ liệu huấn luyện
bình phương nhỏ nhất
phương pháp Ước lượng hợp lý cực đại
(maximum likelihood estimation)
Trang 85Hồi quy Logistic đa biến
hợp nhiều biến đầu vào:
Trang 86Hồi quy Logistic
• Ưu điểm:
– Mở rộng của hồi quy tuyến tính
– Không cần siêu tham số điều chỉnh mô hình
• Nhược điểm:
– Không thể mô hình hóa được các bài toán có hàm quyết định
dạng phức tạp
– Có thể bị overfit dữ liệu huấn luyện
• Khắc phục được bằng cách điều chỉnh trong phương pháp hợp lý cực đại (maximum likelihood)
– Chỉ giải dạng bài toán phân lớp nhị phân
Trang 87Tóm tắt
• Học có giám sát (Supervised learning) – học từ các mẫu quan
sát được
• Hồi quy tuyến tính (Linear regression) – đơn giản, mô
hình dễ diễn giải cho dự đoán biến đích dạng liên tục
• Hồi quy Logistic – phương pháp hồi quy dung để dự đoán xác
suất cho bài toán phân lớp nhị phân
lượng giá trị các tham số
Trang 88Câu hỏi?
Trang 90Maximum Likelihood
the available observations
– We want to estimate θ based on training data using
maximum likelihood estimation
Trang 91Maximum Likelihood
x(1)
• For fixed θ = α, we can find the probability density
corresponding to a single observation x (1) : p(x (1) ; θ = α)
p(x; θ = α)
p(x(1); θ = α)
Trang 92Maximum Likelihood
x
• The likelihood for a set of training observations is the product of
the individual densities (fixed θ)
p(x; θ = α)
Trang 93Maximum Likelihood
x
• If the value of θ is not fixed, but the set of training observations is
fixed, the likelihood will change as θ changes
p(x; θ = β)
Trang 94Maximum Likelihood
x
• If the value of θ is not fixed, but the set of training observations is
fixed, the likelihood will change as θ changes
p(x; θ = γ)
Trang 95Maximum Likelihood
• We can plot the likelihood value (y-axis) against the parameter value θ
(x-axis) for a fixed training set
• The maximum likelihood estimator ( ˆ) for θ is the parameter values that
corresponds to the highest likelihood
L(θˆ; x(1), …, x(7))
Trang 96Maximum Likelihood
• Maximum likelihood estimation can be used to estimate
multiple parameters
• Likelihood function for logistic regression:
– Fit parameters O and 1 by maximizing this function using the
training set