Các mô hình phân biệt discriminative models: Mô hình hoá trực tiếp các xác suất hậu nghiệm Pc / x và đánh giá chúng từ dữ liệu... Hai hướng tiếp cận để giải quyết vấn đề hồi quy • Đư
Trang 1LÝ THUYẾT HỌC THỐNG KÊ
(statistical learning theory)
Trang 2MÔ HÌNH TỔNG QUÁT CỦA HỌC TỪ VÍ DỤ
• Giả sử có một quan hệ hàm giữa hai tập X và Y
Trang 3• Hàm học giá trị thực : vấn đề hồi quy
Trang 4Giả thiết của lý thuyết học thống kê
• Tồn tại một phân phối xác suất p(x,y) cố
định và chưa biết trên X x Y.
• Các ví dụ (x,y) được lấy mẫu độc lập theo cùng một phân phối p(x,y)
Giả thiết i.i.d (independent and identically distributed).
• Mục tiêu : sử dụng tập ví dụ huấn luyện
để đưa ra một hàm là xấp xỉ của hàm mục tiêu
Học là vấn đề xấp xỉ hàm
Trang 5SAI SỐ VÀ SAI SỐ THỰC NGHIỆM
• Đối với phân lớp : lỗi phân lớp (classification error)
L : hàm sai lệch (loss function)
• Trường hợp hồi quy: Lôĩ bình phương (squared loss)
2
L(y, h(x)) (y h(x))
Trang 6• Sai số kỳ vọng hay lỗi kỳ vọng (expected risk /
expected loss) của hàm h:
• Sai số thực nghiệm Sai số thực nghiệm
(empirical risk) của hàm h:
Trang 7• Ví dụ Hàm lỗi tổng bình phương (sum-of-squares
Trang 8Hai đường xấp xỉ từ 5 ví dụ
Trang 9Nguyên lý quy nạp cực tiểu lỗi thực nghiệm
(empirical risk minimization inductive principle)
Trang 10• Câu hỏi : Hàm g là xấp xỉ tốt của hàm cần học không? Cụ thể hơn : sai số R(g) nhỏ không?
• Hàm g phụ thuộc vào lớp các hàm H, nó
đóng vai trò như là hướng quy nạp.
• Hàm mục tiêu không thuộc lớp hàm H,
khó có thể g là xấp xỉ tốt
• Lớp hàm H chứa hàm mục tiêu, không có
gì đảm bảo hàm g có sai số nhỏ
Trang 11• Chúng ta hoàn toàn không biết gì về hàm mục tiêu, chỉ có các thông tin trong tập
huấn luyện D
• Đưa ra lớp hàm H thích hợp cho một
nhiệm vụ học ?
• Câu hỏi khác : ta không thể tính được sai
số R(g) , làm thế nào đánh giá được khả năng tiên đoán chính xác của nó ở ngoài tập ví dụ huấn luyện?
Trang 12Thiết kế các thuật toán học dựa
trên nguyên lý quy nạp
Trang 14Phân lớp Bayes
Hàm mục tiêu cần học :
f : X C c , , c1 k
• P(c ) : xác suất tiên nghiệm (prior probability)
• P(c / x): xác suất hậu nghiệm (posterior probability)
• p(x) : Hàm mật độ xác suất của các đối tượng x
• p(x / c) : Hàm mật độ xác suất của các đối tượng trong lớp c
:mật độ xác suất điều kiện trên lớp (class-
conditional probability density function)
Trang 15Luật quyết định Bayes
Phân lớp Bayes (Bayes classifier) :
đối tượng x được phân vào lớp c có xác suất hậu nghiệm lớn nhất :
Trang 16Phân lớp Bayes là phân lớp tối ưu
• Phân lớp Bayes cho sai số kỳ vọng nhỏ nhất
• Phân lớp Bayes cho xác suất lỗi nhỏ nhất
Trang 18Các cách tiếp cận phân lớp Bayes
1 Các mô hình sinh (generative models):
• Đưa ra mô hình mô tả các mật độ xác suất p(x / c) và các xác suất P(c ) Đánh giá các đại
lượng đó từ các dữ liệu huấn luyện
• Tương đương, đưa ra mô hình mô tả phân phối kết hợp p(x,c) và đánh giá nó từ dữ liệu
2 Các mô hình phân biệt (discriminative
models):
Mô hình hoá trực tiếp các xác suất hậu nghiệm P(c / x) và đánh giá chúng từ dữ liệu
Trang 19Hàm hồi quy
• Cần đánh giá một hàm mục tiêu thực:
f : X Y = R
• Giả sử h là một hàm xấp xỉ của hàm mục tiêu, lỗi kỳ vọng của hàm h là:
• Mục đích : tìm hàm h sao cho lỗi kỳ vọng trên là nhỏ nhất
Trang 20• Từ các kết quả cơ bản của phép tính biến phân (the calculus of variations),
h(x) yp(y / x)dy E[y / x]
Trang 21Hai hướng tiếp cận để giải quyết
vấn đề hồi quy
• Đưa ra mô hình biểu diễn hàm mật độ xác suất kết hợp p(x,y) và đánh giá hàm mật
độ từ tập dữ liệu huấn luyện
• Cách thứ hai : đưa ra mô hình xác suất
biểu diễn trực tiếp hàm mật độ xác suất
p(y/x), rồi đánh giá mật độ này từ dữ liệu
Trang 222 Phân cụm dữ liệu (clustering)
3 Rút gọn chiều dữ liệu The curse of dimensionality.
4 Phát hiện các điểm dữ liệu ngoại lai (outlier)
Trang 25Tìm vectơ tham biến ML là vấn đề tìm
kiếm tối ưu :
• Có thể sử dụng các phương pháp kinh
điển của phép tính vi phân
• Sử dụng kỹ thuật tìm kiếm gradient
• Vectơ ML thoả mãn một số ràng buộc : có
thể sử dụng phương pháp nhân tử
Lagrange (Lagrange Multipliers).
• Mô hình chứa biến ẩn: Thuật toán EM
• Các kỹ thuật tìm kiếm tối ưu khác
Trang 26PHƯƠNG PHÁP BAYES
• Đưa vào mật độ xác suất trên không gian tham biến :
mật độ tiên nghiệm (prior density) p
p / D
• Sau khi quan sát được tập dữ liệu D, đánh giá lại mức độ
tin tưởng về các tham biến
mật độ hậu nghiệm (posterior density)
Trang 28• Sử dụng mật độ hậu nghiệm, tính phân phối tiên đoán
Trang 29Hai hướng tiếp cận
• Phương pháp tham biến: xây dựng các mô hình biểu
diễn hàm mục tiêu hoặc các mô hình biểu diễn các phân phối xác suất sinh ra tập dữ liệu quan sát, rồi đánh giá các tham biến của mô hình từ dữ liệu
Ví dụ: Linear Models, Feed-Forward Neural
Networks, Bayesian Netwoks, Markov Random Fields, Gaussian Mixtures, Hidden Markov Models, Conditional Random Fields, Bolzman Machines, Deep Belief
Networks…
• Phương pháp không tham biến:
Đánh giá mật độ (Parzen windows), phương pháp
k-láng giềng gần nhất.
Các phương pháp cây : cây quyết định,…
Trang 30ĐÁNH GIÁ MỘT GIẢ THUYẾT
• Giả sử h là một giả thuyết, lỗi của h : R(h) (không thể tính được )
• Đánh giá R(h) qua lỗi thực nghiệm Remp h
Câu hỏi : Lỗi thực nghiệm có là đánh giá tốt của lỗi đúng R(h) không ?
Trang 33Đánh giá biên sai lệch giữa sai số thực
nghiệm và sai số kỳ vọng Chẳng hạn, đối với phân lớp, với mức độ tin tưởng (xác suất) là
Trang 34TÍNH CHẤT CONSISTENT CỦA THUẬT TOÁN HỌC
• Mục tiêu: Khi được cho tập ví dụ D, tìm hàm h
sao cho sai số R(h) nhỏ nhất Hàm tối ưu :
Trang 35• Giả sử một thuật toán học khi chạy trên N
ví dụ huấn luyện cho ra hàm (hàm này được chọn ra từ lớp hàm H), chẳng hạn: N
Trang 36• Thuật toán học có cho ra hàm gần với hàm tối ưu, khi số dữ liệu huấn luyện tăng
Trang 37Lỗi đánh giá và lỗi xấp xỉ
• Lớp hàm H lớn : lỗi xấp xỉ sẽ nhỏ, đặc biệt nếu
H đủ lớn để chứa hàm tối ưu thì lỗi xấp xỉ sẽ
Trang 38• Khi lớp hàm H lớn, có thể chứa hàm cho sai
số thực nghiệm nhỏ (có thể = 0), nhưng sai
số của hàm đó lại lớn Hiện tượng quá
Trang 39Tính chất phù hợp (consistency)
• Một thuật toán học được gọi là phù hợp
(consistent ), nếu
• Một thuật toán học được gọi là phù hợp
(consistent ) đối với lớp hàm H, nếu
Trang 40• Định lý (Vapnik – Chernovenkis, 1989)
Điều kiện cần và đủ để phương pháp cực tiểu sai số thực nghiệm phù hợp đối với lớp hàm H là
Tức là, sai số thực nghiệm hội tụ đồng đều
(uniform convergence) trên lớp hàm H tới
sai số kỳ vọng.
Trang 41SAI SỐ THỰC NGHIỆM ĐIỀU CHỈNH
• Một hướng tiếp cận : đưa vào lớp hàm H
đủ lớn song đưa vào một “sự trừng phạt” cho các hàm phức tạp
• Sai số thực nghiệm điều chỉnh :
Trang 42ĐỊNH LÝ BỮA ĂN KHÔNG MIỄN PHÍ
• Có nhiều thuật toán học
• Câu hỏi : có thể nói thuật toán học A là tốt hơn thuật toán học B không? Có thuật toán nào là tốt nhất không? Câu trả lời : không.
• Đinh lý bữa ăn không miễn phí (No Free
Lunch Theorem) Định lý khẳng định rằng, lấy
trung bình đồng đều trên tất cả các phân phối
xác suất p(x,y), thì sai số ở ngoài tập huấn luyện của các thuật toán là bằng nhau
Trang 43TÀI LIỆU THAM KHẢO
1. V vapnik (1995) The Nature Of Statistical Learning
Theory.
2. V Vapnik (1998) Statistical Learning Theory.
3 O Bousquet, S Boucheron, and G Lugosi (2003)
Introduction to Statistical Learning Theory
(In advanced Lectures on Machine Learning)
4. U V Luxburg and B Scholkopf (2008) Statistical
Learning Theory : Models, Concepts, and Results.
5. B Scholkopf, and A J Smola (2002) Learning With
Kernels
(I Concepts and Tools)