Lý Thuyết Học Thống Kê (Statistical Learning Theory)

Các mô hình phân biệt discriminative models: Mô hình hoá trực tiếp các xác suất hậu nghiệm Pc / x và đánh giá chúng từ dữ liệu... Hai hướng tiếp cận để giải quyết vấn đề hồi quy • Đư

Trang 1

LÝ THUYẾT HỌC THỐNG KÊ

(statistical learning theory)

Trang 2

MÔ HÌNH TỔNG QUÁT CỦA HỌC TỪ VÍ DỤ

• Giả sử có một quan hệ hàm giữa hai tập X và Y

Trang 3

• Hàm học giá trị thực : vấn đề hồi quy

Trang 4

Giả thiết của lý thuyết học thống kê

• Tồn tại một phân phối xác suất p(x,y) cố

định và chưa biết trên X x Y.

• Các ví dụ (x,y) được lấy mẫu độc lập theo cùng một phân phối p(x,y)

Giả thiết i.i.d (independent and identically distributed).

• Mục tiêu : sử dụng tập ví dụ huấn luyện

để đưa ra một hàm là xấp xỉ của hàm mục tiêu

Học là vấn đề xấp xỉ hàm

Trang 5

SAI SỐ VÀ SAI SỐ THỰC NGHIỆM

• Đối với phân lớp : lỗi phân lớp (classification error)

L : hàm sai lệch (loss function)

• Trường hợp hồi quy: Lôĩ bình phương (squared loss)

2

L(y, h(x)) (y h(x))  

Trang 6

• Sai số kỳ vọng hay lỗi kỳ vọng (expected risk /

expected loss) của hàm h:

• Sai số thực nghiệm Sai số thực nghiệm

(empirical risk) của hàm h:

Trang 7

• Ví dụ Hàm lỗi tổng bình phương (sum-of-squares

Trang 8

Hai đường xấp xỉ từ 5 ví dụ

Trang 9

Nguyên lý quy nạp cực tiểu lỗi thực nghiệm

(empirical risk minimization inductive principle)

Trang 10

• Câu hỏi : Hàm g là xấp xỉ tốt của hàm cần học không? Cụ thể hơn : sai số R(g) nhỏ không?

• Hàm g phụ thuộc vào lớp các hàm H, nó

đóng vai trò như là hướng quy nạp.

• Hàm mục tiêu không thuộc lớp hàm H,

khó có thể g là xấp xỉ tốt

• Lớp hàm H chứa hàm mục tiêu, không có

gì đảm bảo hàm g có sai số nhỏ

Trang 11

• Chúng ta hoàn toàn không biết gì về hàm mục tiêu, chỉ có các thông tin trong tập

huấn luyện D

• Đưa ra lớp hàm H thích hợp cho một

nhiệm vụ học ?

• Câu hỏi khác : ta không thể tính được sai

số R(g) , làm thế nào đánh giá được khả năng tiên đoán chính xác của nó ở ngoài tập ví dụ huấn luyện?

Trang 12

Thiết kế các thuật toán học dựa

trên nguyên lý quy nạp

Trang 14

Phân lớp Bayes

Hàm mục tiêu cần học :

f : X  C  c , , c1 k

• P(c ) : xác suất tiên nghiệm (prior probability)

• P(c / x): xác suất hậu nghiệm (posterior probability)

• p(x) : Hàm mật độ xác suất của các đối tượng x

• p(x / c) : Hàm mật độ xác suất của các đối tượng trong lớp c

:mật độ xác suất điều kiện trên lớp (class-

conditional probability density function)

Trang 15

Luật quyết định Bayes

Phân lớp Bayes (Bayes classifier) :

đối tượng x được phân vào lớp c có xác suất hậu nghiệm lớn nhất :

Trang 16

Phân lớp Bayes là phân lớp tối ưu

• Phân lớp Bayes cho sai số kỳ vọng nhỏ nhất

• Phân lớp Bayes cho xác suất lỗi nhỏ nhất

Trang 18

Các cách tiếp cận phân lớp Bayes

1 Các mô hình sinh (generative models):

• Đưa ra mô hình mô tả các mật độ xác suất p(x / c) và các xác suất P(c ) Đánh giá các đại

lượng đó từ các dữ liệu huấn luyện

• Tương đương, đưa ra mô hình mô tả phân phối kết hợp p(x,c) và đánh giá nó từ dữ liệu

2 Các mô hình phân biệt (discriminative

models):

Mô hình hoá trực tiếp các xác suất hậu nghiệm P(c / x) và đánh giá chúng từ dữ liệu

Trang 19

Hàm hồi quy

• Cần đánh giá một hàm mục tiêu thực:

f : X  Y = R

• Giả sử h là một hàm xấp xỉ của hàm mục tiêu, lỗi kỳ vọng của hàm h là:

• Mục đích : tìm hàm h sao cho lỗi kỳ vọng trên là nhỏ nhất

Trang 20

• Từ các kết quả cơ bản của phép tính biến phân (the calculus of variations),

h(x)   yp(y / x)dy E[y / x] 

Trang 21

Hai hướng tiếp cận để giải quyết

vấn đề hồi quy

• Đưa ra mô hình biểu diễn hàm mật độ xác suất kết hợp p(x,y) và đánh giá hàm mật

độ từ tập dữ liệu huấn luyện

• Cách thứ hai : đưa ra mô hình xác suất

biểu diễn trực tiếp hàm mật độ xác suất

p(y/x), rồi đánh giá mật độ này từ dữ liệu

Trang 22

2 Phân cụm dữ liệu (clustering)

3 Rút gọn chiều dữ liệu The curse of dimensionality.

4 Phát hiện các điểm dữ liệu ngoại lai (outlier)

Trang 25

Tìm vectơ tham biến ML là vấn đề tìm

kiếm tối ưu :

• Có thể sử dụng các phương pháp kinh

điển của phép tính vi phân

• Sử dụng kỹ thuật tìm kiếm gradient

• Vectơ ML thoả mãn một số ràng buộc : có

thể sử dụng phương pháp nhân tử

Lagrange (Lagrange Multipliers).

• Mô hình chứa biến ẩn: Thuật toán EM

• Các kỹ thuật tìm kiếm tối ưu khác

Trang 26

PHƯƠNG PHÁP BAYES

• Đưa vào mật độ xác suất trên không gian tham biến :

mật độ tiên nghiệm (prior density) p  

p  / D

• Sau khi quan sát được tập dữ liệu D, đánh giá lại mức độ

tin tưởng về các tham biến

mật độ hậu nghiệm (posterior density)

Trang 28

• Sử dụng mật độ hậu nghiệm, tính phân phối tiên đoán

Trang 29

Hai hướng tiếp cận

• Phương pháp tham biến: xây dựng các mô hình biểu

diễn hàm mục tiêu hoặc các mô hình biểu diễn các phân phối xác suất sinh ra tập dữ liệu quan sát, rồi đánh giá các tham biến của mô hình từ dữ liệu

Ví dụ: Linear Models, Feed-Forward Neural

Networks, Bayesian Netwoks, Markov Random Fields, Gaussian Mixtures, Hidden Markov Models, Conditional Random Fields, Bolzman Machines, Deep Belief

Networks…

• Phương pháp không tham biến:

Đánh giá mật độ (Parzen windows), phương pháp

k-láng giềng gần nhất.

Các phương pháp cây : cây quyết định,…

Trang 30

ĐÁNH GIÁ MỘT GIẢ THUYẾT

• Giả sử h là một giả thuyết, lỗi của h : R(h) (không thể tính được )

• Đánh giá R(h) qua lỗi thực nghiệm Remp  h

Câu hỏi : Lỗi thực nghiệm có là đánh giá tốt của lỗi đúng R(h) không ?

Trang 33

Đánh giá biên sai lệch giữa sai số thực

nghiệm và sai số kỳ vọng Chẳng hạn, đối với phân lớp, với mức độ tin tưởng (xác suất) là

Trang 34

TÍNH CHẤT CONSISTENT CỦA THUẬT TOÁN HỌC

• Mục tiêu: Khi được cho tập ví dụ D, tìm hàm h

sao cho sai số R(h) nhỏ nhất Hàm tối ưu :

Trang 35

• Giả sử một thuật toán học khi chạy trên N

ví dụ huấn luyện cho ra hàm (hàm này được chọn ra từ lớp hàm H), chẳng hạn: N

Trang 36

• Thuật toán học có cho ra hàm gần với hàm tối ưu, khi số dữ liệu huấn luyện tăng

Trang 37

Lỗi đánh giá và lỗi xấp xỉ

• Lớp hàm H lớn : lỗi xấp xỉ sẽ nhỏ, đặc biệt nếu

H đủ lớn để chứa hàm tối ưu thì lỗi xấp xỉ sẽ

Trang 38

• Khi lớp hàm H lớn, có thể chứa hàm cho sai

số thực nghiệm nhỏ (có thể = 0), nhưng sai

số của hàm đó lại lớn Hiện tượng quá

Trang 39

Tính chất phù hợp (consistency)

• Một thuật toán học được gọi là phù hợp

(consistent ), nếu

• Một thuật toán học được gọi là phù hợp

(consistent ) đối với lớp hàm H, nếu

Trang 40

• Định lý (Vapnik – Chernovenkis, 1989)

Điều kiện cần và đủ để phương pháp cực tiểu sai số thực nghiệm phù hợp đối với lớp hàm H là

Tức là, sai số thực nghiệm hội tụ đồng đều

(uniform convergence) trên lớp hàm H tới

sai số kỳ vọng.

Trang 41

SAI SỐ THỰC NGHIỆM ĐIỀU CHỈNH

• Một hướng tiếp cận : đưa vào lớp hàm H

đủ lớn song đưa vào một “sự trừng phạt” cho các hàm phức tạp

• Sai số thực nghiệm điều chỉnh :

Trang 42

ĐỊNH LÝ BỮA ĂN KHÔNG MIỄN PHÍ

• Có nhiều thuật toán học

• Câu hỏi : có thể nói thuật toán học A là tốt hơn thuật toán học B không? Có thuật toán nào là tốt nhất không? Câu trả lời : không.

• Đinh lý bữa ăn không miễn phí (No Free

Lunch Theorem) Định lý khẳng định rằng, lấy

trung bình đồng đều trên tất cả các phân phối

xác suất p(x,y), thì sai số ở ngoài tập huấn luyện của các thuật toán là bằng nhau

Trang 43

TÀI LIỆU THAM KHẢO

1. V vapnik (1995) The Nature Of Statistical Learning

Theory.

2. V Vapnik (1998) Statistical Learning Theory.

3 O Bousquet, S Boucheron, and G Lugosi (2003)

Introduction to Statistical Learning Theory

(In advanced Lectures on Machine Learning)

4. U V Luxburg and B Scholkopf (2008) Statistical

Learning Theory : Models, Concepts, and Results.

5. B Scholkopf, and A J Smola (2002) Learning With

Kernels

(I Concepts and Tools)

Định dạng
Số trang	43
Dung lượng	322 KB