Công thức hồi qui đơn giản 2Cực tiểu hàm lỗi để nhận được các hệ số a b Cực tiểu hàm lỗi để nhận được các hệ số a, b... Hồi qui tuyến tính cơ sở 1Một cách khác là sử dụng đường cong đa t
Trang 1Seminar ngày 5/10/09
MÔ HÌNH HỒI QUI TUYẾN TÍNH
VÕ ĐÌNH BẢY
Trang 2Hồi qui tuyến tính
Mục tiêu của hồi qui là tiên đoán giá trị của
một hay nhiều biến (liên tục) mục tiêu t khi
cho trước giá trị của vector D-chiều x
cho trước giá trị của vector D-chiều x
Đơn giản nhất là sử dụng công thức dạng
y = ax + b
y = ax + b
Trang 3Công thức hồi qui đơn giản (1)
Công thức: y = ax + b
Công thức: y ax + b
Khi ấy, với X = {x1, x2, …xN} và T = {t1, t2,
t } Ta có thể tìm công thức hồi qui như
…, tN} Ta có thể tìm công thức hồi qui nhưsau:
)]
( [
) (
Trang 4Công thức hồi qui đơn giản (2)
Cực tiểu hàm lỗi để nhận được các hệ số a b
Cực tiểu hàm lỗi để nhận được các hệ số a, b
t d
SE
)]
( [
2∑
=
i
i i
SE
1
)]
( [
2
Trang 5Công thức hồi qui đơn giản (3)
Giải hệ trên với biến là a b:
i
mean x
N
i
i N
i i i
mean a
mean N
x a
của X và T
Trang 6Công thức hồi qui đơn giản (4)
X
i mean t mean x
N N
N
i
X i
i
mean x
N
i
i N
i
i
mean a
mean N
x a
N
t b
Hay phương trình là: y = -0.295x+0.738!y p g y
Trang 7Công thức hồi qui đơn giản (4)
0
295
Trang 8Dạng đơn giản – Đa thức
Trang 9Hồi qui tuyến tính cơ sở (1)
Một cách khác là sử dụng đường cong đa thức:
Tùy theo giá trị M, chúng ta có hàm xấp xỉ với các giá trị (xg ị ( ii, t, ii) được cho.) ợ
Trang 10Hàm hồi qui tuyến tính cơ sở (2)
Trang 11Hàm lỗi (Sum‐of‐Squares Error Function)
t thực tế
Giá trị ước lượng
Lỗi: y(x,w) - t y( , )
Trang 12Hàm lỗi (2)
Tìm w sao cho E(w) đạt min
⇒ Giải bài toán cực trị hàm nhiều biến
Trang 13Hàm xấp xỉ với M = 0
Trang 17Root‐Mean‐Square (RMS) Error:
Trang 18Các hệ số tương ứng với M Các hệ số tương ứng với M
Trang 19Kích thước dữ liệu: Kích thước dữ liệu:
Hàm xấp xỉ với M = 9
Trang 20Kích thước dữ liệu: Kích thước dữ liệu:
Hàm xấp xỉ với M = 9
Trang 21Mở rộng công thức hàm lỗi
Thêm hàm phạt (theo λ và w)
Ngoài w, cần chọn λ phù hợp để lỗi đạt được là min Ngoài w, cần chọn λ phù hợp để lỗi đạt được là min.
Trang 22Hệ số λ:
Hệ số λ:
Trang 23Hệ số λ:
Hệ số λ:
Trang 24Lỗi với hệ số λ: với Lỗi với hệ số λ: với
Trang 25Các hệ số tương ứng với λ
Trang 26Mở rộng hàm
Trang 27Hàm hồi qui tuyến tính cơ sở (1)
Công thức tổng quát:
Trong đó φj(x) là các hàm cơ sở (basis functions)
w = (w0, w1, …, wM-1)T và φ = (φ0, φ1, …, φM-1)T
j
Trang 28Hàm hồi qui tuyến tính cơ sở (2)
Hàm cơ sở dạng đa thức: ạ g
≡ Hàm cơ bản dạng đa thức
Trang 29Hàm hồi qui tuyến tính cơ sở (3)
Trang 30Hàm hồi qui tuyến tính cơ sở (4)
Hàm Sigmoid cơ sở: g
T đó
Trong đó:
Trang 31Cực đại likelihood và bình phương tối thiểu (1)
Giả sử đã có hàm nhiễu Gaussian như sau:
Trang 32Cực đại likelihood và bình phương tối thiểu(2)
Lấy ln 2 vế ta có:
Trong đó
là hàm tổng bình phương lỗi (sum-of-quares error).
Trang 33Cực đại likelihood và bình phương tối thiểu(3)
Gradient của log có dạng:
= 0
Giải hệ = 0 với biến w ta được:
Moore‐Penrose pseudo‐inverse, .
Trong đó:
Trang 34Cực đại likelihood và bình phương tối thiểu (4)
Trang 35Cực đại likelihood và bình phương tối thiểu(5)
Từ đó ta đạt được hàm cực đại láng giềng:
Từ đó ta đạt được hàm cực đại láng giềng:
Trang 36Bản chất hình học của bình phương tối thiểu
T là không gian N chiều
T là không gian N chiều.
wML là khoảng cách nhỏ nhất từ
t với hình chiếu của nó trên S
(chính là y).
Trang 37Sequential Learning (1)
Xử lí theo lô như công thức
Xử lí theo lô như công thức đòi hỏi phải đưa toàn bộ dữ liệu vào để xử lí
cùng lúc ⇒ chi phí xử lí lớn (hoặc không đủ bộ
cùng lúc ⇒ chi phí xử lí lớn (hoặc không đủ bộ nhớ để xử lí) Điều này có thể giải quyết được
bằng cách sử dụng các thuật toán tăng cường
bằng cách sử dụng các thuật toán tăng cường
(sequential hay online)!
Trang 39Regularized Least Squares (1)
Xét hàm lỗi (được trình bày trrong chương 1):
Trang 40Regularized Least Squares (2)
Tổng quát hơn, ta có công thức:
Lasso Quadratic
Trang 41Regularized Least Squares (3)
Với q = 2 công thức đã cho trở thành công thức
thường dùng (có tên là Quadratic)
Với q = 1 công thức được gọi là lasso Trong trường hợp λ đủ lớn, sẽ có một số wj tiến về 0 Vì vậy, chúng không đóng vai trò gì trong công thức! g g g g g
Trang 42Đa đầu ra (1)
Các phần trước xét các trường hợp biến đích t là biến đơn (chỉ chứa 1 thuộc tính) Trong trường hợp T là một ma trận có kích thước MxK, ta có công thức:
Ta có hàm log likelihood như sau:
Trang 43Đa đầu ra (2)
Cực đại hàm trên theo biến W, ta có
(giống công thức của 1 target) ấ
Xét 1 target đơn tk, ta thấy:
với trường hợp 1 output.