Báo cáo cuối kì môn Phân tích số liệu đề tài Mô hình hồi quy tuyến tính hay Linear Regression ModelFile báo cáo được soạn thảo bằng LaTex nên khá đẹp, nội dung chi tiết có chứng minh công thức định lý.Tài liệu sử dụng kiến thức chuẩn theo giáo trình nha các bạn yên tâm
Trang 1VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC
Báo cáo môn Phân tích số liệu
Đề tài: Mô hình hồi quy tuyến tính
Giảng viên hướng dẫn: TS Lê Xuân Lý Nhóm sinh viên thực hiện: Nhóm 4
Vũ Thị Tâm 20185403
Phạm Thị Thu Hương 20185367
Nguyễn Thị Diệu Linh 20180815
Nguyễn Thị Nga 20185387
Phạm Huy Hoàng 20185361
Nguyễn Quang Hiếu 20185351
Nguyễn Bình Nguyên 20185389
Nguyễn Quang Minh 20185385
Hoàng Thế Văn 20185425
Hà Nội, tháng 12/2020
Trang 2Bảng phân công nhiệm vụ
1 Giới thiệu mô hình hồi quy
- Hệ số xác định R - Chuẩn bị nd, thuyết trình Nguyễn Quang Minh
- Khoảng tin cậy các hệ số hồi
- Trình bày VD, Chạy trên
- Giải thích chứng minh Nguyễn Quang Hiếu
3 Kiểm định giả thiết các hệ
số hồi quy
- Chứng minh giải thích Nguyễn Thị Nga
4 Mô hình hồi quy tuyến tính
5 Các bước tiến hành trong
Tổng hợp slide và làm báo
Trang 3Mục lục
2.1 Mệnh đề về ước lượng bình phương cực tiểu 5
2.2 Tính chất ước lượng bằng phương pháp bình phương cực tiểu 6
2.3 Định lý Gauss về ước lượng bình phương cực tiểu 8
2.4 Hệ số xác định R 9
2.5 Khoảng tin cậy của các hệ số hồi quy βj 9
2.5.1 Ví dụ 2.5.1 12
2.5.2 Bài tập 2.5.1 13
2.5.3 Bài tập 2.5.2 14
2.6 Kiểm định giả thiết về các hệ số hồi quy 16
2.7 Ước lượng hàm hồi quy tuyến tính 17
3 Kiểm tra sự phù hợp của mô hình 18 3.1 Tiêu chuẩn F 18
3.1.1 Ví dụ 3.1(Xét ví dụ 2.1) 19
3.2 Khảo sát các phần dư 20
3.2.1 Tiêu chuẩn Student 20
3.2.2 Khảo sát đồ thị của các phần dư 21
3.2.3 Kiểm định tính không tương quan của ε j theo thời gian 21
3.2.4 Khảo sát tính đa cộng tuyến tính của X1, , Xk 23
Trang 41 Giới thiệu về mô hình hồi quy tuyến tính cổ điển
Giả sử X1, X2, , Xk là k biến độc lập dùng để dự báo (Predictor variables)
Y là biến phụ thuộc cần dự báo (Response Variables)
Mô hình hồi quy tuyến tính như sau:
Y = β0+ β1X1+ β2X2+ + βkXk+ (1.1) với là sai số ngẫu nhiên, các hệ số β 1 , β2, , βk là các hệ số chưa biết
Ta tiến hành n quan sát độc lập về k + 1 biến X1, , Xk, Y
Trang 52 Ước lượng bình phương cực tiểu
Bài toán đầu tiên đặt ra là dựa vào bộ số liệu quan sát được X, Y hãy ước lượng tham số β, σ2 Nếu ta sử dụng giá trị b là giá trị thử cho β thì giữa các quan sát yj và b0+ b1xj1+ + bkxjk
sẽ có độ lệch (sai số):
yj − b0− (b1xj1+ + bkxjk) Phương pháp bình phương tối thiểu là cách chọn giá trị véctơ b sao cho:
Vì biểu thức theo X1, , Xk là tuyến tính nên phương trình:
“
Y = “ β0+ “ β1X1+ · · · + “ βkXk (2.3) được gọi là phương trình hồi quy tuyến tính mẫu
Đặt:
“
yj = β “0+ “ β1xj1+ · · · + “ βkxjk (2.4) b
Y = ( y“1 , , y“n )T
Trang 62.1 Mệnh đề về ước lượng bình phương cực tiểu
(yj− b0 − b1xj1− · · · − bkxjk)2 là hàm bậc hai theo b nên dễ thấy b β
có thể tìm được từ hệ phương trình sau:
Trang 7hoặc dưới dạng ma trận:
Phương trình (2.11) gọi là phương trình chuẩn.
Do rank(X) = k + 1 nên XTX có nghịch đảo, ta suy ra nghiệm:
b = b β = (XTX)−1XTY
Ta thấy b β là biểu thức tuyến tính theo Y.
Để chứng minh b β cực tiểu hóa S(b) và thỏa mãn (2.9), (2.10) ta chú ý rằng ma trận H có tính chất sau:
(I − H) là ma trận đối xứng: (I − H)T = (I − H) (I − H)2 = (I − H) tức là I − H là ma trận lũy đẳng (2.12) X(I − H) = XT(I − X(XTX)−1XT) = XT − XT = 0 (2.13)
Dễ dàng thấy rằng:
S(b) = (Y − Xb)T(Y − Xb) = (Y − X b β + X b β − Xb)T(Y − X b β + X b β − Xb)
= (Y − X b β)T(Y − X b β) + ( b β − b)TXTX( bβ − b) +( b β − b)TXT(I − H)Y + YT(I − H)TX( bβ − b)
= (Y − X b β)T(Y − X b β + ( b β − b)TXTX( bβ − b)
≥ (Y − Xb β)T(Y − X b β) = S( b β) Dấu "=" xảy ra khi b β = b Hơn nữa:
2.2 Tính chất ước lượng bằng phương pháp bình phương cực tiểu
Ước lượng b β là ước lượng không chệch với:
Trang 8Chứng minh mệnh đề
1)
E b β = E(XTX)−1XTY = (XTX)−1XTE(Y)
= (XTX)−1XTXβ = β cov( b β) = (XTX)−1XTcov(Y)X(XTX)−1
= σ2(XTX)−1XTIX(XTX)−1
= σ2(XTX)−1
2) Do ε = (I − H)Y (theo (2.8)) nên:b
E(bε) = (I − H)E(Y) = (I − H)Xβ = 0, cov(bε) = (I − H)I(I − H)σ2 = σ2(I − H).
Trang 92.3 Định lý Gauss về ước lượng bình phương cực tiểu
Định lý 2.1 (Định lý Gauss)
rong mô hình tuyến tính cổ điển (??),(??) với hạng đầy đủ k + 1 ≤ n thì ước lượng:
cTβ = c b 0β “0+ c1β “1+ · · · + ckβ “k (2.18) của cTβ = c0β0 + c1β1 + · · · + c0β0 là ước lượng không chệch với phương sai bé nhất so với bất kỳ ước lượng tuyến tính không chệch nào dạng a T
Y = a 1 y1+ · · · + anyn Nếu thêm giả thiết rằng ε có phân bố chuẩn Nn(0, σ 2 In) thì c T
E(aTY) = aTE(Y) = aTXβ ≡ cTβ ⇔ (aTX − cT)β ≡ 0với mọi β, đặc biệt khi βT = aTX − cT ta có:
βTβ = 0 ⇔ aTX − cT = 0 ⇔ aTX = cT (2.19)Chú ý rằng
cTβ = cb T(XTX)−1XTY = a∗TY (2.20)với a∗T = cT(XTX)−1XTY ⇔ a∗ = X(XTX)−1c
2) Xem Thống kê toán - Đào Hữu Hồ, Nguyễn Văn Hữu, Hoàng Hữu Như
Trang 10gọi là bình phương của hệ số xác định, đó là tỷ lệ biến thiên của các biến yj
được giải thích bởi các biến xj1, , xjk
ta nhận được phương trình để tính sai số bình phương trung bình
2.5 Khoảng tin cậy của các hệ số hồi quy βj
Trong phần này ta xét mô hình hồi quy cổ điển (??),(??), với giả thiết thêmrằng: các εj có cùng phân phối chuẩn N (0, σ2) và độc lập, tức là ε = (ε1, , εn)T
σ2 có phân bố χ2 với (n-k-1) bậc tự do
3 bβ,σb2 là độc lập
Chứng minh mệnh đề 2.2 Theo (2.7), (2.10) thì bβ = (XTX)−1XTY; ε =b(I − H)Y là các tổ hợp tuyến tính của vecto Y có phân bố chuẩn Nn(Xβ, σ2In)
Vì vậy, bβ có phân bố chuẩn Nk+1(β, σ2(XT
X−1)),ε có phân bố chuẩn N (0, σb 2(I −H)), cov( bβ,ε) = 0 và ( bb β,ε)bT có phân bố chuẩn đồng thời chuẩn
Nên theo tính chất của phân bố chuẩn, ta có :
Trang 11(i) Vì (I − H) là ma trận lũy đẳng nên nếu ta ký hiệu λ và ε là cặp giá trịriêng và vecto riêng của (I − H), ta sẽ có:
(I − H)e = λe ⇒ (I − H)2e = λ(I − H)e = λ2ehoặc (I − H)e = λ2e = λe Do đó λ = λ2 Vậy λ = 0 hoặc 1
Vì tr(I − H) = n − k − 1 = λ1 + + λn nên n − k − 1 giá trị riêng đầutiên của I − H là 1 cònk + 1 giá trị riêng còn lại bằng 0
(ii) Giả sử e1, en−k−1 là n − k − 1 vecto riêng ứng với giá trị riêng là 1 còn
k + 1 vecto riêng ứng với giá trị riêng 0 của ma trận I − H Theo côngthức khai triển phổ của ma trận ta có:
I − H = e1eT1 + + en−k−1eTn−k−1Đặt
(β − bβ)TXTX(β − bβ) ≤ (k + 1)bσ2Fk+1,n−k−1(α) (2.24)trong đó Fk+1,n−k−1(α) là phân vị trên mức α của phân bố F với bậc tự do là
k + 1, n − k − 1 Nói cách khác, với độ tin cậy (1 − α), giá trị chân thực β phảinằm trong Ellipsoid:
(x − bβ)TXTX(x − bβ) = (k + 1)σb2Fk+1,n−k−1(α)
Trang 12Hơn nữa khoảng tin cậy đồng thời mức (1 − α) của các βi, i = 0 ÷ k được xácđịnh bởi các mút:
b
βi ±
»
“D( bβi)(k + 1)Fk+1,n−k−1(α) (2.25)trong đó “D( bβi) ký hiệu phần tử thứ i trên đường chéo chính của ma trậnb
σ2(XTX)−1 và là ước lượng không chệch của D( bβ)
Chứng minh mệnh đề 2.3 Xét ma trận căn bậc hai đối xứng (XTX)1/2 vàđặt
U = (XTX)1/2( bβ − β)
Ta có:
E(U ) = 0cov(U ) = (XTX)1/2cov( bβ)(XTX)1/2
= σ2(XTX)1/2(XTX)−1(XTX)1/2 = σ2Ik+1
Vậy U có phân bố chuẩn N (0, σ2Ik+1) Do đó 1
σ2UTU = 1
σ2( bβ − β)T(XTX)( bβ −β) có phân phối χ2 với k + 1 bậc tự do
Hơn nữa, theo mệnh đề 2.1, (n − k − 1)bσ2
TU/(k + 1)σ2(n − k − 1)σb2/(n − k − 1)σ2
có phân bố F với k + 1 và n − k − 1 bậc tự do Từ đó
P {F ≤ Fk+1,n−k−1(α)} = 1 − αhoặc
“
βi ± tn−k−1
Åα2(k + 1)
ã »
“
Trang 132.5.1 Ví dụ 2.5.1
Để nghiên cứu sự phụ thuộc giữa doanh thu Y và chi phí sản xuất X1, chi phítiếp thị X2 người ta điều tra ngẫu nhiên doanh thu của 12 công ty trong 12thời kỳ, kết quả ta có bảng sau:
12 ≈ 12 khá nhỏ (so với các giá trị y nhận từ 102 đến 180)
Sau đây là bảng tính các giá trị “yj,ε“j
Trang 14D(“β1) = 16, 0415 × 0, 006765 = 0, 10830 ⇒
»
“D(“β1) = 0, 3287
“
D(“β2) = 16, 0415 × 0, 010509 = 0, 16860 ⇒
»
“D(“β3) = 0, 4106Khoảng tin cậy của β0, β1, β2 mức 0,95: (theo (2.4))
1 Hãy xác định các ước lượng “β0, “β1 của các hệ số hồi quy tuyến tính trong
mô hình dưới đây:
yj = β0 + β1xj1 + εj, j = 1 ÷ 6
Trang 15D(“β1) = 25, 36666667 × 0, 08333333 = 2, 11388 ⇒
»
“D(“β1) = 1, 453921
Khoảng tin cậy của β0, β1 mức 0,95:
Trang 161 Hãy xác định các ước lượng bằng phương pháp bình phương cực tiểu các
hệ số hồi quy tuyến tính trong mô hình dưới đây:
“
D(“β1) = 38, 781486 × 0, 0090497 = 0, 3509635 ⇒
»
“D(“β1) = 0, 5924217
“
D(“β1) = 38, 781486 × 0, 0285782 = 1, 108305 ⇒
»
“D(“β1) = 1.05276Khoảng tin cậy của β0, β1 mức 0,95:
36, 39679
Trang 175, 32801
2.6 Kiểm định giả thiết về các hệ số hồi quy
Xét mô hình HQTT cổ điển
Y = β0 + β1X1 + β2X2 + + βkXk + ε (2.27)Khi thiết lập phương trình, ta giả sử rằng mọi biến độc lập X1, , Xk đều thamgia phương trình hồi quy Tuy nhiên, trên thực tế, có một vài biến sẽ khôngtham gia vào phương trình hồi quy, tức là hệ số βi của nó bằng 0 Tuy vậy, các
Giả thiết H0 có nghĩa là các biến độc lập không tham gia vào biểu thức tuyếntính, ngược lại đối thiết K nói rằng có ít nhất một trong các biến này có liênquan đên mô hình
Tổng quát hơn ta xét bài toán kiểm định giả thiết dạng:
Trang 18Nhận xét Ta có thể sử dụng mệnh đề (2.4) về khoảng tin cậy của βp+1, , βkvới các đầu mút “βi ± tn−k−1
Åα2(k + 1)
ã »
“D( bβi) để kiểm định giả thiết (2.24).Điều đó có nghĩa là nếu tồn tại chỉ số i ∈ {p + 1, , k} thỏa mãn:
|“βi| > tn−k−1
Åα2(k − p)
ã »
“D( bβi)
thì ta coi βi 6= 0
2.7 Ước lượng hàm hồi quy tuyến tính
Bài toán đặt ra là ước lượng hàm hồi quy tuyến tính:
E(Y |X) = β0 + β1X1 + + βkXktại điểm X0 = (1, X10, , Xk0) tức là ước lượng tổ hợp tuyến tính sau:
E(Y |X) = β0 + β1X10 + + βkXk0 = X0Tβ (2.31)Theo định lý Gauss, X0Tβ là ước lượng tuyến tính với phương sai cực tiểubNếu ε ∼ N (0, Inσ2) thì X0Tβ ∼ N (Xb 0Tβ, σ2X0T(XTX)−1X0) và do đó khoảngtin cậy mức (1 − α) của X0Tβ chính là:
b β)
Trang 19yj = β0 + β1xj1 + β2xj2 + εj, j = 1 ÷ n, n = 12với {εj} là dãy độc lập có phân bố chuẩn N (0, σ2) Khi đó ta có thể dùngphương trình hồi quy tuyến tính mẫu:
do các yếu tố ngẫu nhiên tạo nên, tức chúng là dãy biến ngẫu nhiên độc lập và
có cùng phân phối Vì mô hình đang xét có phân phối chuẩn nên ta cần phảikiểm tra xem các sai số có phân phối chuẩn N (0, σ2In) hay không? Để kiểm tra
ta xét các tiêu chuẩn sau:
Tiêu chuẩn F Xét đại lượng:
F = (n − k − 1)R
2
Trang 20Mệnh đề 3.1 Nếu sai số ε có phân bố chuẩn N (0, σ2In) và nếu βi = 0, i = 1÷kthì F cho bởi (3.1) có phân bố F với k, n − k − 1 bậc tự do.
Từ mệnh đề trên ta đưa ra quy tắc:
Nếu F quá lớn hoặc quá gần 0 ta cần bác bỏ giả thiết ε có phân bố chuẩn
N (0, σ2In) hay bác bỏ giả thiết β1 = · · · = βk = 0
Cấu trúc của tiêu chuẩn F mức ý nghĩa α = 0, 02
Tra bảng phân phối F với bậc tự do là k và n − k − 1 ta được giá trị
F = 0, 9756 × (12 − 2 − 1)
2 ∗ 0, 0244 = 179, 6292
Trang 213.2.1 Tiêu chuẩn Student
Ta đã biết rằng phần dư của phép hồi quy được thể hiện qua công thức
b
ε = Y − “Y = (I − H)εNếu giả thiết H0 nói rằng ε có phân phối chuẩn N (0, σ2In) là đúng thì ε cũngb
có phân phối chuẩn N (0, σ2(I − H))
Tuy nhiên, ta nhận thấy ma trận (I −H) là ma trận suy biến có hạng là n−k −1
và n − k − 1 giá trị riêng bằng 1; k + 1 giá trị riêng còn lại bằng 0
⇒ Do đó, không thể biểu diễn ε qua bε
Ta ký hiệu như sau:
- e1, , en−k−1 là (n − k − 1) véctơ riêng ứng với giá trị riêng là 1
- en−k, , en là k + 1 véctơ riêng ứng với giá trị riêng bằng 0
{e1, , en} tạo thành một cơ sở trực chuẩn của Rn
Khi đó ta có: I − H = P ΛPT trong đó Λ = diag{1, 1, , 1, 0, , 0} là ma trậnchéo có đường chéo gồm n − k − 1 số 1 và k + 1 số 0, P = [e1, , en] = [eij]n×n
Xét véctơ ngẫu nhiên:
ε∗ = PTε = (εb ∗1, , ε∗n) (3.35)Khi đó với ε có phân bố chuẩn N (0, σ2In) ta có:
E(ε∗) = PTE(ε) = 0b
cov(ε∗) = PTcov(σ2[In− H])P = σ2PTP ΛPTP = σ2Λ
Do đó nếu H0 đúng thì ε∗1, , ε∗n−k−1 là các biến ngẫu nhiên độc lập có phân
bố chuẩn N (0, σ2) còn ε∗n−k = · · · = ε∗n = 0 hầu chắc chắn Vì vậy
Trang 223.2.2 Khảo sát đồ thị của các phần dư
Khi sử dụng tiêu chuẩn dẫn đến việc bác bỏ giả thiết ε không có phân bố chuẩn
N (0, σ2In) thì có thể xảy ra các khả năng sau:
Các sai số εj không có phương sai là hằng số
Các sai số εj có thể tương quan với nhau
các sai số εj có thể không có phân bố chuẩn
Để đánh giá xem mô hình có khả năng rơi vào dạng nào, người ta tiến hànhkhảo sát đồ thị của các điểm (“εj,“yj)
Để kiểm tra xem εj có độc lập và có cùng phân bố chuẩn N (0, σ2), ta có thểkiểm tra tính chuẩn của εj dựa vào hệ số tương quan:
Σn1(qj − q)2Σn1ε“2j
o1/2
trong đó qj là nghiệm của phương trình Φ(qj) = (j − 1/2)/n
3.2.3 Kiểm định tính không tương quan của εj theo thời gian
Giả sử yj được theo dõi theo thời gian j = 1, 2, Trường hợp này thường xảy
ra khi khảo sát các đại lượng kinh tế Khi đó rất thường xảy ra trường hợp các
εj có tương quan với nhau (Auto correlation)
Trang 23Để phát hiện tính tự tương quan của các sai số ε ta sử dụng tiêu chuẩn Watson như sau:
Durbin-Đặt:
r1 = Σ
n j=2ε‘j−1ε“j
Σnj=1“εj2
(3.37)Khi đó đại lượng:
sẽ tuân theo phân phối Durbin-Watson
Tra bảng Durbin- Watson ứng với mức ý nghĩa α ta tìm được hai số d1(k, n, α) <
d2(k, n, α), khi đó so sánh DW với d1, d2 ta rút ra các kết luận sau:
Nếu 0 ≤ DW < d1 thì các εj có tự tương quan dương
Nếu d1 ≤ DW ≤ d2 thì không thể nói gì được
Nếu d2 < DW < 4 − d2 thì các εj không có tự tương quan
Nếu 4 − d2 ≤ DW ≤ 4 − d1 thì không thể kết luận được
Nếu 4 − d1 < DW ≤ 4 thì các εj có tự tương quan âm
Ta xét lại ví dụ sau:
Để nghiên cứu sự phụ thuộc giữa doanh thu Y và chi phí sản xuất X1, chi phítiếp thị X2 người ta điều tra ngẫu nhiên doanh thu của 12 công ty trong 12thời kỳ, kết quả ta có bảng sau:
Tính toán có thể có sai lầm hoặc bỏ sót thành phần β 0
Phương sai D(εj) sẽ thay đổi theo j
Sai số εjsố là sai số hoàn toàn ngẫu nhiên
Trang 243.2.4 Khảo sát tính đa cộng tuyến tính của X1, , Xk
Các biến X1, , Xk được gọi là đa cộng tuyến nếu tồn tại các hằng số c0, c1, , ckkhông đồng thời bằng 0 thỏa mãn c0 +
Trong trường hợp này X có hạng ≤ k và không tồn tại ma trận nghịch đảo(XTX)−1
Trên thực tế, khi |XTX| ≈ 0, người ta có thể coi X1, , Xk có hiện tượng đacộng tuyến tính Khi đó ước lượng bβ = (XTX)−1XTY thường không ổn định và
có phương sai rất lớn hay các khoảng tin cậy sẽ rất rộng
Hiện tượng đa cộng tuyến thường được thể hiện qua các dấu hiệu sau:
+) Một số phần tử trên đường chéo chính của ma trận V = (XTX)−1 tỏ ra rấtlớn
+) Các hệ số tương quan tuyến tính mẫu của các cặp Xi, Xj là rij = sij/√
siisjj
tỏ ra lớn (|rij ≥ 0, 7|
Để khắc phục hiện tượng đa cộng tuyến người ta làm như sau:
Trang 251 Đặt r0i là hệ số tương quan tuyến tính mẫu giữa Y và Xi, cụ thể là:
r0i = s0i/√
siis00trong đó s0 = s2y ; s0i = 1
Khi đó nếu thấy |rij| ≥ 0, 7 thì:
sẽ loại biến Xi ra khỏi mô hình nếu |r0i| < |r0j|,
sẽ loại biến Xj ra khỏi mô hình nếu |r0i| > |r0j|
2 Thực hiện hồi quy theo các thành phần chính của véctơ (X1, , Xk)
3 Thực hiện hồi quy từng bước
4 Mô hình hồi quy tuyến tính với sai số có tương quan
Xét mô hình (3.1.3): Y = βX + ε với giả thiết các sai số có tương quan kháckhông Ta giả thiết rằng hiệp phương sai của sai số có dạng:
Trang 265 Các bước tiến hành trong phân tích hồi quy
Việc phân tích hồi quy tiến thành theo các bước sau:
Bước 1 Xác định ước lượng bβ bằng phương pháp bình phương cực tiểu, tức làgiải phương trình chuẩn sau:
Bước 3 Kiểm định sự phù hợp của mô hình
Sử dụng tiêu chuẩn F để kiểm tra giả thiết β1 = · · · = βk = 0
khảo sát các phần dư:
1 Vẽ đồ thị của (bε,y“j), j = 1 ÷ n,
2 Dùng tiêu chuẩn Durbin Watson để kiểm tra xem các sai số có tự tươngquan cấp 1 hay không,
3 Dùng tiêu chuẩn T để kiểm tra giả thiết ε ∼ N (0, σ2In) hay không?
Kiểm tra tính đa cộng tuyến của mô hình Nếu mô hình đã xây dựng tỏ
ra là mô hình HQTT cổ điển thì có thể chuyển sang bước 4
Bước 4 Xác định khoảng tin cậy của các hệ số hồi quy
Bước 5 Kiểm định xem các βi có khác 0 hay không với i = 1, , k
Bước 6 Dùng phương trình hồi quy tuyến tính mẫu:
“
Y = “β0 + “β1X1 + “βkXk
để xác định giá trị dự đoán của E(Y |X = X0) = β0+ β1X01+ · · · + βkX0k và giátrị Y (X0)