Xây dựng đường hồi quy là tìm một hàm số thể hiện mối quan hệ giữa biến phụ thuộc với các biến độc lập khác.. Như vậy biến phụ thuộc nằm trong đoạn [0,1], trong khi các biến độc lập có t
Trang 1TRƯỜNG ĐẠI HỌC CẦN THƠ KHOA KHOA H ỌC TỰ NHIÊN
B Ộ MÔN TOÁN
- -
LU ẬN VĂN TỐT NGHIỆP ĐẠI HỌC
GIÁO VIÊN HƯỚNG DẪN
ThS VÕ V ĂN TÀI
(B Ộ MÔN TOÁN – KHOA KHTN)
SINH VIÊN TH ỰC HIỆN NUY ỄN THỊ BÍCH HUYỀN NGÀNH:TOÁN ỨNG DỤNG-K32
C ẦN THƠ - 05/2010
Trang 22
- -
Em xin gửi lời cảm ơn chân thành và sâu sắc nhất đến Thầy Võ Văn Tài
đã giúp đỡ em trong suốt thời gian thực hiện đề tài
Em xin chân thành cảm ơn quý T hầy Cô trong Khoa Khoa học tự nhiên, đặc biệt là Thầy Cô trong Bộ môn toán đã truyền đạt những kiến thức quý báo làm nền tảng thực hiện luận văn này
Xin chân thành cảm ơn các anh chị và bạn bè đã ủng hộ, giúp đỡ và động viên em trong thời gian học tập và nghiên cứu
Con xin nói lên lòng biết ơn đến Ông Bà, Cha Mẹ luôn chăm sóc, nguồn động viên trên mỗi bước đường học vấn của con
Mặc dù em đã c ố gắng hoàn thành luận văn trong phạm vi và khả năng cho phép nhưng chắc chắn sẽ không tránh khỏi những thiếu sót Em kính mong
nhận được sự cảm thông và tận tình chỉ bảo của quý Thầy Cô và những ý kiến
của các bạn
Cần Thơ, tháng 5 năm 2010
Nguy ễn Thị Bích Huyền
Trang 3ii
PH ẦN MỞ ĐẦU
1 Giới thiệu 1
2 Bố cục luận văn 2
PH ẦN NỘI DUNG Chương 1 HỒI QUY TUYẾN TÍNH 3
1.1 Giới thiệu .3
1.2 Hệ số tương quan 3
1.2.1.Tương quan giữa hai biến 3
1.2.2 Kiểm định hệ số tương quan 6
1.3 Hồi quy tuyến tính đơn .8
1.3.1 Mô hình 8
1.3.2 Hồi quy tuyến tính mẫu .9
1.3.3 Hệ số xác định 10
1.3.4 Kiểm định hệ số của hồi quy 13
1.3.5 Khoảng ước lượng của hồi quy tuyến tính đơn 15
1.3.6 Kiểm định sự phù hợp của mô hình 16
1.4 Hồi quy bội 17
1.4.1 Mô hình 17
1.4.2 Xây dựng mô hình hồi quy mẫu 18
1.4.3 Hệ số xác định của mô hình 19
1.4.4 Khoảng ước lượng cho hệ số hồi quy 20
1.4.5 Kiểm tra giả thiết về tham số hồi quy 21
Chương 2 HỒI QUY LOGISTIC 24
2.1 Giới thiệu .24
2.2 Những vấn đề cơ bản về ước lượng hợp lý cực đại 25
2.2.1 Phương pháp chung của ước lượng hợp lý cực đạt 25
2.2.2 Ví dụ áp dụng 26
Trang 4iii
2.3 ODDS và tỉ số của ODDS 27
2.3.1 Dữ liệu nhị phân 27
2.3.2 ODDS và tỉ số ODDS 27
2.4 Hồi quy Logistic đơn 29
2.4.1 Mô hình 29
2.4.2 Xây dựng đường hồi quy mẫu 31
2.4.3 Một số thống kê liên quan 34
2.5 Hồi quy Logistic bội 35
2.5.1 Mô hình 35
2.5.2 Xây dựng đường hồi quy mẫu 35
2.6 Ý nghĩa của các hệ số hồi quy 37
2.6.1.Ý nghĩa của hệ số hồi quy tuyến tính bội .37
2.6.2.Ý nghĩa của hệ số hồi quy Logistic 37
2.7 Sử dụng SPSS trong hồi quy Logistic .38
2.7.1 Giới thiệu chung về phần mềm SPSS .38
2.7.2 Hồi quy Logistic với SPSS 39
2.7.3.Ví dụ minh họa 39
Chương 3 VÍ DỤ ỨNG DỤNG 43
3.1 Giới thiệu 43
3.2 Một số ứng dụng cụ thể trong y học 43
3.3 Một số ứng dụng cụ thể trong xã hội 50
K ẾT LUẬN 56
TÀI LI ỆU THAM KHẢO .57
PH Ụ LỤC 58
Trang 5PH ẦN MỞ ĐẦU
1 Gi ới thiệu về hồi quy logistic
Hiện nay việc dự báo có một ý nghĩa r ất quan trọng trong mỗi lĩnh vực Không ai có thể phủ định việc dự báo đúng sẽ đem lại một lợi ích rất lớn trong sự phát triển kinh tế xã hội Cho đến hiện tại, dự báo vẫn là một môn khoa học vô cùng phức tạp, đòi hỏi nhiều kinh nghiệm và kiến thức liên quan khác nhau Có nhiều phương pháp dự báo, với những mô hình khác nhau, nhưng d ự báo bằng
việc xây dựng mô hình hồi quy dựa trên các số liệu thống kê đã có là một phương pháp quan trọng và rất phổ biến trong thực tế Xây dựng đường hồi quy là tìm
một hàm số thể hiện mối quan hệ giữa biến phụ thuộc với các biến độc lập khác Tùy theo mối quan hệ của các đại lượng mà đường hồi quy được thiết lập dưới
những hình thức khác nhau Người ta chia mô hình hồi quy thành 2 loại chính:
hồi quy tuyến tính và hồi quy phi tuyến dưới nhiều hình thức cụ thể khác nhau Trong luận văn này chúng tôi tìm hi ểu một mô hình hồi quy đặc biệt, hồi quy logistic
Trong các mô hình hồi quy truyền thống, biến độc lập cũng như biến phụ thuộc đều là các biến định lượng Nhưng trong thực tế, người ta có nhu cầu dự báo khả năng xảy ra của một biến cố dựa vào các quan sát của những biến định lượng Như vậy biến phụ thuộc nằm trong đoạn [0,1], trong khi các biến độc lập
có thể nhận giá trị bất kỳ, vì vậy không thể thiết lập mối quan hệ giữa biến phụ thuộc và biến độc lập theo những dạng hồi quy truyền thống Hồi quy logistic
được sử dụng trong các trường hợp này
H ồi quy logistic được xem là sự mở rộng của hồi quy tuyến tính Đôi khi
mô hình hồi quy này còn được gọi theo bản chất là ln-tuyến tính Hiện nay hồi quy logistic được ứng dụng một cách rộng rãi trong nhiều lĩnh vực như: kinh tế, y
học, sinh học, kỹ thuật, xã hội…Trong đó hai lĩnh vực đã sử dụng hồi quy logistic nhiều nhất là y học và xã hội học Chúng ta có thể tìm thấy nhiều công
Trang 6đó Người ta nói rằng hồi quy logistic đã “toán học hóa” việc chẩn đoán bệnh cho
các bác sĩ
2 B ố cục của luận văn
Nội dung của luận văn bao gồm phần mở đầu, phần nội dung, phần kết
luận, danh mục các tài liệu tham khảo và phần phụ lục
Phần nội dung gồm có 3 chương: Chương 1, chương 2 và chương 3
Chương 1: Hồi quy tuyến tính
Trình bày chi tiết những vấn đề về hồi quy tuyến tính như: hệ số tương quan, hồi quy tuyến tính đơn, hồi quy tuyến tính bội, ước lượng và
kiểm định những vấn đề liên quan đến đường hồi quy
Chương 2: Hồi quy Logistic
Trình bày các khái niệm liên quan đến hồi quy logistic, xây dựng
h ồi quy logistic đơn, hồi quy logistic bội và một số thống kê liên quan đến
hồi quy này Chương này cũng giới thiệu cách sử dụng phần mềm SPSS trong phân tích h ồi quy logistic và ví dụ cụ thể minh họa cho những vấn
đề lý thuyết đã nêu
Chương 3: Một số ví dụ ứng dụng của hồi quy logistic trong y học
và xã h ội học
Trình bày một số ví dụ áp dụng cụ thể của hồi quy logistic trong hai
lĩnh vực y học và xã hội Đây là những số liệu thật đã được công bố trong các công trình nghiên cứu Các ví dụ này đuợc xử lý trên phần mềm SPSS
Trang 7dự báo ngắn hạn Mô hình hồi quy này cũng được xem là nền tảng, là cơ sở cho các mô hình hồi quy khác Có rất nhiều mô hình hồi quy phi tuyến được chuyển đổi về dạng tuyến tính để xử lý bởi vì xét các vấn đề liên quan cho hồi quy tuyến tính thì đơn giản hơn nhiều so với hồi quy phi tuyến Hồi quy logistic được xây
dựng trên nền tảng các mô hình hồi quy phổ biến, đặc biệt là hồi quy tuyến tính
Vì vậy trong chương này chúng tôi trình bày nh ững vấn đề liên quan đến mô hình hồi quy phổ biến, đặc biệt là hồi quy tuyến tính
1.2 H Ệ SỐ TƯƠNG QUAN
1.2.1 Tương quan giữa hai biến
Khi kh ảo sát 2 đại lượng ngẫu nhiên X và Y ta thấy giữa chúng có thể có
một số quan hệ với nhau:
i) X và Y độc lập với nhau, tức là việc nhận giá trị của đại lượng ngẫu nhiên này không ảnh hưởng đến việc nhận giá trị của đại lượng
ngẫu nhiên kia Khi đó ta muốn nghiên cứu hai đại lượng chúng ta
phải khảo sát từng đại lượng một cách riêng biệt
ii) X và Y có mối phụ thuộc với nhau Khi đó để nghiên cứu đại lượng này chúng ta có thể nghiên cứu đại lượng kia và ngược lại
Trang 8Một hình thức đơn giản nhất về mối quan hệ giữa hai đại lượng ngẫu
nhiên X và Y đó là quan hệ tuyến tính Đại lượng biểu thị cho mức độ quan hệ này được gọi là hệ số tương quan (kí hiệu ρxy)
a) Công th ức
Hệ số tương quan giữa hai đại lượng ngẫu nhiên X và Y được xác định
bởi công thức sau:
,
X Y
σ σ lần lượt là độ lệch chuẩn của X và Y,
( , )
Cov X Y là hiệp phương sai hay Moment tương quan của hai đại lượng
ngẫu nhiên X và Y và được xác định bởi công thức:
b) Ý ngh ĩa
Hệ số tương quan của hai biến là đại lượng dùng để thể hiện chiều hướng
và độ mạnh hay yếu của mối quan hệ tuyến tính giữa hai biến đó ρxy càng gần
1 thì mối quan hệ tuyến tính càng chặt chẽ và ρxy càng gần 0 thì mối quan hệ tuyến tính càng yếu đi
c) Tính ch ất
Hệ số tương quan có các tính chất sau:
i) -1≤ρxy ≤1
ii) ρxy<0: Giữa X và Y có mối liên hệ tuyến tính nghịch (ρxy= -1 thể hiện
một mối liên hệ tuyến tính nghịch hàm số)
iii) ρxy>0: Giữa X và Y có mối liên hệ tuyến tính thuận (ρxy= 1 thể hiện
một mối liên hệ tuyến tính thuận hàm số)
iv) ρxy=0: Giữa X và Y không có mối liên hệ tuyến tính
d) H ệ số tương quan tuyến tính mẫu r
Trang 9Trong thực tế, chúng ta không biết được chính xác Cov(X,Y), σ σX, Y để tính
hệ số tương quanρxyvì ta không thể có số liệu đầy đủ của tổng thể Do đó ta phải
ước lượng các tham số của tổng thể trong công thức (1.1) bởi các tham số mẫu
đặt trưng Giả sử từ tổng thể ta chọn ra một mẫu gồm n phần tử Quan sát hai
biến ngẫu nhiên X và Y trên n phần tử này ta có số liệu cụ thể: (x1, y1), (x2,
n i i
xy n n
i i
x x y y r
S S
−
=
Trong đó
Trang 10a) Ki ểm định sự tuơng quan của hai đại luợng ngẫu nhiên
Với mức ý nghĩa α cho trước và nếu ( , )X Y có phân phối chuẩn thì ta
tiến hành kiểm định giả thiết cho rằng các biến không có tương quan tuyến tính
với nhau theo các bước của bài toán kiểm định thông thường
i) Chọn giả thiết và đối thiết:
0 1
xy xy
H H
ρρ
2
xy
xy r
n r T
r n t
r
−
=
− Trong đó
r là hệ số tương quan của mẫu,
n là cỡ mẫu
iv) Trả lời: Nếu t∈Wα thì ta bác bỏ giả thiết ρxy= 0, ngược lại thì ta chấp
nhận giả thiết Nghĩa là X và Y không tương quan
b) So sánh h ệ số tương quan với một số bất kỳ
Giả sử phân bố đồng thời của (x,y) là chuẩn và cỡ mẫu n đủ lớn Các
Trang 11bước kiểm định như sau:
i) Chọn giả thiết và đối thiết
0 0
1 0
::
xy xy
H H
n
ρρ
n
ρρ
−
=
−iv) Trả lời
Nếu u∈Wα thì bác bỏ giả thiết ρxy=ρ0
Nếu u∉Wαthì ta chưa có cơ sở để bác bỏ giả thiết
Chú ý: Ta cũng có thể kiểm tra giả thiết trên theo các cách sau:
i) Bất đẳng thức 0
2 1
2 0
Trang 12ii)Ta dùng phép biến đổi của Fisher: 1ln 1
2 1
xy xy
r Z
có phân bố tiệm cận chuẩn N(0,1) Do vậy ta có ngưyên tắc bác bỏ hoặc chấp
nhận giả thiết như sau:
Nếu
1 2
u u α
−
≥ thì bác bỏ giả thiết ρxy=ρ0, ngược lại nếu u <uα/ 2thì ta chưa có cơ sở để bác bỏ giả thiết ρxy=ρ0
Chú ý: Hệ số tương quan đơn chỉ để đo mức độ phụ thuộc tuyến tính giữa hai
biến ngẫu nhiên.Giữa hai đại lượng ngẫu nhiên X và Y có thể còn có sự phụ thuộc
phi tuyến Vì vậy nếu hệ số tương quan giữa X và Y nhỏ hay thậm chí bằng
không thì ta cũng không th ể kết luận giữa X và Y không có sự tương quan nào,
bởi vì giữa chúng vẫn có thể có một hình thức tương quan khác Hệ số đo mức độ tương quan bất kỳ giữa hai biến được gọi tỷ tương quan Gọi 2
/
Y X
η là tỷ tương quan giữa hai biến X và Y, khi đó ta cần lưu ý một số đặc điểm sau:
i) Hiệu số 2 2
/
Y X
η −ρ đo mức độ phụ thuộc phi tuyến giữa Y và X Nếu hiệu
số này càng lớn thì sự tương quan phi tuyến giữa Y và X càng mạnh và
ngược lại
ii) Nếu 2 2
/
Y X
η =ρ thì ngoài mối liên hệ tuyến tính, Y không có mối liên hệ
phi tuyến nào nữa đối với X
iii) Nếu 2 2
/
Y X
η ≠ρ nhiều thì ngoài mối liên hệ tuyến tính Y còn có mối
liên hệ phi tuyến đối với X
iv) Nếu 2
/
Y X
η gần 1, ρ2 gần 0 thì giữa X và Y có sự phụ thuộc rất chặt chẽ
nhưng mối liên hệ tuyến tính lại rất yếu Trong trường hợp này ta không
thể sử dụng quan hệ tuyến tính được mà phải sử dụng quan hệ phi tuyến
Trang 131.3 H ỒI QUY TUYẾN TÍNH ĐƠN
1.3.1 Mô hình
Xét hai biến ngẫu nhiên X và Y, trong đó X là biến độc lập còn Y là biến
phụ thuộc Trong thực tế, thông thường biến X có thể quan sát được, đo được còn
biến Y khó có thể định lượng trực tiếp được nên phải xác định nó qua biến X Giả
sử hai đại lượng này có mối quan hệ tuyến tính
ngẫu nhiên không tương quan Mô hình (1.4) được gọi là hồi quy tuyến tính đơn
1.3.2 H ồi quy tuyến tính mẫu
Giả sử chúng ta có n cặp dữ liệu thu được khi quan sát (x,y) là
β lần lượt là ước lượng của β0 và β1,
ε gọi là phần dư hay sai số
0 1
i y i y i y i x i
ε = − = −β −β , khi đó tổng bình phương sai số
giữa giá trị quan sát thực tế và lý thuyết là
Trang 14Sử dụng phương pháp bình phương bé nhất để ước lượng các tham số của β0 và
1
β Chúng ta cần tìm β βˆ 0, ˆ 1 cho S(β βˆ0, ˆ1) nhỏ nhất Vì vậy hai giá trị này chính
là nghiệm của hệ phương trình:
^ ^
0 1
^
1 1
n
i i i
n
i i i i
β ββ
1
n
i i i
n i i
Trang 15S được gọi là tổng bình phương hiệu chỉnh của X,
xy
S được gọi là tích số chéo của X và Y
Khi đó (1.7) được viết gọn lại
1
xy xx
S S
1.3.3 H ệ số xác định
Khi xây dựng đường hồi quy tuyến tính ta dùng biến độc lập X để suy
luận cho biến phụ thuộc Y Nhưng câu hỏi đặt ra là “liệu mô hình hồi quy tuyến tính được xây dựng đã thể hiện một cách tốt nhất mối liên hệ giữa Y và X chưa?
Bao nhiêu phần trăm sự biến thiên của Y có thể được giải thích bởi sự phụ thuộc
tuyến tính của Y vào X ? ” Hệ số xác định R2
không thể giải thích bởi mối liên hệ tuyến tính giữa Y và X
Trang 16n
i n i i
Trang 17SSE =
2 2
∑ ∑ thể hiện phần biến thiên của y do các yếu tố
khác không nghiên cứu
Khi đó hệ số xác định thể hiện phần tỉ lệ biến thiên của y được giải thích bởi mối
liên hệ tuyến tính của y với x, được xác định bằng công thức
2
1
SSR SSE R
ii) Sự phân biệt giữa r và xy 2
R là ở chỗ: r xy là đại lượng được xác định ở
góc độ phân tích tương quan (X, Y được xem là các đại lượng ngẫu nhiên), đo lường cường độ của mối liên hệ tuyến tính giữa X và Y còn 2
R là đại lượng được
xác định ở góc độ phân tích hồi quy (Y được xem là phụ thuộc vào X), thể hiện sự
thích hợp của mô hình hồi quy đối với dữ liệu
iii) 2
R càng lớn thì mô hình hời quy tuyến tính đã xây d ựng được xem là càng phù hợp, càng có ý nghĩa trong việc giải thích sự biến thiên của Y thông qua
sự biến thiên của X
1.3.4 Ki ểm định hệ số của đường hồi quy
a) Ki ểm định F
Đường hồi quy thực nghiệm y∧ =β0+β1xlà ước lượng của phương trình
hồi quy lý thuyết Y =β0+β1X Phương trình hồi quy lý thuyết là hàm xấp xỉ tốt
nhất trong lớp hàm tuyến tính Song nếu mức độ liên hệ tuyến tính giữa Y và X
quá yếu thì ước lượng trên không thể sử dụng được Vì vậy ta cần kiểm tra xem
giả thiết hồi quy E(Y/X) là tuyến tính có phù hợp không
Để đạt mục đích này ta kiểm định giả thiết là: H: β1= 0 Với đối thiết:
H:β1≠ 0 Nếu giả thiết β1= 0 được chấp nhận thì phương trình h ồi quy của Y theo X có d ạng phi tuyến hay X và Y là hai đại lượng ngẫu nhiên độc lập, ngược
lại sẽ kết luận X và Y có sự liên hệ tuyến tính
Trang 18Ta thấy rằng phương pháp xem xét biến thiên của Y đề cập ở trên cũng
tương tự như phương pháp phân tích phương sai Do vậy, trong phân tích hồi quy
cũng có thể thiết lập bảng ANOVA và thực hiện kiểm định F nhằm xem xét giả
thiết về sự tồn tại của mối liên hệ tuyến tính giữa X và Y
Tiêu chuẩn của phân tích phương sai được dựa trên việc so sánh phương
sai được giải thích và phương sai dư, tức là tỷ số F = ( )
n i i n
i i
y y n
n
y y n
Nếu giả thiết β1= 0 đúng thì F có phân phối Fisher với (1, n-2) bậc tự do
Khi đó giả thiết β1= 0 sẽ bị bác bỏ nếu F≥F1,n−2,α với F1,n−2,αlà giá trị nhận được
từ bảng phân phối Fisher sao cho p(F1,n−2 ≥F1,n−2,α) = α
Ta có bảng ANOVA trong phân tích hồi quy tuyến tính đơn giản như sau:
Biến thiên
Tổng các chênh lệch bình phương
Bậc tự
do
Trung bình các chênh lệch bình phương
Trang 19Cũng giống như kiểm định F, kiểm định T nhằm kiểm tra mối liên hệ tuyến
tính của Y và X có tồn tại hay không, tức là kiểm tra hệ số β1 có bằng 0 hay không Nếu β1= 0 có nghĩa là không tồn tại mối liên hệ tuyến tính giữa X và Y
Giả thiết kiểm định là: H: β1= 0 và đối thiết H:β1≠ 0
1
e n i i
S S
Sβ được gọi là sai số chuẩn của ước lượng β1
Khi đó, nếu giả thiết đúng thì T tuân theo quy luật Student với n-2 bậc tự
do Miền bác bỏ là
2, 2
Điểm phân biệt là ở chỗ nhìn nhận mối quan hệ: trong tương quan X, Y được xem
là hai đại lượng ngẫu nhiên, mối quan hệ giữa chúng là ngang nhau, không có sự
phụ thuộc, trong khi ở phân tích hồi quy Y được xem là phụ thuộc vào X
1.3.5 Kho ảng ước lượng của các hệ số hồi quy
( )
xx
x Var
Trang 20Khi đó độ lệch chuẩn tương ứng là
SSE được gọi là tổng bình phương sai số hay tổng bình phương thặng dư, còn
MSE được gọi là bình phương trung bình thặng dư
Giả sử các thặng dư là đại lượng ngẫu nhiên có phân phối chuẩn và độc
lập nhau Khi đó ước lượng các tham số của đường hồi quy như sau:
i) Khoảng ước lượng cho β1 với độ tin cậy (1- )100% là
1 2
1.3.6 Ki ểm tra tính phù hợp của mô hình
Để kiểm tra tính phù hợp của mô hình hồi quy đã thiết lập ta thực hiện các bước sau
i) Ch ọn giả thiết và đối thiết
H0: Mô hình đầy đủ là phù hợp với dữ liệu
H1: Mô hình đầy đủ là không phù hợp với dữ liệu
ii) Tính giá tr ị quan sát
Giả sử ta có n quan sát như sau:
Trang 21y11, y12, , y1n lập lại quan sát tại x1
y21, y22, , y2n lập lại quan sát tại x2
ym1, ym2, , ymn lập lại quan sát tại x m
Cũng với mô hình y i = β0 +β1x i +e i ta tính tổng bình phương thặng
dư SSE thành 2 phần: SSE=SSEp SSLf+
SSEp có phân phối Student với bậc tự do df = n−m
SSLf là tổng bình phương sự không phù hợp với mô hình tuyến tính
SSLf =SSE−SSEp
SSLf có phân phối Student với bậc tự do df n= − − − = − 2 (n m) m 2
Giá trị quan sát được tính bởi công thứ sau:
( 2)
tinh
SSLf m MSLf F
F = sẽ xấp xỉ phân phối Fisher với bậc tự do
(m – 2, n – m) Do đó miền bác bỏ với mức ý nghĩa α là
= F (m 2,n m),
iv) Tr ả lời
Nếu giá trị quan sát thuộc miền bác bỏ, ta sẽ bác bỏ giả thiết H0 Nghĩa
là mô hình hồi quy xây dựng không phù hợp với dữ liệu Lúc này ta cần tìm mô hình hồi quy xấp xỉ khác
1.4 H ỒI QUY BỘI
1.4.1 Mô hình
Trang 22Thực tế cho thấy một đại lượng không chỉ liên quan đến một đại lượng khác mà còn chịu tác động bởi nhiều đại lượng liên quan Vì thế, nếu chỉ dùng mô hình hồi quy đơn sẽ không thể hiện được các quan hệ phức tạp vốn có của nó Do
đó, chúng ta mở rộng mô hình hồi quy đơn với một biến độc lập thành nhiều biến
độc lập Giả sử ta có biến Y phụ thuộc vào k biến độc lập X1,X2, ,X k bởi mô hình
Y =β0+β1X1+ +βk X k + (1.8) ε(1.8) được gọi là hồi quy tuyến tính bội
iii) Không có sự tương quan giữa các sai số
iv) Không có hiện tượng cộng tuyến giữa các biến độc lập
1, 2, , k
X X X
v) Không có sự tương quan giữa các biến độc lập X X1, 2, ,X k với các sai số ngẫu nhiên
1.4.2 Xây d ựng đường hồi quy mẫu
Ta ước lượng các tham số (j 0,1,2,3, , )βj = k bằng phương pháp bình phương bé nhất với hàm hồi quy mẫu là
∑
=+
i i
i x y
1
β
Trang 23Nếu giá trị của kbiến độc lập lần lượt là x1i,x2i, ,x ki thì giá trị của biến
phụ thuộc y i thể hiện qua mô hình hồi quy tuyến tính bội như sau:
x x y
εβ
Trang 24Để giải quyết phương trình(1.12) ta nhân 2 vế phương trình cho nghịch đảo của T
x x Khi đó tìm được cụ thể như sau:
β
εβ
εβ
( )
(
) (
) (
1 1
1
T T
T T
T T
X X X X X X X E
X X X X E
SSE=β x y−n y : Tổng độ lệch bình phương sai số,
SSR=SST −SSE: Tổng độ lệch bình phương hồi quy với k bậc tự do
Chú ý:
Trang 25i) 2
R được định nghĩa như tỉ lệ hay phần trăm biến động của biến đáp ứng
y được giải thích bởi các biến độc lập x i Vì vậy khi xây dựng mô hình hồi quy tuyến tính bội nếu tính được 2
1)(
1(1)1(
)1
n R n
SST
k n
SSR R
càng lớn trong xây dựng hồi quy tuyến tính bội ta có càng nhiều biến độc lập càng tốt Điều này dẫn đến một khó khăn khi xác định số lượng biến độc lập Để
giải quyết khó khăn này người ta đưa ra khái niệm hệ số xác định đã hiệu chỉnh (1.13)
R tăng lên thì ta chấp nhận biến, còn ngược
lại thì ta loại ra và kết thúc quá trình
1.4.4 Kho ảng ước lượng cho hệ số hồi quy
a) Ta có ước lượng của tham số là 1
( T ) T
x x x y
β = − Do đó ma trận hiệp phương sai của β như sau:
Trang 26Nếu σ 2 chưa biết ta thay bằng ước lượng không chệch
2 2
1
n i i
( )
j
j
Se β = σβ Còn σ 2 là phương sai của sai số ngẫu nhiên εi nhưng chưa biết nên ta phải dùng ước lượng không chệch của nó là 2
ˆ
σ
11
1
2 2
SSE k
n
e k
n
e e
n i i T
σ (1.15)
Ta tìm khoảng ước lượng của βi với độ tin cậy (1-α )100%
1 2
1.4.5 Ki ểm tra giả thiết về tham số hồi quy
Chúng ta giả sử rằng các thặng dư có phân phối chuẩn tắc Trong hồi quy tuyến tính bội ta thường xuyên kiểm tra giả thiết về những tham
số trong mô hình như sau:
Trang 27H1: có ít nhất một βi ≠ 0ii) Miền bác bỏ Wα =(Fα(k,n−k−1),+∞)
iii) Giá trị quan sát ính ( )
1
t
SSR k MSR F
(1 ) ( 1)
t
R k F
R n k
=
iv) Trả lời
Nếu F tính >F báng =Fα,k(n− − ta bác bk 1) ỏ giả thiết Nghĩa là có ít nhất
một biến trong mô hình đóng góp ý nghĩa phù h ợp, ngược lại không có biến nào đóng góp có ý nghĩa phù hợp
b) Ki ểm tra cho một giá trị βi b ất kỳ
Nhiều trường hợp chúng ta có nhu cầu kiểm tra hệ số đường hồi quy βi
có phải là giá trị cụ thể βi0 không Khi đó ta bài toán kiểm định giả thiết với các bước như sau:
i) Chọn giả thiết H0: βi =βi0, đối thiết βi ≠βi0
ii
ei i
S n
Sxy S
được tính từ số liệu mẫu,
n x S
1
2 1
2
)(
n y S
1
2 1
2
)(
1
, =∑ − ∑ ∑x y
n xy
iv) Trả lời: Nếu t0∈Wα ta bác bỏ giả thiết, ngược lại ta chấp nhận giả thiết
Trang 28Chú ý: Thực tế chúng ta có nhu cầu cần kiểm tra một biến nào đó có nên đưa vào trong mô hình hồi quy tuyến tính bội không Bởi vì thêm một biến không quan
trọng chúng ta có thể làm tăng trung bình của bình phương thặng dư, do đó làm
giảm tính dự báo của mô hình Cụ thể để kiểm tra biến x i có nên đưa vào mô hình hay không ta thực hiện bài toán kiểm định với giả thiết H0: βi =0, đối thiết
H1: βi ≠0 Bài toán này thực hiện giống trên chỉ thay thế βi0 =0
Trang 29
ngẫu nhiên chỉ có hai khả năng xảy ra Trong thực tế các ví dụ của kiểu dữ liệu này rất phổ biến Chẳng hạn:
Bệnh nhân được chữa khỏi bệnh, hoặc không được chữa khỏi bệnh,
Một hệ thống trong mô hình sản xuất vượt qua được sự kiểm soát chất lượng hay không,
Một con chuột bị nhiễm độc chết hoặc không chết
Chúng ta có thể chỉ ra vô số các ví dụ kiểu như trên Những ví dụ này có
biến phụ thuộc được phân đôi (có hai kết quả có thể) nên không thích hợp để giả
sử rằng nó có phân phối chuẩn Do đó các dữ liệu loại này không thể được thiết
lập mô hình hồi quy như đã đư ợc trình bày trư ớc đó Hiện tại phương pháp phổ
biến nhất được sử dụng để xây dựng đường hồi quy với biến phụ thuộc có dạng lưỡng phân là hồi quy logistic
Hiện nay hồi quy logistic đã được ứng dụng trong nhiều lĩnh vực khác nhau như y học, xã hội học, sinh học,… và có khuynh hướng phát triển rất mạnh trong những năm gần đây
Trang 302.2 NH ỮNG VẤN ĐỀ CƠ BẢN VỀ ƯỚC LƯỢNG HỢP LÝ CỰC ĐẠI 2.2.1 Phương pháp chung của ước lượng hợp lý cực đại
Giả sử X1, X2, …, Xn
),(X i θ
f
là các biến ngẫu nhiên độc lập có cùng hàm mật độ xác suất trong đó θ =(θ1,θ2, ,θm) là những tham số chưa biết Lấy
một mẫu gồm n phần tử X = { X1 =x1, X2 =x2, ,X n = x n}, ta có hàm mật độ xác suất đồng thời của n quan sát được xác định như sau:
i i
x x x f L
1 2
1, , , | ) ( | )(
)(
=
=
θ (2.1) Hàm số xác định bởi (2.1) là hàm theo véc tơ tham số θ Hàm này được
gọi là hàm hợp lý của θ được xây dựng từ tập mẫu X
Hàm L(θ) có thể được chọn như là một tiêu chuẩn ước lượng tối ưu của
θ Phương pháp ước lượng làm cực đại hàm hợp lý đư ợc gọi là phương pháp ước lượng hợp lý cực đại của tham số Trong phương pháp này giá trị tối ưu θˆ
của θ được chọn sao cho nó làm L(θ) đạt giá trị lớn nhất
Khi cực đại của một tổng thì đơn giản hơn tích, vì vậy thay vì cực đại hàm )
(θ
L người ta cực đại hàm ln(L(θ)) (nếu θˆ cực đại trong ln( L(θ)) thì nó cũng
cực đại trong L(θ)) Gradient của ln( L(θ)) là U(θ) được gọi là hàm điểm Để
tìm θˆ ta cho hàm điểm U(θ) = 0, khi đó có hệ phương trình sau:
0
|(ln
0
|(ln
1
2 1
1 1
x f
x f
θθ
θθθθ
(2.2)
Đây là hệ phương trình gồm m phương trình, m ẩn số θi,i=1,2, ,m
Giải hệ phương trình này ta sẽ tìm được tham số θi
Trang 31Chú ý:
i) ln(L(θ)) phụ thuộc vào việc chọn mẫu, vì vậy cực đại hàm hợp lý cũng
phụ thuộc vào kích thước n
ii) Về mặt toán học phương trình (2.2 ) có nghiệm không duy nhất, tuy nhiên trong đa số các trường hợp nó có nghiệm duy nhất
iii) Nguời ta đã chứng minh đuợcL( )θˆ ≥L( )θ
1)
σπ
x
chưa biết Lúc này ta có :
µθ
θθQuan sát ngẫu nhiên n mẫu xi
= n
i
i x n
L
2 2
2
12
ln2
11)]
,(
θπσ
σµ
, i = 1, 2, , n, ta có ln
0
,ln
2 1
σµ
n
i
n
i
Ta được nghiệm như sau:
Ước lượng hợp lý cực đại của µ là ∑
=
= n
i i x
n 1
1ˆ
Trang 322.3 ODDS VÀ T Ỷ SỐ CỦA ODDS
2.3.1 D ữ liệu nhị phân
Vì giá trị của biến phụ thuộc là lưỡng phân, nên để thuận tiện ta gọi hai
kết quả trái ngược nhau của nó là thành công và thất bại Chẳ ng hạ n nếu một
bệnh nhân được chữa khỏi bệnh thì biến phụ thuộc là “ thành công ”, nếu không thì biến phụ thuộc là “ thất bại ”; nếu một mô hình vư ợt qua cuộc kiểm tra chất lượng thì biến phụ thuộc là “ thành công”, nếu không thì biến phụ thuộc
1, 2, , k
là 'thất
bại'; nếu một con chuột chết vì nhiễm độc hại thì biến độc lập là “ thành công ”,
nếu không thì biến độc lập là “ thất bại” Chúng ta cũng quy ư ớc nếu biến độc
lập ở trạng thái thành công thì nó nhận giá trị bằng 1, ngược lại nó sẽ nhận giá trị
bằng 0 Khi xây dựng đường hồi quy logistic, mỗi giá trị của biến phụ thuộc sẽ bị ảnh hưỏng bởi các giá trị nhất định của một tập hợp các biến độc lập
Chẳng hạn
Một bệnh nhân được trị khỏi bệnh có thể phụ thuộc vào cách điều trị y tế,
sức khỏe, tuổi tác, giới tính, …
Một công đoạn trong một quy trình sản xuất vượt qua kiểm tra chất lượng
có thể phụ thuộc vào các điều kiện khác nhau liên quan đến quá trình sản xuất như nhiệt độ, chất lượng nguyên liệu, tuổi thọ của máy móc,…
Người ta thường nhóm các quan sát của nhiều biến độc lập gần nhau để
biến phụ thuộc nhận cùng một giá trị Khi các dữ liệu có thể được nhóm lại nó sẽ
dễ dàng hơn để ghi lại số lượng thành công và thất bại cho mỗi nhóm, hơn là ghi
lại một chuỗi dài 0 và 1
2.3.2 Odds và t ỉ số Odds
Định nghĩa 2.1 Odds của một biến cố xảy ra được định nghĩa là tỉ số giữa xác
suất của biến cố xảy ra với xác suất của biến cố đó không xảy ra
Kí hiệu: odds của biến cố A được ký hiệu odds(A)
( )( )
1 ( )
P A odds A
P A
=
−Như vậy
Định nghĩa 2.2 Tỷ số odds của hai biến cố A và B đã xảy ra là tỷ số của
odds(A) và odds(B) Kí hi ệu: OR(A, B)
Trang 33( ) 1 ( ) ( )
Nhận xét: odds của một biến cố đã xảy ra là con số so sánh số lần xác suất xảy ra
và không xảy ra của một biến cố Trong khi đó OR(A,B) là số so sánh số lần của odds(A) và odds(B)
Ví d ụ 2.1 Một cuộc điều tra về việc tập thể dục buổi sáng của nam và nữ tại một
trường đại học ta có số liệu:
x= : nếu sinh viên là nam,
x= : nếu sinh viên là nữ 0
Gọi A, B lần lượt là biến cố tập thể dục của nam và nữ
Trang 34mô hình hồi quy logistic Hàm logistic sẽ tìm mối quan hệ giữa odds của một sự
thành công với các biến độc lập khác bất kỳ Mối quan hệ này có thể tuyến tính
và phi tuyến, tuy nhiên trong các bài toán thực tế mối quan hệ này thông thường
là tuyến tính Vì vậy luận văn chỉ giới hạn trong mối quan hệ tuyến tính
P X =P Y = X
Xét hai biến X và Y, trong đó Y chỉ nhận hai giá trị 0 và 1 còn giá trị của X ảnh hưởng đến giá trị của Y Gọi là xác suất có điều kiện
của Y = 1 khi X xảy ra Giả sử ( ) P X có m ối quan với biến X, nhưng ta không thể
tìm trực tiếp mối quan hệ này vì ( )P X
P X odds P X
thuộc đoạn [0,1] trong khi X là tùy ý Bởi
vì có mối quan hệ với ( )P X và có giá trị bất kỳ (xem hình 2.1) nên ta có thể thay thế mối quan hệ giữa ( )P X và X bằng mối quan