1. Trang chủ
  2. » Luận Văn - Báo Cáo

Hồi quy logistic luan van toan hoc

68 18 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 68
Dung lượng 1,15 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Xây dựng đường hồi quy là tìm một hàm số thể hiện mối quan hệ giữa biến phụ thuộc với các biến độc lập khác.. Như vậy biến phụ thuộc nằm trong đoạn [0,1], trong khi các biến độc lập có t

Trang 1

TRƯỜNG ĐẠI HỌC CẦN THƠ KHOA KHOA H ỌC TỰ NHIÊN

B Ộ MÔN TOÁN

- -

LU ẬN VĂN TỐT NGHIỆP ĐẠI HỌC

GIÁO VIÊN HƯỚNG DẪN

ThS VÕ V ĂN TÀI

(B Ộ MÔN TOÁN – KHOA KHTN)

SINH VIÊN TH ỰC HIỆN NUY ỄN THỊ BÍCH HUYỀN NGÀNH:TOÁN ỨNG DỤNG-K32

C ẦN THƠ - 05/2010

Trang 2

2

- -

Em xin gửi lời cảm ơn chân thành và sâu sắc nhất đến Thầy Võ Văn Tài

đã giúp đỡ em trong suốt thời gian thực hiện đề tài

Em xin chân thành cảm ơn quý T hầy Cô trong Khoa Khoa học tự nhiên, đặc biệt là Thầy Cô trong Bộ môn toán đã truyền đạt những kiến thức quý báo làm nền tảng thực hiện luận văn này

Xin chân thành cảm ơn các anh chị và bạn bè đã ủng hộ, giúp đỡ và động viên em trong thời gian học tập và nghiên cứu

Con xin nói lên lòng biết ơn đến Ông Bà, Cha Mẹ luôn chăm sóc, nguồn động viên trên mỗi bước đường học vấn của con

Mặc dù em đã c ố gắng hoàn thành luận văn trong phạm vi và khả năng cho phép nhưng chắc chắn sẽ không tránh khỏi những thiếu sót Em kính mong

nhận được sự cảm thông và tận tình chỉ bảo của quý Thầy Cô và những ý kiến

của các bạn

Cần Thơ, tháng 5 năm 2010

Nguy ễn Thị Bích Huyền

Trang 3

ii

PH ẦN MỞ ĐẦU

1 Giới thiệu 1

2 Bố cục luận văn 2

PH ẦN NỘI DUNG Chương 1 HỒI QUY TUYẾN TÍNH 3

1.1 Giới thiệu .3

1.2 Hệ số tương quan 3

1.2.1.Tương quan giữa hai biến 3

1.2.2 Kiểm định hệ số tương quan 6

1.3 Hồi quy tuyến tính đơn .8

1.3.1 Mô hình 8

1.3.2 Hồi quy tuyến tính mẫu .9

1.3.3 Hệ số xác định 10

1.3.4 Kiểm định hệ số của hồi quy 13

1.3.5 Khoảng ước lượng của hồi quy tuyến tính đơn 15

1.3.6 Kiểm định sự phù hợp của mô hình 16

1.4 Hồi quy bội 17

1.4.1 Mô hình 17

1.4.2 Xây dựng mô hình hồi quy mẫu 18

1.4.3 Hệ số xác định của mô hình 19

1.4.4 Khoảng ước lượng cho hệ số hồi quy 20

1.4.5 Kiểm tra giả thiết về tham số hồi quy 21

Chương 2 HỒI QUY LOGISTIC 24

2.1 Giới thiệu .24

2.2 Những vấn đề cơ bản về ước lượng hợp lý cực đại 25

2.2.1 Phương pháp chung của ước lượng hợp lý cực đạt 25

2.2.2 Ví dụ áp dụng 26

Trang 4

iii

2.3 ODDS và tỉ số của ODDS 27

2.3.1 Dữ liệu nhị phân 27

2.3.2 ODDS và tỉ số ODDS 27

2.4 Hồi quy Logistic đơn 29

2.4.1 Mô hình 29

2.4.2 Xây dựng đường hồi quy mẫu 31

2.4.3 Một số thống kê liên quan 34

2.5 Hồi quy Logistic bội 35

2.5.1 Mô hình 35

2.5.2 Xây dựng đường hồi quy mẫu 35

2.6 Ý nghĩa của các hệ số hồi quy 37

2.6.1.Ý nghĩa của hệ số hồi quy tuyến tính bội .37

2.6.2.Ý nghĩa của hệ số hồi quy Logistic 37

2.7 Sử dụng SPSS trong hồi quy Logistic .38

2.7.1 Giới thiệu chung về phần mềm SPSS .38

2.7.2 Hồi quy Logistic với SPSS 39

2.7.3.Ví dụ minh họa 39

Chương 3 VÍ DỤ ỨNG DỤNG 43

3.1 Giới thiệu 43

3.2 Một số ứng dụng cụ thể trong y học 43

3.3 Một số ứng dụng cụ thể trong xã hội 50

K ẾT LUẬN 56

TÀI LI ỆU THAM KHẢO .57

PH Ụ LỤC 58

Trang 5

PH ẦN MỞ ĐẦU

1 Gi ới thiệu về hồi quy logistic

Hiện nay việc dự báo có một ý nghĩa r ất quan trọng trong mỗi lĩnh vực Không ai có thể phủ định việc dự báo đúng sẽ đem lại một lợi ích rất lớn trong sự phát triển kinh tế xã hội Cho đến hiện tại, dự báo vẫn là một môn khoa học vô cùng phức tạp, đòi hỏi nhiều kinh nghiệm và kiến thức liên quan khác nhau Có nhiều phương pháp dự báo, với những mô hình khác nhau, nhưng d ự báo bằng

việc xây dựng mô hình hồi quy dựa trên các số liệu thống kê đã có là một phương pháp quan trọng và rất phổ biến trong thực tế Xây dựng đường hồi quy là tìm

một hàm số thể hiện mối quan hệ giữa biến phụ thuộc với các biến độc lập khác Tùy theo mối quan hệ của các đại lượng mà đường hồi quy được thiết lập dưới

những hình thức khác nhau Người ta chia mô hình hồi quy thành 2 loại chính:

hồi quy tuyến tính và hồi quy phi tuyến dưới nhiều hình thức cụ thể khác nhau Trong luận văn này chúng tôi tìm hi ểu một mô hình hồi quy đặc biệt, hồi quy logistic

Trong các mô hình hồi quy truyền thống, biến độc lập cũng như biến phụ thuộc đều là các biến định lượng Nhưng trong thực tế, người ta có nhu cầu dự báo khả năng xảy ra của một biến cố dựa vào các quan sát của những biến định lượng Như vậy biến phụ thuộc nằm trong đoạn [0,1], trong khi các biến độc lập

có thể nhận giá trị bất kỳ, vì vậy không thể thiết lập mối quan hệ giữa biến phụ thuộc và biến độc lập theo những dạng hồi quy truyền thống Hồi quy logistic

được sử dụng trong các trường hợp này

H ồi quy logistic được xem là sự mở rộng của hồi quy tuyến tính Đôi khi

mô hình hồi quy này còn được gọi theo bản chất là ln-tuyến tính Hiện nay hồi quy logistic được ứng dụng một cách rộng rãi trong nhiều lĩnh vực như: kinh tế, y

học, sinh học, kỹ thuật, xã hội…Trong đó hai lĩnh vực đã sử dụng hồi quy logistic nhiều nhất là y học và xã hội học Chúng ta có thể tìm thấy nhiều công

Trang 6

đó Người ta nói rằng hồi quy logistic đã “toán học hóa” việc chẩn đoán bệnh cho

các bác sĩ

2 B ố cục của luận văn

Nội dung của luận văn bao gồm phần mở đầu, phần nội dung, phần kết

luận, danh mục các tài liệu tham khảo và phần phụ lục

Phần nội dung gồm có 3 chương: Chương 1, chương 2 và chương 3

Chương 1: Hồi quy tuyến tính

Trình bày chi tiết những vấn đề về hồi quy tuyến tính như: hệ số tương quan, hồi quy tuyến tính đơn, hồi quy tuyến tính bội, ước lượng và

kiểm định những vấn đề liên quan đến đường hồi quy

Chương 2: Hồi quy Logistic

Trình bày các khái niệm liên quan đến hồi quy logistic, xây dựng

h ồi quy logistic đơn, hồi quy logistic bội và một số thống kê liên quan đến

hồi quy này Chương này cũng giới thiệu cách sử dụng phần mềm SPSS trong phân tích h ồi quy logistic và ví dụ cụ thể minh họa cho những vấn

đề lý thuyết đã nêu

Chương 3: Một số ví dụ ứng dụng của hồi quy logistic trong y học

và xã h ội học

Trình bày một số ví dụ áp dụng cụ thể của hồi quy logistic trong hai

lĩnh vực y học và xã hội Đây là những số liệu thật đã được công bố trong các công trình nghiên cứu Các ví dụ này đuợc xử lý trên phần mềm SPSS

Trang 7

dự báo ngắn hạn Mô hình hồi quy này cũng được xem là nền tảng, là cơ sở cho các mô hình hồi quy khác Có rất nhiều mô hình hồi quy phi tuyến được chuyển đổi về dạng tuyến tính để xử lý bởi vì xét các vấn đề liên quan cho hồi quy tuyến tính thì đơn giản hơn nhiều so với hồi quy phi tuyến Hồi quy logistic được xây

dựng trên nền tảng các mô hình hồi quy phổ biến, đặc biệt là hồi quy tuyến tính

Vì vậy trong chương này chúng tôi trình bày nh ững vấn đề liên quan đến mô hình hồi quy phổ biến, đặc biệt là hồi quy tuyến tính

1.2 H Ệ SỐ TƯƠNG QUAN

1.2.1 Tương quan giữa hai biến

Khi kh ảo sát 2 đại lượng ngẫu nhiên X và Y ta thấy giữa chúng có thể có

một số quan hệ với nhau:

i) X và Y độc lập với nhau, tức là việc nhận giá trị của đại lượng ngẫu nhiên này không ảnh hưởng đến việc nhận giá trị của đại lượng

ngẫu nhiên kia Khi đó ta muốn nghiên cứu hai đại lượng chúng ta

phải khảo sát từng đại lượng một cách riêng biệt

ii) X và Y có mối phụ thuộc với nhau Khi đó để nghiên cứu đại lượng này chúng ta có thể nghiên cứu đại lượng kia và ngược lại

Trang 8

Một hình thức đơn giản nhất về mối quan hệ giữa hai đại lượng ngẫu

nhiên X và Y đó là quan hệ tuyến tính Đại lượng biểu thị cho mức độ quan hệ này được gọi là hệ số tương quan (kí hiệu ρxy)

a) Công th ức

Hệ số tương quan giữa hai đại lượng ngẫu nhiên X và Y được xác định

bởi công thức sau:

,

X Y

σ σ lần lượt là độ lệch chuẩn của X và Y,

( , )

Cov X Y là hiệp phương sai hay Moment tương quan của hai đại lượng

ngẫu nhiên X và Y và được xác định bởi công thức:

b) Ý ngh ĩa

Hệ số tương quan của hai biến là đại lượng dùng để thể hiện chiều hướng

và độ mạnh hay yếu của mối quan hệ tuyến tính giữa hai biến đó ρxy càng gần

1 thì mối quan hệ tuyến tính càng chặt chẽ và ρxy càng gần 0 thì mối quan hệ tuyến tính càng yếu đi

c) Tính ch ất

Hệ số tương quan có các tính chất sau:

i) -1≤ρxy ≤1

ii) ρxy<0: Giữa X và Y có mối liên hệ tuyến tính nghịch (ρxy= -1 thể hiện

một mối liên hệ tuyến tính nghịch hàm số)

iii) ρxy>0: Giữa X và Y có mối liên hệ tuyến tính thuận (ρxy= 1 thể hiện

một mối liên hệ tuyến tính thuận hàm số)

iv) ρxy=0: Giữa X và Y không có mối liên hệ tuyến tính

d) H ệ số tương quan tuyến tính mẫu r

Trang 9

Trong thực tế, chúng ta không biết được chính xác Cov(X,Y), σ σX, Y để tính

hệ số tương quanρxyvì ta không thể có số liệu đầy đủ của tổng thể Do đó ta phải

ước lượng các tham số của tổng thể trong công thức (1.1) bởi các tham số mẫu

đặt trưng Giả sử từ tổng thể ta chọn ra một mẫu gồm n phần tử Quan sát hai

biến ngẫu nhiên X và Y trên n phần tử này ta có số liệu cụ thể: (x1, y1), (x2,

n i i

xy n n

i i

x x y y r

S S

=

Trong đó

Trang 10

a) Ki ểm định sự tuơng quan của hai đại luợng ngẫu nhiên

Với mức ý nghĩa α cho trước và nếu ( , )X Y có phân phối chuẩn thì ta

tiến hành kiểm định giả thiết cho rằng các biến không có tương quan tuyến tính

với nhau theo các bước của bài toán kiểm định thông thường

i) Chọn giả thiết và đối thiết:

0 1

xy xy

H H

ρρ

2

xy

xy r

n r T

r n t

r

=

− Trong đó

r là hệ số tương quan của mẫu,

n là cỡ mẫu

iv) Trả lời: Nếu t∈Wα thì ta bác bỏ giả thiết ρxy= 0, ngược lại thì ta chấp

nhận giả thiết Nghĩa là X và Y không tương quan

b) So sánh h ệ số tương quan với một số bất kỳ

Giả sử phân bố đồng thời của (x,y) là chuẩn và cỡ mẫu n đủ lớn Các

Trang 11

bước kiểm định như sau:

i) Chọn giả thiết và đối thiết

0 0

1 0

::

xy xy

H H

n

ρρ

n

ρρ

=

−iv) Trả lời

Nếu u∈Wα thì bác bỏ giả thiết ρxy=ρ0

Nếu u∉Wαthì ta chưa có cơ sở để bác bỏ giả thiết

Chú ý: Ta cũng có thể kiểm tra giả thiết trên theo các cách sau:

i) Bất đẳng thức 0

2 1

2 0

Trang 12

ii)Ta dùng phép biến đổi của Fisher: 1ln 1

2 1

xy xy

r Z

có phân bố tiệm cận chuẩn N(0,1) Do vậy ta có ngưyên tắc bác bỏ hoặc chấp

nhận giả thiết như sau:

Nếu

1 2

u u α

≥ thì bác bỏ giả thiết ρxy=ρ0, ngược lại nếu u <uα/ 2thì ta chưa có cơ sở để bác bỏ giả thiết ρxy=ρ0

Chú ý: Hệ số tương quan đơn chỉ để đo mức độ phụ thuộc tuyến tính giữa hai

biến ngẫu nhiên.Giữa hai đại lượng ngẫu nhiên X và Y có thể còn có sự phụ thuộc

phi tuyến Vì vậy nếu hệ số tương quan giữa X và Y nhỏ hay thậm chí bằng

không thì ta cũng không th ể kết luận giữa X và Y không có sự tương quan nào,

bởi vì giữa chúng vẫn có thể có một hình thức tương quan khác Hệ số đo mức độ tương quan bất kỳ giữa hai biến được gọi tỷ tương quan Gọi 2

/

Y X

η là tỷ tương quan giữa hai biến X và Y, khi đó ta cần lưu ý một số đặc điểm sau:

i) Hiệu số 2 2

/

Y X

η −ρ đo mức độ phụ thuộc phi tuyến giữa Y và X Nếu hiệu

số này càng lớn thì sự tương quan phi tuyến giữa Y và X càng mạnh và

ngược lại

ii) Nếu 2 2

/

Y X

η =ρ thì ngoài mối liên hệ tuyến tính, Y không có mối liên hệ

phi tuyến nào nữa đối với X

iii) Nếu 2 2

/

Y X

η ≠ρ nhiều thì ngoài mối liên hệ tuyến tính Y còn có mối

liên hệ phi tuyến đối với X

iv) Nếu 2

/

Y X

η gần 1, ρ2 gần 0 thì giữa X và Y có sự phụ thuộc rất chặt chẽ

nhưng mối liên hệ tuyến tính lại rất yếu Trong trường hợp này ta không

thể sử dụng quan hệ tuyến tính được mà phải sử dụng quan hệ phi tuyến

Trang 13

1.3 H ỒI QUY TUYẾN TÍNH ĐƠN

1.3.1 Mô hình

Xét hai biến ngẫu nhiên X và Y, trong đó X là biến độc lập còn Y là biến

phụ thuộc Trong thực tế, thông thường biến X có thể quan sát được, đo được còn

biến Y khó có thể định lượng trực tiếp được nên phải xác định nó qua biến X Giả

sử hai đại lượng này có mối quan hệ tuyến tính

ngẫu nhiên không tương quan Mô hình (1.4) được gọi là hồi quy tuyến tính đơn

1.3.2 H ồi quy tuyến tính mẫu

Giả sử chúng ta có n cặp dữ liệu thu được khi quan sát (x,y) là

β lần lượt là ước lượng của β0 và β1,

ε gọi là phần dư hay sai số

0 1

i y i y i y i x i

ε = − = −β −β , khi đó tổng bình phương sai số

giữa giá trị quan sát thực tế và lý thuyết là

Trang 14

Sử dụng phương pháp bình phương bé nhất để ước lượng các tham số của β0 và

1

β Chúng ta cần tìm β βˆ 0, ˆ 1 cho S(β βˆ0, ˆ1) nhỏ nhất Vì vậy hai giá trị này chính

là nghiệm của hệ phương trình:

^ ^

0 1

^

1 1

n

i i i

n

i i i i

β ββ

1

n

i i i

n i i

Trang 15

S được gọi là tổng bình phương hiệu chỉnh của X,

xy

S được gọi là tích số chéo của X và Y

Khi đó (1.7) được viết gọn lại 

1

xy xx

S S

1.3.3 H ệ số xác định

Khi xây dựng đường hồi quy tuyến tính ta dùng biến độc lập X để suy

luận cho biến phụ thuộc Y Nhưng câu hỏi đặt ra là “liệu mô hình hồi quy tuyến tính được xây dựng đã thể hiện một cách tốt nhất mối liên hệ giữa Y và X chưa?

Bao nhiêu phần trăm sự biến thiên của Y có thể được giải thích bởi sự phụ thuộc

tuyến tính của Y vào X ? ” Hệ số xác định R2

không thể giải thích bởi mối liên hệ tuyến tính giữa Y và X

Trang 16

n

i n i i

Trang 17

SSE =

2 2

∑ ∑ thể hiện phần biến thiên của y do các yếu tố

khác không nghiên cứu

Khi đó hệ số xác định thể hiện phần tỉ lệ biến thiên của y được giải thích bởi mối

liên hệ tuyến tính của y với x, được xác định bằng công thức

2

1

SSR SSE R

ii) Sự phân biệt giữa r và xy 2

R là ở chỗ: r xy là đại lượng được xác định ở

góc độ phân tích tương quan (X, Y được xem là các đại lượng ngẫu nhiên), đo lường cường độ của mối liên hệ tuyến tính giữa X và Y còn 2

R là đại lượng được

xác định ở góc độ phân tích hồi quy (Y được xem là phụ thuộc vào X), thể hiện sự

thích hợp của mô hình hồi quy đối với dữ liệu

iii) 2

R càng lớn thì mô hình hời quy tuyến tính đã xây d ựng được xem là càng phù hợp, càng có ý nghĩa trong việc giải thích sự biến thiên của Y thông qua

sự biến thiên của X

1.3.4 Ki ểm định hệ số của đường hồi quy

a) Ki ểm định F

Đường hồi quy thực nghiệm y∧ =β0+β1xlà ước lượng của phương trình

hồi quy lý thuyết Y =β0+β1X Phương trình hồi quy lý thuyết là hàm xấp xỉ tốt

nhất trong lớp hàm tuyến tính Song nếu mức độ liên hệ tuyến tính giữa Y và X

quá yếu thì ước lượng trên không thể sử dụng được Vì vậy ta cần kiểm tra xem

giả thiết hồi quy E(Y/X) là tuyến tính có phù hợp không

Để đạt mục đích này ta kiểm định giả thiết là: H: β1= 0 Với đối thiết:

H:β1≠ 0 Nếu giả thiết β1= 0 được chấp nhận thì phương trình h ồi quy của Y theo X có d ạng phi tuyến hay X và Y là hai đại lượng ngẫu nhiên độc lập, ngược

lại sẽ kết luận X và Y có sự liên hệ tuyến tính

Trang 18

Ta thấy rằng phương pháp xem xét biến thiên của Y đề cập ở trên cũng

tương tự như phương pháp phân tích phương sai Do vậy, trong phân tích hồi quy

cũng có thể thiết lập bảng ANOVA và thực hiện kiểm định F nhằm xem xét giả

thiết về sự tồn tại của mối liên hệ tuyến tính giữa X và Y

Tiêu chuẩn của phân tích phương sai được dựa trên việc so sánh phương

sai được giải thích và phương sai dư, tức là tỷ số F = ( )

n i i n

i i

y y n

n

y y n

Nếu giả thiết β1= 0 đúng thì F có phân phối Fisher với (1, n-2) bậc tự do

Khi đó giả thiết β1= 0 sẽ bị bác bỏ nếu FF1,n−2,α với F1,n−2,αlà giá trị nhận được

từ bảng phân phối Fisher sao cho p(F1,n−2 ≥F1,n−2,α) = α

Ta có bảng ANOVA trong phân tích hồi quy tuyến tính đơn giản như sau:

Biến thiên

Tổng các chênh lệch bình phương

Bậc tự

do

Trung bình các chênh lệch bình phương

Trang 19

Cũng giống như kiểm định F, kiểm định T nhằm kiểm tra mối liên hệ tuyến

tính của Y và X có tồn tại hay không, tức là kiểm tra hệ số β1 có bằng 0 hay không Nếu β1= 0 có nghĩa là không tồn tại mối liên hệ tuyến tính giữa X và Y

Giả thiết kiểm định là: H: β1= 0 và đối thiết H:β1≠ 0

1

e n i i

S S

Sβ được gọi là sai số chuẩn của ước lượng β1

Khi đó, nếu giả thiết đúng thì T tuân theo quy luật Student với n-2 bậc tự

do Miền bác bỏ là

2, 2

Điểm phân biệt là ở chỗ nhìn nhận mối quan hệ: trong tương quan X, Y được xem

là hai đại lượng ngẫu nhiên, mối quan hệ giữa chúng là ngang nhau, không có sự

phụ thuộc, trong khi ở phân tích hồi quy Y được xem là phụ thuộc vào X

1.3.5 Kho ảng ước lượng của các hệ số hồi quy

( )

xx

x Var

Trang 20

Khi đó độ lệch chuẩn tương ứng là

SSE được gọi là tổng bình phương sai số hay tổng bình phương thặng dư, còn

MSE được gọi là bình phương trung bình thặng dư

Giả sử các thặng dư là đại lượng ngẫu nhiên có phân phối chuẩn và độc

lập nhau Khi đó ước lượng các tham số của đường hồi quy như sau:

i) Khoảng ước lượng cho β1 với độ tin cậy (1- )100% là

1 2

1.3.6 Ki ểm tra tính phù hợp của mô hình

Để kiểm tra tính phù hợp của mô hình hồi quy đã thiết lập ta thực hiện các bước sau

i) Ch ọn giả thiết và đối thiết

H0: Mô hình đầy đủ là phù hợp với dữ liệu

H1: Mô hình đầy đủ là không phù hợp với dữ liệu

ii) Tính giá tr ị quan sát

Giả sử ta có n quan sát như sau:

Trang 21

y11, y12, , y1n lập lại quan sát tại x1

y21, y22, , y2n lập lại quan sát tại x2

ym1, ym2, , ymn lập lại quan sát tại x m

Cũng với mô hình y i = β0 +β1x i +e i ta tính tổng bình phương thặng

dư SSE thành 2 phần: SSE=SSEp SSLf+

SSEp có phân phối Student với bậc tự do df = nm

SSLf là tổng bình phương sự không phù hợp với mô hình tuyến tính

SSLf =SSESSEp

SSLf có phân phối Student với bậc tự do df n= − − − = − 2 (n m) m 2

Giá trị quan sát được tính bởi công thứ sau:

( 2)

tinh

SSLf m MSLf F

F = sẽ xấp xỉ phân phối Fisher với bậc tự do

(m – 2, n – m) Do đó miền bác bỏ với mức ý nghĩa α là

= F (m 2,n m),

iv) Tr ả lời

Nếu giá trị quan sát thuộc miền bác bỏ, ta sẽ bác bỏ giả thiết H0 Nghĩa

là mô hình hồi quy xây dựng không phù hợp với dữ liệu Lúc này ta cần tìm mô hình hồi quy xấp xỉ khác

1.4 H ỒI QUY BỘI

1.4.1 Mô hình

Trang 22

Thực tế cho thấy một đại lượng không chỉ liên quan đến một đại lượng khác mà còn chịu tác động bởi nhiều đại lượng liên quan Vì thế, nếu chỉ dùng mô hình hồi quy đơn sẽ không thể hiện được các quan hệ phức tạp vốn có của nó Do

đó, chúng ta mở rộng mô hình hồi quy đơn với một biến độc lập thành nhiều biến

độc lập Giả sử ta có biến Y phụ thuộc vào k biến độc lập X1,X2, ,X k bởi mô hình

Y =β0+β1X1+ +βk X k + (1.8) ε(1.8) được gọi là hồi quy tuyến tính bội

iii) Không có sự tương quan giữa các sai số

iv) Không có hiện tượng cộng tuyến giữa các biến độc lập

1, 2, , k

X X X

v) Không có sự tương quan giữa các biến độc lập X X1, 2, ,X k với các sai số ngẫu nhiên

1.4.2 Xây d ựng đường hồi quy mẫu

Ta ước lượng các tham số (j 0,1,2,3, , )βj = k bằng phương pháp bình phương bé nhất với hàm hồi quy mẫu là

=+

i i

i x y

1

β

Trang 23

Nếu giá trị của kbiến độc lập lần lượt là x1i,x2i, ,x ki thì giá trị của biến

phụ thuộc y i thể hiện qua mô hình hồi quy tuyến tính bội như sau:

x x y

εβ

Trang 24

Để giải quyết phương trình(1.12) ta nhân 2 vế phương trình cho nghịch đảo của T

x x Khi đó tìm được cụ thể như sau:

β

εβ

εβ

( )

(

) (

) (

1 1

1

T T

T T

T T

X X X X X X X E

X X X X E

SSEx yn y : Tổng độ lệch bình phương sai số,

SSR=SSTSSE: Tổng độ lệch bình phương hồi quy với k bậc tự do

Chú ý:

Trang 25

i) 2

R được định nghĩa như tỉ lệ hay phần trăm biến động của biến đáp ứng

y được giải thích bởi các biến độc lập x i Vì vậy khi xây dựng mô hình hồi quy tuyến tính bội nếu tính được 2

1)(

1(1)1(

)1

n R n

SST

k n

SSR R

càng lớn trong xây dựng hồi quy tuyến tính bội ta có càng nhiều biến độc lập càng tốt Điều này dẫn đến một khó khăn khi xác định số lượng biến độc lập Để

giải quyết khó khăn này người ta đưa ra khái niệm hệ số xác định đã hiệu chỉnh (1.13)

R tăng lên thì ta chấp nhận biến, còn ngược

lại thì ta loại ra và kết thúc quá trình

1.4.4 Kho ảng ước lượng cho hệ số hồi quy

a) Ta có ước lượng của tham số là  1

( T ) T

x x x y

β = − Do đó ma trận hiệp phương sai của β như sau:

Trang 26

Nếu σ 2 chưa biết ta thay bằng ước lượng không chệch

2 2

1

n i i

( )

j

j

Se β = σβ Còn σ 2 là phương sai của sai số ngẫu nhiên εi nhưng chưa biết nên ta phải dùng ước lượng không chệch của nó là 2

ˆ

σ

11

1

2 2

SSE k

n

e k

n

e e

n i i T

σ (1.15)

Ta tìm khoảng ước lượng của βi với độ tin cậy (1-α )100%

 

1 2

1.4.5 Ki ểm tra giả thiết về tham số hồi quy

Chúng ta giả sử rằng các thặng dư có phân phối chuẩn tắc Trong hồi quy tuyến tính bội ta thường xuyên kiểm tra giả thiết về những tham

số trong mô hình như sau:

Trang 27

H1: có ít nhất một βi ≠ 0ii) Miền bác bỏ Wα =(Fα(k,nk−1),+∞)

iii) Giá trị quan sát ính ( )

1

t

SSR k MSR F

(1 ) ( 1)

t

R k F

R n k

=

iv) Trả lời

Nếu F tính >F báng =Fα,k(n− − ta bác bk 1) ỏ giả thiết Nghĩa là có ít nhất

một biến trong mô hình đóng góp ý nghĩa phù h ợp, ngược lại không có biến nào đóng góp có ý nghĩa phù hợp

b) Ki ểm tra cho một giá trị βi b ất kỳ

Nhiều trường hợp chúng ta có nhu cầu kiểm tra hệ số đường hồi quy βi

có phải là giá trị cụ thể βi0 không Khi đó ta bài toán kiểm định giả thiết với các bước như sau:

i) Chọn giả thiết H0: βii0, đối thiết βi ≠βi0

ii

ei i

S n

Sxy S

được tính từ số liệu mẫu,

n x S

1

2 1

2

)(

n y S

1

2 1

2

)(

1

, =∑ − ∑ ∑x y

n xy

iv) Trả lời: Nếu t0∈Wα ta bác bỏ giả thiết, ngược lại ta chấp nhận giả thiết

Trang 28

Chú ý: Thực tế chúng ta có nhu cầu cần kiểm tra một biến nào đó có nên đưa vào trong mô hình hồi quy tuyến tính bội không Bởi vì thêm một biến không quan

trọng chúng ta có thể làm tăng trung bình của bình phương thặng dư, do đó làm

giảm tính dự báo của mô hình Cụ thể để kiểm tra biến x i có nên đưa vào mô hình hay không ta thực hiện bài toán kiểm định với giả thiết H0: βi =0, đối thiết

H1: βi ≠0 Bài toán này thực hiện giống trên chỉ thay thế βi0 =0

Trang 29

ngẫu nhiên chỉ có hai khả năng xảy ra Trong thực tế các ví dụ của kiểu dữ liệu này rất phổ biến Chẳng hạn:

Bệnh nhân được chữa khỏi bệnh, hoặc không được chữa khỏi bệnh,

Một hệ thống trong mô hình sản xuất vượt qua được sự kiểm soát chất lượng hay không,

Một con chuột bị nhiễm độc chết hoặc không chết

Chúng ta có thể chỉ ra vô số các ví dụ kiểu như trên Những ví dụ này có

biến phụ thuộc được phân đôi (có hai kết quả có thể) nên không thích hợp để giả

sử rằng nó có phân phối chuẩn Do đó các dữ liệu loại này không thể được thiết

lập mô hình hồi quy như đã đư ợc trình bày trư ớc đó Hiện tại phương pháp phổ

biến nhất được sử dụng để xây dựng đường hồi quy với biến phụ thuộc có dạng lưỡng phân là hồi quy logistic

Hiện nay hồi quy logistic đã được ứng dụng trong nhiều lĩnh vực khác nhau như y học, xã hội học, sinh học,… và có khuynh hướng phát triển rất mạnh trong những năm gần đây

Trang 30

2.2 NH ỮNG VẤN ĐỀ CƠ BẢN VỀ ƯỚC LƯỢNG HỢP LÝ CỰC ĐẠI 2.2.1 Phương pháp chung của ước lượng hợp lý cực đại

Giả sử X1, X2, …, Xn

),(X i θ

f

là các biến ngẫu nhiên độc lập có cùng hàm mật độ xác suất trong đó θ =(θ1,θ2, ,θm) là những tham số chưa biết Lấy

một mẫu gồm n phần tử X = { X1 =x1, X2 =x2, ,X n = x n}, ta có hàm mật độ xác suất đồng thời của n quan sát được xác định như sau:

i i

x x x f L

1 2

1, , , | ) ( | )(

)(

=

=

θ (2.1) Hàm số xác định bởi (2.1) là hàm theo véc tơ tham số θ Hàm này được

gọi là hàm hợp lý của θ được xây dựng từ tập mẫu X

Hàm L(θ) có thể được chọn như là một tiêu chuẩn ước lượng tối ưu của

θ Phương pháp ước lượng làm cực đại hàm hợp lý đư ợc gọi là phương pháp ước lượng hợp lý cực đại của tham số Trong phương pháp này giá trị tối ưu θˆ

của θ được chọn sao cho nó làm L(θ) đạt giá trị lớn nhất

Khi cực đại của một tổng thì đơn giản hơn tích, vì vậy thay vì cực đại hàm )

L người ta cực đại hàm ln(L(θ)) (nếu θˆ cực đại trong ln( L(θ)) thì nó cũng

cực đại trong L(θ)) Gradient của ln( L(θ)) là U(θ) được gọi là hàm điểm Để

tìm θˆ ta cho hàm điểm U(θ) = 0, khi đó có hệ phương trình sau:

0

|(ln

0

|(ln

1

2 1

1 1

x f

x f

θθ

θθθθ

(2.2)

Đây là hệ phương trình gồm m phương trình, m ẩn số θi,i=1,2, ,m

Giải hệ phương trình này ta sẽ tìm được tham số θi

Trang 31

Chú ý:

i) ln(L(θ)) phụ thuộc vào việc chọn mẫu, vì vậy cực đại hàm hợp lý cũng

phụ thuộc vào kích thước n

ii) Về mặt toán học phương trình (2.2 ) có nghiệm không duy nhất, tuy nhiên trong đa số các trường hợp nó có nghiệm duy nhất

iii) Nguời ta đã chứng minh đuợcL( )θˆ ≥L( )θ

1)

σπ

x

chưa biết Lúc này ta có :

µθ

θθQuan sát ngẫu nhiên n mẫu xi

= n

i

i x n

L

2 2

2

12

ln2

11)]

,(

θπσ

σµ

, i = 1, 2, , n, ta có ln

0

,ln

2 1

σµ

n

i

n

i

Ta được nghiệm như sau:

Ước lượng hợp lý cực đại của µ là ∑

=

= n

i i x

n 1

Trang 32

2.3 ODDS VÀ T Ỷ SỐ CỦA ODDS

2.3.1 D ữ liệu nhị phân

Vì giá trị của biến phụ thuộc là lưỡng phân, nên để thuận tiện ta gọi hai

kết quả trái ngược nhau của nó là thành công và thất bại Chẳ ng hạ n nếu một

bệnh nhân được chữa khỏi bệnh thì biến phụ thuộc là “ thành công ”, nếu không thì biến phụ thuộc là “ thất bại ”; nếu một mô hình vư ợt qua cuộc kiểm tra chất lượng thì biến phụ thuộc là “ thành công”, nếu không thì biến phụ thuộc

1, 2, , k

là 'thất

bại'; nếu một con chuột chết vì nhiễm độc hại thì biến độc lập là “ thành công ”,

nếu không thì biến độc lập là “ thất bại” Chúng ta cũng quy ư ớc nếu biến độc

lập ở trạng thái thành công thì nó nhận giá trị bằng 1, ngược lại nó sẽ nhận giá trị

bằng 0 Khi xây dựng đường hồi quy logistic, mỗi giá trị của biến phụ thuộc sẽ bị ảnh hưỏng bởi các giá trị nhất định của một tập hợp các biến độc lập

Chẳng hạn

Một bệnh nhân được trị khỏi bệnh có thể phụ thuộc vào cách điều trị y tế,

sức khỏe, tuổi tác, giới tính, …

Một công đoạn trong một quy trình sản xuất vượt qua kiểm tra chất lượng

có thể phụ thuộc vào các điều kiện khác nhau liên quan đến quá trình sản xuất như nhiệt độ, chất lượng nguyên liệu, tuổi thọ của máy móc,…

Người ta thường nhóm các quan sát của nhiều biến độc lập gần nhau để

biến phụ thuộc nhận cùng một giá trị Khi các dữ liệu có thể được nhóm lại nó sẽ

dễ dàng hơn để ghi lại số lượng thành công và thất bại cho mỗi nhóm, hơn là ghi

lại một chuỗi dài 0 và 1

2.3.2 Odds và t ỉ số Odds

Định nghĩa 2.1 Odds của một biến cố xảy ra được định nghĩa là tỉ số giữa xác

suất của biến cố xảy ra với xác suất của biến cố đó không xảy ra

Kí hiệu: odds của biến cố A được ký hiệu odds(A)

( )( )

1 ( )

P A odds A

P A

=

−Như vậy

Định nghĩa 2.2 Tỷ số odds của hai biến cố A và B đã xảy ra là tỷ số của

odds(A) và odds(B) Kí hi ệu: OR(A, B)

Trang 33

( ) 1 ( ) ( )

Nhận xét: odds của một biến cố đã xảy ra là con số so sánh số lần xác suất xảy ra

và không xảy ra của một biến cố Trong khi đó OR(A,B) là số so sánh số lần của odds(A) và odds(B)

Ví d ụ 2.1 Một cuộc điều tra về việc tập thể dục buổi sáng của nam và nữ tại một

trường đại học ta có số liệu:

x= : nếu sinh viên là nam,

x= : nếu sinh viên là nữ 0

Gọi A, B lần lượt là biến cố tập thể dục của nam và nữ

Trang 34

mô hình hồi quy logistic Hàm logistic sẽ tìm mối quan hệ giữa odds của một sự

thành công với các biến độc lập khác bất kỳ Mối quan hệ này có thể tuyến tính

và phi tuyến, tuy nhiên trong các bài toán thực tế mối quan hệ này thông thường

là tuyến tính Vì vậy luận văn chỉ giới hạn trong mối quan hệ tuyến tính

P X =P Y = X

Xét hai biến X và Y, trong đó Y chỉ nhận hai giá trị 0 và 1 còn giá trị của X ảnh hưởng đến giá trị của Y Gọi là xác suất có điều kiện

của Y = 1 khi X xảy ra Giả sử ( ) P X có m ối quan với biến X, nhưng ta không thể

tìm trực tiếp mối quan hệ này vì ( )P X

P X odds P X

thuộc đoạn [0,1] trong khi X là tùy ý Bởi

vì có mối quan hệ với ( )P X và có giá trị bất kỳ (xem hình 2.1) nên ta có thể thay thế mối quan hệ giữa ( )P X và X bằng mối quan

Ngày đăng: 23/10/2020, 22:35

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Đậ u Th ế C ấ p, Nguy ễn Đ ình Huy, Xác su ấ t và th ố ng kê , Đạ i h ọ c Qu ố c Gia TP.HCM, 2003 Sách, tạp chí
Tiêu đề: Xác su ấ t và th ố ng kê
Tác giả: Đậ u Th ế C ấ p, Nguy ễn Đ ình Huy
Nhà XB: Đạ i h ọ c Qu ố c Gia TP.HCM
Năm: 2003
[2] Đào Hữ u H ồ , Xác su ấ t th ố ng kê , Đạ i h ọ c Qu ố c Gia Hà N ộ i, 2001 Sách, tạp chí
Tiêu đề: Xác suất thống kê
Tác giả: Đào Hữu Hồ
Nhà XB: Đại học Quốc Gia Hà Nội
Năm: 2001
[3] T ống đ ình Qu ỳ , Giáo trình xác su ấ t th ố ng kê , NXB Đạ i h ọ c Qu ố c Gia Hà N ộ i 03- 2003 Sách, tạp chí
Tiêu đề: Giáo trình xác suất thống kê
Nhà XB: NXB Đại học Quốc Gia Hà Nội 03- 2003
[4] Hoàng Tr ọ ng, Chu Nguy ễ n M ộ ng Ng ọ c, Th ố ng kê ứ ng d ụ ng trong kinh t ế xã h ộ i, NXB th ố ng kê, 2007.B. Ti ế ng Anh Sách, tạp chí
Tiêu đề: Thống kê ứng dụng trong kinh tế xã hội
Tác giả: Hoàng Trọng, Chu Nguyễn Mộng Ngọc
Nhà XB: NXB thống kê
Năm: 2007
[5] Joseph L.Fleiss, Bruce levin, Statistical methods for rates and proportions, John Wiley &amp; Sons, 2003 Sách, tạp chí
Tiêu đề: Statistical methods for rates and proportions
[6] Morris H. Degroot, Probability and Statistics, Addison Wesley, 1975 Sách, tạp chí
Tiêu đề: Probability and Statistics

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w