1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn tốt nghiệp một số mô hình hồi quy đặc biệt

68 16 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Một Số Mô Hình Hồi Quy Đặc Biệt
Tác giả Nguyễn Thị Nguyệt Thắm
Người hướng dẫn ThS. Võ Văn Tài
Trường học Trường Đại Học Cần Thơ
Chuyên ngành Toán Ứng Dụng
Thể loại Luận văn tốt nghiệp
Năm xuất bản 2010
Thành phố Cần Thơ
Định dạng
Số trang 68
Dung lượng 622,82 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Ngày nay, hệ số tương quan và hồi quy được ứng dụng rộng rãi đóng vai trò quan trọng, không thể thiếu trong dự báo ngành kinh tế, các mô hình trong chuẩn đoán y khoa, dự báo trong thống

Trang 1

LU ẬN VĂN TỐT NGHIỆP ĐẠI HỌC

Giáo Viên Hướng Dẫn

Sinh Viên Th ực Hiện

B ộ Môn Toán Toán Ứng Dụng K32

Trang 2

MỤC LỤC

- -

PH ẦN MỞ ĐẦU 1

1.Giới thiệu vấn đề nghiên cứu 1

2 Bố cục của luận văn 1

Chương 1 HỒI QUY PHỔ BIẾN 3

1.1 GIỚI THIỆU 3

1.2 SỰ TƯƠNG QUAN CỦA HAI BIẾN ĐỊNH LƯỢNG 3

1.2.1 Hệ số tương quan đơn 3

1.2.2 Tỷ tương quan 6

1.3 HỒI QUY TUYẾN TÍNH 9

1.3.1 Hồi quy tuyến tính đơn 9

1.3.2 Hồi quy tuyến tính bội 12

1.4 MỘT SỐ DẠNG HỒI QUY PHI TUYẾN 17

1.5 PHẦN MỀM R TRONG PHÂN TÍCH HỒI QUY 18

1.5.1 Giới thiệu phần mềm R 18

1.5.2 Sử dụng phần mềm R trong phân tích tương quan 19

15.3 Sử dụng phần mềm R trong phân tích hồi quy 20

Chương 2 HỒI QUY CÓ BIẾN ĐỊNH TÍNH 26

2.1 GIỚI THIỆU 26

2.2 SỰ TƯƠNG QUAN CỦA CÁC BIẾN ĐỊNH TÍNH 26

2.2.1 Khái niệm 26

2.2.2 Tương quan của biến định tính 28

2.3 HỒI QUY CÓ BIẾN ĐỊNH TÍNH 35

2.3.1 Quy ước giá trị cho biến định tính 35

2.3.2 Xây dựng đường hồi quy mẫu 35

C hương 3 HỒI QUY DẠNG HÀM MŨ VÀ LOGAGIT 42

3.1 GIỚI THIỆU 42

Trang 3

3.2 HỒI QUY DẠNG HÀM MŨ 42

3.2.1 Mô hình 42

3.2.2 Hàm mũ trong dự báo dân số 43

3.2.3 Hàm mũ trong dự báo sinh trưởng lâm nghiệp 46

3.3 HỒI QUY LOGISTIC 50

3.3.1 Odds của một biến cố 50

3.3.2 Hồi quy logistic nhị phân đơn giản 50

3.3.3 Hồi quy logistic bội 54

3.4 HỒI QUY POISSON 56

3.4.1 Mô hình 57

3.4.2 Ước lượng hệ số hồi quy 57

3.4.3 Hồi quy Poisson bội 59

3.4.4 Ý nghĩa hệ số của đường hồi quy 59

PH ẦN KẾT LUẬN 62

TÀI LI ỆU THAM KHẢO 63

Trang 4

trọng cho tôi trong suốt quá trình học tập

Xin cám ơn Cô cố vấn học tập Dương Thị Tuyền, người đã dìu dắt, hướng

dẫn và có những lời khuyên bổ ích, chân thành mà Cô dành cho chúng tôi trong

suốt khóa học

Tôi rất cám ơn tập thể lớp Toán ứng dụng K32, những người bạn đã gắn kết cùng tôi trong suốt thời gian học tập, cùng trao đổi kiến thức để cùng nhau hoàn thành tốt chương trình học

Sau cùng, tôi xin kính gởi đến Gia đình tôi cùng những người thân lòng biết

ơn, lòng kính trọng sâu sắc nhất Nơi đã cho tôi niềm tin, sự động viên, hỗ trợ, là

chỗ dựa vững chắc cho tôi trong những tháng ngày ở giảng đường đại học

Mặc dù, tôi đã có nhiều cố gắng hoàn thành luận văn bằng tất cả nhiệt huyết và khả năng của mình, nhưng do kiến thức còn hạn chế nên không tránh

những thiếu sót, rất mong nhận được sự đóng góp quý báu của quý Thầy Cô và các bạn

Xin chân thành cảm ơn

Cần Thơ, tháng 5 năm 2010 Sinh viên thực hiện

Nguyễn Thị Nguyệt Thắm

Trang 5

PHẦN MỞ ĐẦU

1 Gi ới thiệu vấn đề nghiên cứu

Từ giữa thế kỷ 19, khái niệm về hệ số tương quan (correlation) được ra đời

bởi huân tước Francis Galton (1886), một nhà toán học và đồng thời là một bác

sĩ Ông đã đưa ra những khái niệm đầu tiên về tương quan khi nghiên cứu những

tập tính về chiều cao của hai thế hệ Ông cũng là cha đẻ của thuật ngữ “Hồi quy” (regression) Về sau, những khái niệm về tương quan và hồi quy mà Galton đưa

ra đã được nhà toán học Karl Pearson phát triển và đỉnh cao của nó là sự ra đời

của hệ số tương quan mang tên ông (hệ số tương quan Pearson) Ngày nay, hệ số tương quan và hồi quy được ứng dụng rộng rãi đóng vai trò quan trọng, không

thể thiếu trong dự báo ngành kinh tế, các mô hình trong chuẩn đoán y khoa, dự báo trong thống kê dân số, và các mô hình sinh trưởng trong sinh học…

Luận văn này tổng kết các mô hình hồi quy đã được sử dụng Từ các mô hình hồi quy phổ biến như hồi quy tuyến tính đơn và bội, đến các mô hình hồi quy phức tạp, đặc biệt hơn như hồi quy có biến định tính, hồi quy dạng hàm mũ,

dạng hàm logarit,… Luận văn cũng trình bày cách sử dụng phần mềm R trong

phân tích tương quan và các mô hình hồi quy

2 B ố cục của luận văn

Luận văn gồm có phần mở đầu, phần nội dung, phần kết luận và tài liệu tham khảo Phần nội dung gồm 3 chương:

Chương 1: Chương này tìm mối tương quan giữa các đại lượng v à tìm các

hệ số thể hiện sự tương quan đó như: hệ số tương quan đơn, tỷ tương quan,… Chương này cũng xây dựng các mô hình hồi quy phổ biến như: mô hình hồi quy đơn, mô hình hồi quy bội hay một số dạng hồi quy phi tuyến thông dụng khác… được áp dụng với dữ liệu định lượng

Chương 2: Xây dựng các mô hình hồi quy khi dữ liệu của chúng ta có sự

xuất hiện của các biến định tính Việc xây dựng mô hình này có sự khác biệt nhưng chủ yếu vẫn dựa vào cách xây dựng các mô hình hồi quy phổ biến

Trang 6

Chương 3: Trong chương 3 chúng ta sẽ thiết lập các mô hình hồi quy đặc

biệt khác nhằm giúp cho việc dự báo chính xác hơn khi các mô hình hồi quy khác không làm được hay có độ chính xác không cao Đó là các dạng hồi quy hàm mũ, hàm logistic và Poisson

Trang 7

liệu là biến định tính thì sự tương quan giữa các đại lượng được tính dựa trên nền

tảng là sự tương quan của biến định lượng Khi giữa các đại lượng có sự tương quan với nhau, chúng ta có thể xây dựng được đường hồi quy để thể hiện mối quan hệ đó Từ đó có thể dự báo được biến khó quan sát, khó đo được qua những

biến có thể quan sát và đo được Có nhiều mô hình hồi quy khác nhau đã được thiết lập để diễn tả những quan hệ khác nhau của cuộc sống, tuy nhiên chúng đều được xây dựng dựa trên các mô hình hồi quy phổ biến như hồi quy tuyến tính,

hồi quy phi tuyến quen thuộc Vì vậy để xem xét một số mô hình hồi quy đặc biệt trong các chương sau, chương này chúng tôi giới thiệu về những mô hình hồi quy

phổ biến

1.2 S Ự TƯƠNG QUAN CỦA HAI BIẾN ĐỊNH LƯỢNG

1.2.1 H ệ số tương quan đơn

Trong nhiều bài toán người ta quan tâm đến mối quan hệ của hai hay nhiều

biến ngẫu nhiên Giả sử có hai biến ngẫu nhiên X và Y Vấn đề đặt ra là có hay

không mối quan hệ phụ thuộc giữa X và Y? Nếu X và Y độc lập ta có thể xét

riêng từng biến, còn nếu X và Y phụ thuộc thì sự phụ thuộc và mức độ phụ thuộc như thế nào? Trong thực tế, mối quan hệ phổ biến của X và Y thường là quan hệ

Trang 8

tuyến tính và tham số đặc trưng cho mối quan hệ này được gọi là hệ số tương

Y X Cov ,

(1.1) Trong đó

Var(X), Var(Y) l ần lượt là phương sai của X và Y,

Cov(X,Y) là hiệp phương sai giữa hai biến X và Y và được xác định bởi

công thức sau:

(X Y) E[ (X E( )X ) (Y E( )Y ) ] E( ) ( ) ( )X E X Y E Y

C , =ov − = − Đặt σxy =Cov(X,Y)=σyx.Vì σx = V a r ( X) và σy = V a r (Y) nên công thức

(1.1) được viết lại như sau:

ρxy=

y x

xy

σσ

σ

b) Ý ngh ĩa

Hệ số tương quan của hai biến là đại lượng dùng để thể hiện chiều

hướng và độ mạnh hay yếu của mối quan hệ tuyến tính giữa hai biến đó ρxy

càng gần 1 thì mối quan hệ tuyến tính càng chặt và ρxy càng gần 0 thì mối quan

hệ tuyến tính càng yếu đi

c) Tính ch ất

Hệ số tương quan ρxy có các tính chất sau:

i) − 1 ≤ρxy ≤ 1

ii) ρxy <0: X và Y có mối liên hệ tuyến tính nghịch ( ρ= -1 thể hiện một

mối liên hệ tuyến tính nghịch hoàn toàn)

iii) ρxy >0: X và Y có mối liên hệ tuyến tính thuận (ρ= 1 thể hiện một mối

liên hệ tuyến tính thuận hoàn toàn)

iv) ρxy = 0: X và Y không có mối liên hệ tuyến tính

Trang 9

d) H ệ số tương quan tuyến tính mẫu R

Trong thực tế, chúng ta không biết được chính xácσxyx, σy để tính hệ

số tương quan ρ xy vì khi đó ta phải biết luật phân phối xác suất của các đại lượng

ngẫu nhiên Do đó, ta phải ước lượng các tham số của tổng thể trong công thức (1.2) bởi các tham số mẫu đặt trưng Giả sử từ tổng thể ta chọn ra một mẫu gồm

n ph ần tử Quan sát hai biến ngẫu nhiên X và Y trên n phần tử mẫu, ta có số liệu

cụ thể: (x1,y1), (x2,y2),…, (x n ,y n

,1

y n

i y x n

xy

1

1

Khi đó σxyx, σy lần lựợt được ước lượng bằng S xy, S x , S y như sau:

S y(x i x) (n x y x y)

n

i i

( ) 2

1 1

2 1

i i n

i i

n x x

x S

( ) 2

1 1

2 1

i i n

i i

n y y

y S

Như vậy hệ số tương quan được xác định bởi công thức (1.2) sẽ được ước

lượng bằng hệ số tương quan mẫu (kí hiệu: R)

y x

x y

S S

i i n

i i n

i i n

i i

S S

y x xy n

x n x y

n y

y x xy n

2 2

1 1

(1.4)

Ví dụ 1.1 Bảng sau đây cho số liệu về mức chi tiêu dùng (y–đôla/tuần) và thu

nhập hàng tuần (x–đôla/tuần) của một mẫu gồm 10 hộ gia đình Giả sử x và y có

mối quan hệ tương quan tuyến tính Hãy tìm hệ số tương quan giữa x và y

Trang 10

Ta có n = 10, 1700

10 1

=

=

i i

10 1

=

=

i i

10 1

2 =

=

i i

10 1

2 =

=

i i

029337000016800

10

1700322000

10

1110132100

x1111702055010

Hệ số tương quan đơn chỉ để đo mức độ phụ thuộc tuyến tính giữa hai

biến ngẫu nhiên X và Y Giữa hai đại lượng ngẫu nhiên X và Y có thể còn có sự

phụ thuộc phi tuyến Do đó nếu hệ số tương quan giữa X và Y nhỏ hay thậm chí

bằng không thì nếu ta kết luận giữa X và Y không có sự tương quan nào là không

chính xác, bởi vì giữa chúng vẫn có thể có một hình thức tương quan khác Vì

vậy, người ta muốn đưa ra một đại lượng mà nó có thể đo mức độ tương quan bất

kỳ giữa hai biến ngẫu nhiên Đại lượng đó được gọi là tỷ tương quan

/ 2

))(()(

))(())/(()

(

))/((

Y E Y

E

Y E X

Y E E Y

Var

X Y E Var

X Y

Trang 11

b) Ý ngh ĩa

Tỷ số tương quan của hai đại lượng là con số đặc trưng cho mức độ liên

hệ của hai đại lượng này theo một hình thức nào đó Tỷ số tương quan càng lớn thì hai đại lượng càng có liên hệ chặc chẽ với nhau và ngược lại

suất bằng 1, có nghĩa là những biến động của X không ảnh hưởng gì đến Y Khi

đó quan hệ phụ thuộc hàm giữa X và Y không rõ rệt

η −ρ đo mức độ phụ thuộc phi tuyến giữa Y và X Nếu hiệu

số này càng lớn thì sự tương quan phi tuyến giữa Y và X càng mạnh và ngược lại

ii) Nếu 2 2

/

Y X

η =ρ thì ngoài mối liên hệ tuyến tính, Y không có mối liên

hệ phi tuyến nào nữa đối với X

iii) Nếu 2 2

/

Y X

η ≠ρ nhiều thì ngoài mối liên hệ tuyến tính Y còn có mối liên

hệ phi tuyến đối với X

d) T ỷ số tương quan mẫu

Giả sử ta có mẫu ngẫu nhiên cỡ n các quan trắc về véc tơ hai chiều

n i

(1) (2) ( ) ( ) (1) (2) ( ) ( )

Trang 12

Bước 2: Đếm nij là số phần tử mẫu (x i,y i), trong đó

n n

k

i l

1 , ∑ ( )

1

2

, ,1,

y n n

Bước 5: Tính R2Y/X bởi công thức

j

j ij i

X Y

y n n y

n

y n n y

n n

R

1

2

1 2

1

2

1 2

1 /

2

1)(

11

i i ij j

X Y

x n n x

n

x n n x

n n

R

1

2

1 2

1

2

1 2

1 /

2

1)(

11

Ta lập bảng tính tỷ tương quan R2Y/X như sau:

B ảng 1.1 Bảng tính tỷ số tương quan mẫu R2Y/X

i

y

n

n (.)… (.)… (.) (Tổng hàng)

Ví dụ 1.2 Cho hai biến ngẫu nhiên X, Y Ta tiến hành 216 quan trắc độc lập về

hai biến ngẫu nhiên này được kết quả như sau:

x( )i : 1 2 2 3 3 4 4 5 5

y( )j : 14 14 15 15 16 16 17 17 18

n : 10 84 12 7 28 6 6 9 12

Trang 13

Hãy tính tỷ tương quan của Y theo X

Gi ải

Ta thực hiện giải bài toán theo các bước đã trình bày ở trên như sau:

Bước 1: Sắp xếp x iy i thành dãy tăng dần

y n n

3330

x 216

151764

3330

x 216

151737

2

2 /

R

Nên R Y/X = 0.936694 =0.9678295

Nh ận xét: Ta có R Y/X =0.9678295, có nghĩa là Y có mối quan hệ rất chặt chẽ đối

với X

1.3 H ỒI QUY TUYẾN TÍNH

1.3.1 H ồi quy tuyến tính đơn

a) Mô hình

Trang 14

Mục đích của phân tích hồi quy là mô hình hóa mối liên hệ giữa các đại

lượng bằng một mô hình toán học tối ưu nhất Giả sử mỗi giá trị quan sát của Y

có thể được biểu diễn theo mô hình

ε là thành phần ngẫu nhiên, không chệch giữa Y và E(Y/X), ε có

thể bằng không, hoặc lớn hơn không, hoặc nhỏ hỏn không khi các giá trị nằm ngay, hoặc phía trên, hoặc phía dưới đường hồi quy

Chúng ta giả sử E(ε ) = 0 và Var(ε ) = σ hay ε ~N(0,2 σ ) và ε là những 2

biến ngẫu nhiên không tương quan nhau Khi đó, mô hình (1.6) được gọi là mô hình hồi quy tuyến tính đơn

b) Xây d ựng mô hình hồi quy mẫu

Khi chúng ta có n c ặp dữ liệu (x1, y1), (x2, y2), …, (x n, y n

0

β

), để ước lượng các tham số , β1, ta sử dụng phương pháp bình phương cực tiểu

1 1

2 1

n

i

i i n

i

Chúng ta cần tìm βˆ0, βˆ1 sao cho L(βˆ 0,βˆ 1) nhỏ nhất Vì vậy hai giá trị này chính

là nghiệm của hệ phương trình

ˆ2

ˆ

ˆ2

ˆ

1

1 0 1

1

1 0 0

i n

i

i i

n

i

i i

x x y

L

x y

L

βββ

βββ

Trang 15

Hệ phương trình trên tương đương

i i

n i i i n

i i n

i i

y n

x

y x x

x

1 0 1 1

1

0 1

1 1 2

ˆˆ

ˆˆ

ββ

ββ

Đây là hệ phương trình tuyến tính bậc nhất với hai ẩn βˆ0, βˆ1 Giải hệ phương trình này ta được

i i

n

i

n

i i i

n

i

n

i i n

i i i

i

x y

n

x x

n

y x

y x n

1 1 1

0

1

2

1 2

1

ˆ1

ˆ

ˆ

ββ

s S

x n x

y x xy n

x

xy n

i i n

i i

^ 1

^ 0

2

1 1

2

^ 1

1

ββ

2 2

i i n

i i

n x x

x n

n

i i

Ví d ụ 1.3 Xét lại ví dụ 1.1 hãy tìm mô hình hồi quy mẫu cho mức chi tiêu dùng

theo thu nhập của 10 hộ gia đình

Gi ải

Ta có n = 10, 1700

10 1

=

=

i i

10 1

=

=

i i

10 1

2 =

=

i i

10 1

2 =

=

i i

Trang 16

1700322000

111.1702055010

^ 0

2

^ 1

ββ

Vậy mô hình hồi quy tuyến tính mẫu của mức chi tiêu dùng theo thu nhập là

yˆ =24.4545+0.5091x

Nh ận xét: Nếu thu nhập hàng tuần của các hộ gia đình tăng 1 đôla/tuần thì mức

chi tiêu dùng của các hộ gia đình tăng khoảng 0.5091 đôla/tuần

1.3.2 Hồi quy tuyến tính bội

a) Mô hình

Trong mô hình hồi quy tuyến tính đơn, chúng ta chỉ đơn thuần xây dựng

mối quan hệ tuyến tính của hai biến X và Y Nhưng trong thực tế, chúng ta thường gặp không chỉ biến X ảnh hưởng đến Y mà còn các biến khác cũng ảnh hưởng đến Y Khi đó để dự báo Y được tốt chúng ta cần xây dựng mô hình hồi

quy bội của Y qua tất cả các biến

Giả sử Y phụ thuộc vào k biến độc lập X1, X2,…, X k

εβ

ββ

Y 0 1 1 2 2

, mỗi giá trị quan sát

của Y có thể được biểu diễn theo mô hình

………

là hệ số dốc của Y theo biến X k khi các biến X1, X2,…, X k-1

ε

không đổi,

là thành phần ngẫu nhiên với E(ε ) = 0 và Var(ε ) = σ 2

Nếu ε là biến ngẫu nhiên không tương quan thì mô hình (1.9) được gọi là mô hình hồi quy tuyến tính bội

b) Xây d ựng mô hình hồi quy mẫu

Trang 17

Giả sử chúng ta có n quan sát, mỗi quan sát có k giá trị (y i , x 1i , x 2i, …, x ki

i

k i

y

2 1

1 0

n

k k

x x

x

x x

x

x x

x X

1

.

1

1

2 1

2 1

Chúng ta vẫn dùng phương pháp bình phương tối tiểu để ước lượng các tham sốβ0, β1, ,βk bằng các hệ số βˆ 0, βˆ1,…,βˆk Mô hình hồi quy tuyến tính

bội của mẫu được sử dụng để ước lượng mô hình hồi quy tổng thể là

yˆi βˆ βˆ x i βˆk x ki

1 1

0 + + +

= (1.11) Phương trình (1.11) cũng được viết dưới dạng ma trận

Trong đó yˆ , X, βˆ lần lượt là ma trận cỡ (n x 1), (n x p) và (p x 1)

Bình phương giữa giá trị thực tế và lý thuyết được xác định như sau:

1

1 1 0 2

1

ˆ

ˆˆ

i n

i

y

Chúng ta cần tìm các hệ sốβˆ 0, βˆ1, …,βˆk sao cho L đạt giá trị cực tiểu

Ta ký hiệu XT, βˆT, ε là các ma trT ận chuyển vị của X, βˆ , ε thì L được

viết lại như sau:

Trang 18

ε ε ε ( βˆ) ( βˆ) ( βˆ )( βˆ)

1

2

X y X

y X y X y

i

i ki n

i

i ki n

i

ki

n

i ki i n

i

i i n

i i n

i

i

n

i ki n

i i n

i i

T

x x

x x

x x

x x x

x x

x

x x

x n

X

X

1 2 1

2 1

1 1

1 1 1

2 1 1

2 1 1

1

1 1

2 1

+++

+++

n

i i

n kn k

k

n n

n n

n

i i

T

S

S S y

y x y

x y

x

y x y

x y

x

y x y

x y

2 2 1 1

2 2

22 1 21

1 2

12 1 11

1

là ma trận cỡ (p x 1)

Mặc khác ta cũng có thể tìm các hệ số của đường hồi quy tuyến tính bội từ

phương trình (X T X)βˆ = X T y Cụ thể giải phương trình

n

i i

k n

i ki n

i

i ki n

i

i ki n

i ki

n

i ki i n

i

i i n

i i n

i i

n

i ki n

i i n

i i

S

S S y

x x

x x

x x

x x x

x x

x

x x

x n

ˆ

ˆ ˆ

0

1 2 1

2 1

1 1

1 1 1

2 1 1

2 1 1

1

1 1

2 1

1

β

ββ

c)Ý ngh ĩa của hệ số hồi qui tuyến tính bội

Trang 19

Xét mô hình hồi quy bội

Y =β0 +β1x1+β2x2 + +βk x k

Chúng ta nhận thấy E(Y) = β khi x i

i i

= 0 và

Từ kết quả này có thể giải thích ý nghĩa của βi (∀i= 1 ,k) như sau: trong

điều kiện các nhân tố khác không đổi, khi x i tăng lên một đơn vị (theo đơn vị

của x i ) thì Y sẽ tăng bình quân βi đơn vị (theo đơn vị của Y)

Ví d ụ 1.4 Nghiên cứu về mối liên hệ giữa độ tuổi, tỉ trọng cơ thể được ước tính

STT

Độtuổi

(age)

x

BMI (bmi)

x

1i

Cholesterol (chos)

x

BMI (bmi)

x

1i

cholesterol (chos)

x

1i

Cholesterol (chos)

Trang 20

=

i i

18 1

18 1

1 =

=

i i

i y

18 1 2

18 1

2 =

=

i i

i y x

Dựa vào các công thức tính ma trận X T X và ma trận X T y ở trên ta tính được

16669 2

420

7 16669 30287

699

2 420 699

0 002602584

0 441437240

0

002602584

0 0006096853

0 0370797600

0

441437240

0 0370797600

0 92073200

6 2511

Trang 21

6 2511 60

023239116

0 002602584

0 441437240

0

002602584

0 0006096853

0 0370797600

0

441437240

0 0370797600

0 92073200

0

05405192

0

45545759

0 ˆ

β

Vậy mô hình hồi quy bội thể hiện độ cholesterol trong máu theo độ tuổi, tỉ trọng

cơ thể của 18 đối tượng nam là

yˆ =0.45545759+0.05405192.x1+0.03336380.x2

Nh ận xét: Trong điều kiện độ BMI của các đối tượng không đổi, nếu độ tuổi

tăng 1 tuổi thì độ cholesterol trong máu tăng khoảng 0.054 mg/l Và trong điều

kiện độ tuổi của các đối tượng không đổi, nếu độ BMI tăng 1 kg/m2

Y 1 2

2 1

thì độ cholesterol trong máu tăng khoảng 0.03336 mg/l

1.4 M ỘT SỐ DẠNG HỒI QUY PHI TUYẾN

Tùy theo mối quan hệ giữa đại lượng Y với các đại lượng độc lập khác mà

mô hình quan hệ được biễu diễn dưới nhiều hình thức khác nhau Các mô hình

được trình bày ở trên đã thể hiện hầu hết các mối quan hệ trong thực tế Tuy

nhiên ngoài những mô hình hồi quy thông dụng còn rất nhiều mô hình hồi quy

phi tuyến khác Có thể kể ra một số trường hợp cụ thể sau:

i) H ồi quy dạng lũy thừa

Phương trình hồi quy tổng thể là

iii) H ồi quy lượng giác

Ta có mô hình lượng giác tổng thể của hai biến X và Y là

Y =β0 +β1sinX +β2cosX +ε (1.16)

iv) H ồi quy parabol

Trang 22

Ta có mô hình parabol Y =aX2 +bX +c+ε (1.17)

v) H ồi quy hyperbol bội

Ta có mô hình hyperbol bội là

=β + β + β + + β +ε

k

k

X X

X

2 2 1

1

vi) Hồi quy đa thức bậc k một biến

Ta có mô hình đa thức bậc k một biến là

=β +β +β + +β k

k X X

X

Chú ý:

a) Các mô hình (1.14), (1.15), (1.17), (1.18), (1.19) có thể đưa về dạng tuyến tính Cụ thể

=c aT1 bT2Y

thì (1.17) trở thành

dụng phần mềm R Trong phần tiếp theo (phần 1.5.) chúng tôi sẽ trình bày chi

tiết về vấn đề này

1.5 PH ẦN MỀM R TRONG PHÂN TÍCH HỒI QUY

Trang 23

1.5.1 Gi ới thiệu phần mềm R

Ngày nay, có thể nói rằng kĩ năng phân tích số liệu bằng máy tính là một

kĩ năng không thể thiếu của một nhà nghiên cứu Trước những công trình nghiên

cứu với hàng ngàn số liệu, vấn đề đặt ra là làm thế nào để phân tích những số liệu

một cách khoa học Khoa học thống kê cung cấp cho chúng ta một số mô hình và phương pháp có ích cho việc phân tích số liệu

Các phần mềm thông dụng được sử dụng để phân tích số liệu và vẽ biểu đồ như: Excel, SPSS,… là những phần mềm được sử dụng cho giảng dạy và nghiên

cứu Tuy nhiên chi phí để sử dụng các phần mềm này tương đối đắt tiền (có khi lên đến hàng trăm ngàn đô-la mỗi năm), một số trường đại học ở các nước đang phát triển (và ngay cả ở một số nước đã phát triển) không có khả năng tài chính

để sử dụng chúng một cách lâu dài Nên trong một bài báo qu an trọng về tính toán thống kê của hai nhà thống kê học Ross Ihaka và Robert Gentleman thuộc Trường đại học Auckland, New Zealand năm 1996 đãsáng tạo ra một ngôn ngữ

mới cho phân tích thống kê và họ đặt tên là R Sáng kiến này được rất nhiều nhà

thống kê học trên thế giới truy cập và tải toàn bộ phần mềm để sử dụng vì nó hoàn toàn miễn phí

Phần mềm R cũng được sử dụng như là một ngôn ngữ máy tính đa năng Chúng ta có thể sử dụng R cho nhiều mục tiêu khác nhau, từ tính toán đơn giản, toán học giải trí, tính toán ma trận, cho đến các phân tích xác suất thống kê phức

tạp Ngoài ra, nó còn có thể sử dụng để lập trình ra các phần mềm chuyên môn

nhằm thực hiện một công việc cụ thể nào đó, đặc biệt R có thể phân tích sự tương quan giữa các đại lượng và xây dựng các mô hình hồi quy để dự báo Đa số các ứng dụng của R là rất sát với nội dung kiến thức toán kinh tế, y khoa Từ việc

chọn mẫu sao cho thật ngẫu nhiên cho tới phân tích các luật phân phối xác suất hay việc ước lượng và kiểm định giả thiết và dự báo Nhiều vấn đề phức tạp của toán kinh tế, y khoa đã được đơn giản hoá rất nhiều

Trong phần này, chúng ta nghiên cứu về ứng dụng của phần mềm R này để phân tích tương quan và hồi quy

1.5.2 S ử dụng phần mềm R trong phân tích tương quan

H ệ số tương quan đơn (hệ số tương quan Pearson)

Trang 24

Để sử dụng phần mềm R trong phân tích tương quan chúng ta cần nhập số

liệu vào R với những lệnh thông thường sau:

i) Tạo số thứ tự bằng lệnh

> id <- 1: n

ii) Khai báo các biến cần sử dụng theo đề bài bằng cách sử dụng function c

(trong ngoặc là số liệu của biến cần khai báo)

> x i <- c (x1, x2, …, x n )

> y i <- c (y1, y2, …, y n )

iii) Hợp các biến tạo thành bộ dữ liệu của đề theo lệnh:

> data <- data.frame(id, x i , y i )

iv) Để ước tính hệ số tương quan giữa các biến x i và y i, chúng ta sử dụng

hàm cor (vi ết tắc từ correlation) như sau:

> cor(x i , y i )

Ví d ụ 1.5 Trong ví dụ 1.1 sử dụng phần mềm R ta làm như sau:

> id <- 1: 10 > x i <- c (80, 100, 120, 140, 160, 180, 200, 220, 240, 260) > y i <- c (70, 65, 90, 95, 110, 115, 120, 140, 155, 150) > data <- data.frame(id, x i , y i )

> cor(x i , y i )

Kết quả: [1] 0.9808474

Hay hệ số tương quan R = 0.9808474

1.5.3 S ử dụng phần mềm R trong phân tích hồi quy

a) Mô hình h ồi quy tuyến tính đơn

i) Nhập số liệu vào R với những lệnh thông thường như phần 1.5.2

ii) Dùng hàm lm (vi ết tắc của từ linear model) và đặt tên là reg (viết tắt từ

regression) như sau:

> reg <- lm (y i ~ x i ) > reg

Chú ý:

Chúng ta có thể vẽ đường biểu diễn cho mô hình hồi quy tuyến tính đơn

bằng lệnh plot và lệnh abline

Trang 25

> plot (yi ~ x i , xlab="tên b ến x i ", ylab="tên bi ến y i ", main="tên bi ểu đồ", pch=16)

> abline (reg)

Ví d ụ 1.6 Trong ví dụ 1.1 sử dụng phần mềm R để tìm mô hình hồi quy ta làm

như sau:

>reg <- lm (y i ~ x i ) > reg

0 =

β

, hay là mức chi tiêu dùng của các hộ gia đình được mô tả theo thu nhập hàng tuần Kết quả hàm lm cho thấy và βˆ1 = 0 5091 Ta có thể xây dựng được mô hình hồi quy tuyến tính mẫu để ước lượng mức chi tiêu dùng của các hộ gia đình theo thu nhập hàng tuần là

yˆ =1.08922+0.05779x

Hình 1.1 Mối liên hệ giữa mức chi tiêu dùng (Y–đôla/tuần) và thu nhập

hàng tuần (X–đôla/tuần) của 10 hộ gia đình

b) Mô hình h ồi quy tuyến tính bội

Trang 26

i) Để sử dụng phần mềm R trong phân tích hồi quy thì trước hết chúng ta

cũng nhập số liệu vào R với những lệnh thông thường như:

ii) Hợp các biến tạo thành bộ dữ liệu của đề theo lệnh

> y i <- c (3.5, 1.9, 4.0, 2.6, 4.5, 3.0, 2.9, 3.8, 2.1, 3.8, 4.1, 3.0, 2.5, 4.6, 3.2, 4.2, 2.3, 4.0)

Vậy mô hình hồi quy bội thể hiện độ cholesterol trong máu theo độ tuổi, tỉ trọng

cơ thể của 18 đối tượng nam là

yˆ =0.45545759+0.05405192x1+0.03336380x2

c) H ồi quy đa thức bậc k một biến

Trang 27

Để sử dụng phần mềm R trong phân tích hồi quy đa thức thì trước hết chúng ta thực hiện các bước nhập số liệu giống như mô hình hồi quy tuyến tính đơn, sau đó dùng lệnh

i) Đa thức bậc nhất (hồi quy tuyến tính đơn)

Chúng ta có thể vẽ 3 đường biểu diễn cho mô hình hồi quy tuyến tính

đơn, mô hình phương trình bậc hai, mô hình phương trình bậc ba bằng lệnh plot

và lệnh abline để so sánh ba mô hình trên ta làm như sau:

# Lặp lại các mô hình trên

> smodel <- lm (y i ~ x i )

> quadratic <- lm (y i ~ poly( x i , 2)) > cubic <- lm (y i ~ poly( x i , 3))

# Tạo nên một biến x inew với nhiều số gần nhau

> x inew <- (0:160)/10

# Tính giá trị tiên đoán của y i

> y2 = predict (quadratic, data.frame (x i = x inew ))

> y 3 = predict (cubic, data.frame (x i = x inew ))

# Vẽ ba đường biểu diễn cho mô hình hồi quy tuyến tính, bậc hai và bậc ba

> plot (y i ~ x i , main="tên bi ểu đồ", sub = “smodel, quadratic and cubic fits”)

> abline (smodel, col = “black”)

> lines (x inew , y2, col = “ blue”, lwd=5)

> lines (x inew , y3

STT

, col = “ red”, lwd=9)

Ví dụ 1.8 Hãy tìm mối liên hệ giữa hàm lượng gỗ cứng (x) và độ căng (y) của

vật liệu Ta xét 19 vật liệu khác nhau với nhiều hàm lượng gỗ cứng được thử nghiệm để đo độ căng mạnh của vật liệu, kết quả được tóm lược trong bảng sau:

Trang 29

Nghĩa là ta có mô hình hồi phương trình bậc hai

2

40.4530.3218.34

57.1440

.4530.3218.34

y= + − −

, 3)3 34.18 32.30 -45.40 -14.57

Nghĩa là ta có mô hình hồi quy đa thức bậc ba

Trang 30

2.2 S Ự TƯƠNG QUAN CỦA CÁC BIẾN ĐỊNH TÍNH

2.2.1 Khái ni ệm

Đặc điểm định tính: Là tính chất của đơn vị tổng thể không có biểu hiện trực

tiếp bằng các con số Nó phản ánh sự hơn kém, tính chất của các đối tượng như

giới tính, nghề nghiệp, tình trạng hôn nhân, dân tộc, tôn giáo, lọai hình doanh nghiệp, …

Thang đo đặc điểm định tính: Người ta thường dùng 2 loại thang đo sau để đo

các đặc điểm định tính

Trang 31

Thang đo định danh : Sử dụng các mã số để phân loại các đối tượng

Ngoài vai trò này, các mã số không mang ý nghĩa nào khác Giữa các con số này không có quan hệ hơn kém, chỉ dùng để đếm tần số xuất hiện của các biểu hiện Thước đo tập trung duy nhất là mode Chúng ta thường hay gặp thang đo định danh trong các câu hỏi về thông tin cá nhân của từng người hay thông tin về doanh nghiệp

Ví dụ 2.1 Tình trạng hôn nhân của Anh/Chị ?

1 Có gia đình 2 Độc thân 3 Ly dị 4 Trường hợp khác

Trả lời câu hỏi này sẽ chọn một trong các mã số 1, 2, 3, 4 Các mã số này là thang đo định danh Các mã số trên cũng có thể thay đổi như sau:

1 Độc thân 2 Có gia đình 3 Ly dị 4 Trường hợp khác

Công ty Ông/Bà đang họat động trong lĩnh vực nào?

1 Sản xuất 2 Xây dựng 3 Dịch vụ 4 Thương mại 5 Khác

Thang đo thứ bậc: Trong thang đo này giữa các biểu hiện của đặc điểm có

quan hệ thứ bậc hơn kém Sự chênh lệnh giữa các biểu hiện không nhất quyết

phải bằng nhau Tham số đặc trưng để đánh giá trong trường hợp này là m ode hay trung vị Chúng ta thường gặp thang đo này trong các câu hỏi dạng so sánh

Ví d ụ 2.2

i) Anh chị hãy xếp hạng các chủ đề sau trên báo Sài Gòn Tiếp Thị tùy theo

mức độ quan tâm (Chủ đề quan tâm nhất thì ghi số 1, quan tâm thứ nhì thì ghi số

2, quan tâm thứ ba thì ghi số 3)

- Thông tin thị trường: -

Trang 32

Khi thang thứ bậc có khoảng cách đều nhau thì nó được gọi là thang đo khoảng Ta hay gặp thang đo này trong các câu hỏi phỏng vấn dạng đánh giá

Ví d ụ 2.3 Xin bạn vui lòng trả lời bằng cách khoanh tròn một con số ở từng

dòng Những con số này thể hiện mức độ bạn đồng ý hay không đồng ý đối với các phát biểu theo quy ước sau: 1.Rất đồng ý … 5.Rất không đồng ý

1.Chương trình đào tạo của trường phù hợp tốt với yêu cầu

3 Phương pháp giảng dạy của Giảng v iên phù hợp với yêu

cầu của từng môn học

1 2 3 4 5

4 Giảng viên có kiến thức sâu về môn học đảm trách 1 2 3 4 5

5 Cách đánh giá cho điểm Sinh viên công bằng 1 2 3 4 5

6 Tổ chức thi cử, giám thị coi thi nghiêm túc 1 2 3 4 5

7 Quy mô lớp học hợp lý cho việc tiếp thu các môn học 1 2 3 4 5

8 Cơ sở vật chấ t nhà trường đáp ứng tốt nhu cầu đào tạo và

học tập

1 2 3 4 5

9 Phòng máy tính đáp ứng tốt nhu cầu thực hành 1 2 3 4 5

10 Thư viện, tài liệu tra cứu học tâp tốt 1 2 3 4 5

2.2.2 Tương quan của biến định tính

Tương quan của 2 biến định tính nhằm để đo lường độ mạnh yếu mối liên

hệ giữa 2 yếu tố được đo bằng 2 thang đo định danh hoặc 1 thang đo định danh

và 1 thang đo khoảng hoặc 2 thang đo khoảng Có nhiều hình thức để tính tương quan của các biến định tính, nhưng thông thường người ta sử dụng các loại tương quan cụ thể sau:

a) H ệ số tương quan hạng Spearman

Bài toán: Có n đối tượng được sắp xếp thành hạng theo 2 yếu tố A

và B như sau:

B ảng 2.1 Các đối tượng trong bài toán tính hệ số tương quan Spearman

Trang 33

Đối tượng Hạng của yếu tố A Hạng của yếu tố B

Công thức : Mức độ liên hệ của hai yếu tố A và B được xác định

bởi hệ số tương quan hạng Spearman Hệ số tương quan hạng này được cho bởi công thức sau:

)1(

)(

B A r

n

i

i i

Chú ý:

i) Hệ số tương quan hạng Spearman có tính chất giống như hệ số tương quan thông thường giữa hai biến định lượng để đánh giá mức đ ộ quan hệ tuyến tính giữa chúng

ii) Nếu việc xếp hạng của hai yếu tố A và B hoàn toàn thuận thì A i – B i

S

r

= 0 nên = 1 Ngược lại nếu việc xếp hạng của hai yếu tố A và B hoàn toàn nghịch

Ví d ụ 2.4 Các thành viên của một nhóm tham gia cắm trại để huấn luyện tinh

thần đồng đội Hai biến để đánh giá là mức độ được yêu mến và mức độ tham gia nhóm Hai biến này được xếp hạng theo ý nghĩa hạng càng nhỏ càng được đánh giá cao

Hạng của mức độ được yêu mến Hạng của mức độ tham gia

Ngày đăng: 24/04/2021, 09:21

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Ph ạm Đại Đồng, Giáo trình th ống kê dân số, NXB Đại học kinh tế quốc dân, 2007 Sách, tạp chí
Tiêu đề: Giáo trình thống kê dân số
Nhà XB: NXB Đại học kinh tế quốc dân
[2] Đặng Hùng Thắng, Th ống kê ứng dụng , NXB Giáo d ục, 2002 Sách, tạp chí
Tiêu đề: Thống kê ứng dụng
Tác giả: Đặng Hùng Thắng
Nhà XB: NXB Giáo dục
Năm: 2002
[3] Nguy ễn Văn Thêm, Bài gi ảng thống kê lâm nghiệp , 2000 Sách, tạp chí
Tiêu đề: Bài giảng thống kê lâm nghiệp
[4] Nguy ễn Văn Tuấn, Bài gi ảng chương trình tập huấn y khoa , 2005 Sách, tạp chí
Tiêu đề: Bài giảng chương trình tập huấn y khoa
Tác giả: Nguyễn Văn Tuấn
Năm: 2005
[5] Nguy ễn Văn Tuấn, Phân tích s ố liệu và biểu đồ bằng R, NXB Khoa h ọc và K ỹ thuật, 2006.B. Ti ếng Anh Sách, tạp chí
Tiêu đề: Phân tích số liệu và biểu đồ bằng R
Tác giả: Nguyễn Văn Tuấn
Nhà XB: NXB Khoa học và Kỹ thuật
Năm: 2006
[6] Joseph L. Fleiss, Bruce levin, Statistical methods for rates and proportions, John Wiley &amp; Sons, 2003 Sách, tạp chí
Tiêu đề: Statistical methods for rates and proportions
Tác giả: Joseph L. Fleiss, Bruce Levin
Nhà XB: John Wiley & Sons
Năm: 2003
[7] Prem S. Mann, Statistics for busimess and economics, John Wiley, 1995. C. Trang Web Sách, tạp chí
Tiêu đề: Statistics for business and economics
Tác giả: Prem S. Mann
Nhà XB: John Wiley
Năm: 1995

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm