Ngày nay, hệ số tương quan và hồi quy được ứng dụng rộng rãi đóng vai trò quan trọng, không thể thiếu trong dự báo ngành kinh tế, các mô hình trong chuẩn đoán y khoa, dự báo trong thống
Trang 1
LU ẬN VĂN TỐT NGHIỆP ĐẠI HỌC
Giáo Viên Hướng Dẫn
Sinh Viên Th ực Hiện
B ộ Môn Toán Toán Ứng Dụng K32
Trang 2
MỤC LỤC
- -
PH ẦN MỞ ĐẦU 1
1.Giới thiệu vấn đề nghiên cứu 1
2 Bố cục của luận văn 1
Chương 1 HỒI QUY PHỔ BIẾN 3
1.1 GIỚI THIỆU 3
1.2 SỰ TƯƠNG QUAN CỦA HAI BIẾN ĐỊNH LƯỢNG 3
1.2.1 Hệ số tương quan đơn 3
1.2.2 Tỷ tương quan 6
1.3 HỒI QUY TUYẾN TÍNH 9
1.3.1 Hồi quy tuyến tính đơn 9
1.3.2 Hồi quy tuyến tính bội 12
1.4 MỘT SỐ DẠNG HỒI QUY PHI TUYẾN 17
1.5 PHẦN MỀM R TRONG PHÂN TÍCH HỒI QUY 18
1.5.1 Giới thiệu phần mềm R 18
1.5.2 Sử dụng phần mềm R trong phân tích tương quan 19
15.3 Sử dụng phần mềm R trong phân tích hồi quy 20
Chương 2 HỒI QUY CÓ BIẾN ĐỊNH TÍNH 26
2.1 GIỚI THIỆU 26
2.2 SỰ TƯƠNG QUAN CỦA CÁC BIẾN ĐỊNH TÍNH 26
2.2.1 Khái niệm 26
2.2.2 Tương quan của biến định tính 28
2.3 HỒI QUY CÓ BIẾN ĐỊNH TÍNH 35
2.3.1 Quy ước giá trị cho biến định tính 35
2.3.2 Xây dựng đường hồi quy mẫu 35
C hương 3 HỒI QUY DẠNG HÀM MŨ VÀ LOGAGIT 42
3.1 GIỚI THIỆU 42
Trang 33.2 HỒI QUY DẠNG HÀM MŨ 42
3.2.1 Mô hình 42
3.2.2 Hàm mũ trong dự báo dân số 43
3.2.3 Hàm mũ trong dự báo sinh trưởng lâm nghiệp 46
3.3 HỒI QUY LOGISTIC 50
3.3.1 Odds của một biến cố 50
3.3.2 Hồi quy logistic nhị phân đơn giản 50
3.3.3 Hồi quy logistic bội 54
3.4 HỒI QUY POISSON 56
3.4.1 Mô hình 57
3.4.2 Ước lượng hệ số hồi quy 57
3.4.3 Hồi quy Poisson bội 59
3.4.4 Ý nghĩa hệ số của đường hồi quy 59
PH ẦN KẾT LUẬN 62
TÀI LI ỆU THAM KHẢO 63
Trang 4trọng cho tôi trong suốt quá trình học tập
Xin cám ơn Cô cố vấn học tập Dương Thị Tuyền, người đã dìu dắt, hướng
dẫn và có những lời khuyên bổ ích, chân thành mà Cô dành cho chúng tôi trong
suốt khóa học
Tôi rất cám ơn tập thể lớp Toán ứng dụng K32, những người bạn đã gắn kết cùng tôi trong suốt thời gian học tập, cùng trao đổi kiến thức để cùng nhau hoàn thành tốt chương trình học
Sau cùng, tôi xin kính gởi đến Gia đình tôi cùng những người thân lòng biết
ơn, lòng kính trọng sâu sắc nhất Nơi đã cho tôi niềm tin, sự động viên, hỗ trợ, là
chỗ dựa vững chắc cho tôi trong những tháng ngày ở giảng đường đại học
Mặc dù, tôi đã có nhiều cố gắng hoàn thành luận văn bằng tất cả nhiệt huyết và khả năng của mình, nhưng do kiến thức còn hạn chế nên không tránh
những thiếu sót, rất mong nhận được sự đóng góp quý báu của quý Thầy Cô và các bạn
Xin chân thành cảm ơn
Cần Thơ, tháng 5 năm 2010 Sinh viên thực hiện
Nguyễn Thị Nguyệt Thắm
Trang 5PHẦN MỞ ĐẦU
1 Gi ới thiệu vấn đề nghiên cứu
Từ giữa thế kỷ 19, khái niệm về hệ số tương quan (correlation) được ra đời
bởi huân tước Francis Galton (1886), một nhà toán học và đồng thời là một bác
sĩ Ông đã đưa ra những khái niệm đầu tiên về tương quan khi nghiên cứu những
tập tính về chiều cao của hai thế hệ Ông cũng là cha đẻ của thuật ngữ “Hồi quy” (regression) Về sau, những khái niệm về tương quan và hồi quy mà Galton đưa
ra đã được nhà toán học Karl Pearson phát triển và đỉnh cao của nó là sự ra đời
của hệ số tương quan mang tên ông (hệ số tương quan Pearson) Ngày nay, hệ số tương quan và hồi quy được ứng dụng rộng rãi đóng vai trò quan trọng, không
thể thiếu trong dự báo ngành kinh tế, các mô hình trong chuẩn đoán y khoa, dự báo trong thống kê dân số, và các mô hình sinh trưởng trong sinh học…
Luận văn này tổng kết các mô hình hồi quy đã được sử dụng Từ các mô hình hồi quy phổ biến như hồi quy tuyến tính đơn và bội, đến các mô hình hồi quy phức tạp, đặc biệt hơn như hồi quy có biến định tính, hồi quy dạng hàm mũ,
dạng hàm logarit,… Luận văn cũng trình bày cách sử dụng phần mềm R trong
phân tích tương quan và các mô hình hồi quy
2 B ố cục của luận văn
Luận văn gồm có phần mở đầu, phần nội dung, phần kết luận và tài liệu tham khảo Phần nội dung gồm 3 chương:
Chương 1: Chương này tìm mối tương quan giữa các đại lượng v à tìm các
hệ số thể hiện sự tương quan đó như: hệ số tương quan đơn, tỷ tương quan,… Chương này cũng xây dựng các mô hình hồi quy phổ biến như: mô hình hồi quy đơn, mô hình hồi quy bội hay một số dạng hồi quy phi tuyến thông dụng khác… được áp dụng với dữ liệu định lượng
Chương 2: Xây dựng các mô hình hồi quy khi dữ liệu của chúng ta có sự
xuất hiện của các biến định tính Việc xây dựng mô hình này có sự khác biệt nhưng chủ yếu vẫn dựa vào cách xây dựng các mô hình hồi quy phổ biến
Trang 6Chương 3: Trong chương 3 chúng ta sẽ thiết lập các mô hình hồi quy đặc
biệt khác nhằm giúp cho việc dự báo chính xác hơn khi các mô hình hồi quy khác không làm được hay có độ chính xác không cao Đó là các dạng hồi quy hàm mũ, hàm logistic và Poisson
Trang 7
liệu là biến định tính thì sự tương quan giữa các đại lượng được tính dựa trên nền
tảng là sự tương quan của biến định lượng Khi giữa các đại lượng có sự tương quan với nhau, chúng ta có thể xây dựng được đường hồi quy để thể hiện mối quan hệ đó Từ đó có thể dự báo được biến khó quan sát, khó đo được qua những
biến có thể quan sát và đo được Có nhiều mô hình hồi quy khác nhau đã được thiết lập để diễn tả những quan hệ khác nhau của cuộc sống, tuy nhiên chúng đều được xây dựng dựa trên các mô hình hồi quy phổ biến như hồi quy tuyến tính,
hồi quy phi tuyến quen thuộc Vì vậy để xem xét một số mô hình hồi quy đặc biệt trong các chương sau, chương này chúng tôi giới thiệu về những mô hình hồi quy
phổ biến
1.2 S Ự TƯƠNG QUAN CỦA HAI BIẾN ĐỊNH LƯỢNG
1.2.1 H ệ số tương quan đơn
Trong nhiều bài toán người ta quan tâm đến mối quan hệ của hai hay nhiều
biến ngẫu nhiên Giả sử có hai biến ngẫu nhiên X và Y Vấn đề đặt ra là có hay
không mối quan hệ phụ thuộc giữa X và Y? Nếu X và Y độc lập ta có thể xét
riêng từng biến, còn nếu X và Y phụ thuộc thì sự phụ thuộc và mức độ phụ thuộc như thế nào? Trong thực tế, mối quan hệ phổ biến của X và Y thường là quan hệ
Trang 8tuyến tính và tham số đặc trưng cho mối quan hệ này được gọi là hệ số tương
Y X Cov ,
(1.1) Trong đó
Var(X), Var(Y) l ần lượt là phương sai của X và Y,
Cov(X,Y) là hiệp phương sai giữa hai biến X và Y và được xác định bởi
công thức sau:
(X Y) E[ (X E( )X ) (Y E( )Y ) ] E( ) ( ) ( )X E X Y E Y
C , =o − v − = − Đặt σxy =Cov(X,Y)=σyx.Vì σx = V a r ( X) và σy = V a r (Y) nên công thức
(1.1) được viết lại như sau:
ρxy=
y x
xy
σσ
σ
b) Ý ngh ĩa
Hệ số tương quan của hai biến là đại lượng dùng để thể hiện chiều
hướng và độ mạnh hay yếu của mối quan hệ tuyến tính giữa hai biến đó ρxy
càng gần 1 thì mối quan hệ tuyến tính càng chặt và ρxy càng gần 0 thì mối quan
hệ tuyến tính càng yếu đi
c) Tính ch ất
Hệ số tương quan ρxy có các tính chất sau:
i) − 1 ≤ρxy ≤ 1
ii) ρxy <0: X và Y có mối liên hệ tuyến tính nghịch ( ρ= -1 thể hiện một
mối liên hệ tuyến tính nghịch hoàn toàn)
iii) ρxy >0: X và Y có mối liên hệ tuyến tính thuận (ρ= 1 thể hiện một mối
liên hệ tuyến tính thuận hoàn toàn)
iv) ρxy = 0: X và Y không có mối liên hệ tuyến tính
Trang 9d) H ệ số tương quan tuyến tính mẫu R
Trong thực tế, chúng ta không biết được chính xácσxy,σx, σy để tính hệ
số tương quan ρ xy vì khi đó ta phải biết luật phân phối xác suất của các đại lượng
ngẫu nhiên Do đó, ta phải ước lượng các tham số của tổng thể trong công thức (1.2) bởi các tham số mẫu đặt trưng Giả sử từ tổng thể ta chọn ra một mẫu gồm
n ph ần tử Quan sát hai biến ngẫu nhiên X và Y trên n phần tử mẫu, ta có số liệu
cụ thể: (x1,y1), (x2,y2),…, (x n ,y n
,1
y n
i y x n
xy
1
1
Khi đó σxy,σx, σy lần lựợt được ước lượng bằng S xy, S x , S y như sau:
S y(x i x) (n x y x y)
n
i i
( ) 2
1 1
2 1
i i n
i i
n x x
x S
( ) 2
1 1
2 1
i i n
i i
n y y
y S
Như vậy hệ số tương quan được xác định bởi công thức (1.2) sẽ được ước
lượng bằng hệ số tương quan mẫu (kí hiệu: R)
y x
x y
S S
i i n
i i n
i i n
i i
S S
y x xy n
x n x y
n y
y x xy n
2 2
1 1
(1.4)
Ví dụ 1.1 Bảng sau đây cho số liệu về mức chi tiêu dùng (y–đôla/tuần) và thu
nhập hàng tuần (x–đôla/tuần) của một mẫu gồm 10 hộ gia đình Giả sử x và y có
mối quan hệ tương quan tuyến tính Hãy tìm hệ số tương quan giữa x và y
Trang 10Ta có n = 10, 1700
10 1
=
∑
=
i i
10 1
=
∑
=
i i
10 1
2 =
∑
=
i i
10 1
2 =
∑
=
i i
029337000016800
10
1700322000
10
1110132100
x1111702055010
Hệ số tương quan đơn chỉ để đo mức độ phụ thuộc tuyến tính giữa hai
biến ngẫu nhiên X và Y Giữa hai đại lượng ngẫu nhiên X và Y có thể còn có sự
phụ thuộc phi tuyến Do đó nếu hệ số tương quan giữa X và Y nhỏ hay thậm chí
bằng không thì nếu ta kết luận giữa X và Y không có sự tương quan nào là không
chính xác, bởi vì giữa chúng vẫn có thể có một hình thức tương quan khác Vì
vậy, người ta muốn đưa ra một đại lượng mà nó có thể đo mức độ tương quan bất
kỳ giữa hai biến ngẫu nhiên Đại lượng đó được gọi là tỷ tương quan
/ 2
))(()(
))(())/(()
(
))/((
Y E Y
E
Y E X
Y E E Y
Var
X Y E Var
X Y
Trang 11b) Ý ngh ĩa
Tỷ số tương quan của hai đại lượng là con số đặc trưng cho mức độ liên
hệ của hai đại lượng này theo một hình thức nào đó Tỷ số tương quan càng lớn thì hai đại lượng càng có liên hệ chặc chẽ với nhau và ngược lại
suất bằng 1, có nghĩa là những biến động của X không ảnh hưởng gì đến Y Khi
đó quan hệ phụ thuộc hàm giữa X và Y không rõ rệt
η −ρ đo mức độ phụ thuộc phi tuyến giữa Y và X Nếu hiệu
số này càng lớn thì sự tương quan phi tuyến giữa Y và X càng mạnh và ngược lại
ii) Nếu 2 2
/
Y X
η =ρ thì ngoài mối liên hệ tuyến tính, Y không có mối liên
hệ phi tuyến nào nữa đối với X
iii) Nếu 2 2
/
Y X
η ≠ρ nhiều thì ngoài mối liên hệ tuyến tính Y còn có mối liên
hệ phi tuyến đối với X
d) T ỷ số tương quan mẫu
Giả sử ta có mẫu ngẫu nhiên cỡ n các quan trắc về véc tơ hai chiều
n i
(1) (2) ( ) ( ) (1) (2) ( ) ( )
Trang 12Bước 2: Đếm nij là số phần tử mẫu (x i,y i), trong đó
n n
k
i l
1 , ∑ ( )
1
2
, ,1,
y n n
Bước 5: Tính R2Y/X bởi công thức
j
j ij i
X Y
y n n y
n
y n n y
n n
R
1
2
1 2
1
2
1 2
1 /
2
1)(
11
i i ij j
X Y
x n n x
n
x n n x
n n
R
1
2
1 2
1
2
1 2
1 /
2
1)(
11
Ta lập bảng tính tỷ tương quan R2Y/X như sau:
B ảng 1.1 Bảng tính tỷ số tương quan mẫu R2Y/X
i
y
n
n (.)… (.)… (.) (Tổng hàng)
Ví dụ 1.2 Cho hai biến ngẫu nhiên X, Y Ta tiến hành 216 quan trắc độc lập về
hai biến ngẫu nhiên này được kết quả như sau:
x( )i : 1 2 2 3 3 4 4 5 5
y( )j : 14 14 15 15 16 16 17 17 18
n : 10 84 12 7 28 6 6 9 12
Trang 13Hãy tính tỷ tương quan của Y theo X
Gi ải
Ta thực hiện giải bài toán theo các bước đã trình bày ở trên như sau:
Bước 1: Sắp xếp x i và y i thành dãy tăng dần
y n n
3330
x 216
151764
3330
x 216
151737
2
2 /
R
Nên R Y/X = 0.936694 =0.9678295
Nh ận xét: Ta có R Y/X =0.9678295, có nghĩa là Y có mối quan hệ rất chặt chẽ đối
với X
1.3 H ỒI QUY TUYẾN TÍNH
1.3.1 H ồi quy tuyến tính đơn
a) Mô hình
Trang 14Mục đích của phân tích hồi quy là mô hình hóa mối liên hệ giữa các đại
lượng bằng một mô hình toán học tối ưu nhất Giả sử mỗi giá trị quan sát của Y
có thể được biểu diễn theo mô hình
ε là thành phần ngẫu nhiên, không chệch giữa Y và E(Y/X), ε có
thể bằng không, hoặc lớn hơn không, hoặc nhỏ hỏn không khi các giá trị nằm ngay, hoặc phía trên, hoặc phía dưới đường hồi quy
Chúng ta giả sử E(ε ) = 0 và Var(ε ) = σ hay ε ~N(0,2 σ ) và ε là những 2
biến ngẫu nhiên không tương quan nhau Khi đó, mô hình (1.6) được gọi là mô hình hồi quy tuyến tính đơn
b) Xây d ựng mô hình hồi quy mẫu
Khi chúng ta có n c ặp dữ liệu (x1, y1), (x2, y2), …, (x n, y n
0
β
), để ước lượng các tham số , β1, ta sử dụng phương pháp bình phương cực tiểu
1 1
2 1
n
i
i i n
i
Chúng ta cần tìm βˆ0, βˆ1 sao cho L(βˆ 0,βˆ 1) nhỏ nhất Vì vậy hai giá trị này chính
là nghiệm của hệ phương trình
ˆ2
ˆ
0ˆ
ˆ2
ˆ
1
1 0 1
1
1 0 0
i n
i
i i
n
i
i i
x x y
L
x y
L
βββ
βββ
Trang 15Hệ phương trình trên tương đương
i i
n i i i n
i i n
i i
y n
x
y x x
x
1 0 1 1
1
0 1
1 1 2
ˆˆ
ˆˆ
ββ
ββ
Đây là hệ phương trình tuyến tính bậc nhất với hai ẩn βˆ0, βˆ1 Giải hệ phương trình này ta được
i i
n
i
n
i i i
n
i
n
i i n
i i i
i
x y
n
x x
n
y x
y x n
1 1 1
0
1
2
1 2
1
ˆ1
ˆ
ˆ
ββ
s S
x n x
y x xy n
x
xy n
i i n
i i
^ 1
^ 0
2
1 1
2
^ 1
1
ββ
2 2
i i n
i i
n x x
x n
n
i i
Ví d ụ 1.3 Xét lại ví dụ 1.1 hãy tìm mô hình hồi quy mẫu cho mức chi tiêu dùng
theo thu nhập của 10 hộ gia đình
Gi ải
Ta có n = 10, 1700
10 1
=
∑
=
i i
10 1
=
∑
=
i i
10 1
2 =
∑
=
i i
10 1
2 =
∑
=
i i
Trang 161700322000
111.1702055010
^ 0
2
^ 1
ββ
Vậy mô hình hồi quy tuyến tính mẫu của mức chi tiêu dùng theo thu nhập là
yˆ =24.4545+0.5091x
Nh ận xét: Nếu thu nhập hàng tuần của các hộ gia đình tăng 1 đôla/tuần thì mức
chi tiêu dùng của các hộ gia đình tăng khoảng 0.5091 đôla/tuần
1.3.2 Hồi quy tuyến tính bội
a) Mô hình
Trong mô hình hồi quy tuyến tính đơn, chúng ta chỉ đơn thuần xây dựng
mối quan hệ tuyến tính của hai biến X và Y Nhưng trong thực tế, chúng ta thường gặp không chỉ biến X ảnh hưởng đến Y mà còn các biến khác cũng ảnh hưởng đến Y Khi đó để dự báo Y được tốt chúng ta cần xây dựng mô hình hồi
quy bội của Y qua tất cả các biến
Giả sử Y phụ thuộc vào k biến độc lập X1, X2,…, X k
εβ
ββ
Y 0 1 1 2 2
, mỗi giá trị quan sát
của Y có thể được biểu diễn theo mô hình
………
là hệ số dốc của Y theo biến X k khi các biến X1, X2,…, X k-1
ε
không đổi,
là thành phần ngẫu nhiên với E(ε ) = 0 và Var(ε ) = σ 2
Nếu ε là biến ngẫu nhiên không tương quan thì mô hình (1.9) được gọi là mô hình hồi quy tuyến tính bội
b) Xây d ựng mô hình hồi quy mẫu
Trang 17Giả sử chúng ta có n quan sát, mỗi quan sát có k giá trị (y i , x 1i , x 2i, …, x ki
i
k i
y
2 1
1 0
n
k k
x x
x
x x
x
x x
x X
1
.
1
1
2 1
2 1
Chúng ta vẫn dùng phương pháp bình phương tối tiểu để ước lượng các tham sốβ0, β1, ,βk bằng các hệ số βˆ 0, βˆ1,…,βˆk Mô hình hồi quy tuyến tính
bội của mẫu được sử dụng để ước lượng mô hình hồi quy tổng thể là
yˆi βˆ βˆ x i βˆk x ki
1 1
0 + + +
= (1.11) Phương trình (1.11) cũng được viết dưới dạng ma trận
Trong đó yˆ , X, βˆ lần lượt là ma trận cỡ (n x 1), (n x p) và (p x 1)
Bình phương giữa giá trị thực tế và lý thuyết được xác định như sau:
1
1 1 0 2
1
ˆ
ˆˆ
i n
i
y
Chúng ta cần tìm các hệ sốβˆ 0, βˆ1, …,βˆk sao cho L đạt giá trị cực tiểu
Ta ký hiệu XT, βˆT, ε là các ma trT ận chuyển vị của X, βˆ , ε thì L được
viết lại như sau:
Trang 18ε ε ε ( βˆ) ( βˆ) ( βˆ )( βˆ)
1
2
X y X
y X y X y
i
i ki n
i
i ki n
i
ki
n
i ki i n
i
i i n
i i n
i
i
n
i ki n
i i n
i i
T
x x
x x
x x
x x x
x x
x
x x
x n
X
X
1 2 1
2 1
1 1
1 1 1
2 1 1
2 1 1
1
1 1
2 1
+++
+++
n
i i
n kn k
k
n n
n n
n
i i
T
S
S S y
y x y
x y
x
y x y
x y
x
y x y
x y
2 2 1 1
2 2
22 1 21
1 2
12 1 11
1
là ma trận cỡ (p x 1)
Mặc khác ta cũng có thể tìm các hệ số của đường hồi quy tuyến tính bội từ
phương trình (X T X)βˆ = X T y Cụ thể giải phương trình
n
i i
k n
i ki n
i
i ki n
i
i ki n
i ki
n
i ki i n
i
i i n
i i n
i i
n
i ki n
i i n
i i
S
S S y
x x
x x
x x
x x x
x x
x
x x
x n
ˆ
ˆ ˆ
0
1 2 1
2 1
1 1
1 1 1
2 1 1
2 1 1
1
1 1
2 1
1
β
ββ
c)Ý ngh ĩa của hệ số hồi qui tuyến tính bội
Trang 19Xét mô hình hồi quy bội
Y =β0 +β1x1+β2x2 + +βk x k +ε
Chúng ta nhận thấy E(Y) = β khi x i
i i
= 0 và
Từ kết quả này có thể giải thích ý nghĩa của βi (∀i= 1 ,k) như sau: trong
điều kiện các nhân tố khác không đổi, khi x i tăng lên một đơn vị (theo đơn vị
của x i ) thì Y sẽ tăng bình quân βi đơn vị (theo đơn vị của Y)
Ví d ụ 1.4 Nghiên cứu về mối liên hệ giữa độ tuổi, tỉ trọng cơ thể được ước tính
STT
Độtuổi
(age)
x
BMI (bmi)
x
1i
Cholesterol (chos)
x
BMI (bmi)
x
1i
cholesterol (chos)
x
1i
Cholesterol (chos)
Trang 20∑
=
i i
18 1
18 1
1 =
∑
=
i i
i y
18 1 2
18 1
2 =
∑
=
i i
i y x
Dựa vào các công thức tính ma trận X T X và ma trận X T y ở trên ta tính được
16669 2
420
7 16669 30287
699
2 420 699
0 002602584
0 441437240
0
002602584
0 0006096853
0 0370797600
0
441437240
0 0370797600
0 92073200
6 2511
Trang 216 2511 60
023239116
0 002602584
0 441437240
0
002602584
0 0006096853
0 0370797600
0
441437240
0 0370797600
0 92073200
0
05405192
0
45545759
0 ˆ
β
Vậy mô hình hồi quy bội thể hiện độ cholesterol trong máu theo độ tuổi, tỉ trọng
cơ thể của 18 đối tượng nam là
yˆ =0.45545759+0.05405192.x1+0.03336380.x2
Nh ận xét: Trong điều kiện độ BMI của các đối tượng không đổi, nếu độ tuổi
tăng 1 tuổi thì độ cholesterol trong máu tăng khoảng 0.054 mg/l Và trong điều
kiện độ tuổi của các đối tượng không đổi, nếu độ BMI tăng 1 kg/m2
Y 1 2
2 1
thì độ cholesterol trong máu tăng khoảng 0.03336 mg/l
1.4 M ỘT SỐ DẠNG HỒI QUY PHI TUYẾN
Tùy theo mối quan hệ giữa đại lượng Y với các đại lượng độc lập khác mà
mô hình quan hệ được biễu diễn dưới nhiều hình thức khác nhau Các mô hình
được trình bày ở trên đã thể hiện hầu hết các mối quan hệ trong thực tế Tuy
nhiên ngoài những mô hình hồi quy thông dụng còn rất nhiều mô hình hồi quy
phi tuyến khác Có thể kể ra một số trường hợp cụ thể sau:
i) H ồi quy dạng lũy thừa
Phương trình hồi quy tổng thể là
iii) H ồi quy lượng giác
Ta có mô hình lượng giác tổng thể của hai biến X và Y là
Y =β0 +β1sinX +β2cosX +ε (1.16)
iv) H ồi quy parabol
Trang 22Ta có mô hình parabol Y =aX2 +bX +c+ε (1.17)
v) H ồi quy hyperbol bội
Ta có mô hình hyperbol bội là
=β + β + β + + β +ε
k
k
X X
X
2 2 1
1
vi) Hồi quy đa thức bậc k một biến
Ta có mô hình đa thức bậc k một biến là
=β +β +β + +β k +ε
k X X
X
Chú ý:
a) Các mô hình (1.14), (1.15), (1.17), (1.18), (1.19) có thể đưa về dạng tuyến tính Cụ thể
=c aT1 bT2Y
thì (1.17) trở thành
dụng phần mềm R Trong phần tiếp theo (phần 1.5.) chúng tôi sẽ trình bày chi
tiết về vấn đề này
1.5 PH ẦN MỀM R TRONG PHÂN TÍCH HỒI QUY
Trang 231.5.1 Gi ới thiệu phần mềm R
Ngày nay, có thể nói rằng kĩ năng phân tích số liệu bằng máy tính là một
kĩ năng không thể thiếu của một nhà nghiên cứu Trước những công trình nghiên
cứu với hàng ngàn số liệu, vấn đề đặt ra là làm thế nào để phân tích những số liệu
một cách khoa học Khoa học thống kê cung cấp cho chúng ta một số mô hình và phương pháp có ích cho việc phân tích số liệu
Các phần mềm thông dụng được sử dụng để phân tích số liệu và vẽ biểu đồ như: Excel, SPSS,… là những phần mềm được sử dụng cho giảng dạy và nghiên
cứu Tuy nhiên chi phí để sử dụng các phần mềm này tương đối đắt tiền (có khi lên đến hàng trăm ngàn đô-la mỗi năm), một số trường đại học ở các nước đang phát triển (và ngay cả ở một số nước đã phát triển) không có khả năng tài chính
để sử dụng chúng một cách lâu dài Nên trong một bài báo qu an trọng về tính toán thống kê của hai nhà thống kê học Ross Ihaka và Robert Gentleman thuộc Trường đại học Auckland, New Zealand năm 1996 đãsáng tạo ra một ngôn ngữ
mới cho phân tích thống kê và họ đặt tên là R Sáng kiến này được rất nhiều nhà
thống kê học trên thế giới truy cập và tải toàn bộ phần mềm để sử dụng vì nó hoàn toàn miễn phí
Phần mềm R cũng được sử dụng như là một ngôn ngữ máy tính đa năng Chúng ta có thể sử dụng R cho nhiều mục tiêu khác nhau, từ tính toán đơn giản, toán học giải trí, tính toán ma trận, cho đến các phân tích xác suất thống kê phức
tạp Ngoài ra, nó còn có thể sử dụng để lập trình ra các phần mềm chuyên môn
nhằm thực hiện một công việc cụ thể nào đó, đặc biệt R có thể phân tích sự tương quan giữa các đại lượng và xây dựng các mô hình hồi quy để dự báo Đa số các ứng dụng của R là rất sát với nội dung kiến thức toán kinh tế, y khoa Từ việc
chọn mẫu sao cho thật ngẫu nhiên cho tới phân tích các luật phân phối xác suất hay việc ước lượng và kiểm định giả thiết và dự báo Nhiều vấn đề phức tạp của toán kinh tế, y khoa đã được đơn giản hoá rất nhiều
Trong phần này, chúng ta nghiên cứu về ứng dụng của phần mềm R này để phân tích tương quan và hồi quy
1.5.2 S ử dụng phần mềm R trong phân tích tương quan
H ệ số tương quan đơn (hệ số tương quan Pearson)
Trang 24Để sử dụng phần mềm R trong phân tích tương quan chúng ta cần nhập số
liệu vào R với những lệnh thông thường sau:
i) Tạo số thứ tự bằng lệnh
> id <- 1: n
ii) Khai báo các biến cần sử dụng theo đề bài bằng cách sử dụng function c
(trong ngoặc là số liệu của biến cần khai báo)
> x i <- c (x1, x2, …, x n )
> y i <- c (y1, y2, …, y n )
iii) Hợp các biến tạo thành bộ dữ liệu của đề theo lệnh:
> data <- data.frame(id, x i , y i )
iv) Để ước tính hệ số tương quan giữa các biến x i và y i, chúng ta sử dụng
hàm cor (vi ết tắc từ correlation) như sau:
> cor(x i , y i )
Ví d ụ 1.5 Trong ví dụ 1.1 sử dụng phần mềm R ta làm như sau:
> id <- 1: 10 > x i <- c (80, 100, 120, 140, 160, 180, 200, 220, 240, 260) > y i <- c (70, 65, 90, 95, 110, 115, 120, 140, 155, 150) > data <- data.frame(id, x i , y i )
> cor(x i , y i )
Kết quả: [1] 0.9808474
Hay hệ số tương quan R = 0.9808474
1.5.3 S ử dụng phần mềm R trong phân tích hồi quy
a) Mô hình h ồi quy tuyến tính đơn
i) Nhập số liệu vào R với những lệnh thông thường như phần 1.5.2
ii) Dùng hàm lm (vi ết tắc của từ linear model) và đặt tên là reg (viết tắt từ
regression) như sau:
> reg <- lm (y i ~ x i ) > reg
Chú ý:
Chúng ta có thể vẽ đường biểu diễn cho mô hình hồi quy tuyến tính đơn
bằng lệnh plot và lệnh abline
Trang 25> plot (yi ~ x i , xlab="tên b ến x i ", ylab="tên bi ến y i ", main="tên bi ểu đồ", pch=16)
> abline (reg)
Ví d ụ 1.6 Trong ví dụ 1.1 sử dụng phần mềm R để tìm mô hình hồi quy ta làm
như sau:
>reg <- lm (y i ~ x i ) > reg
0 =
β
, hay là mức chi tiêu dùng của các hộ gia đình được mô tả theo thu nhập hàng tuần Kết quả hàm lm cho thấy và βˆ1 = 0 5091 Ta có thể xây dựng được mô hình hồi quy tuyến tính mẫu để ước lượng mức chi tiêu dùng của các hộ gia đình theo thu nhập hàng tuần là
yˆ =1.08922+0.05779x
Hình 1.1 Mối liên hệ giữa mức chi tiêu dùng (Y–đôla/tuần) và thu nhập
hàng tuần (X–đôla/tuần) của 10 hộ gia đình
b) Mô hình h ồi quy tuyến tính bội
Trang 26i) Để sử dụng phần mềm R trong phân tích hồi quy thì trước hết chúng ta
cũng nhập số liệu vào R với những lệnh thông thường như:
ii) Hợp các biến tạo thành bộ dữ liệu của đề theo lệnh
> y i <- c (3.5, 1.9, 4.0, 2.6, 4.5, 3.0, 2.9, 3.8, 2.1, 3.8, 4.1, 3.0, 2.5, 4.6, 3.2, 4.2, 2.3, 4.0)
Vậy mô hình hồi quy bội thể hiện độ cholesterol trong máu theo độ tuổi, tỉ trọng
cơ thể của 18 đối tượng nam là
yˆ =0.45545759+0.05405192x1+0.03336380x2
c) H ồi quy đa thức bậc k một biến
Trang 27Để sử dụng phần mềm R trong phân tích hồi quy đa thức thì trước hết chúng ta thực hiện các bước nhập số liệu giống như mô hình hồi quy tuyến tính đơn, sau đó dùng lệnh
i) Đa thức bậc nhất (hồi quy tuyến tính đơn)
Chúng ta có thể vẽ 3 đường biểu diễn cho mô hình hồi quy tuyến tính
đơn, mô hình phương trình bậc hai, mô hình phương trình bậc ba bằng lệnh plot
và lệnh abline để so sánh ba mô hình trên ta làm như sau:
# Lặp lại các mô hình trên
> smodel <- lm (y i ~ x i )
> quadratic <- lm (y i ~ poly( x i , 2)) > cubic <- lm (y i ~ poly( x i , 3))
# Tạo nên một biến x inew với nhiều số gần nhau
> x inew <- (0:160)/10
# Tính giá trị tiên đoán của y i
> y2 = predict (quadratic, data.frame (x i = x inew ))
> y 3 = predict (cubic, data.frame (x i = x inew ))
# Vẽ ba đường biểu diễn cho mô hình hồi quy tuyến tính, bậc hai và bậc ba
> plot (y i ~ x i , main="tên bi ểu đồ", sub = “smodel, quadratic and cubic fits”)
> abline (smodel, col = “black”)
> lines (x inew , y2, col = “ blue”, lwd=5)
> lines (x inew , y3
STT
, col = “ red”, lwd=9)
Ví dụ 1.8 Hãy tìm mối liên hệ giữa hàm lượng gỗ cứng (x) và độ căng (y) của
vật liệu Ta xét 19 vật liệu khác nhau với nhiều hàm lượng gỗ cứng được thử nghiệm để đo độ căng mạnh của vật liệu, kết quả được tóm lược trong bảng sau:
Trang 29Nghĩa là ta có mô hình hồi phương trình bậc hai
2
40.4530.3218.34
57.1440
.4530.3218.34
y= + − −
, 3)3 34.18 32.30 -45.40 -14.57
Nghĩa là ta có mô hình hồi quy đa thức bậc ba
Trang 302.2 S Ự TƯƠNG QUAN CỦA CÁC BIẾN ĐỊNH TÍNH
2.2.1 Khái ni ệm
Đặc điểm định tính: Là tính chất của đơn vị tổng thể không có biểu hiện trực
tiếp bằng các con số Nó phản ánh sự hơn kém, tính chất của các đối tượng như
giới tính, nghề nghiệp, tình trạng hôn nhân, dân tộc, tôn giáo, lọai hình doanh nghiệp, …
Thang đo đặc điểm định tính: Người ta thường dùng 2 loại thang đo sau để đo
các đặc điểm định tính
Trang 31Thang đo định danh : Sử dụng các mã số để phân loại các đối tượng
Ngoài vai trò này, các mã số không mang ý nghĩa nào khác Giữa các con số này không có quan hệ hơn kém, chỉ dùng để đếm tần số xuất hiện của các biểu hiện Thước đo tập trung duy nhất là mode Chúng ta thường hay gặp thang đo định danh trong các câu hỏi về thông tin cá nhân của từng người hay thông tin về doanh nghiệp
Ví dụ 2.1 Tình trạng hôn nhân của Anh/Chị ?
1 Có gia đình 2 Độc thân 3 Ly dị 4 Trường hợp khác
Trả lời câu hỏi này sẽ chọn một trong các mã số 1, 2, 3, 4 Các mã số này là thang đo định danh Các mã số trên cũng có thể thay đổi như sau:
1 Độc thân 2 Có gia đình 3 Ly dị 4 Trường hợp khác
Công ty Ông/Bà đang họat động trong lĩnh vực nào?
1 Sản xuất 2 Xây dựng 3 Dịch vụ 4 Thương mại 5 Khác
Thang đo thứ bậc: Trong thang đo này giữa các biểu hiện của đặc điểm có
quan hệ thứ bậc hơn kém Sự chênh lệnh giữa các biểu hiện không nhất quyết
phải bằng nhau Tham số đặc trưng để đánh giá trong trường hợp này là m ode hay trung vị Chúng ta thường gặp thang đo này trong các câu hỏi dạng so sánh
Ví d ụ 2.2
i) Anh chị hãy xếp hạng các chủ đề sau trên báo Sài Gòn Tiếp Thị tùy theo
mức độ quan tâm (Chủ đề quan tâm nhất thì ghi số 1, quan tâm thứ nhì thì ghi số
2, quan tâm thứ ba thì ghi số 3)
- Thông tin thị trường: -
Trang 32Khi thang thứ bậc có khoảng cách đều nhau thì nó được gọi là thang đo khoảng Ta hay gặp thang đo này trong các câu hỏi phỏng vấn dạng đánh giá
Ví d ụ 2.3 Xin bạn vui lòng trả lời bằng cách khoanh tròn một con số ở từng
dòng Những con số này thể hiện mức độ bạn đồng ý hay không đồng ý đối với các phát biểu theo quy ước sau: 1.Rất đồng ý … 5.Rất không đồng ý
1.Chương trình đào tạo của trường phù hợp tốt với yêu cầu
3 Phương pháp giảng dạy của Giảng v iên phù hợp với yêu
cầu của từng môn học
1 2 3 4 5
4 Giảng viên có kiến thức sâu về môn học đảm trách 1 2 3 4 5
5 Cách đánh giá cho điểm Sinh viên công bằng 1 2 3 4 5
6 Tổ chức thi cử, giám thị coi thi nghiêm túc 1 2 3 4 5
7 Quy mô lớp học hợp lý cho việc tiếp thu các môn học 1 2 3 4 5
8 Cơ sở vật chấ t nhà trường đáp ứng tốt nhu cầu đào tạo và
học tập
1 2 3 4 5
9 Phòng máy tính đáp ứng tốt nhu cầu thực hành 1 2 3 4 5
10 Thư viện, tài liệu tra cứu học tâp tốt 1 2 3 4 5
2.2.2 Tương quan của biến định tính
Tương quan của 2 biến định tính nhằm để đo lường độ mạnh yếu mối liên
hệ giữa 2 yếu tố được đo bằng 2 thang đo định danh hoặc 1 thang đo định danh
và 1 thang đo khoảng hoặc 2 thang đo khoảng Có nhiều hình thức để tính tương quan của các biến định tính, nhưng thông thường người ta sử dụng các loại tương quan cụ thể sau:
a) H ệ số tương quan hạng Spearman
♦ Bài toán: Có n đối tượng được sắp xếp thành hạng theo 2 yếu tố A
và B như sau:
B ảng 2.1 Các đối tượng trong bài toán tính hệ số tương quan Spearman
Trang 33Đối tượng Hạng của yếu tố A Hạng của yếu tố B
♦ Công thức : Mức độ liên hệ của hai yếu tố A và B được xác định
bởi hệ số tương quan hạng Spearman Hệ số tương quan hạng này được cho bởi công thức sau:
)1(
)(
B A r
n
i
i i
Chú ý:
i) Hệ số tương quan hạng Spearman có tính chất giống như hệ số tương quan thông thường giữa hai biến định lượng để đánh giá mức đ ộ quan hệ tuyến tính giữa chúng
ii) Nếu việc xếp hạng của hai yếu tố A và B hoàn toàn thuận thì A i – B i
S
r
= 0 nên = 1 Ngược lại nếu việc xếp hạng của hai yếu tố A và B hoàn toàn nghịch
Ví d ụ 2.4 Các thành viên của một nhóm tham gia cắm trại để huấn luyện tinh
thần đồng đội Hai biến để đánh giá là mức độ được yêu mến và mức độ tham gia nhóm Hai biến này được xếp hạng theo ý nghĩa hạng càng nhỏ càng được đánh giá cao
Hạng của mức độ được yêu mến Hạng của mức độ tham gia