Có nhiều phương pháp khác nhau để ước lượng hàm hồi quy, tuy nhiên, số liệu trong quá trình phân tích khá nhiều, do đó, để đơn giản hơn trong tính toán và trình bày, dữ liệu và tham số s
Trang 1ĐẠI HỌC QUỐC GIA TP HCM
Trang 2CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM
Cán bộ hướng dẫn khoa học : PGS.TS Tô Anh Dũng
Cán bộ chấm nhận xét 1 :
Cán bộ chấm nhận xét 2 :
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày tháng năm
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: 1
2
3
4
5
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên
ngành sau khi luận văn đã được sửa chữa
CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA
Trang 3ĐẠI HỌC QUỐC GIA TP.HCM
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: Hà Như Mai MSHV: 10240512
Ngày, tháng, năm sinh: 08 – 04 – 1986 Nơi sinh: Phú Thọ
Chuyên ngành: Toán Ứng Dụng Mã số : 604636
I TÊN ĐỀ TÀI:
ỨNG DỤNG HỒI QUY BÁN THAM SỐ TRONG KHOA HỌC XÃ HỘI
II NHIỆM VỤ VÀ NỘI DUNG:
Bổ sung một số kiến thức
Tìm hiểu các mô hình hồi quy tham số và hồi quy phi tham số
Tìm hiểu mô hình hồi quy bán tham số
Ứng dụng của hồi quy bán tham số trong khoa học xã hội
III NGÀY GIAO NHIỆM VỤ : 02/ 2012
IV NGÀY HOÀN THÀNH NHIỆM VỤ: 11/ 2012
V CÁN BỘ HƯỚNG DẪN PGS.TS Tô Anh Dũng
PGS.TS Tô Anh Dũng
TRƯỞNG KHOA….………
Trang 4LỜI CẢM ƠN
Tôi xin bày tỏ lòng biết ơn sâu sắc của mình tới Thầy hướng dẫn – PGS.TS
Tô Anh Dũng – Trưởng bộ môn Xác suất thống kê, Đại học Khoa học tự nhiên – Đại học Quốc Gia Tp Hồ Chí Minh, người đã luôn khuyến khích, quan tâm giúp
đỡ, truyền đạt kiến thức và tạo mọi điều kiện thuận lợi giúp tôi hoàn thành luận văn tốt nghiệp này
Tôi xin bày tỏ lòng biết ơn chân thành đến tập thể Thầy, Cô giáo bộ môn Toán ứng dụng – Khoa Khoa học Ứng Dụng, phòng Đào Tạo Sau Đại Học – trường Đại học Bách Khoa – Đại học Quốc Gia Tp.Hồ Chí Minh đã tận tình dạy dỗ, giúp
đỡ, truyền đạt cho tôi trong suốt khóa học
Tôi xin gửi lời cảm ơn đến tập thể các bạn K2010 lớp cao học Toán Ứng Dụng – những người bạn yêu quí đã luôn đồng hành, giúp đỡ và chia sẽ khó khăn cùng tôi trong suốt quá trình học tập
Cuối cùng tôi xin bày tỏ lòng biết ơn sâu sắc đến gia đình, những người thân yêu nhất, đã luôn khích lệ và giúp đỡ tôi trong suốt thời gian học tập vừa qua
Hà Như Mai
Trang 6MỤC LỤC
LỜI CẢM ƠN 4
TÓM TẮT 5
MỤC LỤC 6
MỞ ĐẦU 8
1 Tính cấp thiết của đề tài 8
2 Mục tiêu 8
3 Nội dung nghiên cứu 8
4 Phương pháp nghiên cứu 9
CHƯƠNG I 10
I.1 KIẾN THỨC BỔ SUNG 11
I.1.1 Phương pháp bình phương cực tiểu 11
I.1.2 Tìm cực trị có điều kiện 13
I.1.3 Phương pháp bình phương cực tiểu có trọng số 16
I.1.4 Ước lượng không chệch 19
I.2 HỒI QUY THAM SỐ 26
I.2.1 Hồi quy tuyến tính đơn biến 26
I.2.2 Mô hình hồi quy tuyến tính đa biến 28
I.3 HỒI QUY PHI THAM SỐ 34
I.3.1 Hồi quy đa thức 36
I.3.2 Mô hình que gẫy 37
I.3.3 Mô hình Spline 39
CHƯƠNG II 47
II.1 MÔ HÌNH HỖN HỢP 48
II.1.1 Mô hình hồi quy 48
II.1.2 Phương sai của 2 2 à u v 49
Trang 7II.2.1 Mô hình hồi quy bán tham số đơn giản 52
II.2.2 Mô hình hồi quy bán tham số hỗn hợp 54
II.3 MÔ HÌNH PHỤ TUYẾN TÍNH_GAM (Generalized Additive Models) 62
CHƯƠNG III 73
III.1 MÔ TẢ DỮ LIỆU 74
III.2 MÔ HÌNH 1 (gam.1) 79
III.3 MÔ HÌNH 2 (gam.2) 81
III.4 MÔ HÌNH 3 (gam.3) 83
III.5 MÔ HÌNH 4 (gam.4) 84
III.6 NHẬN XÉT 86
KẾT LUẬN 90
TÀI LIỆU THAM KHẢO 92
Trang 8MỞ ĐẦU
1 Tính cấp thiết của đề tài
Trong thực tế, hồi quy được ứng dụng rộng rãi trong các ngành khoa học tự nhiên và khoa học xã hội Hai loại hồi quy thông thường nhất là hồi quy tham số
và hồi quy phi tham số Mô hình thường được sử dụng nhiều là mô hình hồi quy tham số Tuy nhiên, trong nhiều trường hợp, hồi quy tham số không thể đưa ra mối tương quan phù hợp với dữ liệu, khi đó người ta cần dùng đến hồi quy phi tham số Do đó cần một sự kết hợp giữa hồi quy tham số và hồi quy phi tham số Hồi quy bán tham số là cầu nối giữa hai mô hình hồi quy tham số và phi tham số Nó cho phép chúng ta làm tốt cả hai việc phân tích hồi quy tham số và phi tham số, giúp làm giảm bớt sự phức tạp của bộ dữ liệu, giúp chúng ta có thể hiểu vấn đề dễ dàng hơn, tìm ra mối tương quan phù hợp với bộ dữ liệu
Tuy nhiên, hồi quy bán tham số không có nghĩa là tìm ra những mô hình mới thay thế cho những mô hình cũ, mà chủ yếu chúng ta mở rộng những mô hình thống kê chuẩn để giải quyết một số vấn đề khoa học xã hội
2 Mục tiêu
Nghiên cứu các mô hình hồi quy trong phân tích thống kê như hồi quy tham
số, hồi quy phi tham số, hồi quy bán tham số
3 Nội dung nghiên cứu
Trang 94 Phương pháp nghiên cứu
Phương pháp tham khảo tài liệu: tìm hiểu cơ sở lý thuyết và thực tiễn
Phương pháp chuyên gia: thu thập ý kiến của chuyên gia am hiểu về lĩnh vực đang xem xét
Phương pháp thống kê: phân tích và xử lý số liệu trong xây dựng mô hình hồi quy
Trang 10CHƯƠNG I NHỮNG KIẾN THỨC CƠ BẢN
Trong chương này, luận văn trình bày một số phương pháp ước lượng dùng trong các mô hình hồi quy Chương này cũng trình bày những kiến thức cơ bản về hai mô hình hồi quy là hồi quy tuyến tính và hồi quy phi tuyến bao gồm, mô hình tổng quát, phương pháp ước lượng, phương sai, độ lệch chuẩn
Trang 11I.1 KIẾN THỨC BỔ SUNG
Hồi quy là phương pháp phân tích dữ liệu, tìm mối liên quan giữa các biến dưới dạng công thức gọi là hàm hồi quy Mục tiêu đặt ra là làm sao xác định hàm hồi quy thể hiện chính xác mối tương quan giữa các biến, ước đoán giá trị từ hàm hồi quy gần đúng với giá trị thực tế khảo sát Có nhiều phương pháp khác nhau để ước lượng hàm hồi quy, tuy nhiên, số liệu trong quá trình phân tích khá nhiều, do
đó, để đơn giản hơn trong tính toán và trình bày, dữ liệu và tham số sẽ đưa về dạng
ma trận Trong phần này trình bày một số phương pháp ước lượng đơn giản để ước lượng hàm hồi quy
I.1.1 Phương pháp bình phương cực tiểu
Phương pháp bình phương cực tiểu là một trong những phương pháp tốt nhất
để xác định đường hồi quy phù hợp với dữ liệu Phương pháp này chỉ sử dụng những phép tính đơn giản và kiến thức của đại số tuyến tính Cơ bản nhất là tìm một hàm tuyến tính y ax b phù hợp với một bộ dữ liệu quan sát được Một cách tổng quát, phương pháp này được áp dụng để tìm hàm hồi quy dạng tuyến tính
như sau (I.1)
Trong đó các hàm g xk( ) không cần thiết phải là những hàm tuyến tính theo biến x
Trang 12
2
0 1 1 2 2 1
0 1 1 2 2
1 1
Trang 131
0 2
2 1
Như vậy hàm hồi quyy 0 1g x1( ) 2g x2( ) kg xk( ) được ước lượng
và trình bày dưới dạng ma trận như sau
ˆ
ˆy X với ˆ ( t ) 1 t
Trong đó ˆy là giá trị tiên đoán của y được tính từ hàm hồi quy
I.1.2 Tìm cực trị có điều kiện
Xét bài toán: Tìm vector tham sốcủa hàmy X với điều kiện
Trang 14i n
Trang 15
0 1 1 11 11 1 1 1
Trang 16y y y
I.1.3 Phương pháp bình phương cực tiểu có trọng số
Bình phương cực tiểu có trọng số là phương pháp cải tiến của phương pháp bình phương cực tiểu
Trang 17số W i càng cao, thì ảnh hưởng của điểm x y i, iđến hàm hồi quy càng lớn Ta định nghĩa lại tổng phần dư như sau
W y
hoặc là 12
i i
W y
2
0 1 1 2 2 1
0 1 1 2 2 1
Trang 18
0 1 1 2 2 1
1
0 1 1 2 2 1
Trang 191
0 2
2 1
1
( )(I.4)( )
i n
i i i i
i n
i i k i i
k i
I.1.5 Ước lượng hợp lý cực đại (Maximum likelihood )[5]
Trong thống kê, ước lượng hợp lý cực đại (MLE) là phương pháp dùng để
ước lượng tham số trong các mô hình thống kê
Trang 20Giả sử biến ngẫu nhiên X có các giá trị a a1, , ,2 an với các xác suất tương ứng
1( ), 2( ), , n( )
p p p , trong đó là tham số chưa biết Theo quy tắc nhân xác suất,
xác suất để trong n lần quan sát X nhận được mẫu X X1, 2, , Xn bằng
i=1, , , ; ( ) ( ) ( ) ( )
Gọi ˆX X1, 2, ,Xnlà ước lượng của Khi đó hàm L phụ thuộc tham số , và
ta mong muốn khi thay ˆ thì hàm L sẽ đạt giá trị lớn nhất
Phương pháp tìm để hàm hợp lý đạt cực đại gọi là phương pháp hợp lý cực đại (Maximum Likelihood Estimation- MLE), ˆ gọi là ước lượng hợp lý cực đại của
Khi mẫu cố định, L và lnL có chiều biến thiên như nhau, tức là L và lnL đạt
giá trị cực đại tại những điểm giống nhau, do đó trong tính toán, để giảm bớt sự
phức tạp, thay vì tìm max(L), ta tìm max(lnL) Hàm lnL được gọi là log – likelihood
1
ln , , , ; ln ( , )
n i
Hoặc có thể lấy hàm trung bình của log-likelihood
Trang 21I.1.6 BLUE (Best Linear Unbiased Estimator- Ước lượng không chệch tuyến tính tốt nhất)
Định nghĩa ma trận hiệp phương sai
Ma trận hiệp phương sai của vector ngẫu nhiên X, m chiều , ký hiệu là
Cov(X), là một ma trận vuông cấp m trong đó phần tử (i, j) là hiệp phương sai của i
ˆ N
n n n
a x
Trong đó an là các hằng số cần được xác định
11
Trang 22T T
T x
J
a S
12
1
T
T x
T x
Trang 23Nhƣ vậy, hằng số a cần ƣớc lƣợng có công thức nhƣ sau
1
1 1
1
1 1
1à
1ˆ
ˆ ˆ
x x
ˆ
1ˆ
var( )
x T x
T x
Trang 24bằng 0 Vì u là một vector ngẫu nhiên, không phải là một vector tham số, do đó sẽ không gọi là ước lượng cho u mà sẽ sử dụng thuật ngữ dự đoán (predict) cho u Phương pháp BLUP giúp dự đoán u
Giả sử
( ) 0( ) 0( )( )( , ) 0
E u E
1 u là một hàm tuyến tính theo y
2 ˆu là giá trị dự đoán của u thỏa mãn: E u u(ˆ ) 0
3 Var u u(ˆ ) không lớn hơn Var v u( ) , với v là một dự đoán khác của u
Nhắc lại phân phối có điều kiện của vector ngẫu nhiên trong không gian nhiều chiều như sau
Giả sử X là một vector ngẫu nhiên có số chiều là n có dạng
1 2
x x x
Trang 25ij T T
Trang 26Từ đó BLUP u( ) GZ ZGZ R 1(y Xˆ)
với ˆ là ước lượng của vector tham
số (sử dụng phương pháp BLUE)
I.2 HỒI QUY THAM SỐ
Hồi quy là một phương pháp thống kê mà giá trị kỳ vọng của một hay nhiều biến ngẫu nhiên được dự đoán dựa vào các biến ngẫu nhiên (đã biết trước) khác Dạng tổng quát của hồi quy tham số chứa một biến phụ thuộc, hay còn gọi là biến
đầu ra, hay biến y và một biến khác gọi là biến độc lập, hay biến giải thích, hay biến
x Ví dụ biến y có thể chỉ huyết áp của một người, biến x thể hiện tuổi tác của người
đó Sự phụ thuộc của huyết áp theo từng độ tuổi gọi là hồi quy của y theo x Do đó
ta sử dụng những tham số để thể hiện sự phụ thuộc giữa y và x dưới dạng những hàm tuyến tính Trong nghiên cứu, có thể tìm hiểu sự phụ thuộc của biến y với một hoặc nhiều biến giải thích x, tương ứng sẽ có hồi quy tuyến tính đơn biến và hồi quy
tuyến tính đa biến
I.2.1 Hồi quy tuyến tính đơn biến
Phân tích hồi quy tuyến tính là một phương pháp phân tích tìm ra mối quan
hệ gữa biến phụ thuộc (y) với một hay nhiều biến giải thích (x) Mối quan hệ đó sẽ
được mô hình hóa bằng hàm hồi quy, trong hồi quy tuyến tính đơn biến, hàm hồi quy sử dụng là hàm hồi quy bậc 1, các tham số trong hàm hồi quy được ước lượng
từ bộ dữ liệu Từ hàm hồi qui có thể dự đoán được biến phụ thuộc y nếu đã biết biến giải thích x Phương pháp phổ biến nhất để ước lượng các tham số là phương
pháp bình phương cực tiểu
Vì hàm hồi quy được sử dụng là hàm bậc 1, do đó mối quan hệ giữa biến phụ thuộc và biến độc lập sẽ có dạng là một đường thẳng (đường hồi quy) Tuy nhiên trong thực tế ta thấy rằng dữ liệu thu thập được là một đồ thị phân tán, tức là mối
quan hệ của hai biến x, y theo phương trình y 0 1x chỉ ở mức tương đối Vì vậy xuất hiện thành phần để thể hiện yếu tố ngẫu nhiên trong quan sát Ta có mô hình tổng quát dạng y 0 1x (I.7)
Trang 27Mô hình hồi quy tuyến tính chỉ yêu cầu tuyến tính ứng với tham số, không yêu cầu tuyến tính biến số
Từ bộ dữ liệu quan sát được ( , ),( , x y1 1 x y2 2), ( , x yn n), công thức (I.7) có thể viết lại như sau
y x ,
Như vậy nếu sai số càng nhỏ thì mối liên hệ giữa x, y càng chặt chẽ và ngược
lại Do đó E( ) 0
Giả định của mô hình tuyến tính cổ điển như sau
Các biến giải thích đã được xác định trước
E( ) 0 kỳ vọng của các yếu tố ngẫu nhiên bằng 0
Các i có phương sai bằng nhau
Không có sự tương quan giữa các i.
Không có sự tương quan giữa i và xi.
có phân phối chuẩn 2
Trang 28yX
1 1
2 2
1y
1
x x
I.2.2 Mô hình hồi quy tuyến tính đa biến
Mô hình hồi quy
Trong thực tế, có nhiều yếu tố ảnh hưởng đến giá trị của biến phụ thuộc, tức
là có nhiều biến giải thích x Trong trường hợp này mô hình hồi quy tuyến tính sẽ có
x là giá trị của biến x trong lần quan sát thứ j i Với i1,2, ,n ; j1,2, ,k
Trong công thức (I.10), có thể viết lại dưới dạng ma trận như sau
(I.12)
y X Trong đó
Trang 2911 12 1 1
21 22 2 2
1y
k k
Ma trận hiệp phương sai
Ma trận hiệp phương sai của vector ngẫu nhiên X, m chiều , ký hiệu là
Cov(X), là một ma trận vuông cấp m trong đó phần tử (i, j) là hiệp phương sai của i
Nếu X là một vector ngẫu nhiên, A là một ma trận hằng số và c là một vector hằng
số có cùng chiều AX, vector AX c có kỳ vọng và ma trận hiệp phương sai như sau
Trang 30T T
T T T
T T T
Trang 311 2
T T T
t q m là phân vị mức 100q của luật Student với m bậc tự do
Nếu n plớn hơn 30 ta có thể thay thế bằng công thức sau
Trang 33T T
là vết của ma trận A
Ta có
Trang 34( T ) T
n k
I.3 HỒI QUY PHI THAM SỐ
Hồi quy phi tham số là một kỹ thuật phân tích thống kê, đƣợc sử dụng để phân tích mối quan hệ giữa hai biến trong đồ thị phân tán Nếu kỹ thuật phân tích tham số đƣợc sử dụng khá rộng rãi bằng cách sử dụng một tham số để thể hiện mối quan hệ
Trang 35giữa hai biến như là hệ số tương quan hay hệ số hồi quy, thì kỹ thuật phi tham số lại không chứa một tham số nào Thay vào đó, mối quan hệ giữa các biến được thể hiện bằng một đường cong Do đó những kỹ thuật phân tích phi tham số cũng có thể gọi
là phân tích hồi quy phi tuyến hay kỹ thuật làm trơn đồ thị phân tán
Giả sử x, y là hai biến liên tục, mối quan hệ phi tham số giữa x và y được thể hiện
bằng công thức y f x ( )
Trong đó f x ( )được xem là một dạng công thức thể hiện mối quan hệ giữa x và y
( )
f x có thể là một hàm phi tuyến, cũng có thể là một hàm tuyến tính
Phương pháp trung bình cục bộ (Local averaging)
Đây là phương pháp đơn giản nhất trong kỹ thuật phân tích hồi quy phi tuyến Ta xem xét ví dụ
Giả sử ta quan tâm đến mối quan hệ giữa tuổi tác và thu nhập cá nhân, ta nghi ngờ rằng thu nhập sẽ tăng lên theo độ tuổi cho đến lúc chúng ta về hưu Khi đó thu nhập sẽ đạt mức cao nhất, tiếp theo có thể giảm xuống hoặc ngừng lại ở đó Đặt
biến thu nhập là y, biến độ tuổi là x
Vấn đề này có thể tiếp cận bằng phương pháp tham số, sử dụng hồi quy tuyến tính cho toàn bộ vấn đề Ngoài ra ta có thể sử dụng một dãy các điểm trung bình thu
nhập y tương ứng với từng độ tuổi x Tập hợp những điểm như thế sẽ tạo thành một
đồ thị phân tán thể hiện trung bình thu nhập của từng độ tuổi, ta sẽ nối những điểm
đó lại, tạo thành một đường gấp khúc Đây chính là đường hồi quy thể hiện mối quan hệ giữa độ tuổi và thu nhập cá nhân
Phương pháp này đã thể hiện một mối quan hệ không đơn giản là tuyến tính giữa hai biến tuổi và thu nhập Trong trường hợp nếu đồ thị là một đường thẳng, ta có thể
kết luận giữa x và y là mối quan hệ tuyến tính chặt chẽ
Tính trung bình giá trị y tại các điểm x là phương pháp phi tham số đơn giản
nhất Mô hình này còn được gọi là làm trơn trung bình động, lợi thế lớn nhất của
mô hình là nó đơn giản Tuy nhiên, việc tính trung bình tại mỗi giá trị x cũng có
những khó khăn đáng kể Ví dụ, với một số lượng mẫu quan sát quá lớn, quá nhiều
giá trị x thì trung bình của y sẽ không chính xác, mơ hồ, bị dao động Để khắc phục
Trang 36điều này, ta sẽ không tính trung bình y tại mỗi giá trị x, mà sẽ chia x thành những khoảng bằng nhau, khi đó tính trung bình của y tại từng khoảng Tuy nhiên, kích thước của khoảng sẽ ảnh hưởng trực tiếp đến trung bình y và hình dạng đường hồi quy Nếu khoảng chia hẹp, số lượng điểm sẽ tăng, giao động của y cũng tăng, khoảng chia rộng hơn, số lượng điểm sẽ giảm, giao động của y cũng giảm Ta có thể xác định độ rộng của khoảng bằng nhiều cách Ví dụ: chia x thành những khoảng bằng nhau tuy nhiên ta không thể mong đợi x có phân phối đều, do đó một lựa chọn khác là chia x thành những khoảng không đều nhau, nhưng số lượng các giá trị y
được phân bố đều trong những khoảng đó
Tuy nhiên, mô hình phi tham số này vẫn có hạn chế là chủ yếu dựa vào trung bình của dữ liệu Do đó người ta sẽ sử dụng mô hình phi tham số dựa trên ước lượng hồi quy cục bộ trên từng khoảng, thay vì ước lượng cục bộ trung bình trên
từng khoảng Tại mỗi khoảng, ta thực hiện ước lượng y theo x, kết hợp các dãy hồi
quy lại, ta sẽ có hàm hồi quy f x ( ) phi tham số
I.3.1 Hồi quy đa thức
Hồi quy đa thức là một dạng cơ bản khác của hồi quy phi tuyến, là nền tảng của hồi quy đa biến
2
0 1 2
p p
Nếu p =1 thì hồi quy đa thức chính là hồi quy tuyến tính
Nếu p =2 thì đường hồi quy là một parabol, có tên gọi khác là mô hình bậc hai Phương trình (I.13) có thể viết lại dưới dạng ma trận như sau
(I.14)
Trong đó
Trang 37p n
1
ˆ (X X T ) X y T
I.3.2 Mô hình que gẫy
Mô hình que gẫy là một mô hình cơ bản đơn giản nhất của mô hình phi tham số
sử dụng kỹ thuật Spline [8]
Hình I.1
Đồ thị phân tán giữa hai biến x và y
Giả sử ta có một đồ thị phân tán biểu diễn mối quan hệ phi tuyến giữa hai
biến x và y như trên, ta thấy rằng mối quan hệ phi tuyến được thể hiện khá rõ
ràng qua đồ thị Mục đích của hồi quy là có thể ước lượng một cách chính xác nhất mối quan hệ đó Tuy nhiên, trong trường hợp này, hồi quy tuyến tính đơn
Trang 38không phải là phương án tốt nhất Quan sát thấy dữ liệu có xu hướng phân phối
theo hai đường thẳng và giao nhau tại điểm x = 60, do đó ta sẽ ước lượng cho
từng phần bằng hàm tuyến tính đơn, sau đó sẽ kết nối chúng lại Mô hình như vậy được gọi là mô hình que gẫy
Trong đó là vị trí tại x làm đồ thị bị gẫy khúc
Nếu x hàm hồi quy tương ứng là y 0 1x
Nếu x hàm hồi quy tương ứng là y 0 11 1 11x i
2 1
Trang 39Thông thường (x60) được gọi là phần dương của hàm x60 vì hàm ( ) u đã đặt những giá trị âm của x60= 0
( x 60)được gọi là một hàm Spline tuyến tính cơ bản
Hình I.2 Đường hồi quy thể hiện mô hình que gẫy
I.3.3 Mô hình Spline
Spline là một kỹ thuật khác của hồi quy phi tham số, sử dụng trong đồ thị phân tán Spline là những hàm hồi quy cục bộ, dùng để nối những điểm lại với nhau, những điểm đó gọi là những nút Hồi quy spline đơn giản nhất là sử dụng những hàm tuyến tính hay hàm hằng để nối các nút lại với nhau Spline là một dạng
mô hình hồi quy cục bộ giống như ước lượng cục bộ Nhưng thay vì sử dụng ước lượng trung bình trong từng khoảng như trước kia, spline sử dụng các hàm để nối các nút
Mô hình hồi quy
Xét mô hình que gẫy
Trang 40Đƣợc gọi là cơ sở spline tuyến tính
Hàm f x( )của mô hình spline tuyến tính k nút có dạng
2 11
12
n 1