1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng hồi quy bán tham số trong khoa học xã hội

93 15 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 93
Dung lượng 1,27 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Có nhiều phương pháp khác nhau để ước lượng hàm hồi quy, tuy nhiên, số liệu trong quá trình phân tích khá nhiều, do đó, để đơn giản hơn trong tính toán và trình bày, dữ liệu và tham số s

Trang 1

ĐẠI HỌC QUỐC GIA TP HCM

Trang 2

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI

TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM

Cán bộ hướng dẫn khoa học : PGS.TS Tô Anh Dũng

Cán bộ chấm nhận xét 1 :

Cán bộ chấm nhận xét 2 :

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày tháng năm

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: 1

2

3

4

5

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên

ngành sau khi luận văn đã được sửa chữa

CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA

Trang 3

ĐẠI HỌC QUỐC GIA TP.HCM

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: Hà Như Mai MSHV: 10240512

Ngày, tháng, năm sinh: 08 – 04 – 1986 Nơi sinh: Phú Thọ

Chuyên ngành: Toán Ứng Dụng Mã số : 604636

I TÊN ĐỀ TÀI:

ỨNG DỤNG HỒI QUY BÁN THAM SỐ TRONG KHOA HỌC XÃ HỘI

II NHIỆM VỤ VÀ NỘI DUNG:

 Bổ sung một số kiến thức

 Tìm hiểu các mô hình hồi quy tham số và hồi quy phi tham số

 Tìm hiểu mô hình hồi quy bán tham số

 Ứng dụng của hồi quy bán tham số trong khoa học xã hội

III NGÀY GIAO NHIỆM VỤ : 02/ 2012

IV NGÀY HOÀN THÀNH NHIỆM VỤ: 11/ 2012

V CÁN BỘ HƯỚNG DẪN PGS.TS Tô Anh Dũng

PGS.TS Tô Anh Dũng

TRƯỞNG KHOA….………

Trang 4

LỜI CẢM ƠN

Tôi xin bày tỏ lòng biết ơn sâu sắc của mình tới Thầy hướng dẫn – PGS.TS

Tô Anh Dũng – Trưởng bộ môn Xác suất thống kê, Đại học Khoa học tự nhiên – Đại học Quốc Gia Tp Hồ Chí Minh, người đã luôn khuyến khích, quan tâm giúp

đỡ, truyền đạt kiến thức và tạo mọi điều kiện thuận lợi giúp tôi hoàn thành luận văn tốt nghiệp này

Tôi xin bày tỏ lòng biết ơn chân thành đến tập thể Thầy, Cô giáo bộ môn Toán ứng dụng – Khoa Khoa học Ứng Dụng, phòng Đào Tạo Sau Đại Học – trường Đại học Bách Khoa – Đại học Quốc Gia Tp.Hồ Chí Minh đã tận tình dạy dỗ, giúp

đỡ, truyền đạt cho tôi trong suốt khóa học

Tôi xin gửi lời cảm ơn đến tập thể các bạn K2010 lớp cao học Toán Ứng Dụng – những người bạn yêu quí đã luôn đồng hành, giúp đỡ và chia sẽ khó khăn cùng tôi trong suốt quá trình học tập

Cuối cùng tôi xin bày tỏ lòng biết ơn sâu sắc đến gia đình, những người thân yêu nhất, đã luôn khích lệ và giúp đỡ tôi trong suốt thời gian học tập vừa qua

Hà Như Mai

Trang 6

MỤC LỤC

LỜI CẢM ƠN 4

TÓM TẮT 5

MỤC LỤC 6

MỞ ĐẦU 8

1 Tính cấp thiết của đề tài 8

2 Mục tiêu 8

3 Nội dung nghiên cứu 8

4 Phương pháp nghiên cứu 9

CHƯƠNG I 10

I.1 KIẾN THỨC BỔ SUNG 11

I.1.1 Phương pháp bình phương cực tiểu 11

I.1.2 Tìm cực trị có điều kiện 13

I.1.3 Phương pháp bình phương cực tiểu có trọng số 16

I.1.4 Ước lượng không chệch 19

I.2 HỒI QUY THAM SỐ 26

I.2.1 Hồi quy tuyến tính đơn biến 26

I.2.2 Mô hình hồi quy tuyến tính đa biến 28

I.3 HỒI QUY PHI THAM SỐ 34

I.3.1 Hồi quy đa thức 36

I.3.2 Mô hình que gẫy 37

I.3.3 Mô hình Spline 39

CHƯƠNG II 47

II.1 MÔ HÌNH HỖN HỢP 48

II.1.1 Mô hình hồi quy 48

II.1.2 Phương sai của 2 2 à u v    49

Trang 7

II.2.1 Mô hình hồi quy bán tham số đơn giản 52

II.2.2 Mô hình hồi quy bán tham số hỗn hợp 54

II.3 MÔ HÌNH PHỤ TUYẾN TÍNH_GAM (Generalized Additive Models) 62

CHƯƠNG III 73

III.1 MÔ TẢ DỮ LIỆU 74

III.2 MÔ HÌNH 1 (gam.1) 79

III.3 MÔ HÌNH 2 (gam.2) 81

III.4 MÔ HÌNH 3 (gam.3) 83

III.5 MÔ HÌNH 4 (gam.4) 84

III.6 NHẬN XÉT 86

KẾT LUẬN 90

TÀI LIỆU THAM KHẢO 92

Trang 8

MỞ ĐẦU

1 Tính cấp thiết của đề tài

Trong thực tế, hồi quy được ứng dụng rộng rãi trong các ngành khoa học tự nhiên và khoa học xã hội Hai loại hồi quy thông thường nhất là hồi quy tham số

và hồi quy phi tham số Mô hình thường được sử dụng nhiều là mô hình hồi quy tham số Tuy nhiên, trong nhiều trường hợp, hồi quy tham số không thể đưa ra mối tương quan phù hợp với dữ liệu, khi đó người ta cần dùng đến hồi quy phi tham số Do đó cần một sự kết hợp giữa hồi quy tham số và hồi quy phi tham số Hồi quy bán tham số là cầu nối giữa hai mô hình hồi quy tham số và phi tham số Nó cho phép chúng ta làm tốt cả hai việc phân tích hồi quy tham số và phi tham số, giúp làm giảm bớt sự phức tạp của bộ dữ liệu, giúp chúng ta có thể hiểu vấn đề dễ dàng hơn, tìm ra mối tương quan phù hợp với bộ dữ liệu

Tuy nhiên, hồi quy bán tham số không có nghĩa là tìm ra những mô hình mới thay thế cho những mô hình cũ, mà chủ yếu chúng ta mở rộng những mô hình thống kê chuẩn để giải quyết một số vấn đề khoa học xã hội

2 Mục tiêu

Nghiên cứu các mô hình hồi quy trong phân tích thống kê như hồi quy tham

số, hồi quy phi tham số, hồi quy bán tham số

3 Nội dung nghiên cứu

Trang 9

4 Phương pháp nghiên cứu

 Phương pháp tham khảo tài liệu: tìm hiểu cơ sở lý thuyết và thực tiễn

 Phương pháp chuyên gia: thu thập ý kiến của chuyên gia am hiểu về lĩnh vực đang xem xét

 Phương pháp thống kê: phân tích và xử lý số liệu trong xây dựng mô hình hồi quy

Trang 10

CHƯƠNG I NHỮNG KIẾN THỨC CƠ BẢN

Trong chương này, luận văn trình bày một số phương pháp ước lượng dùng trong các mô hình hồi quy Chương này cũng trình bày những kiến thức cơ bản về hai mô hình hồi quy là hồi quy tuyến tính và hồi quy phi tuyến bao gồm, mô hình tổng quát, phương pháp ước lượng, phương sai, độ lệch chuẩn

Trang 11

I.1 KIẾN THỨC BỔ SUNG

Hồi quy là phương pháp phân tích dữ liệu, tìm mối liên quan giữa các biến dưới dạng công thức gọi là hàm hồi quy Mục tiêu đặt ra là làm sao xác định hàm hồi quy thể hiện chính xác mối tương quan giữa các biến, ước đoán giá trị từ hàm hồi quy gần đúng với giá trị thực tế khảo sát Có nhiều phương pháp khác nhau để ước lượng hàm hồi quy, tuy nhiên, số liệu trong quá trình phân tích khá nhiều, do

đó, để đơn giản hơn trong tính toán và trình bày, dữ liệu và tham số sẽ đưa về dạng

ma trận Trong phần này trình bày một số phương pháp ước lượng đơn giản để ước lượng hàm hồi quy

I.1.1 Phương pháp bình phương cực tiểu

Phương pháp bình phương cực tiểu là một trong những phương pháp tốt nhất

để xác định đường hồi quy phù hợp với dữ liệu Phương pháp này chỉ sử dụng những phép tính đơn giản và kiến thức của đại số tuyến tính Cơ bản nhất là tìm một hàm tuyến tính yax b  phù hợp với một bộ dữ liệu quan sát được Một cách tổng quát, phương pháp này được áp dụng để tìm hàm hồi quy dạng tuyến tính

như sau (I.1)

Trong đó các hàm g xk( ) không cần thiết phải là những hàm tuyến tính theo biến x

Trang 12

 

2

0 1 1 2 2 1

0 1 1 2 2

1 1

Trang 13

1

0 2

2 1

Như vậy hàm hồi quyy  0  1g x1( )  2g x2( )   kg xk( ) được ước lượng

và trình bày dưới dạng ma trận như sau

ˆ

ˆy X   với ˆ ( t ) 1 t

Trong đó ˆy là giá trị tiên đoán của y được tính từ hàm hồi quy

I.1.2 Tìm cực trị có điều kiện

Xét bài toán: Tìm vector tham sốcủa hàmyX  với điều kiện

Trang 14

i n

Trang 15

 

0 1 1 11 11 1 1 1

Trang 16

y y y

I.1.3 Phương pháp bình phương cực tiểu có trọng số

Bình phương cực tiểu có trọng số là phương pháp cải tiến của phương pháp bình phương cực tiểu

Trang 17

số W i càng cao, thì ảnh hưởng của điểm x y i, iđến hàm hồi quy càng lớn Ta định nghĩa lại tổng phần dư như sau

W y

 hoặc là 12

i i

W y

2

0 1 1 2 2 1

0 1 1 2 2 1

Trang 18

 

0 1 1 2 2 1

1

0 1 1 2 2 1

Trang 19

1

0 2

2 1

1

( )(I.4)( )

i n

i i i i

i n

i i k i i

k i

I.1.5 Ước lượng hợp lý cực đại (Maximum likelihood )[5]

Trong thống kê, ước lượng hợp lý cực đại (MLE) là phương pháp dùng để

ước lượng tham số trong các mô hình thống kê

Trang 20

Giả sử biến ngẫu nhiên X có các giá trị a a1, , ,2 an với các xác suất tương ứng

1( ), 2( ), , n( )

ppp  , trong đó  là tham số chưa biết Theo quy tắc nhân xác suất,

xác suất để trong n lần quan sát X nhận được mẫu X X1, 2, , Xn bằng

i=1, , , ; ( ) ( ) ( ) ( )

Gọi ˆX X1, 2, ,Xnlà ước lượng của  Khi đó hàm L phụ thuộc tham số  , và

ta mong muốn khi thay  ˆ thì hàm L sẽ đạt giá trị lớn nhất

Phương pháp tìm  để hàm hợp lý đạt cực đại gọi là phương pháp hợp lý cực đại (Maximum Likelihood Estimation- MLE), ˆ gọi là ước lượng hợp lý cực đại của 

Khi mẫu cố định, L và lnL có chiều biến thiên như nhau, tức là L và lnL đạt

giá trị cực đại tại những điểm giống nhau, do đó trong tính toán, để giảm bớt sự

phức tạp, thay vì tìm max(L), ta tìm max(lnL) Hàm lnL được gọi là log – likelihood

1

ln , , , ; ln ( , )

n i

Hoặc có thể lấy hàm trung bình của log-likelihood

Trang 21

I.1.6 BLUE (Best Linear Unbiased Estimator- Ước lượng không chệch tuyến tính tốt nhất)

Định nghĩa ma trận hiệp phương sai

Ma trận hiệp phương sai của vector ngẫu nhiên X, m chiều , ký hiệu là

Cov(X), là một ma trận vuông cấp m trong đó phần tử (i, j) là hiệp phương sai của i

ˆ N

n n n

a x

Trong đó an là các hằng số cần được xác định

11

Trang 22

T T

T x

J

a S

12

1

T

T x

T x

Trang 23

Nhƣ vậy, hằng số a cần ƣớc lƣợng có công thức nhƣ sau

1

1 1

1

1 1

ˆ ˆ

x x

ˆ

var( )

x T x

T x

Trang 24

bằng 0 Vì u là một vector ngẫu nhiên, không phải là một vector tham số, do đó sẽ không gọi là ước lượng cho u mà sẽ sử dụng thuật ngữ dự đoán (predict) cho u Phương pháp BLUP giúp dự đoán u

Giả sử

( ) 0( ) 0( )( )( , ) 0

E u E

1 u là một hàm tuyến tính theo y

2 ˆu là giá trị dự đoán của u thỏa mãn: E u u(ˆ ) 0

3 Var u u(ˆ ) không lớn hơn Var v u(  ) , với v là một dự đoán khác của u

Nhắc lại phân phối có điều kiện của vector ngẫu nhiên trong không gian nhiều chiều như sau

Giả sử X là một vector ngẫu nhiên có số chiều là n có dạng

1 2

x x x

Trang 25

ij T T

Trang 26

Từ đó BLUP u( ) GZ ZGZR 1(y Xˆ)

   với ˆ là ước lượng của vector tham

số  (sử dụng phương pháp BLUE)

I.2 HỒI QUY THAM SỐ

Hồi quy là một phương pháp thống kê mà giá trị kỳ vọng của một hay nhiều biến ngẫu nhiên được dự đoán dựa vào các biến ngẫu nhiên (đã biết trước) khác Dạng tổng quát của hồi quy tham số chứa một biến phụ thuộc, hay còn gọi là biến

đầu ra, hay biến y và một biến khác gọi là biến độc lập, hay biến giải thích, hay biến

x Ví dụ biến y có thể chỉ huyết áp của một người, biến x thể hiện tuổi tác của người

đó Sự phụ thuộc của huyết áp theo từng độ tuổi gọi là hồi quy của y theo x Do đó

ta sử dụng những tham số để thể hiện sự phụ thuộc giữa y và x dưới dạng những hàm tuyến tính Trong nghiên cứu, có thể tìm hiểu sự phụ thuộc của biến y với một hoặc nhiều biến giải thích x, tương ứng sẽ có hồi quy tuyến tính đơn biến và hồi quy

tuyến tính đa biến

I.2.1 Hồi quy tuyến tính đơn biến

Phân tích hồi quy tuyến tính là một phương pháp phân tích tìm ra mối quan

hệ gữa biến phụ thuộc (y) với một hay nhiều biến giải thích (x) Mối quan hệ đó sẽ

được mô hình hóa bằng hàm hồi quy, trong hồi quy tuyến tính đơn biến, hàm hồi quy sử dụng là hàm hồi quy bậc 1, các tham số trong hàm hồi quy được ước lượng

từ bộ dữ liệu Từ hàm hồi qui có thể dự đoán được biến phụ thuộc y nếu đã biết biến giải thích x Phương pháp phổ biến nhất để ước lượng các tham số là phương

pháp bình phương cực tiểu

Vì hàm hồi quy được sử dụng là hàm bậc 1, do đó mối quan hệ giữa biến phụ thuộc và biến độc lập sẽ có dạng là một đường thẳng (đường hồi quy) Tuy nhiên trong thực tế ta thấy rằng dữ liệu thu thập được là một đồ thị phân tán, tức là mối

quan hệ của hai biến x, y theo phương trình y 0 1x chỉ ở mức tương đối Vì vậy xuất hiện thành phần  để thể hiện yếu tố ngẫu nhiên trong quan sát Ta có mô hình tổng quát dạng y   0 1x   (I.7)

Trang 27

Mô hình hồi quy tuyến tính chỉ yêu cầu tuyến tính ứng với tham số, không yêu cầu tuyến tính biến số

Từ bộ dữ liệu quan sát được ( , ),( , x y1 1 x y2 2), ( , x yn n), công thức (I.7) có thể viết lại như sau

y     x   ,

Như vậy nếu sai số càng nhỏ thì mối liên hệ giữa x, y càng chặt chẽ và ngược

lại Do đó E( ) 0

Giả định của mô hình tuyến tính cổ điển như sau

 Các biến giải thích đã được xác định trước

E( ) 0 kỳ vọng của các yếu tố ngẫu nhiên bằng 0

 Các i có phương sai bằng nhau

 Không có sự tương quan giữa các i.

 Không có sự tương quan giữa ixi.

  có phân phối chuẩn 2

Trang 28

yX 

1 1

2 2

1y

1

x x

I.2.2 Mô hình hồi quy tuyến tính đa biến

Mô hình hồi quy

Trong thực tế, có nhiều yếu tố ảnh hưởng đến giá trị của biến phụ thuộc, tức

là có nhiều biến giải thích x Trong trường hợp này mô hình hồi quy tuyến tính sẽ có

x là giá trị của biến x trong lần quan sát thứ j i Với i1,2, ,n ; j1,2, ,k

Trong công thức (I.10), có thể viết lại dưới dạng ma trận như sau

(I.12)

yX  Trong đó

Trang 29

11 12 1 1

21 22 2 2

1y

k k

Ma trận hiệp phương sai

Ma trận hiệp phương sai của vector ngẫu nhiên X, m chiều , ký hiệu là

Cov(X), là một ma trận vuông cấp m trong đó phần tử (i, j) là hiệp phương sai của i

Nếu X là một vector ngẫu nhiên, A là một ma trận hằng số và c là một vector hằng

số có cùng chiều AX, vector AXc có kỳ vọng và ma trận hiệp phương sai như sau

Trang 30

T T

T T T

T T T

Trang 31

1 2

T T T

t q m là phân vị mức 100q của luật Student với m bậc tự do

Nếu nplớn hơn 30 ta có thể thay thế bằng công thức sau

Trang 33

T T

 là vết của ma trận A

Ta có

Trang 34

( T ) T

n k

I.3 HỒI QUY PHI THAM SỐ

Hồi quy phi tham số là một kỹ thuật phân tích thống kê, đƣợc sử dụng để phân tích mối quan hệ giữa hai biến trong đồ thị phân tán Nếu kỹ thuật phân tích tham số đƣợc sử dụng khá rộng rãi bằng cách sử dụng một tham số để thể hiện mối quan hệ

Trang 35

giữa hai biến như là hệ số tương quan hay hệ số hồi quy, thì kỹ thuật phi tham số lại không chứa một tham số nào Thay vào đó, mối quan hệ giữa các biến được thể hiện bằng một đường cong Do đó những kỹ thuật phân tích phi tham số cũng có thể gọi

là phân tích hồi quy phi tuyến hay kỹ thuật làm trơn đồ thị phân tán

Giả sử x, y là hai biến liên tục, mối quan hệ phi tham số giữa x và y được thể hiện

bằng công thức yf x ( )  

Trong đó f x ( )được xem là một dạng công thức thể hiện mối quan hệ giữa x và y

( )

f x có thể là một hàm phi tuyến, cũng có thể là một hàm tuyến tính

Phương pháp trung bình cục bộ (Local averaging)

Đây là phương pháp đơn giản nhất trong kỹ thuật phân tích hồi quy phi tuyến Ta xem xét ví dụ

Giả sử ta quan tâm đến mối quan hệ giữa tuổi tác và thu nhập cá nhân, ta nghi ngờ rằng thu nhập sẽ tăng lên theo độ tuổi cho đến lúc chúng ta về hưu Khi đó thu nhập sẽ đạt mức cao nhất, tiếp theo có thể giảm xuống hoặc ngừng lại ở đó Đặt

biến thu nhập là y, biến độ tuổi là x

Vấn đề này có thể tiếp cận bằng phương pháp tham số, sử dụng hồi quy tuyến tính cho toàn bộ vấn đề Ngoài ra ta có thể sử dụng một dãy các điểm trung bình thu

nhập y tương ứng với từng độ tuổi x Tập hợp những điểm như thế sẽ tạo thành một

đồ thị phân tán thể hiện trung bình thu nhập của từng độ tuổi, ta sẽ nối những điểm

đó lại, tạo thành một đường gấp khúc Đây chính là đường hồi quy thể hiện mối quan hệ giữa độ tuổi và thu nhập cá nhân

Phương pháp này đã thể hiện một mối quan hệ không đơn giản là tuyến tính giữa hai biến tuổi và thu nhập Trong trường hợp nếu đồ thị là một đường thẳng, ta có thể

kết luận giữa x và y là mối quan hệ tuyến tính chặt chẽ

Tính trung bình giá trị y tại các điểm x là phương pháp phi tham số đơn giản

nhất Mô hình này còn được gọi là làm trơn trung bình động, lợi thế lớn nhất của

mô hình là nó đơn giản Tuy nhiên, việc tính trung bình tại mỗi giá trị x cũng có

những khó khăn đáng kể Ví dụ, với một số lượng mẫu quan sát quá lớn, quá nhiều

giá trị x thì trung bình của y sẽ không chính xác, mơ hồ, bị dao động Để khắc phục

Trang 36

điều này, ta sẽ không tính trung bình y tại mỗi giá trị x, mà sẽ chia x thành những khoảng bằng nhau, khi đó tính trung bình của y tại từng khoảng Tuy nhiên, kích thước của khoảng sẽ ảnh hưởng trực tiếp đến trung bình y và hình dạng đường hồi quy Nếu khoảng chia hẹp, số lượng điểm sẽ tăng, giao động của y cũng tăng, khoảng chia rộng hơn, số lượng điểm sẽ giảm, giao động của y cũng giảm Ta có thể xác định độ rộng của khoảng bằng nhiều cách Ví dụ: chia x thành những khoảng bằng nhau tuy nhiên ta không thể mong đợi x có phân phối đều, do đó một lựa chọn khác là chia x thành những khoảng không đều nhau, nhưng số lượng các giá trị y

được phân bố đều trong những khoảng đó

Tuy nhiên, mô hình phi tham số này vẫn có hạn chế là chủ yếu dựa vào trung bình của dữ liệu Do đó người ta sẽ sử dụng mô hình phi tham số dựa trên ước lượng hồi quy cục bộ trên từng khoảng, thay vì ước lượng cục bộ trung bình trên

từng khoảng Tại mỗi khoảng, ta thực hiện ước lượng y theo x, kết hợp các dãy hồi

quy lại, ta sẽ có hàm hồi quy f x ( ) phi tham số

I.3.1 Hồi quy đa thức

Hồi quy đa thức là một dạng cơ bản khác của hồi quy phi tuyến, là nền tảng của hồi quy đa biến

2

0 1 2

p p

Nếu p =1 thì hồi quy đa thức chính là hồi quy tuyến tính

Nếu p =2 thì đường hồi quy là một parabol, có tên gọi khác là mô hình bậc hai Phương trình (I.13) có thể viết lại dưới dạng ma trận như sau

(I.14)

Trong đó

Trang 37

p n

1

ˆ (X X T ) X y T

I.3.2 Mô hình que gẫy

Mô hình que gẫy là một mô hình cơ bản đơn giản nhất của mô hình phi tham số

sử dụng kỹ thuật Spline [8]

Hình I.1

Đồ thị phân tán giữa hai biến x và y

Giả sử ta có một đồ thị phân tán biểu diễn mối quan hệ phi tuyến giữa hai

biến x và y như trên, ta thấy rằng mối quan hệ phi tuyến được thể hiện khá rõ

ràng qua đồ thị Mục đích của hồi quy là có thể ước lượng một cách chính xác nhất mối quan hệ đó Tuy nhiên, trong trường hợp này, hồi quy tuyến tính đơn

Trang 38

không phải là phương án tốt nhất Quan sát thấy dữ liệu có xu hướng phân phối

theo hai đường thẳng và giao nhau tại điểm x = 60, do đó ta sẽ ước lượng cho

từng phần bằng hàm tuyến tính đơn, sau đó sẽ kết nối chúng lại Mô hình như vậy được gọi là mô hình que gẫy

Trong đó  là vị trí tại x làm đồ thị bị gẫy khúc

Nếu x hàm hồi quy tương ứng là y 0 1x

Nếu x hàm hồi quy tương ứng là y  0 11   1 11x i

2 1

Trang 39

Thông thường (x60) được gọi là phần dương của hàm x60 vì hàm ( ) u đã đặt những giá trị âm của x60= 0

( x  60)được gọi là một hàm Spline tuyến tính cơ bản

Hình I.2 Đường hồi quy thể hiện mô hình que gẫy

I.3.3 Mô hình Spline

Spline là một kỹ thuật khác của hồi quy phi tham số, sử dụng trong đồ thị phân tán Spline là những hàm hồi quy cục bộ, dùng để nối những điểm lại với nhau, những điểm đó gọi là những nút Hồi quy spline đơn giản nhất là sử dụng những hàm tuyến tính hay hàm hằng để nối các nút lại với nhau Spline là một dạng

mô hình hồi quy cục bộ giống như ước lượng cục bộ Nhưng thay vì sử dụng ước lượng trung bình trong từng khoảng như trước kia, spline sử dụng các hàm để nối các nút

Mô hình hồi quy

Xét mô hình que gẫy

Trang 40

Đƣợc gọi là cơ sở spline tuyến tính

Hàm f x( )của mô hình spline tuyến tính k nút có dạng

2 11

12

n 1

Ngày đăng: 28/01/2021, 22:06

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. Đậu Thế Cấp (2008), Xác suất thống kê, Lý thuyết và bài tập, NXB Giáo dục Sách, tạp chí
Tiêu đề: Xác suất thống kê, Lý thuyết và bài tập
Tác giả: Đậu Thế Cấp
Nhà XB: NXB Giáo dục
Năm: 2008
[2]. Tô Anh Dũng (2007), Lý thuyết xác suất và thống kê toán, NXB Đại học quốc gia TP Hồ Chí Minh Sách, tạp chí
Tiêu đề: Lý thuyết xác suất và thống kê toán
Tác giả: Tô Anh Dũng
Nhà XB: NXB Đại học quốc gia TP Hồ Chí Minh
Năm: 2007
[3]. Nguyễn Văn Tuấn (2007), Phân tích số liệu và biểu đồ bằng R, NXB Khoa học Kỹ thuật.Tiếng Anh Sách, tạp chí
Tiêu đề: Phân tích số liệu và biểu đồ bằng R
Tác giả: Nguyễn Văn Tuấn
Nhà XB: NXB Khoa học Kỹ thuật. Tiếng Anh
Năm: 2007
[4]. Adonis Yatchew , Semiparametric Regression for the Applied Econometrician, Cambridge University press Sách, tạp chí
Tiêu đề: Semiparametric Regression for the Applied Econometrician
[5]. David Rupper, M.P.Wand and R.J.Carroll (2003), Semiparametric Regression, Cambridge University press Sách, tạp chí
Tiêu đề: Semiparametric Regression
Tác giả: David Rupper, M.P.Wand and R.J.Carroll
Năm: 2003
[6]. Hastie, T. J. and Tibshirani, R. J. (1990), Generalized Additive Models, Chapman & Hall/CRC Sách, tạp chí
Tiêu đề: Generalized Additive Models
Tác giả: Hastie, T. J. and Tibshirani, R. J
Năm: 1990
[7]. Henderson, C. R. (1975), Best Linear Unbiased Estimation and Prediction under a Selection Model Vol. 31, No. 2, Biometrics Sách, tạp chí
Tiêu đề: Best Linear Unbiased Estimation and Prediction under a Selection Model Vol. 31, No. 2
Tác giả: Henderson, C. R
Năm: 1975
[8]. Luke Keele (2008), Semiparametric Regression for the Social Sciences, John Wiley & Sons, Ltd Sách, tạp chí
Tiêu đề: Semiparametric Regression for the Social Sciences
Tác giả: Luke Keele
Năm: 2008
[9]. Mood, A. M. (1950) , Introduction to the Theory of Statistic, New York: McGraw – Hill Sách, tạp chí
Tiêu đề: Introduction to the Theory of Statistic
[10]. Vincenzo Verardi, Nicolas Debarsy (2011), Robinson’s n - consistent semiparametric regression estimator in Stata, version , Centre for Research in the Economics of Development Sách, tạp chí
Tiêu đề: Robinson’s n - consistent semiparametric regression estimator in Stata, version
Tác giả: Vincenzo Verardi, Nicolas Debarsy
Năm: 2011
[11]. Wolfgang Họrdle, Marlene Mỹller, Stefan Sperlich, Axel Werwatz (2004), Nonparametric and Semiparametric Models , An Introduction , Springer Sách, tạp chí
Tiêu đề: Nonparametric and Semiparametric Models , An Introduction
Tác giả: Wolfgang Họrdle, Marlene Mỹller, Stefan Sperlich, Axel Werwatz
Năm: 2004
[12]. W. N. Venables, D. M. Smith and the R Development Core Team (2012), An Introduction to R, Notes on R: A Programming Environment for Data Analysis and Graphics Version 2.15.0 Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w