luận văn giới thiệu về phương pháp hồi qui phi tham số và mô hình tuyến tính tổng quát. các trường hợp một chiều, hàm Spiline riêng phần trong hồi qui phi tham số.
Trang 1A HỒI QUI PHI THAM SỐ
Chương I
GIỚI THIỆU VỀ PHƯƠNG PHÁP HỒI QUI
A.1.1 Tổng quan về hồi qui
Bất cứ phương pháp chọn một phương trình cho bộ dữ liệu đều gọi là hồi qui Các phương trình như vậy được xây dựng dựa trên ít nhất hai mục đích : Dự đoán
các quan trắc mới và đánh giá mức độ tương quan giữa các biến tác động và biến đáp ứng Vì các phương trình được chọn cung cấp cho ta cách thức mà biến ngẫu nhiên này ảnh hưởng bởi một hoặc nhiều biến khác, nên phương pháp hồi qui
được ứng dụng rộng rãi trong nhiều lĩnh vực : xã hội, khoa học kỹ thuật, thương
mai,
Sau đây ta sẽ nêu một vài phương pháp hồi qui thường được sử dụng
Để có một khái niệm sơ bộ về mối quan hệ giữa hai đại lượng ngẫu nhiên X
và Y, người ta thường biểu diễn mỗi quan sát (x¡, y;) bởi một điểm trên mặt phẳng
tọa độ Các điểm này hợp lại thành đám mây điểm trên mặt phẳng Nếu các điểm
này có xu hướng tụ tập xung quanh một đường thẳng nào đó thì ta chọn hàm hồi qui là Y = aX + b, trường hợp này gọi là hồi qui tuyến tính của Y theo X (còn gọi
là hồi qui đơn) Nếu các điểm này có xu hướng tụ tập xung quanh một đường
cong parabol thì ta chọn hàm hồi qui là Y = aX”?+ bX + c, Nói chung, tùy theo
“hình dáng” của đám mây điểm mà ta chọn hàm hồi qui sao cho phù hợp
ly
Hình 1
Trang 2A.1.2 Hồi qui tuyến tính
Hồi qui tuyến tính là một trong những kỹ thuật thống kê cổ điển nhất và
cũng được sử dụng rộng rãi nhất
Cho các cặp dữ liệu (t, Yj), i=1, n, một cách tự nhiên để xét hồi qui tuyến
tính là phương pháp chọn một mô hình dạng :
cho bộ dữ liệu, a và b là các tham số cần được ước lượng, e là sai số ngẫu nhiên
của mô hình
Giả sử a và b có các ước lượng là â và b, khi đó giá trị kỳ vọng của quan sát mới Y tại điểm t được cho bởi â+ bt, nghĩa là :
Ÿ=â+bt
Một cách trực giác, ta phải ước lượng a và b sao cho Y càng “gân” đám mây
điểm càng tốt, nghĩa là ta phải chọn â và Š sao cho biểu thức
s=5s? =È'(y,-ŸJŸ
nhỏ nhất Phương pháp này gọi là phương pháp bình phương bé nhất Đây là
phương pháp rất hay được sử dụng khi ước lượng các tham số của hàm hồi qui
(trong hồi qui có tham số)
A.1.3 Hồi qui đa thức
Có rất nhiều bộ số liệu mà ta không thể chọn cho nó một mô hình đường thẳng
đạng (A.1), mà ta phải chọn mô hình dạng
trong đó g là một đa thức với bậc nào đó xác định trước (có thể dựa vào chủ
quan), còn e là sai số ngẫu nhiên của mô hình Các hệ số của hàm g được ước lượng bằng phương pháp bình phương bé nhất Cách tiếp cận này được dùng rộng rãi trong thực hành bởi vì một mối quan hệ phi tuyến tính dù có phức tạp đến đâu
đi nữa đều có thể được mô hình hóa một cách chính xác bởi một đa thức với bậc
thích hợp, và dễ dàng chuyển ứng dụng sang hồi qui nhiều chiều
Hồi qui đa thức là một phương pháp phổ biến nhưng cũng còn nhiều trở ngại
Một trong các trở ngại là các cá thể quan sát có thể nằm xa, ảnh hưởng nhiều đến đường cong cần ước lượng Một khó khăn khác là mô hình mô tả bộ số liệu càng
chính xác thì bậc của đa thức càng tăng và ta không thể kiểm soát được
Trang 3Rõ ràng, khi chọn một mô hình dạng (A.2) cho bộ số liệu bằng phương pháp
bình phương bé nhất mà không đặt một ràng buộc nào lên đường cong g (gọi là
hồi qui phi tham số), thì tổng bình phương các sai số sẽ có giá trị nhỏ nhất là 0
nếu như ta chọn g là đường cong nội suy các điểm dữ liệu đã cho, chẳng hạn như
ta có thể chọn g là đường gấp khúc nối các điểm (t,, Y;) (Hình 2)
25;
Hình 2 : g(t) la da thitc tuyén tinh titng khúc
Nếu đặt thêm điều kiện trơn trên g thì cũng không có khác biệt gì mấy, ta được đường cong trơn đi qua tất cả các điểm dữ liệu (hình 3)
05
Hinh 3 : g(t) la dudng cong tron ndi suy cdc điểm dữ liệu
Rõ ràng, các đường cong được chọn như trên không thể dùng để “giải thích” bộ
số liệu đã cho
Các đường cong được chọn theo cách trên rất “gần” với bộ số liệu nhưng lại
có quá nhiều dao động thất thường, khó cho việc dự đoán một quan sát mới.
Trang 4Như vậy, trong trường hợp hồi qui phi tham số (với một biến độc lập), ta phải
chọn đường cong g sao cho vừa phản ánh được bộ số liệu, vừa có thể sử dụng g
để dự đoán các quan sát khác Để đạt được sự cân bằng giữa hai mục đích này, ta
phải xác định được độ biến thiên của đường cong ø đồng thời chọn ø càng “gần”
đám mây điểm càng tốt