1. Trang chủ
  2. » Luận Văn - Báo Cáo

Các phương pháp làm trơn trong thống kê và ứng dụng

117 32 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 117
Dung lượng 5,22 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Ngày nay, sự phát triển của máy tính điện tử và các phần mềm chuyên về lập trình tính toán, cùng với sự trợ giúp đắc lực của các công cụ toán học cụ thể ở luận văn này là phương pháp hồi

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA

Trang 2

Cán bộ hướng dẫn khoa học: PGS.TS Tô Anh Dũng

Cán bộ chấm nhận xét 1: TS Nguyễn Bá Thi

Cán bộ chấm nhận xét 2: PGS.TS Nguyễn Văn Kính

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách khoa, ĐHQG TP Hồ Chí Minh ngày 11 tháng 01 năm 2018

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:

1 Chủ tịch hội đồng: PGS.TS Nguyễn Đình Huy

2 Thư ký hội đồng: TS Huỳnh Thị Hồng Diễm

3 Phản biện 1: TS Nguyễn Bá Thi

4 Phản biện 2: PGS.TS Nguyễn Văn Kính

5 Ủy viên hội đồng: TS Lê Xuân Đại

Xác nhận của Chủ tịch Hội đồng đánh giá luận văn và Trưởng khoa quản lý chuyên ngành

CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA

PGS.TS Nguyễn Đình Huy PGS.TS Huỳnh Quang Linh

Trang 3

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: Huỳnh Minh Trí MSHV: 13241381

Ngày, tháng, năm sinh: 17/04/1991 Nơi sinh: Tiền Giang

Chuyên ngành: Toán ứng dụng Mã số: 60 46 01 12

I TÊN ĐỀ TÀI: CÁC PHƯƠNG PHÁP LÀM TRƠN TRONG THỐNG KÊ VÀ ỨNG DỤNG

NỘI DUNG VÀ NHIỆM VỤ:

 Xây dựng các công thức và phương pháp làm trơn trong thống kê thông qua phương pháp hồi quy

 Ứng dụng các phương pháp làm trơn vào thống kê

II NGÀY GIAO NHIỆM VỤ: 04/07/2017

III NGÀY HOÀN THÀNH NHIỆM VỤ: 04/12/2017

IV CÁN BỘ HƯỚNG DẪN: PGS.TS Tô Anh Dũng

TP HCM, ngày 12 tháng 12 năm 2017

CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM NGÀNH TOÁN ỨNG DỤNG

PGS.TS Tô Anh Dũng PGS.TS Nguyễn Đình Huy

TRƯỞNG KHOA

PGS.TS Huỳnh Quang Linh

Trang 4

Tôi xin chân thành cảm ơn sâu sắc Thầy hướng dẫn, PGS.TS Tô Anh Dũng Thầy

đã luôn tận tâm truyền đạt kiến thức, động viên, khuyến khích, giúp đỡ tôi hoàn thành luận văn tốt nghiệp Đồng thời tôi xin gửi lời cảm ơn thầy PGS.TS Nguyễn Đình Huy trưởng Bộ môn Toán ứng dụng – Trường Đại học Bách Khoa đã nhiệt tình hướng dẫn thủ tục hành chính để tôi kịp hoàn thành thủ tục hành chính, bảo vệ luận văn đúng hạn Tôi xin chân thành cảm ơn tất cả quý thầy cô Bộ môn Toán ứng dụng – Khoa học ứng dụng đã tận tình dạy dỗ, truyền đạt kiến thức, kỹ năng cho tôi suốt khóa học và Phòng sau Đại học đã luôn tạo điều kiện thuận lợi cho tôi

Cuối cùng, tôi xin cảm ơn các anh chị em của lớp Cao học Toán ứng dụng khóa

2013 đã đồng hành cùng tôi trong suốt khóa học, và tôi xin cảm ơn gia đình, bạn bè, người thân đã ủng hộ tinh thần và vật chất để tôi thuận lợi hoàn thành khóa học

TP Hồ Chí Minh, ngày 12 tháng 12 năm 2017

Huỳnh Minh Trí

Trang 5

Luận văn trình bày các phương pháp làm trơn số liệu trong thống kê thông qua các phương pháp hồi quy với các loại biến khác nhau Vấn đề được giải quyết bằng áp dụng các lý thuyết hồi quy và giải số bằng phần mềm S- Plus

ABSTRACT

The thesis presents methods of smoothing data in statistics through regression methods with different types of variables The problem is solved by applying regressiontheories and S-Plus software

Trang 6

Tôi tên Huỳnh Minh Trí, là cao học viên chuyên ngành toán ứng dụng Trường Đại học Bách Khoa TPHCM, khóa 2013 đợt 2 Mã HV: 13241381

Tôi xin cam đoan rẳng ngoại trừ các kết quả tham khảo từ các trong trình khác như

đã ghi rõ trong luận văn, các công việc trình bày trong luận văn này do chính tôi thực hiện và chưa có phần nào của luận văn này được nộp để lấy bằng cấp ở trường này hoặc trường khác

TP Hồ Chí Minh, ngày 12 tháng 12 năm 2017

Huỳnh Minh Trí

Trang 7

Làm trơn đóng vai trò quan trọng trong thống kê, nó giúp loại bỏ những dữ liệu không mong muốn; bổ sung, hiệu chỉnh và thống nhất thông tin về các biến của một cơ

sở dữ liệu đảm bảo công tác xử lý, khai thác, kết nối dữ liệu nhận được các kết quả đúng

Phương pháp hồi quy có nhiều ứng dụng trong xã hội, khoa học – kỹ thuật, thương mại,… Nó cho ta dự đoán các quan trắc mới, đánh giá mức độ tương quan giữa biến độc lập và biến mục tiêu cũng như cung cấp cách thức mà biến ngẫu nhiên này ảnh hưởng bởi một hoặc nhiều biến khác Vì vậy, phương pháp hồi quy là một công cụ hữu hiệu và tối ưu cho việc làm trơn trong thống kê

Ngày nay, sự phát triển của máy tính điện tử và các phần mềm chuyên về lập trình tính toán, cùng với sự trợ giúp đắc lực của các công cụ toán học (cụ thể ở luận văn này

là phương pháp hồi quy), ta có thể đưa ra các phương pháp làm trơn trong thống kê với các trường hợp biến khác nhau

Hồi quy là công cụ thống kế khá phổ biến và được sử dụng rất rộng rãi, nhiều nhà

nghiên cứu trong và ngoài nước đã đưa ra nhiều công trình như “Introdution to

Nonparametric Regression” của tác giả Kunio Takezawa, “Smoothing and Parametric Regression” của tác giả Germán Rodríguez, “Nonparametric Regression”

Non-của John Fox,…

Trung bình động, chuỗi Fourier, phân phối chuẩn,…là những phương pháp hồi quy phổ biến và cơ bản dùng trong làm trơn dữ liệu Tuy nhiên các phương pháp này đôi khi đem lại các quả không tốt, không tối ưu trong một số trường hợp biến khác nhau

Ví dụ ta xét tỉ giá trung bình hằng tháng của Đô la Mỹ và Yên Nhật từ tháng 2 năm 1987 đến tháng 5 năm 1999 được minh họa bằng hình 1 bên dưới:

Trang 8

đến tháng 5 năm 1999 Trục Ox minh họa tháng bắt đầu tháng 2 năm 1987

Hình 2 và hình 3 lần lượt là kết quả làm trơn bộ dữ liệu trên bằng phương pháp trung bình động và chuỗi Fourier

Hình 2 Kết quả làm trơn bằng phương pháp trung bình động

Trang 9

Ta thấy rõ ràng các đường cong hồi quy của hai phương pháp này hoàn toàn không khớp với bộ số liệu

Tiếp tục xét hình 4 thể hiện nhiệt độ trung bình hằng ngày (số lượng số liệu là 365) vào năm 1986 ở một hệ thống thu thập dữ liệu khí tượng tự động (AMeDAS), trạm quan sát nằm trên đảo Ishigaki, Nhật Bản

Trang 10

Do tính chất đối xứng của chuỗi Fourier nên đường cong hồi quy hoàn toàn không chính xác đối với những bộ số liệu lệch về một phía như bộ số liệu mà ta đang xét Luận văn sẽ trình bày phương pháp cũng như ứng dụng làm trơn cho từng trường hợp dữ liệu với biến khác nhau như: biến một chiều ( cách đều và không cách đều), biến nhiều chiều và biểu đồ tần số trên cơ sở là các phương pháp hồi quy với sự hỗ trợ tính toán của phần mềm S – Plus để đưa ra được kết quả làm trơn tốt nhất

Trang 11

MỤC LỤC

BẢNG KÍ HIỆU, VIẾT TẮT 4

CÁC KHÁI NIỆM CƠ BẢN 6

Chương 1 Kiến thức chuẩn bị 7

1.1 Giới thiệu phương pháp hồi quy………7

1.2 Sơ lược về ma trận mũ………9

Chương 2 Các phương pháp làm trơn dữ liệu với biến một chiều 10

2.1 Làm trơn dữ liệu với biến cách đều……….10

2.1.1 Hồi quy tuyến tính cục bộ……… 10

2.1.1.1 Giới thiệu phương pháp… ………10

2.1.1.2 Xây dựng phương pháp……….10

2.1.1.3 Ví dụ làm trơn trong thống kê………12

2.1.2 Hàm spline làm trơn……… … 13

2.1.2.1 Giới thiệu phương pháp……… 13

2.1.2.2 Xây dựng phương pháp 14

2.1.2.3 Ví dụ làm trơn trong thống kê……… 15

2.2 Làm trơn dữ liệu với biến không cách đều……… 18

2.2.1 Ước lương Nadaraya – Watson ………18

2.2.1.1 Giới thiệu và xây dựng phương pháp……….18

2.2.1.2 Ví dụ làm trơn trong thống kê……….25

Trang 12

2.2.2 Đa thức hồi quy cục bộ ……….27

2.2.2.1 Giới thiệu và xây dựng phương pháp……….27

2.2.2.2 Ví dụ làm trơn trong thống kê……….43

2.2.3 Hàm spline tự nhiên và spline làm trơn……… 44

2.2.3.1 Khái niệm hàm spline……….44

2.2.3.2 Khái niệm hàm spline tự nhiên………49

2.2.3.3 Ví dụ làm trơn trong thống kê……….54

Chương 3 Các phương pháp làm trơn với dữ liệu biến đa chiều 55

3.1 Đa thức hồi quy cục bộ cho biến đa chiều………55

3.1.1 Giới thiệu và xây dựng phương pháp……… 55

3.1.2 Ví dụ làm trơn trong thống kê……… 57

3.2 Hàm spline mỏng phẳng làm trơn ………58

3.2.1 Giới thiệu và xây dựng phương pháp………58

3.2.1 Ví dụ làm trơn trong thống kê 61

Chương 4 Làm trơn biểu đồ tần số và hàm mật độ xác suất phi tham số 63

4.1 Biểu đồ tần số………63

4.2 Làm trơn một biểu đồ tuần số……….67

4.2.1 Sử dụng phương pháp hợp lý tối đa ……… 67

4.2.2 Sử dụng phương trình tuyến tính cục bộ……….77

4.3 Hàm mật độ xác suất phi tham số 84

4.3.1 Giới thiệu hàm mật độ xác suất phi tham số……… 84

Trang 13

4.3.2 Xây dựng phương pháp ……….85

4.3.3 Ví dụ làm trơn……….90

KẾT LUẬN 91

TÀI LIỆU THAM KHẢO 92

PHỤ LỤC 93

Trang 14

U a b : phân phối đều trên  a b,

CV (coefficient of variation): hệ số biến thiên

Trang 16

CÁC KHÁI NIỆM CƠ BẢN

Hồi quy tuyến tính là một phương pháp phân tích quan hệ giữa biến phụ thuộc Y với

một hay nhiều biến độc lập X, sử dụng hàm tuyến tính Các tham số của hàm số được

ước lượng từ dữ liệu

Nội suy là phương pháp ước lượng giá trị của các điểm dữ liệu chưa biết trong phạm vi

của một tập hợp rời rạc chứa một số điểm dữ liệu đã biết

Phương pháp bình phương nhỏ nhất là phương pháp tối ưu hóa để chọn một đường

khớp nhất cho một dải dữ liệu với giá trị tổng các sai số thống kê giữa đường khớp và

dữ liệu

Phân phối chuẩn, còn gọi là phân phối Gauss, là một phân phối xác suất quan trọng

trong nhiều lĩnh vực, là một họ phân phối có dạng tổng quát giống nhau, chỉ khác tham

số giá trị trung bình μ và phương sai σ2

Phân phối chuẩn tắc là phân phối chuẩn với giá trị trung bình bằng 0 và phương sai

bằng 1

Hệ số biến thiên là một đại lượng thống kê dùng để đo mức độ biến động tương đối của

những tập hợp dữ liệu có giá trị trung bình khác nhau Hệ số này được tính bằng cách lấy độ lệch chuẩn chia cho giá trị trung bình

Sai số toàn phương trung bình, viết tắt MSE (Mean squared error) của một phép ước

lượng là trung bình của bình phương các sai số, tức là sự khác biệt giữa các ước lượng

và những gì được đánh giá

Băng thông: Là thuật ngữ dùng để chỉ lưu lượng của tín hiệu điện được truyền qua thiết

bị truyền dẫn trong một giây là bao nhiêu, trong luận văn này băng thông có nghĩa là số lượng biến độc lập trong một cột của biểu đồ tần số.

Trang 17

Chương 1: Kiến thức chuẩn bị

1.1 Giới thiệu phương pháp hồi quy

Bất cứ phương pháp chọn một phương trình cho bộ dữ liệu đều được gọi là hồi quy Các phương trình như vậy được xây dựng với hai mục đích: dự đoán các quan trắc mới

và đánh giá mức độ tương quan giữa biến dự báo và biến mục tiêu Vì các phương trình được chọn cho ta cách thức biến này tác động đến nhiều biến khác nên phương pháp hồi quy được sử dụng rộng rãi trong nhiều lĩnh vực: xã hội, khoa học kỹ thuật, thương mại, …

Để có khái niệm sơ bộ về mối quan hệ giữa hai đại lượng X và Y, ta thường biểu diễn

mỗi cặp x y i, i bằng một điểm trên măt phẳng tọa độ Các điểm này tạo thành một

“đám mây” trên mặt phẳng Tùy vào hình dạng “đám mây” mà ta chọn phương trình hồi quy thích hợp

Làm trơn là thuật ngữ hồi quy phi tham số tương đối đơn giản, nghĩa là các giá trị của số liệu hoặc sự phân bố của dữ liệu được "ủi phẳng (làm phẳng)”, phương pháp này được gọi là làm trơn Tuy nhiên, làm trơn thì không nên được định nghĩa là hồi quy phi tuyến tính đơn giản bởi vì hồi quy tuyến tính cũng được sử dụng để làm trơn

Do đó, làm trơn được chia thành hồi quy tham số và hồi quy phi tham số

Mối quan hệ giữa các thuật ngữ này được vẽ bằng biểu đồ Venn trong hình 1.1, chứng minh rằng hồi quy phi tham số tham gia vào cả ước lượng công thức hồi quy và

Trang 18

ước lượng hàm mật độ xác suất

Hình 1.1 Biểu đồ Venn thể hiện quan hệ của hồi quy tham số và hồi quy phi tham số

Làm trơn bằng trung bình động, chuỗi Fourier, hàm spline,…là các phương pháp của hồi quy phi tham số Mặt khác, hồi quy tham số sử dụng các phương trình hồi quy như:

yaxb (1.1) 2

ypxqxr (1.2)

ya1sin b x1 a2cos b x2 (1.3)

ys1/ (1s2exp s x3 ), (1.4)

với x là biến độc lập, y là biến mục tiêu và a b p q r a b a b s s, , , , , 1, ,1 2, 2, ,1 2 và s3 là các hằng

số và được gọi là hệ số hồi quy

Hồi quy tham số là sự ước lượng giá trị của tham số (hệ số hồi quy) bằng cách sử dụng số liệu đã cho Phương trình hồi quy trong đẳng thức (1.1) và (1.2) được gọi là

dạng tuyến tính vì biến mục tiêu (y) là một phương trình tuyến tính của các hệ số hồi

quy Trong hầu hết hồi quy tuyến tính, sự lựa chọn phương trình tuyến tính đồng thời cung cho ta giá trị của các hệ số hồi quy

Trang 19

Trong khi đó, phương trình (1.3) và (1.4) không phải là các phương trình tuyến tính của hệ số hồi quy Do đó, những phương trình này được gọi là dạng không tuyến tính, Hồi quy là một thuật ngữ mô tả việc làm khớp một phương trình hồi quy với dữ liệu để thu được các hệ số hồi quy

Y h Y



Ma trận  H với h ij là phần tử ij được gọi là ma trận mũ, thuật ngữ “ma trận mũ”

bắt nguồn tự thực tế ước tính thường được thể hiện với dấu “mũ”   nên ma trận để ước lượng được gọi là ma trận mũ Thông thường, ma trận mũ để làm trơn còn được gọi là ma trận làm trơn Ma trận mũ đóng vai trò quan trọng trong hồi quy, cho nguồn gốc ước tính sử dụng ước lượng tuyến tính

Trang 20

Chương 2: Các phương pháp làm trơn dữ liệu với biến một chiều

2.1 Làm trơn dữ liệu với biến cách đều

2.1.1 Hồi quy tuyến tính cục bộ [1]

2.1.1.1 Giới thiệu phương pháp

Thực tế một phương trình xét số lượng lớn dữ liệu với thao tác phức tạp đôi khi mang lại kết quả không như mong đợi: phương trình phù hợp tốt với dữ liệu vùng miền này nhưng không phù hợp với những vùng miền khác, hoặc là hình dạng của đường cong hồi quy không tương ứng với dữ liệu bởi vì đường cong phản ánh không đủ các tính chất của các tham số Điều này dẫn chúng ta tới khái niệm về sự chia cắt dữ liệu vào trong một số miền để cho các đường cong phù hợp (vẽ theo các điểm) với dữ liệu trong mỗi vùng và kết nối chúng để đạt được sự ước lượng (đánh giá) tốt nhất Khái niệm này được gọi làm trơn từng khúc của phương trình hồi quy

Trong số những phương pháp mà sử dụng phép xấp xỉ thì làm trơn bởi hàm số spline là phổ biến nhất Phương pháp làm trơn từng khúc đơn của phương trình tuyến tính là ước lượng lấy những giá trị liên tục ở biên Hàm này được gọi hàm spilne bậc nhất hay là hàm spilne tuyến tính

với {(X i , Y i )} (1 ≤ i ≤ n) là dữ kiện, X i cách đều, giá trị của biến độc lập được tính

bởi X i = i, và a và b là hệ số hồi quy Làm trơn của hàm spline tuyến tính chia số liệu

trong một miền thành vài miền Những giá trị của a và b ở mỗi miền khác nhau thì

Trang 21

khác nhau; đây là làm trơn từng khúc Mặt khác, hồi quy tuyến tính cục bộ cung cấp

những giá trị của a và b phụ thuộc vào vị trí của điểm ước tính Phương pháp này được

gọi là làm trơn cục bộ Khi hồi quy tuyến tính cục bộ làm trơn với phương trình tuyến

tính cục bộ, a và b là những hàm số của giá trị biến độc lập Khi đó, những hệ số hồi quy này (a và b) được kí hiệu bằng  a j và  b j 1 j nkhác nhau; X j là vị trí ước lượng được tính toán Khi đó, tối thiểu hóa biểu thức giá trị bên dưới để suy ra hệ số hồi quy:

h là một hằng số dương dùng để xác định độ trơn của ước lượng, được gọi là băng

thông Độ trơn càng cao khi h càng lớn vì h càng lớn thì càng nhiều số liệu được đem

vào để ước lượng a jb j

Trang 22

2.1.1.3 Ví dụ làm trơn trong thống kê

Bộ dữ liệu nhiệt độ trung bình hằng ngày (số lượng số liệu là 365) vào năm 1986 ở một hệ thống thu thập dữ liệu khí tượng tự động (AMeDAS), trạm quan sát nằm ở thành phố Wakkanai, Nhật Bản (tất cả tất cả các dữ liệu khí tượng trong bài này đều là

dữ liệu (AMeDAS) và được cung cấp bởi Cơ quan khí tượng thuỷ văn của chính phủ Nhật Bản) Các cặp biến x y i; i được kí hiệu bằng dấu x trong hình

Hình 2.1 Làm trơn bởi hồi quy tuyến tính cục bộ (h=1.5) (hình trái) Những giá trị

phần tử của ma trận mũ tương ứng (hình phải)

Trang 23

2.1.2 Hàm spline làm trơn [7]

2.1.2.1 Giới thiệu phương pháp

Phương pháp bình phương nhỏ nhất phát triển theo phương pháp hồi quy, với mục đích đưa ra tổng dư của các bình phương nhỏ và thỏa mãn các điều kiện khác nhau Làm trơn dựa trên khái niệm này thực hiện bằng cách cực tiểu hóa tổng của hai số hạng: thứ nhất để giảm bình phương của tổng phần dư, thứ hai để thỏa yêu cầu thao tác làm trơn của ước lượng Ví dụ, ta cực tiểu hóa:

Do đó, khái niệm cơ bản của làm trơn là sự cân bằng giữa hai yêu cầu: ước lượng khít với số liệu và chúng được làm trơn, khái niệm này đóng vai trò quan trọng trong hồi

Trang 24

quy phi tham số trong trường hợp thông thường Một trong những tiện lợi của làm trơn bằng hàm spline là đưa ra khái niệm một cách rõ ràng

2.1.2.2 Xây dựng phương pháp

Để cực tiểu hóa (2.4), ta cho mỗi  Y i bằng 0

Do đó, hệ phương trình tương ứng bao gồm n phương trình, ta có:

Trang 25

2.1.2.3 Ví dụ làm trơn trong thống kê

Sử dụng dữ liệu Wakkanai trong ví dụ hình 2.1, ta có:

Hình 2.2 Làm trơn bằng hàm spline 1 trái) Những giá trị của phần tử ma trận mũ tương ứng ở hình bên phải

Hình 2.3 Làm trơn bằng hàm spline 10 (trái) Giá trị của phần tử ma trận mũ tương ứng với bên phải

Trang 26

Hình 2.2 (trái) là một ví dụ của làm trơn bằng hàm spline: sử dụng Dữ kiện Wakkanai và chọn 1 ( đẳng thức (2.7)) Ma trận mũ tương ứng được hiển thị trong hình bên phải

Thay 10 cho ta hình 2.3 (hình trái) Ma trận mũ tương ứng ở hình 2.3 (hình phải) Những gợn sóng xuất hiện trong những giá trị của ma trận mũ, và những giá trị

âm lệch ít so với những phần tử đường chéo; chúng không ảnh hưởng đến ước lượng

Ta thấy kết quả ước tính thì “vừa vặn” với số liệu (hình 2.4) Mặt khác, những giá trị của phần dư bình phương  2

i i

Y Y

  

  của ước lượng trong hình 2.2 (trái) và hình 2.3

(trái) được thể hiện trong hình 2.5 (trái)

Giá trị của phần dư bình phương thu được với 10 lớn hơn so với 1 ở đa số điểm Mặt khác, hình 2.5 (phải) cho thấy sự “gồ ghề” của mỗi ước tính ở những điểm

Trang 28

Hình 2.6 chỉ ra giá trị của hai số hạn nằm bên tay phải của đẳng thức (2.4) khi

) Giá trị của  tăng làm giảm của sự “gồ ghề” của ước tính, giá trị của  theo hàm

số mũ trong đồ thị vì nó thường là giá trị của tham số làm trơn thay đổi theo hàm số mũ khi ước lượng bằng hàm spline trơn với các giá trị tham số làm trơn khác nhau được khảo sát, hoặc giá trị của tham số làm trơn được tối ưu hóa Phương pháp làm trơn của hàm spline đạt được mục đích của ước lượng là làm giảm giá trị của cả tổng bình phương phần dư và độ “gồ ghề”

2.2 Làm trơn dữ liệu với biến không cách đều

2.2.1 Ước lượng Nadaraya – Watson [4]

2.2.1.1 Giới thiệu và xây dựng phương pháp

Cả hai biến độc lập và biến mục tiêu được xem như là những biến thay đổi ngẫu

nhiên Một biến ngẫu nhiên là một biến thay đổi mà xác suất nó lấy một giá trị đặc thù tuân theo một xác suất phân phối nhất định Khi một giá trị thu được qua việc xét một giá trị đặc biệt tuân theo một phân phối nhất định, những giá trị này tạo thành biến độc

lập dữ liệu và biến mục tiêu; biến thay đổi ngẫu nhiên X cung cấp phần biến độc lập

của dữ liệu   X i , và biến ngẫu nhiên Y cho ra phần biến mục tiêu của dữ liệu    Y i

Một hàm số f X( )x được xác định Khi xác suất X lấy một giá trị giữa x và (x+∆x) (∆x là một số dương rất nhỏ) được viết là f X( )xx,thì f X( )x được gọi là hàm mật độ

xác suất mà X tuân theo, f X( )x thỏa mãn:

Mặt khác, nếu xác xuất mà X lấy một giá trị giữa x và (x+∆x) và Y lấy một giá trị

giữa y và (y+∆y) ( ∆y cũng là một giá trị dương nhỏ) được viết là f(x,y) ∆x∆y, f(x,y)

Trang 29

được gọi là hàm mật độ xác suất chung (hoặc có thể được gọi đơn giản là mật độ

chung) của X và Y Nó thỏa mãn:

hai xác xuất trên Cụ thể, f y x f  X x  x y thu được; và nó bằng với f(x,y) ∆x∆y và

do đó đẳng thức (2.11) được chứng minh

Trang 30

Kết quả giữa hàng thứ nhất và hàng thứ hai là định nghĩa của E(Y|X=x) (kì vọng của

Y khi X được cố định tại x) Kết quả giữa hàng hai và hàng ba được suy ra từ đẳng thức

(2.11) Đẳng thức này cho thấy ước lượng của m(x) tương đương với f(y|x) ( ước lượng của f(x,y) và f X  x )

Khi đó ta có: f x y( , ) và f X( )x

1

1 ( , )

Trang 31

1

.

x

X n

Trang 32

Kết quả giữa hàng thứ nhất và hàng thứ hai sử dụng đẳng thức (2.15) và (2.16) Thay thế đẳng thức (2.23) vào (2.22), rút gọn K x  thành K(.) và h x thành h ta có:

i i i

x X K

h

W x

x X K

1

( ) 1.

n i i

K(.) và băng thông của nó (h) Dạng của đẳng thức (2.25) chỉ ra cho dù K(.) không

thỏa mãn đẳng thức (2.15) nó không ảnh hưởng đến m x Do đó, khi hàm (2.21) được thay thế bởi hàm bên dưới, kết quả là giống nhau:

Trang 33

Hơn nữa, khi ước lượng tại x trùng với X i được gọi là Y i , ta có:

h H

X X K

H là một phần tử sinh ra ma trận mũ (H) Hình 2.7 minh họa một ví dụ cho ma trận

mũ được tạo bởi hàm số hạch Gaussian Chi tiết hơn, hàm số hạch đó là:

Với n=20 và  X i  1, 2,3, 4, , 20; băng thông là h =1 và h=2 Đẳng thức (2.30)

cũng cho thấy hình dạng của ma trận mũ có cấu trúc của một hàm số Gaussian Hình 2.8 minh họa ví dụ giá trị của một biến độc lập không cách đều nhưng

Trang 34

ước lượng với dữ liệu trù mật khi dùng số lượng lớn số liệu

Hình 2.7 Ma trận mũ của ước lượng Nadaraya - Waston dùng hàm số nhân Gaussian

Trang 35

  ở trên; nó có giá trị tối

đa ở xX i và sau đó giảm dựa trên giá trị tuyệt đối của xX i Sau đó, đẳng thức (2.32) được sử dụng để suy ra một giá trị của a0 dùng dữ liệu xX i với điều kiện m(x)

lấy giá trị không đổi a0 quanh xX i, x X i

w h

  xác định trọng số để thay thế số liệu

thứ i dựa trên khoảng cách từ nó đến x khi thu được ước lượng ở x Do đó, a0 dùng các

giá trị khác nhau của x để tính m x Để tính a0 ta tối thiểu hóa giá trị đẳng thức (2.32), đẳng thức (2.32) khác 0 với:

1

0 1

.

n

i i

i n

i i

x X

Y w

h a

x X w h

h

  Khi đó, ước lượng Nadaraya - Waston được xem

như một phương pháp để ước lượng m(x) bằng cách sử dụng x X i

w h

  trong toàn bộ vùng phải bằng 1

2.2.1.2 Ví dụ làm trơn trong thống kê

Hình 2.9 thể hiện ước lượng làm trơn bởi công thức Nadaraya-Waston sử dụng 30

dữ liệu Những giá trị dữ liệu được đặt lên trên cùng, một hàm số Gussian dùng như

hàm hạch, băng thông là h=1.8 Phương pháp tối ưu hóa băng thông được thể hiện

Trang 36

trong hình 2.10 Ma trận mũ được xác định bởi đẳng thức (2.30) cung cấp cả hai CV (hệ số biến thiên) và GCV Như kết quả, cả hai thống kê cho thấy h=0.18 là tối ưu và

do đó chúng ta sử dụng giá trị này trong việc tính toán của ước lượng ở hình 2.9

Hình 2.9 Ước lượng sử dụng phương pháp Nadaraya-Waston (h=0.18) ( đường liền)

và dùng dữ liệu (◊)

Hình 2.10 Kết quả của phép tính CV và GCV với những giá trị khác nhau của băng

thông

Trang 37

2.2.2 Hồi quy đa thức cục bộ

2.2.2.1 Giới thiệu và xây dựng phương pháp

Công thức ước lượng Nadaraya-Waston được xem như phương pháp làm trơn với hằng số cục bộ Do đó, kỹ thuật này còn được gọi là ước lượng hằng số cục bộ Mặt khác, khi hồi quy tuyến tính cục bộ là một hồi quy “làm khớp” với phương trình tuyến tính cục bộ khi biến độc lập của dữ liệu cách đều, nó được coi là một sự mở rộng của

sự làm trơn cục bộ của hằng số Chúng ta tổ hợp hai phương pháp này để phát triển hồi quy tuyến tính cục bộ thành một phương pháp xử lý dữ liệu đối với biến không cách đều Lại có, phương trình làm trơn cục bộ không giới hạn đối với một phương trình

tuyến tính, nên đa thức bậc p (p nguyên dương) được sử dụng

j

m x x a x a x x x

   (2.34)

Phương trình này thể hiện cách sử dụng gần đúng p số hạng đầu tiên của một

phương trình được cung cấp bởi khai triển Taylor của m(x) xung quanh *

Trang 38

  được xem như một ước lượng tỉ số nhân, mặc dù thông thường đây không

phải là trường hợp trong phương trình đa thức cục bộ Tuy nhiên,

*

i

X x w

h

  

 được gọi

là hàm số hạch trong trường hợp nó là một hàm số cung cấp trọng số

Như trường hợp công thức ước lượng Nadaraya - Waston, một hàm số nhân thường

là một hàm số có giá trị bằng 0 hoặc một giá trị dương và một giá trị lớn nhất với

xx thông qua việc sử dụng  *

,

m x x thu được trong cách này là  * *  *

Như hàm số hạch

*

i

X x w

Trang 39

h là một hằng số dương để xác định bề rộng của

*

i

X x w

h

  

 , ở đây nó được gọi là băng

thông Các hàm số khác thường được dùng như hàm số nhân là hàm “bisquare (biweight)”, hàm “triweight” và hàm “tricube weight” theo thứ tự dưới đây:

h

X x h

h

X x h

h

X x h

Để đưa ra được kết quả tối thiểu hóa cùa đẳng thức (2.35), X (một ma trận cấp n x

(p+1), được gọi là ma trận thiết kế, và y (một vecto với n phần tử) được định nghĩa

tương tự phần hồi quy đa thức Tuy nhiên, cần chú ý X là một hàm số của *

x Khi hồi quy đa thức tìm một phương trình hồi quy trong toàn bộ miền dữ liệu, hồi quy đa thức cục bộ tạo ra phương trình hồi quy phù hợp trong lân cận của *

x :

Trang 40

khi đó, đẳng thức (2.35) được viết lại:

E local (x*) = (Xa – y) t W(Xa – y) (2.44)

Đạo hàm của E local (x*) tới 0 với chú ý tới  * * * * 

Ngày đăng: 28/01/2021, 19:13

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. Germán Rodríguez, Smoothing and Non-Parametric Regression, 2001 Sách, tạp chí
Tiêu đề: Smoothing and Non-Parametric Regression
[2]. Jeffrey S. Simonoff, Smoothing Methods in Statistics, Deparment of Statistics and Operations Research Leonard N. Stern School of Business, New York University, 1996 Sách, tạp chí
Tiêu đề: Smoothing Methods in Statistics
[4]. Kunio Takezawa, Introdution to Nonparametric Regression, John Wiley & Sons, Inc., Hoboken, New Jersey, 2005 Sách, tạp chí
Tiêu đề: Introdution to Nonparametric Regression
[5]. M.P.Wand and M.C.Jones, Kernel Smoothing, 1995 Sách, tạp chí
Tiêu đề: Kernel Smoothing
[6]. P.J. Green and B.W. Silverman, Nonparametric Regression and Generalized Linear Models, School of Mathematics University of Bristol UK, 1995 Sách, tạp chí
Tiêu đề: Nonparametric Regression and Generalized Linear Models
[7]. Randall L. Eubank, Nonparametric Regression and Spline smoothing, Deparment of Statistics Texas A&M University College Station, Texas, 1999 Sách, tạp chí
Tiêu đề: Nonparametric Regression and Spline smoothing
[8]. Simon N. Wood, Thin-plate regression splines, The Mathematical Institute, North Haugh, St Andrews, Fife, KY16 9SS, UK, 2003 Sách, tạp chí
Tiêu đề: Thin-plate regression splines
[9]. Wolfgang Hardle, Applied nonparametric regression, 2002 Sách, tạp chí
Tiêu đề: Applied nonparametric regression
[10]. Wolfgang Hardle, Smoothing Techniques with Implementation in S, 1991 Sách, tạp chí
Tiêu đề: Smoothing Techniques with Implementation in S

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w