Mục tiêu Đề tài nghiên cứu ứng dụng của phương pháp Bootstrap đối với bài toán ước lượng và kiểm định.. Tính mới và sáng tạo Trình bày bài toán ước lượng bootstrap, kiểm định bootstrap
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
THÀNH PHỐ HỒ CHÍ MINH
BÁO CÁO TỔNG KẾT
ÐỀ TÀI KH&CN CẤP TRƯỜNG TRỌNG ÐIỂM
MỘT SỐ ỨNG DỤNG CỦA PHƯƠNG PHÁP BOOTSTRAP
TRONG XỬ LÝ SỐ LIỆU THỐNG KÊ
S K C0 0 5 4 0 8
Chủ nhiệm đề tài: Th.S Nguyễn Hồng Nhung
Mã số: T2013-156
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
THÀNH PHỐ HỒ CHÍ MINH
BÁO CÁO TỔNG KẾT
ĐỀ TÀI KH&CN CẤP TRƯỜNG
MỘT SỐ ỨNG DỤNG CỦA PHƯƠNG PHÁP BOOTSTRAP TRONG XỬ LÝ SỐ LIỆU THỐNG KÊ
Mã số: T2013-156
Chủ nhiệm đề tài: Th.S NGUYỄN HỒNG NHUNG
TP HCM, 11/2013
Trang 3TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
TP HCM, 11/2013
Trang 4MỤC LỤC
MỤC LỤC 1
THÔNG TIN KẾT QUẢ NGHIÊN CỨU 2
MỞ ĐẦU 6
CHƯƠNG 1: PHƯƠNG PHÁP BOOTSTRAP 8
1 Đặt vấn đề 8
2 Nội dung phương pháp Bootstrap 9
3 Sai số tiêu chuẩn Bootstrap 13
3.1 Ước lượng Bootstrap cho sai số tiêu chuẩn của giá trị trung bình μ 14
3.2 Ước lượng Bootstrap cho sai số tiêu chuẩn của giá trị hệ số tương quan 15
3.3 Ước lượng Bootstrap cho sai số tiêu chuẩn của giá trị độ lệch 19
4 Ước lượng Bootstrap cho độ chệch 22
CHƯƠNG 2: KHOảNG ƯớC LƯợNG BOOTSTRAP 25
1 Kho ảng ước lượng Bootstrap-t 25
1.1 Khoảng ước lượng Bootstrap-t cho trung bình 27
1.2 Khoảng ước lượng Bootstrap-t cho trung bình thu gọn 29
1.3 Khoảng ước lượng Bootstrap-t cho tỷ lệ p 31
2 Kho ảng ước lượng Bootstrap phần trăm 32
2.1 Khoảng ước lượng Bootstrap 95% cho trung vị (median) 33
2.2 Khoảng ước lượng Bootstrap 95% cho độ lệch 35
2.3 Khoảng ước lượng Bootstrap 95% cho hệ số tương quan 35
3 Kho ảng ước lượng Bootstrap BCa 36
CHƯƠNG 3: KIểM ĐịNH BOOTSTRAP 40
1 Kiểm định Bootstrap bài toán hai mẫu 40
1.1 Kiểm định Bootstrap so sánh hai trung bình 40
1.2 Kiểm định Bootstrap so sánh hai t ỷ lệ 43
2 Kiểm định Bootstrap bài toán một mẫu 45
2.1 Kiểm định Bootstrap so sánh trung bình với µ0 cho trước 45
2.2 Kiểm định Bootstrap so sánh tỷ lệ với P0 cho trước 48
KẾT LUẬN VÀ KIẾN NGHỊ 50
TÀI LIỆU THAM KHẢO 51
Trang 5TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
THÀNH PHỐ HỒ CHÍ MINH
KHOA KHOA HỌC CƠ BẢN
CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
Tp HCM, Ngày 25 tháng 11 năm 2013
THÔNG TIN KẾT QUẢ NGHIÊN CỨU
1 Thông tin chung:
- Tên đề tài: MỘT SỐ ỨNG DỤNG CỦA PHƯƠNG PHÁP BOOTSTRAP
TRONG XỬ LÝ SỐ LIỆU THỐNG KÊ
- Mã số: T2013-156
- Chủ nhiệm: Th.S NGUYỄN HỒNG NHUNG
- Cơ quan chủ trì: Đại học Sư phạm Kỹ thuật Thành phố Hồ Chí Minh
- Thời gian thực hiện: 2/2013 đến 11/2013
2 Mục tiêu
Đề tài nghiên cứu ứng dụng của phương pháp Bootstrap đối với bài toán ước lượng và
kiểm định
3 Tính mới và sáng tạo
Trình bày bài toán ước lượng bootstrap, kiểm định bootstrap cho các tham số thống kê
cụ thể như trung bình, tỷ lệ, hệ số tương quan,…
Xây dựng thủ tục giải bài toán kiểm định Bootstrap bằng phần mềm Matlab
4 Kết quả nghiên cứu
Trình bày bài toán ước lượng và kiểm định Bootstrap
Sử dụng phần mềm Matlab xây dựng thủ tục tính kho ảng ước lượng Bootstrap và giải
bài toán kiểm định Bootstrap
5 Hiệu quả, phương thức chuyển giao kết quả nghiên cứu và khả năng áp dụng
Tài liệu tham khảo cho sinh, học viên cao học chuyên ngành Xác suất Thống kê và những đối tượng sử dụng phương pháp Bootstrap trong nghiên cứu
Trang 6Trưởng Đơn vị
(ký, họ và tên)
Chủ nhiệm đề tài
(ký, họ và tên)
Trang 7INFORMATION ON RESEARCH RESULTS
Study the applications of Bootstrap with confidence intervals and hypothesis test
3 Creativeness and innovativeness:
It is shown that the Bootstrap intervals and hypothesis testing with the Bootstrap for average, percentage, correlation,…
Developprocedures tosolve the hypothesis testing with the Bootstrap by Matlab software
4 Research results:
It is shown that the Bootstrap confidence intervals and hypothesis testing with the Bootstrap
UsingMatlabsoftwareto developprocedures in finding the confidence intervals
Bootstrap and solving the hypothesis testing with the Bootstrap
5 Effects, transfer al ternatives of reserach results and applicability:
Trang 8Referencesto students, post-graduate studentsmajoring inStatisticsandProbability and who using Bootstrapmethodsinthe study
Trang 9MỞ ĐẦU
1 Tổng quan tình hình nghiên cứu thuộc lĩnh vực đề tài ở trong và ngoài nước
Phương pháp Bootstrap là phương pháp coi mẫu gốc ban đầu đóng vai trò tổng thể
mà từ đó nó được rút ra Từ mẫu ban đầu lấy lại các mẫu ngẫu nhiên cùng cỡ với mẫu gốc bằng phương pháp l ấy mẫu có hoàn lại, gọi là mẫu bootstrap Phương pháp Bootstrap được B.Efron đề xuất vào năm 1970 là một phương pháp lấy mẫu mới và
nó khác so với phương pháp truyền thống ở chỗ nó cho phép xử lý nhiều lần với mẫu gốc ban đ ầu Hiện nay sự phổ biến và phát triển của máy tính đã khắc được nhược điểm của phương pháp là có khối lượng tính toán lớn Chính vì vậy phương pháp Bootstrap ngày càng được phát triển và được phổ biến rộng rãi
2 Tính cấp thiết
Trong thống kê, Bootstrap được xem như là một phương pháp giải quyết các bất định của bài toán thống kê khi cỡ mẫu nhỏ mà không cần giả thuyết về phân phối xác suất của tham số thống kê cần nghiên cứu Việc nghiên cứu và phát triển phương pháp Bootstrap thu hút được sự quan tâm của nhiều nhà khoa học trên thế giới Phương pháp cũng được phổ biến rộng rãi khi nhiều trường đại học trên thế giới giảng dạy cho sinh viên cách s ử dụng.Vì vậy việc tìm hiểu, nghiên cứu và phổ biến các ứng dụng của phương pháp Bootstrap là việc làm cấp thiết
3 Mục tiêu
Mục tiêu của đề tài là tìm hiểu ứng dụng của phương pháp Bootstrap đối với bài toán ước lượng và kiểm định giả thuyết thống kê Trình bày các bước tìm các khoảng lượng Bootstrap của các tham số thống kê cụ thể Xây dựng thủ tục kiểm định Bootstrap cho bài toán kiểm định một mẫu và bài toán kiểm định hai mẫu
4 Cách tiếp cận
Trang 10Để giải quết vấn đề trên, đề tài đã sử dụng các kết quả của lý thuyết thống kê cổ điển về bài toán ước lượng và kiểm định, từ đó xây dựng bài toán ước lượng và kiểm định Bootstrap
5 Phương pháp đối tượng và phạm vi nghiên cứu
Tìm hiểu cơ sở của phương pháp Bootstrap và ứng dụng của phương pháp Nghiên cứu sử dụng phần mềm Matlab giải các bài toán tìm khoảng ước lượng Bootstrap và kiểm định Bootstrap cụ thể
6 Nội dung nghiên cứu
Bản báo cáo đề tài gồm phần mở đầu, ba chương nội dung và phần kết luận
Chương 1 trình bày xuất xứ và ý nghĩa của đề tài khi tìm hiểu ứng dụng của phương pháp Bootstrap, nội dung của phương pháp Bootstrap và ước lượng sai số tiêu chuẩn cho các tham số trung bình, tương quan, độ lệch Sử dụng phần mềm Matlab lấy mẫu Bootstrap từ đó tính các giá trị tham số mẫu Bootstrap
Chương 2 trình bày cách tìm khoảng ước lượng Bootstrap-t, khoảng ước lượng Bootstrap phần trăm và khoảng ước lượng Bootstrap BCa Sử dụng phần mềm Matlab lập chương trình tìm một số khoảng lượng Bootstrap trên mẫu cụ thể
Chương 3 trình các bước kiểm định giả thuyết Bootstrap đối với một mẫu và hai mẫu cho tham số trung bình và t ỷ lệ Sử dụng phần mềm Matlab lập chương trình kiểm định giả thuyết Bootstrap đối với một mẫu và hai mẫu cho tham số trung bình và
tỷ lệ
Trang 11Chương 1: Phương pháp Bootstrap
1 Đặt vấn đề
Giả sử X là biến ngẫu nhiên đ ặc trưng cho tính chất cần nghiên cứu, X có phân phối F chưa biết Để biết X ta cần tìm hiểu phân phối F, bằng cách xác định các tham sốθcủa F như trung bình, phương sai, median, hệ số tương quan của phân phối hai biến,…Theo phương pháp thống kê truyền thống ta lấy các mẫu ngẫu nhiên từ tổng thể nghiên cứu.Sử dụng hàm thống kê T(θ) với mỗi mẫu ta xác định
sát lớn, ta sẽ có một phân phối mẫu mô phỏng xấp xỉ với phân phối của θ
Hình 1.Sơ đồ mô phỏng phân phối mẫu
ngẫu đặc trưng cho tính chất cần nghiên cứu của cá thể thứ i với i=1, 2,…,n được
Trang 12xk2, … , xkn , k=1, 2,…,m Với mỗi mẫu ngẫu nhiên cụ thể ta có giá trị trung bình
Từ kết quả này ta có một loạt các bài toán ước lượng, kiểm định cho giá trị trung bình
μ
Vấn đề đặt ra trong trường hợp ta chỉ quan sát được duy nhất một mẫu thực
θ của θ?
Để trả lời cho câu hỏi này ta có phương pháp bootstrap
2 Nội dung phương pháp Bootstrap
Phương pháp Bootstrap là phương pháp coi mẫu gốc ban đầu đóng vai trò tổng thể
mà từ đó nó được rút ra Từ mẫu ban đ ầu lấy lại các mẫu ngẫu nhiên cùng cỡ với mẫu gốc bằng phương pháp lấy mẫu có hoàn lại, gọi là mẫu bootstrap Với mỗi mẫu lấy lại ta tính được giá trị tham số thống kê quan tâm gọi lại tham số bootstrap Sự phân bố của các tham số thống kê mẫu bootstrap là phân phối bootstap
Lấy mẫu có hoàn lại có nghĩa là sau khi chúng ta rút ra ngẫu nhiên một quan sát từ mẫu ban đầu, ta đặt nó trở lại trước khi lấy quan sát tiếp theo Điều này cũng giống như lấy một số từ một chiếc hộp, sau đó đặt nó trở lại trước khi rút lại.Kết quả là, bất kỳ số có thể được rút ra một lần, nhiều hơn một lần, hoặc không được rút ra lần nào
Trang 13Ký hiệux = x1, x2, … , xn là mẫu gốc ban đầu ta có mẫu bootstrap x∗=
Ví dụ như ta có giá trị trung bình bootstrap có dạng
n
i=1
Hình 2.Sơ đồ mô phỏng phân phối bootstrap
Ta sẽ sử dụng phần mềm Matlab xử lý số liệu thống kê bằng phương pháp Bootstrap Matlab là một ngôn ngữ lập trình cấp cao của hãng MathWorks.Matlab được sử dụng rông rãi trong môi trường học thuật, công nghệ.Matlab có khả năng
hỗ trợ tối ưu cho việc nghiên cứu cũng như giảng dạy toán học, kỹ thuật và khoa học với tính trực quan cao.Matlab có hàng ngàn lệnh và hàm tiện ích và các hàm
Mẫu ban
đầu
Mẫu bootstrap 1 Mẫu bootstrap 2
Giá trị
Trang 14chuyên dụng trong các Toolbox Các Toolbox chuyên dụng cho người dùng với nhiều mục đích như giải toán sơ cấp, giải toán thống kê, xử lý tín hiệu số, xử lý ảnh, logic mờ,…
Khảo sát chiều cao và cân nặng của 50 nam sinh viên năm nhất khoa chất lượng cao trường đại học sư phạm kỹ thuật, ta có file dữ liệu hightclc1.m và weightclc1.m đóng vai trò là hai mẫu gốc ban đầu
>> load hightclc1.m
>> load weightclc1.m
>> n=length(hightclc1); % cỡ mẫu gốc
>> b=1000; % số lần lấy mẫu bootstrap
>>theta=mean(hightclc1) % trung bình mẫu gốc
theta =
1.6812
>>inds= unidrnd(n,n,b);
>>xboot = hightclc1(inds); % l ấy b mẫu bootstrap từ mẫu gốc hightclc1
>>xboot(:,1:7) % biểu diễn 7 mẫu bootstrap đầu tiên
Trang 15>>thetab = mean(xboot); % trung bình của các mẫu bootstrap
>>thetab(:,1:5)% biểu diễn 5 giá trị trung bình bootstrap đ ầu tiên
ans =
1.6870 1.6682 1.6732 1.6846 1.6752
>>hist(thetab) %biểu đồ lịch sử các giá trị trung bình bootstrap
Trang 16%Biểu đồ này cho chúng ta hình ảnh mô phỏng phân phối của trung bình mẫu
Hình 3 Biểu đồ mô phỏng phân phối trung bình mẫu
3 Sai số tiêu chuẩn Bootstrap
Mục đích của thống kê học là đưa ra thông tin về các tham số của tổng thể nghiên cứu Trong thực tế ta không biết chính xác các tham số này mà chỉ ước tính dựa vào một hay nhiều mẫu rút ra từ tổng thể Nhưng việc chọn mẫu là ngẫu nhiên nên
k=1
1.650 1.66 1.67 1.68 1.69 1.7 1.71 1.72 50
100 150 200 250
300
Trung bình các mau bootstrap
chieu cao trung binh (m)
Trang 17Sai số tiêu chuẩn phản ánh mức độ thay đổi của các giá trị θ k Giá trị se θ nhỏ
Trong trường hợp không thể lấy nhiều mẫu từ tổng thể để xác định sai số tiêu
một mẫu gốc ban đ ầu Các bước thực hiện như sau:
Bước 1: Lấy theo phương pháp có hoàn lại từ mẫu gốc ban đầu được b mẫu
Bước 2: Với mỗi mẫu bootstrap có được ở bước 1 ta tính giá trị thống kê θk∗ =
k=1
Độ lệch tiêu chuẩn này là ước lượng bootstrap của sai số tiêu chuẩn se θ
lim
3.1 Ước l ượng B ootstrap cho sai s ố tiêu chu ẩ n c ủ a gi á tr ị trung bì nh 𝛍
Ta có các bước xác định giá trị ước lượng bootstrap cho sai số tiêu chuẩn của giá trị trung bình μ như sau:
Bước 1: Lấy theo phương pháp có hoàn lại từ mẫu gốc ban đầu được b mẫu
Trang 18k =1
>>seb=std(thetab) % ước lượng bootstrap c ủa sai số tiêu chuẩn của
% chiều cao trung bình c ủa các nam sinh viên năm nhất
seb = 0.0071
3.2 Ước l ượng B ootstrap cho sai s ố tiêu chu ẩ n c ủ a gi á trị hệ số tương quan
Trang 19Công thức xác định hệ số tương quan corr(Y, Z)
Để ước lượng cho hệ số tương quan của tổng thể ta có hệ số tương quan mẫu
ta tính được hệ số tương quan mẫu bootstrap
Bước 1: Lấy theo phương pháp có hoàn lại từ mẫu gốc ban đầu mỗi lần lấy
Bước 2: Với mỗi mẫu bootstrap có được ở bước 1 ta tính giá trị hệ số tương
quan mẫu bootstrap
∗ − y k∗ zk∗i− z k∗
n i=1
; k = 1, 2, … , b
n ni=1zk∗i
Trang 20Bước 3: Tính độ lệch tiêu chuẩn của b giá trị rk∗tính được ở bước 2
>>bootsam(:,1:5) % Biểu diễn các chỉ số của 5 mẫu bootstrap đầu tiên ans =
Trang 21100 150 200 250 300
he so tuong quan bootstrap
Trang 22>>sebr=std(bootstat) % ước lượng bootstrap của sai số tiêu chuẩn của
% hệ số tương quan giữa chiều cao và cân nặng của các nam sinh viên
% năm nhất
sebr = 0.1031
3.3 Ƣớc l ƣợng B ootstrap cho sai s ố tiêu chu ẩ n c ủ a gi á tr ị độ l ệch
Giả sử biến ngẫu nhiên X có phân phối F chưa xác định Độ lệch γcủa phân phối F là tham số đo độ bất đối xứng của phân phối F Ta có
bằng giá trị modX bằng giá trị trung bìnhEX
Ta có độ lệch γ được xác định theo công thức
i=1
3 2
n n xi
i =1
Trang 23Với mỗi mẫu bootstrap x∗ = x1∗, x2∗, … , xn∗ ta tính giá trị độ lệch mẫu bootstrap
3 2
n ni=1xi∗
Ta có các bước xác định giá trị ước lượng bootstrap cho sai số tiêu chuẩn của giá trị độ lệch γ như sau:
Bước 1: Lấy theo phương pháp có hoàn lại từ mẫu gốc ban đầu được b mẫu
Trang 24>>skewb(:,1:5) %biểu diễn giá trị độ lệch của 5 mẫu bootstrap đầu tiên ans =
0.4703 -0.2218 0.2200 0.4610 -0.1974
>>hist(skewb)
Hình 5 Biểu đồ mô phỏng phân phối hệ số độ lệch mẫu
>>seskewb=std(skewb) % ước lượng bootstrap của sai số tiêu chuẩn của
% độ lệch mẫu chiều cao của các nam sinh viên năm nhất seskewb =
0.3612
50 100 150 200 250
Trang 254 Ước lượng Bootstrap cho độ chệch
Trong mục trên ta đã xét về sai số tiêu chuẩn là một tham số để đo độ chính xác
giá trị thực θ đó là độ chệch Độ chệch là tham số đo độ sai lệch giữa giá trị thực θ
và ước lượng θ = T(X) của nó Ta có
bias θ , θ = E θ − θ = E T X − θ
θ = T(X)là một ước lượng không chệch củaθ nếu độ chệch bias θ , θ = 0 tức là
n n Xi
tổng thể μ
là một ước lượng tốt cho tham số θ
Ta dùng bootstrap để đánh giá độ chệch bias θ , θ của θ = T(X) Công thức xác
Ta có các bước thực hiện để tính giá trị ước lượng bootstrap cho độ chệch như sau:
Bước 1: Lấy theo phương pháp có hoàn lại từ mẫu gốc ban đầu được b mẫu
Trang 27bias