1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Một số ứng dụng của phương pháp bootstrap trong xử lý số liệu thống kê

55 27 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 55
Dung lượng 5,06 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Mục tiêu Đề tài nghiên cứu ứng dụng của phương pháp Bootstrap đối với bài toán ước lượng và kiểm định.. Tính mới và sáng tạo Trình bày bài toán ước lượng bootstrap, kiểm định bootstrap

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT

THÀNH PHỐ HỒ CHÍ MINH

BÁO CÁO TỔNG KẾT

ÐỀ TÀI KH&CN CẤP TRƯỜNG TRỌNG ÐIỂM

MỘT SỐ ỨNG DỤNG CỦA PHƯƠNG PHÁP BOOTSTRAP

TRONG XỬ LÝ SỐ LIỆU THỐNG KÊ

S K C0 0 5 4 0 8

Chủ nhiệm đề tài: Th.S Nguyễn Hồng Nhung

Mã số: T2013-156

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT

THÀNH PHỐ HỒ CHÍ MINH

BÁO CÁO TỔNG KẾT

ĐỀ TÀI KH&CN CẤP TRƯỜNG

MỘT SỐ ỨNG DỤNG CỦA PHƯƠNG PHÁP BOOTSTRAP TRONG XỬ LÝ SỐ LIỆU THỐNG KÊ

Mã số: T2013-156

Chủ nhiệm đề tài: Th.S NGUYỄN HỒNG NHUNG

TP HCM, 11/2013

Trang 3

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT

TP HCM, 11/2013

Trang 4

MỤC LỤC

MỤC LỤC 1

THÔNG TIN KẾT QUẢ NGHIÊN CỨU 2

MỞ ĐẦU 6

CHƯƠNG 1: PHƯƠNG PHÁP BOOTSTRAP 8

1 Đặt vấn đề 8

2 Nội dung phương pháp Bootstrap 9

3 Sai số tiêu chuẩn Bootstrap 13

3.1 Ước lượng Bootstrap cho sai số tiêu chuẩn của giá trị trung bình μ 14

3.2 Ước lượng Bootstrap cho sai số tiêu chuẩn của giá trị hệ số tương quan 15

3.3 Ước lượng Bootstrap cho sai số tiêu chuẩn của giá trị độ lệch 19

4 Ước lượng Bootstrap cho độ chệch 22

CHƯƠNG 2: KHOảNG ƯớC LƯợNG BOOTSTRAP 25

1 Kho ảng ước lượng Bootstrap-t 25

1.1 Khoảng ước lượng Bootstrap-t cho trung bình 27

1.2 Khoảng ước lượng Bootstrap-t cho trung bình thu gọn 29

1.3 Khoảng ước lượng Bootstrap-t cho tỷ lệ p 31

2 Kho ảng ước lượng Bootstrap phần trăm 32

2.1 Khoảng ước lượng Bootstrap 95% cho trung vị (median) 33

2.2 Khoảng ước lượng Bootstrap 95% cho độ lệch 35

2.3 Khoảng ước lượng Bootstrap 95% cho hệ số tương quan 35

3 Kho ảng ước lượng Bootstrap BCa 36

CHƯƠNG 3: KIểM ĐịNH BOOTSTRAP 40

1 Kiểm định Bootstrap bài toán hai mẫu 40

1.1 Kiểm định Bootstrap so sánh hai trung bình 40

1.2 Kiểm định Bootstrap so sánh hai t ỷ lệ 43

2 Kiểm định Bootstrap bài toán một mẫu 45

2.1 Kiểm định Bootstrap so sánh trung bình với µ0 cho trước 45

2.2 Kiểm định Bootstrap so sánh tỷ lệ với P0 cho trước 48

KẾT LUẬN VÀ KIẾN NGHỊ 50

TÀI LIỆU THAM KHẢO 51

Trang 5

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT

THÀNH PHỐ HỒ CHÍ MINH

KHOA KHOA HỌC CƠ BẢN

CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lập - Tự do - Hạnh phúc

Tp HCM, Ngày 25 tháng 11 năm 2013

THÔNG TIN KẾT QUẢ NGHIÊN CỨU

1 Thông tin chung:

- Tên đề tài: MỘT SỐ ỨNG DỤNG CỦA PHƯƠNG PHÁP BOOTSTRAP

TRONG XỬ LÝ SỐ LIỆU THỐNG KÊ

- Mã số: T2013-156

- Chủ nhiệm: Th.S NGUYỄN HỒNG NHUNG

- Cơ quan chủ trì: Đại học Sư phạm Kỹ thuật Thành phố Hồ Chí Minh

- Thời gian thực hiện: 2/2013 đến 11/2013

2 Mục tiêu

Đề tài nghiên cứu ứng dụng của phương pháp Bootstrap đối với bài toán ước lượng và

kiểm định

3 Tính mới và sáng tạo

Trình bày bài toán ước lượng bootstrap, kiểm định bootstrap cho các tham số thống kê

cụ thể như trung bình, tỷ lệ, hệ số tương quan,…

Xây dựng thủ tục giải bài toán kiểm định Bootstrap bằng phần mềm Matlab

4 Kết quả nghiên cứu

Trình bày bài toán ước lượng và kiểm định Bootstrap

Sử dụng phần mềm Matlab xây dựng thủ tục tính kho ảng ước lượng Bootstrap và giải

bài toán kiểm định Bootstrap

5 Hiệu quả, phương thức chuyển giao kết quả nghiên cứu và khả năng áp dụng

Tài liệu tham khảo cho sinh, học viên cao học chuyên ngành Xác suất Thống kê và những đối tượng sử dụng phương pháp Bootstrap trong nghiên cứu

Trang 6

Trưởng Đơn vị

(ký, họ và tên)

Chủ nhiệm đề tài

(ký, họ và tên)

Trang 7

INFORMATION ON RESEARCH RESULTS

Study the applications of Bootstrap with confidence intervals and hypothesis test

3 Creativeness and innovativeness:

It is shown that the Bootstrap intervals and hypothesis testing with the Bootstrap for average, percentage, correlation,…

Developprocedures tosolve the hypothesis testing with the Bootstrap by Matlab software

4 Research results:

It is shown that the Bootstrap confidence intervals and hypothesis testing with the Bootstrap

UsingMatlabsoftwareto developprocedures in finding the confidence intervals

Bootstrap and solving the hypothesis testing with the Bootstrap

5 Effects, transfer al ternatives of reserach results and applicability:

Trang 8

Referencesto students, post-graduate studentsmajoring inStatisticsandProbability and who using Bootstrapmethodsinthe study

Trang 9

MỞ ĐẦU

1 Tổng quan tình hình nghiên cứu thuộc lĩnh vực đề tài ở trong và ngoài nước

Phương pháp Bootstrap là phương pháp coi mẫu gốc ban đầu đóng vai trò tổng thể

mà từ đó nó được rút ra Từ mẫu ban đầu lấy lại các mẫu ngẫu nhiên cùng cỡ với mẫu gốc bằng phương pháp l ấy mẫu có hoàn lại, gọi là mẫu bootstrap Phương pháp Bootstrap được B.Efron đề xuất vào năm 1970 là một phương pháp lấy mẫu mới và

nó khác so với phương pháp truyền thống ở chỗ nó cho phép xử lý nhiều lần với mẫu gốc ban đ ầu Hiện nay sự phổ biến và phát triển của máy tính đã khắc được nhược điểm của phương pháp là có khối lượng tính toán lớn Chính vì vậy phương pháp Bootstrap ngày càng được phát triển và được phổ biến rộng rãi

2 Tính cấp thiết

Trong thống kê, Bootstrap được xem như là một phương pháp giải quyết các bất định của bài toán thống kê khi cỡ mẫu nhỏ mà không cần giả thuyết về phân phối xác suất của tham số thống kê cần nghiên cứu Việc nghiên cứu và phát triển phương pháp Bootstrap thu hút được sự quan tâm của nhiều nhà khoa học trên thế giới Phương pháp cũng được phổ biến rộng rãi khi nhiều trường đại học trên thế giới giảng dạy cho sinh viên cách s ử dụng.Vì vậy việc tìm hiểu, nghiên cứu và phổ biến các ứng dụng của phương pháp Bootstrap là việc làm cấp thiết

3 Mục tiêu

Mục tiêu của đề tài là tìm hiểu ứng dụng của phương pháp Bootstrap đối với bài toán ước lượng và kiểm định giả thuyết thống kê Trình bày các bước tìm các khoảng lượng Bootstrap của các tham số thống kê cụ thể Xây dựng thủ tục kiểm định Bootstrap cho bài toán kiểm định một mẫu và bài toán kiểm định hai mẫu

4 Cách tiếp cận

Trang 10

Để giải quết vấn đề trên, đề tài đã sử dụng các kết quả của lý thuyết thống kê cổ điển về bài toán ước lượng và kiểm định, từ đó xây dựng bài toán ước lượng và kiểm định Bootstrap

5 Phương pháp đối tượng và phạm vi nghiên cứu

Tìm hiểu cơ sở của phương pháp Bootstrap và ứng dụng của phương pháp Nghiên cứu sử dụng phần mềm Matlab giải các bài toán tìm khoảng ước lượng Bootstrap và kiểm định Bootstrap cụ thể

6 Nội dung nghiên cứu

Bản báo cáo đề tài gồm phần mở đầu, ba chương nội dung và phần kết luận

Chương 1 trình bày xuất xứ và ý nghĩa của đề tài khi tìm hiểu ứng dụng của phương pháp Bootstrap, nội dung của phương pháp Bootstrap và ước lượng sai số tiêu chuẩn cho các tham số trung bình, tương quan, độ lệch Sử dụng phần mềm Matlab lấy mẫu Bootstrap từ đó tính các giá trị tham số mẫu Bootstrap

Chương 2 trình bày cách tìm khoảng ước lượng Bootstrap-t, khoảng ước lượng Bootstrap phần trăm và khoảng ước lượng Bootstrap BCa Sử dụng phần mềm Matlab lập chương trình tìm một số khoảng lượng Bootstrap trên mẫu cụ thể

Chương 3 trình các bước kiểm định giả thuyết Bootstrap đối với một mẫu và hai mẫu cho tham số trung bình và t ỷ lệ Sử dụng phần mềm Matlab lập chương trình kiểm định giả thuyết Bootstrap đối với một mẫu và hai mẫu cho tham số trung bình và

tỷ lệ

Trang 11

Chương 1: Phương pháp Bootstrap

1 Đặt vấn đề

Giả sử X là biến ngẫu nhiên đ ặc trưng cho tính chất cần nghiên cứu, X có phân phối F chưa biết Để biết X ta cần tìm hiểu phân phối F, bằng cách xác định các tham sốθcủa F như trung bình, phương sai, median, hệ số tương quan của phân phối hai biến,…Theo phương pháp thống kê truyền thống ta lấy các mẫu ngẫu nhiên từ tổng thể nghiên cứu.Sử dụng hàm thống kê T(θ) với mỗi mẫu ta xác định

sát lớn, ta sẽ có một phân phối mẫu mô phỏng xấp xỉ với phân phối của θ

Hình 1.Sơ đồ mô phỏng phân phối mẫu

ngẫu đặc trưng cho tính chất cần nghiên cứu của cá thể thứ i với i=1, 2,…,n được

Trang 12

xk2, … , xkn , k=1, 2,…,m Với mỗi mẫu ngẫu nhiên cụ thể ta có giá trị trung bình

Từ kết quả này ta có một loạt các bài toán ước lượng, kiểm định cho giá trị trung bình

μ

Vấn đề đặt ra trong trường hợp ta chỉ quan sát được duy nhất một mẫu thực

θ của θ?

Để trả lời cho câu hỏi này ta có phương pháp bootstrap

2 Nội dung phương pháp Bootstrap

Phương pháp Bootstrap là phương pháp coi mẫu gốc ban đầu đóng vai trò tổng thể

mà từ đó nó được rút ra Từ mẫu ban đ ầu lấy lại các mẫu ngẫu nhiên cùng cỡ với mẫu gốc bằng phương pháp lấy mẫu có hoàn lại, gọi là mẫu bootstrap Với mỗi mẫu lấy lại ta tính được giá trị tham số thống kê quan tâm gọi lại tham số bootstrap Sự phân bố của các tham số thống kê mẫu bootstrap là phân phối bootstap

Lấy mẫu có hoàn lại có nghĩa là sau khi chúng ta rút ra ngẫu nhiên một quan sát từ mẫu ban đầu, ta đặt nó trở lại trước khi lấy quan sát tiếp theo Điều này cũng giống như lấy một số từ một chiếc hộp, sau đó đặt nó trở lại trước khi rút lại.Kết quả là, bất kỳ số có thể được rút ra một lần, nhiều hơn một lần, hoặc không được rút ra lần nào

Trang 13

Ký hiệux = x1, x2, … , xn là mẫu gốc ban đầu ta có mẫu bootstrap x∗=

Ví dụ như ta có giá trị trung bình bootstrap có dạng

n

i=1

Hình 2.Sơ đồ mô phỏng phân phối bootstrap

Ta sẽ sử dụng phần mềm Matlab xử lý số liệu thống kê bằng phương pháp Bootstrap Matlab là một ngôn ngữ lập trình cấp cao của hãng MathWorks.Matlab được sử dụng rông rãi trong môi trường học thuật, công nghệ.Matlab có khả năng

hỗ trợ tối ưu cho việc nghiên cứu cũng như giảng dạy toán học, kỹ thuật và khoa học với tính trực quan cao.Matlab có hàng ngàn lệnh và hàm tiện ích và các hàm

Mẫu ban

đầu

Mẫu bootstrap 1 Mẫu bootstrap 2

Giá trị

Trang 14

chuyên dụng trong các Toolbox Các Toolbox chuyên dụng cho người dùng với nhiều mục đích như giải toán sơ cấp, giải toán thống kê, xử lý tín hiệu số, xử lý ảnh, logic mờ,…

Khảo sát chiều cao và cân nặng của 50 nam sinh viên năm nhất khoa chất lượng cao trường đại học sư phạm kỹ thuật, ta có file dữ liệu hightclc1.m và weightclc1.m đóng vai trò là hai mẫu gốc ban đầu

>> load hightclc1.m

>> load weightclc1.m

>> n=length(hightclc1); % cỡ mẫu gốc

>> b=1000; % số lần lấy mẫu bootstrap

>>theta=mean(hightclc1) % trung bình mẫu gốc

theta =

1.6812

>>inds= unidrnd(n,n,b);

>>xboot = hightclc1(inds); % l ấy b mẫu bootstrap từ mẫu gốc hightclc1

>>xboot(:,1:7) % biểu diễn 7 mẫu bootstrap đầu tiên

Trang 15

>>thetab = mean(xboot); % trung bình của các mẫu bootstrap

>>thetab(:,1:5)% biểu diễn 5 giá trị trung bình bootstrap đ ầu tiên

ans =

1.6870 1.6682 1.6732 1.6846 1.6752

>>hist(thetab) %biểu đồ lịch sử các giá trị trung bình bootstrap

Trang 16

%Biểu đồ này cho chúng ta hình ảnh mô phỏng phân phối của trung bình mẫu

Hình 3 Biểu đồ mô phỏng phân phối trung bình mẫu

3 Sai số tiêu chuẩn Bootstrap

Mục đích của thống kê học là đưa ra thông tin về các tham số của tổng thể nghiên cứu Trong thực tế ta không biết chính xác các tham số này mà chỉ ước tính dựa vào một hay nhiều mẫu rút ra từ tổng thể Nhưng việc chọn mẫu là ngẫu nhiên nên

k=1

1.650 1.66 1.67 1.68 1.69 1.7 1.71 1.72 50

100 150 200 250

300

Trung bình các mau bootstrap

chieu cao trung binh (m)

Trang 17

Sai số tiêu chuẩn phản ánh mức độ thay đổi của các giá trị θ k Giá trị se θ nhỏ

Trong trường hợp không thể lấy nhiều mẫu từ tổng thể để xác định sai số tiêu

một mẫu gốc ban đ ầu Các bước thực hiện như sau:

Bước 1: Lấy theo phương pháp có hoàn lại từ mẫu gốc ban đầu được b mẫu

Bước 2: Với mỗi mẫu bootstrap có được ở bước 1 ta tính giá trị thống kê θk∗ =

k=1

Độ lệch tiêu chuẩn này là ước lượng bootstrap của sai số tiêu chuẩn se θ

lim

3.1 Ước l ượng B ootstrap cho sai s ố tiêu chu ẩ n c ủ a gi á tr ị trung bì nh 𝛍

Ta có các bước xác định giá trị ước lượng bootstrap cho sai số tiêu chuẩn của giá trị trung bình μ như sau:

Bước 1: Lấy theo phương pháp có hoàn lại từ mẫu gốc ban đầu được b mẫu

Trang 18

k =1

>>seb=std(thetab) % ước lượng bootstrap c ủa sai số tiêu chuẩn của

% chiều cao trung bình c ủa các nam sinh viên năm nhất

seb = 0.0071

3.2 Ước l ượng B ootstrap cho sai s ố tiêu chu ẩ n c ủ a gi á trị hệ số tương quan

Trang 19

Công thức xác định hệ số tương quan corr(Y, Z)

Để ước lượng cho hệ số tương quan của tổng thể ta có hệ số tương quan mẫu

ta tính được hệ số tương quan mẫu bootstrap

Bước 1: Lấy theo phương pháp có hoàn lại từ mẫu gốc ban đầu mỗi lần lấy

Bước 2: Với mỗi mẫu bootstrap có được ở bước 1 ta tính giá trị hệ số tương

quan mẫu bootstrap

∗ − y k∗ zk∗i− z k∗

n i=1

; k = 1, 2, … , b

n ni=1zk∗i

Trang 20

Bước 3: Tính độ lệch tiêu chuẩn của b giá trị rk∗tính được ở bước 2

>>bootsam(:,1:5) % Biểu diễn các chỉ số của 5 mẫu bootstrap đầu tiên ans =

Trang 21

100 150 200 250 300

he so tuong quan bootstrap

Trang 22

>>sebr=std(bootstat) % ước lượng bootstrap của sai số tiêu chuẩn của

% hệ số tương quan giữa chiều cao và cân nặng của các nam sinh viên

% năm nhất

sebr = 0.1031

3.3 Ƣớc l ƣợng B ootstrap cho sai s ố tiêu chu ẩ n c ủ a gi á tr ị độ l ệch

Giả sử biến ngẫu nhiên X có phân phối F chưa xác định Độ lệch γcủa phân phối F là tham số đo độ bất đối xứng của phân phối F Ta có

bằng giá trị modX bằng giá trị trung bìnhEX

Ta có độ lệch γ được xác định theo công thức

i=1

3 2

n n xi

i =1

Trang 23

Với mỗi mẫu bootstrap x∗ = x1∗, x2∗, … , xn∗ ta tính giá trị độ lệch mẫu bootstrap

3 2

n ni=1xi∗

Ta có các bước xác định giá trị ước lượng bootstrap cho sai số tiêu chuẩn của giá trị độ lệch γ như sau:

Bước 1: Lấy theo phương pháp có hoàn lại từ mẫu gốc ban đầu được b mẫu

Trang 24

>>skewb(:,1:5) %biểu diễn giá trị độ lệch của 5 mẫu bootstrap đầu tiên ans =

0.4703 -0.2218 0.2200 0.4610 -0.1974

>>hist(skewb)

Hình 5 Biểu đồ mô phỏng phân phối hệ số độ lệch mẫu

>>seskewb=std(skewb) % ước lượng bootstrap của sai số tiêu chuẩn của

% độ lệch mẫu chiều cao của các nam sinh viên năm nhất seskewb =

0.3612

50 100 150 200 250

Trang 25

4 Ước lượng Bootstrap cho độ chệch

Trong mục trên ta đã xét về sai số tiêu chuẩn là một tham số để đo độ chính xác

giá trị thực θ đó là độ chệch Độ chệch là tham số đo độ sai lệch giữa giá trị thực θ

và ước lượng θ = T(X) của nó Ta có

bias θ , θ = E θ − θ = E T X − θ

θ = T(X)là một ước lượng không chệch củaθ nếu độ chệch bias θ , θ = 0 tức là

n n Xi

tổng thể μ

là một ước lượng tốt cho tham số θ

Ta dùng bootstrap để đánh giá độ chệch bias θ , θ của θ = T(X) Công thức xác

Ta có các bước thực hiện để tính giá trị ước lượng bootstrap cho độ chệch như sau:

Bước 1: Lấy theo phương pháp có hoàn lại từ mẫu gốc ban đầu được b mẫu

Trang 27

bias

Ngày đăng: 27/11/2021, 08:50

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w