Kiểm định giả thuyết phi tham số: - Kiểm định một phân bố xác suất - Kiểm định sự độc lập của hai đặc tính 2... Bài giảng Xác suất Thống kê 2017 Giả thuyết – Đối thuyết Bài toán tổng
Trang 1Năm học 2017 – 2018
Trang 2- So sánh hai giá trị xác suất
3 Kiểm định giả thuyết phi tham số:
- Kiểm định một phân bố xác suất
- Kiểm định sự độc lập của hai đặc tính
2
Trang 3Bài giảng Xác suất Thống kê 2017
Vấn đề
Ví dụ: Năng suất lúa trung bình vụ xuân năm 2015 tại huyện
Quỳnh Phụ - Thái Bình là 2,3 tạ/sào Điều tra năng suất 100 thửa tại Quỳnh Phụ vụ xuân 2016 ta được trung bình mẫu là 2,5 tạ/sào và độ lệch chuẩn mẫu là 0,15 tạ/sào Hỏi rằng ta có thể kết luận năng suất trung bình của vụ xuân 2016 cao hơn vụ xuân 2015 hay không?
Vấn đề: Xét giả thuyết nghiên cứu: “ ”, trong đó là năng
suất trung bình vụ xuân 2016 của huyện Quỳnh Phụ
Dựa vào mẫu quan sát, ta cần đưa ra quyết định chấp nhận hay bác bỏ giả thuyết trên
3
µ > 2,3 µ
Trang 4Bài giảng Xác suất Thống kê 2017
Cách giải quyết
Bước 1: Xây dựng giả thuyết không (đảo) trái với giả thuyết
nghiên cứu, kí hiệu là , gọi tắt là giả thuyết
Ví dụ: (năng suất trung bình vụ xuân 2016 không cao hơn vụ xuân 2015)
Giả thuyết nghiên cứu gọi là đối thuyết, kí hiệu là
Bước 2: Xây dựng quy tắc kiểm định để dựa vào mẫu quan sát
(bằng chứng), ta bác bỏ (chấp nhận ) hoặc chấp nhận (bác bỏ )
Trang 5Bài giảng Xác suất Thống kê 2017
Giả thuyết – Đối thuyết
Bài toán tổng quát: Ta quan sát đặc tính X trong một tổng thể
Giả sử biến X có phân bố ( là một giá trị không biết)
Ta cần kiểm định một giả thuyết về tham số hoặc phân bố F
Bước 1: Xây dựng cặp giả thuyết – đối thuyết
Giả thuyết : Giả thuyết trái với giả thuyết nghiên cứu
Đối thuyết : giả thuyết nghiên cứu
Bước 2: Xây dựng quy tắc kiểm định để dựa vào mẫu quan sát
(bằng chứng), ta bác bỏ (chấp nhận ) hoặc chấp nhận (bác bỏ )
Trang 6Bài giảng Xác suất Thống kê 2017
Sai lầm loại I và sai lầm loại II
H0 đúng (H1 sai) H0 sai (H1 đúng)
Bác bỏ H0 (chấp nhận H1) Sai lầm loại I ( ) quyết định đúng (1 - ) Chấp nhận H0 (bác bỏ H1) Quyết định đúng Sai lầm loại II ( )
Trang 7Bài giảng Xác suất Thống kê 2017
Sai lầm loại I và loại II
Ví dụ: Một công ty dược đưa ra một loại thuốc mới và nói rằng
thuốc này tốt cho bênh nhân mắc bệnh A Thí nghiệm lâm sàng trên một số bệnh nhân mắc bệnh A để kiểm định giả thuyết này Giả thuyết : Thuốc nguy hiểm
Đối thuyết : Thuốc tốt
= P(bác bỏ H0 | H0 đúng) = P(kết luận thuốc tốt khi thuốc nguy hiểm)
= P(bác bỏ H1| H1 đúng) = P( kết luận thuốc nguy hiểm khi thuốc tốt)
Trang 8Bài giảng Xác suất Thống kê 2017
Sai lầm loại I và sai lầm loại II
H0 đúng (H1 sai) H0 sai (H1 đúng)
Bác bỏ H0 (chấp nhận H1) Sai lầm loại I ( ) quyết định đúng (1 - ) Chấp nhận H0 (bác bỏ H1) Quyết định đúng Sai lầm loại II ( )
8
β
α
Kiểm định mức ý nghĩa (significance test): xây dựng quy tắc kiểm
định để xác suất sai lầm loại I, số cho trước (gọi là mức ý nghĩa, thường xét = 5%, 1%, …)
Lực lượng kiểm định (power of test) = P(chấp nhận H1| H1 đúng)
Trang 9Bài giảng Xác suất Thống kê 2017
Kiểm định giả thuyết tham số
Kiểm định một tổng thể:
- Kiểm định giá trị trung bình của phân phối chuẩn
- Kiểm định giá trị tỷ lệ trong tổng thể
Kiểm định hai tổng thể:
- So sánh hai giá trị trung bình của hai tổng thể
- So sánh hai giá trị tỷ lệ trong hai tổng thể
9
Trang 10Bài giảng Xác suất Thống kê 2017
Kiểm định giá trị trung bình của phân phối chuẩn
Bài toán: Quan sát một biến X trong một tổng thể có phân bố chuẩn Ta xét 3 cặp giả thuyết – đối thuyết sau ở mức ý nghĩa :
- Đối thuyết một phía về bên phải
Trang 12Chú ý: Với các GT hợp hay thì quy tắc
kiểm định cũng giống với trường hợp GT đơn
Trang 13Bài giảng Xác suất Thống kê 2017
Ví dụ
Ví dụ: Năng suất lúa trung bình vụ xuân năm 2015 tại huyện
Quỳnh Phụ - Thái Bình là 2,3 tạ/sào Điều tra năng suất 100 thửa tại Quỳnh Phụ vụ xuân 2016 ta được trung bình mẫu là 2,5 tạ/sào và độ lệch chuẩn mẫu là 0,15 tạ/sào Hỏi rằng với mức ý nghĩa 5% ta có thể kết luận năng suất trung bình của vụ xuân 2016 cao hơn vụ xuân 2015 hay không?
13
Trang 15Bài giảng Xác suất Thống kê 2017
Vấn đề
Ví dụ: Điều tra năng suất lúa vụ xuân năm 2015 của 50 thửa
ruộng ở Thái Bình (X) và 60 thửa ruộng tại Nam Định (Y) ta thu được kết quả sau:
Hỏi rằng ta có thể coi năng suất lúa trung bình vụ xuân năm
2015 của tỉnh Thái Bình cao hơn tỉnh Nam Định hay không?
Vấn đề: Xét giả thuyết nghiên cứu: “ ”, trong đó là
năng suất trung bình vụ xuân 2015 của tỉnh Thái Bình và Nam Định
Dựa vào mẫu quan sát, ta cần đưa ra quyết định chấp nhận hay bác bỏ giả thuyết trên
15
x = 7; y = 6,5;sX2 = 0,09;sY2 = 0,1
µX > µY µX, µY
Trang 16Bài giảng Xác suất Thống kê 2017
Bước 1: Xây dựng cặp giả thuyết – đối thuyết: Gọi là năng
suất trung bình vụ xuân 2015 của tỉnh Thái Bình và Nam Định Giả thuyết
Đối thuyết
Bước 2: Xây dựng quy tắc kiểm định để:
Xác suất sai lầm loại I = P(bác bỏ | đúng) (mức ý nghĩa cho trước)
Lực lượng kiểm định = = P(chấp nhận | đúng) lớn nhất có thể
Trang 17Bài giảng Xác suất Thống kê 2017
So sánh giá trị trung bình của hai phân phối chuẩn
Bài toán: Quan sát hai biến X, Y trong hai tổng thể có phân bố chuẩn
và Ta xét 3 cặp giả thuyết – đối thuyết sau ở mức ý nghĩa :
- Đối thuyết một phía về bên phải
Trang 18Bài giảng Xác suất Thống kê 2017
So sánh giá trị trung bình của hai phân phối chuẩn
Xét hai mẫu ngẫu nhiên lấy từ tổng thể X và
lấy từ tổng thể Y
Trường hợp 1: Kích thước mẫu n, m đủ lớn (n, m > 30)
Tiêu chuẩn kiểm định: xấp xỉ phân phối N(0; 1) khi đúng
Trang 19Bài giảng Xác suất Thống kê 2017
So sánh giá trị trung bình của hai phân phối chuẩn
Trường hợp 2: Kích thước mẫu n, m nhỏ (n, m < 30) nhưng
Tiêu chuẩn kiểm định: có phân phối khi đúng, trong đó:
Trang 20Bài giảng Xác suất Thống kê 2017
Áp dụng
Ví dụ 1: Điều tra năng suất lúa vụ xuân năm 2015 của 50 thửa
ruộng ở Thái Bình (X) và 60 thửa ruộng tại Nam Định (Y) ta thu được kết quả sau:
Với mức ý nghĩa 5% ta có thể coi năng suất lúa trung bình vụ xuân năm 2015 của tỉnh Thái Bình cao hơn tỉnh Nam Định hay không?
20
x = 7; y = 6,5;sX2 = 0,09;sY2 = 0,1
Trang 21kỳ vọng của biến D với các cặp giả thuyết – đối thuyết tương ứng:
và (hoặc )
Mẫu quan sát ứng với biến D là với
Tiêu chuẩn kiểm định:
Trang 22Bài giảng Xác suất Thống kê 2017
Áp dụng
Ví dụ 2: Để so sánh năng suất của hai giống lúa A (năng suất X),
giống lúa B ( năng suất Y), người ta trồng từng cặp trên các loại đất khác nhau sau thu hoạch ta được kết quả sau:
X (tấn/ha): 6; 7; 6,5; 5,5; 4,3; 6,6; 5,8; 4,9; 5,3; 6,5
Y (tấn/ha): 5; 4; 7,5; 5,5; 5,5; 5,6; 6,8; 4,2; 6,3; 4,5
Giả sử X và Y là các biến ngẫu nhiên có phân phối chuẩn có cùng phương sai Với mức ý nghĩa 0,05 có thể coi năng suất trung bình hai giống lúa trên là khác nhau không?
22
Trang 23Bài giảng Xác suất Thống kê 2017
NỘI DUNG
3 Kiểm định giả thuyết phi tham số:
- Kiểm định một phân bố xác suất
- Kiểm định sự độc lập của hai đặc tính
23
Trang 24KIỂM ĐỊNH GIẢ THIẾT
VỀ PHÂN BỐ XÁC SUẤT RỜI RẠC
Xét phép thử có k kết cục A1, A2,
…, Ak là một hệ đầy đủ các biến cố xung khắc từng đôi Khi phép thử được thực hiện thì chắc chắn một trong các biến cố A1, A2, …, Ak xảy ra
τ
Trang 25Ta cần kiểm định giả thiết
KIỂM ĐỊNH GIẢ THIẾT
VỀ PHÂN BỐ XÁC SUẤT RỜI RẠC
Trang 26KIỂM ĐỊNH GIẢ THIẾT
VỀ PHÂN BỐ XÁC SUẤT RỜI RẠC
o Gọi Xi là số lần biến cố Ai xảy ra trong n
phép thử
(i = 1, 2, …, k);
o Nếu H0 đúng, khi n khá lớn
( hoặc ít ra là )
o Đại lượng ngẫu nhiên
có phân phối xấp xỉ phân phối Khi – bình phương với k – 1 bậc tự do
k
i i=1
Trang 27KIỂM ĐỊNH GIẢ THIẾT
VỀ PHÂN BỐ XÁC SUẤT RỜI RẠC
Trang 28KIỂM ĐỊNH GIẢ THIẾT
VỀ PHÂN BỐ XÁC SUẤT RỜI RẠC
Ví dụ Sản phẩm do một nhà máy sản xuất được đóng thành từng hộp Mỗi hộp có 12 sản phẩm gồm 2 loại: loại I
và loại II Theo báo cáo của nhà máy thì tỷ lệ hộp có 12 sản phẩm loại I là 60% Tỷ lệ hộp có 11 sản phẩm loại I là 25% Tỷ lệ hộp có 10 sản phẩm loại I
là 10% Tỷ lệ hộp có số sản phẩm loại
I dưới 10 là 5%
Trang 29KIỂM ĐỊNH GIẢ THIẾT
VỀ PHÂN BỐ XÁC SUẤT RỜI RẠC
Chọn ngẫu nhiên 1000 hộp do nhà máy này sản xuất thì thấy có 585 hộp có 12 sản phẩm loại I; 256 hộp có 11 sản phẩm loại I; 97 hộp có 10 sản phẩm loại I ; 52 hộp có 9 sản phẩm loại I và
10 hộp có 8 sản phẩm loại I Có thể chấp nhận báo cáo của nhà máy hay không? Tính giá trị của tiêu chuẩn kiểm định và đưa ra kết luận với mức ý nghĩa 5%
Trang 30KIỂM ĐỊNH GIẢ THIẾT
VỀ TÍNH ĐỘC LẬP
diễn bởi (i = 1, 2, …, h;j = 1, 2, …,
Trang 31KIỂM ĐỊNH GIẢ THIẾT
Trang 32KIỂM ĐỊNH GIẢ THIẾT
Trang 33KIỂM ĐỊNH GIẢ THIẾT
Trang 34KIỂM ĐỊNH GIẢ THIẾT
VỀ TÍNH ĐỘC LẬP
có phân phối xấp xỉ phân phối Khi – bình phương với (h – 1)(k – 1) bậc tự do
i
M n
j
N n
2 j i
X n .
n n N M
Trang 35KIỂM ĐỊNH GIẢ THIẾT
chia
Trang 36KIỂM ĐỊNH GIẢ THIẾT
i
2 ij
ij 2
Trang 37KIỂM ĐỊNH GIẢ THIẾT
VỀ TÍNH ĐỘC LẬP
Ví dụ Để nghiên cứu xem quy mô của công ty có ảnh hưởng đến hiệu quả quảng cáo đối với khách hàng hay không, người ta tiến hành phỏng vấn
400 khách hàng và thu được kết quả sau:
Trang 38KIỂM ĐỊNH GIẢ THIẾT
VỀ TÍNH ĐỘC LẬP
Với mức ý nghĩa 5%, có thể cho rằng quy
mô của công ty có ảnh hưởng đến hiệu quả của quảng cáo đối với khách hàng hay không?
Quy mô công ty Hiệu quả quảng cáo
Mạnh Vừa phải Yếu Nhỏ và vừa 72 36 30
Lớn 83 109 70
Trang 39KIỂM ĐỊNH GIẢ THIẾT
VỀ TÍNH ĐỘC LẬP
Ta cần kiểm định giả thiết
o H0: Quy mô của công ty không ảnh
hưởng đến hiệu quả của quảng cáo đối với khách hàng (độc lập)
đến hiệu quả của quảng cáo đối với khách hàng (không độc lập)
Trang 40KIỂM ĐỊNH GIẢ THIẾT
VỀ TÍNH ĐỘC LẬP Mạnh Vừa phải Yếu Tổng Nhỏ và vừa 72 36 30 138
Trang 41KIỂM ĐỊNH GIẢ THIẾT
2
ij 2