** đặc trưng cho biết mức độ phân tán của các số liệu, mức độ biến động: biên độ, độ lệch trung bình, độ lệch tiêu chuẩn và phương sai.. iii Nếu các số liệu mẫu được ghép lớp theo phân
Trang 1Chương THỐNG KÊ
§ Thống kê là gì? Tại sao phải thống kê?
Vai trò quan trọng của các đặc trưng của một BNN (?)
Thí dụ Một hộp chứa 3 bi trắng và 1 bi đen Trò chơi đặt
ra: Người tham gia chơi sẽ bốc ngẫu nhiên một viên bi Sẽ nhận được 2 đô la nếu bốc được bi trắng, sẽ phải trả 3 đô
la nếu bốc phải bi đen Biết rằng xác suất bốc được của mỗi viên bi là như nhau Có nên tham gia trò chơi?
Trang 2Thí dụ Một công ty chăn nuôi lợn lấy thịt, mỗi lứa nuôi
Trang 3Thí dụ Một sư đoàn có kế hoạch may quân phục cho
khoảng 1 triệu tân binh
a) Dựa vào tiêu chí nào để đưa ra các kích cỡ
quân phục phù hợp?
b) Nếu biết các chỉ số về kích thước của các tân binh tuân theo quy luật chuẩn N (1, 7;0, 312) và dự kiến đưa ra 3 kích cỡ quân phục thì nên đưa ra các kích cỡ như thế nào cho phù hợp?
Thí dụ Có hai giống lúa Nên dựa vào tham số nào để
so sánh năng suất của hai giống lúa? Làm thế nào để tính các tham số đó?
Trang 4Kết luận: Trong nhiều tình huống, để đưa ra quyết
định, đánh giá hay giải quyết một vấn đề nào đó … Æ
ta dựa vào các tham số μ σ, , p
Lưu ý rằng khi xét BNN nào đó, thì mỗi tham số là duy nhất
Æ thống kê để có các thông tin về các tham số
Trang 5§ Cơ sở lý thuyết mẫu
Các khái niệm cơ bản
a) Mẫu ngẫu nhiên
Thí dụ Gọi X là số chấm thu được khi tung một con
xúc xắc, X là biến ngẫu nhiên tuân theo quy luật
P 1/6 1/6 1/6 1/6 1/6 1/6Nếu tung con xúc xắc 3 lần và gọi X i = i ( 1, 3) là số chấm xuất hiện ở lần thứ i thì ta có 3 biến ngẫu nhiên độc lập tạo nên mẫu ngẫu nhiên kích thước n = 3
Trang 6Mẫu ngẫu nhiên kích thước n là tập hợp
n biến ngẫu nhiên độc lập X 1 , X 2 , …, X n được thành lập từ biến ngẫu nhiên X
Giả sử X1 nhận giá trị x1; X2 nhận giá trị x2; …, Xn nhận giá trị xn Tập hợp n giá trị x1, x2, …, xn tạo thành một mẫu cụ thể, ký hiệu
w = (x1, x2, …, xn)
Trang 7§ Các phương pháp mô tả số liệu mẫu
a) Bảng phân bố thực nghiệm
Bảng phân bố thực nghiệm của dấu hiệu điều tra X:
X x1 x2 … xk Tổng
Tần số n1 n2 … nk ∑ni = n Tần suất f1 f2 … fk ∑fi = 1trong đó i
i
n f
(ii)
1
k
i i
f
=
=
∑
Trang 8Thí dụ Điều tra điểm thi tốt nghiệp môn toán của một
thành phố, người ta điều tra ngẫu nhiên 400 em học sinh (n
Trang 9b) Bảng phân bố ghép lớp
trong một số trường hợp giá trị điều tra khá gần nhau,
cỡ mẫu n lớn Æ chia khoảng, sao cho mỗi giá trị điều
tra thuộc và chỉ một khoảng
Trang 10Thí dụ Chiều cao (dm) của 400 cây được trình bày
thành bảng phân bố ghép lớp
Khoảng Tần số Tần suất Độ rộng khoảng4,5 – 9,5
9,5 – 11,5 11,5 – 13,5
Trang 11c) Tần số tích lũy và tần suất tích lũy
*( )
i i
(i) F x xác định tần suất của biến cố * ( ) {X < x} (?)
(ii) Khi cỡ mẫu đủ lớn thì F x và * ( ) F x sai khác ( )
nhau không đáng kể (?)
Trang 12§ Biểu diễn bằng biểu đồ, tổ chức đồ
Giả sử ta có bảng phân bố thực nghiệm
Tần số 10 20 30 15 10 10 5 20Tần suất 1/12 2/12 3/12 1/8 1/12 1/12 1/24 1/6
Trang 15Đối với bảng ghép lớp, ta dùng tổ chức đồ (histogram)
để biểu diễn và lưu ý rằng hai trường hợp sau đây cách lấy chiều cao các cột là khác nhau
(i) Độ rộng các khoảng bằng nhau
(ii) Độ rộng các khoảng không bằng nhau
Trang 16Thí dụ Doanh thu 51 cửa hàng của một công ty
năm 1996 (đơn vị là triệu đồng vn)
120
88
71 135 156 120 112 123
95
195 109
90
121 147
67 166
64 113
87
60
27
129 118
62
83
49 155
66
79 104
55
84
a) lập bảng ghép lớp, sử dụng 8 khoảng với độ rộng 22
b) vẽ tổ chức đồ tần suất
Trang 17Khoảng Tần số Tần suất26,5-48,5
48,5-70,5 70,5-92,5 92,5-114,5114,5-136,5136,5-158,5158,5-180,5180,5-202,5
Trang 1870 .5 -9 2.
5
114 5
92.5-11 4.5 -1 36.
5
13 6.5 -15 8.
5
15 8.5 -18 0.
5
180 5 -2
02. 5
tần suất
Trang 19Trong trường hợp độ rộng các khoảng không bằng nhau,
ta dựng các hình chữ nhật đó có diện tích đúng bằng tần
số tương ứng (bằng tần suất nếu là biểu đồ tần suất)
nghĩa là trên các khoảng thứ i có độ rộng li ta dựng hình chữ nhật có chiều cao i ( i
Trang 20Thí dụ Chiều cao (dm) của 400 cây được trình bày
Trang 21Khoảng ri li i i
i
r y
Trang 22§ Thống kê
Khi nghiên cứu một dấu hiệu nào đó mà ta gọi là BNN
X, một việc làm rất tự nhiên là rút ra một mẫu ngẫu
nhiên (X X1, 2, ,X để quan sát Các BNN n ) X mặc dù i
là cùng quy luật với X nhưng vì quy luật của X chưa
biết nên các BNN X cũng vậy i
Tuy nhiên, nếu tổng hợp các biến ngẫu nhiên này thì sẽ bộc lộ những thông tin về BNN X
Trang 23Việc tổng hợp mẫu W = (X X1, 2, ,X n ) được thực hiện
dưới dạng một hàm nào đó của các giá trị X , 1 X , …, 2
n
X , nó được gọi là thống kê, và kí hiệu là G
Bản chất của G cũng là một BNN, tuân theo một quy
luật nào đó và cũng có các tham số đặc trưng như
Trang 24§ Một số thống kê đặc trưng của mẫu ngẫu nhiên
Các thống kê đặc trưng của mẫu ngẫu nhiên chia thành
ba loại
(*) Đặc trưng cho biết xu hướng trung tâm của mẫu:
cho biết các số liệu của mẫu tập trung xung quanh
những con số nào Đó là các đặc trưng như trung bình mẫu, trung vị, và mode
(**) đặc trưng cho biết mức độ phân tán của các số
liệu, mức độ biến động: biên độ, độ lệch trung bình,
độ lệch tiêu chuẩn và phương sai
(***) các thống kê đặc trưng dạng phân phối
Trang 25n =
Trang 27(iv) Độ lệch chuẩn của X thường dùng để phản ánh sai số ước lượng nên thường gọi là sai số chuẩn
(Standard error) Se của trung bình mẫu
n
i i
r x x
Trang 28Thí dụ Tính chiều cao trung bình của 400 cây
Khoảng Tần số Tần suất Trung điểm 4,5 – 9,5
7 10,5 12,5
15
18
21 24,5 31,5 Tổng 400 1
Trang 30(iii) Nếu các số liệu mẫu được ghép lớp theo phân phối
tần số thì giá trị trung vị có thể tính gần đúng bằng công thức:
n là tần số của lớp chứa trung vị
h là độ dài của lớp chứa trung vị
Trang 31Thí dụ Cho bảng phân bố tần số của X
(kích thước mẫu n = 400) Hãy tính trung bình mẫu và
Trang 32Thí dụ Tìm khoảng trung vị và số trung vị của mẫu được
cho bởi phân phối thực nghiệm trong bảng sau
Đoạn giá trị chiều dài h = 5 Tần số n i Tần số tích lũy w i
Trang 33Nhận xét Trung vị, cũng như trung bình mẫu, phản ánh xu
hướng trung tâm của phân phối mẫu song nó có đặc điểm không san bằng các chênh lệch giữa các giá trị của mẫu do
đó thường được dùng để bổ sung hoặc thay thế trung bình mẫu khi không có đủ số liệu để tính
Trang 34trong đó, L là giới hạn dưới của lớp chứa mốt
d là hiệu số giữa tần số của lớp chứa mode và 1
Trang 35Thí dụ Với bảng số liệu sau đây hãy tìm giá trị mode
Đoạn giá trị chiều dài h = 5 Tổng các tần số tương ứng n i
Trang 36Thí dụ ghi lại kết quả của việc bán 200 đôi dày
Giá bán Tần số ri Độ cao yi
30-40 40-50 50-55 55-60 60-65 65-70 70-80 80-90 90-100
7 7,4 3,2
1 2,1 0,5
Hãy tính khoảng mode, khoảng trung vị, số trung
vị và giá trị trung bình của doanh số
Trang 37Nhận xét Cũng như trung vị, mode là đại lượng
không san bằng chênh lệch giữa các giá trị của mẫu, do đó nó bổ sung hoặc thay thế trung bình mẫu khi việc tính trung bình mẫu gặp khó khăn
Trang 38Các tham số đặc trưng cho độ phân tán của các giá trị
Trang 39e) Tổng bình phương các sai lệch và độ lệch bình phương
Lúc đó tổng bình phương sai lệch giữa các giá trị của mẫu
và trung bình mẫu được kí hiệu là SS
2 1
n
i i
=
Giá trị SS thường được dùng trong phân tích phương sai
Chia SS cho kích thước mẫu ta được độ lệch bình phương trung bình, ký hiệu là MS
2 1
n
i i
Trang 40Ta thường tính toán theo công thức
1
1 k
i i i
n =
f) Phương sai mẫu
Phương sai mẫu, ký hiệu là S2 được xác định bằng công thức
Trang 41Thí dụ Tính trung bình, phương sai mẫu và độ lệch tiêu
chuẩn
Khoảng Tần số Tần suất Trung điểm
4,5 – 9,5 9,5 – 11,5 11,5 – 13,5
7 10,5 12,5
15
18
21 24,5 31,5
Tổng 400 1
Trang 42CHƯƠNG: ƯỚC LƯỢNG CÁC THAM SỐ CỦA BIẾN NGẪU NHIÊN
Giả sử cần nghiên cứu dấu hiệu X trong tổng thể;
mà rõ ràng hơn là nghiên cứu các tham số đặc trưng của X như kỳ vọng EX, phương sai DX, … Tất nhiên ở đây ta phải biết được dạng phân phối của BNN X (nghĩa là biết X tuân theo một quy luật nào đó ví dụ như X tuân theo quy luật chuẩn N(μ,σ2 ) mà μ,σ chưa xác định; hay biết X tuân theo quy luật nhị thức B(n,p) mà p chưa xác
định…)
Trang 43§ Phương pháp ước lượng điểm
Phương pháp này chủ trương lấy một giá trị để thay thế
cho tham số θ chưa biết
Ví dụ như cần ước lượng kỳ vọng EX của BNN X, ta có thể
- ước lượng (xấp xỉ) EX bởi trung bình mẫu ngẫu nhiên
Trang 44Một vấn đề đặt ra là nên chọn ước lượng nào cho hiệu quả nhất??
a) Ước lượng không chệch
Thống kê ˆθ của mẫu được gọi là ước lượng không chệch của
tham số θ của BNN nếu E θ( )ˆ = θ
Trang 45b) Ước lượng hiệu quả
Mỗi tham số có thể có nhiều ước lượng không chệch Một câu hỏi đặt ra là nên chọn ước lượng nào trong số đó?
Thống kê của mẫu được gọi là ước lượng hiệu quả nhất của tham số θ của BNN gốc X nếu nó là ước lượng không chệch và có phương sai nhỏ nhất so với mọi ước lượng
không chệch khác được xây dựng trên cùng mẫu đó
Thí dụ Từ một mẫu ngẫu nhiên kích thước n = 2 ta xét
hai ước lượng sau đây của trung bình tổng thể m
Trang 46b) Ước lượng nào hiệu quả hơn
Trang 47§ Phương pháp ước lượng bằng khoảng tin cậy
Ước lượng kỳ vọng toán của biến ngẫu nhiên tuân theo quy luật chuẩn
a) Đã biết σ Æ khoảng tin cậy với độ tin cậy β = 1 - α
Trang 48b) Chưa biết σ Æ tùy vào cỡ mẫu n
(*) nếu n ≥ 30 thì khoảng tin cậy là
Trang 50Thí dụ Trọng lượng của một loại sản phẩm là biến ngẫu
nhiên phân phối theo quy luật chuẩn với độ lệch chuẩn
là 1 gam Cân thử 25 sản phẩm loại này ta thu được kết quả sau
Trọng lượng (gam) 18 19 20 21
Số SP tương ứng 3 5 15 2Với độ tin cậy 0,95 hãy tìm khoảng tin cậy của trọng
lượng trung bình của loại sản phẩm nói trên
Trang 51Thí dụ Để xác định trọng lượng trung bình của các bao
bột trong kho, người ta đem cân ngẫu nhiên 15 bao của kho đó và tìm được x = 39, 8kg ; s =2 0,144 Hãy tìm
khoảng tin cậy của trọng lượng trung bình của các bao bột trong kho với yêu cầu độ tin cậy của việc ước lượng
là 99% Giả thiết rằng trọng lượng đóng bao của các bao bột là biến ngẫu nhiên tuân theo phân phối chuẩn
Trang 52Thí dụ Phỏng vấn 5 gia đình có 3 người về chi phí hàng
tháng cho nhu yếu phẩm thu được các số liệu sau: 150 ngàn đồng, 180 ngàn, 200 ngàn, 250 ngàn, 300 ngàn
Vậy phải phỏng vấn bao nhiêu gia đình cùng loại để độ tin cậy 95% sai số của việc ước lượng chi phí trung bình hàng tháng cho nhu yếu phẩm không vượt quá 30 ngàn đồng Giả thiết chi phí hàng tháng cho nhu yếu phẩm là biến ngẫu nhiên phân phối chuẩn
Trang 53Chương 4 KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ
KIỂM ĐỊNH GIẢ THIẾT VỀ GIÁ TRỊ TRUNG BÌNH
a) Phương sai σ2 đã biết
test thống kê là
/
X T
n
μ σ
Trang 54Thí dụ Trong năm trước trọng lượng trung bình trước
khi xuất chuồng của bò ở một trại chăn nuôi là 380 kg Năm nay người ta áp dụng thử một chế độ nuôi mới với
hy vọng là bò sẽ tăng trọng nhanh hơn Sau thời gian áp dụng thử người ta lấy ngẫu nhiên 50 con bò trước khi
xuất chuồng đem cân và tính trọng lượng trung bình
của chúng là 390 kg Vậy với mức ý nghĩa α = 0,01 có thể cho rằng trọng lượng trung bình của bò trước khi
xuất chuồng đã tăng lên hay không? Giả thiết trọng
lượng của bò là biến ngẫu nhiên phân phối chuẩn với độ lệch chuẩn là 35,2kg
Trang 55Giải Gọi X là trọng lượng của bò trước khi xuất
chuồng
Cặp giả thuyết thống kê có dạng:
H0: μ = 380 và H1: μ > 380 Test thống kê là
Trang 56b) Phương sai σ2 chưa biết
Test thống kê là 0
/
X T
Trang 57Thí dụ Trọng lượng đóng bao của các bao gạo trong
kho là biến ngẫu nhiên theo phân phối chuẩn với trọng lượng trung bình theo quy định là 50 kg Nghi ngờ bị đóng thiếu, người ta đem cân ngẫu nhiên 25 bao và thu được các số liệu sau
Trọng lượng bao (kg) Số bao tương ứng
48,0 – 48,5 48,5 – 49,0 49,0 – 9,5 49,5 – 50,0 50,0 – 50,5
trên
Trang 58Giải: Cặp giả thuyết thống kê:
s
−
=
trong đó X và s là trung bình và độ lệch chuẩn của mẫu
thay số vào ta được Tqs = − 6,887
ta có − tα(n−1) = − t0,0124 = − 2, 402 nên miền bác bỏ là
( −∞ − , 2, 402 )
Trang 59BÀI TOÁN SO SÁNH HAI GIÁ TRỊ TRUNG BÌNH
Giả sử X ~ N(μ1, σ12) và Y ~ N(μ2, σ22) và ta muốn so sánh μ1 và μ2 dựa trên hai mẫu quan sát của X và Y
a) Phương sai σ12 và σ22 đã biết
Bài toán 1 [hai phía]
H0: μ1 = μ2 với đối thiết H1: μ1 ≠ μ2
Trang 60Bài toán 2 [một phía]
Trang 61Thí dụ Tại một xí nghiệp người ta xây dựng hai phương án
gia công cùng một loại chi tiết Để đánh giá xem chi phí
trung bình về nguyên liệu theo hai phương án ấy có khác
nhau hay không người ta tiến hành sản xuất thử và thu
được các kết quả sau:
Phương án 1: 2,5 3,2 3,5 3,8 3,5
Phương án 2: 2,0 2,7 2,5 2,9 2,3 2,6
Với mức ý nghĩa α = 0,05, hãy kết luận vấn đề trên biết
rằng chi phí nguyên liệu theo cả hai phương án gia công đều
là các biến ngẫu nhiên phân phối chuẩn với 2 2
σ = σ =
Trang 62Giải Bài toán kiểm định
H0: μ1 = μ2 và H1: μ1 ≠ μ2 khi đã biết 2
2
2,0 2,7 2,5 2,9 2,3 2,6
2,56
Trang 63Ta có giá trị quan sát của test là
s
3,3 2,50,16 0,16
q
+
Trang 64b) Phương sai σ12 và σ22 chưa biết và mẫu lớn (n ≥ 30, m
Trang 65Thí dụ Một nghiên cứu được thực hiện đối với 20 người
ở một phường và 19 người ở một phường khác trong
thành phố để xem thu nhập trung bình hàng năm (tính bằng triệu đồng) của dân cư hai phường đó có thực sự khác nhau hay không Các số liệu mẫu thu được như
trung bình của dân cư ở hai phường đó khác nhau hay không? Giả thiết thu nhập hàng năm của dân cư hai
phường cùng phân phối chuẩn với phương sai như nhau
Trang 66Giải cặp giả thuyết
Trang 67d) Khoảng tin cậy cho hiệu số μ1 - μ2
trong trường hợp σ12 và σ22 đã biết thì khoảng tin cậy với độ tin cậy β cho μ1 - μ2 là
trong trường hợp mẫu nhỏ (n, m < 30), phương sai σ12
và σ22 chưa biết nhưng bằng nhau thì ĐLNN
Trang 68e) Trường hợp hai mẫu điều tra phụ thuộc theo từng cặp
ở các trường hợp trước ta luôn giả thiết rằng các mẫu điều tra là độc lập từ các tổng thể khác nhau Trong
thực tế có nhiều trường hợp hai mẫu điều tra được rút
ra từ một tổng thể Æ không còn độc lập
Æ ở phần này ta xét việc kiểm định khi hai mẫu điều tra cùng kích thước n, trong đó các giá trị của mẫu phụ thuộc tương ứng theo từng cặp
Giả sử có hai tổng thể, trong đó có các ĐLNN X1 và
X2 cùng phân phối chuẩn với các phương sai chưa biết
Từ hai tổng thể rút ra hai mẫu ngẫu nhiên
Trang 69Ta xác định trung bình mẫu và phương sai mẫu
1
1 n
i i
Trang 70Thí dụ Theo dõi doanh số bán của một công ty (tính
bằng triệu đồng) trong 15 ngày đầu tháng 3 và 15 ngày đầu tháng 5 thu được kết quả sau
7,3 9,1 8,4 1,5 2,7 5,0 4,9 5,3 2,0 4,2 11,0 11,0 6,1 6,7 7,5
0,3 1,1 1,1 -0,2 0,3 0,5 0,4 0,9 0,2 0,6 0,3 1,1 0,8 0,0 0,9
Trang 71Nếu giả thiết doanh số hàng ngày phân phối chuẩn thì với mức ý nghĩa α = 0,05 có thể nói rằng doanh số bán trung bình hàng ngày trong tháng 5 có giảm sút so với tháng 3 hay không?
Giải Gọi X1 và X2 tương ứng là doanh số bán hàng ngày trong tháng 3 và tháng 5 Theo giả thiết X1 và X2
có phân phối chuẩn Vậy doanh thu trung bình là μ1 và
μ2 Ta kiểm định cặp giả thuyết
H0: μ1 - μ2 = 0; H1: μ1 - μ2 > 0
Test thống kê là
D
D n T
s
=Với α = 0,05 thì ( )1 ( )14
0,05 1,761
n
tα − = t =Vậy miền bác bỏ là (1,761; + ∞)
Từ số liệu mẫu ta tìm được
Trang 72i n
Trang 73KIỂM ĐỊNH GIẢ THIẾT VỀ GIÁ TRỊ CỦA XÁC SUẤT
Giả sử trong tổng thể nghiên cứu biến ngẫu nhiên gốc X phân phối không – một với tham số là p Nếu chưa biết
p nhưng có cơ sở giả thiết rằng giá trị của nó bằng p0, ta đưa ra giả thuyết thống kê
H0: p = p0nếu n và p thỏa mãn điều kiện
n > 5 và
11
Trang 74Bài toán 1 H0: p = p0, và đối thiết H1: p ≠ p0Miền bác bỏ là |T| > Uα/2
Bài toán 2 H0: p = p0, và đối thiết H1: p > p0
Có miền bác bỏ là T > Uα/2
Bài toán 3 H0: p = p0, và đối thiết H1: p < p0
Có miền bác bỏ là T < Uα/2