thống kê xã hội · Phát triển cộng đồng. Mô tả: Ch.1: Phân phối mẫu, CH.2: Ước lượng trung bình và tỉ lệ, ch3: Kiểm định giả thuyết và bài tập.
Trang 1TRƯỜNG ĐẠI HỌC ĐÀ LẠT KHOA XÃ HỘI HỌC VÀ CÔNG TÁC XÃ HỘI
– ¯ —
THS NGUYỄN HỮU TÂN
BÀI GIẢNG TÓM TẮT THỐNG KÊ XÃ HỘI 2 Dành cho sinh viên ngành Công tác xã hội và Phát triển cộng đồng
(Lưu hành nội bộ)
Đà Lạt, 2007
Trang 2LỜI NÓI ĐẦU
Bài giảng tóm tắt này được viết nhằm phục vụ cho những sinh viên ngành Công
tác xã hội và Phát triển cộng đồng theo học môn “Thống kê xã hội 2” (3 tín chỉ)
Đây là học phần tiếp nối của học phần “Thống kê xã hội 1” (2 tín chỉ)
Nội dung của bài giảng được biên soạn dựa trên các yêu cầu về mục tiêu cũng như nội dung đã được Khoa Xã hội học và Công tác xã hội thiết kế dành cho
môn học
Do trình độ người viết có hạn, mặc dù có nhiều cố gắng song bài giảng tóm tắt chắc chắn không tránh khỏi những lỗi sai Người viết rất mong nhận được những góp ý và phê bình quý giá của các bạn đọc
Mọi thư từ nhận xét, góp ý liên quan đến bài giảng tóm tắt xin gửi theo địa chỉ:
Nguyễn Hữu Tân
Khoa Xã hội học và Công tác xã hội
Trang 3MỤC LỤC
CHƯƠNG 1 – PHÂN PHỐI MẪU 1
1 Phân phối tổng thể và phân phối mẫu 1
1.1 Phân phối tổng thể 1
1.2 Phân phối mẫu 1
2 Sai số mẫu và sai số không do lấy mẫu 2
3 Trung bình và độ lệch chuẩn của x 3
4 Hình dáng phân phối mẫu của x 5
4.1 Mẫu rút từ tổng thể có phân phối chuẩn 5
4.2 Mẫu rút từ tổng thể có phân phối không chuẩn 8
5 Ứng dụng phân phối mẫu của x 11
6 Tỷ lệ tổng thể và tỷ lệ mẫu 12
7 Trung bình, độ lệch chuẩn và hình dáng phân phối mẫu của pˆ 13
8 Ứng dụng phân phối mẫu của pˆ 15
Bài tập Chương 1 16
CHƯƠNG 2 – ƯỚC LƯỢNG TRUNG BÌNH VÀ TỶ LỆ 20
1 Bài toán ước lượng 20
2 Ước lượng điểm và ước lượng khoảng 20
2.1 Ước lượng điểm 20
2.2 Ước lượng khoảng 21
3 Ước lượng khoảng trung bình tổng thể: Mẫu lớn 22
4 Ước lượng khoảng trung bình tổng thể: Mẫu nhỏ 24
5 Ước lượng điểm và ước lượng khoảng tỷ lệ tổng thể: Mẫu lớn 26
5.1 Ước lượng điểm tỷ lệ tổng thể 27
5.2 Ước lượng khoảng tỷ lệ tổng thể 27
6 Xác định độ lớn mẫu đối với ước lượng trung bình 28
7 Xác định độ lớn mẫu đối với ước lượng tỷ lệ 28
Bài tập Chương 2 29
CHƯƠNG 3 – KIỂM ĐỊNH GIẢ THUYẾT ĐỐI VỚI TR BÌNH VÀ TỶ LỆ 34 1 Dẫn nhập 34
1.1 Kiểm định giả thuyết là gì? 34
1.2 Hai giả thuyết 34
1.3 Miền bác bỏ và miền chấp nhận 35
1.4 Hai loại sai lầm 36
1.5 Kiểm định hai đuôi và một đuôi 38
2 Kiểm định giả thuyết trung bình đối với mẫu lớn: Dùng cách tiếp cận giá trị p 42
3 Kiểm định giả thuyết đối với trung bình tổng thể: Mẫu lớn 45
4 Kiểm định giả thuyết đối với trung bình tổng thể: Mẫu nhỏ 48
Trang 4Bài tập Chương 3 54
CÁC PHỤ LỤC
Trang 5CHƯƠNG 1
PHÂN PHỐI MẪU
1 Phân phối tổng thể và phân phối mẫu
1.1 Phân phối tổng thể
Phân phối tổng thể là phân phối xác suất được rút ra từ thông tin của tất cả các phần tử thuộc tổng thể Nói cách khác, phân phối tổng thể là phân phối xác suất của dữ liệu tổng thể
Ví dụ: Giả sử chỉ có 5 sinh viên đăng ký học lớp Thống kê Xã hội học Điểm thi cuối
kỳ của 5 sinh viên này lần lượt là 70 78 80 80 95
Gọi x là điểm thi cuối kỳ của sinh viên Dùng lớp một giá trị ta có thể tính được phân phối tần suất của điểm này như sau:
Phân phối tần suất tương đối tổng thể
x f Tần suất tương đối
Dựa vào phân phối tần suất tương đối ta có phân phối xác suất tổng thể
Phân phối xác suất tổng thể
1.2 Phân phối mẫu
Từ tổng thể trên, ta chọn ra ngẫu nhiên các mẫu khác nhau có cùng kích thước Ứng với mỗi mẫu ta tính được một trung bình mẫu x
Ta thấy rằng giá trị của µ (tham số tổng thể) không đổi nhưng giá trị của x thì thay đổi tùy theo các phần tử có trong mẫu
Ta có thể nói trung bình mẫu x là một biến ngẫu nhiên Như vậy giống như các biến ngẫu nhiên khác, trung bình mẫu cũng có phân phối xác suất
Phân phối xác suất của trung bình mẫu x được gọi là phân phối mẫu
Tổng quát, phân phối xác suất của một thống kê mẫu được gọi là phân phối mẫu
Trang 6Nhắc lại trong chương 3, các đo lường tóm lược được tính toán đối với tập dữ liệu tổng
thể được gọi là tham số tổng thể, còn tính toán đối với tập dữ liệu mẫu thì được gọi là thống kê mẫu
Ví dụ: Trở lại ví dụ trước, ta gán A, B, C và D cho các điểm số của 5 sinh viên Rút ngẫu nhiên từ tổng thể các mẫu gồm 3 sinh viên
Tất cả các mẫu có thể có và trung bình mẫu của chúng
Mẫu Các điểm trong mẫu Trung bình mẫu
Phân phối tần suất tương đối của trung bình mẫu
Trang 7Tổng quát, sai số mẫu (sampling error) là sự chênh lệch giữa giá trị của một thống kê mẫu và giá trị của tham số tổng thể tương ứng
Trong trường hợp của trung bình, ta có sai số mẫu = x - µ
Điều quan trọng cần nhớ là sai số mẫu xảy ra là do may rủi bởi vì mẫu được chọn ngẫu nhiên
Ngoài sai số mẫu ta còn những sai số khác xảy ra từ những việc như thu thập dữ liệu, nhập dữ liệu, hoặc tổ chức dữ liệu thành bảng Những sai số này được gọi là sai số không do lấy mẫu (nonsampling errors)
Ví dụ: Trở lại ví dụ điểm của 5 sinh viên
Điểm của 5 sinh viên là 70, 78, 80, 80 và 95
• Sai số không do việc lấy mẫu = 0,66
Như vậy, sai số không do việc lấy mẫu = TB mẫu không đúng – TB mẫu đúng = 82,33 – 81,67 = 0,66
Chú ý rằng trong thực tế ta thường không biết được trung bình tổng thể Do đó ta chọn một mẫu và dùng trung bình của mẫu này như là một ước lượng của trung bình tổng thể Như vậy ta cũng không biết được sai số mẫu
3 Trung bình và độ lệch chuẩn của x
Trung bình và độ lệch chuẩn của phân phối mẫu của x được gọi là trung bình và độ lệch chuẩn của x , và được ký hiệu là µx và σx một cách tương ứng
Ta có trung bình của phân phối mẫu của x luôn luôn bằng trung bình của tổng thể Tức là µx = µ
Trang 8µ = 76,0 x 0,2 + 76,67 x 0,1 + 79,33 x 0,1 + 81,0 x 0,1 + 81,67 x 0,2 + 84,33 x 0,2 + 85,0 x 0,1 = 80,60
Trung bình tổng thể µ = (70+78+80+80+95) / 5 = 80,60
Ta có µx = µ
Trung bình mẫu x được gọi là một ước lượng (estimator) của trung bình tổng thể µ Khi giá trị kỳ vọng (hoặc trung bình) của một thống kê mẫu bằng giá trị của tham số tổng thể tương ứng thì thống kê mẫu đó được gọi là một ước lượng không chệch (unbiased estimator)
Đối với trung bình mẫu x ta có µx = µ nên trung bình mẫu x là một ước lượng không chệch của trung bình tổng thể µ Đây là một tính chất quan trọng mà một ước lượng nên có
Tuy nhiên độ lệch chuẩn của x thì lại không bằng độ lệch chuẩn σ của tổng thể (trừ khi n=1)
x
σ
σ trong đó, n là kích thước mẫu và N là kích thước tổng thể
(Tuy nhiên trong phần lớn các ứng dụng thực tế thì kích thước mẫu nhỏ hơn kích thước tổng thể nhiều nên điều kiện n/N ≤ 0,05 thường được thỏa mãn.)
Trang 9Hai quan sát quan trọng đối với phân phối mẫu của x
• Độ giãn của phân phối mẫu của x nhỏ hơn độ giãn của phân phối tổng thể tương ứng Tức là σx <σ
• Độ lệch chuẩn của phân phối mẫu của x giảm khi kích thước mẫu tăng lên Tổng quát, nếu độ lệch chuẩn của một thống kê mẫu giảm khi kích thước mẫu tăng lên thì thống kê mẫu này được xem là một ước lượng phù hợp (consistent estimator) của tham số tổng thể Đây cũng là một tính chất quan trọng mà một ước lượng nên có Như vậy trung bình mẫu x là một ước lượng phù hợp của trung bình tổng thể µ
Ví dụ: Trung bình lương giờ của tất cả 5000 công nhân của một công ty là $17,50 và
độ lệch chuẩn là $2,90 Gọi x là trung bình lương giờ của một mẫu ngẫu nhiên nào đó được chọn ra từ công ty Tìm trung bình và độ lệch chuẩn của x đối với mẫu có kích thước lần lượt là 30, 75 và 200
Ta có N = 5000, µ = 17,50 và σ = 2,90
a) n = 30
50,17
=
µx
529,030
90,2
=
=µ
µx
335,075
90,2
=
=µ
µx
205 , 0 200
90 , 2
4 Hình dáng phân phối mẫu của x
4.1 Mẫu rút từ tổng thể có phân phối chuẩn
Nếu tổng thể từ đó mẫu được lấy ra có phân phối chuẩn với trung bình µ và độ lệch chuẩn σ thì phân phối mẫu của x cũng sẽ là phân phối chuẩn bất chấp n với
Trang 10Ví dụ: Trong một cuộc thi tuyển mới đây, điểm trung bình của tất cả các thí sinh là
1020 Giả sử phân phối của điểm thi của tất cả các thí sinh là phân phối chuẩn với trung bình là 1020 và độ lệch chuẩn là 153 Coi x là điểm trung bình của một mẫu ngẫu nhiên các thí sinh Tính trung bình và độ lệch chuẩn của x và mô tả hình dáng phân phối chuẩn ứng với kích thước mẫu lần lượt là 16, 50 và 1000
Trang 11Phân phối chuẩn
Phân phối mẫu của
x với n = 16
σ = 153
250,38
Phân phối chuẩn
Phân phối mẫu của
x với n = 50
637,21
Trang 124.2 Mẫu rút từ tổng thể có phân phối không chuẩn
Trong trường hợp tổng thể từ đó mẫu được lấy ra có phân phối không phải là phân phối chuẩn thì hình dáng của phân phối mẫu của x được suy ra từ định lý giới hạn trung tâm
Định lý giới hạn trung tâm
Đối với mẫu có kích thước lớn (n ≥ 30), phân phối mẫu của x xấp xỉ chuẩn bất chấp hình dáng của phân phối tổng thể
Phân phối mẫu của x với n = 4
Phân phối chuẩn
Phân phối mẫu của
x với n = 50
σ = 153
838 , 4
Trang 13Phân phối mẫu của x với n = 15
Phân phối mẫu của x với n = 30
Phân phối mẫu của x với n = 80
Ví dụ: Tiền thuê nhà trung bình của tất cả các người thuê nhà trong một thành phố lớn
là $1550 với độ lệch chuẩn là $225 Tuy nhiên phân phối tổng thể của tiền thuê nhà của tất cả những người thuê trong thành phố là xiên về bên phải Tính trung bình và độ lệch chuẩn của x và mô tả hình dáng của phân phối mẫu với kích thước mẫu lần lượt
Trang 14Phân phối tổng thể
Phân phối mẫu của x với n = 30
b) n = 100 Áp dụng định lý giới hạn trung tâm
=
x
σ
Trang 155 Ứng dụng phân phối mẫu của x
Từ định lý giới hạn trung tâm ta suy ra được một số mệnh đề như sau
Mệnh đề 1
Từ một tổng thể nếu ta rút ra tất cả các mẫu có cùng kích thước (lớn) có thể có
và tính trung bình của từng mẫu thì có khoảng 68,26% các trung bình mẫu này
sẽ nằm trong khoảng một độ lệch chuẩn so với trung bình của tổng thể
6826 , 0 ) ( − x ≤ x ≤ + x =
Mệnh đề 2
Từ một tổng thể nếu ta rút ra tất cả các mẫu có cùng kích thước (lớn) có thể có
và tính trung bình của từng mẫu thì có khoảng 95,44% các trung bình mẫu này
sẽ nằm trong khoảng hai độ lệch chuẩn so với trung bình của tổng thể
9544 , 0 ) 2 2
( − x ≤ x ≤ + x =
Mệnh đề 3
Từ một tổng thể nếu ta rút ra tất cả các mẫu có cùng kích thước (lớn) có thể có
và tính trung bình của từng mẫu thì có khoảng 99,74% các trung bình mẫu này
sẽ nằm trong khoảng ba độ lệch chuẩn so với trung bình của tổng thể
9974 , 0 ) 3 3
Trang 16Ví dụ: Giả sử rằng trọng lượng của tất cả các gói bánh (một loại bánh có nhãn hiệu nào đó) có phân phối chuẩn với trung bình là 320g và độ lệch chuẩn là 3g Tính xác suất để trọng lượng trung bình, x , của một mẫu ngẫu nhiên gồm 20 gói bánh nằm giữa 318g
σ−µ
=Sau khi chuyển qua z ta tính được:
Trang 17• X = số phần tử trong tổng thể có đặc tính đã cho
• x = số phần tử trong mẫu có đặc tính đã cho
Ví dụ: Giả sử tổng cộng có tất cả 789.654 gia đình sống trong một thành phố và có 563.282 gia đình trong số này có sở hữu nhà Một mẫu gồm 240 gia đình được chọn từ thành phố này, trong đó có 158 gia đình là có sở hữu nhà Tính tỷ lệ gia đình sở hữu nhà trong tổng thể và trong mẫu
7 Trung bình, độ lệch chuẩn và hình dáng phân phối mẫu của pˆ
Giống như trung bình mẫu x, tỷ lệ mẫu pˆcũng là biến ngẫu nhiên Do đó nó cũng có phân phối xác suất, và phân phối xác suất này được gọi là phân phối mẫu của pˆ Nói cách khác, phân phối mẫu của pˆ là phân phối xác suất của tỷ lệ mẫu pˆ
Ví dụ: Hội Tham vấn học đường có tất cả là 5 nhân viên Sau đây là thông tin liên quan đến kiến thức thống kê của những nhân viên này
Tên nhân viên Biết thống kê
Trang 18Phân phối tần suất tương đối của pˆ khi kích thước mẫu là 3
Trung bình của pˆluôn luôn bằng tỷ lệ của tổng thể Tức là µpˆ = p (*)
(Ta nói trung bình của pˆ tức là trung bình của phân phối mẫu của tỷ lệ mẫu pˆ)
Tỷ lệ mẫu pˆ được gọi là một ước lượng của tỷ lệ tổng thể p
Do tính chất (*), pˆ được xem là một ước lượng không chệch của p
Độ lệch chuẩn của pˆ thì được tính bằng công thức sau nếu kích thước mẫu nhỏ so với kích thước tổng thể (tức là khi n / N ≤ 0,05)
n
pq
pˆ =
σ trong đó p là tỷ lệ tổng thể, q = 1 – p, và n là kích thước mẫu
(Ta nói độ lệch chuẩn của pˆ tức là độ lệch chuẩn của phân phối mẫu của tỷ lệ mẫu pˆ)
Tuy nhiên nếu n không thỏa điều kiện n/N ≤ 0,05 thì độ lệch chuẩn của pˆ được tính như sau:
Ta nhận xét khi kích thước mẫu tăng lên thì độ lệch chuẩn của pˆ giảm xuống Do tính chất này, pˆ được xem là một ước lượng phù hợp của p
Hình dáng của phân phối mẫu của pˆ có thể được suy ra từ định lý giới hạn trung tâm
Định lý giới hạn trung tâm
Phân phối mẫu của pˆ xấp xỉ chuẩn đối với mẫu có kích thước đủ lớn Trong trường hợp này, mẫu được xem là có kích thức đủ lớn nếu cả np và nq đều lớn hơn 5
pq
p
σ
Trang 19Ví dụ: Một cuộc điều tra khảo sát sinh viên cho thấy 87% sinh viên năm 1 và 2 đánh giá kinh nghiệm đại học của họ là “tốt” hoặc “xuất sắc” Giả sử điều này đúng đối với tổng thể sinh viên năm 1 và 2 Coi pˆlà tỷ lệ của sinh viên trong một mẫu ngẫu nhiên gồm 900 sinh viên năm 1 và 2 có cùng đánh giá như vậy Tìm trung bình và độ lệch chuẩn của pˆ và mô tả hình dáng của phân phối mẫu
Gọi p là tỷ lệ tất cả sinh viên năm 1 và 2 có nhận định kinh nghiệm đại học của họ là
)13,0)(
87,0(
Phân phối mẫu của pˆxấp xỉ chuẩn với trung bình là 0,87 và độ lệch chuẩn là 0,11
8 Ứng dụng phân phối mẫu của pˆ
Ví dụ: Theo một điều tra khảo sát của ĐH Michigan năm 2002, chỉ có 1/3 dân chúng
Mỹ hy vọng rằng 5 năm tới là thời gian tốt đẹp liên tục của đất nước Giả sử rằng 33% tổng thể hiện thời của dân chúng Mỹ có nhận định này Coi pˆ là tỷ lệ của một mẫu ngẫu nhiên gồm 800 người dân Mỹ có cùng nhận định như vậy Tính xác suất để tỷ lệ này ở giữa 0,35 và 0,37
)67,0)(
33,0(
Cả np và nq đều lớn hơn 5 nên phân phối mẫu của pˆ xấp xỉ chuẩn
Để tính xác suất này ta cần chuyển qua giá trị z
p
p p z
ˆ =
p
σ
µpˆ = 0 , 87 pˆ
Trang 20• Cũng với mẫu như trên nhưng giả sử rằng khi nhập dữ liệu vào để tính trung bình mẫu thì có sơ suất nên các số được nhập vào là 13, 8, 6 và 12 Tính sai
số mẫu và sai số không do lấy mẫu
• Liệt kê tất cả các mẫu gồm 4 số (mẫu không thay thế) có thể được chọn từ tổng thể đã cho Tính trung bình và sai số mẫu đối với từng mẫu
2 Dữ liệu sau là tuổi của tất cả sáu thành viên trong một gia đình: 55 53 28 25
• Tính trung bình đối với dữ liệu tổng thể Hãy chọn một mẫu ngẫu nhiên gồm
5 số từ tổng thể và tính trung bình của mẫu này Tính sai số mẫu
3 Một tổng thể kích thước N = 5000 có σ = 25 Trong mỗi trường hợp sau đây công thức nào sẽ được dùng để tính
Trang 21• n = 7000
5 Không gian sống của tất cả các gia đình trong một thành phố có trung bình là 2300 feet vuông (1 feet = 30,48 cm), và độ lệch chuẩn là 450 feet vuông Gọi x là không gian sống trung bình của một mẫu gồm 20 gia đình được chọn ngẫu nhiên trong thành phố Tính trung bình và độ lệch chuẩn của phân phối mẫu của x
6 Theo báo cáo của tổ chức International Communication Research for Cingular Wireless, đàn ông gọi điện thoại di động mỗi tháng trung bình là 594 phút (Nguồn: USA Today, July 29, 2002) Giả sử hiện thời tại Mỹ tất cả các đàn ông gọi điện thoại di động mỗi tháng trung bình là 594 phút với độ lệch chuẩn là 160 phút Gọi
x là thời gian trung bình gọi điện thoại di động mỗi tháng của một mẫu ngẫu nhiên gồm 400 người đàn ông có điện thoại di động Tính trung bình và độ lệch chuẩn của x
7 Thời gian giao hàng của tất cả các đơn đặt hàng thức ăn tại một nhà hàng bán thức
ăn nhanh vào buổi trưa có phân phối chuẩn với trung bình là 6,7 phút và độ lệch chuẩn 2,1 phút Gọi x là thời gian giao hàng trung bình của một mẫu ngẫu nhiên gồm 16 đơn đặt hàng tại nhà hàng Tính trung bình và độ lệch chuẩn của x và mô
tả hình dáng của phân phối chuẩn của x
8 Giả sử giá trị (số tiền) của tất cả các hóa đơn tiền điện của tất cả các hộ trong một thành phố có phân phối xấp xỉ phân phối chuẩn với trung bình $80 và độ lệch chuẩn $15 Gọi x là giá trị trung bình hóa đơn tiền điện của một mẫu ngẫu nhiên gồm 25 hộ gia đình được chọn từ thành phố Tính trung bình và độ lệch chuẩn của
x và nhận xét hình dáng phân phối mẫu của x
9 Giả sử trọng lượng của tất cả những người sống trong thành phố có phân phối lệch
về phía phải với trung bình 133 pounds (1 pound = 0,454 kg) và độ lệch chuẩn 24 pounds Gọi x là trọng lượng trung bình của một mẫu gồm 45 người được chọn ngẫu nhiên trong thành phố Tính trung bình và độ lệch chuẩn của x và nhận xét hình dáng phân phối mẫu của x
10 Dựa theo báo cáo của tổ chức College Board, học phí trung bình đối với 4 năm học
cử nhân tại các trường cao đẳng và đại học tư tại Mỹ trong năm học 2002-2003 là 18.273 USD Giả sử rằng ta không biết được phân phối xác suất của học phí đối với 4 năm học cử nhân tại các trường cao đẳng và đại học tư tại Mỹ trong năm học 2002-2003, nhưng biết được học phí trung bình là 18.273 USD và độ lệch chuẩn là
2100 USD Gọi x là học phí trung bình của 4 năm học cử nhân trong năm học 2002-2003 của một mẫu ngẫu nhiên gồm 49 trường cao đẳng và đại học tư tại Mỹ Giả sử rằng n/N ≤ 0,05
• Hãy tính xác suất để học phí trung bình x của mẫu đã chọn nằm trong khoảng hơn kém 550 USD so với trung bình tổng thể
• Hãy tính xác suất để học phí trung bình x của mẫu đã chọn thấp hơn hoặc cao hơn trung bình tổng thể 400 USD
11 Thời gian giao hàng của tất cả các đơn đặt hàng thức ăn tại một nhà hàng bán thức
ăn nhanh vào buổi trưa có phân phối chuẩn với trung bình là 6,7 phút và độ lệch chuẩn 2,1 phút Tính xác suất để thời gian giao hàng trung bình của một mẫu ngẫu
Trang 22• Ở giữa 7 và 8 phút
• Hơn kém 1 phút so với trung bình tổng thể
• Ít hơn hoặc nhiều hơn trung bình tổng thể 1 phút
12 Giả sử thời gian mà các sinh viên đại học phải bỏ ra mỗi tuần để học có phân phối lệch về phía phải với trung bình là 8,4 giờ và độ lệch chuẩn là 2,7 giờ Tính xác suất để thời gian trung bình phải bỏ ra mỗi tuần để học của một mẫu ngẫu nhiên gồm 45 sinh viên là:
• Ở giữa 8 và 9 giờ
• Ít hơn 8 giờ
13 Giả sử rằng cân đối của tất cả các tài khoản tiết kiệm tại một ngân hàng địa phương
có phân phối lệch với trung bình là 12.450 USD và độ lệch chuẩn là 4300 USD Hãy tính xác suất để cân đối trung bình của một mẫu được chọn ngẫu nhiên gồm
50 tài khoản tiết kiệm từ ngân hàng là:
• Nhiều hơn 11.500 USD
• Ở giữa 12.000 USD và 13.800 USD
• Hơn kém 1500 USD so với trung bình tổng thể
• Nhiều hơn trung bình tổng thể ít nhất là 1000 USD
14 Một công ty đã sản xuất ra tất cả 6 bộ ti vi trong một ngày nào đó, và những bộ ti
vi này đã được kiểm tra xem chúng có lỗi hay không Kết quả kiểm tra như sau: Tốt Tốt Lỗi Lỗi Tốt Tốt
• Tỷ lệ bộ ti vi tốt là bao nhiêu?
• Có bao nhiêu mẫu kích thước 5 cả thảy (mẫu không thay thế) có thể được chọn từ tổng thể đã cho?
• Liệt kê tất cả các mẫu kích thước 5 có thể từ tổng thể (mẫu không thay thế)
và tính tỷ lệ mẫu pˆ số bộ ti vi tốt trong từng mẫu Xác định phân phối mẫu của pˆ
• Với mỗi mẫu liệt kê trong câu trên hãy tính sai số mẫu
15 Dựa theo nguồn tin của USA Today – CNN năm 2002 thì có đến 37% người nộp thuế cho rằng phần thuế thu nhập mà họ phải đóng là không công bằng (Nguồn: USA Today, April 15, 2002) Giả sử rằng con số phần trăm này là đúng đối với tổng thể hiện thời gồm tất cả những người đóng thuế Gọi pˆ là tỷ lệ những người đóng thuế trong một mẫu ngẫu nhiên gồm 300 người mà họ cho rằng phần thuế thu nhập mà họ phải đóng là không công bằng Hãy tính trung bình và độ lệch chuẩn của pˆvà nhận xét về hình dáng phân phối chuẩn của pˆ
16 Một cuộc điều tra các công ty liên doanh qui mô vừa và lớn cho thấy rằng 64% trong số họ đưa ra kế hoạch về hưu cho các nhân viên của họ Gọi pˆ là tỷ lệ trong một mẫu ngẫu nhiên gồm 50 liên doanh như vậy mà họ có đề ra kế hoạch về hưu cho các nhân viên của họ Hãy tính xác suất để giá trị của pˆlà:
• Ở giữa 0,54 và 0,61
Trang 23• Lớn hơn 0,71
17 Công ty Dartmouth Distribution Warehouse thực hiện giao hàng một lượng lớn các sản phẩm đến khách hàng của họ Biết rằng có khoảng 85% các đơn đặt hàng từ khách hàng là được giao hàng đúng hẹn Gọi pˆ là tỷ lệ các đơn đặt hàng trong một mẫu ngẫu nhiên gồm 100 đơn đặt hàng mà chúng được giao hàng đúng hẹn Hãy tính xác suất để giá trị của pˆ là:
• Ở giữa 0,81 và 0,88
• Nhỏ hơn 0, 87
18 Mong Corporation là một công ty chuyên sản xuất các bình điện xe hơi Công ty này khẳng định rằng có đến 80% các bình điện loại LL70 mà họ sản xuất đạt tiêu chuẩn chất lượng tốt có thời gian sống đến 70 tháng hoặc hơn Giả sử rằng khẳng định trên là đúng Gọi pˆ là tỷ lệ của một mẫu gồm 100 bình điện như vậy mà chúng đạt tiêu chuẩn chất lượng tốt có thời gian sống đến 70 tháng hoặc hơn
• Tính xác suất để tỷ lệ mẫu này nằm trong khoảng hơn kém 0,05 so với tỷ lệ tổng thể
• Tính xác suất để tỷ lệ mẫu này nhỏ hơn hoặc lớn hơn tỷ lệ tổng thể là 0,06
Trang 24CHƯƠNG 2
ƯỚC LƯỢNG TRUNG BÌNH VÀ TỶ LỆ
1 Bài toán ước lượng
Phân biệt tham số tổng thể và thống kê mẫu
• Các đo lường tóm lược được tính toán đối với tập dữ liệu tổng thể được gọi
là tham số tổng thể Ví dụ trung bình của tổng thể là một tham số tổng thể
• Các đo lường tóm lược được tính toán đối với tập dữ liệu mẫu được gọi là thống kê mẫu Ví dụ trung bình của một mẫu là một thống kê mẫu
Việc gán giá trị cho một tham số tổng thể dựa trên giá trị của thống kê mẫu tương ứng được gọi là sự ước lượng (estimation)
Ví dụ: Để điều tra thu nhập trung bình của một gia đình trong thành phố, người ta có thể tiến hành điều tra toàn thể các gia đình hiện đang sống trong thành phố Sau đó sẽ tính được thu nhập trung bình tổng thể µ Khi đó ta không cần đến ước lượng
Tuy nhiên cách làm này có thể sẽ mất nhiều thời gian cũng như tốn nhiều chi phí và công sức
Người ta có thể làm cách khác Bằng cách chọn ngẫu nhiên từ các gia đình trong thành phố một mẫu gồm n gia đình mang tính đại diện, sau đó tính thu nhập trung bình x của mẫu này
Dựa trên giá trị của x người ta gán giá trị cho thu nhập trung bình µ của tổng thể Như vậy ta có sự ước lượng giá trị cho một tham số tổng thể dựa trên giá trị của một thống kê mẫu
Giá trị được gán cho tham số tổng thể dựa trên giá trị của thống kê mẫu được gọi là ước lượng (estimate)
Ví dụ: Một nhà quản lý lấy một mẫu gồm 40 công nhân mới vào làm và tính được thời gian học việc trung bình x là 5,5 giờ Nếu anh ta hoặc cô ta gán giá trị này cho trung bình tổng thể thì 5,5 giờ được gọi là một ước lượng của µ
Cách thức ước lượng bao gồm các bước sau:
• Chọn mẫu
• Thu thập thông tin từ các phần tử của mẫu
• Tính toán giá trị thống kê mẫu
• Gán giá trị cho tham số tổng thể tương ứng dựa trên giá trị thống kê mẫu
2 Ước lượng điểm và ước lượng khoảng
2.1 Ước lượng điểm
Ước lượng có thể là ước lượng điểm hay ước lượng khoảng
Giá trị của một thống kê mẫu được dùng để ước lượng một tham số tổng thể được gọi
là một ước lượng điểm (point estimate)
Trang 25Ví dụ: Một trung tâm nghiên cứu về xã hội lấy một mẫu gồm 10000 gia đình và tính được thu nhập một tháng trung bình x của mẫu này là 375000 đồng Sau đó dùng x
như là một ước lượng điểm của µ, trung tâm nghiên cứu có thể phát biểu rằng thu nhập một tháng trung bình đối với tất cả các gia đình là khoảng 375000 đồng Cách làm này được gọi là ước lượng điểm
Thông thường, khi dùng ước lượng điểm, người ta thường tính giới hạn sai số kết hợp với ước lượng điểm đó
Chẳng hạn, đối với sự ước lượng trung bình tổng thể thì giới hạn sai số (margin of error) được tính là:
Giới hạn sai số = ± 1 , 96 σx hoặc ± 1 , 96 sx (trong đó
x
σ là độ lệch chuẩn của phân phối mẫu của x , còn s x là một ước lượng điểm của σx sẽ được đề cập sau)
2.2 Ước lượng khoảng
Trong việc ước lượng điểm, mỗi mẫu được chọn từ tổng thể sẽ cho ra giá trị thống kê mẫu khác nhau Như vậy, giá trị gán cho tham số tổng thể bằng việc ước lượng điểm phụ thuộc vào mẫu nào được chọn Ta thấy rằng giá trị này luôn khác với giá trị đúng (giá trị chân thực) của tham số tổng thể
Đối với việc ước lượng khoảng (interval estimation), một khoảng sẽ được xây dựng quanh ước lượng điểm và khoảng này được xem là khoảng có khả năng chứa tham số tổng thể tương ứng
Ví dụ: Trở lại ví dụ tính thu nhập một tháng trung bình của một gia đình trong thành phố bằng việc chọn mẫu Thay vì cho rằng thu nhập một tháng trung bình của một gia đình trong thành phố là 375000 đồng (tức là ta cho rằng µ = 375000 đồng), ta có thể đưa ra được một khoảng chứa µ, chẳng hạn như khoảng (275000 đồng, 475000 đồng) Khi đó ta nói rằng thu nhập một tháng trung bình của một gia đình trong thành phố có khả năng nằm trong khoảng (275000 đồng, 475000 đồng)
Cách thức tính ra khoảng có khả năng chứa µ được gọi là sự ước lượng khoảng Giá trị
275000 đồng gọi là giới hạn dưới của khoảng và 475000 đồng là giới hạn trên của khoảng
Hình sau minh họa khái niệm ước lượng khoảng
µx =µ x = 375000 x
275000 475000
Trang 26Vấn đề đặt ra đối với ước lượng khoảng:
• Tính khoảng chứa µ bằng cách nào?
• Khoảng chứa µ được tin tưởng tới mức nào?
Để nói lên mức độ tin tưởng đối với phát biểu “khoảng này chứa µ” người ta đưa ra mức tin cậy (confidence level)
Khoảng ước lượng được xây dựng với một mức tin cậy kèm theo thì được gọi là
khoảng tin cậy (confidence interval)
Mức tin cậy đi kèm với một khoảng tin cậy giúp ta tin tưởng đến mức độ nào đối với phát biểu khoảng đã tính toán được chứa tham số tổng thể Mức tin cậy được ký hiệu
là (1-α) 100% Các mức tin cậy thông dụng là 90%, 95% và 99%
Nói cách khác, phát biểu khoảng đã tính toán được chứa tham số tổng thể với mức tin cậy nào đó là một phát biểu mang tính chất xác suất
3 Ước lượng khoảng trung bình tổng thể: Mẫu lớn
Đối với mẫu có kích thước lớn (n ≥ 30), làm thế nào để tính được khoảng tin cậy chứa trung bình tổng thể µ?
Trường hợp 1: Biết được σ
Khoảng tin cậy (1-α)100% đối với µ là x ± z σx trong đó
n
x
σ
Trường hợp 2: Không biết được σ
Khoảng tin cậy (1-α)100% đối với µ là x ± zsx trong đó
n
s s
Chẳng hạn với mức tin cậy 95%:
• Trước hết ta chia 0,95 cho 2 được 0,4750
• Xác định vị trí 0,4750 trong bảng phân phối chuẩn tiêu chuẩn ta tìm được giá trị z tương ứng là 1,96
Trang 27Nếu diễn tả mức tin cậy ở dạng (1 - α) 100% thì diện tích vùng ở giữa –z và z là 1 - α Tổng diện tích hai vùng ở hai đuôi là α (diện tích ở mỗi vùng đuôi là α/2) Do đó giá trị z ứng với mức tin cậy (1 - α) 100% đôi khi còn được ký hiệu là zα/2 Tuy nhiên trong bài giảng này nó được ký hiệu đơn giản là z
Ví dụ: Một nhà xuất bản mới xuất bản một cuốn sách Trước khi họ quyết định giá bán của cuốn sách, họ muốn biết giá bán trung bình của tất cả các cuốn sách tương tự như vậy hiện có trên thị trường
Bộ phận nghiên cứu của NXB đã chọn một mẫu gồm 36 cuốn sách tương tự và thu thập giá bán của chúng Từ đó biết được giá bán trung bình của mẫu là $70,50
Giả sử rằng độ lệch chuẩn của giá bán của tất cả các cuốn sách tương tự là $4,50
• Tính ước lượng điểm của giá bán trung bình của tất cả các cuốn sách tương tự? Giới hạn sai số của ước lượng điểm này là bao nhiêu?
• Tính khoảng tin cậy 90% của giá bán trung bình của tất cả các cuốn sách tương tự?
Ta có n = 36, x = $70,50 và σ = $4,50
Độ lệch chuẩn của x là
75 , 0 36
± = ±1,96(0,75)=± 1,47
-1,96 0 1,96
µ x
0,475 0,475
(1 - α ) α /2
α /2
- z 0 z z
Trang 28Ý nghĩa của giới hạn sai số này là giá bán trung bình của tất cả các cuốn sách tương tự
là $70,50 có thể chênh lệch tăng hoặc giảm $1,47
Bây giờ ta tính ước lượng khoảng
Mức tin cậy là 90% hay 0,90 Trước hết ta tìm z ứng với mức tin cậy 90%
0,90 / 2 = 0,4500 Tra bảng phân phối chuẩn tiêu chuẩn không có 0,4500 ta chọn số gần nhất là 0,4505 ứng với z = 1,65
Thay các số vào công thức (ứng với trường hợp 1)
Như vậy ta có 90% tin tưởng để nói lên rằng giá bán trung bình của tất cả các cuốn sách tương tự nằm trong khoảng từ $69,26 đến $71,74
Ý nghĩa thực sự của mức tin cậy 90% là gì?
Nó có nghĩa là nếu ta chọn tất cả các mẫu có thể có (mỗi mẫu kích thước n = 36), ứng với mỗi mẫu ta tính được một khoảng, như vậy ta có rất nhiều khoảng thì 90% trong số các khoảng này sẽ chứa µ
4 Ước lượng khoảng trung bình tổng thể: Mẫu nhỏ
Đối với mẫu có kích thước lớn (n ≥ 30), phân phối chuẩn được dùng để ước lượng khoảng đối với trung bình tổng thể µ
Về mặt Toán học, công thức tính khoảng tin cậy được xây dựng dựa trên việc phân phối mẫu x là phân phối xấp xỉ chuẩn (kết quả của định lý giới hạn trung tâm)
Đối với mẫu có kích thước nhỏ (n < 30), phân phối t, còn gọi là phân phối Student, được dùng để ước lượng khoảng đối với trung bình tổng thể µ
Phân phối t được dùng để tính khoảng tin cậy đối với µ nếu:
• Tổng thể từ đó mẫu được rút ra có phân phối (xấp xỉ) chuẩn
• Cỡ mẫu nhỏ (n < 30)
• Độ lệch tiêu chuẩn tổng thể σ không biết được
Đặc điểm phân phối t
• Hình dáng cân đối như phân phối chuẩn
• Chiều cao thấp hơn, độ bẹt nhiều hơn
• Tiếp cận pp chuẩn tiêu chuẩn khi n tăng lên
• Có một tham số gọi là bậc tự do, ký hiệu df
Trung bình và độ lệch chuẩn của phân phối t
• Trung bình µ = 0
• Độ lệch chuẩn
$71,74 to
$69,26
1,24) (70,50 to 1,24) - (70,50
24 , 1 50 , 70 ) 75 , 0 ( 65 , 1 50 , 70
= df df
σ
Trang 29Trong phạm vi chương này bậc tự do của phân phối t được tính bằng công thức
df = n – 1 Bậc tự do được xác định như là số các quan sát mà chúng có thể được chọn một cách tự do Số các quan sát này là n – 1
Phân phối t với bậc tự do df = 9 và phân phối chuẩn tiêu chuẩn
Ta có thể tra bảng để biết phân phối t
Ví dụ: Tìm giá trị của t với bậc tự do là 16 và vùng phía đuôi phải của đường cong phân phối t có diện tích là 0,05
Diện tích vùng ở đuôi phải dưới đường cong phân phối t
Với mẫu cỡ nhỏ được rút từ tổng thể có phân phối (xấp xỉ) chuẩn và không biết được
độ lệch tiêu chuẩn tổng thể σ thì khoảng tin cậy (1 - α) 100% đối với trung bình tổng thể µ là:
xts
x ± trong đó
n
s s
µ = 0
1,746 Giá trị cần tìm của t
Trang 30Ví dụ: Một bác sĩ muốn ước lượng mức cholesterol trung bình của tất cả những người nam trưởng thành hiện đang sống tại thành phố A
Ông ta lấy một mẫu gồm 25 người nam trưởng thành ở thành phố A và tính được mức cholesterol trung bình của mẫu này là 186 với độ lệch chuẩn là 12
Giả sử rằng mức cholesterol của tất cả những người nam trưởng thành hiện đang sống tại thành phố A có phân phối (xấp xỉ) chuẩn
Tính khoảng tin cậy 95% của trung bình tổng thể µ
Ta có mức tin cậy là 95% hoặc 0,95
n = 25, x = 186, s = 12
40,225
5 Ước lượng điểm và ước lượng khoảng tỷ lệ tổng thể: Mẫu lớn
Nhắc lại rằng tỷ lệ tổng thể được ký hiệu là p, và tỷ lệ mẫu được ký hiệu là pˆ
Đồng thời ta cũng biết rằng đối với mẫu cỡ lớn thì:
• Phân phối mẫu của pˆ là phân phối (xấp xỉ) chuẩn
0,475 0,475
-2,064 0 2,064 t
Trang 31Khi ước lượng giá trị của tỷ lệ tổng thể, ta không biết được p và q Như vậy ta không thể tính được σpˆ Do đó trong sự ước lượng tỷ lệ tổng thể người ta dùng giá trị của s pˆ
như là một ước lượng điểm của σpˆ
Giá trị của s pˆ được tính bởi công thức
n
q
s pˆ = ˆ (trong đó qˆ= pˆ−1)
5.1 Ước lượng điểm tỷ lệ tổng thể
Tỷ lệ mẫu pˆ là ước lượng điểm của tỷ lệ tổng thể p tương ứng Giới hạn sai số kết
hợp với ước lượng điểm này là ± 1 , 96 spˆ với
n
q
s pˆ = ˆ (trong đó qˆ= pˆ−1)
5.2 Ước lượng khoảng tỷ lệ tổng thể
Khoảng tin cậy (1-α)100% đối với p là:
pzs
p ˆ ± ˆ với
n
q p
Ví dụ: Theo một điều tra khảo sát năm 2002 trên 1000 người Mỹ trưởng thành cho biết
có đến 20% trong số họ cần đến tư vấn pháp luật về các vấn đề liên quan đến tranh chấp gia đình và nhà cửa
• Tính ước lượng điểm của tổng thể? Giới hạn sai số của ước lượng này là bao nhiêu?
• Với mức tin cậy 99% tính xem có bao nhiêu phần trăm người trưởng thành
Mỹ cần đến tư vấn pháp luật để giải quyết các vấn đề tranh chấp gia đình và nhà cửa (trong năm 2002)?
Ta có n = 1000, pˆ = 0,20 và qˆ = 1 – 0,20 = 0,80
01264911,
01000
)80,0)(
20,0(ˆ
0 ( 96 , 1 96
Với mức tin cậy 99% hay 0,99 để tìm giá trị z ta chia 0,99 / 2 = 0,4950
Dùng 0,4950 tra bảng phân phối chuẩn tiêu chuẩn ta được z xấp xỉ bằng 2,58