Lấy mẫu và phân phối mẫu, Ước lượng điểm là gì, Quá trình suy diễn thống kê, Phân phối mẫu của
Trang 1Chương 5: Ước lượng thống kê
Trang 2Phần nội dung cần tìm hiểu
A Lấy mẫu và phân phối mẫu
B Ước lượng khoảng
C Suy diễn Thống kê về Trung bình và Tỷ lệ của Hai Tổng Thể
D Suy diễn Thống kê về Trung bình và Tỷ lệ của Hai Tổng Thể
Trang 3“
A Lấy mẫu và phân phối mẫu
Chọn một mẫu
Ước lượng điểm
Giới thiệu phân phối mẫu
Phân phối mẫu của
Phân phối mẫu của 𝑃
Các tính chất của ước lượng điểm
Các phương pháp lấy mẫu khác
𝑥
Trang 4Chọn mẫu
Lấy mẫu từ một tổng thể hữu hạn
Lấy mẫu từ một tổng thể vô hạn
Trang 5Lấy mẫu từ một tổng thể hữu hạn
Một mẫu ngẫu nhiên đơn giản cỡ n từ một tổng thể hữu hạn
kích thước N là một mẫu được chọn sao cho
mỗi mẫu cỡ n như vậy có cùng khả năng được lựa chọn
Trang 6Lấy mẫu từ một tổng thể hữu hạn
Trả lại mỗi phần tử đã được lấy mẫu trước khi lựa chọn
các phần tử sau được gọi là lấy mẫu có hoàn lại
Lấy mẫu không hoàn lại là thủ tục thường được sử dụng
Trong các dự án lấy mẫu lớn, các số ngẫu nhiên do
máy tính tạo ra thường được sử dụng để tự động hóa
quá trình chọn mẫu
Trang 7Lấy mẫu từ một tổng thể hữu hạn
Ví dụ : Đại học St Andrew’s
Đại học St Andrew’s đã nhận 900 đơn
xin vào học năm tới từ các sinh viên tương lai Các ứng viên đã được đánh số,
từ 1 đến 900, khi đơn của họ nộp vào
Trưởng ban tuyển sinh muốn chọn một mẫu ngẫu nhiên
đơn giản gồm 30 ứng viên
Trang 8Lấy mẫu từ một tổng thể hữu hạn
Ví dụ : Đại học St Andrew’s
Bước 1: Gắn một số ngẫu nhiên cho mỗi ứng viên
trong 900 ứng viên nói trên
Các số ngẫu nhiên được tạo bởi hàm ngẫu nhiên của Excel
heo phân phối xác suất đều giữa 0 and 1
Bước 2: Chọn 30 ứng viên tương ứng với 30 số
ngẫu nhiên nhỏ nhất
Trang 9Lấy mẫu từ một tổng thể vô hạn
Đôi khi chúng ta muốn chọn một mẫu, nhƣng nhận
thấy không thể có đƣợc một danh sách gồm tất cả các
Trang 10Lấy mẫu từ một tổng thể vô hạn
Tổng thể thường được tạo ra bằng một quá trình xảy ra hiện thời ở đó không
có giới hạn trên đối với số lượng đơn vị có thể được tạo ra
Vài ví dụ về quá trình xảy ra hiện thời, với các tổng thể
vô hạn, là :
• Các bộ phận đang được sản xuất trên một dây chuyền
sản xuất
• Các giao dịch đang xảy ra tại một ngân hàng
• Các cuộc gọi điện thoại đang đến ở một tổ hỗ trợ
kỹ thuật
• Các khách hàng đang đi vào một cửa hang các khách hàng
đang đi vào một cửa hàng
Trang 11Lấy mẫu từ một tổng thể vô hạn
Trong trường hợp một tổng thể vô hạn, chúng ta phải chọn một mẫu ngẫu nhiên để thực hiện các suy diễn thống kê có căn cứ về tổng thể từ mẫu được lấy
Một mẫu ngẫu nhiên từ một tổng thể vô hạn là một mẫu được chọn sao cho các điều kiện sau đây thỏa mãn
• Mỗi phần tử được chọn đến từ tổng thể quan tâm
• Mỗi phần tử được chọn một cách độc lập
Trang 12Ước lượng điểm
Ước lượng điểm là một dạng của suy diễn thống kê
Trong ước lượng điểm chúng ta sử dụng dữ liệu từ mẫu
để tính toán giá trị của một thống kê mẫu, rồi dùng nó như một ước lượng của tham số tổng thể
Chúng ta xem 𝑥 như ước lượng điểm của trung bình tổng thể 𝜇
s là ước lượng điểm của độ lệch chuẩn tổng thể 𝜎
𝑝 là ước lượng điểm của tỷ lệ tổng thể p
Trang 13Ước lượng điểm
Ví dụ : Đại học St Andrew’s
Nhắc lại là Đại học St Andrew’s đã nhận 900 đơn
của các sinh viên tương lai Mẫu đơn chứa nhiều thông tin bao gồm điểm kiểm tra năng lực học tập (SAT)
và có hay không mong muốn ở ký túc xá
Tại một cuộc họp trong vài giờ, Trưởng ban tuyển
sinh muốn công bố điểm SAT trung bình và tỷ lệ ứng viên muốn sống ở ký túc xá của trường, trong tổng thể
900 ứng viên
Trang 14Ước lượng điểm
Ví dụ : Đại học St Andrew’s
Tuy nhiên, dữ liệu cần thiết về các ứng viên chưa được đưa vào
trong cơ sở dữ liệu máy tính của trường
Vì vậy, Trưởng ban quyết định ước lượng giá trị của các tham số tổng thể quan tâm dựa vào thống kê mẫu
Mẫu gồm 30 ứng viên được chọn bằng cách sử dụng
các số ngẫu nhiên do máy tính tạo ra
Trang 15Ước lượng điểm
𝑥 là Ước Lượng Điểm của 𝜇
Trang 16Ước lượng điểm
Khi tất cả dữ liệu của 900 ứng viên được đưa vào cơ sở dữ liệu của trường, giá trị các tham số tổng thể quan tâm được tính toán
Trung bình tổng thể của điểm SAT
Trang 17Tham số Tổng thể
Giá trị Tham số
Tham số Ước lượng điểm
Ước lượng Điểm
𝜇 = Điểm SAT trung bình
Bảng tóm tắc các Ước Lượng Điểm có được từ
một mẫu ngẫu nhiên đơn giản
Trang 18Phân Phối Mẫu của 𝑥
Quá trình suy diễn thống kê
Dữ liệu mẫu cung cấp một giá trị cho trung bình mẫu 𝑥
Giá trị của 𝑥 được
sử dụng để suy diễn
về giá trị của 𝜇
Trang 19Phân Phối Mẫu của 𝑥
Phân phối mẫu của 𝑥 là phân phối xác suất
của tất cả các giá trị có thể có của trung bình mẫu 𝑥
Giá trị kỳ vọng của 𝑥
E(𝑥 ) = 𝜇
Ở đó : 𝜇 = trung bình tổng thể
Khi giá trị kỳ vọng của tham số ước lượng điểm bằng
tham số tổng thể, chúng ta nói tham số ước lượng
điểm là không chệch
Trang 20Phân Phối Mẫu của 𝑥
Độ lệch chuẩn của 𝑥
Chúng ta sẽ sử dụng ký hiệu sau đây để định nghĩa
độ lệch chuẩn của phân phối mẫu của 𝑥
𝜎𝑥 = độ lệch chuẩn của 𝑥
σ = độ lệch chuẩn của tổng thể
n = cỡ mẫu
N = kích thước tổng thể
Trang 21Phân Phối Mẫu của 𝑥
Trang 22Phân Phối Mẫu của 𝑥
Khi tổng thể có phân phối chuẩn, thì phân phối
mẫu của 𝑥 có phân phối chuẩn với mọi cỡ mẫu Trong đa số ứng dụng, phân phối mẫu của 𝑥 có thể được xấp xỉ bằng một phân phối chuẩn
bất cứ khi nào cỡ mẫu từ 30 trở lên
Trong các trường hợp mà tổng thể bị lệch nhiều hay các giá trị bất thường xuất hiện, các mẫu cỡ 50
có lẽ cần thiết
Phân phối mẫu của 𝑥 có thể được sử dụng để cung cấp thông tin xác suất về trung bình mẫu 𝑥 gần như thế nào với trung bình tổng thể 𝜇
Trang 23Định Lý Giới Hạn Trung Tâm
Khi tổng thể mà từ đó chúng ta chọn ra một mẫu
ngẫu nhiên không có phân phối chuẩn, định lý giới hạn trung tâm là hữu ích trong việc nhận biết hình dạng của phân phối mẫu của 𝑥
ĐỊNH LÝ GIỚI HẠN TRUNG TÂM
Khi chọn các mẫu ngẫu nhiên cỡ n từ một
tổng thể, phân phối mẫu của trung bình mẫu 𝑥 có thể xấp xỉ một phân phối chuẩn khi cỡ mẫu đủ lớn lớn
Trang 24Phân Phối Mẫu của 𝑥
Trang 25Phân Phối Mẫu của 𝑥
Ví dụ : Đại học St Andrew’s
Xác suất mà một mẫu ngẫu nhiên đơn giản gồm 30 ứng viên sẽ cho một ước lượng của điểm SAT trung bình tổng thể ở trong vòng +/-10 so với trung bình tổng thể thực sự 𝜇 là bao nhiêu ?
Nói cách khác, xác suất 𝑥 nằm giữa 1080 và 1100
là bao nhiêu?
Trang 26Phân Phối Mẫu của 𝑥
Ví dụ: Đại học St Andrew’s
Bước 1: Tính giá trị z tại điểm trên của khoảng
Z = (1100 – 1090) / 14.6 = 0.68 Bước 2: Tìm diện tích dưới đường cong về bên trái của điểm trên
P(z < 0.68) = 0.7517
Trang 27Phân Phối Mẫu của 𝑥
Trang 28Phân Phối Mẫu của 𝑥
Trang 29Phân Phối Mẫu của 𝑥
Trang 30Phân Phối Mẫu của 𝑥 đối với các điểm SAT
Trang 31Phân Phối Mẫu của 𝑥 đối với các điểm SAT
Ví dụ: Đại học St Andrew’s
Bước 5: Tính diện tích dưới đường cong giữa các điểm
trên và dưới của khoảng
P(-0.68 < z < 0.68) = P(z < 0.68) - P(z < -0.68)
= 0.7517 - 0.2483
= 0.5034 Xác suất để trung bình mẫu của điểm SAT sẽ nằm giữa 1080 và 1100 là:
P(1080 < 𝑥 < 1100) = 0.5034
Trang 32Phân Phối Mẫu của 𝑥 đối với các điểm SAT
Trang 33Mối Quan Hệ Giữa Cỡ Mẫu
và Phân Phối Mẫu của 𝑥
• Bất cứ khi nào cỡ mẫu tăng lên, sai số chuẩn của
trung bình 𝜎 giảm xuống Với mẫu tăng lên thành
n = 100, sai số chuẩn của trung bình giảm xuống
từ 14.6 thành :
𝜎𝑥 = 𝜎
𝑛 = 80
100 = 8.0
Trang 34Mối Quan Hệ Giữa Cỡ Mẫu
và Phân Phối Mẫu của 𝑥
Trang 35Mối Quan Hệ Giữa Cỡ Mẫu
và Phân Phối Mẫu của 𝑥
Ví dụ: Đại học St Andrew’s
• Nhắc lại là khi n = 30, P(1080 < 𝑥 < 1100) = 0.5034
• Chúng ta theo các bước giống hệt khi n = 30
để giải tìm P(1080 < 𝑥 < 1100) khi n = 100
• Giờ đây, với n = 100, P(1080 < 𝑥 < 1100) = 0.7888
• Vì phân phối mẫu với n = 100 có sai số chuẩn nhỏ hơn nên các giá trị của 𝑥 có ít biến thiên hơn và có khuynh hướng gần với trung bình tổng thể hơn
các giá trị của 𝑥 với n = 30
Trang 36Mối Quan Hệ Giữa Cỡ Mẫu
và Phân Phối Mẫu của 𝑥
Ví dụ : Đại học St Andrew’s
Phân phối
Mẫu của 𝑥 đối
với điểm SAT
Trang 37Phân Phối Mẫu của 𝜌
Thực hiện các suy diễn về Tỷ Lệ Tổng Thể
Trang 38Phân Phối Mẫu của 𝜌
Phân hối mẫu của 𝜌 là phân phối xác suất của tất cả các giá trị có thể có của tỷ lệ mẫu 𝜌
• Giá trị kỳ vọng của 𝜌
E(𝜌 ) = 𝜌
Trong đó:
𝜌 = tỷ lệ tổng thể
Trang 39Phân Phối Mẫu của 𝜌
Trang 40Dạng Phân Phối Mẫu của 𝜌
Phân phối mẫu của 𝜌 có thể xấp xỉ một phân phối chuẩn bất cứ khi nào cỡ mẫu đủ lớn để thỏa mãn hai điều kiện:
n𝜌 ≥ 5
và n(1 – 𝜌) ≥ 5
Vì khi các điều kiện này thỏa mãn, phân phối
xác suất của x trong tỷ lệ mẫu, 𝜌 = x/n, có thể xấp xỉ phân phối chuẩn (và vì n là một hằng số)
Trang 41Phân Phối Mẫu của 𝜌
Ví dụ: Đại học St Andrew’s
Nhắc lại là 72% sinh viên tương lai nộp đơn vào đại Học St Andrew’s muốn ở ký túc xá
Xác suất để một mẫu ngẫu nhiên đơn giản gồm
30 ứng viên sẽ cho một ước lượng của tỷ lệ tổng thể ứng viên muốn ở ký túc xá nằm trong vòng cộng
trừ 0.05 so với tỷ lệ tổng thể thực sự là bao nhiêu?
Trang 42Phân Phối Mẫu của 𝜌
Ví dụ : Đại học St Andrew’s
Ví dụ của chúng ta, với n = 30 và p = 0.72, phân phối
chuẩn là một xấp xỉ có thể chấp nhận được vì:
n𝜌 = 30(0.72) = 21.6 ≥ 5 n(1 - 𝜌) = 30(0.28) = 8.4 ≥ 5
Trang 43Phân Phối Mẫu của 𝜌
Trang 44Phân Phối Mẫu của 𝜌
Trang 45Phân Phối Mẫu của 𝜌
Trang 46Phân Phối Mẫu của 𝜌
Ví dụ : Đại học St Andrew’s
Phân phối
p 0,72 0,77
Diện tích
=0,7291
Trang 47Phân Phối Mẫu của 𝜌
Trang 48Phân Phối Mẫu của 𝜌
Ví dụ : Đại học St Andrew’s
Phân phối
0,72 0,67
Diện tích
=0,2709
p
Trang 49Phân Phối Mẫu của 𝜌
Xác suất tỷ lệ mẫu của các ứng viên muốn ở ký túc xá sẽ nằm trong vòng +/- 0.05 so với tỷ lệ tổng thể thực sự :
P(0.67 ≤ 𝜌 ≤ 0.77) = 0.4582
Trang 50Phân Phối Mẫu của 𝜌
Diện tích
=0,4582
Trang 51Các Tính Chất của các Ước Lượng Điểm
Trước khi sử dụng một thống kê mẫu như một
tham số ước lượng điểm, các nhà thống kê cần
kiểm tra để biết thống kê mẫu có các tính chất
sau đây gắn liền với các tham số ước lượng
điểm tốt hay không
• Tính không chệch
• Tính hiệu quả
• Tính vững
Trang 52Các Tính Chất của các Ước Lượng Điểm
Không chệch
Nếu giá trị kỳ vọng của thống kê mẫu bằng với
tham số tổng thể đang được ước lượng, thống kê
mẫu được gọi là một tham số ước lượng không
chệch của tham số tổng thể
Trang 53Các Tính Chất của các Ước Lượng Điểm
Tham số ước lương điểm có độ lệch chuẩn nhỏ hơn được gọi là có tính hiệu quả tương đối lớn hơn tham số còn lại
Trang 54Các Tính Chất của các Ước Lượng Điểm
Tính vững
Một tham số ước lượng điểm là vững nếu các giá trị của ước lượng điểm có xu hướng trở nên gần hơn
tham số tổng thể khi cỡ mẫu trở nên lớn hơn
Nói cách khác, cỡ mẫu lớn có xu hướng cho một ước lượng điểm tốt hơn một cỡ mẫu nhỏ
Trang 55B Ước lượng khoảng
Trung bình tổng thể: Biết 𝜎
Trung bình tổng thể: Chưa biết 𝜎
Xác định cỡ mẫu
Tỷ lệ tổng thể
Trang 56Sai số biên và Ước lượng khoảng
Ước lượng điểm không được kỳ vọng sẽ cung cấp giá trị chính xác của tham số tổng thể
Ước lượng khoảng có thể được tính bằng cách cộng và trừ 1 sai số biên vào ước lượng điểm
Ước lượng điểm +/- Sai số biên
Mục đích của ước lượng khoảng là cung cấp thông tin mức
độ ước lượng điểm, được cung cấp bởi mẫu, gần với giá trị của tham số tổng thể
Trang 57Sai số biên và Ước lượng khoảng
Dạng tổng quát của ước lượng khoảng trung bình tổng thể là
𝑥 ± sai số biên
Trang 58Ước lượng khoảng của trung bình tổng thể:
trường hợp biết 𝜎
Để xây dựng ước lượng khoảng của trung
bình tổng thể, sai số biên phải được tính,
dùng:
• Độ lệch chuẩn tổng thể 𝜎
• Độ lệch chuẩn mẫu s
𝜎 hiếm khi được biết một cách chính xác, nhưng
thường một ước lượng tốt của nó có thể thu được dựa
vào dữ liệu lịch sử hoặc các thông tin khác
Chúng ta đề cập đến trường hợp biết 𝜎
Trang 59Ước lượng khoảng của trung bình tổng thể:
trường hợp biết 𝜎
Ước lượng khoảng của 𝜇
𝑥 ± 𝑧𝛼/2 𝜎
𝑛
Với: 𝑥 : là trung bình mẫu
1 - 𝛼: là hệ số tin cậy ( độ tin cậy)
𝑧𝛼/2: là giá trị z cung cấp một diện tích 𝛼/2 trong đuôi phải của phân phối
xác suất chuẩn hóa
𝜎: là độ lệch chuẩn tổng thể n: là cỡ mẫu
Trang 60Ước lượng khoảng của trung bình tổng thể:
trường hợp biết 𝜎
Các giá trị 𝑧𝛼/2 của các độ tin cậy thông dụng
Độ Bảng tin cậy a a/2 diện tích za/2 90% 0,10 0,05 0,9500 1,645 95% 0,05 0,025 0,9750 1,960 99% 0,01 0,005 0,9950 2,576
Trang 61Ý nghĩa của độ tin cậy
Bởi vì 90% của tất cả các khoảng được xây dựng sử dụng
𝑥 ± 1,645𝜎𝑥 sẽ chứa trung bình tổng thể, chúng ta nói có 90% tin rằng khoảng 𝑥 ± 1,645𝜎𝑥 chứa trung bình tổng thể 𝜇
Chúng ta nói rằng khoảng này được ước lượng
với độ tin cậy 90%
Giá trị 0,90 gọi là hệ số tin cậy
Trang 62Ước lượng khoảng của trung bình tổng thể:
trường hợp biết 𝜎
Ví dụ: Discount Sounds
Discount Sounds có 260 cửa hàng bán lẻ khắp nước Mỹ
Công ty đang ước lượng 1 vị trí tiềm năng cho 1 cửa hàng
mới, ước lượng 1 phần dựa vào thu nhập trung bình hàng
năm của cư dân ở địa điểm tính mở cửa hàng mới
Một mẫu n = 36 được lấy; trung bình mẫu của thu nhập là
41.100 USD Tổng thể không bị lệch nhiều Độ lệch
chuẩn tổng thể được ước lượng là 4.500 USD, và hệ số tin
cậy được sử dụng trong ước lượng khoảng là 0,95
Trang 63Ước lượng khoảng của trung bình tổng thể:
trường hợp biết 𝜎
Ví dụ: Discount Sounds
95% của trung bình mẫu quan sát được là nằm trong
khoảng ± 1,96 𝛼𝑥 của trung bình tổng thể 𝜇
Trang 64Ước lượng khoảng của trung bình tổng thể:
tổng thể
Trang 65Ước lượng khoảng của trung bình tổng thể:
trường hợp biết 𝜎
Ví dụ: Discount Sounds
Độ Sai số tin cậy biên Khoảng ước lượng 90% 3,29 78,71 tới 85,29 95% 3,92 78,08 tới 85,92 99% 5,15 76,85 tới 87,15
Với độ tin cậy lớn hơn thì sai số biên sẽ lớn hơn,
vì thế khoảng tin cậy sẽ rộng hơn
Trang 66Ước lượng khoảng của trung bình tổng thể:
trường hợp biết 𝜎
Cỡ mẫu thích hợp
Trong hầu hết ứng dụng, cỡ mẫu n = 30 là thích hợp
Nếu phân phối tổng thể bị lệch nhiều hoặc chứa
giá trị bất thường, cỡ mẫu tối thiểu là 50 được
khuyên dùng
Trang 67Ước lượng khoảng của trung bình tổng thể:
trường hợp biết 𝜎
Cỡ mẫu thích hợp (tiếp tục)
Nếu tổng thể không có phân phối chuẩn nhưng có
tính đối xứng cao, cở mẫu khoảng 15 là đủ
Nếu tin rằng tổng thể xấp xỉ phân phối chuẩn,
cỡ mẫu bé hơn 15 có thể dùng được
Trang 68Ước lượng khoảng của trung bình tổng thể:
Chưa biết 𝜎
Nếu ước lượng của độ lệch chuẩn tổng thể 𝜎 không
thể được xây dựng trước khi lấy mẫu, chúng ta sử
dụng độ lệch chuẩn mẫu s để ước lượng 𝜎
Đây là trường hợp chưa biết 𝜎
Trong trường hợp này, ước lượng khoảng của 𝜇 dựa trên phân phối t Student
(Bây giờ chúng ta giả định tổng thể có phân phối chuẩn.)
Trang 69Ước lượng khoảng của trung bình tổng thể:
Chưa biết 𝜎
Ước lượng khoảng
𝑥 ± 𝑡𝛼/2 𝑠
𝑛
Với: 1 - 𝛼 = hệ số tin cậy
𝑡𝛼/2 = giá trị t cung cấp 1 diện tích 𝛼/2
trong đuôi phải của phân phối t với
n - 1 bậc tự do
s = độ lệch chuẩn mẫu
Trang 70Ước lượng khoảng của trung bình tổng thể:
Chưa biết 𝜎
Ví dụ : Căn hộ cho thuê
Một phóng viên của một tờ báo sinh viên đang viết một bài báo về chi phí thuê phòng ở ngoài trường Một mẫu 16 căn hộ tiện dụng trong vòng nửa dặm xung quanh trường cho trung bình mẫu là 750 USD/tháng và độ lệch chuẩn mẫu là 55 USD
Hãy xây dựng một khoảng tin cậy ước lượng 95% của số tiền thuê trung bình mỗi tháng cho tổng thể các căn hộ tiện dụng trong vòng nửa dặm xung quanh trường Chúng ta sẽ giả định tổng thể này có phân phối chuẩn