Giới thiệu về lấy mẫu và các dạng mẫu thường gặp Định lý giới hạn trung tâm Phân phối của trung bình mẫu ? Phân phối của tỷ lệ mẫu F... Giới thiệu về lấy mẫu và các dạng mẫu thường gặp Đ
Trang 1Bài 3: Lý thuyết mẫu
PP của trung bình mẫu và tỷ lệ mẫu
Vinh LươngUniversity of Economics and Finance vinhlx@uef.edu.vn
September 2018
Trang 2Giới thiệu về lấy mẫu và các dạng mẫu thường gặp
Định lý giới hạn trung tâm
Phân phối của trung bình mẫu 𝑋
Phân phối của tỷ lệ mẫu F
Trang 3Giới thiệu về lấy mẫu và các dạng mẫu thường gặp
Định lý giới hạn trung tâm
Phân phối của trung bình mẫu 𝑋
Phân phối của tỷ lệ mẫu F
Trang 4I Chọn ngẫu nhiên 10,000 người bất kỳ để đo chiều cao.
I Chọn ngẫu nhiên 100 bóng đèn để kiểm tra chất lượng
I Chọn ngẫu nhiên 50 bệnh nhân để kiểm tra hiệu quả của 1 loạithuốc mới
Trang 6Example 1
I Muốn tìm chiều cao trung bình 𝜇 của 12000 thanh niên của mộtkhu vực nhưng vì một số lý do ta không thể khảo sát chiều cao củatất cả 12000 thanh niên trong khu vực
để khảo sát
I Tính chiều cao trung bình 𝑥 của 100 thanh niên này
I Từ 𝑥 tính được dựa vào mẫu trên, ta sẽ suy ra thông tin về trungbình 𝜇 của tổng thể
Trang 7Tại sao phải lấy mẫu?
1 Không thể khảo sát tất cả
từng phần tử của tổng thể (Ví
dụ: kiểm tra các hộp sữa của
một lô hàng, kiểm tra tuổi thọ
bóng đèn )
2 Bị giới hạn về thời gian và
chi phí (Ví dụ: khảo sát trước
mỗi kỳ bầu cử tổng thống Mỹ,
khảo sát chiều cao dân số )
là chấp nhận được nếu ta lấy
mẫu hợp lý Ví dụ: Chiều cao
trung bình của sinh viên nam
là từ 164cm đến 166cm
Trang 8Lấy mẫu như thế nào là hợp lý?
1 Lấy mẫu ngẫu nhiên: mỗi phần tử trong tổng thể có cơ hội đượcchọn như nhau
2 Kích thước mẫu đủ lớn: n càng lớn, thông tin suy luận về tổngthể càng đáng tin cậy và có ý nghĩa
Trang 9Trung bình - Phương sai của 1 mẫu cụ thể
Trang 10Trung bình - Phương sai của 1 mẫu ngẫu nhiên
I Khi chúng ta nói về một mẫu ngẫu nhiên, tức là các giá trị 𝑋𝑖cũng ngẫu nhiên Khi đó ta không dùng ký hiệu 𝑥; ˆ𝑠 giống như trên
mà thay bằng ký hiệu in hoa để thể hiện đó không phải là 1mẫu cụ thể
𝑋 =
𝑛
∑︀
𝑖=1𝑋𝑖
n − 1
Trang 12Các dạng mẫu thường gặp
Có 3 dạng mẫu dữ liệu thông dụng hay được sử dụng:
1 Mẫu dạng điểm: còn gọi là bảng dữ liệu thô
2 Mẫu dạng tần số: dữ liệu thô được tổ chức lại theo dạng tần sốxuất hiện hay tỷ lệ bách phân
3 Mẫu dạng khoảng: dữ liệu thô được chia thành các khoảng lớp vàtính tần số
Nhờ sự phát triển của máy tính, mẫu dạng điểm đang được sử dụngrộng rãi trong tính toán
Trang 13∑︀
𝑖=1(𝑥𝑖− ¯𝑥)2
Thời gian hoàn thành công việc (giây)
Trang 15Mẫu dạng khoảng kiểu 1
I Khoảng lớp: xmin ≤ x ≤ xmax
I Với mẫu dạng khoảng thì ta dùng tâm lớp để tính toán
I Tâm lớp: 𝑥𝑖 = 𝑥𝑚𝑖𝑛+ 𝑥𝑚𝑎𝑥
2
I Dùng tâm lớp là không chính xác nên dẫn đến sai số khi tính toán
I Do đó, dữ liệu dạng khoảng chủ yếu được dùng để mô tả dữ liệu
Trang 16Mẫu dạng khoảng kiểu 2
I Ngoài ra người ta cũng có thể chia mẫu dạng khoảng như sau:
I Sử dụng khoảng lớp: xmin ≤ x < xmax
I Ta vẫn dùng tâm lớp để tính toán
Trang 17Example 3
Điểm thi môn XSTK của lớp học được tổng hợp lại thành bảng sau:
1 Hãy tính điểm trung bình của cả lớp 𝑥
2 Tính độ lệch chuẩn mẫu có hiệu chỉnh ˆ𝑠
Điểm thi (thang điểm 100)DS: 54.84 và 10.84
Trang 18Exercise 1
Ra đời vào tháng 8/2009, hiện nay Zing Me là một trong 2 mạng xã hộiphổ biến nhất ở Việt Nam Một sinh viên UEF khảo sát ngẫu nhiên 100người dùng (user) trên Zing Me và có được số liệu trong bảng sau về độtuổi của họ:
Dựa vào mẫu trên hãy tính:
1 Tuổi trung bình của người dùng Zing Me
2 Độ lệch chuẫn mẫu có hiệu chỉnh ˆ𝑠
DS: 22.795 và 11.26
Trang 19Giới thiệu về lấy mẫu và các dạng mẫu thường gặp
Định lý giới hạn trung tâm
Phân phối của trung bình mẫu 𝑋
Phân phối của tỷ lệ mẫu F
Trang 20Định lý giới hạn trung tâm
Theorem (Định lý giới hạn trung tâm )
Gọi 𝑋1, 𝑋2, , 𝑋𝑛 là một dãy các ĐLNN độc lập và có cùng phânphối với kỳ vọng bằng 𝜇 và độ lệch chuẩn 𝜎 hữu hạn Đặt:
𝑆𝑛= 𝑋1+ 𝑋2+ · · · + 𝑋𝑛Khi 𝑛 lớn, 𝑆𝑛 sẽ xấp xỉ phân phổi chuẩn 𝑆𝑛∼ 𝑁(︀𝑛𝜇, 𝑛𝜎2)︀
Trang 21Định lý giới hạn trung tâm
I Định lý giới hạn trung tâm1 không yêu cầu phân phối của các
𝑋𝑖 ra sao Chỉ yêu cầu chúng độc lập và có cùng phân phối
I 𝑋𝑖 có thể là ĐLNN rời rạc hoặc liên tục
I Trong trường hợp các 𝑋𝑖 có cùng phân phối chuẩn, điều kiện 𝑛 đủlớn (𝑛 ≥ 30) không còn cần thiết Nghĩa là 𝑆𝑛∼ 𝑁(︁𝑛𝜇, (𝜎√𝑛)2
sẽ có phân phối chuẩn 𝑁(︁𝜇, (𝜎/√𝑛)2)︁ khi 𝑛 ≥ 30
1 The Central Limit Theorem – CLT
Trang 22Example 4
Trọng lượng của các nhân viên trong trụ sở một công ty tuân theo quyluật phân phối chuẩn với 𝜇 = 71.5 kg và độ lệch chuẩn 𝜎 = 7.3 kg.Thang máy trong trụ sở có mức tải trọng an toàn 444 kg Giả sử có 6người bất kỳ cùng vào thang máy Tính xác suất tổng trọng lượng của 6người vượt quá mức an toàn cho phép
Giải:
I Gọi 𝑋𝑖 trọng lượng của người i (1 ≤ 𝑖 ≤ 6)
I Đặt 𝑆 = 𝑋1+ 𝑋2+ + 𝑋6 là tổng trọng lượng của 6 người bất kỳ
I Theo định lý giới hạn trung tâm 𝑆𝑛∼ 𝑁(︁𝑛𝜇, (𝜎√𝑛)2)︁
I Suy ra: 𝑆 có phân phối chuẩn với
𝜇𝑆 = 6𝜇 = 429 và 𝜎𝑆= 𝜎√6 = 17.8813
I 𝑃 (𝑆 > 444) = 1 − 𝑁 𝑂𝑅𝑀.𝐷𝐼𝑆𝑇 (444, 𝜇𝑆, 𝜎𝑆, 1) = 0.20077
Trang 23Example 5
Hãng xe Toyota muốn kiểm tra 1 mẫu xe mới trước khi tung ra thịtrường Giả sử số lượng lỗi nghiêm trọng của mẫu xe mới là 1 ĐLNN cótrung bình 3.2 và độ lệch chuẫn 2.4 Trong số 100 xe được kiểm tra đợtnày, tính xác suất số lỗi trung bình của mỗi xe là trên 4?
Giải:
I Gọi 𝑋𝑖 là số lỗi của xe thứ i (1 ≤ 𝑖 ≤ 100)
I Tổng số lỗi của 100 xe sau khi kiểm tra là:
Độ lệch chuẩn: 𝜎𝑆= 10𝜎 = 24
I XS cần tính: 𝑃 (𝑋 > 4) = 𝑃 (𝑆 > 400) = 0.00043
Trang 24Exercise 2
Một nhà máy sản xuất dây xích bằng thép, mỗi dây gồm nhiều mắt xích
Độ dài của các mắt xích được định nghĩa sao cho độ dài của dây xíchbằng tổng độ dài các mắt xích Phòng nghiên cứu của nhà máy đo thấy
độ dài của các mắt xích là một ĐLNN 𝑋 có kỳ vọng là 5cm và độ lệchchuẩn là 0.1cm Nhà máy bán loại dây xích dài 50m được nối bằng 1002mắt xích Nhà máy cam đoan rằng không có dây xích nào dài dưới 50m,nếu khách hàng nào mua phải dây dài dưới 50m thì được đền tiền vàtặng một dây khác miễn phí
1 Hãy tính xác suất để một dây xích với 1002 mắt xích có độ dài dưới50m
2 Sau một thời gian, bộ phân bán hàng của nhà máy thấy có nhiềudây xích dài dưới 50m bị trả lại, và hỏi phòng nghiên cứu xem vấn
đề nằm ở đâu Sau khi điều tra, phòng nghiên cứu phát hiện là đokhông thật chính xác : kỳ vọng của chiều dài mắt xích không phải
là 5cm mà là 4.993cm Với kỳ vọng này, xác suất để một dây xíchvới 1002 mắt xích có độ dài dưới 50m là bao nhiêu?
Trang 25Giới thiệu về lấy mẫu và các dạng mẫu thường gặp
Định lý giới hạn trung tâm
Phân phối của trung bình mẫu 𝑋
Phân phối của tỷ lệ mẫu F
Trang 26Phân phối của trung bình mẫu 𝑋
I Từ tổng thể có kích thước N chọn ra một mẫu ngẫu nhiên bất kỳkích thước n, ký hiệu {𝑋1, , 𝑋𝑛}
I Trung bình của mẫu ngẫu nhiên là: 𝑋 = 𝑋1+ + 𝑋𝑛
𝑛
I Theo định lý giới hạn trung tâm thì 𝑋 sẽ có phân phối xấp xỉ phânphối chuẩn Ta gọi đó là phân phối của trung bình mẫu
Trang 27Phân phối của trung bình mẫu 𝑋
Gọi {𝑋1, , 𝑋𝑛} là một mẫu ngẫu nhiên có kích thước n lấy từtổng thể có trung bình 𝜇 và độ lệch chuẩn 𝜎 Khi đó trung bìnhmẫu ngẫu nhiên 𝑋 là một ĐLNN:
𝑛
Trang 28Phân phối của trung bình mẫu 𝑋
Trang 29Example 6
Giả sử chiều cao của sinh viên nam ở tp.HCM có phân phối chuẩn vớitrung bình là 172 cm và độ lệch chuẩn là 10 cm Chọn một mẫu ngẫunhiên gồm 25 sinh viên
1 Tìm quy luật phân phối của trung bình mẫu (trung bình chiều caocủa 25 sinh viên bất kỳ)
2 Tính xác suất để một mẫu ngẫu nhiên có chiều cao trung bình lớnhơn 174cm
Trang 30I Gọi X là chiều cao của 1 sinh viên bất kỳ (lấy từ tổng thể).
I Gọi 𝑋 là chiều cao trung bình của một mẫu ngẫu nhiên gồm 25sinh viên bất kỳ Ta có:
Trang 31Example 7
Cho 𝑋 ∼ 𝑁 (𝜇, 𝜎2) có trung bình là 100 và độ lệch chuẩn là 15 Lấy mẫungẫu nhiên gồm 9 phần tử bất kỳ {𝑋1, 𝑋2, , 𝑋9} và gọi 𝑋 là trungbình của mẫu ngẫu nhiên
1 Hãy cho biết phân phối của 𝑋
2 Tính 𝑃 (90 < 𝑋 < 110) và 𝑃 (90 < 𝑋 < 110) Nhận xét
DS: 49.72% vs 95.44%
Trang 32Exercise 3
Bài 5.4 :
500 vòng bi có trọng lượng trung bình là 150g và độ lệch chuẩn là 0,9g.Chọn một mẫu ngẫu nhiên gồm 100 vòng bi, tìm xác suất để mẫu này cótổng trọng lượng:
1 Trong khoảng 14,98kg và 14,99kg
2 Lớn hơn 15,03
Trang 33Exercise 4
A C Neilsen khảo sát và thấy rằng trẻ em trong độ tuổi từ 2 đến 5 tuổimỗi tuần xem tivi trung bình 25 giờ và độ lệch chuẩn là 3 giờ Giả sửthời gian xem tivi của 1 trẻ bất kỳ có phân phối chuẩn Nếu chọn ra 1mẫu ngẫu nhiên gồm 20 em bé bất kỳ, tính xác suất để thời gian xem tivitrung bình của mẫu đó sẽ lớn hơn 26.3 giờ
(Source: Michael D Shook and Robert L Shook, The Book of Odds.)
ĐS: 2.62%
Trang 34Exercise 5
The average age of a vehicle registered in the United States is 8 years, or
96 months Assume the standard deviation is 16 months If a randomsample of 36 vehicles is selected, find the probability that the mean oftheir age is between 90 and 100 months
ĐS: 92.1%
Trang 35Giới thiệu về lấy mẫu và các dạng mẫu thường gặp
Định lý giới hạn trung tâm
Phân phối của trung bình mẫu 𝑋
Phân phối của tỷ lệ mẫu F
Trang 36Phân phối của tỷ lệ mẫu F
I Gọi 𝑝 là tỷ lệ của tổng thể (tỷ lệ các phần tử có tính chất ℘ trongtổng thể)
I Gọi F là tỷ lệ của mẫu ngẫu nhiên kích thước n (tỷ lệ cácphần tử có tính chất ℘ trong mẫu ngẫu nhiên)
I Khi n đủ lớn (𝑛 ≥ 30) thì tỷ lệ mẫu F sẽ có phân phối xấp xỉ phânphối chuẩn 𝐹 ∼ 𝑁
(︂
𝑝,𝑝(1 − 𝑝)𝑛)︂
I Tức là:
𝜇𝐹 = 𝑝 ; 𝜎𝐹 =
√︂
𝑝(1 − 𝑝)𝑛
Trang 37I Gọi F là tỷ lệ sp hỏng của mẫu ngẫu nhiên kích thước 𝑛 = 400
I Do 𝑛 > 30 nên tỷ lệ mẫu F sẽ xấp xỉ phân phối chuẩn
𝐹 ∼ 𝑁(︀𝜇𝐹, 𝜎𝐹2)︀ với 𝜇𝐹 = 𝑝 ; 𝜎𝐹 =
√︂
𝑝(1 − 𝑝)𝑛
𝐹 ∼ 𝑁 (0.02, 0.0072)
I 𝑃 (𝐹 ≥ 3%) = 1 − 𝑃 (𝐹 < 3%)
= 1 − 𝑁 𝑂𝑅𝑀.𝐷𝐼𝑆𝑇 (3%; 2%; 0, 007; 1)
= 7.66%
Trang 38Exercise 6
Bài 5.6 :
Một công bố về kết quả bầu cử cho thấy một ứng cử viên đạt được 46%
số phiếu bầu
1 Tìm xác suất trong 200 số phiếu bầu được chọn ngẫu nhiên từ tổng
số phiếu bầu có đa số phiếu bầu dành cho ứng viên này (tức là có
số phiếu lớn hơn 50%)
2 Tìm xác suất trong 1000 số phiếu bầu được chọn ngẫu nhiên từ tổng
số phiếu bầu có đa số phiếu bầu dành cho ứng viên này
ĐS:
I 𝑃 (𝐹 ≥ 50%) = 12.82%
I 𝑃 (𝐹 ≥ 50%) = 0.5575%
Trang 39ĐS: 0.8881
Trang 40Exercise 9
The average number of pounds of meat that a person consumes per year
is 218.4 pounds Assume that the standard deviation is 25 pounds andthe distribution is approximately normal
(Source: Michael D Shook and Robert L Shook, The Book of Odds.)
1 Find the probability that a person selected at random consumes lessthan 224 pounds per year
2 If a sample of 40 individuals is selected, find the probability that themean of the sample will be less than 224 pounds per year
ĐS: 0.5871 và 0.9222
Trang 41Exercise 10
It has been estimated that 43% of business graduates believe that a
course in business ethics is very important for imparting ethical values tostudents (David, Anderson, and Lawrimore 1990) Find the probabilitythat more than one-half of a random sample of 80 business graduateshave this belief
ĐS: 0.1020
Exercise 11
Forty percent of students at small colleges have brought their own
personal computers to campus A random sample of 120 entering
freshmen was taken
1 What is the standard error of the sample proportion bringing theirown personal computers to campus?
2 What is the probability that the sample proportion is between 0.38and 0.46?