Bài giảng Thống kê trong kinh tế và kinh doanh: Chương 5 - Điều tra chọn mẫu được biên soạn với mục đích giúp các em sinh viên trình bày được xác suất và quy luật phân phối xác suất; tìm hiểu những vấn đề chung về điều tra chọn mẫu; ước lượng kết quả điều tra chọn mẫu; kiểm định giả thuyết thống kê. Mời quý thầy cô và các em cùng tham khảo.
Trang 1Chương 5 ĐIỀU TRA CHỌN MẪU
III
ƯỚC LƯỢNG KẾT QUẢ ĐIỀU TRA CHỌN MẪU
IV
KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ
Trang 2Xác suất và quy luật phân phối xác suất
• Biến ngẫu nhiên
• Quy luật phân phối xác suất của biến ngẫu nhiên
Biến ngẫu nhiên (Random Variables)
• Biến ngẫu nhiên là biến nhận một trong các giá trị có thể có của nó tuỳ
thuộc vào sự tác động của các nhân tố ngẫu nhiên trong một phép thử
• Biến ngẫu nhiên là biến mà các giá trị không được xác định trước qua mỗi
lần thực nghiệm (phép thử) (experiment)
• Biến ngẫu nhiên thường được ký hiệu bằng chữ in hoa X, Y, Z…; các giá
trị của nó được ký hiệu bằng chữ thường x, y, z…
• Biến ngẫu nhiên liên tục (discrete random variable)
• Biến ngẫu nhiên rời rạc (continuous random variable)
Trang 3Xác suất (Probability)
• Xác suất của một biến cố là một con số đặc trưng khả năng khách quan
xuất hiện biến cố đó khi thực hiện phép thử
Quy luật phân phối xác suất của biến ngẫu
nhiên (Probability Distribution)
Quy luật phân phối xác suất của biến ngẫu nhiên là sự tương ứng giữa
giá trị có thể có của nó và xác suất tương ứng với giá trị đó
0
Trang 4Quy luật phân phối xác suất của biến ngẫu
nhiên
Các phương pháp được sử dụng phổ biến để mô tả quy luật phân phối
xác suất của biến ngẫu nhiên gồm:
• Bảng phân phối xác suất (áp dụng cho biến ngẫu nhiên rời rạc)
• Hàm phân phối xác suất (áp dụng cho cả hai loại biến ngẫu nhiên rời rạc
và liên tục)
• Hàm mật độ xác suất (áp dụng cho biến ngẫu nhiên liên tục)
Bảng phân phối xác suất (Probability table)
• Giả sử biến ngẫu nhiên rời rạc X nhận các giá trị x1,x2, , xnvới các xác
suất tương ứng pi = p (X = xi), i=1÷n, bảng phân phối xác suất của biến
Trang 5Hàm phân phối xác suất (Probability function)
• Hàm phân phối (phân bố) xác suất của biến ngẫu nhiên X, ký hiệu là F(x),
là xác suất để biến ngẫu nhiên X nhận giá trị nhỏ hơn x, với x là một số
Hàm phân phối xác suất
• F(x) luôn nhận giá trị trong đoạn [0,1]: 0 ≤ F(x) ≤ 1
• Nếu a là giá trị nhỏ nhất có thể có của X và b là giá trị lớn nhất có thể có
của X thì: F (x) = 0 với x ≤ a; F (x) = 1 với x > b
• F(x) là hàm không giảm, tức với x2> x1: F(x2) ≥ F(x1)
• Hàm phân phối xác suất của một biến ngẫu nhiên liên tục bên trái
Hàm F(x) cho biết tỷ lệ phần trăm giá trị của X nằm về bên trái của số thực x
Trang 6Hàm mật độ xác suất (Probability density
function)
• Hàm mật độ xác suất của biến ngẫu nhiên liên tục X, ký hiệu là f(x) là đạo hàm bậc nhất
của hàm phân bố xác suất của biến ngẫu nhiên đó.
f(x) = F’(x)
• Hàm f(x) luôn không âm: f(x) ≥ 0
• Xác suất để biến ngẫu nhiên liên tục X nhận giá trị trong khoảng (a,b) bằng tích phân xác
định của hàm mật độ phân phối trong khoảng đó: 𝑃 𝑎 < 𝑋 < 𝑏 = ∫ 𝑓 𝑥 𝑑𝑥
• Hàm phân bố xác suất F(x) của biến ngẫu nhiên liên tục X bằng tích phân suy rộng của
hàm mật độ xác suất trong khoảng (-∞,x): 𝐹(𝑥) = ∫ 𝑓 𝑥 𝑑𝑥
• Tích phân suy rộng trong khoảng (-∞,+ ∞) của hàm mật độ xác suất bằng 1:
∫ 𝑓 𝑥 𝑑𝑥 = 1
Hàm mật độ xác suất của biến ngẫu nhiên X tại mỗi điểm cho biết mức độ tập trung
xác suất tại điểm đó.
Các tham số đặc trưng của biến ngẫu nhiên
• Kỳ vọng toán (Expected value, mean) của biến ngẫu nhiên X là một số, ký
Trang 7Các tham số đặc trưng của biến ngẫu nhiên
• Phương sai (Variance) của biến ngẫu nhiên X, ký hiệu là V(X) là kỳ vọng
toán của bình phương sai lệch của biến ngẫu nhiên so với kỳ vọng toán
Giá trị tới hạn (Critical value)
• Giá trị tới hạn mức 𝛼 của biến ngẫu nhiên liên tục X, ký hiệu là 𝑥 , là giá trị
của X thỏa mãn điều kiện:
𝑃(𝑋 > 𝑥 ) = 𝛼
• Giá trị tới hạn 𝑥 là giá trị sao cho diện tích giới hạn bởi trục hoành,
đường cong hàm mật độ xác suất và đường thẳng x= 𝑥 bằng 𝛼
f(x)
x𝛼
𝑥
Trang 8Quy luật phân phối không – một A(p)
• Biến ngẫu nhiên rời rạc X nhận một trong hai giá trị có thể có là 0 hoặc 1
với các xác suất tương ứng được cho bởi công thức:
P(X=x) = pxq1−x trong đó 0<p<1, q=1-p và x=0;1
→ được gọi là có phân phối theo quy luật 0-1 với tham số p, ký hiệu X ~ A(p)
• E(X) = 0 x q + 1 x p = p 𝐸 𝑋 = 𝑝
• V X = 𝐸 𝑋 − 𝐸 𝑋 = 𝑝 − 𝑝 = 𝑝 1 − 𝑝 = 𝑝𝑞
Áp dụng với các biến định tính chỉ có hai thuộc tính/phạm trù
Quy luật phân phối nhị thức B(n,p)
(Binomial Probability Distribution)
• Biến ngẫu nhiên rời rạc X được gọi là có phân phối theo quy luật nhị thức
với các tham số là n và p, ký hiệu X ~ B (n,p), nếu X nhận một trong các
giá trị 0, 1, 2, , n với xác suất tương ứng cho bởi công thức Bernoulli:
𝑃 = 𝐶 𝑝 𝑞 với x = 0, 1, 2, …, n
• E(X) = np
• V(X) = npq
Trang 9Quy luật phân phối nhị thức B(n,p)
Quy luật nhị thức theo tỷ lệ
• Tần suất xuất hiện biến cố A trong n phép thử độc lập: f = X / n
• Tần suất f vẫn phân phối theo quy luật nhị thức với các tham số n, p
• 𝐸 𝑓 = 𝐸 = 𝐸 𝑋 = = 𝑝
Quy luật phân phối chuẩn (Normal
Probability Distribution)
• Biến ngẫu nhiên liên tục X nhận các giá trị trong khoảng (-∞,+∞) gọi là
tuân theo quy luật phân phối chuẩn với các tham số 𝜇 và 𝜎 , nếu hàm mật
Trang 10Quy luật phân phối chuẩn
• Khi X ~ N (𝜇, 𝜎 ), ta có: E(X) = 𝜇 V(X) = 𝜎
• Đường cong mật độ có dạng hình chuông, đối xứng qua đường x = μ và nhận Ox
làm tiệm cận ngang Đỉnh của hàm mật độ đạt tại:
Quy luật phân phối chuẩn hóa (Standard
Normal Probability Distribution)
• Biến ngẫu nhiên liên tục U nhận các giá trị trong khoảng (-∞,+∞) gọi là
tuân theo quy luật phân phối chuẩn hóa nếu hàm mật độ xác suất của nó,
Trang 11Quy luật phân phối chuẩn hóa
• Khi U ~ N(0;1), ta có: E(U)=0 V(U)=1
• Đường cong biểu diễn mật độ của U đối xứng qua trục tung và nhận trục
hoành làm tiệm cận ngang, đỉnh đạt tại:
Quy luật phân phối chuẩn hóa
• Giá trị tới hạn chuẩn mức 𝛼, ký hiệu là 𝑢 là giá trị của biến ngẫu nhiên U có
phân phối chuẩn hóa thỏa mãn: P (U> 𝑢 )= 𝛼, với 0 ≤ 𝛼 ≤ 1
• Các giá trị của 𝑢 được tính sẵn thành bảng.
𝑢𝑢
Trang 12Quy luật phân phối chuẩn hóa
• Với biến ngẫu nhiên có phân phối chuẩn X ~ N (𝜇, 𝜎 ), có thể thông qua phép
biến đổi thích hợp để đưa về trường hợp biến ngẫu nhiên chuẩn hóa.
𝑍 =𝑥 − 𝜇𝜎
• Khi đó, ta có biến ngẫu nhiên chuẩn hóa Z ~ N(0;1).
• Khi X nhận giá trị trong khoảng (a,b) thì:
Φ −𝑢 = - Φ 𝑢 Với mọi u>5: Φ 𝑢 ≈ Φ 5 = 0,5 Φ 𝑢 = 0,5 + Φ 𝑢
Quy tắc hai xích ma và ba xích ma
• Trong một số trường hợp phải tính xác suất để biến ngẫu nhiên X phân phối
chuẩn nhận giá trị sai lệch so với kỳ vọng toán của nó, tức:
Trang 14Quy luật phân phối t Student
• Biến ngẫu nhiên liên tục T gọi là phân phối theo qui luật Student với n bậc
tự do nếu hàm mật độ xác xuất của nó được xác định như sau:
𝑓 𝑡 = ( )
( ) 1 + ∀𝑡Trong đó: Γ(x) là hàm Gamma
Quy luật phân phối t Student
• Giá trị tới hạn Studen, ký hiệu là 𝑡( )là giá trị của biến ngẫu nhiên T phân
phối theo qui luật Student với n bậc tự do, thỏa mãn:
Khi số bậc tự do tăng lên, phân phối
Student hội tụ nhanh về phân phối
chuẩn hóa.
→ Nếu n khá lớn (n>30) có thể dùng
phân phối chuẩn hóa thay thế cho
phân phối Student
Trang 15Quy luật phân phối Fisher
• Biến ngẫu nhiên liên tục F gọi là phân phối theo quy luật Fisher với n1 và
n2bậc tự do nếu hàm mật độ xác suất của nó được xác định là:
Quy luật phân phối Fisher
• Giá trị tới hạn Fisher, ký hiệu là 𝑓( , )là giá trị của biến ngẫu nhiên F
phân phối theo qui luật Fisher với n1và n2bậc tự do, thỏa mãn:
Trang 16Những vấn đề chung về điều tra chọn mẫu
Một số khái niệm liên quan
Ưu, nhược điểm của điều tra chọn mẫu
Trường hợp vận dụng điều tra chọn mẫu
Các cách chọn mẫu
• Phân phối mẫu
• Định lý giới hạn trung tâm
Một số khái niệm liên quan
Điều tra chọn mẫu là loại hình điều tra không toàn bộ, trong đó người ta
chỉ chọn ra một số đơn vị đủ lớn thuộc đối tượng nghiên cứu để tiến hành
điều tra thực tế
→Các đơn vị này được chọn theo những quy tắc nhất định để đảm bảo tính
đại biểu và kết quả của ĐTCM được dùng để suy rộng cho toàn bộ hiện
tượng
Trang 17Một số khái niệm liên quan
Tổng thể chung là tổng thể bao gồm toàn bộ các đơn vị thuộc đối tượng
điều tra
Tổng thể mẫu là tổng thể bao gồm một số đơn vị nhất định được chọn ra
từ tổng thể chung để tiến hành điều tra thực tế
Suy rộng (ước lượng): từ các mức độ tính toán được trên các đơn vị điều
tra (tổng thể mẫu) suy ra các tham số tương ứng của toàn bộ hiện tượng
(tổng thể chung)
• Suy rộng số bình quân theo một tiêu thức
• Suy rộng tỷ lệ theo một tiêu thức
Một số khái niệm liên quan
Trang 18Ưu, nhược điểm của điều tra chọn mẫu
Ưu điểm
Tiết kiệm (chi phí, nhân lực)
Có thể mở rộng nội dung điều tra
Tài liệu thu được trên mẫu có độ chính xác cao
Nhanh gọn, đảm bảo tính kịp thời
Nhược điểm
Không cho biết thông tin đầy đủ về tổng thể
Không tránh khỏi sai số khi suy rộng
Kết quả điều tra không thể tiến hành phân tổ theo mọi phạm vi nghiên cứu
Sai số trong điều tra chọn mẫu
• Sai số do đăng ký, ghi chép
• Sai số chọn mẫu
• Vi phạm nguyên tắc chọn mẫu ngẫu nhiên
• Số lượng đơn vị mẫu không đủ lớn
• Kết cấu tổng thể mẫu khác với kết cấu tổng thể chung
Trang 19Trường hợp vận dụng của điều tra chọn mẫu
• Thay thế cho điều tra toàn bộ
• Kết hợp với điều tra toàn bộ
• Kiểm định giả thuyết thống kê
Các phương pháp chọn mẫu
Chọn ngẫu nhiên (chọn xác suất): là kỹ thuật chọn mẫu mà mỗi đơn vị
trong tổng thể có một xác suất được chọn đã biết và khác 0
Các phương pháp chọn mẫu ngẫu nhiên
• Chọn ngẫu nhiên giản đơn
Trang 20Các phương pháp chọn mẫu
Chọn phi ngẫu nhiên (chọn phi xác suất): là kỹ thuật chọn mẫu mà các đơn vị
của mẫu được chọn dựa trên những đánh giá cá nhân hoặc sự thuận tiện.
→ Xác suất được chọn của mỗi đơn vị trong tổng thể là không biết.
Các phương pháp chọn mẫu phi ngẫu nhiên
• Nó cho phép xác định phân phối mẫu của một thống kê mẫu
• Có thể xác định xác suất của bất kỳ sai số chọn mẫu nào và thực hiện suy
luận cho các đặc trưng của tổng thể
Trang 21Chọn mẫu ngẫu nhiên giản đơn
• Là một trong các phương pháp chọn mẫu phổ biến nhất, gồm:
• Chọn từ tổng thể giới hạn: xác định được qui mô TTC là N
• Chọn lặp (chọn hoàn lại, chọn nhiều lần): mỗi đơn vị của tổng thể có thể
có nhiều hơn 1 cơ hội được chọn vào mẫu nghiên cứu
Số mẫu có thể có:
• Chọn không lặp (chọn không hoàn lại, chọn một lần): mỗi đơn vị của tổng
thể chỉ có 1 cơ hội được chọn vào mẫu nghiên cứu
• Số mẫu có thể có:
• Chọn từ tổng thể vô hạn: không xác định được qui mô TTC
n n
Nk
Phân phối mẫu
Phân phối trung bình mẫu: là phân phối xác suất của tất cả cá giá trị có
thể của trung bình mẫu 𝒙
Từ mẫu ngẫu nhiên kích thước n, với các quan sát có giá trị là x1, x2,….xn
Trung bình mẫu là:
Giá trị kỳ vọng của 𝑥̅ là trung bình của tổng thể chung 𝜇:
Độ lệch chuẩn của trung bình mẫu là: 𝜎 ̅ =
n
x x
Trang 22Phân phối mẫu
Phân phối tỷ lệ mẫu
Từ mẫu ngẫu nhiên kích thước n, x là biến ngẫu nhiên thỏa mãn tiêu thức
nghiên cứu nào đó
Tỷ lệ mẫu là:
Giá trị kỳ vọng của tỷ lệ mẫu là tỷ lệ của tổng thể chung p: E(f) = 𝑝
Độ lệch chuẩn của tỷ lệ mẫu là: 𝜎 = ( )
n
n
f *
𝜎 còn gọi là sai số chuẩn của tỷ lệ
Phân phối mẫu
• Khi một tổng thể có phân phối chuẩn, phân phối mẫu của 𝑥̅ cũng có phân
phối chuẩn với bất kỳ cỡ mẫu nào
• Trong phần lớn các ứng dụng, phân phối mẫu của 𝑥̅ có thể được coi là xấp
xỉ chuẩn khi cỡ mẫu từ 30 trở lên
• Trong trường hợp tổng thể có phân phối lệch nhiều hoặc có lượng biến đột
xuất, cỡ mẫu cần thiết nhỏ nhất là 50
• Phân phối mẫu của 𝑥̅ có thể được sử dụng để cho biết thông tin xác xuất
về việc trung bình mẫu 𝑥̅ gần với trung bình tổng thể µ như thế nào
• Phân phối mẫu của 𝒑̄ xấp xỉ phân phối chuẩn nếu np > 5 và n(1 – p) > 5
Trang 23Định lý giới hạn trung tâm
• Khi tổng thể không có phân phối chuẩn, định lý giới hạn trung tâm sẽ giúp
xác định hình dáng của phân phối mẫu 𝑥̅
ĐỊNH LÝ GIỚI HẠN TRUNG TÂMKhi lựa chọn các mẫu ngẫu nhiên kích thước n
từ tổng thể chung, phân phối mẫu của trung bìnhmẫu 𝒙 có thể là xấp xỉ phân phối chuẩn khi cỡ mẫu
càng lớn
Ước lượng kết quả điều tra chọn mẫu
Trung bình, m, chưa biết
40 & 60
TB = 50Lấy mẫu
Trang 24Ước lượng kết quả điều tra chọn mẫu
Ước lượng khoảng tin cậy
Ước lượng số bình quân của tổng thể chung
Ước lượng tỷ lệ theo một tiêu thức của tổng thể chung
Xác định quy mô mẫu
Ước lượng khoảng tin cậy
• Đưa ra một khoảng giá trị dựa trên quan sát từ 1 tổng thể mẫu
• Tìm giá trị gần nhất đối với các tham số của tổng thể chung
• Khoảng tin cậy luôn tương ứng với 1 xác suất nhất định
• Xác suất đó không bao giờ đạt 100%
Trang 25Ước lượng khoảng tin cậy
Xác suất để tham số của tổng thể chung rơi vào trong khoảng tin cậy gọi là
độ tin cậy (level of confidence), là (1-α)%
Ví dụ: 90%, 95%, 99%
α là xác suất để tham số của tổng thể chung không rơi vào trong khoảng
tin cậy, gọi là mức ý nghĩa (significance level)
Khoảng tin cậy(Confidence interval)
Thống kê mẫu (Statistics)
Giới hạn tin cậy
(Giới hạn dưới)
Lower limit
Giới hạn tin cậy(Giới hạn trên) Upper limit
Ước lượng số bình quân và tỷ lệ của TTC
Công thức ước lượng
• Để ước lượng khoảng tin cậy cho trung bình của TTC, phạm vi sai số
chọn mẫu phụ thuộc vào độ lệch chuẩn của TTC б hoặc độ lệch chuẩn
của TTM S
𝒙̄ ± Phạm vi sai số chọn mẫu (𝜺𝒙)𝒙̄ ± Phạm vi sai số chọn mẫu (𝜺𝒙)f± Phạm vi sai số chọn mẫu (𝜺𝒇)f± Phạm vi sai số chọn mẫu (𝜺𝒇)
Trang 26Ước lượng số bình quân và tỷ lệ của TTC
Phân phối mẫucủa 𝑥̅
Phân phối mẫucủa 𝑥̅
Xác suất(1 -)
Ước lượng số bình quân của TTC
Trường hợp đã biết phương sai (б2) (hoặc chưa biết phương sai
nhưng mẫu lớn)
• Khoảng tin cậy hai phía:
• Khoảng tin cậy phía phải:
• Khoảng tin cậy phía trái:
Trang 27Ước lượng số bình quân của TTC
Trường hợp chưa biết phương sai
• Khoảng tin cậy hai phía:
• Khoảng tin cậy phía phải:
• Khoảng tin cậy phía trái:
x
n x
t
2 / 2
Ước lượng tỷ lệ của TTC
• Khoảng tin cậy hai phía:
• Khoảng tin cậy phía phải:
• Khoảng tin cậy phía trái:
Trang 28Lưu ý
• Hệ số tin cậy zαlà giá trị tới hạn mức α của phân phối chuẩn hoá
• Hệ số tin cậy tαlà giá trị tới hạn mức α của phân phối Student
• 𝜎 ̅ và 𝜎 là sai số bình quân chọn mẫu (hoặc sai số chuẩn)
Sai số bình quân chọn mẫu
2s
(
2
N
n n
x s
s
) 1 (
2
N
n n
S
s n
f
f
s
Trang 29Lưu ý
• Sự khác biệt giữa hai phương pháp chọn hoàn lại và chọn không hoàn lại
chính là (1 – n/N) Do đó, ta luôn có sai số bình quân chọn mẫu theo cách
chọn hoàn lại lớn hơn sai số bình quân chọn mẫu theo cách chọn không
hoàn lại
• Khi n nhỏ hơn rất nhiều so với N thì khi đó n/N nhỏ và (1-n/N) gần với 1
Do vậy có thể chọn theo cách không hoàn lại nhưng sử dụng công thức
của chọn hoàn lại để tính sai số bình quân chọn mẫu cho đơn giản
Xác định quy mô mẫu
Yêu cầu:
• Sai số nhỏ nhất
• Chi phí thấp nhất
Trang 30Xác định quy mô mẫu
z n
s
.
z N n
z n
) 1 (
) 1 (
.
2 2
2
p p z N
p p z N n
f
Xác định quy mô mẫu
Các nhân tố ảnh hưởng tới kích thước mẫu điều tra
• Hệ số tin cậy (z)/Trình độ tin cậy
• Phương sai (độ đồng đều) của tổng thể chung (s2)
• Phạm vi sai số chọn mẫu (𝜀 ̅ hoặc 𝜀 ) (sampling error)
• Phương pháp tổ chức chọn mẫu
n z
.
t /2(,n 1) x /2(,n 1)
n
) 1 ( f
z /2
Trang 31Lưu ý
Trong trường hợp chưa biết phương sai của TTC, có thể sử dụng một
trong các cách sau:
• Lấy phương sai (s2) lớn nhất trong các lần điều tra trước (nếu có) Trong
trường hợp ước lượng tỷ lệ, chọn tỷ lệ (p) gần 0,5 nhất
• Lấy phương sai hoặc tỷ lệ của các cuộc điều tra khác có tính chất tương
tự (nếu có)
• Điều tra thí điểm để xác định phương sai
• Ước lượng phương sai dựa vào khoảng biến thiên
6
6 max min
x x
s
Kiểm định giả thuyết thống kê
Một số vấn đề chung về kiểm định giả thuyết thống kê
Kiểm định giả thuyết về số trung bình
Kiểm định giả thuyết về tỷ lệ