Từ đĩ, điều tra chọn mẫu và ước lượng các tham số của tổng thể chung từ tổng thể mẫu là các phương pháp chủ lực trong thống kê thực hành.. MỘT SỐ VẤN Đ Ề CH UNG VỀ ĐIỀU TRA CHỌN MẪU : 1.
Trang 1ươ ng 5 ĐIỀU TRA CHỌN MẪU VÀ ƯỚC LƯỢNG
( Survey sampling methods and Estimation )
Đ
ặt vấn đ ề : - Tổng thể nghiên cứu trong thực tế cĩ thể vơ hạn hay hữu hạn song
khơng phải lúc nào cũng cĩ thể hoặc cũng cần thu thập dữ liệu trên tồn bộ tổng thể Từ đĩ, điều tra chọn mẫu và ước lượng các tham
số của tổng thể chung từ tổng thể mẫu là các phương pháp chủ lực trong thống kê thực hành
- Về mặt phương pháp luận, lý thuyết mẫu là nội dung động nhất của
lý thuyết về khoa học thống kê
Giải quyết vấn đ ề : Từ bản chất của phương pháp mẫu, cĩ 2 nội dung cơ bản cần
giải quyết là chọn tổng thể mẫu và ước lượng kết quả
T
à i liệu tham khảo cho SV :
- Lý thuyết: giáo trình Xác suất thống kê, Thống kê ứng dụng, Kinh tế lượng…
- Ứng dụng: các tài liệu hướng dẫn trong các cuộc điều tra chọn mẫu của TCTK: www.gso.gov.vn và các tài liệu điều tra thực tế của các đơn vị
1 MỘT SỐ VẤN Đ Ề CH UNG VỀ ĐIỀU TRA CHỌN MẪU :
1.1.Khái niệm:
ĐTCM là điều tra khơng tồn bộ trên một số đơn vị của tổng thể và từ đĩ suy rộng thành các đặc trưng của tồn bộ tổng thể
Từ khái niệm trên, cĩ 2 nội dung cơ bản cần giải quyết trong ĐTCM là:
-Chọn tổng thể mẫu: + phương pháp chọn mẫu
+ số lượng đơn vị tổng thể (kích thước mẫu) -Suy rộng kết quả ( ước lượng ): + phương pháp
+ cơng thức
1.2 Ư u đ iểm và hạn chế (so với điều tra tồn bộ)
Trang 21.Sai số:
- Sai số chọn mẫu
- Sai số do kê khai
(phi CM)
2.Chi phí:
3.Tổ chức:
4.Nội dung:
5 Ứ ng dụng :
Có thấp hơn
tiết kiệm hơn nhanh gọn hơn
có thể mở rộng -Khi tổng thể không thể ĐT t.bộ
-Cần tổng hợp nhanh tài liệu
-Phúc tra,…
-ĐT nghiên cứu thị trường, Đ
xã hội hội học,…
Không cao hơn
/ / /
- Cần thiết cho các nguồn thông tin quan trọng
1.3 Sai số trong Đ TCM
Trong ĐTCM tồn tại 2 loại sai số: - Sai số do kê khai (nonsampling
error)
- Sai số chọn mẫu ( sampling error : б )
1.4 Các ký hiệu th ư ờng dùng
Chỉ tiêu Tổng thể chung Tổng thể mẫu
1 Số đơn vị tổng thể
2 Các tham số
-Số trung bình -Tỉ lệ
-Phương sai +của STB + của tỉ lệ
N θ
µ p
б2
бx2
бp2 = p (1-p )
n θ’
x
pˆ
s2
s2 x
) 1 (
sp
2 CÁC PH ƯƠ NG PHÁP CHỌN MẪU ( Types of survey sampling
methods)
2.1 Phân loại.
Trang 32.1.1 C ă n cứ vào mức đ ộ ngẫu nhiên khi chọn mẫu : 2 loại phương
pháp
*Chọn mẫu phi ngẫu nhiên (cĩ chủ đích) (non random sampling).
- Xuất hiện trước ( khoảng 300 năm trước)
- Xuất phát từ các nhà thống kê thực hành
- Khơng có luận cứ chứng minh
* Chọn mẫu ngẫu nhiên (random sampling).
- Xuất hiện sau ( đầu thế kỷ 20)
- Do các nhà thống kê lý thuyết chứng minh.
- Cĩ cơ sở khoa học (lý thuyết xác suất): định lý giới hạn trung tâm
(the central limit theorem)
Trong thực hành, thường chọn mẫu theo phương pháp kết hợp
giữa ngẫu nhiên và phi ngẫu (a mixture of random and non
random sampling): chọn mẫu cả khối, chọn mẫu nhiều giai đoạn
(multi- stage sampling)
2.1.2 C ă n cứ theo yếu tố xác suất khi chọn mẫu : 2 loại chọn
mẫu
*Chọn mẫu theo xác suất ( probability samples )
*Chọn mẫu khơng theo xác suất ( nonprobability samples )
Các ph ươ ng pháp chọn mẫu
CM khơng theo XS CM theo XS
Judgment Quota Chunk Convenience Simple Systematic Stratified Cluster
Sample Sample Sample Sample Random Sample Sample Sample
Sample
2.1.3 C ă n cứ theo sự thay đ ổi của tổng thể khi chọn mẫu : 2
phương pháp
*Chọn hồn lại (chọn lặp, chọn nhiều lần) (select with replacement)
Trang 4*Chọn khơng hồn lại (chọn khơng lặp, chọn một lần)(select without
replacement)
2.2 Một số ph ươ ng pháp chọn mẫu ngẫu nhiên thơng dụng
2.2.1 Chọn mẫu ngẫu nhiên đơ n giản (simple
Là phương pháp hồn tồn ngẫu nhiên, khơng qua một sự sắp xếp nào.
*Kỹ thuật: - rút thăm ( “ names in a hat”or Raffle method)
- quay số ( “lottery” method )
- dùng Bảng số ngẫu nhiên ( random number tables method)
*Ư u đ iểm : hồn tồn ngẫu nhiên, bảo đảm tính khách quan
*Hạn chế: -Khơng bảo đảm tính đại biểu khi tổng thể cĩ cấu thành phức tạp
-Khĩ đánh số thứ tự các đơn vị tổng thể khi tổng thể lớn
*Áp dụng: khi giữa các đơn vị tổng thể khơng khác biệt lớn
2.2.2 Chọn mẫu hệ thống (Systematic sample)
Trong chọn mẫu ngẫu nhiên hệ thống các đơn vị được chọn từ tổng thể
chung một cách tuần tự và cĩ khoảng cách ( d ) đều nhau
Bao gồm: - chọn mẫu hệ thống theo đường thẳng.
- chọn mẫu hệ thống xoay vịng.
*Kỹ thuật: -d : khoảng cách về thời gian, khơng gian, thứ hạng.
-Xác định d =
n N
-Chọn đơn vị đầu tiên một cách ngẫu nhiên, sau đĩ chọn
các đơn vị cịn lại tuần tự cĩ khoảng cách d
*Ư u đ iểm : - đơn giản
- các đơn vị trải đều, từ đĩ tính đại diện cĩ thể cao
*Hạn chế: - cĩ thể xuất hiện sai số hệ thống
- khi d là số thập phân thì phải làm trịn số , từ đĩ khi
ước lượng cĩ thể bị chệch
*Áp dụng: khi tổng thể cĩ biến động tương đối đều theo thời gian,
khơng gian,…
Trang 52.2.3 Chọn mẫu phân tổ (stratified sample)
Trong chọn mẫu phân tổ, các đơn vị tổng thể chung được phân thành
k tổ và tổng thể mẫu được chọn từ các tổ của tổng thể chung.
Cĩ 2 cách phân bổ số đơn vị mẫu chọn từ từng tổ:
- Phân bổ theo tỉ lệ (với số đơn vị mỗi tổ)
- Phân bổ khơng theo tỉ lệ( phân bổ Neyman)
*Kỹ thuật: - Phân tổ tổng thể chung thành k tổ
- Chọn các đơn vị mẫu từ các tổ theo phương pháp phân bổ thích hợp
+ Phân bổ theo tỉ lệ:
Ưu điểm: dễ thực hiện, từ đĩ được áp dụng phổ biến hơn trong thực tế
Hạn chế: phụ thuộc vào sự phân tổ tổng thể chung Nếu
phân tổ phù hợp với hiện tượng thì tính đại biểu
sẽ cao Nếu khơng, sẽ ngược lại
+Phân bổ Neyman: phân bổ theo sự biến thiên trong nội bộ tổ
( độ lệch chuẩn)
Ưu điểm: tính đại diện rất cao
Hạn chế: khi phải ước tính độ lệch chuẩn sẽ khơng bảo
đảm cĩ sự phân bố tốt nhất
*Áp dụng: khi tổng thể chung lớn và cấu thành các khối theo loại hình,
địa bàn,…
2.2.4 Chọn mẫu cả khối (cụm) (cluster sample)
Là chọn mẫu các khối, sau đĩ tiến hành điều tra tồn bộ trên các
khối đã chọn.
*Kỹ thuật:- chọn mẫu các khối của tổng thể chung.
- điều tra tồn bộ trên từng khối
*Ư u đ iểm : nhanh gọn
*Hạn chế: nếu giữa các khối cĩ chênh lệch lớn thì tính đại diện thấp
*Áp dụng: - trong từng khối của tổng thể chung khá chênh lệch
- giữa các khối của tổng thể chung ít chênh lệch
Ngồi ra, vài phương pháp khác như: chọn mẫu theo xác suất tỉ
lệ với qui mơ, chọn mẫu nhiều giai đoạn ,…
Trang 63 SAI SỐ CHỌN MẪU (σ),PHẠM VI SAI SỐ CHỌN MẪU (ε)
VÀ KÍCH TH Ư ỚC MẪU (n) TRONG Đ TCM NGẪU NHIÊN ĐƠ N
GIẢN.
3.1 Sai số chọn mẫu ( σ )
Là trung bình của các sai số chênh lệch giữa tham số của từng
tổng thể mẫu cĩ thể được chọn khác nhau với tham số thật sự
của tổng thể chung.
Trong tính toán, từng chênh lệch nói trên giữa từng tham số mẫu với tham số
của tổng thể chung (θi’ - θ ) có thể là chênh lệch + hay chênh lệch - Do vậy,
ta phải bình phương chênh lệch và sau đó lấy căn bậc 2 Như vậy, cuối cùng sai
số chọn mẫu được tính là độ lệch chuẩn của các số trung bình mẫu ( σx ).
Từ đó, có 2 nội dung cần xác định là:
* Từ N đơn vị tổng thể chung, số khả năng thiết lập tổng thể mẫu với n
đơn vị là:
–Trường hợp chọn hồn lại: k N2
- Trường hợp chọn khơng hồn lại: k C n n (N N! n)!
N
TD:
N = 4 , n =2
Tổng thể chung: A B C D
Chọn cĩ hồn lại: k N2= 4 2 = 16
Các tổng thể mẫu có thể chọn được là: AA AB AC AD
BB BA BC BD
CC CA CB CD
DD DA DB DC
→ Các tham số tương ứng của các tổng thể mẫu là: , '
3 ' 2 '
1 , , , , k
Sai số
→ Như vậy, Sai số chọn mẫu là sai số trung bình chọn mẫu (Sai
số chuẩn: standard error : SE )
k SE
k i
1
2 ' ) (
Trang 7Tuy nhiên, trong thựïc hành người ta chỉ tiếp cận với 1 tổng thể mẫu cụ thể và
sai số chọn mẫu được tính như sau:
σx =
n
2
**Ngoài ra, Sai số chọn mẫu gồm hai loại:
-Sai số ngẫu nhiên: do các đơn vị được chọn ngẫu nhiên
-Sai số hệ thống: khi mẫu được chọn cĩ chủ đích
→ Nhìn chung , sai số chọn mẫu thường được hiểu là sai số ngẫu nhiên.
Cơng thức Sai số chọn mẫu trong chọn mẫu ngẫu nhiên
đơ
n giản :
CHỌN HỒN CHỌN KHƠNG HỒN
σ =
n
2
N
n
n 1
Khi
ước
Lượng
Số trung
bình
σx =
n
2
Nn
1 n
2 σ
Khi
Ước
Lượng
Tỉ lệ
σp =
n
2
= p( 1n p) σp =
n
2
N
n 1 n
) p 1 ( p
Trong đo ù :
++ Công thức sai số chọn mẫu σ =
n
2
= n được xây dựng trên cơ sở chọn có
hoàn lại Trong thực tế, tổng thể mẫu có n quan sát thường được chọn không hoàn lại
từ tổng thể chung hữu hạn có N phần tử Từ đó, khi tính sai số chọn mẫu trong trường
Trang 8hợp chọn không hoàn lại cần có đại lượng Hệ số điều chỉnh tổng thể hữu hạn (finite
population correction factor : fpc) :
fpc =
1
N
n N
=
N
n
1
++ Trường hợp chọn không hoàn, khi N rất lớn so n (thông thường N n ≤
0,05 ) thì ( 1- N n ) → 1 : cĩ thể dùng công thức như chọn có hoàn lại
Ghi chú :
Thơng th ư ờng , khi tính Sai số chọn mẫu ta ch ư a biết 2
thứ tự ư u tiên xử lý nh ư sau :
1 Dùng phương sai lớn nhất của lần điều tra trước nếu
cĩ Áp dụng thích hợp với những hiện tượng khơng cĩ sự
thay đổi lớn trong quá trình phát triển.
2 Sử dụng phương sai của cuộc điều tra tương tự ở nơi
khác Áp dụng nếu hiện tượng nghiên cứu ở nơi khác
cũng cĩ những đặc điểm và điều kiện tương tự với hiện
tượng nghiên cứu.
3 Tiến hành điều tra thí điểm để tính độ lệch tiêu chuẩn.
Nếu hiện tượng nghiên cứu cĩ phân phối chuẩn thì cĩ thể
ước tính độ lệch tiêu chuẩn theo khoảng biến thiên R.
Theo Qui tắc 3 , nếu X~ N (, 2
) thì hầu hết các giá trị của X sai lệch với khơng quá 3 lần .
Ta cĩ : R= (xmax - xmin) = ( +3 ) – ( -3 ) = 6
=
6
R
=
6
min max x
x
4 Dùng phương sai mẫu ( s2 ): được sử dụng nhiều nhất trong
thực hành
3.2 Phạm vi sai số chọn mẫu (ε )
Được xác định nhằm phục vụ cho việc suy rộng từ kết quả của
tổng thể mẫu thành kết quả của tổng thể chung.
Trang 9ε phụ thuộc vào : + Sai số chọn mẫu σ
+ Độ tin cậy của tài liệu suy rộng ( 1 - α ) là xác suất đúng của tài liệu suy rộng Từ độ tin cậy mong muốn, xác định hệ số tin cậy z Độ tin cậy càng cao thì hệ số tin cậy càng lớn
Cơng thức: ε = σ z
2 trường hợp chính:
a Tổng thể cĩ phân phối chuẩn + biết 2
* Ư ớc lượng 2 bên:
ε = σ z2
α
= z2
α
Khi ước lượng STB: x = z2
α
x
α
n
Khi ước lượng tỉ lệ: p = z2
α
pˆ
= z2
α
n
) p 1 (
p
* Ư ớc lượng 1 bên : ε = σ z α
b Tổng thể cĩ phân phối chuẩn, n < 30 + chưa biết 2
: ε
=
s t
* Ư ớc lượng 2 bên: ε = s tn-1, 2
* Ước lượng 1 bên : ε = s tn-1, α
3.3 Xác đ ịnh kích th ư ớc mẫu ( Estimating the sample size)
a Chọn hoàn lại : Từ cơng thức ε = z2
α
n
2 σ
Trang 10 n = 2
2 2 2 α
ε
σ
x
z /
b Chọn không hoàn lại: Từ cơng thức ε = z2
α
n
2 σ
(1- N
n
)
n = 2 2
2 α 2
2 2 2 α
σ + ε
σ
/
/
z N
N z
x
Cơng thức xác đ ịnh kích th ư ớc mẫu trong chọn mẫu ngẫu nhiên đơ n giản:
CHỌN HỒN CHỌN KHƠNG HỒN
Khi
ước
Lượng
STB
n = 2
2 2 2 α
ε
σ
x
z /
n = 2 2
2 α 2
2 2 2 α
σ + ε
σ
/
/
z N
N z
x
Khi
Ước
Lượng
Tỉ lệ
n = 2
2 2 α
εp
pq
z /
n = N z z pqN pq
p α2 2 2
2 2 α
+
/
5 Ư ỚC L Ư ỢNG ( Estimate) TRONG Đ TCM.
5.1 Khái niệm – Phân loại:
Trong ĐTCM, ước lượng là sự suy rộng từ kết quả các tham số của
tổng thể mẫu thành kết quả các tham số của tổng thể chung
* Cĩ 2 ph ươ ng pháp ư ớc l ư ợng : - Ước lượng trực tiếp
- Ước lượng gián tiếp
Ước lượng trực tiếp là dùng 1 đặc trưng của tổng thể mẫu để ước
lượng cùng đặc trưng đĩ của tổng thể chung.Thí dụ, dùng trung
bình mẫu x để ước lượng trung bình của tổng thể µ ,…
Ước lượng gián tiếp là dùng 1 đặc trưng của tổng thể mẫu cùng
các tham số cĩ liên quan để ước lượng 1 đặc trưng của tổng thể
chung, thí dụ ước lượng hồi qui,…
Trang 11Trong thực hành, chủ yếu dùng ước lượng trực tiếp Cĩ thể phân
biệt các loại ước lượng trực tiếp sau:
*C ă n cứ vào khoảng ư ớc l ư ợng : - Ước lượng điểm.
- Ước lượng khoảng
* C ă n cứ vào tổng thể ư ớc l ư ợng : - Ước lượng cho đơn vị tổng thể
- Ước lượng cho tổng thể
5.2 Ư ớc l ư ợng đ iểm.
Thống kê tốn chứng minh: E (x ) = µ
E (p ˆ ) = p
E (s2 ) = s2
Nghĩa là các tham số mẫu là ước lượng khơng chệch của các tham số
chung
Ước lượng điểm bị hạn chế do phụ thuộc vào tổng thể mẫu cụ thể
chọn được
5.2 Ư ớc l ư ợng Khoảng.
Cơng thức: θ’- ε ≤ θ ≤ θ’ + ε
→ θ’- Z σ ≤ θ ≤ θ’ + Z σ Cụ thể:
→ *Ước lượng Số trung bình: x - zα/2
n
2
σ ≤ µ ≤ x + zα/2
n
2
σ
Hay: x - tn-1, α/2
n
2
σ ≤ µ ≤ x + tn-1, α/2
n
2
σ
→ *Ước lượng Tỉ lệ: pˆ - zα/2 n
p
p( 1 )
≤ p ≤ pˆ + zα/2 n
p
p( 1 )
Trang 12Hay: pˆ - tn-1, α/2 n
p
p( 1 )
≤ p ≤ pˆ + tn-1, α/2
n
p
p( 1 )
* Ư ớc l ư ợng tổng thể
(θ’- ε ) N ≤ θ N ≤ (θ’ + ε ) N
Ghi chú: Một số thuật ngữ:
Độ tin cậy : 1- α
(confidence level)
Hệ số tin cậy : z α/2, z α , tn-1, α/2 , tn-1, α.
(confidence Coefficient)
Khỏang tin cậy : θ’- ε ≤ θ ≤ θ’ + ε
(confidence interval)
Giới hạn tin cậy dưới : θ’ - ε
(interval lower limit)
G/hạn tin cậy trên : θ’ + ε
(interval upper limit)
BÀI TẬP
05.1: Hãy liên hệ thực tế để cho thí dụ về từng phương pháp
chọn mẫu ngẫu nhiên thông dụng
05.2: Chọn câu trả lời đúng nhất:
Câu 1: Một nhân viên tiếp thị qua điện thọai cài đặt để lưu lại
trong máy tính của công ty các số điện thọai tuần tự với
khỏang cách 20 chọn từ danh mục các cuộc điện đàm của
công ty từ đầu đến cuối tháng 2/2009 Nhân viên trên đã
dùng phương pháp chọn mẫu ngẫu nhiên:
a Đơn giản
Trang 13b Hệ thống.
c Phân tổ
d Cả khối
e Phương pháp khác
Câu 2: Khi kích thước tổng thể mẫu càng lớn thì cĩ ảnh hưởng:
a Giảm sai số chọn mẫu
b Tăng sai số do kê khai
c Khơng ảnh hưởng đến sai số trong điều tra TK
d a, b, c đúng
e a, b, c sai
Câu 3:Trong thực hành, ước lượng các tham số của tổng thể
chung chỉ từ tham số của 1 tổng thể mẫu cụ thể:
a Là sự hạn chế của phương pháp
b Là hạn chế đã được tính đến trong sai số chuẩn
c a, b đúng
d a, b sai
Câu 4: Khi ước lượng trị số tối đa của số trung bình tổng thể chung là :
a Ước lượng 1 bên
b Ước lượng bên trái
c Ước lượng bên phải
Câu 5: Với cùng sai số chọn mẫu, Khỏang tịn cậy càng lớn thì:
d Hệ số tin cậy càng lớn
e Độ tin cậy càng lớn
f a, b đúng
g a, b sai
05.3: Hãy trả lời đúng (Đ) , sai (S) cho các câu sau:
a _ Tổng thể mẫu là một bộ phận của tổng thể chung
được chọn ra để phân tích
b _ Điều tra nghiên cứu thị trường chủ yếu là điều tra
chọn mẫu
c _ Kiểm kê kho định kỳ là ĐT chọn mẫu
d _ Sai số do kê khai trong các phiếu ĐT chọn mẫu
thường cao hơn trong ĐT tịan bộ
05.4: Để dự báo một số chỉ tiêu quan trọng liên quan đến chiến lược tài chính
năm 2010 và năm 2020 của quốc gia, ngành tài chính đã kết hợp với
ngành thống kê tiến hành điều tra chọn mẫu về thu nhập, tiết kiệm và đầu
tư của dân cư ở một số tỉnh thành Thành phố BMT có 100.000 hộ gia
đình