Trong trường hợp chọn mẫu ngẫu nhiên phân tổ không hoàn lại và cơ chế phân bổ mẫu là phân bổ tỷ lệ với quy mô thì phương sai chung của mẫu có dạng: N n x D2 1 1 2 , với k là số tổ Thay D
Trang 1ĐỀ TÀI KHOA HỌC SỐ: 03-2004
NGHIÊN CỨU CÁC NGUYÊN TẮC XÁC ĐỊNH
CỠ MẪU VÀ PHÂN BỔ MẪU ỨNG DỤNG VÀO THỰC TIỄN
ĐIỀU TRA THỐNG KÊ Ở NƯỚC TA
1 Cấp đề tài : Tổng cục
2 Thời gian nghiên cứu : 2003-2004
3 Đơn vị chủ trì : Viện Khoa học Thống kê
4 Đơn vị quản lý : Viện Khoa học Thống kê
5 Chủ nhiệm đề tài : CN Lê Văn Duỵ
6 Những người phối hợp nghiên cứu:
PGS.TS Tăng Văn Khiên
Trang 2PHẦN MỘT
CƠ SỞ LÝ LUẬN VỀ XÁC ĐỊNH CỠ MẪU VÀ PHÂN BỔ MẪU
I XÁC ĐỊNH CỠ MẪU
1.1 Các nguyên tắc xác định cỡ mẫu cơ bản
Việc xác định cỡ mẫu của một cuộc điều được xác định dựa vào hai nguyên tắc cơ bản sau:
a Phải dựa vào mức độ biến động (được biểu hiện thông qua phương sai) của chỉ tiêu cần được nghiên cứu của cuộc điều tra Mức độ biến động này càng lớn cỡ mẫu càng lớn, ngược lại mức độ biến động của chỉ tiêu được nghiên cứu càng nhỏ, cỡ mẫu cần thiết cho điều tra cũng nhỏ theo
b Phải dựa vào mức độ sai số cho phép Khi sử dụng thông tin, người dùng tin hiểu biết thống kê thường đòi hỏi chỉ tiêu cần được nghiên cứu chỉ mắc một sai số nhất định Điều này cũng có tính chất quyết định đến cỡ mẫu cần cho cuộc điều tra Mức độ sai số cho phép càng lớn cỡ mẫu càng nhỏ Ngược lại, mức độ sai số cho phép nhỏ cỡ mẫu phải lớn
c Số lượng các chỉ tiêu thống kê cần thu thập Số lượng các chỉ tiêu thống kê cần thu thập qua cuộc điều tra ít, cỡ mẫu có thể lớn, ngược lại số lượng các chỉ tiêu thống kê cần thu thập qua cuộc điều tra nhiều cỡ mẫu cần phải nhỏ Làm ngược lại sẽ ảnh hưởng tới chất lượng của cuộc điều tra
d Cấp độ và mức độ chi tiết của thông tin cần đưa ra, tức là thông tin sẽ đại diện cho tới cấp độ nào (ví dụ tới cấp tỉnh/ thành phố hay tới cấp huyện, ) hoặc mức độ chi tiết đến đâu? Cấp độ và mức độ thông tin càng chi tiết, cỡ mẫu càng phải lớn có như vậy mới đáp ứng được yêu cầu đặt ra
1.2 Phương pháp xác định cỡ mẫu cơ bản
Trên phương diện lý thuyết, xác định cỡ mẫu dựa vào mức độ biến động của chỉ tiêu cần nghiên cứu tạo ra một bài toán cơ bản được trình bày dưới đây
+ Đối với chọn mẫu ngẫu nhiên đơn giản có hoàn lại (chọn lặp):
Trang 3Trong trường hợp chọn mẫu có hoàn lại, bình phương sai số của tiêu thức được nghiên cứu có dạng có dạng:
n
S x D
2 2
) ( Thay giá trị này vào công thức (1.5) rồi giải phương trình ta có công thức tính cỡ mẫu như sau:
2
2 2
d
S u
D Thay giá trị của
phương trình này với ẩn số là n thu được kết quả sau:
2 2
2
2 2
Nd S
u
S Nu n
+ Đối với chọn mẫu ngẫu nhiên phân tổ:
a Trong trường hợp chọn mẫu ngẫu nhiên phân tổ không hoàn lại và
cơ chế phân bổ mẫu là phân bổ tỷ lệ với quy mô thì phương sai chung của mẫu có dạng:
N n x
D2 1 1 2 , với k là số tổ
Thay D2 ở công thức này vào phương trình (1.5) rồi giải với ẩn số là
n ta sẽ có công thức xác định cỡ mẫu cho trường hợp "mẫu phân tổ với cơ chế chọn ngẫu nhiên không hoàn lại và phân bổ mẫu tỷ lệ thuận với quy
mô tổ" Sau khi giải phương trình có công thức xác định cỡ mẫu như sau:
k
i i i
S W N u d
S W n
1
2 2
2 1 2
1
Trang 4b Trong trường hợp chọn mẫu ngẫu nhiên phân tổ không hoàn lại và
cơ chế phân bổ mẫu là phân bổ Neyman thì phương sai chung của mẫu có dạng:
i i i
N S
W n x D
1 2 2
1
) (
Thay D2 ở công thức này vào phương trình (1.5) rồi giải với ẩn số là
n sẽ có công thức xác định cỡ mẫu cho trường hợp "mẫu phân tổ với cơ chế chọn ngẫu nhiên không hoàn lại và phân bổ mẫu theo kiểu Neyman"
Sau khi giải phương trình có công thức xác định cỡ mẫu như sau:
k
i i i
S W N u d
S W n
1
2 2
II PHÂN BỔ MẪU
Trong điều tra chọn mẫu có hai trường hợp cần tiến hành phân bổ mẫu, đó là khi áp dụng điều tra chọn mẫu phân tổ hoặc khi áp dụng điều tra chọn mẫu phân tầng Sau đây là các nguyên tắc cần chú ý khi tiến hành phân bổ mẫu và một số phương pháp phân bổ mẫu cơ bản
2.1 Các nguyên tắc phân bổ mẫu cho các tổ
Về phương diện lý thuyết, việc phân bổ mẫu cho các tổ phụ thuộc vào mức độ biến động của chỉ tiêu cần nghiên cứu ở từng tổ Mặt khác nó còn phụ thuộc vào dung lượng thông tin từng tổ hoặc từng đơn vị điều tra Với lý do đó việc phân bổ mẫu cũng có những nguyên tắc nhất định Sau đây là những nguyên tắc cơ bản thường được sử dụng khi phân bổ số lượng đơn vị mẫu cho các tổ
a Dựa vào mức độ biến động của chỉ tiêu cần thu thập trong từng
tổ Với nguyên tắc này, tổ nào có sự biến động lớn, tổ đó cần được phân bổ
số lượng đơn vị mẫu nhiều hơn
b Dựa vào tầm quan trọng của từng cá thể, từng nhóm cá thể đối
với thông tin cần cho ra để phân bổ mẫu
Trang 5Với một chủ đề thông tin cần thu thập, các đơn vị điều tra thường có dung lượng thông tin khác nhau Có đơn vị mang nhiều dung lượng thông tin hơn, ngược lại có đơn vị có rất ít lượng thông tin Trong điều kiện như vậy, thường người ta dựa vào dung lượng thông tin để phân tổ tổng thể ra thành các tổ có dung lượng thông tin khác nhau Trên cơ sở đó, phân bổ cỡ mẫu cho các tổ theo nguyên tắc các tổ có dung lượng thông tin phong phú
tỷ lệ chọn mẫu phải cao, thậm chí có khi phải chọn hết
c Dựa vào nhu cầu thông tin của các cấp lãnh đạo
d Dựa vào số lượng các đơn vị cá thể và tính đồng đều của các đơn
vị cá thể trong mỗi tổ: Số lượng càng lớn thì số đơn vị mẫu có thể giảm
tương đối; Tính đồng đều của các đơn vị cá thể càng cao thì phân bổ cỡ mẫu có thể giảm đi
2.2 Các phương pháp phân bổ mẫu cho các tổ
Về mặt lý luận, người ta thường nhắc đến các kiểu phân bổ mẫu cơ bản là phân bổ mẫu tỷ lệ thuận với quy mô, phân bổ mẫu tỷ lệ nghịch với quy mô, phân bổ mẫu Neyman, phân bổ mẫu tối ưu
2.2.1 Phân bổ mẫu tỷ lệ thuận với quy mô
Công thức phân bổ mẫu tỷ lệ thuận với quy mô có dạng:
n W n N
N
i * * với i=1,2, ,M ; (1.10)
trong tổng thể
Phương pháp phân bổ mẫu tỷ lệ thuận với quy mô thường được áp dụng khi quy mô của các tổ tương đối đồng đều, phương sai và chi phí cho các tổ không quá khác biệt nhau và khi không biết trước phương sai cũng như chi phí cho một đơn vị mẫu
Phân bổ mẫu tỷ lệ thuận với quy mô có một số ưu là quy trình phân
bổ mẫu đơn giản Mặt khác rất phù hợp với suy nghĩ thông thường của mọi người nên dễ được chấp nhận Quy trình ước lượng đơn giản Đối với các chỉ tiêu tương đối, không cần phải quyền số hoá khi ước lượng chúng
Trang 6Mẫu phân bổ tỷ lệ thuận với quy mô tổ thuộc loại "tự cân đối quyền số" Tuy nhiên, phương pháp phân bổ mẫu này có một số nhược điểm là trong trường hợp quy mô của các tổ chênh lệch nhau quá lớn, các tổ có quy mô nhỏ thường không đủ số lượng đơn vị mẫu để đại diện cho tổ mình, trong trường hợp quy mô của các tổ chênh lệch nhau quá lớn, việc tổ chức điều tra cũng như kinh phí cần thiết cho điều tra ở các tổ có quy mô lớn sẽ rất nặng nề, gây lãng phí không cần thiết
2.2.2 Phân bổ mẫu tỷ lệ nghịch với quy mô
Để khắc phục nhược điểm của phương pháp phân bổ mẫu tỷ lệ thuận với quy mô, người ta thường phân bổ theo cách tổ có qui mô càng bé thì tỷ
lệ chọn mẫu của nó càng lớn, còn tổ có qui mô lớn thì có tỷ lệ chọn mẫu nhỏ Bằng cách này thông tin không những đại diện được cho toàn bộ tổng thể mà còn có thể đại diện được cho từng tổ một
Phương pháp phân bổ mẫu tỷ lệ nghịch với quy mô có những ưu điểm là cho phép các tổ có quy mô nhỏ cũng có đủ số lượng đơn vị mẫu để
có thể có cơ may tiếp cận tốt hơn và gánh nặng điều tra và kinh phí không dồn vào một tổ Tuy nhiên, phương pháp phân bổ mẫu này cũng có những hạn chế là việc ước lượng các thông số cho tổng thể phức tạp
Nhóm các phương pháp phân bổ mẫu tỷ lệ nghịch với qui mô có một số đại diện là phương pháp phân bổ mẫu Maitra (tên một học giả), phương pháp phân bổ mẫu đều và phương pháp phân bổ mẫu tỷ lệ nghịch với qui mô dựa vào phân bổ mẫu tỷ lệ thuận với qui mô
a Phương pháp phân bổ mẫu Maitra
Trên cơ sở giả thiết là các kết quả ước lượng thu được ở các tổ có sai
số chọn mẫu như nhau, Maitra đã tính toán và đưa ra công thức xác định cỡ mẫu riêng cho từng tổ một như sau:
Tỷ lệ chọn mẫu của tổ thứ nhất (tổ nào là tổ thứ nhất là tuỳ thuộc vào sự sắp xếp của cán bộ thiết kế mẫu và cũng không ảnh hưởng gì tới kết quả chung) được xác định bằng công thức:
M
a f
f
M
i i
(
; ( 1 11 )
Trang 7Trong đó : f là tỷ lệ chọn mẫu chung,
i i N
f a f
i
i i
n , với i= 1, ,M ; (1.13) Phương pháp phân bổ mẫu nghịch đảo này có ưu điểm là cho phép
so sánh kết quả ước lượng của các tổ với nhau; Cách phân bổ này loại trừ được ảnh hưởng của quy mô tổ chỉ còn lại ảnh hưởng của phương sai nội
bộ tổ và các đơn vị có qui mô lớn không phải điều tra một khối lượng lớn đơn vị mà vẫn đảm bảo mức độ đại diện theo yêu cầu
b Phương pháp phân bổ mẫu đều
Ở phương pháp này, số các đơn vị mẫu được chia đều cho các tổ Công thức phân bổ có dạng:
Phương pháp phân bổ mẫu đều có những ưu và nhược điểm tương tự như phương pháp phân bổ mẫu Maitra
c Phân bổ mẫu tỷ lệ nghịch với qui mô dựa vào phân bổ mẫu tỷ lệ thuận với qui mô
Nhiều trường hợp sau khi phân bổ mẫu cho các tổ theo phương pháp phân bổ tỷ lệ thuận với qui mô xảy ra hiện tượng nhiều tổ cỡ mẫu "quá thừa số lượng đơn vị mẫu đại diện" trong khi đó nhiều tổ lại "chưa đủ số lượng mẫu đại diện" Trong trường hợp như vậy, cần hiệu chỉnh cỡ mẫu sao cho tiếp cận tổ không xảy ra hiện tượng "tốt lỏi" và không bị "lãng
Trang 8phí" Việc hiệu chỉnh cỡ mẫu này đã chuyển phương pháp phân bổ mẫu tỷ
lệ thuận với qui mô sang phương pháp phân bổ mẫu tỷ lệ nghịch với qui
mô
Lý thuyết cho thấy nếu cỡ mẫu của tổ i chuyển từ n i sang n ' i thì
phương sai của tổ này sẽ phải nhân với
i
i n
n
' Nếu quy mô mẫu chung không đổi mà việc phân bổ mẫu cho các tổ
được thực hiện theo phương pháp "cỡ mẫu tỷ lệ nghịch với quy mô" thì tỷ
lệ chọn mẫu không đồng đều sẽ làm tăng sai số chọn mẫu cho mẫu chung Trong trường hợp như vậy phương sai mẫu của mẫu chung cần phải được nhân với hệ số sau2
M
i
M
i i i
i
W n
n W
n L
) )(
(
2.2.3 Phân bổ Neyman
Để nâng cao hiệu quả của thiết kế mẫu, Neyman đã đưa ra và giải bài toán: với cỡ mẫu chung cho trước bằng n, cần phân bổ nó cho k tổ sao cho phương sai chung của mẫu nhỏ nhất Kết quả nghiên cứu của Neyman
đã đưa ra công thức phân bổ mẫu sau:
n S N
S N
i i i
i i i
tỷ lệ thuận với quy mô của các tổ Tổ nào có qui mô hoặc phương sai lớn
tổ đó sẽ có cỡ mẫu lớn Như vậy phân bổ Neyman vừa tính đến sự khác
Trang 9biệt về quy mô tổ vừa tính đến sự khác biệt về phương sai giữa các tổ Phương pháp phân bổ mẫu Neyman thường được áp dụng khi phương sai của các tổ cũng như quy mô của các tổ tương đối khác biệt nhau
Lý thuyết đã chứng minh được là hiệu quả thiết kế mẫu theo phân bổ Neyman cao hơn so với phân bổ tỷ lệ thuận với quy mô và càng cao hơn so với mẫu ngẫu nhiên đơn giản có cùng quy mô (SE phân bổ Neyman < SE phân bổ tỷ lệ thuận với quy mô < SE phân bổ ngẫu nhiên cho tổng thể) Ngoài các ưu điểm đã nêu trên, phân bổ Neyman còn một ưu điểm khác nữa là với cùng một yêu cầu về sai số và độ tin cậy, nó có cỡ mẫu nhỏ hơn các loại phân bổ khác và vì vậy tiết kiệm được kinh phí hơn
2.2.4 Phân bổ mẫu tối ưu
Khi tiến hành thiết kế mẫu, người thiết kế luôn hướng vào mục tiêu làm sao cho kết quả thu được từ mẫu đảm bảo mức độ chính xác mong muốn trong điều kiện sức người, sức của cho phép Với lý do đó, khi thiết
kế mẫu người ta cố gắng tìm cách phân bổ mẫu để đạt được cùng một lúc hai mục tiêu: sai số chọn mẫu nhỏ nhất trong điều kiện kinh phí cho phép Phân bổ mẫu đạt được điều kiện như vậy được gọi là phân bổ mẫu tối ưu (I.M Chakravati và cộng sự: Handbook of Methods of Applied Statistics; Volume II trang 40) Công thức phân bổ mẫu tối ưu như sau:
n c
S N c
S N
i i i
i i
Công thức trên cho thấy khi các tổ chi phí bình quân cho một đơn vị
c
S i
phân bổ mẫu tối ưu trở về dạng phân bổ mẫu tỷ lệ thuận với quy mô
Phương pháp phân bổ mẫu tối ưu thường được áp dụng khi phương sai của các tổ và chi phí cho một đơn vị điều tra ở các tổ có sự khác biệt nhau đáng kể Phân bổ mẫu tối ưu có một ưu điểm lớn là vừa đảm bảo yêu cầu của phân bổ Neyman, tức là có tính đến mức độ biến động khác nhau ở
Trang 10các tổ, vừa đảm bảo yêu cầu có sự khác nhau về mặt kinh phí của các tổ Tuy nhiên, cũng giống như phương pháp phân bổ mẫu Neyman, phương pháp phân bổ mẫu tối ưu cũng chỉ là tối ưu đối với mẫu chung, chứ chưa chắc đã tối ưu đối với từng tổ
2.3 Nguyên tắc phân bổ mẫu trong điều tra chọn mẫu phân tầng
Trong điều tra chọn mẫu phân tầng, việc phân bổ mẫu là việc phân chia số lượng đơn vị mẫu giữa các tầng Công thức xác định cỡ mẫu trong mẫu phân tầng (ở đây để dễ hiểu chỉ nghiên cứu mẫu hai tầng) có dạng:
n= m*n0, Trong đó n là cỡ mẫu chung, m là số lượng đơn vị mẫu cấp I, còn n0
là số lượng đơn vị mẫu cấp II bình quân
Tuy có thể có nhiều loại mẫu phân tầng (mẫu hai tầng, mẫu ba tầng,…), song chúng đều có nguyên tắc phân bổ chung, đó là dựa vào mật
độ của đối tượng điều tra trong đơn vị mẫu cấp trên Mật độ của đối tượng điều tra ở mẫu cấp trên thấp, số lượng đơn vị mẫu của nó phải nhiều và số lượng đơn vị mẫu cấp dưới sẽ giảm đi (vì cỡ mẫu chung n không đổi)
PHẦN HAI THỰC TẾ XÁC ĐỊNH CỠ MẪU VÀ PHÂN BỔ MẪU TRONG CÁC CUỘC ĐIỀU TRA CHỌN MẪU CỦA TỔNG CỤC THỐNG KÊ
I THỰC TẾ XÁC ĐỊNH CỠ MẪU
Các vụ thống kê nghiệp vụ của Tổng cục Thống kê từ nhiều năm nay
đã tiến hành điều tra chọn mẫu Nhiều cuộc điều tra do chính các vụ tự thiết kế và thực hiện Mặt khác, có nhiều cuộc điều tra việc thiết kế mẫu có
sự trợ giúp của các chuyên gia trong và ngoài nước Phần này được viết dựa trên các báo cáo do các vụ thống kê nghiệp vụ của Tổng cục Thống kê viết và các phương án điều tra đã được công bố
1.1 Trong điều tra chọn mẫu của Vụ Thống kê Dân số và Lao động
Vụ Thống kê Dân số và Lao động tiến hành các cuộc điều tra chọn mẫu như điều tra chọn mẫu lồng ghép trong tổng điều tra dân số 1989,
1999, điều tra chọn mẫu nhân khẩu học giữa kỳ, điều tra biến động dân số hàng năm, điều tra nhiều vòng
Trang 11Đối với cuộc điều tra chọn mẫu lồng trong tổng điều tra dân số 1999,
cỡ mẫu được ấn định là 3% số dân số của toàn quốc Tỷ lệ chọn mẫu của năm 1999 giảm đi là do sau khi nghiên cứu kết quả điều tra chọn mẫu lồng trong tổng điều tra dân số 1989, các chuyên gia thấy chỉ cần điều tra với tỷ
lệ mẫu như vậy là đủ Tương tự như điều tra chọn mẫu lồng trong tổng điều tra của năm 1989, tỷ lệ chọn mẫu của các tỉnh được xác định dựa vào số dân do hệ thống báo cáo dân số thường xuyên và tỷ lệ chọn mẫu chung của toàn quốc
1.2 Trong điều tra chọn mẫu của Vụ Thống kê Xã hội và Môi trường
Vụ Thống kê Xã hội và Môi trường từ lâu đã tiến hành điều tra chọn mẫu về hộ gia đình Bắt đầu từ năm 1994 cuộc điều tra này được tiến hành thường xuyên hơn Trong giai đoạn 1994-2000, nội dung điều tra gồm nhiều lĩnh vực khác nhau nên các cuộc điều tra về hộ gia đình trên có tên gọi là điều tra đa mục tiêu Phương pháp điều tra là phương pháp chọn mẫu Cỡ mẫu được ấn định cho cả nước là 45.000 hộ Từ năm 2002, cơ quan có chủ trương cứ hai năm tiến hành điều tra một lần và nội dung chủ yếu tập trung vào mức sống của dân cư nên cuộc điều tra này được gọi là
"Khảo sát mức sống hộ gia đình" Việc xác định cỡ mẫu của Vụ Thống kê
Xã hội và Môi trường trước đây hoặc dựa vào kinh nghiệm của các chuyên gia nước ngoài, hoặc dựa vào kinh nghiệm của mình
1.3 Trong điều tra chọn mẫu của Vụ Thống kê Nông, Lâm nghiệp và Thủy sản
Vụ Thống kê Nông, Lâm nghiệp và Thủy sản điều tra thu thập thông tin về năng suất, sản lượng cây trồng, số lượng đầu gia súc và năng suất, sản lượng thủy hải sản Phương pháp điều tra chọn mẫu cũng được áp dụng
trong lĩnh vực này Trong cuộc điều tra thực thu của các hộ gia đình
phương pháp điều tra chọn mẫu phân tổ kết hợp với phân tầng đã được áp dụng Số các đơn vị điều tra được ấn định là mỗi huyện chọn khoảng 1/3 số xã; mỗi xã được chọn chọn lấy 3 thôn và mỗi thôn được chọn lại chọn lấy một số hộ Tổng số hộ được chọn để điều tra cho một huyện dao động từ
100-300 hộ Trong cuộc điều tra năng suất, sản lượng lúa giai đoạn
1996-1997 việc xác định số đơn vị để điều tra cũng dựa vào việc xác định tỷ lệ