1.1.1 Khái niệm điều tra chọn mẫu Điều tra chọn mẫu là một loại điều tra không toàn bộ, trong đó người ta chỉ chọn ra một số đơn vị từ tổng thể để điều tra thực tế, rồi sau đó bằng cá
Trang 1CHƯƠNG I
MỘT SỐ VẤN ĐỀ LÝ LUẬN VỀ ĐIỀU TRA CHỌN MẪU 1.1 MỘT SỐ KHÁI NIỆM VÀ ĐỊNH NGHĨA DÙNG TRONG ĐIỀU TRA CHỌN MẪU
Để thu thập tài liệu ban đầu, hiện nay ngành thống kê thực hiện hai hình thức: Báo cáo thống kê định kỳ và điều tra chuyên môn Chế độ báo cáo thống kê định kỳ áp dụng chủ yếu đối với các đơn vị kinh tế nhà nước, các cơ quan nhà nước Điều tra chuyên môn được áp dụng để thu thập thông tin đối với những trường hợp không thể hoặc không nhất thiết phải thực hiện chế độ báo cáo thống kê định kỳ Điều tra chuyên môn có thể tiến hành trên tất cả các đơn
vị của tổng thể nghiên cứu, gọi là điều tra toàn bộ hoặc chỉ tiến hành trên một số đơn vị thuộc tổng thể nghiên cứu gọi là điều tra không toàn bộ Điều tra không toàn bộ bao gồm các loại: điều tra chọn mẫu, điều tra trọng điểm, điều tra chuyên đề
1.1.1 Khái niệm điều tra chọn mẫu
Điều tra chọn mẫu là một loại điều tra không toàn bộ, trong đó người ta chỉ
chọn ra một số đơn vị từ tổng thể để điều tra thực tế, rồi sau đó bằng các phương pháp khoa học, tính toán và suy rộng kết quả cho toàn bộ tổng thể
Như vậy trong điều tra chọn mẫu người ta đặc biệt lưu ý tới hai vấn đề cơ bản:
- Quy tắc lựa chọn các đơn vị sao cho có thể đại diện cho toàn bộ tổng thể
Trang 2- Dùng công thức suy rộng thành các đặc điểm của tổng thể
Cơ sở khoa học của phương pháp chọn mẫu là lý thuyết xác suất và thống kê
toán Lý thuyết xác suất và thống kê toán đã chứng minh là bằng phương pháp
điều tra chọn mẫu ta có thể biết được các tham số của tổng thể theo một đặc
trưng nào đó với một mức độ chính xác, mức độ tin cậy tính toán được Như vậy dựa trên cơ sở khoa học này ta thấy phương pháp điều tra chọn mẫu
hoàn toàn có thể thay thế được điều tra toàn bộ trong một số trường hợp
1.1.2 Ưu điểm và nhược điểm của điều tra chọn mẫu so với điều tra toàn bộ
Trong điều tra chọn mẫu, người ta chỉ thực hiện điều tra trên một bộ phận
của tổng thể Do đó so với điều tra toàn bộ, điều tra chọn mẫu có các ưu điểm
chủ yếu sau:
- Chi phí điều tra giảm Do số đơn vị phải điều tra ít, điều tra chọn mẫu tiết kiệm
được khá nhiều sức người, vật tư và tiền của
- Đảm bảo được tính đầy đủ và chính xác hơn của tài liệu thu thập Tài liệu thu
thập bằng điều tra chọn mẫu có tính đầy đủ và chính xác cao bởi vì số nhân viên
điều tra ít, có thể lựa chọn những người có trách nhiệm, có kinh nghiệm điều tra
và huấn luyện nghiệp vụ kỹ lưỡng cho họ Đồng thời việc giám sát điều tra,
kiểm tra số liệu vừa thu thập được có thể thực hiện tỷ mỷ và tập trung, khiến
cho nguồn sai số do đăng ký, ghi chép giảm nhiều, tức là làm giảm sai số phi
chọn mẫu
- Có thể mở rộng nội dung điều tra Do số lượng đơn vị điều tra ít, các nhân viên
điều tra đuợc chọn lựa và huấn luyện nghiệp vụ kỹ lưỡng nên có thể thu thập
được nhiều thông tin chi tiết hơn so với điều tra toàn bộ
- Tiến độ công việc nhanh hơn Chính vì chỉ điều tra trên quy mô nhỏ nên trong
điều tra chọn mẫu, số liệu có thể thu thập và tổng hợp nhanh hơn so với điều tra
Trang 3toàn bộ Đây cũng là một ưu điểm quan trọng cùa điều tra chọn mẫu, đáp ứng được tính kịp thời của thông tin cần thu thập
Trong một nền kinh tế hoạt động theo cơ chế thị trường thì điều tra chọn mẫu là công cụ cơ bản trong việc thu thập số liệu gốc Tuy nhiên điều tra chọn mẫu không hoàn toàn có thể thay thế được điều tra toàn bộ vì những lý do sau:
- Trong điều tra toàn bộ, người ta thu thập thông tin trên từng đơn vị tổng thể, do đó có thể nghiên cứu tổng thể và các bộ phận của nó theo tất cả các đặc trưng cần nghiên cứu Chính vì vậy đối với những nguồn thông tin thống kê quan trọng người ta vẫn phải tiến hành tổng điều tra
- Do chỉ tiến hành trên một số đơn vị điều tra rồi dùng kết quả để suy rộng cho toàn bộ tổng thể nên kết quả điều tra chọn mẫu bao giờ cũng có sai số đại diện nhất định, còn gọi là sai số chọn mẫu, mà loại sai số này không có trong điều tra toàn bộ
Tuy điều tra chọn mẫu có nhược điểm là các tham số ước lượng cho tổng thể luôn có sai số, nhưng sai số này có thể tính toán được và khống chế với mức độ tin cậy cho phép
Điều tra chọn mẫu thường được dùng trong những trường hợp sau đây:
- Khi nội dung nghiên cứu vừa có thể điều tra chọn mẫu, vừa có thể điều tra toàn bộ thì người ta thường quyết định dùng điều tra chọn mẫu vì những ưu điểm của nó
- Một số trường hợp không thể dùng điều tra toàn bộ mà chỉ có thể áp dụng điều tra chọn mẫu: Khi tổng thể quá lớn hoặc không xác định trước được; khi điều tra làm phá hủy hoặc biến dạng đơn vị được điều tra (Điều tra chất lượng đồ hộp, chất lượng thuốc, chất lượng bóng đèn, phích nước v.v… )
- Trong một số cuộc tổng điều tra (chẳng hạn như tổng điều tra dân số, tổng điều tra nông nghiệp ) người ta kết hợp điều tra chọn mẫu nhằm mục đích: Mở
Trang 4rộng nội dung điều tra; để kiểm tra, đánh giá chất lượng của số liệu điều tra toàn bộ; xử lý nhanh một số số liệu cần thiết
- Khi tổng thể nghiên cứu được điều tra toàn bộ định kỳ, nhưng khoảng cách thời gian giữa hai cuộc điều tra là quá lớn (chẳng hạn 10 năm đối với điều tra dân số, 5 năm đối với điều tra nông thôn, nông nghiệp và thủy sản) thì đan xen với điều tra toàn bộ, người ta thường tiến hành điều tra chọn mẫu để kịp thời nắm bắt sự vận động, biến đổi của tổng thể
Để bảo đảm tiến hành cuộc điều tra chọn mẫu thành công, trước hết phải làm tốt công tác chuẩn bị Yêu cầu của khâu này là phải có những thông tin tiên nghiệm về tổng thể để làm căn cứ xây dựng lược đồ chọn mẫu như xác định cỡ mẫu, lựa chọn phương pháp tổ chức chọn mẫu, lập dàn chọn mẫu… Do vậy điều tra chọn mẫu phải được kết hợp với điều tra toàn bộ Trong thực tế nguồn số liệu do các cuộc tổng điều tra (điều tra toàn bộ) mang lại là hết sức quí, ví dụ trong chăn nuôi có các số liệu về số hộ chăn nuôi từng loại gia súc, gia cầm
Phương pháp chọn mẫu có thể ứng dụng rộng rãi trong các lĩnh vực nghiên cứu kinh tế xã hội Trên giác độ quản lý kinh tế vĩ mô, phương pháp chọn mẫu được áp dụng cho việc thu thập thông tin trên các lĩnh vực sau:
- Tình hình thu nhập và chi tiêu của các hộ gia đình, mức sống của các tầng lớp dân cư
- Nhu cầu tiêu dùng các loại hàng hóa
- Giá cả thị trường
- Tình hình biến động tự nhiên và cơ học của dân số
- Điều tra dư luận xã hội
- …
Đối với quản lý cấp vi mô, phương pháp chọn mẫu có thể được ứng dụng cụ thể trong từng ngành như:
Trang 5- Công nghiệp: Kiểm tra chất lượng sản phẩm, năng suất lao động
- Xây dụng cơ bản: Kiểm tra tiến độ xây dựng công trình, kiểm tra chất lượng xây dựng
- Nông nghiệp: Xác định năng suất sản lượng cây trồng, tình hình thâm canh, xác định năng suất sản lượng chăn nuôi
- Thương nghiệp: Kiểm tra chất lượng hàng hóa ở các kho hàng, cửa hàng
Nhìn chung, phương pháp chọn mẫu có thể ứng dụng trên phạm vi rộng và đảm bảo cung cấp được những thông tin chính xác, đầy đủ, kịp thời với chi phí thấp theo đúng như yêu cầu đặt ra
1.1.3 Các tham số của tổng thể và mẫu, mối liên hệ giữa tổng thể và mẫu
1.1.3.1 Các tham số của tổng thể
Để có kết luận thống kê về tổng thể, ta không trực tiếp nghiên cứu tổng thể mà nghiên cứu mẫu, bao gồm những đơn vị tổng thể được chọn ra từ tổng thể theo nguyên tắc chọn ngẫu nhiên Như vậy phải căn cứ vào các tham số tính được từ số liệu điều tra mẫu để suy ra các tham số của tổng thể với sai số và độ tin cậy nhất định
Tổng thể bao gồm N đơn vị, được tập hợp lại theo một tiêu thức Y nào đó, đứng trên giác độ tiêu thức Y mà xét, các đơn vị của tổng thể là đồng chất, nhưng về mặt lượng thì mỗi đơn vị tổng thể có những giá trị khác nhau
Nếu gọi yi(i=1,N) là trị số cụ thể của đơn vị tổng thể và giả định rằng nếu điều tra toàn bộ N đơn vị của tổng thể thì cuối cùng sẽ biết được tất cả các trị số cụ thể đó, và từ đó tính ra được các tham số mô tả tổng thể Trong số các tham số đó, ở đây chỉ chú ý tới một số tham số chủ yếu sau:
- Số trung bình tổng thể (The population mean), ký hiệu μ, biểu hiện mức độ điển hình theo tiêu thức Y của tổng thể, được tính theo công thức:
Trang 6μ =y y y
N
1+ + +2 N
=N
y
N 1
2 i
2
N1
- Tỷ lệ tổng thể, ký hiệu p, giả sử trong N đơn vị tổng thể có thể thống kê được
M đơn vị có mang dấu hiệu cần nghiên cứu (đương nhiên M < N) khi đó tỷ lệ tổng thể được tính theo công thức:
p = M
NĐương nhiên điều giả định như trên là không thể có, do ta không điều tra toàn bộ N đơn vị tổng thể Các tham số nói trên là chưa biết, nhưng chắc chắn chúng tồn tại khách quan và ta phải xác định chúng bằng phương pháp chọn mẫu, tức là xác định thông qua các tham số của mẫu
Tất cả các tham số của tổng thể có thể được trừu tượng hóa dưới một tên gọi chung là tham số θ
1.1.3.2 Các tham số của mẫu
Mẫu bao gồm n đơn vị tổng thể được tập hợp lại theo cùng tiêu thức Y với tổng thể Các đơn vị mẫu được chọn ra từ tổng thể theo nguyên tắc chọn ngẫu nhiên, theo một phương pháp tổ chức chọn mẫu nào đó
Vì chọn ra các đơn vị mẫu một cách ngẫu nhiên nên bản thân mẫu cũng mang tính chất ngẫu nhiên, và do đó các tham số tính được từ số liệu của mẫu cũng mang tính chất ngẫu nhiên, do đó có thể áp dụng các công thức suy rộng để tính các tham số của tổng thể được
Khi chọn một mẫu gồm n đơn vị từ tổng thể có N đơn vị bằng phương
Trang 7pháp chọn không lặp ta có thể lấy ra được CNn mẫu có kết cấu khác nhau CNn là tổ hợp chập n của N phần tử và
- Số trung bình mẫu (The sample mean), ký hiệu y biểu hiện mức độ điển hình theo tiêu thức Y của mẫu , được tính theo công thức trung bình cộng giản đơn:
y = y y y
n
yn
2 i
2
n
1sˆ
- Tỷ lệ mẫu, ký hiệu pˆ, giả sử sau khi điều tra trên n đơn vị mẫu, thống kê được
m đơn vị mang dấu hiệu cần nghiên cứu, khi đó tỷ lệ mẫu sẽ là:
n
m
pˆ= Tất cả các tham số của mẫu có thể được trừu tượng hóa dưới một tên chung là tham số θ' Như vậy tham số θ' là một tham số nào đó của mẫu, là một đại lượng ngẫu nhiên mà một trong các giá trị có thể có của nó chính là trị số cụ thể tính ra được từ một mẫu cụ thể mà ta vừa chọn ra
Trang 81.1.3.3 Mối liên hệ giữa tổng thể và mẫu
Tổng thể là một tồn tại khách quan, các tham số của chúng (như trung bình, tỉ lệ, phuơng sai) cũng tồn tại khách quan
Từ tổng thể, nếu theo cách chọn có trả lại, hoặc theo cách chọn không trả lại, có thể xây dựng được nhiều mẫu khác nhau Từ tổng thể, về mặt lý thuyết, nếu lấy theo cách chọn có trả lại, có thể chọn ra Nn mẫu khác nhau, và nếu lấy theo cách chọn không trả lại, thì có thể chọn ra CNn mẫu khác nhau Mỗi mẫu ấy đều được chọn một cách ngẫu nhiên, nên các tham số của nó (như trung bình, tỷ lệ, phương sai) là những đại lượng ngẫu nhiên tuân theo những quy luật phân phối nhất định
Từ nhận xét trên, có thể tìm được kỳ vọng toán và phương sai của các tham số của mẫu, từ đó rút ra nhận xét về mối liên hệ cụ thể giữa các tham số của mẫu và các tham số của tổng thể Ở đây, chúng ta chỉ chú ý đến kỳ vọng toán và phương sai của một số tham số mẫu như sau:
a) Kỳ vọng toán của trung bình mẫu ngẫu nhiên, trong trường hợp chọn có trả lại
và không trả lại đều là: E(Y)=μ
Phương sai của trung bình mẫu ngẫu nhiên trong trường hợp chọn có trả lại:
n)Y(Var
2 Y
σ
=Và trong trường hợp chọn không trả lại:
=
N
n 1 n 1 N
n N n ) Y ( Var
2 Y
2 Y
b) Kỳ vọng toán của tỷ lệ mẫu ngẫu nhiên trong trường hợp chọn có trả lại và
không trả lại đều là: E(Pˆ)=p
Trang 9Phương sai của tỷ lệ mẫu ngẫu nhiên trong trường hợp chọn có trả lại:
n
pq ) Pˆ ( Var = (với q =1-p) Và trong trường hợp chọn không trả lại:
pq1N
nNn
pq)Pˆ(Var
c) Kỳ vọng toán của phương sai mẫu ngẫu nhiên trong trường hợp chọn có trả
lại:
Y
2 y
n
1n)Sˆ(
1N
Nn
1n)Sˆ(
N là khá nhỏ và sự sai khác giữa N và N-1 là không đáng kể, khi đó các công thức dùng trong trường hợp chọn không trả lại sẽ xấp xỉ công thức dùng trong trường hợp chọn có trả lại Do đó trong thực tế, khi số đơn vị tổng thể khá lớn, số đơn vị mẫu là khá nhỏ so với số đơn vị tổng thể, thì dù lấy mẫu theo cách chọn không trả lại, ta vẫn có thể sử dụng các công thức của cách chọn có trả lại để dễ dàng tính toán mà vẫn bảo đảm chính xác
Một vấn đề rất quan trọng khác là: giữa quy luật phân phối của các tham số của tổng thể với quy luật phân phối của các tham số của mẫu có mối liên hệ với nhau Để có thể tìm được các tham số của tổng thể bằng cách suy đoán từ các tham số của mẫu, cằn phải nắm được những mối liên hệ đó, nắm được quy luật phân phối của các tham số của mẫu
Nhìn chung trong việc ứng dụng phương pháp chọn mẫu trong kinh tế, ta thường quan tâm nhiều nhất đến hai tham số là trung bình và tỷ lệ Vì vậy ở đây cũng
Trang 10chỉ chú ý đến việc nắm quy luật phân phối của trung bình mẫu và tỷ lệ mẫu
Mặt khác, tìm quy luật phân phối của mẫu là một vấn đề rất phức tạp, vì vậy ta
đặc biệt chú ý đến giả thuyết là tổng thể được phân phối theo quy luật chuẩn, vì
đó là trường hợp đơn giản nhất và những quy luật mẫu xuất phát từ giả thuyết đó
đều là những quy luật thông dụng Nhờ thống kê toán, ta có các kết luận sau:
- Phân phối của tỷ lệ mẫu Pˆ
Với n khá lớn có thể xem Pˆ có phân phối chuẩn với kỳ vọng p và phương sai
n
pq Tức Pˆ∼ N(p,
n
pq)
- Phân phối của trung bình mẫu Y
Chia ra 4 trường hợp:
* n ≥ 30, σY2 đã biết, khi đó có thể xem: Y ∼ N(
n,
2 Y
s ,
2 Y
σ
= Vì σY2 là phương sai tổng thể chưa biết, nhưng n ≥ 30 là khá lớn nên phương sai mẫu 2
y
sˆ và phương sai mẫu có hiệu chỉnh s2 đều xấp xỉ
σY2 , ta thay σY2 bằng s2 Và ta có s2 là ước lượng không chệch của σY2
Phương sai mẫu hiệu chỉnh được tính: s2= 1 ( )
1
2 1
Trang 11sẵn, cứ cho trước 1-α và biết n ta tính được tn−1,α/2
Khi n N các đặc trưng mẫu sẽ tiến tới các đặc trưng tương ứng của tổng thể,
vì vậy trong thực tế, với một mẫu cụ thể có n khá lớn, ta có:
1.1.4 Sai số trong điều tra chọn mẫu
Trong các cuộc điều tra chọn mẫu, sai số bao gồm:
- Sai số chọn mẫu
- Sai số phi chọn mẫu (sai số ngoài chọn mẫu)
Sai số chọn mẫu còn được gọi là sai số đại diện, tồn tại ngay trong bản thân cuộc điều tra chọn mẫu, bởi vì việc điều tra chỉ được thực hiện trên một số ít đơn
vị, nhưng kết quả thu được lại được tính toán suy rộng cho toàn bộ tổng thể Sai số chọn mẫu là điều khó tránh khỏi vì dù cho có tổ chức khoa học chu đáo đến đâu, thì việc lấy ra một mẫu có kết cấu giống như kết cấu của tổng thể là điều khó thực hiện, mà chỉ cần có sự sai khác nhỏ về kết cấu của hai tổng thể là đã phát sinh sai số rồi
Như vậy sai số chọn mẫu là chênh lệch về trị số giữa các chỉ tiêu tính ra được trong điều tra chọn mẫu và các chỉ tiêu tương ứng của tổng thể, tức là chênh lệch giữa các số y và μ, pˆ và p, 2
y
s và σ2 Rõ ràng là mẫu càng lớn, sai số trung bình chọn mẫu càng nhỏ Thước đo chung nhất của sai số chọn mẫu là căn bậc hai giá trị trung bình của bình phương các sai số chọn mẫu, giá trị này được coi là sai số chuẩn, ký hiệu SE (Standard error of sample mean) của ước lượng
Trang 12Theo cách chúng ta định nghĩa sai số chuẩn SE như trên, thì chúng ta phải có giá trị ước lượng của tất cả các mẫu có thể có, nghĩa là, giả sử từ tổng thể ta thiết lập tất cả mẫu có thể thiết lập được, giả sử ta lấy ra K mẫu, mỗi mẫu ta tính được các tham số của nó:
K
K
2 1
Điều này không thể thực hiện được trong thực tế Thật may mắn là nếu chấp nhận một phương pháp chọn mẫu phù hợp ta có thể tính ước lượng của SE chỉ cần từ một mẫu được rút ra để nghiên cứu
Loại sai số thứ hai xuất hiện cả trong điều tra chọn mẫu lẫn trong điều tra toàn bộ, được gọi là sai số phi chọn mẫu Việc lập danh sách tất cả các nguồn sai số phi chọn mẫu là rất khó Những sai số này xảy ra do nhiều nguyên nhân: Do đơn
vị điều tra trả lời sai vì không hiểu đúng nội dung, hoặc do cố ý khai sai Do nhân viên điều tra vô tình ghi chép sai Do tỷ lệ không trả lời quá cao Do dụng cụ đo lường sai… Rõ ràng rằng, với một đội ngũ nhân viên được huấn luyện tốt
ở cả hai lĩnh vực thu thập và xử lý số liệu, nên các sai số phi chọn mẫu ở các cuộc điều tra chọn mẫu có thể ít nghiêm trọng hơn so với các cuộc điều tra toàn bộ
Giữa sai số chọn mẫu và sai số phi chọn mẫu có mối quan hệ sau: sai số chọn mẫu sẽ giảm khi cỡ mẫu tăng lên Và như vậy, khối lượng công việc điều tra tăng lên và sai số phi chọn mẫu sẽ tăng lên
Trang 13Sai số chọn mẫu còn có thể chia thành sai số ngẫu nhiên và sai số hệ thống
- Sai số ngẫu nhiên: xuất hiện do mẫu được xây dựng theo nguyên tắc ngẫu nhiên Sai số này được tính theo công thức tương ứng với thiết kế mẫu Sai số này không phụ thuộc vào ý định của người điều tra cho nên chênh lệch giữa các chỉ tiêu của mẫu và của tổng thể không bao giờ xác định được trước là sẽ nhiều hơn hoặc ít hơn
- Sai số có hệ thống: Xuất hiện khi mẫu được thiết kế có chủ đích, hoặc mẫu được thiết kế theo nguyên tắc ngẫu nhiên nhưng không bao quát được toàn bộ tổng thể Loại sai số này chính là do có dụng ý trước của người điều tra làm cho kết quả điều tra luôn luôn lệch về một hướng hoặc nhiều hơn, hoặc ít hơn so với thực tế
Nguyên nhân sâu xa của sai số có hệ thống thường liên quan đến khâu lập dàn mẫu và việc chọn mẫu Chẳng hạn dùng mẫu cố định nhiều năm đối với tổng thể có biến động lớn về các đơn vị, hoặc điều tra viên vì ngại đi lại từ vị trí quan sát này sang vị trí quan sát khác, tự ý thay đổi vị trí quan sát
Nói chung khái niệm sai số chọn mẫu thường được hiểu là sai số ngẫu nhiên Như vậy đối với mỗi mẫu được chọn ra một cách ngẫu nhiên từ tổng thể sẽ có một trị số cụ thể của sai số, nếu giả định rằng không có sai số nói chung và không có sai số hệ thống, sai số ngẫu nhiên là một đại lượng ngẫu nhiên và thông thường người ta coi nó được phân phối theo quy luật phân phối chuẩn
- Khi nhiệm vụ chọn mẫu là để ước lượng số trung bình về một tiêu thức nào đó, giả sử với cách chọn lặp và theo phương pháp chọn mẫu ngẫu nhiên đơn giản, tức là khi mẫu được chọn ngẫu nhiên, giá trị trung bình sẽ khác nhau từ mẫu này sang mẫu khác Độ lệch tiêu chuẩn của các giá trị trung bình mẫu dùng để đo lường độ biến thiên giữa các giá trị trung bình mẫu với giá trị trung bình
Trang 14của tổng thể gọi là sai số trung bình chọn mẫu (sai số chọn mẫu) ký hiệu σy
được xác định theo công thức:
nn
2 y
- Khi nhiệm vụ chọn mẫu là để ước lượng tỷ lệ theo một tiêu thức nào đó, sai số
trung bình chọn mẫu sẽ là:
n
) p - 1 ( p
pˆ =
σ
(Nếu p chưa biết ta thay bằng pˆ)
Trong trường hợp chọn không hoàn lại sai số trung bình chọn mẫu sẽ nhân cho hệ số điều chỉnh tổng thể hữu hạn fpc (finite population correction factor)
fpc =
N
n - 1
Gọi ε là phạm vi sai số chọn mẫu
- Khi nhiệm vụ chọn mẫu là để ước lượng số trung bình về một tiêu thức nào đó thì:
nz
z /2 y /2
y
σ
=σ
- n : cỡ mẫu, cỡ mẫu càng lớn thì sai số chọn mẫu càng nhỏ, và ngược lại
- σ2: tính chất đồng đều của tổng thể, tổng thể càng có kết cấu phức tạp, các lượng biến của tiêu thức biến thiên càng nhiều, thì phương sai càng lớn và do đó sai số chọn mẫu càng lớn và ngược lại
Trang 15- Phương pháp tổ chức chọn mẫu khác nhau: mỗi phương pháp tổ chức chọn mẫu khác nhau sẽ có công thức tính sai số chọn mẫu khác nhau (cụ thể sẽ trình bày trong phần các phương pháp chọn mẫu)
Thông thường phương pháp tổ chức chọn mẫu nào càng thuận tiện cho việc lập dàn chọn mẫu và tổ chức điều tra bao nhiêu thì sai số chọn mẫu càng lớn
Rõ ràng hầu như mọi sự phức tạp của các công thức chọn mẫu đều tập trung ở việc tính sai số chọn mẫu Nếu tính được sai số chọn mẫu rồi thì việc tính toán các chỉ tiêu khác trở nên đơn giản hơn
* Ý nghĩa của việc tính toán sai số chọn mẫu:
- Sai số chọn mẫu dùng để ước lượng khoảng chỉ tiêu nghiên cứu
- Sai số chọn mẫu còn dùng để đánh giá tính đại diện của chỉ tiêu nghiên cứu
qua tính toán tỷ lệ sai số chọn mẫu H : x 100
- Là cơ sở xác định cỡ mẫu cho các cuộc điều tra được tiến hành về sau
1.1.5 CÁC PHƯƠNG PHÁP ƯỚC LƯỢÏNG
Khi nghiên cứu điều tra chọn mẫu, cái chính không phải nhằm nghiên cứu mẫu đại diện được chọn ra từ tổng thể, mà chính là qua mẫu đó để nghiên cứu được tính quy luật và trạng thái của tổng thể chứa nó Nghĩa là dựa vào sự hiểu biết về tham số θ' của mẫu đã tính ra được, để suy luận về tham số θ của tổng thể Việc làm như vậy gọi chung là ước lượng
Các phương pháp ước lượng có thể chia ra:
- Ước lượng trực tiếp
- Ước lượng gián tiếp
Trang 161.1.5.1 Ước lượng trực tiếp
Được gọi là ước lượng trực tiếp khi dùng các tham số mẫu theo một đặc trưng để ước lượng cho các tham số của tổng thể cũng theo đặc trưng đó Như dùng số trung bình mẫu y để ước lượng cho số trung bình tổng thể μ, hay tỷ lệ mẫu pˆ để ước lượng cho tỷ lệ tổng thể p
1 1.5.1.1 Ước lượng điểm
Theo phương pháp ước lượng này, thống kê toán đã chứng minh được rằng:
- Để ước lượng số trung bình chung μ ta dùng số trung bình mẫu y làm ước lượng, vì y là ước lượng không chệch của μ (E(Y)=μ)
- Để ước lượng tỷ lệ chung p, ta dùng tỷ lệ mẫu pˆ làm ước lượng vì pˆ là ước lượng không chệch của p (E(Pˆ)=p)
- Để ước lượng phương sai tổng thể σY2 ta không dùng phương sai mẫu 2
y
sˆ mà dùng phương sai mẫu hiệu chỉnh sy2 làm ước lượng, nhằm bảo đảm sy2 là ước lượng không chệch của σY2
Tức là: 2
Y
2
y ) S (
Gọi sy2 = n
n− 1
2 y
sˆ
Do đó : E(sy2) = E( n
n− 1
2 y
sˆ ) = σY2
Chứng tỏ sy2 là ước lượng không chệch của σY2
Tóm lại khi cần tìm các tham số của tổng thể mà không muốn hay không thể dùng phương pháp điều tra toàn bộ, thì có thể từ tổng thể đó lấy ra một mẫu theo nguyên tắc chọn ngẫu nhiên, sau đó căn cứ vào số liệu điều tra trên mẫu
Trang 17ñeơ tính ra tham soâ maêu roăi duøng caùc tham soâ maêu naøy ñeơ öôùc löôïng caùc tham soâ cụa toơng theơ
μ chöa bieât, laây y; p chöa bieât, laây pˆ; σY2 chöa bieât, laây sy2
Ñoù laø caùch laøm ñôn giạn nhaât, coù teđn laø öôùc löôïng ñieơm
1.1.5.1.2 Öôùc löôïng khoạng
Öôùc löôïng ñieơm khođng thaôt chính xaùc, noùi ñuùng hôn laø khođng theơ ñaùnh giaù ñöôïc möùc ñoô chính xaùc cụa vieôc öôùc löôïng caùc tham soâ cụa toơng theơ, bôûi vì bạn thađn vieôc ruùt ra moôt maêu cú theơ laøm ñái dieôn cho toơng theơ ñaõ chöùa ñöïng söï sai khaùc duø laø raât nhoû giöõa keât caâu cụa maêu so vôùi keẫt caâu cụa toơng theơ Do ñoù, chaĩc chaĩn xuaât hieôn moôt sai soâ naøo ñoù maø chöa ñaùnh giaù ñöôïc Vì vaôy raât caăn thieât phại chuyeơn töø öôùc löôïng ñieơm sang öôùc löôïng khoạng nhaỉm nađng cao ñoô tin caôy cụa caùc keât luaôn thoâng keđ
* Öôùc löôïng trung bình cụa toơng theơ:
P[Y−μ ≤zα/2σy]=1−α
Hay
nzyn
z
2 /
Y 2 /
σ+
≤μ
ε α : phám vi sai soâ chón maêu
1-α : ñoô tin caôy cụa öôùc löôïng
Trong tröôøng hôïp öôùc löôïng trung bình cụa toơng theơ, ta coù 4 tröôøng hôïp sau:
a) n ≥ 30 , σY2 ñaõ bieât Khi ñoù Y ∼ N(
n,
2 Y
nzY
2 /
Trang 182 /
Y 2 /
b) n ≥ 30, σY2 chưa biết, khi đó ta thay σY2 bằng sy2
≤
n
S z Y n
S z Y
P /2 y /2 y
c) n < 30, Y phân phối chuẩn, σY2 đã biết, kết quả giống như phần a
d) n < 30, Y phân phối chuẩn, σY2 chưa biết, ta tra vào bảng phân phối student với n-1 bậc tự do:
− − α 1
n
S t
≤
− − α − α 1
n
S t
Y n
S t
Y
P n 1, /2 y n 1, /2 y
* Ước lượng tỷ lệ tổng thể:
Để ước lượng tỷ lệ p của tổng thể ta dùng tỷ lệ mẫu pˆ Ta biết với n khá lớn Pˆ∼ N(p,
pPˆ
Pˆ 1 Pˆ z Pˆ
P /2 /2
1.1.5.2 Ước lượng gián tiếp:
Trang 19Sai số chọn mẫu của các ước lượng có thể giảm xuống nhờ việc sử dụng thêm những thông tin bổ sung có liên quan đến đặc trưng nghiên cứu, như khi ước lượng tham số của tổng thể theo đặc trưng Y có thể dùng thêm thông tin về đặc trưng X có liên quan với Y Phương pháp ước lượng như thế gọi là ước lượng gián tiếp
Các phương pháp ước lượng gián tiếp gồm có: ước lượng tỷ lệ, ước lượng hồi quy và ước lượng sai phân Trong đó phương pháp ước lượng tỷ lệ thường được sử dụng hơn cả
Phương pháp ước lượng tỷ lệ sử dụng đặc trưng X bổ sung, nhằm mục đích dựa vào các đặc điểm thuận lợi của mối liên hệ giữa X và Y để làm tăng độ chính xác của ước lượng
Ước lượng tỷ lệ dựa trên cơ sở thừa nhận tỷ lệ R Y
y
n 1 i i
n 1 i
y x, : là số trung bình của mẫu
Tỷ lệ R của tổng thể được ước lượng bởi tỷ lệ r của mẫu
Với số tổng X (hoặc số trung bình μx) của tổng thể đã biết ước lượng tỷ lệ của
số tổng Y, số tổng của tổng thể là: X
x
yXx
y
Yˆ n
1 i i
n 1 i
Trang 20Ước lượng tỷ lệ của μy, số trung bình tổng thể là: n x
1
n 1
* Ước lượng tỷ lệ, sai số chọn mẫu của ước lượng:
Xét trường hợp chọn mẫu ngẫu nhiên đơn thuần, chọn không lặp, xác suất chọn các đơn vị bằng nhau
x
y N
1 i i
N 1 i i
x
yR
yx
w
i i n
i i
w
i i i n
i i
i i
n
= ∑
r có khả năng bị chệch nghiêm trọng nếu ri có khuynh hướng lớn hay nhỏ trong
Trang 21trường hợp quyền số xi lớn
Số trung bình của tổng thể μy được ước lượng bởi: yr = r w μx (1.3) Số tổng của Y được ước lượng bởi: Nyr = r X w (1.4)
(1.4) còn có thể viết thành: N yr = r w N μx
Phương sai của số trung bình mẫu của ước lượng trực tiếp số trung bình tổng thể trong trường hợp chọn mẫu ngẫu nhiên đơn thuần là:
σy S Y
n
n N
với giá trị r whay nói cách khác giữa yi với x ri w, nên SY2 ở hai công thức (1.5) được thay thế bởi SYX2
( )
S
y Rx N
YX
i
N 2
n N
r
w μ
σ
=σPhương sai hiệu chỉnh của tổng thể SYX2 trong các công thức trên ta không biết nên được ước lượng bởi phương sai hiệu chỉnh của mẫu:
Trang 22y yx
r = 1 − (1.8)
s N s
n
n N
N yr
yx
= 1 −
* Hiệu quả của ước lượng tỷ lệ:
Mục tiêu của việc áp dụng phương pháp ước lượng tỷ lệ là làm giảm sai số chọn mẫu của ước lượng, để làm rõ điều này ta sẽ so sánh sai số chọn mẫu trong trường hợp ước lượng trực tiếp thông thường và ước lượng tỷ lệ
Đối với mẫu có qui mô n đơn vị, phương sai của số trung bình mẫu thông thường là: σy S Y
n
n N
n N
2 x i
2 x i y i N
i
2 y
xy
−
μ
−μ
−
∑
là hệ số tương quan giữa X và Y
Thay các kết quả tính toán vào σy
r
2 ta được:
Trang 23σy ( Y X ρ X Y)
nN
⎝⎜ ⎞⎠⎟ (1.9) Như vậy ước lượng tỷ lệ có sai số nhỏ hơn ước lượng trực tiếp thông thường nếu:
SY2 +R S2 2X−2R S Sρ X Y <SY2
Có nghĩa là: ρ >
y Y x X
Y
X Y
X
2 X 2
S
S2
1S2
RSS
RS2
SR
x X
S
μ và
y Y
Khi X là giá trị của Y ở thời kỳ trước, hai hệ số biến thiên có thể xấp xỉ nhau, thì ước lượng tỷ lệ sẽ tốt nhất nếu ρ lớn hơn 1/2
Trong thực tế, với mẫu có qui mô đủ lớn, việc ước lượng tham số từ cuộc điều tra mẫu bằng phương pháp ước lượng tỷ lệ sẽ cho sai số nhỏ hơn, nếu ta chú ý chọn lượng biến X có tương quan khá chặt chẽ với lượng biến chủ yếu Y và lượng biến bổ sung không có độ biến động lớn Riêng trường hợp khi tỷ lệ r là tốc độ phát triển qua hai thời kỳ của lượng biến y thì hiệu quả giảm sai số chọn mẫu của phương pháp ước lượng tỷ lệ là rõ ràng
1.2 CÁC PHƯƠNG PHÁP CHỌN MẪU VÀ XÁC ĐỊNH QUI MÔ MẪU 1.2.1 Các phương pháp chọn mẫu
Có nhiều loại phương pháp chọn mẫu tùy theo chúng ta đứng trên giác độ nào
Trang 24để xét
* Nếu căn cứ vào tính chất ngẫu nhiên hay không ngẫu nhiên trong việc chọn
đơn vị mẫu từ tổng thể chung để điều tra, thì ta có hai loại phương pháp chọn mẫu là chọn mẫu có chủ đích và chọn mẫu ngẫu nhiên
- Chọn mẫu có chủ đích (phi ngẫu nhiên): là phương pháp lựa chọn các đơn vị
của tổng thể vào mẫu điều tra trên cơ sở xem xét chủ quan của nhà thống kê Chọn mẫu có chủ đích là con đẻ của các nhà thống kê thực hành, đã xuất hiện cách đây khoảng 300 năm Để thay thế điều tra toàn bộ, các nhà thống kê thực hành đã áp dụng phương pháp điều tra mà họ cảm thấy là hợp lý, nhưng chưa chứng minh được căn cứ khoa học của nó Đó chính là phương pháp chọn mẫu có chủ đích mà ngày nay chúng ta thường gọi
Năm 1934 Neyman đã chứng minh rằng với cỡ mẫu đủ lớn, trung bình mẫu ngẫu nhiên có phân phối tiệm cận chuẩn Phương pháp chọn mẫu có chủ đích có căn cứ khoa học, song ứng dụng nó trong thực tế chỉ có kết quả tốt khi nhà thống kê hiểu biết đủ nhiều về tổng thể cần nghiên cứu Chính vì vậy, nó thường được áp dụng trên những tổng thể có quy mô nhỏ với cỡ mẫu không lớn
Chọn mẫu có chủ đích có nhiều loại như chọn mẫu thuận lợi, chọn mẫu theo phán đoán, chọn mẫu theo tỷ lệ khống chế,
Chọn mẫu có chủ đích có thể áp dụng cho các lĩnh vực điều tra như thăm dò dư luận xã hội, điều tra thị hiếu tiêu dùng, thăm dò ý kiến khách hàng,
Phạm vi nghiên cứu của luận án này cũng được giới hạn trong các phương pháp chọn mẫu ngẫu nhiên
- Chọn mẫu ngẫu nhiên: là phương pháp chọn các đơn vị mẫu từ tổng thể dựa
trên xác suất (hoặc quy luật ngẫu nhiên)
Chọn mẫu ngẫu nhiên có nhiều loại như chọn mẫu ngẫu nhiên đơn thuần, chọn