Bài giảng Phương pháp nghiên cứu khoa học - Chương 6: Chọn mẫu
Trang 26.1-Tại sao lại lấy mẫu? Các khái niệm
cơ bản
Trong một cuộc bầu cử, chỉ một phần nhỏ cử tri được hỏi về các ý định bỏ phiếu của họ, ngay cả khi sự quan tâm cuối cùng của người thăm dò là
ở việc đánh giá kết quả lựa chọn cuối cùng hoàn tất về những phiếu hợp lệ ủng hộ
Sử dụng thuật ngữ thống kê, mỗi cử tri được gọi
là đơn vị, các cử tri thực tế được thăm dò được gọi là mẫu và tập hợp toàn bộ những người hợp
lệ cho bỏ phiếu được gọi là tổng thể (tổng số)
(population)
Trang 36.1-Tại sao lại lấy mẫu? Các khái niệm
cơ bản (tt)
Sự lưa chọn các ứng cử viên trong bầu cử tổng
thống có thể được xem xét như những giá trị của biến “ứng cử”
Nó sẽ là đúng đắn, nhưng không thông dụng, để gọi rằng ứng cử viên nhận được số lớn các phiếu bầu trong tổng thể (tổng số) là một tham số
Toàn bộ quá trình để có được kết quả bằng cách
này được gọi là chọn mẫu.
Trang 46.1-Tại sao lại lấy mẫu? Các khái niệm
cơ bản (tt)
Trong điều tra mức sống dân cư hàng năm, Mỗi
hộ trên địa bàn dân cư là đơn vị hộ
Nếu tiến hành điều tra toàn bộ số hộ sẽ rất tốn
kém Vì vậy thường là điều tra phỏng vấn tập
hợp nhỏ hơn số tổng, tập hợp nhỏ này được gọi là
Trang 56.2-Chọn mẫu xác suất và chọn mẫu phi
xác suất
Thiết kế chọn mẫu có thể chia thành hai loại: thiết kế chọn mẫu xác suất và thiết kế chọn mẫu phi xác suất
Chọn mẫu phi xác suất là chọn theo chỉ định chủ
quan của người nghiên cứu
Một số chọn mẫu phi chính thức bao gồm:
(1) chọn mẫu thuận tiện;
(2) chọn mẫu phán đóan; và
(3) chọn mẫu chỉ định
Trang 6Chọn mẫu thuận tiện
Chọn mẫu thuận tiện, không cần chú ý đến tính đại diện mà chỉ chú ý đến tính thuận tiện cho người nghiên cứu.
Chẳng hạn chúng ta có thể phỏng vấn giám đốc kinh doanh mà chúng ta quen biết
Trang 7Chọn mẫu phán đoán
Chọn mẫu phán đoán là sự phán đoán của người
nghiên cứu về các nhóm đại diện để chọn số đơn
vị đại diện trong tổng số của các nhóm phán đoán
Đơn giản là chúng ta cố gắng để chọn số đối tượng mà chúng ta nghĩ rằng số đối tượng đó có thể đại diện cho tổng thể
Thí dụ, để nghiên cứu 3 lọai doanh nghiệp-khách hàng có quy mô doanh nghiệp theo mức lớn, vừa
và nhỏ, ngườiø nghiên cứu sẽ chọn ra 3 nhóm doanh nghiệp -khách hàng và phán đóan rằng đó
là 3 nhóm đại diện cho đối tượng khách hàng tương ứng với 3 lọai quy mô doanh nghiệp lớn, vừa và nhỏ
Trang 8 Thí dụ, tổng các đối tượng nghiên cứu là 1.000 công
ty, trong đó có 600 công ty nhỏ, 300 công ty trung bình và 100 công ty lớn Với số chọn mẫu chỉ định là 10% trên tổng thể, như vậy số công ty nhỏ được chọn sẽ là 60 công ty, công ty trung bình là 30 và công ty lớn là 10
Trang 9Chọn mẫu phi xác suất (tt)
Chọn mẫu phi xác suất là dễ phác thảo và thực
hiện, nhưng có thể cho kết quả sai lệch bất chấp
sự phán đoán của chúng ta như thế nào, nếu chúng không đại diện cho tổng thể
Hạn chế chính của chọn mẫu phi xác suất là chọn mẫu này không đưa ra cơ sở để đánh giá quy mô giao động của mẫu và sai số ước lượng
Chọn mẫu phi xác suất có thể áp dụng cho nghiên cứu sơ bộ hay điều tra thử, điều tra làm
rõ cơ sở các giả thuyết….
Trang 10Chọn mẫu xác suất
Chọn mẫu xác suất là dựa vào lý thuyết xác
suất để lấy mẫu ngẫu nhiên
Có một số cách lấy mẫu ngẫu nhiên đó là:
(1) lấy mẫu ngẫu nhiên đơn thuần;
(2) lấy mẫu ngẫu nhiên hệ thống, và
(3) lấy mẫu ngẫu nhiên phân tầng….
Trang 11Lấy mẫu ngẫu nhiên đơn thuần
Lấy mẫu ngẫu nhiên đơn thuần là cách lấy mẫu
mà mọi đơn vị phần tử trong tổng thể đều có cơ hội ngang nhau xuất hiện trong mẫu
Thí dụ: chúng ta có thể đánh số các phần tử của tổng thể, tương ứng với mỗi số đã được ấn định cho từng phần tử là một “nhãn hiệu”, sau đó ta xáo trộn các nhãn hiệu và rút ngẫu nhiên theo số lượng đã định sẽ cho ta một chọn mẫu ngẫu nhiên.
Trang 12THÍ DỤ CHỌN MẪU NGẪU NHIÊN ĐƠN
THUẦN
Chúng ta cũng có thể áp dụng phương pháp tra bảng số ngẫu nhiên-là một bảng liệt kê sẵn các con số ngẫu nhiên và chương trình máy tính Cách sử dụng bảng số ngẫu nhiên như sau:
(1) Xác định số cột số sẽ sử dụng tương ứng với
số chữ số của tổng thể cần nghiên cứu Thí dụ tổng thể nghiên cứu N=900 công ty, khi đó số cột chữ số sử dụng là 3 cột, nếu tổng thể nghiên cứu
là 1500 công ty, khi đó số cột chữ số sử dụng sẽ là
4 cột;
Trang 13THÍ DỤ CHỌN MẪU NGẪU NHIÊN ĐƠN
THUẦN (tt)
(2) Xác định con số sẽ được chọn làm phần tử mẫu, con số đó phải lớn hơn 0 và nhỏ hơn tổng thể N (trong thí dụ của chúng ta là 900 hoặc 1500, tức con số thứ tự sử dụng cho các phần tử sẽ từ 1 đến 900 hoặc từ 1 đến 1500);
(3) Số lượng phần tử được chọn bằng kích thước mẫu Nếu kích thước mẫu n bằng 10% tổng thể, theo thí dụ của
chúng ta n sẽ là 90 hoặc 150 công ty;
Trang 14THÍ DỤ CHỌN MẪU NGẪU NHIÊN ĐƠN
con số, số mẫu công ty được chọn là công ty
tương ứng với con số trong bảng liệt kê.
Trang 15Lấy mẫu có hệ thống
Lấy mẫu có hệ thống là cách lấy mẫu đầu tiên là
ngẫu nhiên sau đó cứ cách k đơn vị lại chọn một phần tử (còn gọi là chọn nhảy cóc, trong đó k là khoảng cách bước nhảy)
Thí dụ, ta chọn 90 phần tử (công ty) trong tổng số
900 phần tử (công ty), tỷ lệ lấy mẫu khi đó sẽ là 90/900=1/10 Như vậy khỏang cách bước nhảy k
=10 Các số thứ tự của công ty được xếp từ 1 đến
900 Ở đây cần phải xác định phần tử đầu tiên là ngẫu nhiên.
Trang 16Lấy mẫu có hệ thống (tt)
Có thể có hai cách để xác định phần tử đầu tiên ngẫu nhiên.
Cách thứ nhất, là lấy ngẫu nhiên trong tòan bộ
tổng thể 900 công ty ( có thể là 1 hoặc 20, hay
900), sau đó từ phần tử đã được chọn cộng thêm hoặc trừ đi k ( trong thí dụ của chúng ta là trừ đi hoặc cộng thêm 10, k=10) Nếu phần tử ngẫu
nhiên là 900 phải trừ đi 10, nếu phần tử đầu tiên
là 1 thì cộng thêm 10…
Trang 17ngẫu nhiên trong 10 phần tử đầu tiên, giả sử
phần tử đầu tiên được chọn là 5 chẳng hạn Khi
đó các phần tử tham gia mẫu sẽ là 5, 15, 25…
(5+k) cho tới khi đủ số mẫu 90 phần tử hay 90
công ty tương ứng cần chọn
Trang 18Lấy mẫu ngẫu nhiên phân tầng
Lấy mẫu ngẫu nhiên phân tầng là phân các đối
tượng nghiên cứu thành các nhóm, tầng theo các đặc tính, sau đó lấy mẫu theo tầng, nhóm
Chẳng hạn phân nhóm cây trong rừng theo độ
tuổi để chọn mẫu khảo sát Như tầng 1 gồm tổng
số cây trên 100 tuổi, tầng 2 gồm tổng số cây từ 50 tuổi đến 100 tuổi, tầng 3 gồm tổng số cây dưới 50 tuổi
Sau đó áp dụng phương pháp chọn mẫu ngẫu
nhiên đơn thuần cho mỗi tầng Cách chọn mẫu này có độ chính xác cao và có thể phân tích kết quả theo các tầng so sánh sự khác biệt…
Trang 196.3-Xác định kích thước mẫu
Kích thước mẫu được tăng lên, trên tổng thể sẽ
hoàn thiện chất lượng kết quả thống kê
Nếu mục đích của điều tra là ước tính tham số
chưa biết, thì chất lượng của kết quả là quan hệ nghịch với kích thước của sai số ước tính cho
phép
Sai số ước tính bằng giá trị tuyệt đối của khoảng cách biệt giữa thông số chưa biết và thông số ước tính Nhưng khi tham số chưa biết thì sai số ước tính cũng là chưa biết Vì vậy xác định xác suất là cần thiết
Trang 206.3-Xác định kích thước mẫu (tt)
Sai số cho phép có thể tính bằng %, và thường được ký hiệu là và độ tin cậy cho phép tính bằng xác suất P
Các nhà toán học-thống kê học đã tính toán được bảng tính kích thước mẫu n phụ thuộc vào P và
Chẳng hạn bảng tính kích thước mẫu theo 1 số giá trị của P và dưới đây:
Trang 226.3-Xác định kích thước mẫu (tt)
Một số công thức tính cỡ mẫu tối thiểu đã
có trong nhiều tài liệu thống kê Dưới đây đơn cử một công thức xác định n
(6.1)
Trong đó p là tỷ lệ mẫu dự kiến chọn n 1 so với tổng số (số lượng tổng thể đối tượng) N, p=n 1 /N; q=1-p ; Z được gọi là giá trị biến thiên chuẩn được tính sẵn trong bảng ứng với độ tin cậy P.
pq N
pq
N n
Z
Z
2 2
Trang 236.3-Xác định kích thước mẫu (tt)
Kích thước mẫu tối thiểu theo công thức trên là lớn nhất khi mẫu số là nhỏ nhất và tử số là cao nhất Ta có thể thấy giá trị lớn nhất của tử trong công thức trên xuất hiện khi p=q=1-p hay p=0,5, như vậy n sẽ là:
2 2
25 ,
0 5
, 0 1
5 ,
n
Trang 246.3-Xác định kích thước mẫu (tt)
Khi biết =0,1, độ tin cậy hay xác suất P=0,9, khi
đó tra bảng có giá trị biến thiên chuẩn Z=2,58, kích thước mẫu tối thiểu cần chọn n=166.
Khi biết quy mô tổng thể N, ta cũng có thể xác định kích thước mẫu theo công thức sau:
p n
Trang 25Thí dụ:
Xác định kích thước mẫu trong điều tra mức sống dân cư tại một huyện có 25.000 hộ dân, với sai số cho phép là 1% và độ tin cậy là 95%
Có một số cách xác định kích thước mẫu trong thí dụ này:
Cách thứ nhất: Ta không tính đến quy mô tổng
thể N Tra bảng tính kích thước mẫu, với =0,01; p= 0,95, ta có n=9.603.
Trang 27Thí dụ (tt)
Cách thứ ba: Ta tính đến quy mô tổng thể N Khi
đó ta điều tra tạm trên số mẫu ban đầu n 1 = 7.500
hộ gia đình, như vậy tỷ lệ mẫu dự kiến ban đầu
sẽ là 30% (7.500/25.000) hay p=0,3, khi đó 0,3=0,7
q=1- Tra bảng phân bố chuẩn, ta cũng biết Z=1,96
Vận dụng công thức (6.3) với các thông số , q, p
và Z sẽ cho ta giá trị kích thước mẫu:
n= (25.000x1,96 2 x0,3x0,7)/(25.000x0,01 2 +
Z 2 x0,3x0,7)=6.093
Trong trường hợp này n 1 > n, ta không cần tiến hành điều tra thêm Trong trường hợp n 1 < n, ta phải tiến hành điều tra thêm n-n 1 hộ nữa
Trang 283-Xác định kích thước mẫu (tt)
Trong cách thứ nhất và cách thứ hai, ta không tính đến quy mô tổng thể và có số mẫu lớn, còn trong cách thứ ba, ta tính đến quy mô tổng thể N, kích thước mẫu sẽ nhỏ hơn
Tuy nhiên, trong trường hợp quy mô tổng thể N lớn hơn, các kết quả về kích thước mẫu có thể ngược lại với kết quả trên.
Trang 29Câu hỏi thảo luận:
1) Các khái niệm cơ bản về mẫu, kích thước mẫu, cách xác định?
2/ Chọn mẫu xác suất và chọn mẫu phi xác suất,
ưu nhuợc điểm và phạm vi áp dụng?
3/ Hãy áp dụng một trong các công thức tính kích thước mẫu cho trường hợp một nghiên cứu cụ
thể của bạn
Trang 30BÀI TẬP 5:
điều tra để nghiên cứu vấn đề đặt ra ở bài
trước-giải trình cách xác định
cho vấn đề nghiên cứu của bạn