Chọn mẫu samplingLà quá trình lựa chọn một bộ phận tương đối nhỏ từ tổng thể với tích cách là đại diện cho tổng thể cần nghiên cứu.. Vì sao phải chọn mẫu? Trường hợp số đơn vị của hiện
Trang 1CÁC PHƯƠNG PHÁP CHỌN MẪU
Trang 2Nội dung
Chọn mẫu xác suất
Chọn mẫu phi xác suất
2
Trang 3Chọn mẫu (sampling)
Là quá trình lựa chọn một bộ phận tương đối nhỏ từ tổng thể với tích cách là đại diện cho tổng thể cần nghiên cứu
Dựa trên kết quả thu được từ mẫu, nhà nghiên cứu sẽ suy diễn rộng ra cho tổng thể
Trang 4Vì sao phải chọn mẫu?
Để có thông tin nhanh hơn và tiết kiệm hơn
Vd: muốn có số liệu về thu nhập của các hộ gia đình ở Việt Nam thì nên điều tra toàn bộ hay điều tra chọn mẫu?
Trường hợp khi tiến hành điều tra làm biến dạng hay phá hủy thuộc tính của đơn vị
Vd: thử độ bền của vỏ xe sản xuất
Trang 5Vì sao phải chọn mẫu?
Trường hợp số đơn vị của hiện tượng vô hạn hoặc không xác định
Vd: muốn có số liệu về những người bệnh cao huyết áp tại TPHCM
Khi muốn so sánh các hiện tượng với nhau mà chưa có thông tin cụ thể hoặc khi muốn kiểm định một giả thuyết đặt
ra, người ta thường dùng điều tra chọn mẫu để thu thập dữ liệu.
Vd: kiểm tra tác dụng của một loại thuốc đối với điều trị tim mạch
Trang 6Một số khái niệm
liệu (cá nhân, hộ gia đình, tổ chức,…)
phần tử mà thực tế có thể nhận dạng và lấy mẫu Ví dụ tổng thể nghiên cứu là số hộ gia đình của một địa phương, số doanh nghiệp tại một địa phương, số sinh viên tại một trường đại học, số người tiêu dùng tại một vùng
mẫu có sẵn để phục vụ cho việc lấy mẫu
Trang 9(2) Tốn kém nhiều thời gian và công sức
Trang 10Chọn mẫu phi xác suất
Nhà nghiên cứu chọn các phần tử vào mẫu không theo quy luật ngẫu nhiên
Không biết xác suất xuất hiện của các phần tử Chọn mẫu tùy thuộc vào nhà nghiên cứu
Ví dụ đến siêu thị phỏng vấn các bà nội trợ về chi tiêu hàng ngày cho lương thực
Nhược điểm: ?
Trang 11Hạn chế
Việc chọn mẫu phải dựa vào kỹ năng của nhà nghiên cứu hay của nhân viên chọn mẫu
Trang 12Phân loại
Ngẫu nhiên đơn giản
Trang 13Chọn mẫu ngẫu nhiên đơn giản
Quy trình:
Cần danh sách của tất cả các đơn vị
mẫu
Số lượng các đơn vị (cỡ mẫu).
Chọn ngẫu nhiên các đơn vị trong
danh sách
Ví dụ: Khảo sát thực trạng hiểu biết về
luật giao thông đường bộ trong 1000
học sinh tại một trường phổ thông
trung học, chọn mẫu ngẫu nhiên 100
học sinh để khảo sát.
13
Trang 14Câu hỏi
Theo danh sách chọn mẫu, người thu thập dữ liệu phải phỏng vấn sinh kế của hộ A Nhưng hộ A đi vắng, hộ B (không có trong danh sách mẫu) sẵn sàng cung cấp dữ liệu sinh kế của gia đình mình (hộ B) Người thu thập dữ liệu nên chờ hộ A về phỏng vấn hay phỏng vấn hộ B?
Trang 16Chọn mẫu hệ thống
Chọn ngẫu nhiên một điểm xuất phát, dựa vào bước nhảy
để xác định các phần tử tiếp theo
16
Trang 17Chọn mẫu hệ thống
Trang 18Chọn mẫu phân tầng (stratified random)
Tổng thể được chia ra nhiều tầng (strata)
theo nguyên tắc: “cùng tầng đồng nhất,
khác tầng dị biệt”
Để chọn phần tử trong mỗi tầng: có thể
dùng p.p hệ thống.
Số phần tử trong mỗi tầng được xác định
theo tỷ lệ hoặc không theo tỷ lệ với kích
thước tổng thể.
Ví dụ về các tầng: Theo địa lý: bắc, trung,
nam, 7 vùng kinh tế; Tôn giáo/sắc tộc;
mức thu nhập; giới tính, nghề nghiệp…
18
Trang 19Chọn mẫu phân tầng
Trang 20Chọn mẫu theo nhóm (cluster)
Tổng thể được chia làm nhiều nhóm (mỗi
nhóm mang tính đại diện cho tổng thể) và
tuân theo nguyên tắc: “cùng nhóm dị biệt,
khác nhóm đồng nhất”.
Các nhóm sẽ được chọn một cách ngẫu
nhiên để tạo thành mẫu
Ví dụ: Chọn mẫu điều tra hộ gia đình
Bước 1: lựa chọn ngẫu nhiên một số huyện.
Bước 2: các hộ gia đình được lựa chọn trong
các huyện vừa được chọn.
Bước 3: những cá nhân được lựa chọn từ hộ.
20
Trang 21Chọn mẫu theo nhóm (cluster)
Ví dụ 2: Chuỗi cửa hàng thức ăn nhanh muốn tìm hiểu món ăn nào được đặt nhiều nhất
B1: Chọn ngẫu nhiên một vài cửa hàng
B2: Hỏi ý kiến tất cả khách hàng tại các cửa hàng được chọn
Trang 22Ví dụ
Một nhà phân tích thị trường ô tô khảo sát mức độ hài lòng của những người mới mua ô tô Danh sách có tên của 10.000 chủ xe, trong đó 2.500 người mua Ford, 2.500 người mua Honda, 2.500 người mua Toyota, 2.500 người mua GM Nhà phân tích này lấy một mẫu danh sách 400 chủ xe bằng cách chọn ngẫu nhiên 100 chủ xe ở mỗi nhãn hiệu Nhà phân tích đang sử dụng phương pháp chọn mẫu nào? Giải thích
22
Trang 23Câu hỏi
Giống và khác giữa chọn mẫu phân tầng và chọn mẫu theo nhóm?
Trang 25Chọn mẫu thuận tiện (convenience)
Chọn phần tử dựa trên sự thuận tiện, dễ tiếp cận, dễ lấy thông tin
Nhược điểm: Không xác định được sai số lấy mẫu và không thể kết luận cho tổng thể từ kết quả mẫu
Sử dụng phổ biến khi bị giới hạn về thời gian và chi phí
Vd: phỏng vấn các bà nội trợ tại các siêu thị để tìm hiểu
về hành vi tiêu dùng của người nội trợ
25
Trang 26Chọn mẫu phán đoán (judgment)
Nhà nghiên cứu tự phán đoán sự thích hợp của các phần tử để mời họ tham gia vào mẫu
Đặc điểm giống như chọn mẫu thuận tiện, nhưng nếu khả năng/kinh nghiệm phán đoán tốt sẽ cho mẫu tốt hơn thuận tiện
Ví dụ muốn tìm hiểu thói quen tiêu dùng của phụ nữ thành đạt, nhà nghiên cứu theo phán đoán sẽ chọn những phụ nữ ăn mặc sang trọng để phỏng vấn
26
Trang 27Chọn mẫu theo lớp (quota)
Dựa vào một số thuộc tính kiểm soát xác định một số phần tử sao cho chúng đảm bảo tỷ lệ của tổng thể và các đặc trưng kiểm soát
Có thể dùng 1 hoặc nhiều thuộc tính kiểm soát như tuổi, giới tính, thu nhập, loại hình DN…
Vd Cần phỏng vấn 800 người có tuổi trên 18 tại 1 thành phố Phân tổ theo giới tính và tuổi như sau: chọn 400 người (200 nam và 200 nữ) có tuổi từ 18 đến 40, chọn
400 người (200 nam và 200 nữ) có tuổi từ 40 trở lên
27
Trang 28Chọn mẫu theo mầm (snow ball)
Chọn ngẫu nhiên những người phỏng vấn ban đầu, những người tiếp theo được chọn dựa trên sự giới thiệu của người trước
28
Trang 29Sai lệch liên quan đến việc chọn mẫu
Sai lệch do chọn mẫu (do tính đại diện của mẫu)
Sai lệch không do chọn mẫu (xảy ra trong quá trình phỏng vấn, hiệu chỉnh, nhập dữ liệu, )
29
Trang 30Bài tập
Một công ty có ba nhà máy A, B, C cùng sản xuất linh kiện điện tử với số lượng lần lượt tại các nhà máy là 20%, 50% và 30% Bộ phận quản lý chất lượng của công ty muốn kiểm tra ngẫu nhiên chất lượng 100 linh kiện ở ba nhà máy nên yêu cầu mỗi nhà máy gửi số lượng linh kiện như sau: A gửi 20, B gửi 50, C gửi 30.
a Bộ phận quản lý chất lượng có phải đang lấy mẫu ngẫu nhiên đơn giản không?
b Nếu không phải thì bộ phận này đang lấy mẫu theo phương pháp nào?
Trang 31Bài tập
Công ty A muốn khảo sát việc sử dụng ngân hàng điện
tử của những người trong độ tuổi từ 18 trở lên Ở gần địa bàn của công ty A có năm công ty khác nên A đến phỏng vấn các nhân viên của năm công ty này.
Trang 32BÀI TẬP
Cho danh sách 100 công ty được đánh số thứ tự từ 0 đến
99 và sản lượng sản xuất năm qua (ĐTV: 10.000 bảng Anh)
1 Lấy hai mẫu theo phương pháp ngẫu nhiên đơn giản, mỗi mẫu chọn 20 công ty
2 Tính trung bình sản lượng của các công ty ở 2 mẫu
3 Giả sử trung bình tổng thể là 66,08900 bảng Anh Trung bình mẫu so với trung bình tổng thể có sai lệch không?
Trang 33Hướng dẫn
Lấy giấy cắt thành 20 tờ thăm.
Chia đôi thành 2 phần
Phần 1: 10 tờ thăm đánh số từ 0 đến 9 biểu thị cho hàng đơn vị
Phần 2: 10 tờ thăm đánh số từ 0 đến 9 biểu thị cho hàng chục
Bốc ngẫu nhiên hàng chục trước, ví dụ số 1.
Bốc ngẫu nhiên hàng đơn vị, ví dụ số 3
Vậy công ty thứ 13 được chọn vào mẫu Làm tiếp tục để có thêm các công ty khác vào mẫu Nếu thăm bốc trùng thứ tự công ty thì bốc lại.
19/06/24
701014 chuong 5- Thiết kế nghiên cứu
và các phương pháp lấy mẫu 33
Trang 34BÀI TẬP
4 Chọn quy mô mẫu là 10% so với tổng thể và chọn theo phương pháp hệ thống
5 Tính trung bình cho mẫu này
6 So sánh với trung bình tổng thể là 660,8900 thì trung bình mẫu này cho kết quả tốt hơn hay tệ hơn so với trung bình hai mẫu trên?
Trang 35701014 chuong 5- Thiết kế nghiên cứu
và các phương pháp lấy mẫu 35
Trang 36Giả sử trung bình tổng thể là 660.89 Trung bình mẫu
so với trung bình tổng thể có sai lệch không?
Trang 37và các phương pháp lấy mẫu 37
Trang 38ƯỚC TÍNH CỠ MẪU
Số liệu cần thiết để ước tính cỡ mẫu:
1 Xác suất sai sót lại I và II,
2 Độ dao động của đo lường,
3 Độ ảnh hưởng (hoặc sai số)
Trang 39ƯỚC TÍNH CỠ MẪU
Xác suất sai sót: thông thường một nghiên cứu chấp nhận sai sót loại
I 1% hoặc 5% và xác suất sai sót loại II khoảng 0.1, 0.2 (hay power từ 0.8 đến 0.9).
Độ dao động chính là độ lệch chuẩn σ (standard deviation) của đo lường
Độ ảnh hưởng ∆, nếu là công trình nghiên cứu so sánh hai nhóm, là độ khác biệt trung bình giữa hai nhóm mà nhà nghiên cứu muốn phát hiện
Chẳng hạn như nhà nghiên cứu có thể giả thiết rằng bệnh nhân được điều trị bằng thuốc A có áp suất máu giảm 10 mmHg so với nhóm giả dược
Ở đây, 10 mmHg được xem là độ ảnh hưởng
Trang 40ƯỚC TÍNH CỠ MẪU
Xác suất sai sót: thông thường một nghiên cứu chấp nhận sai sót loại
I 1% hoặc 5% và xác suất sai sót loại II khoảng 0.1, 0.2 (hay power từ 0.8 đến 0.9).
Độ dao động chính là độ lệch chuẩn σ (standard deviation) của đo lường
Độ ảnh hưởng ∆, nếu là công trình nghiên cứu so sánh hai nhóm, là độ khác biệt trung bình giữa hai nhóm mà nhà nghiên cứu muốn phát hiện
Chẳng hạn như nhà nghiên cứu có thể giả thiết rằng bệnh nhân được điều trị bằng thuốc A có áp suất máu giảm 10 mmHg so với nhóm giả dược
Ở đây, 10 mmHg được xem là độ ảnh hưởng
Trang 41Công thức
1 Trường hợp một nhóm đối tượng
2 Trường hợp hai nhóm đối tượng
2
) /
(
C n
2
) /
Trang 42Trong đó, hằng số C được xác định từ xác suất sai sót loại I và II như sau
α (Power = 0.80)β = 0.20 (Power = 0.90)β = 0.10 (Power = 0.95)β = 0.050.10 6.15 8.53 10.79
0.05 7.85 10.51 13.00
0.01 13.33 16.74 19.84
Trang 43Ví dụ 1: Thực hành trên Minitab: Stat\
Power and Sample Size
Chúng ta muốn ước tính chiều cao của đàn ông người Việt, và chấp nhận sai số trong vòng 1 cm (d = 1) với khoảng tin cậy 0.95 (tức α=0.05) và power = 0.8 (hay
β = 0.2) Các nghiên cứu trước cho biết độ lệch chuẩn chiều cao ở người Việt khoảng 4.6 cm Áp dụng công thức [1] để ước tính cỡ mẫu cần thiết cho nghiên cứu:
166 )
6 4 / 1 (
85
7 )
/ ( 2 2
C n
Trang 44Thực hành
Một loại thuốc điều trị có khả năng tăng độ alkaline phosphatase ở bệnh nhân loãng xương Độ lệch chuẩn của alkaline phosphatase là 15 U/l Một nghiên cứu mới sẽ tiến hành trong một quần thể bệnh nhân ở Việt Nam, và các nhà nghiên cứu muốn biết bao nhiêu bệnh nhân cần tuyển để chứng minh rằng thuốc có thể tăng alkaline phosphatase từ 60 đến 65 U/l sau 3 tháng điều trị, với sai số I α = 0.05 và power = 0.8?
Trang 45từ nghiên cứu dịch tễ học cho thấy giá trị trung bình của BMD trong phụ nữ sau thời kì mãn kinh là 0.80 g/cm2, với độ lệch chuẩn là 0.12 g/cm2 Vấn đề đặt ra là chúng ta cần phải nghiên cứu ở bao nhiêu đối tượng để “chứng minh” rằng sau 12 tháng điều trị BMD của nhóm 1 tăng khoảng 5% so với nhóm 2?
Trang 46Trong ví dụ này, tạm gọi trị số trung bình của nhóm 2
là µ2 và nhóm 1 là µ1, chúng ta có: µ1 = 0.8*1.05 = 0.84 g/cm2 (tức tăng 5% so với nhóm 2), và do đó, ∆
= 0.84 – 0.80 = 0.04 g/cm2 Độ lệch chuẩn là σ=0.12 g/cm2 Với power = 0.90 và α = 0.05, cỡ mẫu cần thiết áp dụng theo công thức [2]
189)
12.0/04.0(
51.10
*
2)
/(
Trang 47Hỏi đáp
47
Trang 48Anh chị tải phần mềm tại
http://kinhteluongtdt.wordpress.com/
Trang 49Anh chị tải phần mềm tại
phamphuongloan.hcmc@gmail.com