Bài giảng Nghiên cứu thống kê: Chương 2 Thu nhập dữ liệu thống kê gồm các nội dung chính như sau: Dữ liệu định tính và dữ liệu định lượng, dữ liệu thứ cấp, các phương pháp thu nhập dữ liệu sơ cấp, các loại diều tra thống kê, các phương pháp chọn mẫu phi xác suất,...
Trang 1THU THẬP DỮ LIỆU THỐNG KÊ
Xác định mục đích, nội dung, đối tượng vấn đề nghiên cứu xây dựng hệ thống các khái niệm, chỉ tiêu thống kê.
Điều tra thống kê
Xử lý số liệu :
- Tập hợp, sắp xếp số liệu.
- Chọn các phần mềm xử lý số liệu.
- Phân tích thống kê sơ bộ.
Phân tích và giải thích kết quả Dự đĩan xu hướng phát triển của hiện tượng
Viết báo cáo và truyền đạt kết quả nghiên cứu
XÁC ĐỊNH DỮ LIỆU CẦN THU THẬP
Vấn đề đầu tiên của cơng việc thu thập dữ liệu:
Categorical (Qualitative)
Discrete Continuous
Numerical (Quantitative)
Data
Trang 2- Phản ánh tính chất, sự hơn kém của các đối
tượng nghiên cứu
bậc
nhà bà con người quen,
khoảng cách hay thang đo tỉ lệ
1.SV của trường X có đi làm thêm
2.Số lượng SV đi làm thêm chiếm 35%
3.Thời gian làm thêm trung bình 12 giờ (3 buổi) mỗi
tuần
4.Tính chất công việc ít liên quan đến ngành nghề đang
được đào tạo
5.Mục đích chủ yếu của việc đi làm thêm là lý do kinh
tế
6.Việc làm thêm có ảnh hưởng đến kết quả học tập
7.Điểm trung bình học tập của SV đi làm thêm giảm
bình quân là 0,3 điểm
7
Primary
Data Collection
Secondary
Data Compilation
Observation
Experimentation
Survey
Print or Electronic
Trang 3Dữ liệu thu thập từ những nguồn có sẵn,
đó chính là những dữ liệu đã qua tổng
hợp xử lý từ các cơ quan.
Ưu điểm
-Thu thập nhanh, ít tốn kém chi phí
Nhược điểm
- Dữ liệu đôi khi ít chi tiết và không đáp
ứng đúng nhu cầu nghiên cứu.
9
Nguồn dữ liệu thứ cấp :
- Nội bộ: các số liệu báo cáo về tình hình kinh tế như sx, tiêu thụ, tài chính, nhân sự của các phòng ban.
- Cơ quan thống kê nhà nước: dữ liệu tổng quát về dân số, lao động, việc làm, giáo dục, mức sống dân cư, tài nguyên…
- Cơ quan chính phủ
- Báo, tạp chí
- Các tổ chức hiệp hội, viện nghiên cứu
10
Dữ liệu thu thập trực tiếp, ban đầu từ đối
tượng nghiên cứu.
Ưu điểm
- Dữ liệu chi tiết và đáp ứng đúng nhu cầu
nghiên cứu
Nhược điểm
- Tốn kém chi phí và thời gian
phương pháp thu thập dữ liệu sơ cấp
Nghiên cứu thực nghiệm
Nghiên cứu quan sát
- Khảo sát qua điện thoại
-Thư hỏi và các dạng khảo sát viết khác
- Quan sát trực tiếp và phỏng vấn cá nhân
- PP thu thập khác
Trang 4ĐTTK
Căn cứ vào t/c liên tục
của việc thu thập thông tin
Căn cứ vào phạm vi tổng thể tiến hành điều tra
Điều tra
thường xuyên
Điều tra không
thường xuyên
Điều tra toàn bộ
Điều tra không toàn bộ
Đ/t trọng điểm
Đ/t chuyên đề
Đ/t chọn mẫu
Thu thập thông tin liên tục theo thời gian, theo sát với quá trình biến động của hiện tượng nghiên cứu
(sinh, tử, đi, đến)
- Tình hình nhân công tại DN…
14
điểm hay thời kỳ nhất định theo nhu cầu
thường xuyên
cần theo dõi thường xuyên
15
nên còn gọi là tổng điều tra
Tổng điều tra dân số Tổng điều tra nông nghiệp
chi phí
16
Trang 5Thu thập thông tin của một số đơn vị được chọn từ
tổng thể chung
Mục đích :
Có thông tin làm căn cứ nhận định hoặc suy rộng cho
tổng thể chung
17
Điều tra trọng điểm
Điều tra chuyên đề
Điều tra chọn mẫu
18
(bộ phận chiếm tỷ trọng lớn) của tổng thể chung
toàn tổng thể nhưng giúp cho việc nắm được
những đặc điểm cơ bản của hiện tượng
tương đối tập trung, chiếm tỷ trọng lớn trong tổng
thể
19
Là điều tra trên một số ít các đơn vị của tổng thể nhưng lại đi sâu nghiên cứu nhiều khía cạnh của đơn vị đó
xấu) để tìm hiểu nguyên nhân, rút kinh nghiệm
làm căn cứ đánh giá tình hình cơ bản của hiện tượng
20
Trang 6Là tiến hành điều tra thu thập thông tin trên một số đơn
vị của tổng thể chung theo phương pháp khoa học sao
cho các đơn vị này phải đại diện cho cả tổng thể chung
đó
cậy
21
Quota (định mức)
Sample(Mẫu)
Non-Probability Samples (Phi xác suất)
Judgement (Phán đoán)
Convenient (thuận tiện)
Probability(Xác suất)
Simple Random (ngẫu nhiên đơn giản) Systematic (hệ thống)
Stratified (phân tầng) Cluster (cụm)
23
24
và vào một thời gian nhất định
tiện” để chọn mẫu
không dùng cho nghiên cứu mô tả hay nhân quả vì tính đại diện không cao
Trang 7Vd: chọn mẫu những người đi mua sắm ở
Metro CT và tiếp cận họ khi họ bước vào
sthị hoặc khi họ mua sắm món hàng mà ta
muốn khảo sát
cao
Các đơn vị mẫu được chọn dựa vào sự phán đoán của người nghiên cứu mà họ nghĩ rằng những mẫu này có thể đại diện cho tổng thể
Cách chọn mẫu này được dùng phổ biến khi nghiên cứu định tính
có thể chiếm phần lớn tổng sản lượng
ngành công nghiệp cả nước
trọng của tổng thể
sai lệch lớn
trong tổng thể hoặc theo số mẫu được chỉ định cho mỗi nhóm
phần tử không lớn
chỉ cần chọn cho đủ số lượng không cần ngẫu nhiên
nhóm trong tổng thể phục vụ khách hàng
Trang 8 Ví dụ: Chọn 100 phần tử cho mỗi nhãn hiệu nước giải
khát để so sánh kết quả thống kê về thái độ khách
hàng Hoặc tổng thể NC bao gồm 1.000 c.ty, trong đó
600 c.ty vừa và nhỏ, 300 trung bình và 100 qui mô lớn
Số mẫu chỉ định là 10% trên tổng thể, ta sẽ chọn 60
c.ty vừa và nhỏ, 30 trung bình và 10 c.ty lớn
Vd: ý thức tham gia giao thông của SV ĐHCT (có thể
chọn bất kỳ sinh viên nam nữ nào vì trong trường hợp
này thì giới tính không có sự khác biệt lớn)
nhiên
Chọn mẫu ngẫu nhiên đơn giản
Chọn mẫu có hệ thống
Chọn mẫu ngẫu nhiên phân tầng
Chọn mẫu cả cụm
31
Là cách chọn mẫu mà mỗi phần tử trong
tổng thể có cùng cơ hội được chọn với
xác suất như nhau Để chọn được mẫu,
người NC phải có danh sách tổng thể NC
Vd: Chọn ngẫu nhiên 100 mẫu sinh viên
trong tổng số 4.000 sinh viên Khoa Kinh
Tế & QTKD
32
Chọn ngẫu nhiên mẫu đầu tiên
ngẫu nhiên (giảm sai lệch do tuần hoàn bước nhảy)
Trang 9 Là phân chia các đối tượng nghiên cứu thành các
nhóm, tầng theo các đặc tính, sau đó lấy mẫu
theo tầng, nhóm.
Chia tổng thể ra từng nhóm nhỏ theo 1 tiêu thức
nào đó gọi là tiêu thức phân tầng (thu nhập, giới
tính, tuổi tác, TĐHV, nhân khẩu,…).
Chọn ngẫu nhiên hay hệ thống trong từng nhóm
phân tầng theo tỷ lệ với nhóm
Ưu điểm: Phổ biến nhất vì tính chính xác và đại
diện cao.
34
Xác suất Phi xác suât
Ưu điểm Tính đại diện cao.
Khái quát hóa cho tổng thể.
Tiết kiệm thời gian
và chi phí.
Nhược điểm Tốn kém thời gian và
chi phí.
Tính đại diện thấp.
Phạm vi sử dụng Nghiên cứu mô tả,
nhân quả và khám phá.
Nghiên cứu thăm
dò, thử nghiệm.
Basic Business Statistics, 8e © 2002 Prentice-Hall, Inc
Chap 1-35
an equal chance of being selected
without replacement
numbers or computer random number
generators
individuals: k n/n
N = 64
n = 8
k = 8
First Group
Trang 10Population divided into two or more groups
according to some common characteristic
Basic Business Statistics, 8e © 2002 Prentice-Hall, Inc
Chap 1-38
representative of the population
Population divided into 4 clusters.
Simple to use
May not be a good representation of the population’s
underlying characteristics
Ensures representation of individuals across the entire
population
More cost effective
Less efficient (need larger sample to acquire the same
level of precision)
+ đề cập những vấn đề hoặc cần được hiểu + thống nhất, trình tự và phương pháp tiến hành cuộc điều tra
+ những vấn đề thuộc về chuẩn bị và tổ chức toàn bộ cuộc điều tra
Trang 11- Mô tả mục đích điều tra
thập dữ liệu trên các đơn vị điều tra)
1 MỤC TIÊU
viên trả lời
43
2 NỘI DUNG BẢN CÂU HỎI
Phần giới thiệu
44
2 NỘI DUNG BẢN CÂU HỎI Phần sàng lọc
Phần nội dung chính
Phần quản lý: xác nhận, lời cam đoan, mẫu số
Trang 12Chúng tôi đang thực hiện đề tài Anh (chị) vui lòng
lời một số câu hỏi dưới đây
Chúng tôi rất hoan nghênh sự cộng tác và giúp đỡ
của anh (chị) Các ý kiến trả lời của anh (chị) sẽ
được đảm bảo giữ bí mật tuyệt đối
46
Nghiên cứu số Vùng, địa phương Bảng câu hỏi Phỏng vấn viên Phỏng vấn lúc Thời gian phỏng vấn
Giám sát viên Kết luận của GSV Kiểm tra viên Kết quả kiểm tra
Tên người trả lời Địa chỉ Điện thoại
47
1 Xác định thông tin cần thiết
Dự án nghiên cứu Bảng câu hỏi Nhóm người trả lời
Danh mục các
thông tin cần có
Các câu hỏi cần
được chi tiết
Các dữ liệu cần thu thập
Vd: năng suất lúa Sản lượng từng vụ
Diện tích từng vụ
Sản lượng đã thu hoạch Diện tích gieo trồng
48
2 XÁC ĐỊNH HÌNH THỨC PHỎNG VẤN
• Thư tín: tiện lợi, chi phí thấp nhưng tỷ lệ trả lời thấp, khó xác định độ tin cậy của thông tin được thu thập
• Điện thoại: tốn kém, chỉ áp dụng khi thu thập
ít thông tin và thời gian phỏng vấn ngắn;
thông tin tương đối tin cậy
• Trực tiếp: thông tin tin cậy, tỷ lệ trả lời cao nhưng tốn kém
Trang 133 LỰA CHỌN CẤU TRÚC CÂU HỎI
Câu hỏi MỞ:
• Phần trả lời không định trước, đáp viên tự trả lời theo suy nghĩ
• Khai thác ý kiến mới.
• Tạo quan hệ mật thiết khi trả lời.
• Khó tập hợp, mã hóa, phân tích.
• Không phù hợp với phỏng vấn bằng thư tín.
• Khó khăn khi đáp viên trả lời dài dòng, lạc đề.
50
3 LỰA CHỌN CẤU TRÚC CÂU HỎI Câu hỏi ĐÓNG:
Câu trả lời được soạn sẵn, đáp viên chỉ chọn những trả lời sẵn có.
Ví dụ:
•Ông (bà) trồng lúa theo mô hình 3g3t
1 Có (tiếp tục) 2 Không (tạm dừng)
•Ông (bà) gặp những khó khăn nào trong canh tác lúa?
Lao động
Công nghệ
Thời tiết
51
4 TỪ NGỮ SỬ DỤNG TRONG BCH
• Câu hỏi phải diễn đạt vấn đề rõ ràng, dùng các từ:
Who, What, Where, When, Why, How
• Sử dụng từ ngữ đơn giản, thông dụng
• Tránh dùng từ ngữ trừu tượng (Vd: đi sthị có
thường không?)
• Tránh dùng câu hỏi có 2 vế song song (vừa - vừa)
• Cẩn thận câu hỏi liên quan đến tự ái cá nhân (hỏi
về trình độ, )
• Ý nghĩa từ ngữ được sử dụng? Có nghĩa nào khác
không?
• Từ đồng âm khác nghĩa
• Từ địa phương (vd: lợn-heo, trà-chè,…)
52
5 ĐIỀU CHỈNH BCH
• Tiến hành điều tra thử (pretest, pilot survey)
• Bổ sung, chỉnh sửa nếu có
• Những cuộc phỏng vấn mô phỏng
• Câu trả lời không đầy đủ, lạc đề, sai nội dung, không đọc được
• Hiệu chỉnh sai sót thông qua các BCH khác
• Dùng viết khác màu để chỉnh sửa
• Thống nhất nguyên tắc chỉnh lý chung
Trang 14• Mã hóa các câu hỏi và trả lời trước khi nhập
• Soạn thảo các tập tin mô tả việc mã hóa để phục vụ
cho việc đọc số liệu trong tập tin dữ liệu
• Nhập số liệu vào máy tính, các phần mềm xử lý bảng
tính: Excel, SPSS, Stata, Limdep, …
• Kiểm tra độ chính xác của việc nhập: so sánh ngẫu
nhiên một số mẫu; tổ chức nhiều người nhập liệu song
song, …
54
• Mã hóa các câu hỏi và trả lời trước khi nhập
• Soạn thảo các tập tin mô tả việc mã hóa để phục vụ cho việc đọc số liệu trong tập tin dữ liệu
• Nhập số liệu vào máy tính, các phần mềm xử lý bảng tính: Excel, SPSS, Stata, Limdep, …
• Kiểm tra độ chính xác của việc nhập: so sánh ngẫu nhiên một số mẫu; tổ chức nhiều người nhập liệu song song, …
55
i Phân tích thống kê mô tả
dãy biến động, hệ số biến động
ii Phân tích tần số: đếm tần số xuất hiện,
đồ thị phân phối tần số
iii Phân tích phương sai: một chiều, nhiều
chiều
iv Phân tích hồi quy tương quan, …
56
Những câu hỏi cần trả lời Các bước cần thực hiện Các công việc chính trong mỗi bước Các số liệu đã được thu thập
cho mỗi mục tiêu NC là gì?
Số liệu có hoàn chỉnh và chính xác không?
Chuẩn bị số liệu cho phân tích
-Xem xét lại việc thu thập tại thực địa,
-Lập bảng kiểm kê các số liệu cho mỗi mục tiêu,
-Xếp thứ tự các số liệu và kiểm tra chất lượng,
-Kiểm tra output của máy tính Các số liệu trông như thế nào?
Các số liệu có thể được tóm tắt như thế nào cho phân tích đơn giản?
Tóm tắt số liệu và mô
tả các biến/xác định biến mới
B ảng tần suất, biểu đồ, biểu đồ phát triển, tỷ trọng, tần suất chéo,
hệ số tương quan, các thống kê
mô tả, …
Trang 15biến số được xác định như
thế nào ?
Ph ân tích sự tương quan -Đo lường sự tương quan,
-Xử lý các biến nhiễu.
C ó đo lường sự chênh lệch
hay tương quan giữa các
biến không ?
Chu ẩn bị cho phân tích
thống kê
- C ác đo lường sự phân tán, phân phối chuẩn và sự biến động mẫu
X ác định loại của phân tích thống kê - Lựa chọn các kiểm định về mức
ý nghĩa
L àm thế nào sự khác biệt
giữa các nhóm có thể được
xác định ?
Ph ân tích các quan sát theo cặp và lẻ
T-test, chi-square test paired t-test Mc-Nemar’s chi-square test
L àm thế nào sự tương quan
giữa các biến có thể được
xác định ?
Th ực hiện các đo lường về sự tương quan
Bi ểu đồ phân tán, Đường hồi quy, và
H ệ số tương quan
58
B áo cáo nên được viết như thế nào ? Viết báo cáo và xây dựng
các kiến nghị
-Trình bày và diễn dịch số liệu, -Bản nháp và bản nháp lần 2.
-Thảo luận và tóm tắt kết luận -Xây dựng kiến nghị
Nh ững kết quả và kiến nghị nên được công bố và
sử dụng như thế nào ?
Tr ình bày tóm tắt và bản nháp cho việc nghị
Thảo luận những tóm tắt và kế hoạch thực hiện đối với những người liên quan
Sai số do đăng kí:
sai số này phát sinh do việc ghi chép tài liệu không
chính xác , do khai báo sai,
Sai số do tính chất đại biểu:
sai số này chỉ xảy ra trong điều tra không toàn bộ,
đặc biệt là điều tra chọn mẫu
59
+ Làm tốt công tác chuẩn bị điều tra + Theo dõi, kiểm tra quá trình điều tra
+ Làm tốt công tác tuyên truyền vận động
60
Trang 16Coverage error
Excluded from frame.
Follow up on non responses.
Chance differences from sample to sample.
Bad Question!