Khái niệm Dữ liệu thứ cấp là dữ liệu do người khác thu thập, sử dụng cho các mục đích có thể là khác với mục đích nghiên cứu của chúng ta.. + Dữ liệu thứ cấp thường đã qua xử lý nên khó
Trang 1PHƯƠNG PHÁP PHÂN TÍCH DỮ LIỆU THỨ CẤP
Trang 2NỘI DUNG
1 Khái niệm
2 Đặc điểm
3 Phân loại
4 Các bước thu thập dữ liệu thứ cấp
5 Các nguồn thu thập dữ liệu thứ cấp
6 Ưu điểm và nhược điểm của phương pháp phân tích dữ liệu thứ cấp
7 Trường hợp điển cứu
Trang 3NỘI DUNG
1 Khái niệm
Dữ liệu thứ cấp là dữ liệu do người khác thu thập, sử dụng cho các mục đích
có thể là khác với mục đích nghiên cứu của chúng ta Dữ liệu thứ cấp có thể
là dữ liệu chưa xử lý (còn gọi là dữ liệu thô) hoặc dữ liệu đã xử lý
Như vậy, dữ liệu thứ cấp không phải do người nghiên cứu trực tiếp thu thập
Trang 4+ Dữ liệu thứ cấp thường đã qua xử lý nên khó đánh giá được mức độ chính xác, mức độ tin cậy của nguồn dữ liệu
Vì vậy trách nhiệm của người nghiên cứu là phải đảm bảo tính chính xác của dữ liệu, phải kiểm tra xem các kết quả nghiên cứu của người khác là dựa vào dữ liệu thứ cấp hay sơ cấp Vì vậy điều quan trọng và phải kiểm tra
dữ liệu gốc
Trang 5NỘI DUNG
3 Phân loại
- Dữ liệu thứ cấp bên trong
Khi tìm kiếm dữ liệu thứ cấp nên bắt đầu từ các nguồn bên trong tổ chức
Hầu hết các tổ chức đều có những nguồn thông tin rất phong phú, vì vậy có những dữ liệu có thể sử dụng ngay lập tức
- Dữ liệu thứ cấp bên ngoài
Những nguồn dữ liệu thứ cấp bên ngoài là các tài liệu đã được xuất bản.Sự phát triển của mạng thông tin toàn cầu đã tạo nên một nguồn dữ liệu vô cùng phong phú và đa dạng, đó là các dữ liệu thu thập từ internet
Trang 64 Các bước thu thập dữ liệu thứ cấp
s
1 Xác định dữ liệu cần có cho một cuộc nghiên cứu
2 Xác định dữ liệu thứ cấp có thể thu thập từ nguồn bên trong (xác định tõ loại và nơi cung cấp)
3 Xác định dữ liệu thứ cấp có thể thu thập từ nguồn bên ngoài (loại dữ liệu và nguồn)
Trang 74 Các bước thu thập dữ liệu thứ cấp
4 Tiến hành thu thập dữ liệu thứ cấp
5.Tiến hành nghiên cứu chi tiết giá trị dữ liệu
6 Hình thành các dữ liệu thứ cấp cần thu thập từ các nguồn tư liệu gốc
Trang 85 Các nguồn thu thập dữ liệu thứ cấp
Trang 95 Các nguồn thu thập dữ liệu thứ cấp
Dữ liệu thứ cấp dựa trên khảo sát
Là những dữ liệu thu thập được bằng cách sử dụng chiến lược khảo sát, thường dùng những bảng câu hỏi đã được phân tích cho mục đích ban đầu của chúng
Dữ liệu thứ cấp dựa trên khảo sát đã được thu thập qua một trong ba loại khảo sát: điều tra thống kê, các cuộc khảo sát liên tục và khảo sát đặc biệt
Trang 10Chia sẻ nguồn tài liệu
Tài liệu trực tuyến miễn phí của Ngân hàng thế giới Worldbank
1 Tài liệu dự án của Ngân hàng thế giới www.worldbank.org/projects
2 Tài liệu và báo cáo của Ngân hàng thế giới www.worldbank.org/documents
3 Kho dữ liệu mở của Ngân hàng thế giới http://data.worldbank.org// ==> Data Catalog
4 Thư viện điện tử của Ngân hàng thế giới www.worldbank.org/elibrary
Trang 11
Chia sẻ nguồn tài liệu
–Nguồn dữ liệu về các nước liên quan tới chỉ số kinh tế, xã hội theo năm: data.worldbank.org hoặc http://databank.worldbank.org/
–Nguồn dữ liệu Bộ thương binh xã hội: molisa.gov.vn
–Nguồn dữ liệu từ bộ tài chính: mof.gov.vn
–Nguồn dữ liệu từ tổng hợp kinh tế xã hội Việt Nam: gso.gov.vn
–Nguồn dữ liệu liên quan tới xuất nhập khẩu: trademap.org
Trang 12Đề tài nghiên cứu:
Quan hệ giữa sinh kế và tình trạng nghèo ở nông
thôn Việt nam
Tác giả: Trần Tiến Khai
Nguyễn Ngọc Danh
Trang 14NGUỒN DỮ LIỆU THỨ CẤP SỬ DỤNG TRONG ĐỀ TÀI
Bài nghiên cứu dựa vào các dữ liệu thứ cấp để phân tích và đánh giá:
Nguồn dữ liệu thu thập như:
– (World Bank Institute, 2005)
Trang 15NGUỒN DỮ LIỆU THỨ CẤP SỬ DỤNG TRONG ĐỀ TÀI
Đặc biệt sử dụng bộ dữ liệu:
Nghiên cứu sử dụng bộ dữ liệu Điều tra mức sống hộ gia đình Việt Nam năm 2008 (VHLSS 2008) do Tổng cục Thống kê thực hiện với sự hỗ trợ của Ngân hàng thế giới
và Chương trình phát triển Liên hợp quốc (UNDP)
Bộ dữ liệu được thu thập từ 9.189 hộ gia đình ở 8 vùng kinh tế - xã hội bao gồm cả khu vực thành thị và nông thôn với mẫu phiếu điều tra 1B-PVH/KSMS08 Tuy nhiên nghiên cứu này chỉ sử dụng dữ liệu của 6.837 hộ gia đình nông thôn cho phân tích
Các phương pháp phân tích đa biến như Principle Component Analysis, Multiple
Correspondence Analysis(MCA) và Cluster Analysis được sử dụng để khám phá các vấn đề nghiên cứu
Trang 16CÁC BƯỚC PHÂN TÍCH DỮ LIỆU
Dữ liệu được phân tích theo 4 bước sau:
Bước 1 Mô tả các đặc trưng kinh tế - xã hội của hộ nông thôn Thống
kê mô tả và phân tích tương quan được áp dụng để mô tả tình hình tổng quát của hộ và khám phá các quan hệ giữa các biến dùng làm chỉ báo cho nghèo đa chiều Tương quan giữa tình trạng nghèo đơn chiều dựa trên chi tiêu bình quân đầu người và các chỉ báo về tài sản sinh
kế cũng được phân tích
Trang 17CÁC BƯỚC PHÂN TÍCH DỮ LIỆU
Dữ liệu được phân tích theo 4 bước sau:
Bước 2 Xác định các biến phù hợp đại diện cho bốn nhóm tài sản
sinh kế để sử dụng như các chỉ báo tổng hợp của nghèo đa chiều Hai phương pháp phân tích thống kê đa biến Principal Components Analysis và Multiple Correspondence Analysis sẽ được áp dụng
Trang 18CÁC BƯỚC PHÂN TÍCH DỮ LIỆU
Dữ liệu được phân tích theo 4 bước sau:
Bước 3: Phân loại hộ nông thôn theo tình trạng nghèo đa chiều dựa
trên các chỉ báo của bốn nhóm tài sản sinh kế đã xác định ở Bước 2
Áp dụng phương pháp phân tích thống kê đa biến Clustering Analysis để phân loại
Trang 19CÁC BƯỚC PHÂN TÍCH DỮ LIỆU
Dữ liệu được phân tích theo 4 bước sau:
Bước 4: So sánh phân bố của hộ gia đình theo hai cách phân loại
nghèo đơn chiều dựa trên chi tiêu và nghèo đa chiều dựa trên các chỉ báo tài sản sinh kế Thống kê mô tả và phân tích phương sai được áp dụng để chỉ ra hiệu quả của phân loại hộ nghèo đa chiều
Trang 20CÁC PHƯƠNG PHÁP ĐƯỢC SỬ DỤNG TRONG PHÂN TÍCH DỮ LIỆU THỨ CẤP
1 Phân tích Principle Component Analysis (PCA)
2 Phân tích Multiple Correspondence Analysis (MCA)
Trang 21Bảng 1: Mô tả các biến trích ra từ bộ dữ liệu VHLSS 2008
Nhóm tài sản sinh kế Phân loại theo VHLSS Biến Thang đo, mô tả Nguồn mục ghi, Phiếu điều
của một thành viên của hộ
Tỷ số: tổng số năm đi học của tất cả các thành viên gia đình chia cho số thành viên gia đình
m2ac1, Muc02_1B
cấp cao nhất mà thành viên trong gia đình có được
m2ac3, Muc02_1B
năm
Tỷ số: tổng số thành viên trong hộ có đau ốm trong vòng
m3bc10a, Muc03_1B
Trang 22ĐIỂM MẠNH VÀ GIỚI HẠN CỦA BÀI NGHIÊN CỨU
Điểm mạnh:
các chỉ số đo lường nghèo đa chiều như Chỉ số nghèo tổng hợp (Composite
Indicator of Poverty - CIP) hay Chỉ số nghèo đa chiều (Multidimensional Poverty Index - MPI) thay vì chỉ dựa vào kinh nghiệm hay các phân tích thống kê đơn
biến giản đơn
Hạn chế:
Nghiên cứu nên sử dụng bộ dữ liệu cập nhật hơn
Ví dụ: Bộ dữ liệu điều tra mức sống hộ gia đình Việt Nam 2010