Tài liệu đầy đủ môn học Phương pháp nghiên cứu kinh tế
Trang 1Phương pháp Nghiên cứu Kinh tế
TS Vũ Hoàng Linh,
Khoa Kinh tế Phát triển,
Đại học Kinh tế, ĐHQG Hà Nội
Email: vhlinh@vnu.edu.vn
1
Trang 2Chương 7: Phân tích dữ liệu
2
Giới thiệu vắn tắt về phần mềm STATA
Bảng phân tích (Tabulation)
Bảng phân tích chéo (Cross-Tabulation)
Hồi quy tuyến tính
Trang 3Giới thiệu về Stata
Có 4 loại cửa sổ trên Stata: Command, Review, Variables và màn hình chính
Cửa sổ Command cho phép đánh các lệnh
Cửa sổ Review liệt kê các lệnh sử dụng gần đây
Cửa sổ Variables liệt kê các biến (variables) trong file dữ liệu
Màn hình chính hiển thị các kết quả
Trang 4Giới thiệu về Stata
Nhập liệu từ Stata: Có ba cách chính
Vào Menu Data sau đó chọn Data Editor (hoặc dùng lệnh Edit trên cửa sổ Command) rồi nhập liệu trực tiếp
Nhập liệu trên Excel sau đó lưu file dưới dạng csv (comma delimited) Sau đó từ Stata vào File
=> Import => ASCII data created by a spreadsheet rồi chọn file Chú ý là phải chọn file type là All để hiển thị file cần chọn.
Nhập liệu trên Excel Mở đồng thời Excel và Stata Sau khi nhập liệu xong chọn bảng cần sử dụng Vào Stata, chọn Menu Data sau đó chọn Data Editor (hoặc dùng lệnh Edit trên cửa sổ Command) rồi nhấn chuột phải để Paste (hay Ctrl + V).
Trang 5Giới thiệu về Stata
Sau khi nhập liệu, có thể save file với lệnh save hoặc vào File rồi chọn Save as File sẽ được xếp với đuôi là dta
Mở file dta bằng cách chọn File rồi Open
Mục Help của Stata rất tiện dụng để tra cứu các câu lệnh cần thiết
Trang 6Bảng phân tích
Giả sử chúng ta muốn biết sở hữu xe máy theo hộ theo tổng số hộ (file Eg1)
Lập bảng phân tích
Trang 8Bảng phân tích
Số trung bình:
trong đó xi là giá trị quan sát thứ I, n là số lần quan sát
Tần số h cho biết số tuyệt đối và tần suất f =h/n cho biết phân phối của x
Số trung vị (median) là giá trị nằm giữa của dãy số khi dãy số được xếp theo thứ tự từ thấp tới cao
Nếu giá trị quan sát là số lẻ thì số thứ tự của trung vị là (n+1)/2 Trong ví dụ trên, trung vị ở vị trí thứ 3 và
có giá trị bằng hai
Nếu số quan sát là chẵn thì số trung vị là giá trị trung bình của hai vị trí trung tâm tức là giữa n/2 và
(n/2+1) .
Trang 9Bảng phân tích
Khoảng biến thiên = Xmax – Xmin thể hiện độ ổn định của dữ liệu
Độ lệch chuẩn δx là công cụ để so sánh sự đồng nhất của hai dãy phân phối và bằng căn bậc hai của phương sai δx2
Phương sai được tính theo công thức sau
Bài tập: Cho biết trung bình, trung bị, độ lệch chuẩn, khoảng tin cậy của số xe máy của hộ gia đình (biến motorbike)
Trang 10Kiểm định giả thuyết thống kê
10
Phát biểu giả thuyết:
Thế nào là một giả thuyết?
Giả thuyết nguyên trạng (H0) và giả thuyết nghịch (H1)
Kiểm định giả thuyết: Quy trình kiểm định
Quyết định giả thuyết thống kê
Chọn ra mẫu điều tra từ tổng thể
Xác định các tham số mẫu cần kiểm định
Xác định mức ý nghĩa
Vận dụng luật quyết định để quyết định bác bỏ hay chấp nhận giả thuyết cần kiểm định
Trang 11Kiểm định giả thuyết thống kê
11
Phát biểu giả thuyết:
Sai lầm loại I và sai lầm loại II:
Sai lầm loại I: từ chối giả thuyết đúng
Sai lầm loại II: chấp nhận giả thuyết sai
Không có sai lầm xảy ra nếu như giả thuyết nguyên trạng là đúng và chúng ta chấp nhận nó, hoặc giả
thuyết nguyên trạng là sai và chúng ta từ chối nó.
Trang 12Kiểm định giả thuyết thống kê
Bài tập: Kiểm định giả thuyết là một hộ gia đình có trung bình 1,6 xe máy; 1,5; 1,7 xe máy
Xác định hệ số biến thiên (coefficient of variation) cho biến motorbike biết là hệ số biến
thiên CoV
CoV= 100*(độ lệch chuẩn/giá trị trung bình)
Trang 14Kiểm định giả thuyết thống kê: t-test
Kiểm định giả thuyết là giá trị trung bình của hai nhóm tương đương nhau Áp dụng kiểm định
t (t-test)
Ví dụ: Kiểm định giả thuyết là mức độ quan tâm (interest) trung bình của hai nhóm nam và nữ
là như nhau (nam: sex=1, nữ: sex=2)
Câu lệnh STATA: ttest interest, by(sex)
Trang 15Kiểm định giả thuyết thống kê: chi bình phương
Kiểm định giả thuyết là có mối quan hệ giữa hai biến Dùng kiểm định chi bình
phương.
Ví dụ: Kiểm định giả thuyết là có mối quan hệ giữa mức độ quan tâm sản phẩm và giới tính
Câu lệnh STATA: tabulate interest sex, chi2
Bài tập: Kiểm định giả thuyết là có mối quan hệ giữa mức độ quan tâm sản phẩm và trình độ học vấn?
Trang 16Phân tích hệ số tương quan
Hệ số tương quan giữa hai biến
pwcorr interest edu
correlate interest edu sex
Trang 17Phân tích hồi quy tuyến tính đơn giản
Phương trình biểu diễn tương quan giữa hai biến (độc lập và phụ thuộc) là phương trình hồi quy đơn giản.
Giả sử X là biến độc lập, Y là biến phụ thuộc
Y= αX + β là phương trình hồi quy tuyến tính
Câu lệnh Stata: regress y x
Trang 18Phân tích hồi quy tuyến tính đơn giản
Năm Thu nhập quốc dân (Yi) Vốn đầu tư (Xi)
Trang 19Phân tích hồi quy tuyến tính đơn giản
Stata cho kết quả: t-stat=17.8 => biến số capital có ý nghĩa thống kê
R2= 0,976 =>97,6% độ biến thiên của thu nhập quốc dân có thể được giải thích bằng độ biến thiên của vốn
Trang 20Phân tích hồi quy tuyến tính đơn giản
Sau khi hồi quy, có thể tính giá trị dự đoán của hàm income theo phương trình hồi quy:
Cú pháp: predict [tên giá trị dự đoán], xb
Xác định giá trị phần dư (residual)
Cú pháp: predict [phần dư], residual
Vẽ đồ thi nối các điểm trên hình giữa y và x1
Cú pháp: scatter income capital
Trang 21Phân tích hồi quy tuyến tính đơn giản
scatter income capital =>
Trang 22Phân tích hồi quy tuyến tính đơn giản
Trang 23Phân tích hồi quy tuyến tính đơn giản
Lệnh sau sẽ tạo ra hai đường: đường đứt đoạn (scatter) của income và capital và đường thẳng (line)
nối giữa y0 và capital: scatter income capital || line y0 capital
Trang 24Phân tích hồi quy đa biến
Mô hình hồi quy đa biến có dạng Y=f(X)
Với các mô hình phi tuyến tính có thể chuyển thành dạng tuyến tính Ví dụ như với dạng hàm
số mũ có thể chuyển thành tuyến tình bằng cách lấy logaritm hai vé
Hàm sản xuất: Y = AKα Lβ trong đó K, L là quy vốn vốn và lao động Hàm này có thể được chuyển thành dạng tuyến tính như sau:
ln(Y)= ln(A)+ αln(K) + βln(L) hay y= A0 + α x1 + β x2
Trang 25Phân tích hồi quy đa biến
Trang 26Phân tích hồi quy đa biến
Cú pháp câu lệnh trong STATA Lệnh gen (viết tắt của generate) nhằm tạo ra biến mới.
gen y=ln(income)
gen x1=ln(capital)
gen x2=ln(Labor)
regress y x1 x2 year
Trang 27Phân tích hồi quy đa biến
Kết quả mô hình: lưu ý ý nghĩa thống kê các biến, R2
Trang 28Phân tích hồi quy đa biến
Trong mô hình, vốn và lao động có đóng góp tới thu nhập không? Các hệ số của vốn và lao động có
ý nghĩa thống kê không?
Hệ số R2 có ý nghĩa gì?
Nếu vốn tăng 1% thì tăng trưởng kinh tế tăng bao nhiêu %? Nếu lao động tăng 1% thì tăng trưởng
kinh tế tăng bao nhiêu %.
Trang 29Phân tích hồi quy đa biến
Hồi quy với biến giả (dummy variable)
Cũng mô hình và số liệu như trên, giả sử chúng ta dự đoán là việc VN tham gia WTO năm 2007 dẫn tới thay đổi mô hình tăng trưởng.
Áp dụng mô hình với biến giả wto= 1 với các năm từ 2007-2009 và bằng 0 với các năm từ 2000-2006.
Cú pháp trong STATA:
gen wto=0
replace wto=1 if year>=2007
regress y x1 x2 wto
Trang 30Phân tích hồi quy đa biến
Câu hỏi: Biến WTO có ý nghĩa thống kê không?
Viết phương trình hồi quy
Nếu mức ý nghĩa thống kê là 1% thì biến nào có ý nghĩa thống kê
Trang 31Bài tập
Có số liệu như hình bên:
Sử dụng Stata, nhập dữ liệu bằng hai cách
Nhập trực tiếp bằng Stata (lệnh Edit)
Nhập vào Excel rồi Import từ Stata
Chạy hồi quy điểm theo thu nhập gia đình
Trang 32Bài tập (tiếp)
Vẽ biểu đồ điểm (trục Y) theo thu nhập (trục X) trên Stata trong đó có đường thẳng thể hiện phương trình hồi quy
Vẽ biểu đồ điểm (trục Y) theo thu nhập (trục X) trên Excel
Vẽ biểu đồ phần dư (trục Y) theo thu nhập (trục X)