Tầm quan trọng của dữ liệu bảng Việc sử dụng dữ liệu bảng trong nghiên cứu mang lại rất nhiều thuận lợi nhưng cũng nhiều vấn đề trong hồi quy so với dữ liệu cross-sectional và dữ liệu chuỗi thời gian. Dưới đây là một số đặc điểm cần lưu ý khi xử lý dữ liệu bảng
Trang 19/15/21, 2:52 PM Hồi quy dữ liệu bảng – Phần 1 – How to STATA
How to STATA
A set of guides and tutorials for beginners on using Stata effectively
Hồi quy dữ liệu bảng – Phần 1
Posted on February 19, 2019 by Chung Mai
Tầm quan trọng của dữ liệu bảng
Việc sử dụng dữ liệu bảng trong nghiên cứu mang lại rất nhiều thuận lợi nhưng cũng nhiều vấn đề trong hồi quy so với dữ liệu cross-sectional và dữ liệu chuỗi thời gian Dưới đây là một số đặc điểm cần lưu ý khi xử lý
dữ liệu bảng (Baltagi, 1995, p.3-6)
Dữ liệu bảng bao gồm nhiều đối tượng và tại nhiều mốc thời gian khác nhau Hay nói cách khác, dữ liệu bảng là sự kết hợp giữa dữ liệu cross-sectional và dữ liệu theo thời gian Vậy nên, nghiên cứu sử dụng dữ liệu bảng có thể khai thác được nhiều thông tin hơn, nhiều dữ liệu hơn, ít hiện tượng tương quan mạnh giữa các biến, hồi quy hiệu quả hơn
Dữ liệu bảng là dữ liệu động cho nhiều đối tượng, vì vậy cho phép chúng ta nghiên cứu các hiện tượng tốt hơn xét trong mối quan hệ giữa các đối tượng
Tuy nhiên, một trong những vấn đề lớn và rất khó giải quyết của dữ liệu bảng là tính không đồng nhất của dữ liệu “heterogeneity” Ví dụ trong một mẫu dữ liệu bảng liên quan đến các số liệu tài chính của doanh nghiệp, khi các số liệu của các doanh nghiệp siêu vi mô và các doanh nghiệp siêu lớn đều được thu thập thì tính không đồng nhất của dữ liệu càng lớn Đây là một trong những vấn đề quan trọng cần phải xem xét khi xử lý dữ liệu bảng
Các trạng thái dữ liệu bảng:
Nếu số các khoản thời gian quan sát (t) = số đối tượng (i) thì dữ liệu bảng này là cân bằng (balanced panel) Tuy nhiên, thuật ngữ balanced panel thường được hiểu là mẫu dữ liệu có đầy đủ các dữ liệu cho các đối tượng và các khoản thời gian
Nếu t>i (nhiều năm quan sát nhưng ít đối tượng) thì dữ liệu bảng này được gọi là dữ liệu bảng dài (long panel)
Nếu t<I (nhiều đối tượng, ít năm quan sát) thì dữ liệu bảng này được gọi là dữ liệu bảng ngắn (short panel)
Thông thường các mẫu dữ liệu panel trong nghiên cứu thường hay rơi vào dạng short panel Vậy nên, ad sẽ liệt kê các lệnh STATA để hồi quy panel data theo trạng thái dữ liệu này nhé
Trang 29/15/21, 2:52 PM Hồi quy dữ liệu bảng – Phần 1 – How to STATA
Một số lưu ý với hồi quy dữ liệu bảng:
Sự thiếu dữ liệu trong mẫu nên là thiếu ngẫu nhiên chứ không phải thiếu dữ liệu mang tính hệ thống Sai số của mô hình có xu hướng tương quan với nhau hay còn gọi là hiện tượng tự tương quan –
autocorrelation (Mô hình hồi quy chuẩn là mô hình mà sai số mô hình cần phải độc lập nhau)
Các phương pháp hồi quy phụ thuộc vào loại dữ liệu của biến độc lập Một số phương pháp có thể không
hỗ trợ cho các biến time-invariant (biến không thay đổi giá trị theo thời gian – ví dụ như biến giới tính) và biến individual-invariant (biến không thay đổi giá trị giữa các đối tượng khác nhau – ví dụ như biến năm)
Một vài hoặc tất cả hệ số hồi quy của mô hình có thể thay đổi theo từng đối tượng hoặc theo thời gian Các nghiên cứu về dữ liệu bảng thường tập trung vào các mô hình ảnh hưởng cố định Vì các mô hình cho phép các biến độc lập có thể nội sinh – endogenous (biến phụ thuộc vào một hoặc nhiều biến khác trong mô hình) dựa theo điều kiện là chúng chỉ có quan hệ tương quan với thành phần time-invariant của các sai số Một số nghiên cứu khác tập trung vào các mô hình ảnh hưởng ngẫu nhiên với giả định các biến độc lập phải hoàn toàn là biến ngoại sinh – exogenous (biến hoàn toàn độc lập với các biến khác trong mô hình)
Biến lagged của biến phụ thuộc (biến phụ thuộc của một hay nhiều kỳ trước) có thể được đưa vào mô hình để ước lượng các mô hình biến động, thể hiện sự thay đổi của các biến độc lập theo thời gian
Theo ad được biết, có rất nhiều các lệnh stata đã được phát triển để hỗ trợ cho việc chạy hồi quy tuyến tính
dữ liệu bảng Vì bản chất phức tạp của mình nên các phương pháp hồi quy dữ liệu bảng cũng ngày càng trở nên phức tạp để có thể đảm bảo các giả định của mô hình hồi quy tuyến tính không bị vi phạm, giúp đưa ra các kết quả hồi quy đáng tin cậy
Một số phương pháp hồi quy tuyến tính (từ đơn giản đến phức tạp) ad có thể kể tên ở đây bao gồm:
– Pooled OLS
– Pooled GLS
– Fixed-effect model, random-effect model
– IV regression
– General methods of moments
– LSDVC
Trước mắt, trong bài đăng này, ad sẽ giới thiệu với các bạn về cách để xem thông tin dữ liệu, tóm tắt dữ liệu
và các ước lượng pooled OLS nhé
1 Mô tả thông tin dữ liệu bảng
Để biến được loại biến, tên biến, format biến, ta có thể dùng lệnh describe
Nếu chỉ gõ lệnh describe và không đi kèm theo bất cứ thông tin nào khác, STATA sẽ hiển thị thông tin của tất
cả các biến có trong mẫu dữ liệu
Nếu muốn hiển thị thông tin của một hoặc một vài biến cụ thể thì ta cần liệt kê các biến đó ra sau lệnh
describe.
Trang 39/15/21, 2:52 PM Hồi quy dữ liệu bảng – Phần 1 – How to STATA
Ví dụ: describe var1 var2
Hai loại dữ liệu (storage type) phổ biến nhất trong STATA là float và string
Những biến thuộc loại float là những biến có giá trị là các chữ số.
Những biến thuộc loại str… là các biến dạng chuỗi (chữ), chỉ dùng để định danh, không thể dùng trong các
lệnh tóm tắt, thống kê mô tả hay hồi quy panel data được Vì vậy, nếu muốn sử dụng các biến này, chúng ta cần phải chuyển thành biến định dạng float
2 Thực hiện các thống kê mô tả trên dữ liệu (giá trị trung bình, độ lệch chuẩn, giá trị lớn nhất, giá
trị nhỏ nhất)
Các kết quả thống kê mô tả trên dữ liệu bảng có thể dễ dàng có được khi dùng lệnh summarize
Nếu chỉ gõ lệnh summerize và không đi kèm theo bất cứ thông tin nào khác, STATA sẽ hiển thị các kết quả
thống kê mô tả cho tất cả các biến
Nếu muốn tính các giá trị thống kê mô tả của một số biến cụ thể, ta chỉ cần liệt kê các biến đó sau lệnh
summarize
Ví dụ: summarize var1 var2
Kết quả hiển thị của lệnh này bao gồm:
Obs: Số quan sát của biến đó
Mean: Giá trị trung bình
Std Dev: Độ lệch chuẩn
Min: Giá trị nhỏ nhất
Max: Giá trị lớn nhất
Lệnh summarize là một cách tốt để chúng ta có thể kiểm tra xem trong mẫu dữ liệu của mình có những giá trị biến bất bình thường hay không – thường được gọi là outlier Sự tồn tại của các outlier sẽ làm thiên lệch
đi kết quả hồi quy, ảnh hưởng nghiêm trọng đến khả năng giải thích của mô hình Các outlier này phần nào
có thể “bị phát hiện” dựa trên việc phân tích các kết quả thống kê mô tả Độ lệch chuẩn (Standard Deviation – hay được viết tắt là Std Dev) là giá trị có thể giúp chúng ta nhiều nhất trong trường hợp này Nếu giá trị của độ lệch chuẩn là quá lớn, có khả năng rất cao rằng trong mẫu dữ liệu có giá trị nào đó khác xa so với giá trị còn lại đối với một biến nào đó Vậy nên, khi cảm nhận được sự bất thường đó, bạn cần kiểm tra lại mẫu
dữ liệu để mình và có phương pháp xử lý phù hợp với các giá trị outliers
3 Pooled OLS
Thông thường, trước khi chạy hồi quy trên dữ liệu bảng, ta thường hay định nghĩa dữ liệu đó, có nghĩa là báo cho phần mềm biết mẫu dữ liệu của bạn là dữ liệu bảng Để thực hiện điều này, ta dùng lệnh sau:
xtset id t
xtset là câu lệnh
Trang 49/15/21, 2:52 PM Hồi quy dữ liệu bảng – Phần 1 – How to STATA
id: biến thứ tự cho các đối tượng (ví dụ: số thứ tự/mã các doanh nghiệp)
t: biến thứ tự cho các khoản thời gian
STATA sẽ hiển thị kết quả về mức độ đầy đủ trong mẫu dữ liệu của bạn Nếu kết quả là strongly balanced thì điều này có nghĩa dữ liệu của bạn khá đầy đủ
Lệnh OLS dành cho dữ liệu bảng được gọi là Pooled OLS Lệnh này được thực hiện qua câu lệnh regress
(tương tự như câu lệnh cho dữ liệu cross-sectional và dữ liệu theo thời gian)
OLS hoạt động với mọi loại biến, bao gồm cả time-invariant và individual-invariant
Để thực hiện hồi quy, ta chỉ cần gõ câu lệnh:
regress bienphuthuoc biendoclap1 biendoclap2 biendoclap3…
STATA sẽ cho ra các kết quả như R-squared, kiểm định F, các hệ số hồi quy (coef.), sai số chuẩn cho các hệ số hồi quy (std.err), kiểm định t, P-value Cách giải thích các kết quả này hoàn toàn tương tự như cách giải thích kết quả của hồi quy OLS bình thường nhé Các em có thể xem lại ở bài viết này
(h ps://wordpress.com/view/stataguide.wordpress.com) nhé
Đối với dữ liệu bảng, phần dư của mô hình có xu hướng tương quan theo thời gian đối với mỗi đối tượng, vì vậy chúng ta nên sử dụng sai số chuẩn mạnh theo nhóm (cluster-robust standard errors) với việc nhóm là mỗi đối tượng để có thể kiểm soát tình trạng này Để thực hiện hồi quy này, chúng ta chỉ cần thêm lựa chọn vce(cluster id) vào cuối câu lệnh regress ban đầu thôi
Ví dụ: regress bienphuthuoc biendoclap1 biendoclap2 biendoclap3, vce(cluster id)
Lúc này kết quả sai số mà bạn thu được sẽ là sai số chuẩn Việc chạy hồi quy sai số chuẩn mạnh này là cần thiết đối với hồi quy dữ liệu bảng Nếu không, hồi quy pooled OLS thông thường sẽ tự hiểu rằng sai số trong
mô hình hồi quy là độc lập và phân phối chuẩn – mà điều này khó có thể có được khi hồi quy dữ liệu bảng Dẫu vậy, kết quả chạy hồi quy pooled OLS với sai số chuẩn mạnh trên dữ liệu bảng cũng chưa hắn đáng tin cậy Các bạn cần phải làm các kiểm định khác để đảm bảo rằng các vấn đề khác trong hồi quy như phương sai sai số thay đổi – heteroscedasticity, hiện tượng nội sinh – endogeneity, hiện tượng đa cộng tuyến –
collinearity… trước khi báo cáo kết quả mô hình nhé Nếu trong trường hợp các hiện tượng này tồn tại và không thể giải quyết được, chúng ta cần phải dùng các phương pháp hồi quy khác để có thể có được kết quả hồi quy tốt hơn Ad sẽ tiếp tục giới thiệu đến các bạn các phương pháp xịn xò khác trong các bài sau nhé
Posted in Uncategorized
3 thoughts on “Hồi quy dữ liệu bảng – Phần 1”
1 Hương says: December 2, 2020 at 7:37 am
Trang 59/15/21, 2:52 PM Hồi quy dữ liệu bảng – Phần 1 – How to STATA
Em chào chị ạ!
Em tên là Hương, em đang học tiến sĩ và bắt đầu tập tành vào dùng Stata và nghiên cứu mô hình Khi tìm được trang của chị em như bắt được vàng vậy, nhưng gì chị chia sẻ rất dễ hiểu và em có thể thực hành luôn trên bộ dữ liệu của em Em hi vọng trong thời gian tới chị sẽ có nhiều bài viết về các mô hình hồi quy dữ liệu bảng hơn nữa ạ
Trước hết, chị có thể giải thích cho e sự khác biêt giữa các lênh merge trong stata được không ạ? Mãi mà
em không phân biệt được khi nào dùng 1:1, 1:m, m:1 và đặc biệt là m:m
Em cảm ơn chị nhiều ạ và chúc chị sức khỏe tốt, công tác tốt ạ!
Reply
Chung Mai says: December 3, 2020 at 3:42 pm
Chào bạn, cảm ơn bạn đã hỏi về lệnh này nhé Ad cũng nhân dịp này viết luôn bài chia sẻ về cách sử dụng lệnh merge và append đây Bạn tham khảo theo link này nhé:
h ps://stataguide.wordpress.com/2020/12/03/lenh-merge-va-append-de-sap-nhap-du-lieu/?
preview=true
Trong bài viết này mình chỉ giới thiệu về 1:1, 1:m và m:1 thôi Đối với m:m thì chúng ta không nên sử dụng Cách sáp nhập này chỉ hiệu quả khi và chỉ khi số lượng quan sát theo các biến chung là hoàn toàn giống nhau giữa hai bộ dữ liệu Nếu số lượng quan sát không bằng nhau, tự động các quan sát trong bộ dữ liệu ngắn hơn sẽ lặp đi lặp lại quan sát cuối cùng sao cho bằng với số lượng quan sát của
bộ dữ liệu dài hơn Vô hình chung, cách sáp nhập này làm sai lệch đi bản chất của dữ liệu
Reply
2 Hương says: December 16, 2020 at 1:59 pm
Em cảm ơn chị rất nhiều về bài viết về lệnh Merge và Append ạ! Sau khi đọc xong bài viết đó em đã hiểu vấn đề rồi ạ!
Reply
Website Powered by WordPress.com.