Thốngkê và phân tích dữ liệu
Trang 1Thống kê và phân tích dữ liệu
I Mô tả các biến khả dụng
Thực hiện lệnh describe trên Stata, ta được bảng thống kê dữ liệu:
des
Contains data from C:\Users\Admin\Desktop\PPNC_KHOAHOC\file data_full\16.DTA
obs: 807
vars: 10 16 Sep 1996 16:23
size: 19,368
storage display value
variable name type format label variable label
-educ float %9.0g years of schooling
cigpric float %9.0g state cig price, cents/pack
white byte %8.0g =1 if white
age byte %8.0g in years
income int %8.0g annual income, $
cigs byte %8.0g cigs smoked per day
restaurn byte %8.0g =1 if rest smk restrictions
lincome float %9.0g log(income)
agesq int %9.0g age^2
lcigpric float %9.0g log(cigprice)
-Sorted by:
B ng ảng 1 Danh sách các bi n s li t kê ến số liệt kê ố liệt kê ệt kê
=> Nhìn vào bảng 1, cho ta cái nhìn sơ lược nhất về mẫu quan sát và ý nghĩa
hiện và tổng kích cỡ của bộ dữ liệu là 19368 dữ liệu Để đơn giản hơn ta giải thích ý nghĩa cụ thể như sau:
Trang 2Tên biến Kiểu dữ liệu Dạng hiển thị Ý nghĩa
cigpric Số thực Độ dài 9 chữ số Giá một bao thuốc lá, đơn vị cent/bao
white Số nguyên Độ dài 8 chữ số Bằng 1 nếu là người da trắng
income Số nguyên Độ dài 8 chữ số Thu nhập
restaur
lincome Số thực Độ dài 9 chữ số Loga tự nhiên của thu nhập
agesq Số nguyên Độ dài 9 chữ số Độ tuổi bình phương
lcigpric Số thực Độ dài 9 chữ số Loga tự nhiên của giá một bao thuốc
Bảng 2 Giải thích chi tiết các biến được chọn
Sau quá trình phân tích và đối chiếu các số liệu, nhóm quyết định chọn ra 5 biến ngẫu nhiên rời rạc trong tổng số 10 biến làm biến độc lập trong mô hình, gồm các biến
định lượng: “income”, “cigpric”, “educ”, “age” và biến số định tính “restaurn”
được lượng hóa, để xét mối tương quan của từng biến với biến phụ thuộc được chọn
là: “cigs” Mục đích của nhóm là đánh giá tác động của các biến như thu nhập, chủng
tộc, trình độ giá dục, độ tuổi và một khía cạnh trong trong luật để giải thích cho việc
số điếu thuốc trung bình được tiêu thụ trong một ngày của một người tiêu dùng ngẫu nhiên
Thực hiện lệnh tabulate với một số biến của mô hình
Thực hiện lệnh tabulate với biến cigs Ta được:
. tab cigs
Trang 3cigs |
smoked per |
day | Freq Percent Cum.
0 | 497 61.59 61.59
1 | 7 0.87 62.45
2 | 5 0.62 63.07
3 | 5 0.62 63.69
4 | 2 0.25 63.94
5 | 7 0.87 64.81
6 | 3 0.37 65.18
7 | 2 0.25 65.43
8 | 3 0.37 65.80
9 | 2 0.25 66.05
10 | 28 3.47 69.52
11 | 2 0.25 69.76
12 | 4 0.50 70.26
13 | 2 0.25 70.51
14 | 1 0.12 70.63
15 | 23 2.85 73.48
16 | 1 0.12 73.61
18 | 3 0.37 73.98
19 | 1 0.12 74.10
20 | 101 12.52 86.62
25 | 7 0.87 87.48
28 | 3 0.37 87.86
30 | 42 5.20 93.06
33 | 1 0.12 93.18
35 | 2 0.25 93.43
40 | 37 4.58 98.02
50 | 6 0.74 98.76
55 | 1 0.12 98.88
60 | 8 0.99 99.88
80 | 1 0.12 100.00
Total | 807 100.00
Bảng 3 Bảng mô tả số lượng và tấn suất xuất hiện
Quan sát bảng tần suất của biến số điếu thuốc trung bình được hút trong một ngày (cigs) ta biết được tần suất lớn nhất là 497 của quan sát 0, như vậy số người
Trang 4không hút thuốc trong một ngày chiếm tỷ lệ cao nhất đạt 61,59% Tiếp theo sau lần lượt là quan sát: 20 điếu một ngày với tần suất 101 lần xuất hiện, 30 điếu một ngày với 42 lần quan sát được Như vậy, có thể thấy được là trong mẫu trên tỷ trọng người không điếu thuốc nào trong một ngày là cao nhất điều này ảnh hưởng rất lớn tới hệ số tương quan của mô hình sẽ chạy về sau
tab income
annual | income, $ | Freq Percent Cum.
500 | 5 0.62 0.62
1500 | 10 1.24 1.86
2500 | 10 1.24 3.10
3500 | 19 2.35 5.45
4500 | 13 1.61 7.06
5500 | 15 1.86 8.92
6500 | 32 3.97 12.89
8500 | 61 7.56 20.45
12500 | 125 15.49 35.94
20000 | 247 30.61 66.54
30000 | 270 33.46 100.00 Total | 807 100.00
Bảng 4 Bảng mô tả số lượng và tấn suất xuất hiện
Quan sát bảng tần số và xác suất phân bố ở trên, có thể dễ dàng nhận ra thu tần
số xuất hiện nhiều thường thấy ở 3 mức thu nhập cao nhất Cụ thể, mức 30000$ có tần suất xuất hiện cao nhất là 270 lần, mức 20000$ có tần suất xuất hiện thứ 2 là 247 lần
và mức 12500$ có tần suất là 125 lần, sau đó giảm dần tần suất theo các mức độ giảm của thu nhập Như vậy, trong mẫu này, thu nhập cao từ 12500$ chiếm tỷ trong áp đảo gần 80% tần suất xuất hiện
Trang 5Tiếp theo, để biết được thông tin liên quan đến dữ liệu thống kê của một biến bất
kì trong mẫu trên (số quan sát, giá trị trung bình, độ lệch chuẩn, giá trị lớn nhất, nhỏ
Thực hiện lệnh summarize với các biến kể trên, ta có:
sum cigs educ cigpric age income restaurn
Variable | Obs Mean Std Dev Min Max cigs | 807 8.686493 13.72152 0 80 educ | 807 12.47088 3.057161 6 18 cigpric | 807 60.30041 4.738469 44.004 70.129 age | 807 41.23792 17.02729 17 88 income | 807 19304.83 9142.958 500 30000 restaurn | 807 .2465923 .4312946 0 1
B ng ảng 5 Mô t thông tin các bi n đ ảng ến số liệt kê ược chọn c ch n ọn
Theo như hiển thị ở bảng 5, theo thứ tự từ trái qua phải: Cột 1 cho biết tên các biến, cột 2 cho biết số quan sát của từng biến, cột 3 cho biết giá trị trung bình của từng biến, cột 4 cho biết độ lệch chuẩn của từng biến, cột 5 và cột 6 lần lượt là giá trị lớn nhất và giá trị nhỏ nhất Như đã nói ở trên, nhóm đã chọn ra các biến để đưa vào mô hình hồi quy của mình, chính vì vậy nhóm sẽ miêu tả lại khái quát các biến đó như sau: Biến cigs có 807 quan sát, giá trị trung bình là 8,6864493, giá trị sai số tiêu chuẩn
là 13,72152 và giá trị lớn nhất/ nhỏ nhất lần lượt là: 18 và 6 v.v
Tiếp tục, nếu muốn biết chi tiết hơn về mô tả của một biến cụ thể ta dùng lệnh
cụ thể như sau:
Thực hiện lệnh tương tự, kèm thêm chữ detail ngay sau dấu phẩy.
Trang 6sum cigs, detail
cigs smoked per day
Percentiles Smallest
1% 0 0
5% 0 0
10% 0 0 Obs 807 25% 0 0 Sum of Wgt 807
50% 0 Mean 8.686493 Largest Std Dev 13.72152 75% 20 60
90% 30 60 Variance 188.28 95% 40 60 Skewness 1.651144 99% 60 80 Kurtosis 5.413087
Bảng 6 Mô tả chi tiết biến cigs
Bảng 6, nêu rõ tất cả các mô tả chi tiết nhất về biến phụ thuộc cigs Các thành phần được sắp xếp theo mức độ phần trăm
Để biết được quan hệ tương quan giữa 2 hay nhiều biến với nhau, ta sử dụng lệnh
correlate, cụ thể như sau:
Thực hiện lệnh correlate cho các biến được chọn:
corr cigs educ cigpric age income restaurn
(obs=807)
| cigs educ cigpric age income restaurn
cigs | 1.0000
educ | -0.0487 1.0000
cigpric | -0.0114 0.0310 1.0000
age | -0.0415 -0.1806 0.0293 1.0000
income | 0.0532 0.3344 0.0480 -0.0640 1.0000
restaurn | -0.0871 0.0605 0.1392 -0.0389 0.1060 1.0000
Trang 7Bảng 7 Thống kê tương quan giữa các biến
Kết quả :
với một biến độc lập càng cao thì càng tốt (cao được hiểu là càng gần về 2 phía -1 hoặc 1), và ngược lại càng thấp khi càng gần 0 Qua Bảng 7, cho ta các kết quả như
sau: Tương quan cùng biến cho kết quả bằng 1, như đã nói trên khi chọn biến cigs là biến phụ thuộc thì các tương quan của biến giải thích restaurn với cigs là lớn nhất bằng (-0,0871), sếp sau lần lượt là các biến, income, educ, age và cuối cùng là cigpric Trong đó, biến educ, cigpric, age và restaurn là biến động ngược chiều với biến phụ thuộc cigs, chỉ có biến income còn lại là biến động cùng chiều Cụ thể như
sau:
Biến số Giá trị r(yi, xj) Ý nghĩa
educ - 0.0487 Tương quan âm (có nghĩa là trình độ giáo
dục càng thấp thì hút thuốc lá càng nhiều
và ngược lại)
cigpric - 0.0114 Tương quan âm (có nghĩa là giá thuốc lá
càng cao thì số điếu thuốc hút trong ngày càng giảm và ngược lại)
age - 0.0415 Tương quan âm (có nghĩa là tuổi càng cao
thì hút thuốc càng ít và ngược lại)
income 0.0532 Tương quan dương (có nghĩa là khi thu
nhập tăng thì số điếu thuốc tiêu thụ trong ngày càng cao và ngược lại)
restaur
n - 0.0871 Tương quan âm (có nghĩa là nhà hàng cấmhút thuốc thì số điếu thuốc được hút giảm
và ngược lại)
B ng ảng 8 T ương quan các biến độc lập so với biến phụ thuộc ng quan các bi n đ c l p so v i bi n ph thu c ến số liệt kê ộc lập so với biến phụ thuộc ập so với biến phụ thuộc ới biến phụ thuộc ến số liệt kê ụ thuộc ộc lập so với biến phụ thuộc
Cùng với bảng tương quan giữa các biến độc lập với biến phụ thuộc cigs ta có có
xác định được xem là các biến độc lập đưa vào mô hình có tương quan với nhau hay không? Và mức độ tương quan như thế nào? Nếu mức độ tương quan giữa 2 biến độc
Trang 8lập bất kì càng cao (r(x i, x j ) > 0,8) thì mô hình sẽ bị mắc bệnh Đa cộng tuyến rất cao.
Cụ thể như sau:
corr educ cigpric age income restaurn
(obs=807)
| educ cigpric age income restaurn
educ | 1.0000
cigpric | 0.0310 1.0000
age | -0.1806 0.0293 1.0000
income | 0.3344 0.0480 -0.0640 1.0000
restaurn | 0.0605 0.1392 -0.0389 0.1060 1.0000
Bảng 9 B ng t ảng ương quan các biến độc lập so với biến phụ thuộc ng quan gi a các bi n đ c l p c a mô hình ữa các biến độc lập của mô hình ến số liệt kê ộc lập so với biến phụ thuộc ập so với biến phụ thuộc ủa mô hình
thấp hơn 0,8 Từ đó suy ra, các biến được chọn ngẫu nhiên làm biến độc lập có
tương quan thấp với nhau và mô hình không bị mắc bệnh Đa cộng tuyến.
II Phân tích dữ liệu
Trong phần này, nhóm tập trung vào tìm hiểu tác động của 5 biến ngẫu nhiên rời
rạc đã được chọn ở trên (bao gồm: cigs, income, age, restaurn, cigpric, educ) đến số điếu thuốc hút trong một ngày (cigs) bằng phương pháp ước lượng bình phương nhỏ
nhất OLS (Ordinary Least Squared)
Những đánh giá và kết luận trong phần này sẽ dựa trên kết quả chạy mô hình hồi quy đa biến tổng quát:
Y = β o + β 1 *XX 1 + β 2 *XX 2 + β 3 *XX 3 + β 4 *XX 4 + β 5 *XX 5 + u i
β1 đến β5 là các h s góc tệ số góc tương ứng của các biến X ố góc tương ứng của các biến X ương ứng của các biến Xng ng c a các bi n Xứng của các biến X ủa các biến X ến X 1 đ n Xến X 5 c a mô hìnhủa các biến X
X1 đ n Xến X 5 là các bi n đ c l p c a mô hìnhến X ộc lập của mô hình ập của mô hình ủa các biến X
Trang 9 ui là thành ph n nhi u c a mô hìnhần nhiễu của mô hình ễu của mô hình ủa các biến X
Với các biến số đã chọn, ta có:
ui Thành phần nhiễu của mô hình
Thực hiện lệnh hồi quy regress:
Bảng 10 Kết quả hồi quy mô hình cho các biến đã chọn
Mô hình sau khi chạy trên stata 12 cho kết quả như Bảng 9, phương trình hồi quy của mẫu được chọn như sau:
_cons 13.01946 6.551227 1.99 0.047 1598616 25.87906 restaurn -2.982192 1.130995 -2.64 0.009 -5.202256 -.7621274 income 0001306 .000056 2.33 0.020 0000207 .0002405 age -.0438986 .028707 -1.53 0.127 -.1002484 .0124512 cigpric 0046741 .1024819 0.05 0.964 -.1964908 .2058389 educ -.3680468 .169172 -2.18 0.030 -.7001196 -.0359739 cigs Coef Std Err t P>|t| [95% Conf Interval] Total 151753.683 806 188.280003 Root MSE = 13.633 Adj R-squared = 0.0129 Residual 148865.047 801 185.848998 R-squared = 0.0190 Model 2888.63535 5 577.72707 Prob > F = 0.0087 F( 5, 801) = 3.11 Source SS df MS Number of obs = 807 reg cigs educ cigpric age income restaurn
Trang 10Y = 13.01946 - 0.368468* X1 + 0.0046741* X2 – 2.982192* X3+
Kiểm định giả thiết thống kê:
Kiểm định sự phù hợp của mô hình.
Sau khi chạy mô hình, để kiểm tra sự phù hợp của mô hình ta có thể dùng 2 công cụ: Kiểm định thống kê F-statistic của mô hình, hoặc điểm định giá trị P-value của giá trị
hơn thì sẽ được sử dụng để kiểm định
H1: R 2 > 0
đó có nghĩa mô hình nhóm chọn là phù hợp và có thể sử dụng để phân tích thống kê
Kiểm định mức độ ảnh hưởng của các biến độc lập đối với biến phụ thuộc
Như đã phân tích ở trên, chúng ta đều thừa nhận rằng các biến độc lập có tương quan với biến phụ thuộc Tuy nhiên, chưa hẳn rằng sự tương quan đó thực sự nói lên rằng các biến độc lập đã thực sự ảnh hưởng tới biến phụ thuộc Chính vì lẽ đó, ta đi tới kiểm định giả thiết thống kê:
Có 3 công cụ để kiểm định giả thiết thống kê đó là: dùng thống kê t, giá trị P>ItI
và khoảng tin cậy Cả 3 công cụ này đều cho cùng một kết quả, như vậy công cụ nào thuận tiện ta sẽ sử dụng, nhóm quyết định chọn công cụ giá trị P>ItI
H1: β1#0
Xét thấy P-value của kiểm định t của biến educ cho kết quả là 0.03 < 10%) từ đây
cigs
Trang 11H1: β1#0
P-value của kiểm định t của biến cigpric cho kết quả 0.964 > 10%) từ đây có căn
cigs.
H1: β1#0
Biến restaurn cho kết quả P-value của kiểm định t là 0.009< 10%) từ đây có căn
cứ bác bỏ Ho Đồng nghĩa với việc biến restaurn có ảnh hưởng tới biến phụ thuộc cigs.
H1: β1#0
Biến age cho kết quả P-value của kiểm định t là 0.127 > 10%) từ đây có căn cứ
H1: β1#0
Biến income cho kết quả P-value của kiểm định t là 0.020 < 10%) từ đây có căn
Kết quả cụ thể được thể hiện trong bảng sau: (Với mức ý nghĩa 10%)
Tên biến Giá trị P > ItI Mức độ tác động
Trang 12restaurn 0.009 Có ảnh hưởng tới biến cigs
Bảng 11 Tác động của các biến độc lập lên biến phụ thuộc
Kết luận:
Như vậy có thể thấy ngoại trừ biến cigpric và age là không ảnh hưởng tới biến phụ thuộc cigs còn thì các biến còn lại đều ảnh hưởng tới biến phụ thuộc cigs.
Như vậy đã xác định được tính chất ảnh hưởng của các biến độc lập với biến phụ
thuộc cigs Vậy mức độ ảnh hưởng của các biến độc lập tới biến phụ thuộc như thế
nào! Mức độ ảnh hưởng được phân tích như sau:
Đầu tiên, dể dàng nhận thấy trong điều kiện các yếu tố khác không đổi, khi các biến độc lập không có tác động thì tỷ lệ số điếu thuốc được hút trung bình 1 ngày là
13.01946%
Xét với biến độc lập educ ta có: ^ β1 = - 0.368468 điều này đồng nghĩa trong điều
kiện các yếu tố khác không đổi, số năm đi học giảm đi thì tỷ lệ hút thuốc có xu hướng tăng lên 0.368468 %)
Xét với biến độc lập cigpric ta có: ^ β2 = 0.0046741 điều này mang ý nghĩa Trong
điều kiện các yếu tố khác không đổi, khi giá thuốc tăng th số điếu thuốc cũng tăng
0.0046741%.
Xét với biến độc lập restaurn ta có: ^ β3 = – 2.982192 điều này mang ý nghĩa Trong điều kiện các yếu tố khác không đổi, có nghĩa là nhà hàng cấm hút thuốc thì số điếu thuốc được hút giảm 2.982192 %
Xét với biến độc lập income ta có: ^ β4 = 0.0001306 điều này mang ý nghĩa Trong
điều kiện các yếu tố khác không đổi, thu nhập tăng 1% thì số điếu thuốc tiêu thụ