BÁO CÁO GIỮA KỲ Thống kê và phân tích dữ liệu

Thốngkê và phân tích dữ liệu

Trang 1

Thống kê và phân tích dữ liệu

I Mô tả các biến khả dụng

Thực hiện lệnh describe trên Stata, ta được bảng thống kê dữ liệu:

des

Contains data from C:\Users\Admin\Desktop\PPNC_KHOAHOC\file data_full\16.DTA

obs: 807

vars: 10 16 Sep 1996 16:23

size: 19,368

storage display value

variable name type format label variable label

-educ float %9.0g years of schooling

cigpric float %9.0g state cig price, cents/pack

white byte %8.0g =1 if white

age byte %8.0g in years

income int %8.0g annual income, $

cigs byte %8.0g cigs smoked per day

restaurn byte %8.0g =1 if rest smk restrictions

lincome float %9.0g log(income)

agesq int %9.0g age^2

lcigpric float %9.0g log(cigprice)

-Sorted by:

B ng ảng 1 Danh sách các bi n s li t kê ến số liệt kê ố liệt kê ệt kê

=> Nhìn vào bảng 1, cho ta cái nhìn sơ lược nhất về mẫu quan sát và ý nghĩa

hiện và tổng kích cỡ của bộ dữ liệu là 19368 dữ liệu Để đơn giản hơn ta giải thích ý nghĩa cụ thể như sau:

Trang 2

Tên biến Kiểu dữ liệu Dạng hiển thị Ý nghĩa

cigpric Số thực Độ dài 9 chữ số Giá một bao thuốc lá, đơn vị cent/bao

white Số nguyên Độ dài 8 chữ số Bằng 1 nếu là người da trắng

income Số nguyên Độ dài 8 chữ số Thu nhập

restaur

lincome Số thực Độ dài 9 chữ số Loga tự nhiên của thu nhập

agesq Số nguyên Độ dài 9 chữ số Độ tuổi bình phương

lcigpric Số thực Độ dài 9 chữ số Loga tự nhiên của giá một bao thuốc

Bảng 2 Giải thích chi tiết các biến được chọn

Sau quá trình phân tích và đối chiếu các số liệu, nhóm quyết định chọn ra 5 biến ngẫu nhiên rời rạc trong tổng số 10 biến làm biến độc lập trong mô hình, gồm các biến

định lượng: “income”, “cigpric”, “educ”, “age” và biến số định tính “restaurn”

được lượng hóa, để xét mối tương quan của từng biến với biến phụ thuộc được chọn

là: “cigs” Mục đích của nhóm là đánh giá tác động của các biến như thu nhập, chủng

tộc, trình độ giá dục, độ tuổi và một khía cạnh trong trong luật để giải thích cho việc

số điếu thuốc trung bình được tiêu thụ trong một ngày của một người tiêu dùng ngẫu nhiên

Thực hiện lệnh tabulate với một số biến của mô hình

Thực hiện lệnh tabulate với biến cigs Ta được:

. tab cigs

Trang 3

cigs |

smoked per |

day | Freq Percent Cum.

0 | 497 61.59 61.59

1 | 7 0.87 62.45

2 | 5 0.62 63.07

3 | 5 0.62 63.69

4 | 2 0.25 63.94

5 | 7 0.87 64.81

6 | 3 0.37 65.18

7 | 2 0.25 65.43

8 | 3 0.37 65.80

9 | 2 0.25 66.05

10 | 28 3.47 69.52

11 | 2 0.25 69.76

12 | 4 0.50 70.26

13 | 2 0.25 70.51

14 | 1 0.12 70.63

15 | 23 2.85 73.48

16 | 1 0.12 73.61

18 | 3 0.37 73.98

19 | 1 0.12 74.10

20 | 101 12.52 86.62

25 | 7 0.87 87.48

28 | 3 0.37 87.86

30 | 42 5.20 93.06

33 | 1 0.12 93.18

35 | 2 0.25 93.43

40 | 37 4.58 98.02

50 | 6 0.74 98.76

55 | 1 0.12 98.88

60 | 8 0.99 99.88

80 | 1 0.12 100.00

Total | 807 100.00

Bảng 3 Bảng mô tả số lượng và tấn suất xuất hiện

Quan sát bảng tần suất của biến số điếu thuốc trung bình được hút trong một ngày (cigs) ta biết được tần suất lớn nhất là 497 của quan sát 0, như vậy số người

Trang 4

không hút thuốc trong một ngày chiếm tỷ lệ cao nhất đạt 61,59% Tiếp theo sau lần lượt là quan sát: 20 điếu một ngày với tần suất 101 lần xuất hiện, 30 điếu một ngày với 42 lần quan sát được Như vậy, có thể thấy được là trong mẫu trên tỷ trọng người không điếu thuốc nào trong một ngày là cao nhất điều này ảnh hưởng rất lớn tới hệ số tương quan của mô hình sẽ chạy về sau

tab income

annual | income, $ | Freq Percent Cum.

500 | 5 0.62 0.62

1500 | 10 1.24 1.86

2500 | 10 1.24 3.10

3500 | 19 2.35 5.45

4500 | 13 1.61 7.06

5500 | 15 1.86 8.92

6500 | 32 3.97 12.89

8500 | 61 7.56 20.45

12500 | 125 15.49 35.94

20000 | 247 30.61 66.54

30000 | 270 33.46 100.00 Total | 807 100.00

Bảng 4 Bảng mô tả số lượng và tấn suất xuất hiện

Quan sát bảng tần số và xác suất phân bố ở trên, có thể dễ dàng nhận ra thu tần

số xuất hiện nhiều thường thấy ở 3 mức thu nhập cao nhất Cụ thể, mức 30000$ có tần suất xuất hiện cao nhất là 270 lần, mức 20000$ có tần suất xuất hiện thứ 2 là 247 lần

và mức 12500$ có tần suất là 125 lần, sau đó giảm dần tần suất theo các mức độ giảm của thu nhập Như vậy, trong mẫu này, thu nhập cao từ 12500$ chiếm tỷ trong áp đảo gần 80% tần suất xuất hiện

Trang 5

Tiếp theo, để biết được thông tin liên quan đến dữ liệu thống kê của một biến bất

kì trong mẫu trên (số quan sát, giá trị trung bình, độ lệch chuẩn, giá trị lớn nhất, nhỏ

Thực hiện lệnh summarize với các biến kể trên, ta có:

sum cigs educ cigpric age income restaurn

B ng ảng 5 Mô t thông tin các bi n đ ảng ến số liệt kê ược chọn c ch n ọn

Theo như hiển thị ở bảng 5, theo thứ tự từ trái qua phải: Cột 1 cho biết tên các biến, cột 2 cho biết số quan sát của từng biến, cột 3 cho biết giá trị trung bình của từng biến, cột 4 cho biết độ lệch chuẩn của từng biến, cột 5 và cột 6 lần lượt là giá trị lớn nhất và giá trị nhỏ nhất Như đã nói ở trên, nhóm đã chọn ra các biến để đưa vào mô hình hồi quy của mình, chính vì vậy nhóm sẽ miêu tả lại khái quát các biến đó như sau: Biến cigs có 807 quan sát, giá trị trung bình là 8,6864493, giá trị sai số tiêu chuẩn

là 13,72152 và giá trị lớn nhất/ nhỏ nhất lần lượt là: 18 và 6 v.v

Tiếp tục, nếu muốn biết chi tiết hơn về mô tả của một biến cụ thể ta dùng lệnh

cụ thể như sau:

Thực hiện lệnh tương tự, kèm thêm chữ detail ngay sau dấu phẩy.

Trang 6

sum cigs, detail

cigs smoked per day

Percentiles Smallest

1% 0 0

5% 0 0

10% 0 0 Obs 807 25% 0 0 Sum of Wgt 807

50% 0 Mean 8.686493 Largest Std Dev 13.72152 75% 20 60

90% 30 60 Variance 188.28 95% 40 60 Skewness 1.651144 99% 60 80 Kurtosis 5.413087

Bảng 6 Mô tả chi tiết biến cigs

Bảng 6, nêu rõ tất cả các mô tả chi tiết nhất về biến phụ thuộc cigs Các thành phần được sắp xếp theo mức độ phần trăm

Để biết được quan hệ tương quan giữa 2 hay nhiều biến với nhau, ta sử dụng lệnh

correlate, cụ thể như sau:

Thực hiện lệnh correlate cho các biến được chọn:

corr cigs educ cigpric age income restaurn

(obs=807)

| cigs educ cigpric age income restaurn

cigs | 1.0000

educ | -0.0487 1.0000

cigpric | -0.0114 0.0310 1.0000

age | -0.0415 -0.1806 0.0293 1.0000

income | 0.0532 0.3344 0.0480 -0.0640 1.0000

restaurn | -0.0871 0.0605 0.1392 -0.0389 0.1060 1.0000

Trang 7

Bảng 7 Thống kê tương quan giữa các biến

Kết quả :

với một biến độc lập càng cao thì càng tốt (cao được hiểu là càng gần về 2 phía -1 hoặc 1), và ngược lại càng thấp khi càng gần 0 Qua Bảng 7, cho ta các kết quả như

sau: Tương quan cùng biến cho kết quả bằng 1, như đã nói trên khi chọn biến cigs là biến phụ thuộc thì các tương quan của biến giải thích restaurn với cigs là lớn nhất bằng (-0,0871), sếp sau lần lượt là các biến, income, educ, age và cuối cùng là cigpric Trong đó, biến educ, cigpric, age và restaurn là biến động ngược chiều với biến phụ thuộc cigs, chỉ có biến income còn lại là biến động cùng chiều Cụ thể như

sau:

Biến số Giá trị r(yi, xj) Ý nghĩa

educ - 0.0487 Tương quan âm (có nghĩa là trình độ giáo

dục càng thấp thì hút thuốc lá càng nhiều

và ngược lại)

cigpric - 0.0114 Tương quan âm (có nghĩa là giá thuốc lá

càng cao thì số điếu thuốc hút trong ngày càng giảm và ngược lại)

age - 0.0415 Tương quan âm (có nghĩa là tuổi càng cao

thì hút thuốc càng ít và ngược lại)

income 0.0532 Tương quan dương (có nghĩa là khi thu

nhập tăng thì số điếu thuốc tiêu thụ trong ngày càng cao và ngược lại)

restaur

n - 0.0871 Tương quan âm (có nghĩa là nhà hàng cấmhút thuốc thì số điếu thuốc được hút giảm

và ngược lại)

B ng ảng 8 T ương quan các biến độc lập so với biến phụ thuộc ng quan các bi n đ c l p so v i bi n ph thu c ến số liệt kê ộc lập so với biến phụ thuộc ập so với biến phụ thuộc ới biến phụ thuộc ến số liệt kê ụ thuộc ộc lập so với biến phụ thuộc

Cùng với bảng tương quan giữa các biến độc lập với biến phụ thuộc cigs ta có có

xác định được xem là các biến độc lập đưa vào mô hình có tương quan với nhau hay không? Và mức độ tương quan như thế nào? Nếu mức độ tương quan giữa 2 biến độc

Trang 8

lập bất kì càng cao (r(x i, x j ) > 0,8) thì mô hình sẽ bị mắc bệnh Đa cộng tuyến rất cao.

Cụ thể như sau:

corr educ cigpric age income restaurn

(obs=807)

| educ cigpric age income restaurn

educ | 1.0000

cigpric | 0.0310 1.0000

age | -0.1806 0.0293 1.0000

income | 0.3344 0.0480 -0.0640 1.0000

restaurn | 0.0605 0.1392 -0.0389 0.1060 1.0000

Bảng 9 B ng t ảng ương quan các biến độc lập so với biến phụ thuộc ng quan gi a các bi n đ c l p c a mô hình ữa các biến độc lập của mô hình ến số liệt kê ộc lập so với biến phụ thuộc ập so với biến phụ thuộc ủa mô hình

thấp hơn 0,8  Từ đó suy ra, các biến được chọn ngẫu nhiên làm biến độc lập có

tương quan thấp với nhau và mô hình không bị mắc bệnh Đa cộng tuyến.

II Phân tích dữ liệu

Trong phần này, nhóm tập trung vào tìm hiểu tác động của 5 biến ngẫu nhiên rời

rạc đã được chọn ở trên (bao gồm: cigs, income, age, restaurn, cigpric, educ) đến số điếu thuốc hút trong một ngày (cigs) bằng phương pháp ước lượng bình phương nhỏ

nhất OLS (Ordinary Least Squared)

Những đánh giá và kết luận trong phần này sẽ dựa trên kết quả chạy mô hình hồi quy đa biến tổng quát:

Y = β o + β 1 *XX 1 + β 2 *XX 2 + β 3 *XX 3 + β 4 *XX 4 + β 5 *XX 5 + u i

 β1 đến β5 là các h s góc tệ số góc tương ứng của các biến X ố góc tương ứng của các biến X ương ứng của các biến Xng ng c a các bi n Xứng của các biến X ủa các biến X ến X 1 đ n Xến X 5 c a mô hìnhủa các biến X

 X1 đ n Xến X 5 là các bi n đ c l p c a mô hìnhến X ộc lập của mô hình ập của mô hình ủa các biến X

Trang 9

 ui là thành ph n nhi u c a mô hìnhần nhiễu của mô hình ễu của mô hình ủa các biến X

Với các biến số đã chọn, ta có:

ui Thành phần nhiễu của mô hình

Thực hiện lệnh hồi quy regress:

Bảng 10 Kết quả hồi quy mô hình cho các biến đã chọn

Mô hình sau khi chạy trên stata 12 cho kết quả như Bảng 9, phương trình hồi quy của mẫu được chọn như sau:

_cons 13.01946 6.551227 1.99 0.047 1598616 25.87906 restaurn -2.982192 1.130995 -2.64 0.009 -5.202256 -.7621274 income 0001306 .000056 2.33 0.020 0000207 .0002405 age -.0438986 .028707 -1.53 0.127 -.1002484 .0124512 cigpric 0046741 .1024819 0.05 0.964 -.1964908 .2058389 educ -.3680468 .169172 -2.18 0.030 -.7001196 -.0359739 cigs Coef Std Err t P>|t| [95% Conf Interval] Total 151753.683 806 188.280003 Root MSE = 13.633 Adj R-squared = 0.0129 Residual 148865.047 801 185.848998 R-squared = 0.0190 Model 2888.63535 5 577.72707 Prob > F = 0.0087 F( 5, 801) = 3.11 Source SS df MS Number of obs = 807 reg cigs educ cigpric age income restaurn

Trang 10

Y = 13.01946 - 0.368468* X1 + 0.0046741* X2 – 2.982192* X3+

Kiểm định giả thiết thống kê:

Kiểm định sự phù hợp của mô hình.

Sau khi chạy mô hình, để kiểm tra sự phù hợp của mô hình ta có thể dùng 2 công cụ: Kiểm định thống kê F-statistic của mô hình, hoặc điểm định giá trị P-value của giá trị

hơn thì sẽ được sử dụng để kiểm định

H1: R 2 > 0

đó có nghĩa mô hình nhóm chọn là phù hợp và có thể sử dụng để phân tích thống kê

Kiểm định mức độ ảnh hưởng của các biến độc lập đối với biến phụ thuộc

Như đã phân tích ở trên, chúng ta đều thừa nhận rằng các biến độc lập có tương quan với biến phụ thuộc Tuy nhiên, chưa hẳn rằng sự tương quan đó thực sự nói lên rằng các biến độc lập đã thực sự ảnh hưởng tới biến phụ thuộc Chính vì lẽ đó, ta đi tới kiểm định giả thiết thống kê:

Có 3 công cụ để kiểm định giả thiết thống kê đó là: dùng thống kê t, giá trị P>ItI

và khoảng tin cậy Cả 3 công cụ này đều cho cùng một kết quả, như vậy công cụ nào thuận tiện ta sẽ sử dụng, nhóm quyết định chọn công cụ giá trị P>ItI

H1: β1#0

Xét thấy P-value của kiểm định t của biến educ cho kết quả là 0.03 < 10%) từ đây

cigs

Trang 11

H1: β1#0

P-value của kiểm định t của biến cigpric cho kết quả 0.964 > 10%) từ đây có căn

cigs.

H1: β1#0

Biến restaurn cho kết quả P-value của kiểm định t là 0.009< 10%) từ đây có căn

cứ bác bỏ Ho Đồng nghĩa với việc biến restaurn có ảnh hưởng tới biến phụ thuộc cigs.

H1: β1#0

Biến age cho kết quả P-value của kiểm định t là 0.127 > 10%) từ đây có căn cứ

H1: β1#0

Biến income cho kết quả P-value của kiểm định t là 0.020 < 10%) từ đây có căn

Kết quả cụ thể được thể hiện trong bảng sau: (Với mức ý nghĩa 10%)

Tên biến Giá trị P > ItI Mức độ tác động

Trang 12

restaurn 0.009 Có ảnh hưởng tới biến cigs

Bảng 11 Tác động của các biến độc lập lên biến phụ thuộc

Kết luận:

Như vậy có thể thấy ngoại trừ biến cigpric và age là không ảnh hưởng tới biến phụ thuộc cigs còn thì các biến còn lại đều ảnh hưởng tới biến phụ thuộc cigs.

Như vậy đã xác định được tính chất ảnh hưởng của các biến độc lập với biến phụ

thuộc cigs Vậy mức độ ảnh hưởng của các biến độc lập tới biến phụ thuộc như thế

nào! Mức độ ảnh hưởng được phân tích như sau:

 Đầu tiên, dể dàng nhận thấy trong điều kiện các yếu tố khác không đổi, khi các biến độc lập không có tác động thì tỷ lệ số điếu thuốc được hút trung bình 1 ngày là

13.01946%

 Xét với biến độc lập educ ta có: ^ β1 = - 0.368468 điều này đồng nghĩa trong điều

kiện các yếu tố khác không đổi, số năm đi học giảm đi thì tỷ lệ hút thuốc có xu hướng tăng lên 0.368468 %)

 Xét với biến độc lập cigpric ta có: ^ β2 = 0.0046741 điều này mang ý nghĩa Trong

điều kiện các yếu tố khác không đổi, khi giá thuốc tăng th số điếu thuốc cũng tăng

0.0046741%.

 Xét với biến độc lập restaurn ta có: ^ β3 = – 2.982192 điều này mang ý nghĩa Trong điều kiện các yếu tố khác không đổi, có nghĩa là nhà hàng cấm hút thuốc thì số điếu thuốc được hút giảm 2.982192 %

 Xét với biến độc lập income ta có: ^ β4 = 0.0001306 điều này mang ý nghĩa Trong

điều kiện các yếu tố khác không đổi, thu nhập tăng 1% thì số điếu thuốc tiêu thụ

Định dạng
Số trang	18
Dung lượng	114,31 KB