MỤC LỤCLỜI MỞ ĐẦU3NỘI DUNG4PHẦN I: QUÁ TRÌNH NGHIÊN CỨU ĐỀ TÀI41.Nội dung nghiên cứu42.Quy trình thu thập số liệu43.Phương pháp nghiên cứu4PHẦN II: KẾT QUẢ NGHIÊN CỨU4I.MÔ TẢ SỐ LIỆU4II.CHẠY HỒI QUY VÀ TƯƠNG QUAN CHO MÔ HÌNH8III. MỘT SỐ KIỂM ĐỊNH101. Kiểm định với từng hệ số hồi quy102. Kiểm định tổ hợp tuyến tính hệ số hồi quy113. Kiểm định đa ràng buộc tuyến tính12IV. KHUYẾT TẬT MÔ HÌNH VÀ SỬA CHỮA131. Hiện tượng đa cộng tuyến132. Hiện tượng phương sai sai số thay đổi153. Hiện tượng tự tương quan16KẾT LUẬN18 LỜI MỞ ĐẦUNhư chúng ta đã biết, thuốc lá là một sản phẩm vô cùng nguy hiểm đối với sức khỏe con người, không chỉ với người hút thuốc mà còn cả với những người xung quanh. Tuy nhiên, số lượng người hút thuốc lá trên thế giới vẫn không thuyên giảm, không những vậy còn có xu hướng tăng lên ở các nước đang phát triển, đặc biệt ở độ tuổi thanh thiếu niên từ 17-24 tuổi. Việt Nam là nước có số lượng người hút thuốc lá cao trên thế giới, 50% nam giới và 3.4% nữ giới (theo thống kê của Tổ chức Sức khỏe Thế giới là cao nhất Châu Á). Nghiêm trọng hơn, số lượng người tử vong do hút thuốc lá sẽ nhiều hơn số nười tử vong do HIV/AIDS, lao, tai nạn giao thông và tự tử cộng lại vào năm 2020. Do đó, việc tìm ra các biện pháp để giảm thiểu tình trạng hút thuốc lá trong cộng đồng là việc làm vô cùng cấp thiết không của riêng bất cứ cá nhân nào mà là của toàn xã hội.Sau quá trình học tập bộ môn “Kinh tế lượng” dưới sự hướng dẫn của giảng viên, TS. Đinh Thị Thanh Bình, để vận dụng kiến thức đã học cũng như các thao tác thực hành phần mềm Stata, nhóm chúng em đã tìm hiểu, đánh giá và chọn ra một đề tài không mới nhưng theo đánh giá chủ quan của nhóm là khá cần thiết để nghiên cứu, đó là “Phân tích tình hình tiêu thụ thuốc lá qua các yếu tố ảnh hưởng” để làm bước đệm cho việc tìm ra các cách giải quyết phù hợp. Trong quá trình thực hiện, bài viết sẽ khó tránh khỏi những thiếu sót, chúng em rất mong nhận được sự đóng góp từ các thầy cô để bài tiểu luận của nhóm được hoàn thiện hơn.Chúng em xin chân thành cảm ơn! NỘI DUNGPHẦN I: QUÁ TRÌNH NGHIÊN CỨU ĐỀ TÀI1.Nội dung nghiên cứuTrước khi nghiên cứu chuyên sâu vào việc làm thế nào để giảm thiểu tình trạng hút thuốc lá, chúng em tiến hành tìm hiểu những yếu tố ảnh hưởng đến lượng thuốc lá trung bình mà một người hút trong một ngày, từ đó lấy nền tảng để nghiên cứu sâu hơn.2.Quy trình thu thập số liệuNhóm đã xác định những yếu tố ảnh hưởng đến lượng thuốc lá trung bình mà một người hút trong một ngày như: học vấn, tuổi tác, thu nhập… và tiến hành điều tra và thu thập số liệu trên 807 mẫu, sau đó đem phân tích các số liệu này qua phần mềm Stata để đi đến những kết luận cuối cùng.3.Phương pháp nghiên cứu
Trang 1TRƯỜNG ĐẠI HỌC NGOẠI THƯƠNG
KHOA KINH TẾ VÀ KINH DOANH QUỐC TẾ
-*** -TIỂU LUẬN KINH TẾ LƯỢNG
Đề tài: Phân tích tình hình tiêu thụ thuốc lá
qua các yếu tố ảnh hưởng (File data: SMOKE)
Nhóm sinh viên thực hiện:
Lớp:
Giảng viên hướng dẫn:
Hà Nội, MỤC LỤC
Trang 2L I M Ờ Ở ĐẦ U
L I M Ờ Ở ĐẦ U 3
N I DUNG Ộ
N I DUNG Ộ 4
PH N I: QUÁ TRÌNH NGHIÊN C U Ầ Ứ ĐỀ TÀI
PH N I: QUÁ TRÌNH NGHIÊN C U Ầ Ứ ĐỀ TÀI 4
1 N i dung nghiên c u ộ ứ
1 N i dung nghiên c u ộ ứ 4
2 Quy trình thu th p s li u ậ ố ệ
2 Quy trình thu th p s li u ậ ố ệ 4
3 Ph ươ ng pháp nghiên c u ứ
3 Ph ươ ng pháp nghiên c u ứ 4
PH N II: K T QU NGHIÊN C U Ầ Ế Ả Ứ
PH N II: K T QU NGHIÊN C U Ầ Ế Ả Ứ 4
I MÔ T S LI U Ả Ố Ệ
I MÔ T S LI U Ả Ố Ệ 4
II CH Y H I QUY VÀ T Ạ Ồ ƯƠ NG QUAN CHO MÔ HÌNH
II CH Y H I QUY VÀ T Ạ Ồ ƯƠ NG QUAN CHO MÔ HÌNH 8 III M T S KI M NH Ộ Ố Ể ĐỊ
III M T S KI M NH Ộ Ố Ể ĐỊ 9
1 Ki m nh v i t ng h s h i quy ể đị ớ ừ ệ ố ồ
1 Ki m nh v i t ng h s h i quy ể đị ớ ừ ệ ố ồ 9
2 Ki m nh t h p tuy n tính h s h i quy ể đị ổ ợ ế ệ ố ồ
2 Ki m nh t h p tuy n tính h s h i quy ể đị ổ ợ ế ệ ố ồ 11
3 Ki m nh a ràng bu c tuy n tính ể đị đ ộ ế
3 Ki m nh a ràng bu c tuy n tính ể đị đ ộ ế 12
IV KHUY T T T MÔ HÌNH VÀ S A CH A Ế Ậ Ử Ữ
IV KHUY T T T MÔ HÌNH VÀ S A CH A Ế Ậ Ử Ữ 13
1 Hi n t ệ ượ ng a c ng tuy n đ ộ ế
1 Hi n t ệ ượ ng a c ng tuy n đ ộ ế 13
2 Hi n t ệ ượ ng ph ươ ng sai sai s thay ố đổ i
2 Hi n t ệ ượ ng ph ươ ng sai sai s thay ố đổ i 15
3 Hi n t ệ ượ ng t t ự ươ ng quan
3 Hi n t ệ ượ ng t t ự ươ ng quan 16
K T LU N Ế Ậ
K T LU N Ế Ậ 18
Trang 3LỜI MỞ ĐẦU
Như chúng ta đã biết, thuốc lá là một sản phẩm vô cùng nguy hiểm đối với sức khỏe con người, không chỉ với người hút thuốc mà còn cả với những người xung quanh Tuy nhiên, số lượng người hút thuốc lá trên thế giới vẫn không thuyên giảm, không những vậy còn có xu hướng tăng lên ở các nước đang phát triển, đặc biệt ở độ tuổi thanh thiếu niên từ 17-24 tuổi Việt Nam là nước có số lượng người hút thuốc lá cao trên thế giới, 50% nam giới và 3.4% nữ giới (theo thống kê của Tổ chức Sức khỏe Thế giới là cao nhất Châu Á) Nghiêm trọng hơn,
số lượng người tử vong do hút thuốc lá sẽ nhiều hơn số nười tử vong do HIV/AIDS, lao, tai nạn giao thông và tự tử cộng lại vào năm 2020 Do đó, việc tìm ra các biện pháp để giảm thiểu tình trạng hút thuốc lá trong cộng đồng là việc làm vô cùng cấp thiết không của riêng bất cứ cá nhân nào mà là của toàn xã hội.
Sau quá trình học tập bộ môn “Kinh tế lượng” dưới sự hướng dẫn của giảng viên, TS Đinh Thị Thanh Bình , để vận dụng kiến thức đã học cũng như các thao tác thực hành phần mềm Stata, nhóm chúng em đã tìm hiểu, đánh giá và chọn ra một đề tài không mới nhưng theo đánh giá chủ quan của nhóm là khá cần thiết để nghiên cứu, đó là “Phân tích tình hình tiêu thụ thuốc lá qua các yếu tố ảnh hưởng” để làm bước đệm cho việc tìm ra các cách giải quyết phù hợp Trong quá trình thực hiện, bài viết sẽ khó tránh khỏi những thiếu sót, chúng em rất mong nhận được sự đóng góp từ các thầy cô để bài tiểu luận của nhóm được hoàn thiện hơn.
Chúng em xin chân thành cảm ơn!
Trang 4NỘI DUNG
PHẦN I: QUÁ TRÌNH NGHIÊN CỨU ĐỀ TÀI
Trước khi nghiên cứu chuyên sâu vào việc làm thế nào để giảm thiểu tình trạng hút thuốc lá, chúng em tiến hành tìm hiểu những yếu tố ảnh hưởng đến lượng thuốc lá trung bình
mà một người hút trong một ngày, từ đó lấy nền tảng để nghiên cứu sâu hơn.
Nhóm đã xác định những yếu tố ảnh hưởng đến lượng thuốc lá trung bình mà một người hút trong một ngày như: học vấn, tuổi tác, thu nhập… và tiến hành điều tra và thu thập số liệu trên 807 mẫu, sau đó đem phân tích các số liệu này qua phần mềm Stata để đi đến những kết luận cuối cùng.
a Phương pháp thu thập số liệu
- Kích cỡ mẫu: 807 người
- Phạm vi: Chủ yếu tập trung vào nhóm người từ 17 tuổi trở lên
- Hình thức: Thảo một bản khảo sát và đi thu thập số liệu tại những nơi tập trung đông người như công viên.
b Phương pháp phân tích số liệu
- Phương pháp thu thập số liệu
- Phương pháp tương quan và hồi quy
- Phương pháp phân tích phương sai
PHẦN II: KẾT QUẢ NGHIÊN CỨU
I MÔ TẢ SỐ LIỆU
Các biến được sử dụng để phân tích gồm có: educ, cigpric, age, income, restaurn và cigs, trong đó cigs – số điếu thuốc hút trong 1 ngày được chọn làm biến độc lập Y, các biến còn lại là biến phụ thuộc Xi.
Để nắm được những đặc điểm cơ bản của từng biến, ta sử dụng lệnh ‘sum’:
Trang 5cigs 807 8.686493 13.72152 0 80
restaurn 807 .2465923 .4312946 0 1
income 807 19304.83 9142.958 500 30000
age 807 41.23792 17.02729 17 88
cigpric 807 60.30041 4.738469 44.004 70.129
educ 807 12.47088 3.057161 6 18
Variable Obs Mean Std Dev Min Max
sum educ cigpric age income restaurn cigs
Kết quả cho thấy:
- Đối với biến cigs (cigs smoked per day): số điếu thuốc trung bình hút trong 1 ngày là 8.686493 điếu thuốc, số điếu thuốc hút trong 1 ngày ít nhất là 1, nhiều nhất là 80 điếu.
→ Đánh giá mật độ qua đồ thị (đồ thị histogram)
(bin=28, start=0, width=2.8571429) histogram cigs
cigs smoked per day
Nhìn vào đồ thị ta thấy mật độ tập trung các giá trị thấp là rất lớn (rất nhiều người không hút thuốc hoặc hút ít) và một bộ phận các giá trị cao phân tán tạo thành một cái đuôi dài về phía phải Ta khẳng định phân bố lệch nhiều về phía phải.
Trang 6- Đối với biến educ (years of schooling): số năm học vấn trung bình là 12.47088 tương đương với bậc trung học, số năm học vấn thấp nhất là 6 tương đương với bậc tiểu học, số năm học vấn cao nhất là 18 tương đương với bậc thạc sỹ.
(bin=28, start=6, width=.42857143) histogram educ
years of schooling
Nhìn vào đồ thị ta thấy mật độ tập trung các giá trị trung bình là rất lớn (số lượng người
có số năm học vấn trung bình khá cao) và một bộ phận các giá trị thấp và cao phân tán về 2 phía tương đối cân bằng Ta khẳng định phân bố không lệch.
- Đối với biến cigpric (state cig price, cents/pack): giá trung bình của một bao thuốc lá
là 60.30041 cents/pack, thấp nhất là 44.004 cents/pack và cao nhất là 70.129 cents/pack.
(bin=28, start=44.004002, width=.93303558) histogram cigpric
state cig price, cents/pack
Trang 7Nhìn vào đồ thị ta thấy mật độ các giá trị trung bình là khá lớn, các giá trị thấp phân tán hơn so với các giá trị ở mức cao.
- Đối với biến age (in years): độ tuổi trung bình là 41.23792, độ tuổi thấp nhất là 17 tuổi, độ tuổi cao nhất là 88 tuổi.
(bin=28, start=17, width=2.5357143) histogram age
in years
Nhìn vào đồ thị ta thấy các giá trị phân tán và không tập trung nhưng nhìn chung các giá trị mức thấp có mật độ dày hơn các giá trị mức cao, ta thấy xu hướng là phân bố lệch phải.
- Đối với biến income (annual income, $): mức thu nhập trung bình là 19304.83$ chênh lệch rất lớn với mức thu nhập thấp nhất là 500$, chênh lệch không lớn với mức thu nhập cao nhất là 30000$.
(bin=28, start=500, width=1053.5714) histogram income
annual income, $ Nhìn vào đồ thị ta thấy mật độ tập trung các giá trị lớn của thu nhập là khá lớn Các giá trị thấp phân tán thành đuôi ở phía trái → phân bố lệch nhiều về phía trái.
Trang 8- Đối với biến restaurn (=1 if rest smk restrictions):
restaurn 199 1 0 1 1
Variable Obs Mean Std Dev Min Max
sum restaurn if restaurn==1
Trong số 807 quan sát, có 199 quan sát được gắn giá trị 1 nghĩa là 199/807 người được hỏi đã từng đến khu vực nhà hàng hạn chế hút thuốc Còn lại 608 người chưa từng đến khu vực đó ứng với 608 quan sát được gắn giá trị 0.
II CHẠY HỒI QUY VÀ TƯƠNG QUAN CHO MÔ HÌNH
Sử dụng lệnh ‘corr’ để xét sự tương quan giữa các biến:
restaurn -0.0871 0.0605 0.1392 -0.0389 0.1060 1.0000
income 0.0532 0.3344 0.0480 -0.0640 1.0000
age -0.0415 -0.1806 0.0293 1.0000
cigpric -0.0114 0.0310 1.0000
educ -0.0487 1.0000
cigs 1.0000
cigs educ cigpric age income restaurn
(obs=807)
corr cigs educ cigpric age income restaurn
Nhìn vào bảng kết quả trên, ta có thể thấy các biến độc lập ảnh hưởng tương đối ít đến biến phụ thuộc và chủ yếu là tương quan ngược chiều (ngoại trừ biến income – khi thu nhập tăng thì số điếu thuốc hút trong 1 ngày tăng).
Dùng lệnh ‘reg’ để chạy hồi quy:
_cons 13.01946 6.551227 1.99 0.047 1598616 25.87906
restaurn -2.982192 1.130995 -2.64 0.009 -5.202256 -.7621274
income 0001306 .000056 2.33 0.020 0000207 .0002405
age -.0438986 .028707 -1.53 0.127 -.1002484 .0124512
cigpric 0046741 .1024819 0.05 0.964 -.1964908 .2058389
educ -.3680468 .169172 -2.18 0.030 -.7001196 -.0359739
cigs Coef Std Err t P>|t| [95% Conf Interval]
Total 151753.683 806 188.280003 Root MSE = 13.633
Adj R-squared = 0.0129
Residual 148865.047 801 185.848998 R-squared = 0.0190
Model 2888.63535 5 577.72707 Prob > F = 0.0087
F( 5, 801) = 3.11
Source SS df MS Number of obs = 807
reg cigs educ cigpric age income restaurn
Từ bảng trên, ta lập được phương trình hồi quy tuyến tính như sau:
Trang 9(1)
trong đó: X1 – educ, X2 – cigpric, X3 – age, X4 – income, X5 – restaurn.
Ý nghĩa của hệ số R2 :
Với R2 =0.0190 ta nhận thấy độ chặt chẽ của mô hình chưa cao, nghĩa là việc điều tra
số năm học, giá thuốc lá, độ tuổi, thu nhập, việc hạn chế hút thuốc trong nhà hàng không nói lên nhiều ý nghĩa, chúng chỉ có thể giải thích được 1.9% sự biến động của biến độc lập Y.
Ý nghĩa của các hệ số hồi quy:
- = 13.01946 cho biết ảnh hưởng của các yếu tố nằm ngoài mô hình đến giá trị trung bình của Y khi các yếu tố Xi = 0.
- = -0.3680468 cho biết khi số năm học tăng lên 1 năm thì số điếu thuốc lá hút sẽ giảm trung bình 0.3680468 đơn vị, với điều kiện các yếu tố khác không đổi.
- = 0.0046741 cho biết khi giá của 1 gói thuốc tăng 1 cent thì số điếu thuốc lá hút tăng trung bình 0.0046741 đơn vị, với điều kiện các yếu tố khác không đổi.
- = -0.0438968 cho biết khi số tuổi tăng lên 1 tuổi thì số điếu thuốc lá hút giảm trung bình 0.0438968 đơn vị, với điều kiện các yếu tố khác không đổi.
- = 0.0001306 cho biết khi thu nhập hằng năm tăng lên 1 đô la thì số điếu thuốc lá hút tăng trung bình 0.0001306 đơn vị, với điều kiện các yếu tố khác không đổi.
- = -2.982192 cho biết khi ở trong khu vực nhà hàng hạn chế hút thuốc lá, số điếu thuốc hút trung bình nhỏ hơn khi không ở trong khu vực đó là 2.982192, với điều kiện các yếu tố khác không đổi.
• = 1 nếu nhà hàng hạn chế hút thuốc lá, khi đó = 13.01946 – 2.982192 =
10.037268; , , , như trên
• = 0 nếu nhà hàng không hạn chế hút thuốc lá, khi đó , , , , như trên.
III MỘT SỐ KIỂM ĐỊNH
Ta có
Kiểm định :
Trang 10:
- Cách 1: Theo bảng |t|= 1.99 > 1.96, do đó loại H0 Suy ra có ý nghĩa thống kê.
- Cách 2: P-value = 0.047 < α (=0.05), do đó loại H0 Suy ra có ý nghĩa thống kê.
Kiểm định :
:
- Cách 1: Theo bảng |t| = 2.18 > 1.96, do đó loại H0 Suy ra có ý nghĩa thống kê.
- Cách 2: P-value = 0.03 < α, do đó loại H0 Suy ra có ý nghĩa thống kê.
Kiểm định :
:
- Cách 1: Theo bảng |t| = 0.05 < 1.96, do đó không có cơ sở loại H0.
- Cách 2: P-value = 0.964 > α, do đó không có cơ loại H0.
Kiểm định :
:
- Cách 1: Theo bảng, |t| = 1.53 < 1.96, do đó không có cơ sở loại H0.
- Cách 2: p-value = 0.127 > α do đó không có cơ sở loại bỏ H0.
Kiểm định :
:
- Cách 1: Theo bảng, |t| = 2.33 > 1.96, do đó loại bỏ H0 Suy ra có ý nghĩa thống kê.
- Cách 2: P-value = 0.02 < α do đó loại H0 Suy ra có ý nghĩa thống kê.
Kiểm định (hệ số của biến giả):
Trang 11:
- Cách 1: Theo bảng, |t| = 2.64 > 1.96, do đó loại bỏ H0 Suy ra có ý nghĩa thống kê.
- Cách 2: P-value = 0.009 < α do đó loại bỏ H0 Suy ra có ý nghĩa thống kê.
2 Kiểm định tổ hợp tuyến tính hệ số hồi quy
Trước tiên ta kiểm định sự phù hợp của mô hình hồi quy:
(1) Giả thuyết cần kiểm định:
Tiêu chuẩn kiểm định:
F = Tiến hành kiểm định:
Prob > F = 0.0087 F( 5, 801) = 3.11 ( 5) restaurn = 0
( 4) income = 0 ( 3) age = 0 ( 2) cigpric = 0 ( 1) educ = 0 test educ cigpric age income restaurn
Kết quả kiểm định cho thấy: F(5, 801) = 3.11
Tra bảng thống kê F ta có giá trị tới hạn = 2.23
F(5, 801) > → Bác bỏ H0
Kết luận: Từ kiểm định tổ hợp tuyến tính hệ số hồi quy, với mức ý nghĩa 5% có thể thấy trong các biến độc lập educ, cigpric, age, income, restaurn có ít nhất một yếu tố ảnh hưởng tới
sự biến động của biến phụ thuộc cigs.
Trang 123 Kiểm định đa ràng buộc tuyến tính
Dưạ vào kết quả kiểm định ở trên, ta nhận định các biến độc lập cigpric và age không ảnh hưởng đến biến phụ thuộc cigs Ta tiếp tục tiến hành kiểm định đa ràng buộc tuyến tính
và xét xem có thể loại hai biến trên ra khỏi mô hình hay không.
Giả thuyết cần kiểm định:
Tiêu chuẩn kiểm định:
Tiến hành kiểm định:
Prob > F = 0.3111 F( 2, 801) = 1.17 ( 2) age = 0
( 1) cigpric = 0 test cigpric age
Ta có: Fqs = 1.17
Tra bảng thống kê F, với mức ý nghĩa 0.05, ta có giá trị tới hạn = 3.01
Fqs < → Chấp nhận H0, loại biến cigpric và age ra khỏi mô hình.
→ Ta chạy hồi quy với các biến còn lại:
_cons 10.92859 2.056444 5.31 0.000 6.891949 14.96523
restaurn -2.926764 1.12031 -2.61 0.009 -5.125846 -.7276817
income 0001308 .000056 2.34 0.020 0000209 .0002406
educ -.3243288 .1667578 -1.94 0.052 -.6516614 .0030037
cigs Coef Std Err t P>|t| [95% Conf Interval]
Total 151753.683 806 188.280003 Root MSE = 13.636
Adj R-squared = 0.0125
Residual 149299.688 803 185.927382 R-squared = 0.0162
Model 2453.99514 3 817.99838 Prob > F = 0.0044
F( 3, 803) = 4.40
Source SS df MS Number of obs = 807
reg cigs educ income restaurn
Phương trình hồi quy mới là:
Trang 13trong đó: X1 – educ, X2 – income, X3 – restaurn – restaurn
IV KHUYẾT TẬT MÔ HÌNH VÀ SỬA CHỮA
Xét mối quan hệ tuyến tính giữa các biến giải thích: X1, X2, X3, X4, X5
Cách 1 : Chạy tương quan cho mô hình các biến phụ thuộc ta được:
restaurn 0.0605 0.1392 -0.0389 0.1060 1.0000 income 0.3344 0.0480 -0.0640 1.0000
age -0.1806 0.0293 1.0000 cigpric 0.0310 1.0000
educ 1.0000 educ cigpric age income restaurn (obs=807)
corr educ cigpric age income restaurn
Từ bảng trên có thể thấy sự tương quan cặp giữa các biến giải thích là rất thấp (
do đó mô hình (1) không có hiện tượng đa cộng tuyến hoàn hảo.
Cách 2: Chạy hồi quy lần lượt từng biến X lên các biến độc lập khác:
- X1 lên X2, X3, X4, X5
_cons 10.85799 1.312584 8.27 0.000 8.281488 13.4345 restaurn 1257927 .2360305 0.53 0.594 -.3375178 .5891032 income 0001075 .0000111 9.72 0.000 0000858 .0001292 age -.0286972 .0059057 -4.86 0.000 -.0402897 -.0171048 cigpric 0114531 .0213872 0.54 0.592 -.0305284 .0534345 educ Coef Std Err t P>|t| [95% Conf Interval] Total 7533.06568 806 9.34623533 Root MSE = 2.8455 Adj R-squared = 0.1337 Residual 6493.86371 802 8.09708692 R-squared = 0.1380 Model 1039.20197 4 259.800492 Prob > F = 0.0000 F( 4, 802) = 32.09 Source SS df MS Number of obs = 807 reg educ cigpric age income restaurn
- X2 lên X1, X3, X4, X5