Khái niệm Phân tích hồi quy là tìm quan hệ phụ thuộc của một biến, được gọi là biếtphụ thuộc vào một hoặc nhiều biến khác, được gọi là biến độc lập nhằm mụcđích ước lượng hoặc tiên đoán
Trang 1LỜI NÓI ĐẦU
Trang 2MỤC LỤC
CHƯƠNG I- PHÂN TÍCH BÀI TOÁN – BẢNG SỐ LIỆU 4
I Phân tích bài toán 4
II Bảng số liệu 4
CHƯƠNG II- PHÂN TÍCH ĐẶC TRƯNG 6
I- Phân tích đặc trưng 6
CHƯƠNG III- PHÂN TÍCH HỒI QUY 8
I- Khái niệm 8
1 Khái niệm 8
2 Mục đích hồi quy: 8
3 Một số dạng hàm cơ bản trong phân tích hồi qui 8
II- Các thông số đánh giá 9
1 Hệ số tương quan R (Coefficient of correlation) 9
2 Bình phương của hệ số tương quan (R square) 10
3 Sai số chuẩn (standard error – với hồi quy đơn là N-2) 10
4 Hệ số hồi quy B-độ nghiêng B (regression coefficient) 10
III- Hồi quy đơn biến 10
1 Yếu tố “Bưu phẩm đi có cước” 11
2 Yếu tố “Bưu kiện đi có cước (nghìn cái)” 13
3 Yếu tố “Thư và điện chuyển tiền (nghìn bức)” 15
4 Yếu tố “Báo chí phát hành (triệu tờ)” 18
5 Điện báo có cước (triệutiếng) 20
6 Yếu tố “Điện thoại đường dài (triệu phút)” 22
IV- Hồi quy đa biến 25
1 Hồi quy đa biến tổng quát 25
2 Hồi quy đa biến với bài toán 25
V- Kết luận về mức độ ảnh hưởng của các yếu tố tới doanh thu 28
CHƯƠNG IV- PHÂN TÍCH CHUỖI THỜI GIAN 29
I- Khái niệm 29
1 Định nghĩa 29
2 Phương pháp phân rã 29
II- Dự báo những năm tiếp theo của bài toán 32
KẾT LUẬN 35
Trang 3BẢNG PHÂN CÔNG CÔNG VIỆC
Trang 4CHƯƠNG I- PHÂN TÍCH BÀI TOÁN – BẢNG SỐ LIỆU
I Phân tích bài toán
1 Tên đề tài: Phân tích sản lượng và doanh thu ngành bưu chính viễn thông(giai đoạn 1995-2011)
2 Tập dữ liệu mà nhóm 13 nghiên cứu gồm 8 yếu tố với 17 bộ dữ liệu
Chúng ta nhận thấy biến phụ thuộc là biến Doanh thu (tỉ đồng) Ở dữ liệu này
có 6 biến độc lập là: Bưu phẩm đi có cước, Bưu kiện đi có cước, Thư và điệnchuyển tiền, Báo chí phát hành, Điện báo có cước, Điện thoại đường dài Cácbiến độc lập này dùng để dự đoán được biến phụ thuộc (Doanh thu)
3 Phương pháp phân tích bài toán
Với tập dữ liệu này ta sẽ dùng các phương pháp là hồi quy tuyến tính, phântích đặc trưng và phân tích chuỗi thời gian
II Bảng số liệu
Trang 5Năm Bưu phẩm đi cócước (triệu cái) Bưu kiện đi cócước
(nghìn cái)
Thư và điện chuyển tiền (nghìn bức)
Báo chí phát hành (triệu tờ)
Điện báo có cước (triệu tiếng)
Điện thoại đường dài (triệu phút)
Doanh thu (tỉ đồng)
Trang 6CHƯƠNG II- PHÂN TÍCH ĐẶC TRƯNG I- Phân tích đặc trưng
Chúng ta tiến hành phân tích từng thành phần số liệu riêng của từng sảnlượng của từng yếu tốvà rút ra các bảng kết quả sau:
o Variance: Phương sai
o Standard deviation: Độ lệch chuẩn
o Coeff of variation: Hệ số biến thiên
o Standard Error: Sai số chuẩn
o Minimum: Trị số quan sát bé nhất
o Maximum: Trị số quan sát lớn nhất
o Range: Độ biến thiên
o Skewness: Độ lệch của phân bố
o Kurtosis: Độ nhọn của phân bố
o Sum: Tổng các trị số quan sát
Làm ví dụ với yếu tố “Bưu phẩm đi có cước” Để phân tích đặc trưng tachọn: Analyze > Variable Data > One – Variable Analysis…
Trang 7Đây là bảng phân tích đặc trưng nhận được
và đồ thị phân bố có xu hướng “lệch trái” so với giá trị trung bình
Kurtosis có giá trị >0 nên tập số liệu có xu hướng phân bố xung quanh giá trịtrung bình (Đồ thị phân bố của tập số liệu này “nhọn hơn phân phối chuẩn”)
Trang 8CHƯƠNG III- PHÂN TÍCH HỒI QUY I- Khái niệm
1 Khái niệm
Phân tích hồi quy là tìm quan hệ phụ thuộc của một biến, được gọi là biếtphụ thuộc vào một hoặc nhiều biến khác, được gọi là biến độc lập nhằm mụcđích ước lượng hoặc tiên đoán giá trị kỳ vọng của biến phụ thuộc khi biết trướcgiá trị của biến độc lập
2 Mục đích hồi quy:
+ Ước lượng trung bình biến phụ thuộc trong những điều kiện xác định của
biến giải thích
+ Ước lượng các tham số.
+ Kiểm định về mối quan hệ.
+ Dự báo giá trị biến phụ thuộc khi biến giả thích thay đổi
3 Một số dạng hàm cơ bản trong phân tích hồi qui
+ Tính đơn giản của hàm tuyến tính,bất kỳ lúc nào tác động của X phụ thuộc
vào các giá trị của X hoặc Y, thì dạng hàm tuyến tính không thể là dạng hàmphù hợp
3.2 Dạng hàm Bậc hai:
Trang 9- Khi X tăng thêm một đơn vị thì Y tăng thêm β2 + 2β3Xi đơn vị Nếu β3>0, thìkhi tăng lên
- Nếu β3< 0, thì khi X tăng lên tác động bổ sung của X đến Y giảm xuống
- Nếu có đường biểu diễn chi phí thì chi phí biên sẽ là MC= β2+ 2β3Q
3.3 Dạng hàm logarit
- Phương trình: lnYi= β1 + β2lnXi+ ui
- Nếu X thay đổi 1% thì Y sẽ thay đổi B2%; đây là tính chất đặc biệt của quan
hệ logarit
II- Các thông số đánh giá
1 Hệ số tương quan R (Coefficient of correlation)
- Yếu tố nào có R càng lớn thì ảnh hưởng càng nhiều
- Theo như kết quả kiểm duyệt:
R < 0.3 không tương quan
0.3 < R < 0.7 có dấu hiệu
Trang 100.5 < R < 0.7 hơi tương quan
0.7 < R < 0.9 tương quan
R > 0.9 rất tương quan
2 Bình phương của hệ số tương quan (R square)
- Yếu tố nào có R2 càng lớn thì mối quan hệ giữa yếu tố đó và biến y càngchặt chẽ:
Trong đó:
SST (Sum of Square Total):
Adjusted R –Square:
3 Sai số chuẩn (standard error – với hồi quy đơn là N-2)
4 Hệ số hồi quy B-độ nghiêng B (regression coefficient)
- Yếu tố nào có B cao thì ảnh hưởng nhiều hơn, tuy nhiên các yếu tố có đơn
vị khác nhau (năm, triệu cái, nghìn cái, triệu tờ, triệu tiếng,…) nên không thể sosánh mức ảnh hưởng giữa các yếu tố Nếu muốn so sánh phải đổi các yếu tố cócùng đơn vị là độ lệch chuẩn, lúc đó ta có hệ số hồi qui chuẩn hóa: Bs= B 𝑆𝑥/𝑆𝑦( Với Sx là độ lệch chuẩn của x tương ứng và Sy là độ lệch chuẩn của y)
III- Hồi quy đơn biến
Xét độ nghiêng của đồ thị để xem mô hình có thể chấp nhận Ho hay Ha Tức
là ta phải tính giá trị ttính và so sánh với giá trị tbảng :
- Nếu ttính> tbảng : chấp nhận Ha và kết luận mô hình đưa ra khá thích hợp với
dự báo
- Ngược lại nếu ttính< tbảng : chấp nhận Ho và kết luận mô hình không có ýnghĩa, không đủ năng lực dự báo
Phần mềm sử dụng là STATGRAPHIC
Trang 11Để phân tích hồi quy đơn biến ta làm như sau: vào Improve RegressionAnalysis One factor Simple Regression
1 Yếu tố “Bưu phẩm đi có cước”
Coefficients
F-Ratio P-Value
Model 1.08054E10 1 1.08054E10 266.99 0.0000
Residual 6.0706E8 15 4.04707E7
Total (Corr.) 1.14124E10 16
Correlation Coefficient = 0.97304
R-squared = 94.6807 percent
R-squared (adjusted for d.f.) = 94.3261 percent
Standard Error of Est = 6361.65
Mean absolute error = 3972.39
- Standard Error of Est: độ lệch chuẩn
- Mean absolute erro: trung bình lỗi
Trang 12Đánh giá yếu tố “Bưu phẩm đi có cước” với biến phụ thuộc là “Doanh thu”
để xem số lượng bưu phẩm đi có cước ảnh hưởng thế nào đến doanh thu:
Nhìn vào kết quả phân tích ở trên ta thấy hệ số tương quan của nó làR=0.97304 điều đó cho thấy “Bưu phẩm đi có cước” rất tương quan với “Doanhthu”
Tiếp theo đến hệ số xác định R2 = 94,6807% điều đó khẳng định đượcrằng yếu tố “Bưu phẩm đi có cước” có khả năng giải thích khoảng 94,6807% sựthay đổi của biến phụ thuộc chính là “Doanh thu”
Ta so sánh đến giá trị P-value của biến độc lập này
- Trước hết xin nói rõ ý nghĩa của giá trị P-value trong phân tích thống kê
số liệu: khi nhà nghiên cứu đã nghiên cứu ra một giả thuyết thì ông cũng pảiđịnh nghĩa giả thuyết đảo cho nó (null hypothesis) tức là một giả thuyết ngượclại với những gì mình nghiên cứu và tin nó là thật Ví dụ như theo truyền thốngtrong y học nếu giá trị xác suất nhỏ hơn 5% nhà nghiên cứu có thể bác bỏ đi giảthuyết đảo còn nếu giá trị xác suất mà lớn 5% thì không có lý do gì để bác bỏ nó
Trang 13hay chưa có bằng chứng đầy đủ dể bác bỏ nó nhưng cũng không có nghĩa là giảthuyết đảo là đúng là sự thật.
Với yếu tố này Pvalue = 0.0000 điều này có nghĩa là yếu tố mà ta đang xétgần như bác bỏ giả thuyết đảo của nó, và cũng gần như chấp nhận giả thuyếtđang tin tưởng đó là yếu tố “Bưu phẩm đi có cước” có ảnh hưởng nhiều đếnDoanh thu
Đánh giá với độ lệch chuẩn: hầu hết ta mong đợi các giá trị quan sát của ynằm trong khoảng phạm vi 2s của các giá trị y tính toán theo phương pháp bìnhphương cực tiểu của chúng
Ta sẽ kiểm định giả thuyết với giá trị độ dốc B
- Bác bỏ Ha nếu B = 0 và ngược lại bác bỏ Ho nếu B ≠ 0 (B > 0 hoặc B <0)
- Giả định độ tin cậy P = 95%
2 Yếu tố “Bưu kiện đi có cước (nghìn cái)”
Coefficients
F-Ratio P-Value
Model 1.06365E10 1 1.06365E10 205.63 0.0000
Trang 14Residual 7.75902E8 15 5.17268E7
Total (Corr.) 1.14124E10 16
Correlation Coefficient = 0.965408
R-squared = 93.2013 percent
R-squared (adjusted for d.f.) = 92.748 percent
Standard Error of Est = 7192.14
Mean absolute error = 5576.68
Durbin-Watson statistic = 1.16837 (P=0.0163)
Lag 1 residual autocorrelation = 0.369967
Trang 15Đánh giá yếu tố “Bưu kiện đi có cước” với biến phụ thuộc là “Doanh thu” đểxem số lượng bưu phẩm đi có cước ảnh hưởng thế nào đến doanh thu:
Nhìn vào kết quả phân tích ở trên ta thấy hệ số tương quan của nó làR=0.965408 điều đó cho thấy “Bưu kiện đi có cước” rất tương quan với “Doanhthu”
Tiếp theo đến hệ số xác định R2 = 93,2013% điều đó khẳng định đượcrằng yếu tố “Bưu kiện đi có cước” có khả năng giải thích khoảng 93,2013% sựthay đổi của biến phụ thuộc chính là “Doanh thu”
Ta so sánh đến giá trị P-value của biến độc lập này
Với yếu tố này Pvalue = 0.0000 điều này có nghĩa là yếu tố mà ta đang xétgần như bác bỏ giả thuyết đảo của nó, và cũng gần như chấp nhận giả thuyếtđang tin tưởng đó là yếu tố “Bưu kiện đi có cước” có ảnh hưởng nhiều đếnDoanh thu
- Giả định độ tin cậy P = 95%
3 Yếu tố “Thư và điện chuyển tiền (nghìn bức)”
Trang 16Intercept -18892.3 8846.12 -2.13566 0.0496
Analysis of Variance
Source Sum of Squares Df Mean Square F-Ratio P-Value
Model 8.13829E9 1 8.13829E9 37.28 0.0000
Residual 3.27415E9 15 2.18277E8
Total (Corr.) 1.14124E10 16
Correlation Coefficient = 0.844457
R-squared = 71.3107 percent
R-squared (adjusted for d.f.) = 69.3981 percent
Standard Error of Est = 14774.2
Mean absolute error = 11928.4
Durbin-Watson statistic = 0.278645 (P=0.0000)
Lag 1 residual autocorrelation = 0.755119
Trang 17Đánh giá yếu tố “Thư và điện chuyển tiền” với biến phụ thuộc là “Doanhthu” để xem số thư và điện chuyển tiền ảnh hưởng thế nào đến doanh thu:
Nhìn vào kết quả phân tích ở trên ta thấy hệ số tương quan của nó làR=0.844457 điều đó cho thấy “Thư và điện chuyển tiền” tương quan với
Trang 18 Ta so sánh đến giá trị P-value của biến độc lập này.
Với yếu tố này Pvalue = 0.0000 điều này có nghĩa là yếu tố mà ta đang xétgần như bác bỏ giả thuyết đảo của nó, và cũng gần như chấp nhận giả thuyếtđang tin tưởng đó là yếu tố “Thư và điện chuyển tiền” có ảnh hưởng nhiều đếnDoanh thu
- Giả định độ tin cậy P = 95%
4 Yếu tố “Báo chí phát hành (triệu tờ)”
Coefficients
Intercept -41489.8 5407.16 -7.67312 0.0000
Analysis of Variance
Model 1.06109E10 1 1.06109E10 198.57 0.0000
Residual 8.01543E8 15 5.34362E7
Total (Corr.) 1.14124E10 16
Correlation Coefficient = 0.964244
R-squared = 92.9766 percent
R-squared (adjusted for d.f.) = 92.5084 percent
Standard Error of Est = 7310.01
Trang 19Durbin-Watson statistic = 1.23012 (P=0.0238)
Lag 1 residual autocorrelation = 0.377733
Trang 20Đánh giá yếu tố “Báo chí phát hành” với biến phụ thuộc là “Doanh thu” đểxem số lượng Báo chí phát hành ảnh hưởng thế nào đến doanh thu:
Nhìn vào kết quả phân tích ở trên ta thấy hệ số tương quan của nó làR=0.964244 điều đó cho thấy “Báo chí phát hành” tương quan với “Doanh thu”
Tiếp theo đến hệ số xác định R2 = 92,9766% điều đó khẳng định đượcrằng yếu tố “Báo chí phát hành” có khả năng giải thích khoảng 92,9766% sựthay đổi của biến phụ thuộc chính là “Doanh thu”
Ta so sánh đến giá trị P-value của biến độc lập này
Với yếu tố này Pvalue = 0.0000 điều này có nghĩa là yếu tố mà ta đang xétgần như bác bỏ giả thuyết đảo của nó, và cũng gần như chấp nhận giả thuyếtđang tin tưởng đó là yếu tố “Báo chí phát hành” có ảnh hưởng nhiều đến Doanhthu
- Giả định độ tin cậy P = 95%
5 Điện báo có cước (triệutiếng)
Coefficients
Analysis of Variance
Source Sum of Squares Df Mean Square F-Ratio P-Value
Trang 21Residual 7.63594E9 15 5.09062E8
Total (Corr.) 1.14124E10 16
Correlation Coefficient = -0.575249
R-squared = 33.0911 percent
R-squared (adjusted for d.f.) = 28.6305 percent
Standard Error of Est = 22562.4
Mean absolute error = 16018.1
Durbin-Watson statistic = 0.170905 (P=0.0000)
Lag 1 residual autocorrelation = 0.791327
Trang 22Đánh giá yếu tố “Điện báo có cước” với biến phụ thuộc là “Doanh thu” đểxem số lượng Điện báo có cước ảnh hưởng thế nào đến doanh thu:
Nhìn vào kết quả phân tích ở trên ta thấy hệ số tương quan của nó là 0.575249 điều đó cho thấy “Điện báo có cước” không tương quan với “Doanhthu”
R=- Tiếp theo đến hệ số xác định R2 = 33,0911% điều đó khẳng định đượcrằng yếu tố “Điện báo có cước” có khả năng giải thích khoảng 33,0911% sựthay đổi của biến phụ thuộc chính là “Doanh thu”
Với yếu tố này Pvalue = 0.0157
- Giả định độ tin cậy P = 95%
6 Yếu tố “Điện thoại đường dài (triệu phút)”
Trang 23Least Squares Standard T
Intercept 8351.48 16592.7 0.503322 0.6220
Analysis of Variance
Source Sum of Squares Df Mean Square F-Ratio P-Value
Residual 1.00242E10 15 6.68282E8
Total (Corr.) 1.14124E10 16
Correlation Coefficient = 0.348768
R-squared = 12.1639 percent
R-squared (adjusted for d.f.) = 6.30819 percent
Standard Error of Est = 25851.2
Mean absolute error = 19037.0
Durbin-Watson statistic = 0.162886 (P=0.0000)
Lag 1 residual autocorrelation = 0.759609
Trang 24Đánh giá yếu tố “Điện thoại đường dài” với biến phụ thuộc là “Doanh thu”
để xem số lượng Điện thoại đường dài ảnh hưởng thế nào đến doanh thu:
Trang 25 Nhìn vào kết quả phân tích ở trên ta thấy hệ số tương quan của nó làR=0.348768 điều đó cho thấy “Điện thoại đường dài” có dấu hiệu tương quanvới “Doanh thu”.
Tiếp theo đến hệ số xác định R2 = 12,1639% điều đó khẳng định đượcrằng yếu tố “Điện thoại đường dài” có khả năng giải thích khoảng 12,1639% sựthay đổi của biến phụ thuộc chính là “Doanh thu”
Ta so sánh đến giá trị P-value của biến độc lập này
Với yếu tố này Pvalue = 0.1701
- Giả định độ tin cậy P = 95%
Ta cóttính= 1,44127
So sánhtbảng =
Ta nhậnthấyttínhtbảng
IV- Hồi quy đa biến
1 Hồi quy đa biến tổng quát.
- Hàm hồi quy bộ tổng thể(PRF) : Y=a1+a2X2+a3X3+ +a k X k+u
Trong đó:
+ a1: là hệ số tự do( hệ số chặn)
+ a j : là hệ số hồi qui riêng
u : sai số ngẫu nhiên
- Hàm hồi quy mẫu(SRF):
^
Y i= ^β i+ ^β2X 2i+ ^β3X 3 i+ + ^βk X ki
Trong đó:
+ Y^i là ước lượng của giá trị trung bình của Y i đối với biến X i đã biết
+ ^β i là ước lượng của β i
2 Hồi quy đa biến với bài toán
Trang 26Source Sum of Squares Df Mean Square F-Ratio P-Value
Model 1.12103E10 6 1.86838E9 92.44 0.0000
Residual 2.02128E8 10 2.02128E7
Total (Corr.) 1.14124E10 16
R-squared = 98.2289 percent
R-squared (adjusted for d.f.) = 97.1662 percent
Standard Error of Est = 4495.87
Trang 27Durbin-Watson statistic = 2.63941 (P=0.7280)
Lag 1 residual autocorrelation = -0.368815
7.88502*x6
y=-30039.9+2.9149*x1+7.8266*x2+7.26757*x3+75.6154*x4+244.327*x5 Theo bảng kết quả trên ta có R2= 98,2289% với giá trị này ta có thể đánh
mô hình rất thích hợp để lựa chọn
- So sánh Ftínhvà Fbảng để kiểm định mô hình chấp nhận Ha hay Ho
- Nhìn vào giá trị P-value ở cột bên trên thì ta nhận thấy hầu như không yếu
tố nào có giá trị thống kê Ta nhận thấy trong phân tích hồi quy đơn (riênglẻ) thìhầu hết các yếu tố có ý nghĩa thống kê
Trang 28V- Kết luận về mức độ ảnh hưởng của các yếu tố tới doanh thu
5 Doanhthu = 39873,6–794,566 *(Điện báo có cước)
6 Doanhthu = 8351,48 + 7,56734 *(Điện thoại đường dài)
Nhìn vào bảng phân tích đơn biến ta thấy hệ số tương quan R của Bưu phẩm
đi có cước cao nhất (0,97304) > Bưu kiện đi có cước (0.965408) > Báo chí pháthành (0,964244) > Thư và điện chuyển tiền (0,844457) > Điện thoại đường dài(0.348768) > Điện báo có cước (-0,575249) Như vậy chỉ có Điện báo có cước
là yếu tố hầu như không có ảnh hưởng đến doanh thu
Nếu nhìn trị số p ( P-value) ta thấy hầu hết các yếu tố đều có ý nghĩa thống
kê (trừ Điện thoại đường dài và Điện báo có cước)