Phụ lục A Tính toán hệ số hồi quy cung cấp cho các bạn cách tính hệ số hồi quy, bảng dữ liệu đầu vào hàm hồi quy, bảng tóm tắt kết quả tính toán SUMMARY OUTPUT, bảng phân tích phương sai ANOVA,... Hy vọng đây là tài liệu tham khảo hữu ích cho các bạn.
Trang 1PHỤ LỤC A: TÍNH TOÁN HỆ SỐ HỒI QUY
Mô hình phát sinh (P) và thu hút (A) chuyến đi được xây dựng là các hàm hồi quy tuyến tính 3 biến với các biến là số lượng dân số, số lượng lao động và số lượng học sinh sinh viên Cụ thể kết quả tính toán như sau:
Mô hình phát sinh chuyến đi:
Pi = ai*Population + bi*Workers + ci*Students
Mô hình thu hút chuyến đi:
Aj = xj*Population + yj*Workers + zj*Students Trong đó: Population : Dân số
Workers : Số lao động
Students : Số HSSV
ai, bi, ci, xj, yj, zj là tham số, hệ số hồi quy tương ứng
Các dự liệu đầu vào sử dụng hàm hồi quy được trình bày trong Bảng 1.
Bảng 1 Dữ liệu đầu vào hàm hồi quy
Zone
Các biến số Phát sinh chuyến đi năm 2014 Thu hút chuyến đi năm 2014 Dân số động Lao HSSV HBW HBS HBO NHB HBW HBS HBO NHB
1 15427 3350 4203 1190 1020 5269 623 3350 4203 1190 1020
2 24207 3910 1755 653 1905 4518 1198 3910 1755 653 1905
3 21868 3792 5952 1224 2507 2448 233 3792 5952 1224 2507
4 15691 4465 4898 2418 1846 1582 220 4465 4898 2418 1846
5 10144 2718 1487 635 494 2365 388 2718 1487 635 494
6 15577 4646 4750 2575 1848 3829 660 4646 4750 2575 1848
7 17903 3100 4305 1786 2449 1939 306 3100 4305 1786 2449
8 20776 3056 6295 916 4063 3148 1259 3056 6295 916 4063
9 36178 7830 9775 4245 3313 5488 569 7830 9775 4245 3313
10 20072 5613 7168 2434 2339 2816 382 5613 7168 2434 2339
11 16157 3415 1887 980 1519 4214 539 3415 1887 980 1519
Tổng 214000 45895 52475 19056 23304 37616 6378 45895 52475 19056 23304
Với các dữ liệu trên sử dụng công cụ Microsofl Excel để tính toán hồi quy cho từng giá trị của từng chuyến đi phát sinh(P) và thu hút (A)
Kết quả tính toán của hàm hồi quy cho chuyến đi Phát sinh với mục đích HBW như sau:
Bảng 2: Kết quả hồi quy Phát sinh chuyến đi với mục đích HBW trong Excel
Trang 2Regression Statistics
Multiple R (R) 0.979238
R Square (R2) 0.958907
Adjusted R
Standard Error 481.5898
Observations
ANOVA
TSS=ESS+RSS
Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95.0% Upper 95.0%
Trang 3 Bảng tóm tắt kết quả tính toán SUMMARY OUTPUT:
Hàm hồi quy có dạng Pi = ai*Populationi + bi*Workersi + ci*Studentsi
Regression Statistics: Các thông số của mô hình hồi quy
Multiple R: Hệ số tương quan bội (0<=R<=1) R= 0.979238 cho thấy mức
độ chặt chẽ của mối liên hệ tương quan bội
R Square: Hệ số xác định Với R2=
=
=0.958907 trong 100%
sự biến động của biến phụ thuộc P (số chuyến đi phát sinh với mục đích HBW) thì
có 95,89 % sự biến động là do các biến độc lập Population, Workers, Students ảnh hưởng, còn lại là do sai số ngẫu nhiên
Adjusted R: Hệ số xác định mẫu điều chỉnh Là hệ số xác định có tính đến
độ lớn hay nhỏ của bậc tự do df Cho thấy mức ảnh hưởng của việc tăng thêm biến
số
Standard Error: Sai số chuẩn của P do hồi quy là 910
Observation: Số quan sát hay dung lượng mẫu là 11 Đây chính là số Zone
nội vùng
Bảng phân tích phương sai ANOVA (Analysis of variance):
Regression: Do hồi quy Số lượng các biến độc lập k =3 ( Population,
Workers, Students)
Residual: Do ngẫu nhiên Giá trị này được xác định bằng hiệu số mẫu quan
sát n và số biến độc lập k Vậy n-k = 11-3 = 8
Total: Tổng của Regression và Residual = 3+8 = 11
Df (Degree of freedom): Số bậc tự do
SS (Sum of Square): Tổng bình phương của mức động (sai lệch) giữa các
giá trị quan sát của Y (ký hiệu là Yi) và giá trị bình quân của chúng
MS (Mean of Square): Phương sai hay số bình quân của tổng bình phương
sai lệch kể trên
TSS ( Total Sum of Square)= ESS+TSS= 45152387 là Tổng bình phương
của tất cả các mức sai lệch giữa các giá trị quan sát Pi và giá trị bình quân của chúng
Trang 4Do hồi quy Regression ESS (Explained Sum of Square)= 43296957 là
tổng bình phương các sai lệch giữa các giá trị của biến phụ thuộc P (số chuyến đi phát sinh với mục đích HBW) nhận được từ hàm hồi quy mẫu (ký hiệu P*i) Độ lớn của ESS phản ánh mức độ giao động của các giá trị cá biệt của mô hình với giá trị trung bình mẫu hàm hồi quy
ESS=Σi (P * i P 2
Do ngẫu nhiên Residual RSS (Residual Sum of Square) là tổng bình
phương của tất cả các sai lệch giữa các giá trị quan sát của P (Pi) và các giá trị nhận được từ hàm hồi quy P*i
RSS ie2 i P -P * i 2 1855430
Ta có thể kiểm tra chéo như sau:
TSS = ESS + RSS = 45152387
R 2 = ESS/ TSS= 0.958907
F-stat: Tiêu chuẩn F dùng làm căn cứ để kiểm định độ tin cậy về mặt
khoa học (thống kê) của toàn bộ phương trình hồi quy
Significance F: F lý thuyết
- Coefficients: Cột giá trị của các hệ số hàm hồi quy: β1 = -0.07706,
β2 = 0.595462, β3 = 0.169772 với β1, β2 , β3 : là các hệ số ước lượng, các hệ số hồi quy này phản ánh mức độ ảnh hưởng của từng biến độc lập ( Dân số, Lao động, HSSV) đến biến phụ thuốc P1 (số chuyến đi phát sinh với mục đích HBW)
Trong quá trình phỏng vấn khảo sát thực tế, số chuyến đi khảo sát không nhiều và kết quả khảo sát phải qua 1 bước hiệu chỉnh nên kết quả hồi quy này xuất hiện sai số và các giá trị mang dấu (-) nhưng các sai số này có thể chấp nhận được
- Intercept: Hệ số tự do Hệ số này cho thấy xuất phát điểm của đường hồi
quy Tuy nhiên ở đây ta không xét đến hệ số tự do này
Standard Error: (se) độ lệch chuẩn của mẫu theo biến
t-stat: Tiêu chuẩn t dùng làm căn cứ để kiểm định độ tin cậy về mặt khoa học
Trang 5(thống kê) của độ co giãn ai ( a1= -2.2829, a2= 3.436699 , a3= 1.787828 ) tức là của mối liên hệ giữa các biến số độc lập ( Dân số, Lao động, HSSV) và hàm phụ thuộc P (số chuyến đi phát sinh với mục đích HBW)
P-value: Xác suất để t > t-stat, dùng kiểm định độ tin tin cậy về mặt khoa học
(thống kê) của độ co giãn ai tức là của mối liên hệ giữa các biến số độc lập ( Dân
số, Lao động, HSSV) và hàm phụ thuộc P (số chuyến đi phát sinh với mục đích HBW)
Lower 95%, Upper 95%, Lower 98%, Upper 98%: là cận dưới và cận trên
của khoảng ước lượng cho các tham số với độ tin cậy 95% và độ tin cậy 98%
Nhận xét: Dựa vào bảng kết quả trên ta có phương trình hồi quy cho chuyến
đi Phát sinh với mục đích HBW như sau:
P1 = -0.07706*Dân số + 0.595462*Lao động + 0.169772*HSSV
Như vậy với dữ liệu dự báo năm 2020 của Zone 1 là: Dân số = 15859, Lao động = 3444, HSSV = 4321 thì giá trị dự báo của P1 được tính như sau:
P1 = -0.07706*15859 + 0.595462*3444 + 0.169772*4321= 1562 (chuyến
đi/ngày)
Tức là số chuyến đi phát sinh với mục đích HBW của Zone 1 năm dự báo
2020 sẽ là 1520 chuyến đi/ngày
Ngoài ra, dựa vào bảng kết quả hồi quy ( Bảng 2) ta cũng thấy:
Nếu Số lao động và Số HSSV không đổi thì cứ tăng Dân số 1 người sẽ làm cho Số chuyến đi Phát sinh với mục đích HBW giảm đi 0.07706 chuyến đi Điều này trái với thực thế Trong trường hợp này số chuyến đi khảo sát được không nhiều
và số lượng mẫu thống kê n nhỏ nên sai số có thể chấp nhận được
Nếu Dân số và Số HSSV không đổi thì cứ tăng Số Lao động lên 1 người sẽ làm cho Số chuyến đi Phát sinh với mục đích HBW tăng lên 0.595462 chuyến đi Điều này chứng tỏ mức độ ảnh hưởng của Số Lao động lên Số chuyến đi Phát sinh với mục đích HBW là rất lớn
Nếu Dân số và Số lao động không đổi thì cứ tăng Số HSSV lên 1 người sẽ làm cho Số chuyến đi Phát sinh với mục đích HBW tăng lên 0.169772 chuyến đi
Trang 6 Kiểm định các hệ số hồi quy và mô hình hồi quy:
Ứng với mỗi mẫu quan sát, sau khi chạy mô hình hồi quy ta sẽ tìm được dạng của mô hình tổng thể Tuy nhiên, với xác suất mắc sai lầm cho phép cần xác định mô hình liệu có phù hợp hay không? Để khẳng định được đòi hỏi phải kiểm định sự phù hợp của mô hình, các hệ số hồi quy và ước lượng các hệ số này với độ tin cậy cho phép Trong trường hợp này sẽ kiểm định cho Chuyến đi Phát sinh với mục đích HBW
Để có kết luận chính xác về sự phù hợp của mô hình (tồn tại hay không mối quan hệ (sự tương quan) giữa các biến) ta tiến hành kiểm định một trong các cặp giả thuyết sau:
H0: R2 = 0 (không có mối quan hệ giữa các biến)
H1: R2 ≠ 0 ( có mối quan hệ giữa các biến)
Hoặc:
H0: β1= β2= β3= 0; trong đó β1, β2, β3 là hệ số hồi quy của các biến độc lập Dân số, Lao động, HSSV
H1: Tồn tại ít nhất một hệ số β khác 0
Tiêu chuẩn kiểm định được dùng là:
Nếu H0 đúng thì F có phân phối fα (k-1,n-k) cho nên miền bác bỏ đối với giả thiết H0 là:
Với fα (k-1,n-k) có thể tính được bằng cách sử dụng hàm FINV trong Excel
Cú pháp: = FINV(probability, deg_freedom1, deg_freedom2)
Trong đó: probability là mức ý nghĩa, deg_freedom1, deg_freedom2 là các
số bậc tự do thứ nhất (k-1) và thứ hai (n-k) (với k = 3 là số biến độc lập và n = 11 là
số quan sát của mô hình hồi quy)
Trang 7Nhìn vào bảng kết quả (Bảng 2) ta thấy Fqs= 62.22738 và tính được f0.05 (2,8) theo công thức =FINV(0.05,2,8) = 4.45897 nên Fqs > f0.05 (2,8) do đó Fqs thuộc miền bác bỏ W0.05 Do đó bác bỏ H0 và chấp nhận H1 tức là có sự tương quan hay tồn tại mối quan hệ giữa các biến của mô hình (mô hình hồi quy này là phù hợp).
Kiểm định giả thiết với hệ số hồi quy Dân số
Sau khi tiến hành kiểm định sự phù hợp của mô hình ta cũng cần phải kiểm tra từng hệ số cụ thể trong mô hình hồi quy để khẳng định sự tồn tại hoặc có thể nhận một giá trị cụ thể nào đó của các hệ số
Kiểm định cặp giả thuyết: H0 : β1 = β0 và H1 : β1 ≠ β0 trong đó β1 là hệ
số hồi quy của biến độc lập Dân số, β0 = 0
Tiêu chuẩn kiểm định:
Miền bác bỏ đối với H0 là:
Với tα/2 (n-k) có thể tính được bằng cách sử dụng hàm TINV trong Excel
Cú pháp: = TINV(probability, deg_freedom)
Trong đó: probability là mức ý nghĩa (α/2= 0.025)
deg_freedom là số bậc tự do (n – k) = (11-3) = 8
Từ bảng kết quả (Bảng 2) ta có: |Tqs| = 2.2829 và tính được t0.025(8) theo
công thức =TINV(0.025,8) = 2.7515 nên – t0.025(8) <Tqs < t0.025(8) Do đó, chưa có
cơ sở bác bỏ H0 tức là ở mức ý nghĩa 5% chưa thể khẳng định có sự ảnh hưởng của Dân số đến Số chuyến đi Phát sinh với mục đích HBW Điều này không đúng với thực tế, do mẫu khảo sát ít và số liệu thống kê chưa được hiệu chỉnh dẫn đến sai số nhưng trong luận văn này vẫn được chấp nhận
Trang 8 Kiểm định giả thiết với hệ số hồi quy_Sô Lao động
Tương tự như kiểm định hệ số hồi quy Dân số ta kiểm định hệ số hồi quy Số lao động Kiểm định cặp giả thuyết: H0 : β2 = β0 và H2 : β2 ≠ β0 trong
đó β2 là hệ số hồi quy của biến độc lập Lao động, β0 = 0
Tiêu chuẩn kiểm định:
Miền bác bỏ đối với H0 là:
Với tα/2 (n-k) có thể tính được bằng cách sử dụng hàm TINV trong Excel
Cú pháp: = TINV(probability, deg_freedom)
Trong đó: probability là mức ý nghĩa (α/2= 0.025)
deg_freedom là số bậc tự do (n – k) = (11-3) = 8
Từ bảng kết quả (Bảng 2) ta có: |Tqs| = 3.4366 và tính được t0.025(8)
theo công thức =TINV(0.025,8) = 2.7515 nên Tqs > t0.025(8) Do đó bác bỏ giả thiết H0 tức là ở mức ý nghĩa 5% có thể khẳng định có sự ảnh hưởng của Lao động đến Số chuyến đi Phát sinh với mục đích HBW
Kiểm định giả thiết với hệ số hồi quy_Số HSSV
Kiểm định cặp giả thuyết: H0 : β3 = β0 và H3 : β3 ≠ β0 trong đó β3 là hệ
số hồi quy của biến độc lập HSSV, β0 = 0
Tiêu chuẩn kiểm định:
Miền bác bỏ đối với H0 là:
Với tα/2 (n-k) có thể tính được bằng cách sử dụng hàm TINV trong Excel
Trang 9Cú pháp: = TINV(probability, deg_freedom)
Trong đó: probability là mức ý nghĩa (α/2= 0.025)
deg_freedom là số bậc tự do (n – k) = (11-3) = 8
Từ bảng kết quả (Bảng 2) ta có: |Tqs| = 1.7878 và tính được t0.025(8) theo
công thức =TINV(0.025,8) = 2.7515 nên – t0.025(8) <Tqs < t0.025(8) Do đó, chưa có
cơ sở bác bỏ H0 tức là ở mức ý nghĩa 5% chưa thể khẳng định có sự ảnh hưởng của
Dân số đến Số chuyến đi Phát sinh với mục đích HBW