Nội dung Diễn giải các hệ số trong kết quả phân tích Các kỹ thuật ước lượng mô hình hồi qui đánh giá mức độ phù hợp mô hình Xem xét và kiểm định các giả định trong phân tích hồi quy Cỡ m
Trang 1Phân tích hồi quy đơn
hồi quy bội
Nhóm 2
Trang 2Nội dung
Diễn giải các hệ số trong kết quả phân tích
Các kỹ thuật ước lượng mô hình hồi qui đánh giá mức độ phù hợp mô hình Xem xét và kiểm định các giả định trong phân tích hồi quy
Cỡ mẫu trong hồi qui Khi nào sử dụng phân tích hồi quy
Trang 3I Khi nào sử dụng phân tích hồi quy
Khái niệm:
Phân tích hồi quy (Regression Analysis) là một
kỹ thuật thống kê được dùng để phân tích mối quan hệ giữa một biến phụ thuộc (dependence variable) với các biến biến độc lập (independence variable)
Trang 4I Khi nào sử dụng phân tích hồi quy
Trang 5I Khi nào sử dụng phân tích hồi quy
PHÂN LOẠI HỒI QUY
NHIỀU BIẾN ĐỘC
LẬP = HỒI QUY BỘI
1 BIẾN ĐỘC LẬP = HỒI QUY ĐƠN
Trang 6I Khi nào sử dụng phân tích hồi quy
DỮ LIỆ U LÀ ĐỊNH L
ƯỢNG HOẶC C HUYỂN ĐỔI
PHÂN C
HIA BIẾ N VÀO ĐỘC LẬ
P HAY L Ệ THUỘC
ĐIỀU KIỆN ÁP DỤNG:
Trang 7II Cỡ mẫu trong hồi quy
• Kích cỡ mẫu ảnh hưởng đến khả năng tổng quát của các kết quả theo tỷ lệ các quan sát đối với các biến độc lập
Nguyên tắc chung
Nguyên tắc chung
Tỷ số này không bao giờ giảm xuống dưới
Mức mong muốn từ
15 – 20 quan sát cho mỗi biến độc lập
Trang 8• Tuy nhiên, nếu sử dụng từng bước, mức đề nghị sẽ tăng lên 50 : 1 vì kỹ thuật này chỉ lựa chọn các mối quan hệ mạnh nhất trong bộ dữ liệu và có xu hướng trở
thành mẫu cụ thể Trong trường hợp có sẵn mẫu không đáp ứng các tiêu chí này, nhà nghiên cứu phải chắc chắn để xác nhận tính tổng quát của kết quả
Trang 91 Xác định mức độ tự do
• Khi tỷ lệ này giảm xuống dưới 5 : 1, nhà nghiên cứu gặp phải nguy cơ overfitting biến thể đối với mẫu, làm cho các kết quả quá cụ thể đối với mẫu và do đó thiếu tính tổng quát
Khái niệm thống kê về mức độ tự do
Trang 10tham số từ dữ liệu mẫu Trong trường hợp hồi quy, các thông số là các hệ số hồi quy cho mỗi biến độc lập và giá trị bất biến
biến hồi quy và cho thấy sự đóng góp của mỗi biến độc lập với giá trị dự đoán
Trang 11• Vậy, mối quan hệ giữa số quan sát và các biến là gì? Chúng ta hãy nhìn vào một cái nhìn đơn giản về ước lượng các tham số cho một số hiểu biết sâu sắc về vấn
đề này
Trang 12• Mỗi quan sát đại diện cho một đơn vị riêng biệt và độc lập của thông tin (tức là, một tập hợp các giá trị cho mỗi biến độc lập) Theo quan điểm đơn giản, nhà
nghiên cứu có thể dành một biến duy nhất để dự đoán hoàn hảo chỉ một quan sát, một biến thứ hai cho một quan sát khác, Nếu mẫu tương đối nhỏ, thì tính chính xác dự đoán có thể khá cao, và nhiều quan sát sẽ được dự đoán hoàn hảo
Trang 13• Trên thực tế, nếu số lượng các tham số ước lượng (hệ số hồi quy và hằng số)
bằng với cỡ mẫu, dự đoán hoàn hảo sẽ xảy ra ngay cả khi tất cả các giá trị biến là
vì các tham số ước tính không có khái quát, nhưng chỉ liên quan đến dữ liệu mẫu Hơn nữa, bất cứ khi nào một biến được thêm vào phương trình hồi quy, giá trị R2
sẽ tăng lên
Trang 14• Các mức độ tự do như một thước đo của tính tổng quát Điều gì xảy ra với khả năng khái quát khi kích thước mẫu tăng lên? Chúng ta có thể dự đoán một cách hoàn hảo một quan sát với một biến duy nhất, nhưng còn những quan sát khác thì sao? Do đó, nhà nghiên cứu đang tìm kiếm mô hình hồi quy tốt nhất, có độ chính xác dự đoán cao nhất cho mẫu lớn nhất (tổng quát nhất)
Trang 15• Mức độ khái quát hoá được thể hiện bằng mức độ tự do, được tính như sau:
hoặc
Độ tự do (df) = Kích thước mẫu - Số tham số ước tính
Mức độ tự do (df) = N - (Số biến độc lập + 1)
Trang 16• Mức độ tự do càng lớn, kết quả càng tổng quát hơn Mức độ tự do tăng cho một mẫu nhất định bằng cách giảm số lượng các biến độc lập Do đó, mục tiêu là để đạt được độ chính xác cao nhất về tiên đoán với mức độ tự do nhất Trong ví dụ trước của chúng ta, nơi mà số lượng các tham số ước lượng bằng với kích thước mẫu, chúng ta có dự đoán hoàn hảo, nhưng không bằng cấp tự do!
Trang 17• Các nhà nghiên cứu phải giảm số lượng các biến độc lập (hoặc tăng kích cỡ
mẫu), giảm độ chính xác dự đoán mà còn tăng mức độ tự do Không có hướng dẫn nào cụ thể xác định mức độ tự do của mức độ lớn như thế nào, chỉ vì chúng cho thấy khả năng tổng quát của các kết quả và đưa ra ý tưởng về việc sử dụng bất kỳ mô hình hồi quy nào như được chỉ ra trong Quy tắc ngón tay cái 2
Trang 18• Tạo các biến bổ sung Mối quan hệ cơ bản thể hiện trong hồi quy nhiều là mối liên hệ tuyến tính giữa các biến số phụ thuộc và độc lập dựa trên tương quan giữa thời điểm và sản phẩm Một vấn đề mà các nhà nghiên cứu phải đối mặt là mong muốn kết hợp các dữ liệu phi tuyến tính như giới tính hay nghề nghiệp vào
hạn trong dữ liệu số liệu Hơn nữa, hồi quy không có khả năng trực tiếp mô hình các mối quan hệ phi tuyến có thể hạn chế các nhà nghiên cứu khi phải đối mặt với các tình huống trong đó một mối quan hệ phi tuyến (ví dụ, hình chữ U ) được
đề xuất bởi lý thuyết hoặc được phát hiện khi kiểm tra dữ liệu
Trang 192 SỬ DỤNG CÁC BIẾN BIẾN ĐỔI
• Hồi quy đa biến hoàn toàn phụ thuộc vào việc tạo ra các biến số
• Các phép biến đổi như là phương tiện để khắc phục những vi phạm về một số giả định thống kê
• Mục đích là : cung cấp cho nhà nghiên cứu một phương tiện để sửa đổi các biến phụ thuộc hoặc độc lập vì một trong hai lý do sau: 1 Cải thiện hoặc sửa đổi mối quan hệ giữa các biến độc lập và biến phụ thuộc 2 Cho phép sử dụng các biến phi tuyến tính trong biến hồi quy
Trang 203 Quy tắc ngón tay cái 2
Các cân nhắc về cỡ mẫu
• Hồi quy đơn giản có thể có hiệu quả với quy mô mẫu là 20
• Tỉ lệ quan sát tối thiểu đối với các biến là 5: 1, nhưng tỷ lệ ưu tiên là 15: 1 hoặc 20: 1
• Tối đa hóa mức độ tự do cải thiện khả năng khái quát hóa và giải quyết cả sự phân biệt mô hình và các mối quan tâm về mẫu
Trang 21III.CÁC GIẢ ĐỊNH CỦA PHÂN TÍCH HỒI QUY
Giả định liên hệ tuyến tính
Trang 221.Giả định liên hệ tuyến tính
(đánh giá mức độ đường thẳng phù hợp với dữ liệu quan sát)
Trang 24Nhóm 2_SPSS_K27 24
Trang 25Liên hệ tuyến tính nghịch
Trang 26Liên hệ tuyến tính nghịch
Trang 27Không có liên hệ
Trang 28Liên hệ tuyến tính nghịch
Trang 292.Giả định phương sai của sai số không đổi
(kiểm tra giả định phương sai của sai số không đổi có bị vi phạm)
Nếu độ lớn của phần dư tăng hoặc giảm cùng với giá trị dự đoán (hay giá trị biến độc lập mà ta nghi ngờ gây ra hiện tượng phương sai thay đổi đối với mô hình hồi quy tuyến
tính bội) thì chúng ta nên nghi ngờ giả định phương sai của sai số không đổi đã bị vi phạm)
Trang 30Nhóm 2_SPSS_K27 30
Trang 32Kiểm đinh với mức ý nghĩa 5%
hệ số tương quan giữa tt xăng và các biến độc lập đều cao thấp nhất là 0,68>5%=> các biến độc lập này có thể đưa vào mô hình để giải thích tt xăng + hệ số tương quan giữa các biến độc lập vs nhau cũng cao thấp nhất là 0,75 Vậy bác bỏ giả thuyết phương sai của sai số thay đổi
Trang 333.Giả định về phân phối chuẩn của phần dư
Phần dư có thể không tuân theo phân phối chuẩn vì những lý do như: sử dụng sai mô hình, phương sai không
phải là hằng số, số lượng các phần dư không đủ nhiều để phân tích…
Trang 34Nhóm 2_SPSS_K27 34
Trang 36Nhóm 2_SPSS_K27 36
Trang 37Phần dư xấp xỉ chuẩn khi có giá trị trung bình
mean gần bằng 0, độ lệch chuẩn 0.958 gần bằng 1
=> giả thuyết phân phối chuẩn của phần dư không
vi phạm
Trang 38Các điểm phân vị trong phân phối của phần dư sẽ tập trung thành
1 đường chéo nếu phần dư có phân phối chuẩn Nhìn vào đồ thị này các chấm tròn không phân tán quá xa đường thẳng kỳ vọng nên có thể kết luận là giả thiết phân phối chuẩn không bị vi phạm.
Trang 394.Giả định về tính độc lập của sai số
Trang 40Nhóm 2_SPSS_K27 40
Trang 42Nhóm 2_SPSS_K27 42
Trang 44Nhóm 2_SPSS_K27 44
Trang 45K=4; N=50DL=1.206DU=1.537D=1.668DU<D<2
=> Không có tương quan chuỗi bậc 1
Trang 465.Giả định về hiện tượng đa cộng tuyến
Cộng tuyến là trạng thái trong đó các biến độc lập có tương quan chặt chẽ với nhau Vấn đề của hiện tượng cộng
tuyến là chúng cung cấp mô hình những thông tin rất giống nhau và rất khó tách rời ảnh hưởng của từng biến
một đến biến phụ thuộc
Trang 48Nhóm 2_SPSS_K27 48
Trang 50Nhóm 2_SPSS_K27 50
Trang 51Để chẩn đoán đa cộng tuyến người ta thường dùng chỉ số VIF (Variance Inflation Factor), tạm dịch tiếng
Việt là Yếu Tố Phóng Đại Phương sai.
* Nếu VIF≥5 => Xảy ra hiện tượng đa cộng tuyến
Hậu quả của Đa cộng tuyến:
1 Làm tăng phương sai dẫn đến không ước lượng chính xác mô hình
2 Làm tăng sai số chuẩn (standard error), tăng khoảng tin cậy 95%, tăng giá trị p, khó bác bỏ giả thuyết
không (sai sót loại II)
3 Đôi khi làm đổi dấu của hệ số hồi qui làm đảo ngược kết quả dự đoán.
Trang 52IV Kiểm định độ tin cậy thang đo Cronbach's Alpha
phức tạp, không thể chỉ sử dụng những thang đo đơn giản (chỉ dùng 1 câu hỏi qua sát đo lường) mà phải sử dụng các thang đo chi tiết hơn (dùng nhiều câu hỏi quan sát để đo lường nhân tố) để hiểu rõ được tính chất của nhân tố lớn Phép kiểm định này phản ánh mức độ tương quan chặt chẽ giữa các biến quan sát trong cùng 1 nhân tố Nó cho biết trong các biến quan sát của một nhân tố, biến nào đã đóng góp vào việc đo lường khái niệm nhân tố, biến nào không
Trang 53• Cronbach (1951) đưa ra hệ số tin cậy cho thang đo Chú ý, hệ số Cronbach’s
Alpha chỉ đo lường độ tin cậy của thang đo (bao gồm từ 3 biến quan sát trở lên ) chứ không tính được độ tin cậy cho từng biến quan sát
Trang 54Thực hiện kiểm định độ tin cậy thang đo Cronbach’s Alpha
trong SPSS 20
• Chúng ta vào Analyze > Scale > Reliability Analysis…
Trang 56• Thực hiện kiểm định cho nhóm biến quan sát thuộc nhân tố Lương, thưởng,
phúc lợi (TN) Đưa 5 biến quan sát thuộc nhân tố TN vào mục Items bên phải
Tiếp theo chọn vào Statistics…
Trang 57Trong tùy chọn Statistics, các bạn tích vào các mục giống như hình Sau đó
Trang 58• Sau khi click Continue, SPSS sẽ quay về giao diện ban đầu, các bạn nhấp chuột
vào OK để xuất kết quả ra Ouput:
Trang 59• Kết quả kiểm định độ tin cậy thang đo Cronbach’s Alpha của nhóm biến quan
sát TN như sau:
Trang 60BIẾN LƯƠNG THƯỞNG PHÚC LỢI - TN
Trang 61Chú thích các khái niệm:
Trang 62• Kết quả kiểm định cho thấy các biến quan sát đều có hệ số tương quan tổng biến phù hợp (≥ 0.3) Hệ số Cronbach’s Alpha = 0.790 ≥ 0.6 nên đạt yêu cầu về độ tin cậy.
biến “Điều kiện làm việc”, nhóm này sẽ có một biến quan sát bị loại.
Trang 63BIẾN ĐIỀU KIỆN LÀM VIỆC - DK
Trang 64• Kết quả kiểm định cho thấy biến quan sát DK1 có hệ số tương quan biến tổng là 0.173 < 0.3 Giá trị Cronbach's Alpha if Item Deleted của DK1 là 0.827 > 0.711 Tác giả quyết định loại biến DK1 nhằm tăng độ tin cậy của thang đo Chạy lại kiểm định lần thứ 2, ta có kết quả như sau:
Trang 66• Kết quả kiểm định cho thấy các biến quan sát đều có hệ số tương quan tổng biến phù hợp (≥ 0.3) Hệ số Cronbach’s Alpha = 0.827 ≥ 0.6 nên đạt yêu cầu về độ tin
được loại bỏ trước khi đưa vào phân tích nhân tố khám phá EFA Bảng thống kê kết quả tổng hợp lần kiểm định cuối cùng của từng nhóm biến như sau:
Trang 68• Dùng 3 tùy chọn đó khi chạy Cronbach Alpha, các bạn sẽ có các bảng xuất ở
Ouput như sau: Case Processing Summary | Reliability Statistics | Item-Total
Statistics. Chúng ta sẽ đọc kết quả kiểm định Cronbach Alpha từng bảng.
Trang 69V.Thực hiện chạy hồi quy đa biến
Biến độc lập: maluc, nang, may, lit
Biến phụ thuộc: ttxang
Trang 70Thực hiện phân tch hồi quy tuyến tnh bội, vào Analyze >
Regression > Linear
Trang 71Đưa biến phụ thuộc vào ô Dependent, các biến độc lập vào
ô Indenpendents
Trang 72Vào mục Statistics, tch chọn các mục như trong ảnh và
click Continue
Trang 73Vào mục Plots , tch chọn các mục như trong ảnh và
click Continue
Trang 74Những bảng cần sử dụng
Trang 75• Trong bảng này, các bạn quan tâm 2 giá trị: Adjusted R Square (hoặc R
Square) và Durbin-Watson.
độ ảnh hưởng của các biến độc lập lên biến phụ thuộc Cụ thể trong trường hợp
này, 6 biến độc lập đưa vào ảnh hưởng 75.7% sự thay đổi của biến phụ thuộc, còn lại 24.3% là do các biến ngoài mô hình và sai số ngẫu nhiên.
Trang 76• Durbin-Watson (DW) dùng để kiểm định tự tương quan của các sai số kề nhau (hay còn gọi là tương quan chuỗi bậc nhất) có giá trị biến thiên trong khoảng từ
0 đến 4; nếu các phần sai số không có tương quan chuỗi bậc nhất với nhau thì giá trị sẽ gần bằng 2 (từ 1 đến 3); nếu giá trị càng nhỏ, gần về 0 thì các phần sai
số có tương quan thuận; nếu càng lớn, gần về 4 có nghĩa là các phần sai số có tương quan nghịch
Trang 77• Bảng ANOVA
Trang 78• Tổng thể rất lớn, chúng ta không thể khảo sát hết toàn bộ, nên thường trong
nghiên cứu, chúng ta chỉ chọn ra một lượng mẫu giới hạn để tiến hành điều tra, từ
đó suy ra tính chất chung của tổng thể Mục đích của kiểm định F trong bảng
ANOVA chính là để kiểm tra xem mô hình hồi quy tuyến tính này có suy rộng và
áp dụng được cho tổng thể hay không
Cụ thể trong trường hợp này, giá trị sig của kiểm định F là 0.000 < 0.05 Như vậy, mô hình hồi quy tuyến tính xây dựng được phù hợp với tổng thể.
Trang 79• Bảng Coefficients
Trang 80• Những mục các bạn cần lưu ý gồm cột Hệ số hồi quy chuẩn hóa Beta, cột giá trị Sig, cột VIF.
Đầu tiên là giá trị Sig kiểm định t từng biến độc lập, sig nhỏ hơn hoặc bằng 0.05
có nghĩa là biến đó có ý nghĩa trong mô hình, ngược lại sig lớn hơn 0.05, biến độc lập đó cần được loại bỏ
Tiếp theo là hệ số hồi quy chuẩn hóa Beta, trong tất cả các hệ số hồi quy, biến
độc lập nào có Beta lớn nhất thì biến đó ảnh hưởng nhiều nhất đến sự thay đổi của biến phụ thuộc Do đó khi đề xuất giải pháp, các bạn nên chú trọng nhiều vào các nhân tố có Beta lớn
Cuối cùng là VIF, giá trị này dùng để kiểm tra hiện tượng đa cộng tuyến Theo lý
thuyết nhiều tài liệu viết, VIF < 10 sẽ không có hiện tượng đa cộng tuyến