Thuyết trình phân tích hồi quy đơn, hồi quy bội

Nội dung Diễn giải các hệ số trong kết quả phân tích Các kỹ thuật ước lượng mô hình hồi qui đánh giá mức độ phù hợp mô hình Xem xét và kiểm định các giả định trong phân tích hồi quy Cỡ m

Trang 1

Phân tích hồi quy đơn

hồi quy bội

Nhóm 2

Trang 2

Nội dung

Diễn giải các hệ số trong kết quả phân tích

Các kỹ thuật ước lượng mô hình hồi qui đánh giá mức độ phù hợp mô hình Xem xét và kiểm định các giả định trong phân tích hồi quy

Cỡ mẫu trong hồi qui Khi nào sử dụng phân tích hồi quy

Trang 3

I Khi nào sử dụng phân tích hồi quy

Khái niệm:

Phân tích hồi quy (Regression Analysis) là một

kỹ thuật thống kê được dùng để phân tích mối quan hệ giữa một biến phụ thuộc (dependence variable) với các biến biến độc lập (independence variable)

Trang 4

Trang 5

PHÂN LOẠI HỒI QUY

NHIỀU BIẾN ĐỘC

LẬP = HỒI QUY BỘI

1 BIẾN ĐỘC LẬP = HỒI QUY ĐƠN

Trang 6

DỮ LIỆ U LÀ ĐỊNH L

ƯỢNG HOẶC C HUYỂN ĐỔI

PHÂN C

HIA BIẾ N VÀO ĐỘC LẬ

P HAY L Ệ THUỘC

ĐIỀU KIỆN ÁP DỤNG:

Trang 7

II Cỡ mẫu trong hồi quy

• Kích cỡ mẫu ảnh hưởng đến khả năng tổng quát của các kết quả theo tỷ lệ các quan sát đối với các biến độc lập

Nguyên tắc chung

Tỷ số này không bao giờ giảm xuống dưới

Mức mong muốn từ

15 – 20 quan sát cho mỗi biến độc lập

Trang 8

• Tuy nhiên, nếu sử dụng từng bước, mức đề nghị sẽ tăng lên 50 : 1 vì kỹ thuật này chỉ lựa chọn các mối quan hệ mạnh nhất trong bộ dữ liệu và có xu hướng trở

thành mẫu cụ thể Trong trường hợp có sẵn mẫu không đáp ứng các tiêu chí này, nhà nghiên cứu phải chắc chắn để xác nhận tính tổng quát của kết quả

Trang 9

1 Xác định mức độ tự do

• Khi tỷ lệ này giảm xuống dưới 5 : 1, nhà nghiên cứu gặp phải nguy cơ overfitting biến thể đối với mẫu, làm cho các kết quả quá cụ thể đối với mẫu và do đó thiếu tính tổng quát

Khái niệm thống kê về mức độ tự do

Trang 10

tham số từ dữ liệu mẫu Trong trường hợp hồi quy, các thông số là các hệ số hồi quy cho mỗi biến độc lập và giá trị bất biến

biến hồi quy và cho thấy sự đóng góp của mỗi biến độc lập với giá trị dự đoán

Trang 11

• Vậy, mối quan hệ giữa số quan sát và các biến là gì? Chúng ta hãy nhìn vào một cái nhìn đơn giản về ước lượng các tham số cho một số hiểu biết sâu sắc về vấn

đề này

Trang 12

• Mỗi quan sát đại diện cho một đơn vị riêng biệt và độc lập của thông tin (tức là, một tập hợp các giá trị cho mỗi biến độc lập) Theo quan điểm đơn giản, nhà

nghiên cứu có thể dành một biến duy nhất để dự đoán hoàn hảo chỉ một quan sát, một biến thứ hai cho một quan sát khác, Nếu mẫu tương đối nhỏ, thì tính chính xác dự đoán có thể khá cao, và nhiều quan sát sẽ được dự đoán hoàn hảo

Trang 13

• Trên thực tế, nếu số lượng các tham số ước lượng (hệ số hồi quy và hằng số)

bằng với cỡ mẫu, dự đoán hoàn hảo sẽ xảy ra ngay cả khi tất cả các giá trị biến là

vì các tham số ước tính không có khái quát, nhưng chỉ liên quan đến dữ liệu mẫu Hơn nữa, bất cứ khi nào một biến được thêm vào phương trình hồi quy, giá trị R2

sẽ tăng lên

Trang 14

• Các mức độ tự do như một thước đo của tính tổng quát Điều gì xảy ra với khả năng khái quát khi kích thước mẫu tăng lên? Chúng ta có thể dự đoán một cách hoàn hảo một quan sát với một biến duy nhất, nhưng còn những quan sát khác thì sao? Do đó, nhà nghiên cứu đang tìm kiếm mô hình hồi quy tốt nhất, có độ chính xác dự đoán cao nhất cho mẫu lớn nhất (tổng quát nhất)

Trang 15

• Mức độ khái quát hoá được thể hiện bằng mức độ tự do, được tính như sau:

hoặc

Độ tự do (df) = Kích thước mẫu - Số tham số ước tính

Mức độ tự do (df) = N - (Số biến độc lập + 1)

Trang 16

• Mức độ tự do càng lớn, kết quả càng tổng quát hơn Mức độ tự do tăng cho một mẫu nhất định bằng cách giảm số lượng các biến độc lập Do đó, mục tiêu là để đạt được độ chính xác cao nhất về tiên đoán với mức độ tự do nhất Trong ví dụ trước của chúng ta, nơi mà số lượng các tham số ước lượng bằng với kích thước mẫu, chúng ta có dự đoán hoàn hảo, nhưng không bằng cấp tự do!

Trang 17

• Các nhà nghiên cứu phải giảm số lượng các biến độc lập (hoặc tăng kích cỡ

mẫu), giảm độ chính xác dự đoán mà còn tăng mức độ tự do Không có hướng dẫn nào cụ thể xác định mức độ tự do của mức độ lớn như thế nào, chỉ vì chúng cho thấy khả năng tổng quát của các kết quả và đưa ra ý tưởng về việc sử dụng bất kỳ mô hình hồi quy nào như được chỉ ra trong Quy tắc ngón tay cái 2

Trang 18

• Tạo các biến bổ sung Mối quan hệ cơ bản thể hiện trong hồi quy nhiều là mối liên hệ tuyến tính giữa các biến số phụ thuộc và độc lập dựa trên tương quan giữa thời điểm và sản phẩm Một vấn đề mà các nhà nghiên cứu phải đối mặt là mong muốn kết hợp các dữ liệu phi tuyến tính như giới tính hay nghề nghiệp vào

hạn trong dữ liệu số liệu Hơn nữa, hồi quy không có khả năng trực tiếp mô hình các mối quan hệ phi tuyến có thể hạn chế các nhà nghiên cứu khi phải đối mặt với các tình huống trong đó một mối quan hệ phi tuyến (ví dụ, hình chữ U ) được

đề xuất bởi lý thuyết hoặc được phát hiện khi kiểm tra dữ liệu

Trang 19

2 SỬ DỤNG CÁC BIẾN BIẾN ĐỔI

• Hồi quy đa biến hoàn toàn phụ thuộc vào việc tạo ra các biến số

• Các phép biến đổi như là phương tiện để khắc phục những vi phạm về một số giả định thống kê

• Mục đích là : cung cấp cho nhà nghiên cứu một phương tiện để sửa đổi các biến phụ thuộc hoặc độc lập vì một trong hai lý do sau: 1 Cải thiện hoặc sửa đổi mối quan hệ giữa các biến độc lập và biến phụ thuộc 2 Cho phép sử dụng các biến phi tuyến tính trong biến hồi quy

Trang 20

3 Quy tắc ngón tay cái 2

Các cân nhắc về cỡ mẫu

• Hồi quy đơn giản có thể có hiệu quả với quy mô mẫu là 20

• Tỉ lệ quan sát tối thiểu đối với các biến là 5: 1, nhưng tỷ lệ ưu tiên là 15: 1 hoặc 20: 1

• Tối đa hóa mức độ tự do cải thiện khả năng khái quát hóa và giải quyết cả sự phân biệt mô hình và các mối quan tâm về mẫu

Trang 21

III.CÁC GIẢ ĐỊNH CỦA PHÂN TÍCH HỒI QUY

Giả định liên hệ tuyến tính

Trang 22

1.Giả định liên hệ tuyến tính

(đánh giá mức độ đường thẳng phù hợp với dữ liệu quan sát)

Trang 24

Nhóm 2_SPSS_K27 24

Trang 25

Liên hệ tuyến tính nghịch

Trang 26

Trang 27

Không có liên hệ

Trang 28

Trang 29

2.Giả định phương sai của sai số không đổi

(kiểm tra giả định phương sai của sai số không đổi có bị vi phạm)

Nếu độ lớn của phần dư tăng hoặc giảm cùng với giá trị dự đoán (hay giá trị biến độc lập mà ta nghi ngờ gây ra hiện tượng phương sai thay đổi đối với mô hình hồi quy tuyến

tính bội) thì chúng ta nên nghi ngờ giả định phương sai của sai số không đổi đã bị vi phạm)

Trang 30

Nhóm 2_SPSS_K27 30

Trang 32

Kiểm đinh với mức ý nghĩa 5%

hệ số tương quan giữa tt xăng và các biến độc lập đều cao thấp nhất là 0,68>5%=> các biến độc lập này có thể đưa vào mô hình để giải thích tt xăng + hệ số tương quan giữa các biến độc lập vs nhau cũng cao thấp nhất là 0,75 Vậy bác bỏ giả thuyết phương sai của sai số thay đổi

Trang 33

3.Giả định về phân phối chuẩn của phần dư

Phần dư có thể không tuân theo phân phối chuẩn vì những lý do như: sử dụng sai mô hình, phương sai không

phải là hằng số, số lượng các phần dư không đủ nhiều để phân tích…

Trang 34

Nhóm 2_SPSS_K27 34

Trang 36

Nhóm 2_SPSS_K27 36

Trang 37

Phần dư xấp xỉ chuẩn khi có giá trị trung bình

mean gần bằng 0, độ lệch chuẩn 0.958 gần bằng 1

=> giả thuyết phân phối chuẩn của phần dư không

vi phạm

Trang 38

Các điểm phân vị trong phân phối của phần dư sẽ tập trung thành

1 đường chéo nếu phần dư có phân phối chuẩn Nhìn vào đồ thị này các chấm tròn không phân tán quá xa đường thẳng kỳ vọng nên có thể kết luận là giả thiết phân phối chuẩn không bị vi phạm.

Trang 39

4.Giả định về tính độc lập của sai số

Trang 40

Nhóm 2_SPSS_K27 40

Trang 42

Nhóm 2_SPSS_K27 42

Trang 44

Nhóm 2_SPSS_K27 44

Trang 45

K=4; N=50DL=1.206DU=1.537D=1.668DU<D<2

=> Không có tương quan chuỗi bậc 1

Trang 46

5.Giả định về hiện tượng đa cộng tuyến

Cộng tuyến là trạng thái trong đó các biến độc lập có tương quan chặt chẽ với nhau Vấn đề của hiện tượng cộng

tuyến là chúng cung cấp mô hình những thông tin rất giống nhau và rất khó tách rời ảnh hưởng của từng biến

một đến biến phụ thuộc

Trang 48

Nhóm 2_SPSS_K27 48

Trang 50

Nhóm 2_SPSS_K27 50

Trang 51

Để chẩn đoán đa cộng tuyến người ta thường dùng chỉ số VIF (Variance Inflation Factor), tạm dịch tiếng

Việt là Yếu Tố Phóng Đại Phương sai.

* Nếu VIF≥5 => Xảy ra hiện tượng đa cộng tuyến

Hậu quả của Đa cộng tuyến:

1 Làm tăng phương sai dẫn đến không ước lượng chính xác mô hình

2 Làm tăng sai số chuẩn (standard error), tăng khoảng tin cậy 95%, tăng giá trị p, khó bác bỏ giả thuyết

không (sai sót loại II)

3 Đôi khi làm đổi dấu của hệ số hồi qui làm đảo ngược kết quả dự đoán.

Trang 52

IV Kiểm định độ tin cậy thang đo Cronbach's Alpha

phức tạp, không thể chỉ sử dụng những thang đo đơn giản (chỉ dùng 1 câu hỏi qua sát đo lường) mà phải sử dụng các thang đo chi tiết hơn (dùng nhiều câu hỏi quan sát để đo lường nhân tố) để hiểu rõ được tính chất của nhân tố lớn Phép kiểm định này phản ánh mức độ tương quan chặt chẽ giữa các biến quan sát trong cùng 1 nhân tố Nó cho biết trong các biến quan sát của một nhân tố, biến nào đã đóng góp vào việc đo lường khái niệm nhân tố, biến nào không

Trang 53

• Cronbach (1951) đưa ra hệ số tin cậy cho thang đo Chú ý, hệ số Cronbach’s

Alpha chỉ đo lường độ tin cậy của thang đo (bao gồm từ 3 biến quan sát trở lên ) chứ không tính được độ tin cậy cho từng biến quan sát

Trang 54

Thực hiện kiểm định độ tin cậy thang đo Cronbach’s Alpha

trong SPSS 20

• Chúng ta vào Analyze > Scale > Reliability Analysis…

Trang 56

• Thực hiện kiểm định cho nhóm biến quan sát thuộc nhân tố Lương, thưởng,

phúc lợi (TN) Đưa 5 biến quan sát thuộc nhân tố TN vào mục Items bên phải

Tiếp theo chọn vào Statistics…

Trang 57

Trong tùy chọn Statistics, các bạn tích vào các mục giống như hình Sau đó

Trang 58

• Sau khi click Continue, SPSS sẽ quay về giao diện ban đầu, các bạn nhấp chuột

vào OK để xuất kết quả ra Ouput:

Trang 59

• Kết quả kiểm định độ tin cậy thang đo Cronbach’s Alpha của nhóm biến quan

sát TN như sau:

Trang 60

BIẾN LƯƠNG THƯỞNG PHÚC LỢI - TN

Trang 61

Chú thích các khái niệm:

Trang 62

• Kết quả kiểm định cho thấy các biến quan sát đều có hệ số tương quan tổng biến phù hợp (≥ 0.3) Hệ số Cronbach’s Alpha = 0.790 ≥ 0.6 nên đạt yêu cầu về độ tin cậy.

biến “Điều kiện làm việc”, nhóm này sẽ có một biến quan sát bị loại.

Trang 63

BIẾN ĐIỀU KIỆN LÀM VIỆC - DK

Trang 64

• Kết quả kiểm định cho thấy biến quan sát DK1 có hệ số tương quan biến tổng là 0.173 < 0.3 Giá trị Cronbach's Alpha if Item Deleted của DK1 là 0.827 > 0.711 Tác giả quyết định loại biến DK1 nhằm tăng độ tin cậy của thang đo Chạy lại kiểm định lần thứ 2, ta có kết quả như sau:

Trang 66

• Kết quả kiểm định cho thấy các biến quan sát đều có hệ số tương quan tổng biến phù hợp (≥ 0.3) Hệ số Cronbach’s Alpha = 0.827 ≥ 0.6 nên đạt yêu cầu về độ tin

được loại bỏ trước khi đưa vào phân tích nhân tố khám phá EFA Bảng thống kê kết quả tổng hợp lần kiểm định cuối cùng của từng nhóm biến như sau:

Trang 68

• Dùng 3 tùy chọn đó khi chạy Cronbach Alpha, các bạn sẽ có các bảng xuất ở

Ouput như sau: Case Processing Summary | Reliability Statistics | Item-Total

Statistics. Chúng ta sẽ đọc kết quả kiểm định Cronbach Alpha từng bảng.

Trang 69

V.Thực hiện chạy hồi quy đa biến

Biến độc lập: maluc, nang, may, lit

Biến phụ thuộc: ttxang

Trang 70

Thực hiện phân tch hồi quy tuyến tnh bội, vào Analyze >

Regression > Linear

Trang 71

Đưa biến phụ thuộc vào ô Dependent, các biến độc lập vào

ô Indenpendents

Trang 72

Vào mục Statistics, tch chọn các mục như trong ảnh và

click Continue

Trang 73

Vào mục Plots , tch chọn các mục như trong ảnh và

click Continue

Trang 74

Những bảng cần sử dụng

Trang 75

• Trong bảng này, các bạn quan tâm 2 giá trị: Adjusted R Square (hoặc R

Square) và Durbin-Watson.

độ ảnh hưởng của các biến độc lập lên biến phụ thuộc Cụ thể trong trường hợp

này, 6 biến độc lập đưa vào ảnh hưởng 75.7% sự thay đổi của biến phụ thuộc, còn lại 24.3% là do các biến ngoài mô hình và sai số ngẫu nhiên.

Trang 76

• Durbin-Watson (DW) dùng để kiểm định tự tương quan của các sai số kề nhau (hay còn gọi là tương quan chuỗi bậc nhất) có giá trị biến thiên trong khoảng từ

0 đến 4; nếu các phần sai số không có tương quan chuỗi bậc nhất với nhau thì giá trị sẽ gần bằng 2 (từ 1 đến 3); nếu giá trị càng nhỏ, gần về 0 thì các phần sai

số có tương quan thuận; nếu càng lớn, gần về 4 có nghĩa là các phần sai số có tương quan nghịch

Trang 77

• Bảng ANOVA

Trang 78

• Tổng thể rất lớn, chúng ta không thể khảo sát hết toàn bộ, nên thường trong

nghiên cứu, chúng ta chỉ chọn ra một lượng mẫu giới hạn để tiến hành điều tra, từ

đó suy ra tính chất chung của tổng thể Mục đích của kiểm định F trong bảng

ANOVA chính là để kiểm tra xem mô hình hồi quy tuyến tính này có suy rộng và

áp dụng được cho tổng thể hay không

Cụ thể trong trường hợp này, giá trị sig của kiểm định F là 0.000 < 0.05 Như vậy, mô hình hồi quy tuyến tính xây dựng được phù hợp với tổng thể.

Trang 79

• Bảng Coefficients

Trang 80

• Những mục các bạn cần lưu ý gồm cột Hệ số hồi quy chuẩn hóa Beta, cột giá trị Sig, cột VIF.

Đầu tiên là giá trị Sig kiểm định t từng biến độc lập, sig nhỏ hơn hoặc bằng 0.05

có nghĩa là biến đó có ý nghĩa trong mô hình, ngược lại sig lớn hơn 0.05, biến độc lập đó cần được loại bỏ

Tiếp theo là hệ số hồi quy chuẩn hóa Beta, trong tất cả các hệ số hồi quy, biến

độc lập nào có Beta lớn nhất thì biến đó ảnh hưởng nhiều nhất đến sự thay đổi của biến phụ thuộc Do đó khi đề xuất giải pháp, các bạn nên chú trọng nhiều vào các nhân tố có Beta lớn

Cuối cùng là VIF, giá trị này dùng để kiểm tra hiện tượng đa cộng tuyến Theo lý

thuyết nhiều tài liệu viết, VIF < 10 sẽ không có hiện tượng đa cộng tuyến

Định dạng
Số trang	81
Dung lượng	7,67 MB