Trong thống kê cơ bản chúng ta đã học về tương quan và hồi qui tuyến tính đơn, nếu hai biến có tương quan với nhau thì thông qua phương trình hồi qui đơn chúng ta có thể dự đoán giá trị
Trang 1HỒI QUI TUYẾN TÍNH
Bùi Thị Tú Quyên
MỤC TIÊU BÀI HỌC
Sau khi học xong bài này học viên có khả năng sau:
1 Phân biệt được hồi qui tuyến tính đơn giản và hồi qui tuyến tính đa biến
2 Mô tả được các ứng dụng thường gặp của phân tích hồi quy tuyến tính
3 Trình bày và kiểm chứng được các giả định cho phân tích hồi qui
4 Sử dụng SPSS xây dựng được mô hình hồi qui tuyến tính từ đơn biến đến đa biến
và phiên giải
NỘI DUNG
Hồi qui tuyến tính là một phương pháp phân tích thống kê y sinh học hay được sử dụng Trong thống kê cơ bản chúng ta đã học về tương quan và hồi qui tuyến tính đơn, nếu hai biến có tương quan với nhau thì thông qua phương trình hồi qui đơn chúng ta có thể dự đoán giá trị của biến phụ thuộc dựa trên một biến độc lập Hồi qui tuyến tính đa biến về cơ bản chỉ là mô hình mở rộng của hồi qui tuyến tính đơn giản khi chúng ta dự đoán 1 biến (biến phụ thuộc) dựa trên một số biến độc lập
1 Hồi qui tuyến tính đơn giản
Hệ số tương quan và hồi qui tuyến tính đơn mô tả mối liên quan giữa hai biến định lượng, nếu hai biến có tương quan với nhau thì khi một biến thay đổi sẽ kéo theo sự thay đổi của biến kia Khi tính hệ số tương quan giữa hai biến, nếu hai biến có phân bố chuẩn dùng hệ số tương quan Pearson; nếu hai biến có phân bố không chuẩn, tính hệ số tương quan Kendall hoặc Speaman
Phương trình hồi qui tuyến tính đơn mô tả mối liên quan giữa một biến phụ thuộc (y)
và một biến độc lập (x) có dạng: y=a+bx+ε
Các giá trị a, b, ε được ước tính từ bộ số liệu mẫu, phương pháp ước tính các đại
lượng thống kê này là phương pháp Bình phương tối thiểu (least square method) (Xem lại sách Thống kê cơ bản- Đại học Y tế công cộng) Trong phân tích hồi qui tuyến tính,
phương trình hồi qui chỉ có ý nghĩa khi hệ số b khác 0 Có thể sử dụng kiểm định t cho kiểm định giả thuyết β=0, nếu không bác bỏ được giả thuyết H0 (β=0) lúc đó hai biến không có quan hệ tuyến tính mà có thể có các mối quan hệ khác
Trang 22 Hồi qui tuyến tính đa biến
Trên thực tế, mô hình đa biến hay được sử dụng khi chúng ta quan tâm đến hành vi hay sức khỏe của con người vì hành vi, kiến thức, thái độ, sức khỏe con người đều chịu ảnh hưởng của nhiều yếu tố khác nhau chứ không chỉ là môt yếu tố (đơn biến) Sử dụng
mô hình hồi qui đa biến chúng ta có thể kiểm định giả thuyết (mô hình) một cách chính xác mối liên quan của một số biến lên hành vi sức khỏe
Phương trình tổng quát của hồi qui tuyến tính đa biến:
2.1 Ứng dụng của mô hình hồi qui tuyến tính đa biến
2.1.1 Cung cấp sự mô tả tốt nhất về biến phụ thuộc
Khi mục đích chỉ đơn giản là mô tả sự thay đổi của một biến phụ thuộc thì ít khi cần quan tâm đến sự loại bỏ các biến ra khỏi mô hình, cũng không cần quan tâm đến mối quan hệ nhân quả hay tính hiện thực của mô hình Sự mô tả biến phụ thuộc tốt nhất thông qua tổng bình phương phần dư sẽ dựa trên một mô hình đầy đủ (bao gồm tất cả các biến độc lập) và không cần quan tâm các biến đó có mối quan hệ hay không hoặc là mô hình
Bất kỳ một biến nào có thể cung cấp thông tin để dự đoán biến phụ thuộc và các thông tin này có thể thu thập được với một nguồn lực hợp lý đều là các biến có thể đưa
Trang 3vào một mô hình hồi qui Tất nhiên việc xác định các biến phù hợp đưa vào mô hình còn phụ thuộc vào y văn, kinh nghiệm của nhà nghiên cứu cũng như mối quan hệ về mặt y sinh học giữa biến phụ thuộc và các biến độc lập
2.1.3 Ngoại suy cho quần thể
Khi nhà phân tích mà muốn ngoại suy kết quả phân tích từ mẫu nghiên cứu cho quần thể thì cần lưu ý đến việc lựa chọn biến đưa vào mô hình Việc ngoại suy sẽ rất nguy hiểm khi phương trình hồi qui được xây dựng lại không phải là mô hình thích hợp Chính
vì vậy, nhà nghiên cứu cần phải luôn cập nhật phương trình hồi qui nếu muốn dùng phương trình này cho mục đích ngoại suy (ví dụ dùng dự báo)
2.1.4 Ước lượng các tham số
Khi dùng mô hình để ước lượng các tham số quần thể cũng phải thận trọng trong việc đưa biến vào mô hình Cần phải hạn chế các sai số do các biến thích hợp không có trong
mô hình (bị đưa ra khỏi mô hình) Ngược lại, nếu các biến độc lập thực sự không có liên quan đến biến phụ thuộc được bỏ ra khỏi mô hình thì phương sai/ sự biến thiên của các ước lượng sẽ giảm, mô hình sẽ trở nên tốt hơn
2.1.5 Khống chế các biến nhiễu
Đây là một ứng dụng rất phổ biến và cần thiết khi xây dựng mô hình hồi qui đa biến, khống chế biến độc lập dưới vai trò biến nhiễu giúp loại trừ ảnh hưởng nhiễu đến các ước lượng giá trị quần thể Như vậy khi phân tích với mục tiêu khống chế nhiễu, chúng ta cần quan tâm đến vai trò của các biến độc lập đưa vào để khống chế nhiễu phải đóng vai trò của yếu tố thứ ba lên mối quan hệ nhân quả của biến độc lập chính (nguyên nhân) và biến
phụ thuộc (hậu quả) - Xem thêm bài Nhiễu và kiểm soát nhiễu
2.1.6 Phát triển các mô hình thực tế
Mục tiêu của một nghiên cứu cơ bản thường liên quan đến việc xây dựng các mô hình, hầu hết là ở giai đoạn ban đầu của quá trình xây dựng mô hình Để xây dựng, phát triển mô hình cần phân loại các biến theo mối quan hệ nhân quả, điều này sẽ giúp cho những nghiên cứu về sau áp dụng hoặc kiểm chứng lại lý thuyết Với mục đích này, mô hình hồi qui đa biến được xây dựng trở thành định hướng cho quá trình hiểu biết, nó sẽ nhấn mạnh vào các mô hình được phát triển dựa trên thực tế và kinh nghiệm
Trang 4Mỗi một mục tiêu khi dùng mô hình hồi qui có những ý nghĩa khác nhau trong mức độ quan tâm đến đưa biến số ra khỏi mô hình, mức độ quan trọng của các biến được giữ lại với biến phụ thuộc và sự cố gắng để mô hình mang tính thực tế
2.2 Một số câu hỏi nghiên cứu có thể dùng hồi qui tuyến tính đa biến
Hồi qui tuyến tính đa biến có thể được dùng để xác định mối quan hệ của một số
biến độc lập đến một biến phụ thuộc: Liệu cân nặng, lượng calo ăn vào, lượng chất béo
ăn vào và tuổi có liên quan đến lượng cholesterol trong máu không? Để trả lời câu hỏi
nhà nghiên cứu phải đo lường cân nặng, lượng calo, lượng chất béo ăn vào của từng đối tượng NC cũng như tuổi của các đối tượng NC (các biến độc lập), và lượng cholesterol máu (biến phụ thuộc- y) Hồi qui tuyến tính đa biến có thể xem xét các biến độc lập ảnh hưởng như thế nào đến biến phụ thuộc
Hồi qui tuyến tính đa biến có thể được dùng để dự đoán giá trị của biến phụ thuộc:
Dự đoán tuổi sống kỳ vọng dựa trên số lượng điếu thuốc hút trong ngày và số giờ tập thể dục trong ngày Nhóm nghiên cứu có thể quan sát số lượng điếu thuốc đối tượng hút, thói
quen tập thể dục cũng như tuổi tử vong của các đối tượng trong mẫu nghiên cứu Dựa trên phương trình hồi qui (xây dựng dựa trên các hệ số hồi qui): y=β0+β1*x1+β2*x2, chúng ta có thể biết được tuổi sống kỳ vọng của các đối tượng trong quần thể nghiên cứu
khi biết số lượng điếu thuốc đối tượng hút (x1) và số giờ tập thể dục trong ngày (x2)
Hồi qui tuyến tính cũng có thể dùng để dự báo xu hướng: Nhà nghiên cứu có thể muốn biết tuổi sống kỳ vọng sẽ giảm thế nào khi cân nặng bị thừa 1 cân và đối tượng hút thêm 1 điếu thuốc? Các nhà nghiên cứu thu thập số liệu về số lượng điếu thuốc hút trung
bình, số cân nặng thừa cân và tuổi tử vong của đối tượng nghiên cứu Phân tích hồi qui đa biến có thể được dùng để dự báo xu hướng, ví dụ mỗi điếu thuốc hút sẽ làm tuổi sống kỳ vọng giảm đi 2 giờ, mỗi kg cân nặng bị thừa sẽ làm tuổi sống kỳ vọng giảm đi 1 tháng Điều này đặc biệt có ích khi phân tích hồi qui cho thấy điểm cắt (β0) không có ý nghĩa thống kê Lúc đó hệ số hồi qui ít nhất có thể cho phép chúng ta dự báo xu hướng (nếu các hệ số hồi qui có ý nghĩa thống kê)
Một trong những ích lợi cơ bản của phương pháp hồi qui đa biến là cho phép đánh giá tác động riêng phần của từng yếu tố giải thích cho biến phụ thuộc
Trang 52.3 Các giả định để xây dựng mô hình hồi qui đa biến
Để tiến hành phân tích, xây dựng mô hình hồi qui tuyến tính đa biến cần phải đáp ứng một số tiêu chí và giả định sau:
Hồi qui tuyến tính đa biến yêu cầu ít nhất phải có 3 biến trong mô hình, ngoài ra khi muốn làm hồi qui tuyến tính đa biến cũng cần phải tính toán xem cỡ mẫu có đủ để phân tích không Các nhà nghiên cứu cho rằng cần ít nhất là 20 đối tượng cho một biến số độc lập của mô hình hồi qui để đưa vào phân tích, trong mô hình hồi qui đa biến đơn giản nhất cũng cần cỡ mẫu là n >40 (2 biến độc lập) Ngoài ra cũng nhiều nhà nghiên cứu cho rằng với một số phương pháp hồi qui tuyến tính yêu cầu ít nhất là 40 đối tượng cho một biến độc lập đưa vào mô hình hồi qui
Quan hệ tuyến tính
Hồi qui tuyến tính đa biến yêu cầu biến độc lập và biến phụ thuộc phải có mối quan hệ tuyến tính Ngoài ra cũng cần kiểm tra các giá trị cực trị (outlier) vì mô hình hồi qui tuyến tính đa biến rất nhạy cảm với giá trị cực trị Giả định mối quan hệ tuyến tính giữa hai biến có thể kiểm tra thông qua biểu đồ mây/ tán xạ/ đồ thị chấm điểm
Hình 1: Không có mối quan hệ tuyến tính Hình 2: Quan hệ tuyến tính lỏng
Phân bố chuẩn
Hồi qui tuyến tính đa biến yêu cầu tất cả các biến đưa vào mô hình phải có phân
bố chuẩn Giả định này có thể được kiểm định thông qua biểu đồ histogram cùng đường
Trang 6phân phối chuẩn hoặc biểu đồ P-P-plot (Xem lại giáo trình Phân tích số liệu- Thống kê II- Đại học Y tế công cộng) Phân bố chuẩn cũng có thể được kiểm định thông qua các kiểm
định tính phù hợp của mô hình (goodness of fit) ví dụ kiểm định phi tham số Kolmogorov-Smirnof Nếu phân bố của biến không chuẩn mà nhà nghiên cứu vẫn muốn đưa biến vào mô hình hồi qui thì có thể sử dụng các phép đổi biến: log, square….tuy nhiên điều này có thể dẫn đến ảnh hưởng/ tác động của hiện tượng đa đồng tuyến tính
giữa các biến (Xem thêm phần đa cộng tuyến) Ngoài ra trong nhiều tình huống khi cỡ mẫu lớn thì việc tính toán các kiểm định t hay F vẫn có giá trị cho dù phân bố của biến là không chuẩn Trong trường hợp phân bố không chuẩn, chúng ta cũng có thể tính toán mô hình theo likelihood
Hình 3: Biểu đồ Histogram với đường
cong phân bố chuẩn (Normal curve) Hình 4: Biểu đồ PP-plot trong kiểm tra phân phối chuẩn
Đa cộng tuyến (multicollinear)
Hồi qui tuyến tính đa biến có giả định là không có hoặc có rất ít hiện tượng đa cộng tuyến trong bộ số liệu Đa cộng tuyến xảy ra khi các biến độc lập trong mô hình có liên quan với các biến độc lập khác trong mô hình Giả định về tính độc lập quan trọng thứ hai là sai số của các giá trị trung bình không tương quan với nhau Điều này có nghĩa
là sai số chuẩn của giá trị trung bình của một biến độc lập là độc lập với sai số chuẩn của các biến khác có trong mô hình
Tương quan nội sinh (autocorrelation)
Phân tích hồi qui tuyến tính đa biến yêu cầu có ít hoặc không có sự tương quan nội sinh trong bộ số liệu Tương quan nội sinh xảy ra khi các phần dư không độc lập với
Trang 7nhau Nói một cách khác, đó là khi giá trị y(x+1) không độc lập với giá trị y(x) Ví dụ về tương quan nội sinh xảy ra trong tính toán diễn biến của thị trường chứng khoán, khi giá của ngày hôm nay là có liên quan đến giá của ngày hôm qua
Hình 5: Biểu đồ biểu diễn diễn biến của thị trường chứng khoán
Đồ thị scatter plot cũng cho phép chúng ta kiểm định tính tương quan nội sinh, ngoài ra có thể làm kiểm định d của Durbin-Watson để kiểm định giả thuyết H0 là các phần dư không có sự tương quan tuyến tính Giá trị của d trong khoảng 0-4, giá trị gần 2 chỉ ra rằng không có tương quan nội sinh, các nhà nghiên cứu cho rằng, giá trị d nằm trong khoảng 1,5-2,5 cho phép kết luận không có tương quan nội sinh trong số liệu dùng phân tích hồi qui tuyến tính đa biến
Hình 6:Tương quan nội sinh Hình 7: Biểu đồ scatter plot biểu thị
tương quan nội sinh
Sự đồng nhất của phương sai
Giả định về sự đồng nhất của phương sai, biểu đồ scatter plot là một phương pháp tốt để nhận định xem có sự đồng nhất của phương sai hay không Nếu có hiện tượng
Trang 8phương sai đồng nhất chúng ta nên chuyển sang mô hình phân tích hồi qui không tuyến tính
Hình 8: Phương sai đồng nhất
Sai số khi đo lường biến độc lập
Khi đo lường các biến độc lập không chính xác (có sai số do bất kỳ lý do gì) thì
mô hình hồi qui có thể không phù hợp do đã bỏ sót một số biến quan trọng không đưa vào mô hình vì kết quả mô hình không chính xác, như vậy ước lượng đường bình phương tối thiểu cũng bị sai chệch Trong trường hợp này, các ước lượng phương sai cũng không còn chính xác
Các sai số tương quan
Khi số liệu được thu thập theo chuỗi thời gian thì các sai số có liên quan đến một quan sát tại một điểm thời gian cũng có thể là sai số xảy ra với các quan sát liền kề Khi các sai số có sự tương quan với nhau, các tính toán đường bình phương tối thiểu không
có sự sai chệch tuy nhiên đây không còn là ước lượng tốt về mối liên quan giữa các biến nữa Ngoài ra, trong trường hợp này, các tính toán về phương sai sẽ có sai chệch vì vậy cần phải dùng các phân tính mối liên quan khác chứ không phải hồi qui tuyến tính
Trước khi tiến hành xây dựng mô hình hồi qui thì cần phải kiểm tra xem các giả định trên có được thỏa mãn hay không (vẽ các đồ thị trong Regression- phân tích phần dư).[1]
Trang 92.4 Chiến lược xây dựng mô hình hồi qui tuyến tính đa biến
a Đi từ mô hình tổng quát tới đơn giản
Nhìn chung chiến lược xây dựng mô hình nên đi từ tổng quát tới đơn giản tốt hơn là
đi từ đơn giản tới tổng quát Các bước có thể là:
- Sử dụng khung lý thuyết, kết quả của các nghiên cứu trước, kiến thức và kinh nghiệm của nhà nghiên cứu để xác định một mô hình tổng quát (trong trường hợp này, "tổng quát" có nghĩa là một mô hình bao gồm tất cả mọi biến có thể có liên quan mà bộ số liệu có)
- Ước lượng mô hình thông qua các kết quả phân tích từ phần mềm máy tính
- Nếu bất cứ hệ số nào trong những hệ số ước lượng không có ý nghĩa thống kê, thì chúng ta nên bỏ đi biến ít ý nghĩa nhất và ước lượng lại mô hình với các biến số còn lại Nên loại bỏ từng biến một vì khi loại bỏ biến sẽ có ảnh hưởng lên các phương sai của những biến còn lại Nếu hồi qui lần thứ nhất cho chúng ta thấy có hai biến không có ý nghĩa thống kê, thì biến ít ý nghĩa nhất sẽ bị bỏ ra trước, điều này có thể làm tăng mức ý nghĩa của biến kia trong mô hình Khi cân nhắc để bỏ 1 biến nào đó ra khỏi mô hình thì có thể nhìn vào giá trị Partial SS của biến đó, bỏ biến có giá trị Partial SS nhỏ nhất ra khỏi mô hình
- Sử dụng kiểm định Ward để kiểm tra mô hình cuối cùng (mô hình giới hạn) so với
mô hình tổng quát ban đầu (mô hình không giới hạn)
b Ma trận tương quan
Khi phân tích hồi qui đa biến, nhiều tác giả bắt đầu bằng phân tích ma trận tương quan giữa tất cả các biến định sử dụng trong mô hình hồi qui kể cả biến phụ thuộc Sự phân tích này cho phép chúng ta tìm hiểu nhanh về mối liên quan tuyến tính đơn giản giữa các cặp biến- đây là một trong những giả định để xây dựng mô hình hồi qui
Khi hai biến độc lập có mối tương quan cao cho dù là thuận hay nghịch thì vai trò dự báo của một biến với biến phụ thuộc có thể bị lấn át bởi biến kia vì thế khi có mặt cả hai biến (có tương quan với nhau) trong mô hình thì một biến độc lập quan trọng có thể
Trang 10không có ý nghĩa trong mô hình hoặc ngược lại, một biến không quan trọng lại trở nên có
ý nghĩa Đây cũng là một hiện tượng đa cộng tuyến (Multicollinear)
c Tiếp cận dựa trên mục đích
Tùy thuôc vào các mục tiêu khác nhau của mô hình mà cách tiếp cận trong lựa chọn biến đưa vào trong mô hình cũng khác nhau Ngoài ra việc nghiên cứu viên có thể kết luận tầm quan trọng của các biến độc lập đến mức độ nào trong mối liên quan đến biến phụ thuộc còn phải tùy thuộc vào bản chất, thông tin mà bộ số liệu cung cấp Các kết quả hồi qui đường bình phương tối thiểu chỉ phản ánh cấu trúc tương quan của số liệu được phân tích còn kết quả phân tích đường bình phương tối thiểu này không thể dùng để xây dựng các mối quan hệ nhân quả Các mối quan hệ nhân quả chỉ có thể được xác định thông qua các nghiên cứu thực nghiệm có nhóm chứng trong đó khi giá trị của biến độc lập thay đổi thì có thể lượng giá được sự thay đổi của biến phụ thuộc Các kết quả từ bất
kỳ quá trình chọn biến nào, đặc biệt là cách chọn biến tự động cũng cần phải nghiên cứu một cách cẩn thận để đảm bảo các mô hình được gợi ý phù hợp với kiến thức về quá trình
mô hình hóa Các nhà nghiên cứu, phân tích số liệu nên nhớ không có quá trình chọn biến nào có thể thay thế được sự hiểu biết sâu sắc của nhà nghiên cứu
d Tính toán tất cả các phương trình hồi qui có thể
Về mặt lý thuyết, chúng ta chỉ có thể đảm bảo mô hình được chọn là mô hình tốt nhất khi chúng ta đã xây dựng và so sánh tất cả các mô hình hồi qui có khả năng dựa trên bộ
số liệu đã có Điều này chỉ thực hiện được khi số lượng biến chúng ta định đưa vào mô hình không quá nhiều, tuy nhiên về mặt tính toán vẫn có những khó khăn cho dù số lượng biến độc lập ít Ví dụ, nếu có 10 biến độc lập được chọn, theo lý thuyết tổ hợp chúng ta
có thể xây dựng được 210- 1=1.023 mô hình Vì thế, trên thực tế phương án này không được sử dụng
e Lựa chọn mô hình tốt nhất
Ngày nay, các nhà nghiên cứu hay lựa chọn mô hình hồi qui dựa trên việc so sánh ngay trong bản thân các mô hình chứ không tính toán xây dựng tất cả các mô hình có thể Phương pháp này sử dụng đường bình phương tối thiểu phù hợp mà tổng bình phương phần dư không thể giảm nữa khi bỏ 1 biến ra khỏi mô hình Dựa trên nguyên tắc này, chúng ta chỉ cần so sánh tổng bình phương các phần dư của các mô hình được sử dụng
Trang 11mà không cần thiết phải tính toán, xây dựng tất cả các mô hình Ví dụ, nếu một mô hình 2 biến được tìm ra cho kết quả tổng bình phương phần dư nhỏ hơn mô hình với 3 biến thì không cần phải tính toán bất kỳ một mô hình hai biến nào khác từ 3 biến trên vì tất cả các
mô hình 2 biến còn lại sẽ cho tổng bình phương phần dư lớn hơn mô hình ba biến vì thế chắc chắn lớn hơn mô hình 2 biến đã được tìm ra ban đầu
Điểm mấu chốt cần lưu ý trong việc phân tích tất cả các mô hình hồi qui là có thể không chỉ có 1 mô hình được cân nhắc là phù hợp Rất nhiều trường hợp có hai hoặc thậm chí là 3 mô hình được cho là tốt và giá trị R2 của các mô hình khác nhau rất ít, lúc
đó chúng ta cần phải cân nhắc đến những yếu tố khác ví dụ như sự thay đổi của phần dư, chi phí cho việc thu thập thông tin, kiến thức, sự hiểu biết về mối liên quan giữa các biến trên phương diện y sinh học…
2.5 Các phương pháp xây dựng mô hình
Nhìn chung có hai phương pháp cơ bản để xây dựng mô hình: 1) Đưa tất cả các biến vào cùng một lúc 2) Có sự lựa chọn biến
2.5.1 Dùng tất cả các biến cùng một lúc
Trong SPSS phương pháp này được gọi là Enter: Nhà nghiên cứu xác định các biến muốn đưa vào trong mô hình và chọn phương pháp Enter Kết quả SPSS cho một mô hình duy nhất bao gồm tất cả các biến đã được lựa chọn
Nếu bạn đã có một mô hình lý thuyết và cỡ mẫu của bạn không lớn thì phương pháp Enter là phương pháp an toàn nhất khi bạn xây dựng mô hình hồi qui tuyến tính đa biến
2.5.2 Các phương pháp lựa chọn biến
Các phương pháp lựa chọn biến đều giúp chúng ta xác định được một mô hình tốt
mà không cần phải xây dựng, đưa ra tất cả các mô hình có khả năng Các phương pháp này được gọi là phương pháp hồi qui từng bước (stepwise) Các mô hình được xây dựng dựa trên việc đưa thêm vào hoặc bỏ bớt biến có tác động nhiều đến tổng bình phương phần dư, phụ thuộc vào từng phương pháp Hồi qui từng bước không đảm bảo là bạn sẽ tìm được mô hình “tốt nhất” cho nghiên cứu và các kết quả xây dựng mô hình bằng các phương pháp khác nhau có thể không giống nhau
Forward: Phương pháp đưa dần từng biến vào mô hình, bắt đầu từ mô hình đơn giản nhất và thêm vào các biến sao cho khi thêm vào có giá trị p nhỏ nhất Biến độc lập
Trang 12đầu tiên được đưa vào sẽ là biến có ảnh hưởng nhiều nhất đến sự thay đổi của biến phụ thuộc và nó sẽ cho hệ số tương quan lớn nhất Trong từng bước tiếp theo, các biến chưa
có mặt trong mô hình nhưng sẽ làm giá trị tổng bình phương độ lệch giảm nhiều nhất sẽ được đưa vào trong mô hình Không có một qui định nào cho việc kết thúc nên mô hình cuối cùng sẽ là mô hình bao gồm đầy đủ các biến được lựa chọn
Backward: Phương pháp loại bỏ dần từng biến, bỏ ra các biến có giá trị p lớn nhất Với phương pháp này mô hình đầu tiên sẽ là mô hình với đầy đủ các biến sau đó từng bước loại bỏ các biến ra khỏi mô hình, các biến được loại bỏ dần dần sẽ phụ thuộc vào việc biến đó làm tổng bình phương phần dư tăng ít nhất Như vậy biến số còn lại trong
mô hình là các biến có tổng bình phương từng phần nhỏ nhất Không có một qui định là cho việc kết thúc mô hình nên việc loại bỏ biến số sẽ dừng lại khi mô hình chỉ còn 1 biến độc lập duy nhất
Stepwise: Cả phương pháp forward hay backward đều không tính toán sự ảnh hưởng của biến được đưa thêm vào hay loại bỏ ra đóng góp với các biến khác trong mô hình Một biến đã được đưa vào trong mô hình từ trước trong phương pháp forward có thể trở nên có vai trò không quan trọng nữa khi chúng ta đưa các biến khác vào mô hình Hoặc một biến đã bị loại ra khỏi mô hình từ trước trong phương pháp backward có thể trở nên có vai trò quan trọng sau khi đã loại bỏ 1 số biến khác ra khỏi mô hình Phương pháp lựa chọn biến thường dùng nhất được gọi phương pháp hồi qui từng bước là một quá trình chọn đưa từng biến một vào mô hình qua đó chúng ta có thể kiểm tra lại trong từng bước tầm quan trọng của tất cả các biến trong các mô hình trước Nếu tổng bình phương từng phần của bất kỳ một biến nào có trong mô hình trước không đáp ứng được tiêu chí nhỏ nhất để ở lại trong mô hình thì thay đổi quá trình lựa chọn sang phương pháp backward và các biến được loại dần dần trong từng bước cho đến khi có tổng bình phương từng phần là nhỏ nhất Như vậy, phương pháp stepwise yêu cầu nhiều tính toán hơn việc lựa chọn forward hay backward nhưng lại có ưu điểm hơn ở chỗ chúng ta có thể kiểm tra được tất cả các mô hình trước khi quyết định giữ lại mô hình thích hợp Như vậy stepwise cho chúng ta cơ hội tốt để chọn mô hình tốt nhất nhưng điều đó cũng không đảm bảo mô hình được chọn là mô hình tốt nhất
Trang 13Một số lưu ý khi áp dụng phương pháp hồi qui từng bước
Nhìn chung, không nên dùng các phương pháp hồi qui từng bước một cách tự
động để xác định mô hình tốt nhất Nó đòi hỏi bất kỳ mô hình nào có được theo cách này
cũng phải được kiểm tra tính phù hợp và thích giá trị với một bộ số liệu độc lập trước khi
sử dụng Các phương pháp hồi qui từng bước tốt nhất là nên được sử dụng như một công
cụ sàng lọc để xác định các mô hình đối lập nhau Với mục đích này, phương pháp
forward hay backward khi sử dụng đơn lẻ sẽ cung cấp cái nhìn rất hẹp về các mô hình có
khả năng Dùng stepwise về mặt nào đó là tốt hơn, giải pháp tốt hơn nữa là dùng cả 3
phương pháp (stepwise, backward, forward) Với mục đích sàng lọc, trong phương pháp
forward giá trị SLE cần phải lớn, SLE >= 0,5; với phương pháp backward SLS lại cần
phải nhỏ Với phương pháp stepwise SLE cần lớn nhưng giá trị SLS lại không dễ để xác
định cụ thể
2.6 Qui tắc chọn mô hình
Các chương trình máy tính sử dụng phương pháp hồi qui từng bước đều có đưa ra
tiêu chí để nhà nghiên cứu cân nhắc trong quá trình lựa chọn mô hình Với phương pháp
forward, có thể nhìn vào giá trị “F-to-enter” hoặc “significance level to enter” (SLE), là
kiểm định F cho tổng bình phương từng phần của biến Quá trình đưa dần từng biến vào
sẽ dừng lại khi không có biến nào ngoài mô hình đáp ứng được tiêu chí đưa vào Kiểm
định F này chỉ được sử dụng để quyết định việc đưa biến vào mô hình (khi nào thì nên
dừng lại) chứ không có ý nghĩa như là các kiểm định ý nghĩa cổ điển của toàn bộ mô hình
Trang 14Với phương pháp backward dừng bỏ biến ra khỏi mô hình khi kiểm định F của tổng bình phương từng phần là nhỏ nhất trong số các biến còn lại trong mô hình Như vậy, tiêu chuẩn này có thể bắt đầu bằng một giá trị “F-to-stay” hoặc là một “significance level to stay” (SLS) Việc loại bỏ biến ra khỏi mô hình sẽ dừng lại khi tất cả các biến còn lại trong mô hình đáng ứng được tiêu chí để ở lại trong mô hình
Nguyên tắc dừng lại mô hình thích hợp cho stepwise sử dụng tiêu chí của cả phương pháp backward và forward Quá trình chọn biến dừng lại khi tất cả các biến trong
mô hình đáp ứng tiêu chí để ở lại trng mô hình và không có biến nào ngoài mô hình đủ tiêu chuẩn để đưa vào trong mô hình (ngoại trừ những biến đã bị bỏ ra khỏi mô hình) Tiêu chí đưa 1 biến vào trong mô hình không giống như tiêu chí để 1 biến ở lại trong mô hình
Tiêu chí chọn mô hình
Rất nhiều tiêu chí chọn mô hình được cân nhắc, các tiêu chí dựa trên nguyên lý cơ bản là chọn mô hình có tổng bình phương phần dư nhỏ với càng ít đại lượng thống kê càng tốt Trên thực tế có 4 tiêu chí thường được sử dụng và cân nhắc khi lựa chọn mô hình, ngoài ra việc chọn F-to-enter và F-to-stay, hoặc là các giá trị “significance levels” SLE và SLS cũng được đề cập Sáu tiêu chí được quan tâm là:
1. Hệ số xác định (R 2 )
Hệ số xác định R2 là tỷ lệ tổng bình phương của biến phụ thuộc được giải thích bởi các biến độc lập trong mô hình: Mục đích xem xét giá trị này là để chọn được một mô hình mà có thể tính đếm được càng nhiều sự biến đổi của Y càng tốt Vì R2 không thể giảm khi các biến độc lập được thêm vào trong mô hình nên mô hình cho giá trị R2 lớn nhất cũng cần phải là mô hình chứa tất cả các biến độc lập
2. Trung bình bình phương phần dư MS(Res),
Trung bình bình phương phần dư là một ước lượng cho mô hình nếu mô hình chứa tất
cả các biến độc lập phù hợp, trong trường hợp mô hình có những biến không phù hợp thì
MS sẽ bị sai số Nếu một biến độc lập không quan trọng có mặt trong mô hình thì sẽ có tác động nhỏ lên giá trị MS
Trang 153. Hệ số xác định hiệu chỉnh R 2 adj
Trong đó: n = số các quan sát trong tập dữ liệu; K = số lượng các hệ số có trong mô hình
Hệ số R2 hiệu chỉnh được tính toán dựa trên giá trị của hệ số R2 và bậc tự do, vì thế
R2 hiệu chỉnh liên quan đến tỷ số của trung bình bình phương hơn là tổng bình phương Không giống như R2 hệ số R2 hiệu chỉnh thường không tăng khi chúng ta thêm biến độc lập vào mô hình Giá trị R2 sẽ ổn định quanh giá trị giới hạn trên khi chúng ta thêm biến vào trong mô hình Mô hình đơn giản nhất với R2 hiệu chỉnh gần với giới hạn trên sẽ được chọn là mô hình tốt nhất Giá trị R2 hiệu chỉnh liên quan chặt với MS(Res) và được kết luận tương tự như MS
Liên quan giữa R2 và R2 hiệu chỉnh: Như đã biết, việc thêm biến vào mô hình sẽ có cái lợi là làm giảm tổng bình phương các sai số hay chính là phần chưa được giải thích bởi mô hình Nói ngược lại, đưa thêm biến vào mô hình sẽ làm tăng R2- tăng phần mô hình được giải thích Bên cạnh ưu điểm thì có một nhược điểm là việc đưa thêm biến vào
mô hình làm giảm bậc tự do và làm độ chính xác của mô hình kém đi Nói một cách hình tượng, việc đưa thêm biến vào mô hình giúp chúng ta có cái nhìn đầy đủ hơn về mặt chi tiết nhưng bức tranh lại không có điểm nhấn (focus) Vì vậy, thay vì sử dụng R2 người ta
sử dụng giá trị hiệu chỉnh của nó, việc hiệu chỉnh như vậy để tránh đưa quá nhiều biến không cần thiết vào mô hình Cụ thể là nếu đưa thêm biến giải thích có ý nghĩa vào mô hình thì phần lợi (giảm tổng bình phương sai số) phải lớn hơn phần thiệt (làm giảm bậc tự do), khi đó R2 hiệu chỉnh sẽ tăng thể hiện nên đưa biến đó vào mô hình Còn nếu R2 hiệu
chỉnh lại giảm thì không nên đưa biến đó vào mô hình
4. Tiêu chuẩn thông tin Akaike- AIC và SCHWARZ
Các nhà nghiên cứu thấy rằng nếu chỉ dựa vào giá trị R2 hiệu chỉnh để quyết định có đưa 1 biến giải thích vào trong mô hình hay không nhiều khi không chính xác, vì thế bên cạnh việc xem xét các giá trị của R2 hiệu chỉnh người ta còn quan tâm đến giá trị AIC và
Trang 16SCHWARZ Tiêu chí để đưa biến vào mô hình là các giá trị AIC và SCHWARZ thấp hơn so với các mô hình khác
Trên thực tế không phải bao giờ cũng dễ dàng nhìn thấy R2 hiệu chỉnh tăng và AIC, SCHWARZ giảm để nhận định nên hay không nên đưa 1 biến vào mô hình, vì thế người
ta thường chọn một mô hình tương đối, một mô hình có nhiều tiêu chuẩn tốt nhất
Một số lưu ý
Không nên quá lạm dụng kết quả của phân tích đơn biến để chọn vào mô hình, tuy nhiên nếu sử dụng thì có thể xuất phát bằng những biến có giá trị p < 0,2 hoặc cao hơn vì các biến này có thể đóng góp vào mô hình hồi qui đa biến theo chiều hướng khó biết trước dựa trên mức độ phức tạp của các mối liên quan trong bản thân các biến Ví dụ, một biến độc lập có thể cho giá trị p = 0,27 trong mối liên quan với một biến phụ thuộc, tuy nhiên khi đưa biến đó vào mô hình đa biến thì giá trị p lại là 0,019
Vì thế, đôi khi số lượng biến đưa vào mô hình đa biến không nên quá cứng nhắc, không có một nguyên tắc cố định nào cho việc đưa biến vào tuy nhiên có ý kiến là không nên đưa vào một mô hình số lượng biến nhiều hơn n/10 (n= cỡ mẫu nghiên cứu), nhưng cũng nhiều tác giả cho rằng con số này phải là n/20 thậm chí là n/40 (xem các phần sau)
Khi cỡ mẫu lớn, mức ý nghĩa có thể cho phép chúng ta bác bỏ giả thuyết Ho Ví
dụ, Rantakallio và Makinen (1984) đưa ra một mô hình hồi qui dựa trên nghiên cứu 9795
về số lượng răng trẻ có khi được một tuổi Có 6 trên tổng số 15 biến có ý nghĩa thống kê (p < 0,05), một trong những biến đó là giới tính của trẻ (p<0,001) Hệ số hồi qui là -0,051; điều này cho thấy trung bình của sự khác biệt trong số lượng răng là 1/20 khi trẻ
đó là trẻ trai Hệ số xác định R2 chỉ là 3,1%, có nghĩa là chỉ có 3,1% sự biến đổi của Y được giải thích bởi mô hình đã xây dựng
Qui trình chọn mô hình tự động cũng có thể hữu ích tuy nhiên cũng yêu cầu sự linh hoạt Giá trị của R2 và R2 hiệu chỉnh cũng là một cách để đánh giá sự phù hợp của
mô hình (goodness-of-fit) nhưng chúng được tính toán dựa trên mối tương quan giữa các giá trị kỳ vọng và giá trị quan sát của Y (biến phụ thuộc) Chúng ta không thể có bất kỳ ý kiến nào về độ chính xác của dự đoán cho từng cá thể từ mức ý nghĩa của biến cũng như giá trị R2 tuy nhiên nó cũng phải lớn
Trang 17Xác định mô hình phù hợp cần đến 1 quá trình chọn các biến, tuy nhiên cần phải thỏa mãn hai yêu cầu sau:
- Máy tính phải đưa ra kết quả tính toán nhưng con người phải tự chọn mô hình
- Phương pháp được sử dụng để kiểm định các biến phụ thuộc vào câu hỏi nghiên cứu cụ thể được xác định
Một trong những lợi ích của hồi qui đa biến là cho phép đánh giá tác động riêng phần của từng yếu tố giải thích lên biến phụ thuộc
2.7 Các giá trị thống kê trong hồi qui tuyến tính đa biến
Beta (Standardised regression coefficients): Beta là giá trị ước lượng độ mạnh mối
liên quan của từng biến độc lập lên biến phụ thuộc Beta được ước tính theo đơn vị của
độ lệch chuẩn Ví dụ, beta=2,5 có nghĩa là khi thay đổi 1 độ lệch chuẩn của biến độc lập
sẽ dẫn đến thay đổi 2,5 độ lệch chuẩn của biến phụ thuộc Như vậy hệ số beta càng cao thì tác động của biến độc lập lên biến phụ thuộc càng lớn Trong mô hình hồi qui đơn biến (chỉ có một biến độc lập) thì hệ số beta chính là hệ số tương quan giữa biến độc lập
và biến phụ thuộc Trong mô hình hồi qui tuyến tính đa biến, chúng ta không thể so sánh mức độ đóng góp của từng biến độc lập lên biến phụ thuộc bằng cách so sánh các hệ số hồi qui Vì thế hệ số hồi qui beta được tính toán cho phép chúng ta so sánh và đánh giá
độ mạnh của mối liên quan giữa từng biến độc lập với biến phụ thuộc
R, R 2 , adjusted R 2: R lượng giá sự tương quan giữa giá trị quan sát và giá trị kỳ vọng của biến phụ thuộc Hệ số xác định R2 lượng giá tỷ lệ sự thay đổi của biến phụ thuộc có thể được giải thích bởi mô hình, R2 = MSS/TSS hệ số này càng cao càng tốt Tuy nhiên
R2 thường có xu hướng đánh giá giá trị của mô hình cao hơn trên thực tế, vì vậy hệ số adjusted R2 được sử dụng Hệ số adjusted R2 có tính toán đến cả số lượng biến được đưa vào mô hình cũng như số lượng đối tượng quan sát (cỡ mẫu) dùng để xây dựng mô hình
Hệ số adjusted R2 cho biết mức độ cải tiến của phương sai phần dư (residual variance) do yếu tố độc lập có mặt trong mô hình
∆β ước lượng sự thay đổi của một tham số khi bỏ một đối tượng ra khỏi phân tích Phần dư (Residuals): Trung bình phần dư phải là 0, xem xét các khoảng phân vị xem
có cân đối hay không? Nếu cân đối là tốt
Trang 182.8 Các bước tiến hành hồi qui tuyến tính đa biến
Sử dụng bộ số liệu: BMI.sav
Bộ số liệu bao gồm các biến: biến phụ thuộc BMI (y); các biến độc lập (x) là: Lượng
calorine ăn hàng ngày, Số phút tập thể dục trong tuần,
a) Kiểm tra mối liên quan tuyến tính giữa các biến độc lập với biến phụ thuộc định đưa
vào mô hình hồi qui tuyến tính đa biến qua biểu đồ scatter plot (Xem lại cách vẽ biểu
đồ sử dụng SPSS trong giáo trình Phân tích số liệu- Trường Đại học Y Tế công cộng)
Hình 9: Các biểu đồ scatter plot biểu diễn mối quan hệ của hai biến
Trang 19b) Kiểm tra tính chuẩn của các biến định lượng liên tục, sử dụng biểu đồ Q-Q plot hoặc kiểm định phi tham số K-S
Hình 10: Các biểu đồ QQ plot kiểm định tính chuẩn của các biến
Trang 20c) Tiến hành phân tích hồi qui tuyến tính đa biến
Phương trình tuyến tính có thể có dạng
YBMI = β0 + β1*xcalorine + β2*xthethao + β3*xgioi + β4*xthunhap + ε
Sử dụng SPSS với câu lệnh: Analyze/ Regression/ Linear
Chọn các biến phù hợp đưa vào mô hình, biến phụ thuộc (Y)- chỉ số BMI đưa vào ô Dependent; các biến độc lập (Xi) đưa vào ô Independents Chúng ta cũng lựa chọn phương pháp Stepwise trong ô Method, phương pháp để mặc định cho phân tích hồi qui tuyến tính đa biến là Enter – điều này có nghĩa là tất cả các biến được lựa chọn bắt buộc phải ở trong mô hình, tuy nhiên để tránh xây dựng những mô hình không phù hợp chúng
ta sẽ chỉ giữ các biến phù hợp và có thể giải thích cho biến phụ thuộc lại trong mô hình
Chọn biến phụ thuộc đưa vào ô
Dependent
Chọn phương pháp hồi qui bạn muốn sử dụng
(Enter/ stepwise/ forward/
backward)
Chọn các biến độc lập đưa vào
ô Independent(s)