HỒI QUI LOGISTIC Logistic Regression I.. GIỚI THIỆU Hồi qui logistic là một kỹ thuật phân tích hồi qui trong đó biến số phụ thuộc Y là một biến số nhị phân dichotomous – binary variabl
Trang 1HỒI QUI LOGISTIC
(Logistic Regression)
I GIỚI THIỆU
Hồi qui logistic là một kỹ thuật phân tích hồi qui trong đó biến số phụ thuộc (Y) là một biến số nhị phân (dichotomous – binary variable), theo đó Y thường được
mã hoá là 1 và 0 (Y = 1, thành công; Y = 0, thất bại) Biến số độc lập trong hồi qui logistic có thể là biến số rời hoặc liên tục, biến số đơn hoặc đa biến số
Phần này chỉ trình bày những nguyên lý và hiểu biết cơ bản của hồi qui logistic
II MÔ HÌNH HỒI QUI LOGISTIC
Phương trình hồi qui tuyến tính:
y x/ là số trung bình của tiểu dân số Y ở 1 X biết trước
Trang 20 là hằng số chỉ nơi đường hồi qui cắt trục Y, và ước
lượng giá trị trung bình của Y khi X = 0
1 là số ước lượng độ dốc, cho biết sự thay đổi
trung
bình của Y đi kèm với 1 sự thay đổi ở x
0 1
biến thiên từ đến
Khi Y là biến số nhị phân, phương trình trên không sử dụng được vì giá trị mong đợi (số trung bình) của Y là xác suất để Y = 1 với giới hạn biến thiên là từ 0 đến
1
Nếu đặt p = P(Y=1) thì tỉ số (p/1–p) có thể biến thiên trong khoảng 0 đến Ngoài ra, logarithm tự nhiên (ln) của p/(1-p) có thể biến thiên trong khoảng đến
Như vậy:
Ln 1
p p
= 01X (1)
(1) được gọi là mô hình hồi qui logistic vì sự chuyển dạng của y x/ (hoặc p)
thành ln [p/(1–p)] được gọi là sự chuyển dạng logit (logit transformation)
Trang 3(1) cũng được trình bày như sau:
0 1
X X
exp: nghịch đảo của ln
III HỒI QUI LOGISTIC VỚI BIẾN SỐ ĐỘC LẬP NHỊ PHÂN
Sử dụng bảng 2x2 với số TKKĐ là Tỉ số chênh (Odds Ratio)
IV HỒI QUI LOGISTIC VỚI BIẾN SỐ ĐỘC LẬP LIÊN TỤC
Thí dụ minh hoạ: Xác định mối tương quan giữa tuổi và nồng độ Cholesterol toàn phần (TC) thực hiện trên cộng đồng người Mỹ gốc Mỹ La tinh (Hispanic Americans), và dựa trên đó để tiên đoán khả năng của 1 người Hispanic American có nồng TC ≥ 240 nếu biết trước tuổi của người đó
Hispanic Americans với nồng độ TC ≥ 240 mg% phân bố theo Tuổi
Nhóm tuổi (năm) Số được khám (ni) Số có TC ≥ 240 (ni1)
Trang 425 – 34 522 41
Biến số độc lập là biến số liên tục (Tuổi) Do không có số liệu về tuổi của từng cá nhân nên việc phân tích
Biến số phụ thuộc là biến số nhị phân (TC ≥ 240 và TC < 240)
Kết quả: 0 4, 04 10, 06
PT Hồi qui: y i 4, 04 0, 06 x
trong đó y i ln(n i1/n i2) ni1: số người trong nhóm tuổi thứ I có TC ≥
240
ni1 + ni2 = ni
Kiểm định giả thuyết H0: 10 cho kết quả p < 0,0001 (Chisquare test vói 1 df)
Kết luận: Phương trình hồi qui thích hợp để sử dụng
Trang 5Sử dụng hồi qui logistic để tiên đoán: tìm xác suất để 1 Hispanic American ở độ tuổi 29,5 có TC ≥ 240
exp[ 4, 04 (0, 06)(29,5)]
0, 087
1 exp[ 4, 04 (0, 06)(29,5)]
V HỒI QUI LOGISTIC VỚI ĐA BIẾN SỐ ĐỘC LẬP RỜI
Mô hình hồi qui logistic (với 3 biến số độc lập rời – discrete independent variables)
X
1 P
-