1. Trang chủ
  2. » Giáo án - Bài giảng

Bài giảng hồi quy logistic

10 389 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 10
Dung lượng 508,03 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

3/5/2012 1Dịch tễ Thống kê Nâng cao Hồi quy logistics Lê Thị Kim Ánh BM Dịch tễ-Thống kê Mục tiêu • Trình bày được nguyên lý của hồi quy logistic • Trình bày được các bước xây dựng mô hì

Trang 1

3/5/2012 1

Dịch tễ Thống kê Nâng cao

Hồi quy logistics

Lê Thị Kim Ánh

BM Dịch tễ-Thống kê

Mục tiêu

• Trình bày được nguyên lý của hồi quy logistic

• Trình bày được các bước xây dựng mô hình hồi quy logistic

• Kiểm soát được các vấn đề khi thực hiện hồi quy logistic

• Thực hiện được phân tích trên SPSS và phiên giải kết quả

Nguyên lý của hồi quy logistics

Ví dụ 1

Ví dụ 1 (tt)

Tuyến tính?

Ví dụ 2

Tuyến tính?

Trang 2

3/5/2012 7

Vấn đề

• Giá trị trục tung – y: đi từ 0 đến 1

• Giá trị ước lượng theo hồi quy tuyến tính

có thể nằm ra ngoài giá trị ý nghĩa

• Sai số không có phân phối chuẩn

Hồi quy logistics

• Hồi quy logistic được sử dụng khi biến phụ thuộc

biến nhị giá

– Được đo lường bằng:

• Nguy cơ (risk), hoặc

• Số chênh (odds), hoặc

• Tỷ số số chênh (odds ratio)

– Các đo lường này có miền xác định: risk(0,1), Odds(0,+α)

• Khi đó, mô hình y = a + bx

– với miền xác định của y là (-α; +α) không thích hợp để sử dụng.

Hồi quy logistics (tt)

• Vấn đề: biến đổi đo lường biến phụ thuộc để

có miền xác định (-α; +α)

• Sử dụng thuật toán logit

– Logit = ln(θ/1- θ)

– Như vậy: miền xác định của logit là (-α; +α)

Hồi quy logistics (tt)

Tình trạng bệnh

Có chủng ngừa

Không chủng ngừa

Tổng

Bệnh phong

Không có

Theo lý thuyết, Odds được tính như sau : Odds của nhóm bệnh

= tỷ lệ có chủng ngừa trong nhóm bệnh/tỷ lệ không chủng ngừa trong nhóm bệnh

= (a/a+b)/(b/a+b)

= p/(1-p)

Hồi quy logistics (tt)

• Sử dụng thuật toán logit

– Logit = ln(θ/1- θ)

• Như vậy:

– Logit = ln(Odds) = ln[p/(1 - p)] = a + bx

Hồi quy logistics (tt)

• Như vậy:

• Odds của x = 0 là:

• Odds của x = 1 là:

• Vậy OR được tính:

Trang 3

3/5/2012 13

Như vậy

• Hồi quy logistics:

– Dùng cho biến phụ thuộc là biến nhị giá

– Giúp xác định:

• Số chênh

• Tỷ số số chênh

• Tỷ lệ đã hiệu chỉnh

Hồi quy logistics trong SPSS Biến độc lập là biến nhị giá

Tính tỷ số số chênh OR

• Đo lường mức độ tác động giữa chủng

ngừa BCG và bệnh phong

– Bảng 2x2

– Hồi quy logistics

• Đơn biến: 1 biến độc lập

• Kết quả phần Block 1

Kết quả hồi quy logistics

• Kết quả 1: Omnibus Test of Model Coefficients

– Giả thuyết Ho: việc đưa biến độc lập vào mô hình là không có ý nghĩa

– Đối thuyết Ha: việc đưa biến độc lập vào mô hình là

có ý nghĩa

Omnibus Tests of Model Coefficients

Step Block Model Step 1

Kết quả hồi quy logistics (tt)

• ln(odds) = - 0.933 – 1.49 x chủng ngừa BCG

• Như vậy

ln(Odds) = 0.933 – 1.49 x 0 = - 0.933  Odds=0.393

ln(Odds) = 0.933 – 1.49 x 1 = - 2.423  Odds=0.089

Hiểu như thế nào?

Variables in the Equation

-1.490 180 68.221 1 000 225 158 321 -.933 081 131.286 1 000 393

bcg

Constant

Step

1a

B S.E Wald df Sig Exp(B) Lower Upper

95.0% C.I.for EXP(B)

Variable(s) entered on step 1: bcg.

a

Phiên giải thế nào?

• OR=0.089/0.393 = 0.225

• Người được tiêm chủng BCG có nguy cơ mắc bệnh phong chỉ vào khoảng 22,5% so với người không tiêm BCG

Trang 4

3/5/2012 19

Phiên giải

• Suy luận tỷ lệ từ giá trị Odds tính được

– Odds = 0.393  p = 0.393/1.393 = 0.282 

mô hình giúp tiên đoán: 28.2% người không

chủng ngừa BCG sẽ mắc bệnh phong

– Odds = 0.089  p = 0.089/1.089 = 0.082 

mô hình giúp tiên đoán: 8.2% người có chủng

ngừa BCG sẽ mắc bệnh phong

Hồi quy logistics trong SPSS Biến độc lập là biến thứ bậc

Tính tỷ số số chênh (1)

• Đo lường mối liên quan giữa bệnh phong và tuổi

• Giả định tính khuynh hướng của tuổi: sự khác biệt giữa

các lớp tuổi kế cận nhau là giống nhau:

• Mô hình: y = logit = ln(Odds) = ln[p/(1 - p)] = α + βx + ε

Tính tỷ số số chênh (1)

• Khi đó

– OR của nhóm tuổi 15-24 so với nhóm 1-14 là:

• OR = Odds x=1 /Odds x=0 = e α + β /e α = e β – OR của nhóm tuổi 25-24 so với 15-24 là:

• OR = Odds x=2 /Odds x=1 = e α + 2β /e α + β = e β

Phiên giải kết quả

• So với nhóm tuổi nhỏ hơn, nhóm tuổi lớn hơn kề

bên sẽ bị nguy cơ bị bệnh phong tăng gấp 1.463

lần

Variables in the Equation

.380 049 59.253 1 000 1.463 1.328 1.612 -2.669 194 189.407 1 000 069

nhtuoi

Constant

Step

1a

B S.E Wald df Sig Exp(B) Lower Upper

95.0% C.I.for EXP(B)

Variable(s) entered on step 1: nhtuoi.

a

Phiên giải kết quả (tt)

e 0.76 = 2.138

Trang 5

3/5/2012 25

Tính tỷ số số chênh (2)

• Đo lường mối liên quan giữa bệnh phong và

tuổi

• Không giả định tính khuynh hướng của tuổi:

y = logit = ln(Odds) = ln[p/(1 - p)] = α + β 1 x 1 + β 2 x 2 + β 3 x 3 + β 4 x 4 + β 5 x 5 + ε

– x=0 (không nằm trong nhóm tuổi x)

– x=1 (nằm trong nhóm tuổi x)

• Biến giả (dummy variables): chọn indicator

để define categorical covariates

Kết quả

• OR của nhóm tuổi 15/24 và nhóm tuổi 24/34 là không có ý nghĩa thống kê (hay hệ số hồi quy B trong 2 nhóm này không có ý nghĩa)

Variables in the Equation

66.632 4 000 224 271 687 1 407 1.252 736 2.128 103 308 112 1 737 1.109 607 2.026 1.002 251 15.877 1 000 2.723 1.664 4.458 1.404 217 41.971 1 000 4.073 2.663 6.230 -2.122 187 128.612 1 000 120

nhtuoi nhtuoi(1)

nhtuoi(3)

Constant

Step

1a

B S.E Wald df Sig Exp(B) Lower Upper

95.0% C.I.for EXP(B)

Variable(s) entered on step 1: nhtuoi.

a

Hồi quy logistics trong SPSS Biến độc lập là biến danh định

Tương tự biến thứ bậc

Không có giả định tính khuynh hướng

Hồi quy logistics trong SPSS Biến độc lập là biến định lượng

Kết quả

• Với mỗi 1 mg% cholesterol cao hơn, nguy cơ của bệnh mạch vành sẽ tăng lên 1.007 lần  ???

• OR của người có cholesterol 210 so với 200 là như thế nào?

– Odd 210 = e - 3.538 + 0.007x210

– Odd 200 = e - 3.538 + 0.007x200

• OR = e 0.007(210-200) = exp(0.07)=1.072

Variables in the Equation

.007 003 5.225 1 022 1.007 1.001 1.013 -3.538 687 26.531 1 000 029

cholesterol Constant Step

1a

B S.E Wald df Sig Exp(B) Lower Upper

95.0% C.I.for EXP(B)

Variable(s) entered on step 1: cholesterol.

a

Trang 6

3/5/2012 31

Hồi quy logistics đa biến Nhiều biến độc lập trong mô hình

Mô hình

• Biến phụ thuộc: bệnh phong

• Biến độc lập: chủng ngừa BCG

Biến thứ 3

• Tuổi có phải là yếu tố gây nhiễu/tương tác

hay không?

– Phân tầng

– Hồi quy logistics

Xem xét

• Thay đổi của hệ số hồi quy

• Thay đổi của OR hiệu chỉnh và OR thô

• Thay đổi của -2loglikelihood

• Giá trị p của biến thứ 3

• Kết quả của kiểm định Hosmer-Lemeshow

Xem xét (tt)

• Thay đổi của hệ số hồi quy (B)

– B mô hình 1: -1.49

– B mô hình 2: -1.194

– Tỷ số của hệ số hồi quy: 1.194/1.49 = 0.80

(thay đổi nhiều)

– “Nhiều”? Thay đổi >1%

Xem xét (tt)

• Thay đổi của OR hiệu chỉnh và OR thô:

– OR thô (crude): 0.225 – OR hiệu chỉnh: 0.303 – Thay đổi:

– (0.303-0.225)/0.303= 0.257 – Thay đổi >10%

Trang 7

Xem xét (tt)

• -2loglikelihood

– Mô hình cũ: 1176.663

– Mô hình mới: 1152.028

– Thay đổi 1176.663-1152.028=24.635

– Thay đổi của df = 2-1=1

– Χ2(24.635,1)

Xem xét (tt)

• Giá trị p của biến thứ 3:

– p=0.000 (p<0.001) – Rất nhỏ

Xem xét (tt)

• Kết quả của kiểm định Hosmer-Lemeshow

– Ho: Mô hình phù hợp

– Ha: Mô hình không phù hợp

• p=0.408 > 0.05  Mô hình phù hợp

Sử dụng thông tin nào?

• Biến thứ 3 là biến nhị giá hay không?

• Mô hình tiên đoán hay mô hình giải thích?

Giới có phải là nhiễu/tương tác?

• Nếu không là biến nhiễu, có phải là tương

tác không?

Đưa biến tương tác vào mô hình

• Lưu ý:

– Phải có biến gốc

Trang 8

Kết quả

• Xem xét giá trị p của tương tác

Học vấn là nhiễu/tương tác?

Học vấn là nhiễu/tương tác?

Tiếp xúc phong u, phong củ

Đưa nhiều biến vào mô hình

Mô hình đa biến

logit = ln(p/1-p) = α + β1x1+ β2x2+ β3x3+ … + ε

• trong đó x1, x2, …, xnlà những biến độc lập

logit = ln(Odds) = - 1.849 – 1.194 x chủng ngừa BCG + 0.245 x nhóm tuổi

Variables in the Equation

-1.194 191 38.913 1 000 303 208 441 245 051 23.166 1 000 1.278 1.157 1.412 -1.849 214 74.487 1 000 157

bcg nhtuoi Constant Step

1a

B S.E Wald df Sig Exp(B) Lower Upper

95.0% C.I.for EXP(B)

Variable(s) entered on step 1: bcg, nhtuoi.

a

Trang 9

Đưa biến số vào mô hình

• Enter: Kết quả cho một mô hình duy nhất

bao gồm tất cả các biến đã được lựa chọn

• Forward: lần lượt đưa dần từng biến độc

lập vào mô hình và sẽ giữ chúng lại nếu như

biến đó có ý nghĩa thống kê

Đưa biến số vào mô hình (tt)

• Backward: đưa toàn bộ các biến độc lập vào mô

hình sau đó bỏ dần từng biến không có ý nghĩa thống kê

• Stepwise: kết hợp 2 phương pháp forward và

backward, tại mỗi một bước phương pháp này sẽ tính toán để đưa vào hoặc loại ra các biến độc lập sau khi có sự xuất hiện của các biến khác

Mô hình: tuổi, học vấn, tiếp xúc phong u, phong củ

Kết quả

Trang 10

Có nên đưa biến giới vào không?

Vấn đề đưa biến số vào mô hình

• Mô hình giải thích hay mô hình tiên đoán?

• Mô hình giải thích:

– Đưa các biến độc lập chính vào mô hình, lần lượt bổ sung các biến khác

– Đưa tất cả biến độc lập vào mô hình, sao cho bậc tự do của mô hình <10% số đối tượng – Chia các biến độc lập thành nhóm, trong mỗi nhóm chọn 1-2 biến nhiều thông tin nhất

Vấn đề đưa biến số vào mô hình (tt)

• Thực hiện backward selection

– Đưa các biến độc lập chính, các biến

nhiễu/tương tác vào mô hình

– Giữ lại trong mô hình những biến có p<0.2

Cần lưu ý ý nghĩa y sinh học của biến số!

So sánh mô hình

• Sử dụng likelihood ratio test:

– Mô hình A nằm trong mô hình B (nested

models) – Sử dụng giá trị -2log likelihood – Chênh lệch bậc tự do giữa 2 mô hình – Kiểm định Khi bình phương sự chênh lệch 2 giá trị -2log likelihood

Ví dụ

• Mô hình không có biến số “giới”

• Mô hình có biến số “giới”

Tóm tắt

• Hồi quy logistics sử dụng khi đo lường mức độ tác động OR

• Lưu ý các loại biến số độc lập khác nhau

• Việc đưa các biến số vào mô hình đòi hỏi nhiều thời gian, cân nhắc ý nghĩa y sinh học, ý nghĩa thống kê của biến số.

Ngày đăng: 16/11/2016, 15:41

TỪ KHÓA LIÊN QUAN

w