Kiểm định phi tham số Mô hình thống kê dùng trong nghiên cứu PGS TS Thái Thanh Trúc Nội dung • Mô hình hồi quy tuyến tính • Mô hình hồi quy logistic • Các mô hình khác – Hồi quy Poisson – Generalized Linear Model (GLM) – Hồi quy Cox 2 Mô hình hồi quy tuyến tính Nội dung • Phân tán đồ • Hệ số tương quan – Kiểm định ý nghĩa hệ số tương quan • Phương trình hồi quy tuyến tính – Kiểm định ý nghĩa hệ số phương trình • Tiên đoán • Độ phù hợp của mô hình – Các giả định cần kiểm tra 4 Tình huống nghiên c.
Trang 1Mô hình thống kê dùng trong nghiên cứu
PGS.TS Thái Thanh Trúc
Trang 2Nội dung
• Mô hình hồi quy tuyến tính
• Mô hình hồi quy logistic
• Các mô hình khác
– Hồi quy Poisson
– Generalized Linear Model (GLM)
– Hồi quy Cox
Trang 3Mô hình hồi quy tuyến tính
Trang 4Nội dung
• Phân tán đồ
• Hệ số tương quan
– Kiểm định ý nghĩa hệ số tương quan
• Phương trình hồi quy tuyến tính
– Kiểm định ý nghĩa hệ số phương trình
• Tiên đoán
• Độ phù hợp của mô hình
– Các giả định cần kiểm tra
Trang 5Tình huống nghiên cứu
• Một nghiên cứu nhằm xem xét các yếu tố ảnh hưởng đến
trọng lượng sơ sinh của trẻ từ phương pháp thụ tinh trong ống nghiệm
Trọng lượng
sơ sinh (gram)
Tuổi thai (tuần) Tuổi mẹ (năm)
Giới của trẻ
Nghề nghiệp
của mẹ
Mẹ bị tăng huyết áp
Trang 6Phân tán đồ (scatter plot)
Trang 7Phân tán đồ (scatter plot)
Các quan sát
Trang 8Kết luận gì từ phân tán đồ này?
Trang 9Phân tán đồ (scatter plot)
– – –
dương/thuận hoàn toàn
(e) Tương quan
âm /nghịch không hoàn toàn
(f) Tương quan
âm/nghịch hoàn toàn
Trang 10Hệ số tương quan (correlation coefficient)
• Nếu x hoặc y thay đổi thì biến còn lại thay đổi như thế nào
𝑺𝒅 𝒙 𝑺𝒅(𝒚)
Trang 11r = 0,74 Vậy mối tương quan như thế nào?
Trang 12Hệ số tương quan (correlation coefficient)
• r Є [-1,1]
– r > 0 → đồng biến
– r <0 → nghịch biến
– r = 0 → không liên hệ
• Mức độ mối tương quan
– 0,1 - 0,3 → tương quan yếu
– 0,3 - 0,5 → tương quan trung bình / vừa
– Từ 0,5 → tương quan mạnh
r = 0,74
→ Trọng lượng sơ sinh và tuổi thai có mối tương quan thuận, mạnh
Tương quan mạnh là sao?
Trang 13Hệ số tương quan (correlation coefficient)
• Trị số tuyệt đối của r →Mức độ tương quan giữa hai biến số
– |r| = 1 → tương quan hoàn toàn tuyến tính
– |r| < 1 → số liệu phân tán chung quanh đường hồi quy (elip)
sự biến thiên của biến số độc lập
thai giải thích 55% sự biến động
Trang 14Hệ số tương quan (correlation coefficient)
• r không có đơn vị đo lường
• r mang tính đối xứng
• r không bị ảnh hưởng bởi những phép biến đổi tuyến tính
• r=0 → không có mối liên hệ tuyến tính giữa hai biến số
– (1) không có mối liên hệ gì giữa hai biến số hoặc
– (2) mối liên hệ giữa hai biến số không phải là tuyến tính
• r có thể cùng giá trị nhưng hình dạng mối quan hệ lại rất khác nhau
• Cẩn thận tương quan giả
Trang 15Hệ số tương quan (correlation coefficient)
• r = 0,74 → Trọng lượng sơ sinh và tuổi thai có mối tương quan
.
, 1
t
trim.vn/FL4HSy
Trang 16Phương trình hồi quy
• y = a + bx + ɛ
– Ý nghĩa:
• So sánh: nếu biến x thay đổi thì biến y thay đổi như thế nào?
• Tiên lượng: với giá trị của x thì y là bao nhiêu?
– Không có tính đối xứng giữa biến x và y
– y: biến phụ thuộc (dependent)
– x: biến độc lập (independent)
– a: hằng số (constant), điểm chặn
– b: hệ số (coefficient), độ dốc
– ɛ: Sai số/phần dư
Trang 17Phương trình hồi quy
Trang 18Phương pháp bình phương nhỏ nhất:
→ Tổng các độ lệch bình phương nhỏ nhất
•
2.5 2.7 2.9 3.1 3.3 3.5
Trang 19Phương trình hồi quy
x
y y
) )(
(
x b y
a = −
Trang 20Hồi quy tuyến tính
• Phương trình
Trọng lượng sơ sinh (gram) = -4865 + 206 x Tuổi thai (tuần)
• Ý nghĩa:
– So sánh: Khi hai đối tượng hơn kém nhau 1 tuần tuổi thai
thì trọng lượng sơ sinh hơn kém nhau 206 gram
– Tiên lượng: Đối tượng có tuổi thai 37 tuần thì trọng lượng
sơ sinh là 2757 gram
• Khi đối tượng có tuổi thai là 10 tuần thì trọng lượng sơ sinh là bao nhiêu?!?
Trang 21Hồi quy tuyến tính
• Hệ số hồi quy đã chuẩn hóa
Trang 22Hồi quy tuyến tính
Trang 23Hồi quy tuyến tính
• Tiên lượng và sai số của tiên lượng
Trọng lượng sơ sinh (gram) = -4865 + 206 x Tuổi thai (tuần)
• KTC của tiên lượng = y' ± tc × s.e.(y')
+
)(
)'
(
11
)'.(
x x
x x n
s y
e s
Trang 24Hồi quy tuyến tính
• Đánh giá độ phù hợp mô hình (model fit)
Trang 25Hồi quy tuyến tính
• Đánh giá độ phù hợp mô hình (model fit)
Trang 26Hồi quy tuyến tính
• Đánh giá độ phù hợp mô hình (model fit)
– Kiểm định
• F = (Phương sai giải thích bởi mô hình) / (Phương sai
Trang 27Hồi quy tuyến tính
• Đánh giá độ phù hợp mô hình (model fit)
– AIC (Akaike's Information Criterion)
• “Trừng phạt” mô hình nhiều biến số ít ý nghĩa
• AIC = 2 x (Số biến - log-likelihood)
• Khi đưa bất kỳ biến mới vào thì log-likelihood sẽ gia tăng
• Giá trị càng thấp càng tốt (ngưỡng <3, 3 – 7, >7)– BIC (Bayesian Information Criterion)
• BIC = log(n) x Số biến – 2 x log-likelihood
Trang 28Các giả định cần kiểm tra
– Quan hệ tuyến tính giữa biến độc lập và phụ thuộc
– Đơn biến: Phân tán đồ giữa biến phụ thuộc và biến độc lập
Trang 29Các giả định cần kiểm tra
– Quan hệ tuyến tính giữa biến độc lập và phụ thuộc
– Đa biến: Phân tán đồ phần dư của mô hình và biến độc lập
Trang 30Các giả định cần kiểm tra
– Sai số của ước lượng có phân phối bình thường
– Kiểm định Shapiro Wilk, tổ chức đồ, biểu đồ phân phối
Trang 31Các giả định cần kiểm tra
– Sai số của ước lượng có phân phối bình thường
– Kiểm định Shapiro Wilk, tổ chức đồ, biểu đồ phân phối
Trang 32Các giả định cần kiểm tra
3 Phương sai đồng nhất (homoscedasticity)
– Phương sai của sai số phải hằng định
– Information Matrix Test
Trang 33Các giả định cần kiểm tra
– Các giá trị ngoại lai
– Phân tán đồ, biểu đồ leverage & residual
1 2
3
4 67 5
8 910
11 1213
14 22 2021 1817
23 24 25 26
28 29
30
313533 3438 3732
43 4745 46 49 50
139140149142143 144 147 148152154141 146153 151150145
155 156 157
158
159 160
161165 163 167
168 172 169 170174 171 176
177 178
179
180 181
182 183
185
186
187196193 191188 190 197
246
247
248254255253251256249 250 252
259 260 261 262
263264266 265 267268
270
271272273 274
276
277 278 279 281
282
283 284
285
286 287 288289 290
292
293294295
298 299 300
302 303
304 305
306 307
308 309 310
311312 313314
315 316
317 320318319322
323
324 325326
331 332
333
334 336 337 335 338
349 350
351
352
353
354 355 357
402
403 405
408
409 410
439 441440
442 443
444446447
451
452453454
455 457
458
459 460
461 462464 463
465
466 468470 471
513
514 517 516515
518 519 520
521 523 522
524
525 526
527532531
533
534 535536
537
538539
540544552 546 549 550 543 551542
553 554
555
556560 559
561 562
563
564 568
569
570 571 572
573 574 575
576
577 578579
580 582
583584586
630
631 632 633
Trang 34Các giả định cần kiểm tra
– Các biến độc lập có liên quan mạnh với nhau, khi
Trang 35Các giả định cần kiểm tra
– Các biến quan trọng đã có trong mô hình chưa hay chỉ là biến ít quan trọng, mong đợi
Trang 36Mô hình hồi quy tuyến tính
Trang 37Phương trình hồi quy
• y = a + b1x1 + b2x2 + + bnxn + ɛ
– Ý nghĩa:
thì biến y thay đổi như thế nào
nhiêu?
Trang 38Tình huống nghiên cứu
• Một nghiên cứu nhằm xem xét các yếu tố ảnh hưởng đến
trọng lượng sơ sinh của trẻ từ phương pháp thụ tinh trong ống nghiệm
Trọng lượng
sơ sinh (gram)
Tuổi thai (tuần) Tuổi mẹ (năm)
Giới của trẻ
Nghề nghiệp
của mẹ
Mẹ bị tăng huyết áp
Trang 39Nội dung đã học
• Phân tán đồ
• Hệ số tương quan
– Kiểm định ý nghĩa hệ số tương quan
• Phương trình hồi quy tuyến tính
– Kiểm định ý nghĩa hệ số phương trình
• Tiên đoán
• Độ phù hợp của mô hình
– Các giả định cần kiểm tra
Trang 40Mô hình hồi quy logistic
Trang 41Nội dung
• Công thức mô hình hồi quy logistic
– Tính xác suất từ mô hình
– Tính tỉ số số chênh từ mô hình
• Nguyên tắc xây dựng mô hình
• Phương pháp xây dựng mô hình đa biến
• Đánh giá mô hình
Trang 42Hồi quy logistic
• Một nghiên cứu nhằm xem xét các yếu tố ảnh hưởng đến
tình trạng sinh nhẹ cân của trẻ từ phương pháp thụ tinh trong ống nghiệm
Nhẹ cân (Có/Không)
Tuổi thai (tuần) Tuổi mẹ (năm)
Giới của trẻ
Nghề nghiệp
của mẹ
Mẹ bị tăng huyết áp
Trang 43Hồi quy logistic
• Hồi quy tuyến tính: y = a + bx + ɛ
• Hồi quy logistic
−
= 1
Trang 44Hồi quy logistic
• Hồi quy tuyến tính: y = a + bx + ɛ
1
ln log
bx a
x b a
e e e
odds
bx a
)(
1
1
1 1
= +
=
r
r odds
−
= 1
b b
a
b a
phoinhiem
phoinhiem
e e
e odd
0 1
Trang 45Hồi quy logistic
1 ln
log
Trang 46Hồi quy logistic
• Một nghiên cứu nhằm xem xét các yếu tố ảnh hưởng đến
tình trạng sinh nhẹ cân của trẻ từ phương pháp thụ tinh trong ống nghiệm
Nhẹ cân (Có/Không)
Tuổi thai (tuần) Tuổi mẹ (năm)
Giới của trẻ
Nghề nghiệp
của mẹ
Mẹ bị tăng huyết áp
Trang 47Hồi quy logistic
Logit(nhẹcân) = 32,28 – 0,91 x tuổi thai (tuần)
• Một người có tuổi thai 40 tuần thì xác suất nhẹ cân là bao nhiêu?
1
1
1 1
= +
=
b b
a
b a
phoinhiem
phoinhiem
e e
e odd
0 1
Trang 48Hồi quy logistic
Trang 49Mô hình hồi quy logistic
• Xây dựng mô hình đa biến
• Phương pháp đánh giá mô hình
• Tham khảo kênh youtube
trim.vn/OPpuJG
Trang 50) 1
( )
32 ,
0 48
, 0 52
, 0 )
3 (
)
3
( = = =5 3 3 (5−3) =
C X
P f
Trang 51Độ khả dĩ (likelihood)
• Nhà nghiên cứu muốn tiến hành đánh giá tỉ lệ lây truyền lao trong hộ gia đình
• Chọn được 12 người trong gia đình có người bị lao, kết quả
có 3 người dương tính với lao, 9 người âm tính
• Tỉ lệ lây truyền lao là: 3 / 12 = 0.25 # 25%
• Tỉ lệ lây truyền trong dân số như thế nào?
• “Tỉ lệ lây truyền lao trong dân số là π = 0.25” → có thể đúng
• Để đánh giá “có thể đúng” thì bài toán trở thành:
– Quan sát 12 trường hợp, có 3 trường hợp có biến cố và nếu π = 0.25
Trang 52Độ khả dĩ (likelihood)
• Để đánh giá “có thể đúng” thì bài toán trở thành:
– Quan sát 12 trường hợp, có 3 trường hợp có biến cố và nếu π = 0.25
→ Phân phối nhị thức
→ Xác suất p = 0.2581
– Nếu π = 0.10 thì p bao nhiêu?
→ Xác suất p = 0.0852 – Nếu π = 0.40 thì p bao nhiêu?
→ Xác suất p = 0.1419
Khả năng xảy ra một trường hợp ứng với thông tin đã định sẵn
về kết cuộc
Trang 54Độ khả dĩ (likelihood)
• Để so sánh khác biệt giữa các độ khả dĩ thì sử dụng tỉ số độ khả dĩ (Likelihood Ratio)
LR = Likelihood tại π bất kỳ / Likelihood tại MLE
• Ví dụ: π = 0.10 → LR = 0.0852 / 0.2581 = 0.3301
• LR dao động từ 0 đến 1
Trang 58Mô hình hồi quy logistic
Trang 59Xây dựng mô hình
• Sử dụng vòng lặp đệ qui (Iteration) và log likelihood
– Bước 1: “đoán đại” một giá trị cho MLE (thường là giá trị trung tính)
– Bước 2: Tính log likelihood tương ứng với giá trị “đoán
Trang 60Xây dựng mô hình
• Một vài chương trình và mô hình thống kê mặc định số
iteration tối đa
• Đôi khi chương trình không thể tính được do:
– Dữ liệu không đủ để ước lượng mô hình với số lượng
tham số quá nhiều
– Dữ liệu tính toán không tuân theo phương trình bình
phương (log likelihood)
Trang 61Xây dựng mô hình đa biến
• Bước 1: kiểm định, mô hình đơn biến
– Có thể sử dụng các kiểm định thông thường
• Biến định tính hoặc phân nhóm: Chi bình phương
• Biến định lượng: kiểm định t– Hoặc hồi quy logistic đơn biến
Trang 62Xây dựng mô hình đa biến
• Bước 2: chọn biến số
1989)
• Steyerberg (2000) gợi ý ngưỡng <0.5 (không nên dùng)
• Sử dụng các ngưỡng cao hơn có thể đưa đến các yếu
tố không có giá trị vào trong mô hình– Làm biếng: dùng phương pháp Stepwise
Trang 63Xây dựng mô hình đa biến
• Bước 2: chọn biến số
– Không nên dùng phương pháp Stepwise vì:
có phân phối rõ ràng và chỉ phù hợp khi có giả thuyết
cụ thể
• Cho sai số chuẩn thấp giả tạo và khoảng tin cậy 95% hẹp giả tạo
• Cho giá trị p nhỏ giả tạo
• Độ lớn của ước lượng cao giả tạo
Trang 64Xây dựng mô hình đa biến
• Bước 2: chọn biến số
– Không nên dùng phương pháp Stepwise vì:
• Chọn biến số dựa vào độ lớn ước lượng của nó thay vì giá trị thật của nó
• Ước lượng "già" sẽ được chọn còn ước lượng "non" thì không, mặc dù cùng là một dạng sai lệch (bias)
• Thay vì nên giải quyết vấn đề hợp tuyến (collinearity) thì phương pháp này chọn biến dựa vào hợp tuyến
• Làm chúng ta không chịu suy nghĩ về vấn đề nghiên cứu
Trang 65Xây dựng mô hình đa biến
• Bước 2: chọn biến số
– Không nên dùng phương pháp Stepwise vì:
• Nếu "bị ép" làm làm Stepwise thì nên làm dạng backward
– Quan trọng: Biến số có ý nghĩa trên lâm sàng
– "Những yếu tố có ý nghĩa trong đơn biến được đưa vào
mô hình đa biến" là một dạng của Stepwise forward
• Tệ hơn Stepwise forward vì bỏ qua biến số vốn có ý nghĩa khi có hiện diện biến khác
Trang 66Xây dựng mô hình đa biến
• Bước 2: chọn biến số
– Số biến được chọn cần tương xứng với cỡ mẫu với qui ước cần ít nhất 10 biến cố (mẫu) với mỗi biến số đưa vào
mô hình
– Biến số với lượng missing lớn cần xem xét bỏ ra
Trang 67Xây dựng mô hình đa biến
• Bước 3: xây dựng mô hình đa biến sử dụng tất cả các biến trong bước 2 ( Mô hình A )
– Biến nào không có ý nghĩa thống kê (ở mức 0.05) thì loại ra
– Chú ý cỡ mẫu của cả hai mô hình xem có tương đồng không →
có thể dùng các phương pháp để impute giá trị missing
Trang 68Xây dựng mô hình đa biến
• Bước 4: so sánh kết quả ước lượng của mô hình
mới ( Mô hình B ) và mô hình ban đầu (toàn bộ)
– Chú ý các biến số mà ước lượng thay đổi > 20%
• Lấy lại các biến số đã bỏ cần thiết cho việc hiệu chỉnh biến này
– Lặp lại bước 3 và 4 và đối chiếu với mô hình ban đầu để đảm bảo các biến quan trọng (về thống kê và lâm sàng)
Trang 69Xây dựng mô hình đa biến
• Bước 5: sàng lọc yếu tố loại trừ
không
– Các yếu tố này có thể không liên quan đến kết cuộc
nhưng khi có sự hiện diện biến khác thì có ý nghĩa
Trang 70Xây dựng mô hình đa biến
• Bước 6: kiểm tra từng biến trong Mô hình D
– Các biến phân nhóm (> 2 nhóm) có chọn nhóm làm chuẩn phù hợp hay chưa
– Biến thứ tự có kiểm tra khuynh hướng và đưa vào dưới dạng phù hợp hay chưa (khuynh hướng vs phân tầng)
– Các biến định lượng có quan hệ tuyến tính hay không
Trang 71Xây dựng mô hình đa biến
– Đưa vào và kiểm tra các yếu tố tương tác quan trọng
– Việc chọn yếu tố tương tác cần dựa trên lâm sàng và thống kê
– Nhắc lại: tương tác của hai biến số có nghĩa là tác động của một biến
số sẽ thay đổi theo từng bậc giá trị khác nhau của biến còn lại
– Tương tác của hai biến số chính là tích của hai biến số
– Cần có bảng (ma trận) thể hiển các nhóm tương tác cần kiểm tra để không bỏ sót
– Đưa vào biến tương tác không phù hợp sẽ không làm ảnh hưởng
nhiều đến ước lượng nhưng làm tăng sai số chuẩn
– Sau khi kiểm tra, nhận vào hay loại bỏ từng yếu tố tương tác thì xây dựng Mô hình F
Trang 72Xây dựng mô hình đa biến
• Bước 8: Kiểm tra độ phù hợp của Mô hình F
– Giả thuyết của hồi quy logistic
• Quan hệ tuyến tính (linearity)
• Quan hệ cộng gộp (additivity)
• Các quan sát phải độc lập
Trang 73Xây dựng mô hình đa biến
• Bước 8: Kiểm tra độ phù hợp của Mô hình F
(observed vs expected)
phương pháp decile
• Kỳ vọng p > 0,05
– R 2 của Nagelkerke và Cragg và Uhler
Trang 74Xây dựng mô hình đa biến
– AIC (Akaike's Information Criterion)
• “Trừng phạt” mô hình nhiều biến số ít ý nghĩa
• AIC = 2 x (Số biến - log-likelihood)
• Khi đưa bất kỳ biến mới vào thì log-likelihood sẽ gia tăng
• Giá trị càng thấp càng tốt (ngưỡng <3, 3 – 7, >7)– BIC (Bayesian Information Criterion)
• BIC = log(n) x Số biến – 2 x log-likelihood
Trang 75Xây dựng mô hình đa biến
– VIF (Variance Inflation Factor) → Collinearity
• Sai số chuẩn gia tăng khi có collinearity → giảm power
• VIF = 1 → Không có collinearity
• 1 < VIF < 5 → có collinearity vừa
• > 5 → có collinearity mạnh
– Khả năng xác định phân biệt (diện tích dưới đường cong ROC)
Trang 76Xây dựng mô hình đa biến
• Bước 8: Kiểm tra độ phù hợp của Mô hình F
– Phân phối của giá trị tiên đoán
– Phân phối bình thường của phần dư (residual)
• Ví dụ: ban đầu chỉ chọn ngẫu nhiên khoảng 60% dữ liệu để xây dựng mô hình
• Sau khi có mô hình thì chạy lại mô hình trên toàn bộ dữ liệu
• Hoặc dùng phương pháp Bootstrap
Trang 77Nội dung đã học
• Công thức mô hình hồi quy logistic
– Tính xác suất từ mô hình
– Tính tỉ số số chênh từ mô hình
• Nguyên tắc xây dựng mô hình
• Phương pháp xây dựng mô hình đa biến
• Đánh giá mô hình
Trang 78Các mô hình khác
Trang 79Hồi quy Poisson
• Dữ liệu là số đếm (count)
• Số liệu luôn là số dương
• Luôn có dạng lệch phải
• Trung bình sẽ bằng (hoặc xấp xỉ) phương sai
→ Có nên dùng mô hình này không?
Trang 80Hồi quy Poisson
• Hồi quy Poisson giúp
– Giảm được độ lệch do phân phối lệch phải của dữ liệu
– Giảm được phương sai bằng cách chuyển đổi số liệu gần nhau hơn
– Chuyển đổi để dữ liệu có thể có bất kỳ giá trị nào trong khoảng - và + mà không phải chỉ là các con số dương