MỘT BIẾN OUTCOME NHỊ GIÁ-MỘT BIẾN PREDICTOR LIÊNTỤC Chạy mô hình hồi quy logistic Ở bước Interation 0, log likelihood mô tả mô hình chỉ có constant.. Pseudo R2: mô tả hoặc so sánh độ fit
Trang 1MỘT BIẾN OUTCOME NHỊ GIÁ-MỘT BIẾN PREDICTOR LIÊN
TỤC
Chạy mô hình hồi quy logistic
Ở bước Interation 0, log likelihood mô tả mô hình chỉ có constant Interation cuối cùng (ở đây là 3) mô tả
mô hình cuối cùng.
Chi bình phương test đánh giá giả thuyết H0 là tất cả các hệ số trừ constant = 0.
Pseudo R2: mô tả hoặc so sánh độ fit của các mô hình với biến phụ thuộc giống nhau, nhưng không thể giống với R2 trong mô hình hồi quy tuyến tính.
Mỗi ngày tăng thêm sẽ làm tăng log odds tiên đoán của thermal distress lên 0.002097 Hay nói cách
khác, chúng ta có thể nói rằng mỗi ngày thêm vào sẽ làm tăng odds của thermal distress lên e 0020907 =
1.0020929; mỗi 100 ngày sẽ tăng lên odd (e 0020907) 100 = 1.23 (e ≈ 2.71828, là cơ số của ln) Chúng ta có
thể tính các số này bằng lệnh display.
Trang 2logistic any date
Lệnh logistic cho mô hình y chang như lệnh logit nhưng thay vì tính log odd thì tính odd ratio.
Log likelihood chính là log của joint propability (likelihood) của phương pháp Maximum likelihood (ML) là phương pháp chuẩn dùng cho ước lượng tham số của logistic model.
Phương pháp ML sử dụng phép kiểm chi bình phương cho giả thuyết H0 là likelihood của mô hình có biến age khác biệt so với likelihood của mô hình không có biến age
Kết quả pro> chi2 cho thấy phép kiểm có ý nghĩa thống kê nghĩa là có mối tương quan tuyến tính giữa age và biến CHD.
Độ tự do của phép kiểm là 1 vì chỉ có 1 predictor trong mô hình.
Pseudo R2 dùng để tính likelihood ratio statisitc về sau.
Chạy mô hình Resctricted cubic splines (RCS) logistic regression
mkspline bmis = bmi, nknots(3) cubic
logit nas135 bmis1 bmis2
Iteration 0: log likelihood = -178.81246
Iteration 1: log likelihood = -168.87535
Iteration 2: log likelihood = -167.37152
Iteration 3: log likelihood = -167.36956
Iteration 4: log likelihood = -167.36956
Logistic regression Number of obs = 465
Trang 4Vẽ đường giá trị tiên đoán (log(odd)) của mô hình
Đường giá trị tiên đoán của y theo x sẽ có dạng S của đường logistic.
Vẽ đường giá trị tiên đoán (log(odd)) cho hệ số biến độc lập và 95%CI của nó
predictnl logor_hat = _b[wtdiff]*wtdiff, ci(lo hi)
(33 missing values generated)
note: confidence intervals calculated using Z critical values
twoway (rarea lo hi wtdiff, sort color(gs14))(line logor_hat wtdiff, sort
lc(black)), xlabel(-7(
> 1)4) scheme(s1mono) legend(off) ylabel(-6(1)4, angle(horiz)) ytitle(Log odds ratio) xtitle("Weig
> ht change, kg")
Trang 5Vẽ đường giá trị tiên đoán (Odd) cho hệ số biến độc lập và 95%CI của nó
(33 missing values generated)
tw (line lb ub or wtdiff, sort lp(- - l) ) if inrange(wtdiff, -4,3) , xlabel(-4(1)3)scheme(s1mono) legend(off) ylabel(.125 0.25 0.25 0.5 1 2 4 8,
angle(horiz)format(%4.3fc)) ytitle("Odds Ratio") xtitle("Weight change (kg)")
yscale(log)
Trang 6If you want to plot the odds ratios instead of the log odds ratios you can exponentiate the three variables
of interest and re-run the graph The odds ratios are usually plotted on the log scale In some journals, like American Journal of Epidemiology is compulsory.
Tiên đoán xác suất của biến phụ thuộc với một giá trị của biến độc lập
Trang 7nas135 | Coef Std Err z P>|z| [95% Conf Interval]
(1) | 2.185343 .3309844 6.60 0.000 1.536626 2.834061
The odds of hyponatremia among those who increased 2 kg was 9 times the odds for those runners who lost 1kg
xblc bmis1 bmis2 , cov(bmi) at(19 21.01 22.5 25.02 27.4 30.61) ref(22.5) eform
bmi exp(xb) (95% CI)
Trang 8Tính các số ước lượng sau khi chạy mô hình
D: nghĩa là outcome xảy ra và ~D là outcome không xảy ra (không có distress).
+: là xác xuất tiên đoán từ mô hình >= ngưỡng Ở đây điểm ngưỡng mặc định là 0.5 Như vậy + nghĩa là xác suất tiên đoán > 0.5 và – là xác suất tiên đoán nhỏ hơn 0.5.
Có 12 space ship có distress và được mô hình tiên đoán đúng (sensitivity) và có 5 spaceship không có distress được mô hình tiên đoán đúng (specificity) Do đó correctly classified của mô hình là 12 + 6 = 17/23 (73.91%).
Trang 9MỘT BIẾN OUTCOME NHỊ GIÁ-MỘT BIẾN PREDICTOR NHỊ
GIÁ
Tính OR cho hai nhóm của biến nhị giá
cs nas135 female, or woolf
Attr frac ex | 6516703 | .4417799 .7826421
Attr frac pop | 3889 |
Odds ratio | 3.407442 | 1.970056 5.89357 (Woolf)
chi2(1) = 20.84 Pr>chi2 = 0.0000
Chạy mô hình hồi quy
logit nas135 female
Iteration 0: log likelihood = -185.80042
Iteration 1: log likelihood = -176.60203
Iteration 2: log likelihood = -175.96672
Iteration 3: log likelihood = -175.96547
Iteration 4: log likelihood = -175.96547
Logistic regression Number of obs = 488
Trang 10logistic nas135 female
Logistic regression Number of obs = 488
-Note: _cons estimates baseline odds
Mặc định của lệnh logistic luôn tính OR chứ không phải là Coef Muốn hiện coef phải thêm option coef The odds of hyponatremia among female is 3.4 times higher than males.
We are 95% confident that the odds ratio relating gender (being female compared to male) to
hyponatremia is between 1.97 and 5.89.
Kiểm tra hệ số hậu ước lượng
lincom _cons, eform
( 1) [nas135]_cons = 0
Trang 11nas135 | Odds Ratio Std Err z P>|z| [95% Conf Interval] -+ - (1) | .0841751 .0175292 -11.88 0.000 0559658 126603 -
- lincom _cons + female, eform
( 1) [nas135]female + [nas135]_cons = 0
nas135 | Odds Ratio Std Err z P>|z| [95% Conf Interval] -+ - (1) | .2868217 .0534897 -6.70 0.000 1990079 .4133839 -
- lincom female, eform
( 1) [nas135]female = 0
nas135 | Odds Ratio Std Err z P>|z| [95% Conf Interval] -+ - (1) | 3.407442 .9525368 4.39 0.000 1.970056 5.89357 -
Trang 12-Tiên đoán xác suất (predicted probabilities)
predict pr_nas135
(option pr assumed; Pr(nas135))
list nas135 pr_nas135 in 1/5
Vẽ đường giá trị tiên đoán (OR) của hệ số biến độc lập
logistic nas135 gainweight
predictnl logor_hat2 = _b[gainweight]*gainweight
gen or2 = exp(logor_hat2)
tw (line or or2 wtdiff, sort c(l J) lp(- l) ) if inrange(wtdiff, -4,3) , 4(1)3) scheme(s1mono) legend(off) ylabel(.125 0.25 0.25 0.5 1 2 4 8 , angle(horiz) format(%4.3fc))ytitle("Odds Ratio") xtitle("Weight change
xlabel(-(kg)")yscale(log)Dichotomization
reg na gainweight
predict fit2
Trang 14MỘT BIẾN OUTCOME NHỊ GIÁ-MỘT BIẾN PREDICTOR
NHIỀU GIÁ TRỊ
Chạy mô hình hồi quy
xi: logistic chd69 i.agec
i.agec _Iagec_1-5 (naturally coded; _Iagec_1 omitted)
Logistic regression Number of obs = 3,154
-Note: _cons estimates baseline odds
Phép kiểm likelihood ratio test so sánh likelihood giữa mô hình có 4 biến age indicator và likelihood của
mô hình không có biến age P< 0.005 chứng tỏ việc thêm biến age cải thiện mức độ phù hợp của mô hình.
Trang 16MỘT BIẾN OUTCOME NHỊ GIÁ-NHIỀU PREDICTOR
Trang 17Xác định mối liên quan giữa biến main predictor và counfounder
table female , c(mean wtdiff) f(%2.1f)
Xác định mối liên quan giữa biến outcome và confounder
logit nas135 female, or
Iteration 0: log likelihood = -185.80042
Iteration 1: log likelihood = -176.60203
Iteration 2: log likelihood = -175.96672
Iteration 3: log likelihood = -175.96547
Iteration 4: log likelihood = -175.96547
Logistic regression Number of obs = 488
LR chi2(1) = 19.67
Trang 18Prob > chi2 = 0.0000Log likelihood = -175.96547 Pseudo R2 = 0.0529 - nas135 | Odds Ratio Std Err z P>|z| [95% Conf Interval] -+ - female | 3.407442 .9525368 4.39 0.000 1.970056 5.89357 _cons | .0841751 .0175292 -11.88 0.000 0559658 126603 -Note: _cons estimates baseline odds.
Kiểm tra xem một predictor có phải là counfounder hay không
logit nas135 wtdiff, or
Iteration 0: log likelihood = -171.67351
Iteration 1: log likelihood = -147.60803
Iteration 2: log likelihood = -144.49093
Iteration 3: log likelihood = -144.4733
Iteration 4: log likelihood = -144.4733
Logistic regression Number of obs = 455
LR chi2(1) = 54.40
Trang 19Prob > chi2 = 0.0000Log likelihood = -144.4733 Pseudo R2 = 0.1584 - nas135 | Odds Ratio Std Err z P>|z| [95% Conf Interval] -+ - wtdiff | 2.071862 .2285847 6.60 0.000 1.668973 2.572008 _cons | .1518379 .0240941 -11.88 0.000 1112523 .2072295 -Note: _cons estimates baseline odds.
logit nas135 wtdiff female, or
Iteration 0: log likelihood = -171.67351
Iteration 1: log likelihood = -144.75883
Iteration 2: log likelihood = -140.55452
Iteration 3: log likelihood = -140.50625
Iteration 4: log likelihood = -140.5062
Iteration 5: log likelihood = -140.5062
Logistic regression Number of obs = 455
LR chi2(2) = 62.33
Trang 20-Note: _cons estimates baseline odds.
Not really, the odds ratio associated with every 1 kg increase weight change remained about 2
Kiểm tra tương tác giữa main predictor và predictor khác
gen inter = wtdiff*female
(33 missing values generated)
logistic nas135 wtdiff female inter
Logistic regression Number of obs = 455
-Note: _cons estimates baseline odds
The p-value for interaction is large (p=0.874) Therefore there is no evidence of interaction between gender and weight gain in predicting risk of hyponatremia
So sánh việc thêm predictor vào mô hình (Cách 2)
Trang 21Chúng ta chạy mô hình thêm predictor temp và mô hình cho thấy temp không có ý nghĩa thống kê mặc
dù làm tăng correctly classified của mô hình lên 78.26%.
Chúng ta cần kiểm tra ý nghĩa của việc thêm temp vào mô hình bằng lệnh lrtest.
Kết quả cho thấy p=0.07 cho thấy việc thêm temp vào mô hình cải thiện mô hình so với mô hình chỉ có biến date.
Trang 23Chạy mô hình hồi quy logistic
Log odd của workstat thấp hơn nếu thu nhập của chồng (husbinc) tăng lên và nếu có trẻ trong gia đình Chúng ta bác bỏ giả thuyết H0 rằng hệ số của husbinc và chilpres =0
Thay vì tính log odd chúng ta tính odd ratio để dễ diển giải kết quả bằng option or.
Kết quả cho thấy odd của làm việc ở những phụ nữ có con tăng gấp 5 lần (1/0.2) so với phụ nữ không con trong điều kiện chồng cùng kiếm tiền như nhau.
Thu nhập của chồng tăng lên 1000 đolar thì odd of working sẽ giảm 4% [100%(0.958-1)].
Điểm chặn 3.8 có nghĩa là odd of working khi tất cả covariate bằng 0
Trang 24Chạy mô hình hồi quy generlized linear model (GLM)
Option link(logit) là chỉ link function của mô hình là logistic
Option family (binomal) chính là phân phối của biến response (worstat) Vì biến response là biến nhị giá nên phân phối ở đây là binomial hay còn gọi là phân phối Bernoulli.
Mô hình hồi quy GLm cũng cho kết quả tương tự như mô hình hồi quy logistic
Trang 25Tiên đoán xác suất từ mô hình hồi quy
Chúng ta tạo biến prob chính là xác suất tiên đoán từ mô hình hồi quy logistic đã xây dựng
Sử dụng lệnh twoway để vẽ đồ thị giữa biến predictor là husinc và xác suất tiên đoán
Đồ thị cho thấy tương tự như mô hình khi odd of working của các phụ nữ có con thấp hơn phụ nữ không con khi thu nhập của chồng tăng lên.
Trang 27Lệnh margin sẽ tính các xác suất tiên đoán theo hai biến date (chuyển thành biến nhị giá) và biến temp.
Để vẽ đường tiên đoán đẹp hơn chúng ta vẽ giá trị tiên đoán với khoảng cách temp chỉ là 1 độ mà thôi Khi đó đường tiên đoán sẽ có dạng mềm mại hơn.
Trang 28Tính giá trị tiên đoán outcome cho giá trị predictor cho trước
Compared to males, females had 3 fold increase odds of hyponatremia
although not significant
Vẽ đường tiên đoán cho outcome theo các giá trị của predictor
predictnl logor2 = _b[wtdiff]*wtdiff+_b[female]*female+ ///
+_b[inter]*inter
gen oddsratios2 = exp(logor2)
tw (line oddsratios2 wtdiff if female==0, sort lp(dash)) ///
(line oddsratios2 wtdiff if female==1, sort) ///
xtitle("Weight change (kg)") yscale(log) ///
legend(label(1 "Men") label(2 "Women") ///
ring(0) pos(11) col(1) order(2 1) ) ///
text(2 -3 "P-interaction=0.874")
Trang 29Kiểm tra outlier
Trang 31Sử dụng đồ thị vẽ giữa DFBETA và predicted probability.
MỘT BIẾN OUTCOME THỨ TỰ-NHIỀU PREDICTOR
Chạy mô hình ordered logistic regression
Trang 32So sánh mô hình có thêm prdictor
So sánh lr test giữa mô hình không có date và không có tmep với mô hình full cho thấy cả hai biến đều có
ý nghĩa khi thêm vào mô hình
Tiên đoán giá trị cho tầng phân loại của biến outcome
Trang 33Chuyến bay sts-51 cho thấy xác suất không xảy ra distress rất thấp, xảy ra 1-2 lần tăng dần và >3 lần là lên đến 0.99.
Trang 34MỘT BIẾN OUTCOME DANH ĐỊNH-NHIỀU PREDICTOR
Chạy mô hình polytomous logistic model (multinomial logistic model)