1. Trang chủ
  2. » Thể loại khác

Mô hình hồi quy cho biến phân loại trong Stata

38 45 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Mô Hình Hồi Quy Cho Biến Phân Loại Trong Stata
Định dạng
Số trang 38
Dung lượng 4,29 MB
File đính kèm 54. HOI QUY CHO BIEN PHAN LOAI.rar (4 MB)

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

MỘT BIẾN OUTCOME NHỊ GIÁ-MỘT BIẾN PREDICTOR LIÊNTỤC Chạy mô hình hồi quy logistic Ở bước Interation 0, log likelihood mô tả mô hình chỉ có constant.. Pseudo R2: mô tả hoặc so sánh độ fit

Trang 1

MỘT BIẾN OUTCOME NHỊ GIÁ-MỘT BIẾN PREDICTOR LIÊN

TỤC

Chạy mô hình hồi quy logistic

Ở bước Interation 0, log likelihood mô tả mô hình chỉ có constant Interation cuối cùng (ở đây là 3) mô tả

mô hình cuối cùng.

Chi bình phương test đánh giá giả thuyết H0 là tất cả các hệ số trừ constant = 0.

Pseudo R2: mô tả hoặc so sánh độ fit của các mô hình với biến phụ thuộc giống nhau, nhưng không thể giống với R2 trong mô hình hồi quy tuyến tính.

Mỗi ngày tăng thêm sẽ làm tăng log odds tiên đoán của thermal distress lên 0.002097 Hay nói cách

khác, chúng ta có thể nói rằng mỗi ngày thêm vào sẽ làm tăng odds của thermal distress lên e 0020907 =

1.0020929; mỗi 100 ngày sẽ tăng lên odd (e 0020907) 100 = 1.23 (e ≈ 2.71828, là cơ số của ln) Chúng ta có

thể tính các số này bằng lệnh display.

Trang 2

logistic any date

Lệnh logistic cho mô hình y chang như lệnh logit nhưng thay vì tính log odd thì tính odd ratio.

Log likelihood chính là log của joint propability (likelihood) của phương pháp Maximum likelihood (ML) là phương pháp chuẩn dùng cho ước lượng tham số của logistic model.

Phương pháp ML sử dụng phép kiểm chi bình phương cho giả thuyết H0 là likelihood của mô hình có biến age khác biệt so với likelihood của mô hình không có biến age

Kết quả pro> chi2 cho thấy phép kiểm có ý nghĩa thống kê nghĩa là có mối tương quan tuyến tính giữa age và biến CHD.

Độ tự do của phép kiểm là 1 vì chỉ có 1 predictor trong mô hình.

Pseudo R2 dùng để tính likelihood ratio statisitc về sau.

Chạy mô hình Resctricted cubic splines (RCS) logistic regression

mkspline bmis = bmi, nknots(3) cubic

logit nas135 bmis1 bmis2

Iteration 0: log likelihood = -178.81246

Iteration 1: log likelihood = -168.87535

Iteration 2: log likelihood = -167.37152

Iteration 3: log likelihood = -167.36956

Iteration 4: log likelihood = -167.36956

Logistic regression Number of obs = 465

Trang 4

Vẽ đường giá trị tiên đoán (log(odd)) của mô hình

Đường giá trị tiên đoán của y theo x sẽ có dạng S của đường logistic.

Vẽ đường giá trị tiên đoán (log(odd)) cho hệ số biến độc lập và 95%CI của nó

predictnl logor_hat = _b[wtdiff]*wtdiff, ci(lo hi)

(33 missing values generated)

note: confidence intervals calculated using Z critical values

twoway (rarea lo hi wtdiff, sort color(gs14))(line logor_hat wtdiff, sort

lc(black)), xlabel(-7(

> 1)4) scheme(s1mono) legend(off) ylabel(-6(1)4, angle(horiz)) ytitle(Log odds ratio) xtitle("Weig

> ht change, kg")

Trang 5

Vẽ đường giá trị tiên đoán (Odd) cho hệ số biến độc lập và 95%CI của nó

(33 missing values generated)

tw (line lb ub or wtdiff, sort lp(- - l) ) if inrange(wtdiff, -4,3) , xlabel(-4(1)3)scheme(s1mono) legend(off) ylabel(.125 0.25 0.25 0.5 1 2 4 8,

angle(horiz)format(%4.3fc)) ytitle("Odds Ratio") xtitle("Weight change (kg)")

yscale(log)

Trang 6

If you want to plot the odds ratios instead of the log odds ratios you can exponentiate the three variables

of interest and re-run the graph The odds ratios are usually plotted on the log scale In some journals, like American Journal of Epidemiology is compulsory.

Tiên đoán xác suất của biến phụ thuộc với một giá trị của biến độc lập

Trang 7

nas135 | Coef Std Err z P>|z| [95% Conf Interval]

(1) | 2.185343 .3309844 6.60 0.000 1.536626 2.834061

The odds of hyponatremia among those who increased 2 kg was 9 times the odds for those runners who lost 1kg

xblc bmis1 bmis2 , cov(bmi) at(19 21.01 22.5 25.02 27.4 30.61) ref(22.5) eform

bmi exp(xb) (95% CI)

Trang 8

Tính các số ước lượng sau khi chạy mô hình

D: nghĩa là outcome xảy ra và ~D là outcome không xảy ra (không có distress).

+: là xác xuất tiên đoán từ mô hình >= ngưỡng Ở đây điểm ngưỡng mặc định là 0.5 Như vậy + nghĩa là xác suất tiên đoán > 0.5 và – là xác suất tiên đoán nhỏ hơn 0.5.

Có 12 space ship có distress và được mô hình tiên đoán đúng (sensitivity) và có 5 spaceship không có distress được mô hình tiên đoán đúng (specificity) Do đó correctly classified của mô hình là 12 + 6 = 17/23 (73.91%).

Trang 9

MỘT BIẾN OUTCOME NHỊ GIÁ-MỘT BIẾN PREDICTOR NHỊ

GIÁ

Tính OR cho hai nhóm của biến nhị giá

cs nas135 female, or woolf

Attr frac ex | 6516703 | .4417799 .7826421

Attr frac pop | 3889 |

Odds ratio | 3.407442 | 1.970056 5.89357 (Woolf)

chi2(1) = 20.84 Pr>chi2 = 0.0000

Chạy mô hình hồi quy

logit nas135 female

Iteration 0: log likelihood = -185.80042

Iteration 1: log likelihood = -176.60203

Iteration 2: log likelihood = -175.96672

Iteration 3: log likelihood = -175.96547

Iteration 4: log likelihood = -175.96547

Logistic regression Number of obs = 488

Trang 10

logistic nas135 female

Logistic regression Number of obs = 488

-Note: _cons estimates baseline odds

Mặc định của lệnh logistic luôn tính OR chứ không phải là Coef Muốn hiện coef phải thêm option coef The odds of hyponatremia among female is 3.4 times higher than males.

We are 95% confident that the odds ratio relating gender (being female compared to male) to

hyponatremia is between 1.97 and 5.89.

Kiểm tra hệ số hậu ước lượng

lincom _cons, eform

( 1) [nas135]_cons = 0

Trang 11

nas135 | Odds Ratio Std Err z P>|z| [95% Conf Interval] -+ - (1) | .0841751 .0175292 -11.88 0.000 0559658 126603 -

- lincom _cons + female, eform

( 1) [nas135]female + [nas135]_cons = 0

nas135 | Odds Ratio Std Err z P>|z| [95% Conf Interval] -+ - (1) | .2868217 .0534897 -6.70 0.000 1990079 .4133839 -

- lincom female, eform

( 1) [nas135]female = 0

nas135 | Odds Ratio Std Err z P>|z| [95% Conf Interval] -+ - (1) | 3.407442 .9525368 4.39 0.000 1.970056 5.89357 -

Trang 12

-Tiên đoán xác suất (predicted probabilities)

predict pr_nas135

(option pr assumed; Pr(nas135))

list nas135 pr_nas135 in 1/5

Vẽ đường giá trị tiên đoán (OR) của hệ số biến độc lập

logistic nas135 gainweight

predictnl logor_hat2 = _b[gainweight]*gainweight

gen or2 = exp(logor_hat2)

tw (line or or2 wtdiff, sort c(l J) lp(- l) ) if inrange(wtdiff, -4,3) , 4(1)3) scheme(s1mono) legend(off) ylabel(.125 0.25 0.25 0.5 1 2 4 8 , angle(horiz) format(%4.3fc))ytitle("Odds Ratio") xtitle("Weight change

xlabel(-(kg)")yscale(log)Dichotomization

reg na gainweight

predict fit2

Trang 14

MỘT BIẾN OUTCOME NHỊ GIÁ-MỘT BIẾN PREDICTOR

NHIỀU GIÁ TRỊ

Chạy mô hình hồi quy

xi: logistic chd69 i.agec

i.agec _Iagec_1-5 (naturally coded; _Iagec_1 omitted)

Logistic regression Number of obs = 3,154

-Note: _cons estimates baseline odds

Phép kiểm likelihood ratio test so sánh likelihood giữa mô hình có 4 biến age indicator và likelihood của

mô hình không có biến age P< 0.005 chứng tỏ việc thêm biến age cải thiện mức độ phù hợp của mô hình.

Trang 16

MỘT BIẾN OUTCOME NHỊ GIÁ-NHIỀU PREDICTOR

Trang 17

Xác định mối liên quan giữa biến main predictor và counfounder

table female , c(mean wtdiff) f(%2.1f)

Xác định mối liên quan giữa biến outcome và confounder

logit nas135 female, or

Iteration 0: log likelihood = -185.80042

Iteration 1: log likelihood = -176.60203

Iteration 2: log likelihood = -175.96672

Iteration 3: log likelihood = -175.96547

Iteration 4: log likelihood = -175.96547

Logistic regression Number of obs = 488

LR chi2(1) = 19.67

Trang 18

Prob > chi2 = 0.0000Log likelihood = -175.96547 Pseudo R2 = 0.0529 - nas135 | Odds Ratio Std Err z P>|z| [95% Conf Interval] -+ - female | 3.407442 .9525368 4.39 0.000 1.970056 5.89357 _cons | .0841751 .0175292 -11.88 0.000 0559658 126603 -Note: _cons estimates baseline odds.

Kiểm tra xem một predictor có phải là counfounder hay không

logit nas135 wtdiff, or

Iteration 0: log likelihood = -171.67351

Iteration 1: log likelihood = -147.60803

Iteration 2: log likelihood = -144.49093

Iteration 3: log likelihood = -144.4733

Iteration 4: log likelihood = -144.4733

Logistic regression Number of obs = 455

LR chi2(1) = 54.40

Trang 19

Prob > chi2 = 0.0000Log likelihood = -144.4733 Pseudo R2 = 0.1584 - nas135 | Odds Ratio Std Err z P>|z| [95% Conf Interval] -+ - wtdiff | 2.071862 .2285847 6.60 0.000 1.668973 2.572008 _cons | .1518379 .0240941 -11.88 0.000 1112523 .2072295 -Note: _cons estimates baseline odds.

logit nas135 wtdiff female, or

Iteration 0: log likelihood = -171.67351

Iteration 1: log likelihood = -144.75883

Iteration 2: log likelihood = -140.55452

Iteration 3: log likelihood = -140.50625

Iteration 4: log likelihood = -140.5062

Iteration 5: log likelihood = -140.5062

Logistic regression Number of obs = 455

LR chi2(2) = 62.33

Trang 20

-Note: _cons estimates baseline odds.

Not really, the odds ratio associated with every 1 kg increase weight change remained about 2

Kiểm tra tương tác giữa main predictor và predictor khác

gen inter = wtdiff*female

(33 missing values generated)

logistic nas135 wtdiff female inter

Logistic regression Number of obs = 455

-Note: _cons estimates baseline odds

The p-value for interaction is large (p=0.874) Therefore there is no evidence of interaction between gender and weight gain in predicting risk of hyponatremia

So sánh việc thêm predictor vào mô hình (Cách 2)

Trang 21

Chúng ta chạy mô hình thêm predictor temp và mô hình cho thấy temp không có ý nghĩa thống kê mặc

dù làm tăng correctly classified của mô hình lên 78.26%.

Chúng ta cần kiểm tra ý nghĩa của việc thêm temp vào mô hình bằng lệnh lrtest.

Kết quả cho thấy p=0.07 cho thấy việc thêm temp vào mô hình cải thiện mô hình so với mô hình chỉ có biến date.

Trang 23

Chạy mô hình hồi quy logistic

Log odd của workstat thấp hơn nếu thu nhập của chồng (husbinc) tăng lên và nếu có trẻ trong gia đình Chúng ta bác bỏ giả thuyết H0 rằng hệ số của husbinc và chilpres =0

Thay vì tính log odd chúng ta tính odd ratio để dễ diển giải kết quả bằng option or.

Kết quả cho thấy odd của làm việc ở những phụ nữ có con tăng gấp 5 lần (1/0.2) so với phụ nữ không con trong điều kiện chồng cùng kiếm tiền như nhau.

Thu nhập của chồng tăng lên 1000 đolar thì odd of working sẽ giảm 4% [100%(0.958-1)].

Điểm chặn 3.8 có nghĩa là odd of working khi tất cả covariate bằng 0

Trang 24

Chạy mô hình hồi quy generlized linear model (GLM)

Option link(logit) là chỉ link function của mô hình là logistic

Option family (binomal) chính là phân phối của biến response (worstat) Vì biến response là biến nhị giá nên phân phối ở đây là binomial hay còn gọi là phân phối Bernoulli.

Mô hình hồi quy GLm cũng cho kết quả tương tự như mô hình hồi quy logistic

Trang 25

Tiên đoán xác suất từ mô hình hồi quy

Chúng ta tạo biến prob chính là xác suất tiên đoán từ mô hình hồi quy logistic đã xây dựng

Sử dụng lệnh twoway để vẽ đồ thị giữa biến predictor là husinc và xác suất tiên đoán

Đồ thị cho thấy tương tự như mô hình khi odd of working của các phụ nữ có con thấp hơn phụ nữ không con khi thu nhập của chồng tăng lên.

Trang 27

Lệnh margin sẽ tính các xác suất tiên đoán theo hai biến date (chuyển thành biến nhị giá) và biến temp.

Để vẽ đường tiên đoán đẹp hơn chúng ta vẽ giá trị tiên đoán với khoảng cách temp chỉ là 1 độ mà thôi Khi đó đường tiên đoán sẽ có dạng mềm mại hơn.

Trang 28

Tính giá trị tiên đoán outcome cho giá trị predictor cho trước

Compared to males, females had 3 fold increase odds of hyponatremia

although not significant

Vẽ đường tiên đoán cho outcome theo các giá trị của predictor

predictnl logor2 = _b[wtdiff]*wtdiff+_b[female]*female+ ///

+_b[inter]*inter

gen oddsratios2 = exp(logor2)

tw (line oddsratios2 wtdiff if female==0, sort lp(dash)) ///

(line oddsratios2 wtdiff if female==1, sort) ///

xtitle("Weight change (kg)") yscale(log) ///

legend(label(1 "Men") label(2 "Women") ///

ring(0) pos(11) col(1) order(2 1) ) ///

text(2 -3 "P-interaction=0.874")

Trang 29

Kiểm tra outlier

Trang 31

Sử dụng đồ thị vẽ giữa DFBETA và predicted probability.

MỘT BIẾN OUTCOME THỨ TỰ-NHIỀU PREDICTOR

Chạy mô hình ordered logistic regression

Trang 32

So sánh mô hình có thêm prdictor

So sánh lr test giữa mô hình không có date và không có tmep với mô hình full cho thấy cả hai biến đều có

ý nghĩa khi thêm vào mô hình

Tiên đoán giá trị cho tầng phân loại của biến outcome

Trang 33

Chuyến bay sts-51 cho thấy xác suất không xảy ra distress rất thấp, xảy ra 1-2 lần tăng dần và >3 lần là lên đến 0.99.

Trang 34

MỘT BIẾN OUTCOME DANH ĐỊNH-NHIỀU PREDICTOR

Chạy mô hình polytomous logistic model (multinomial logistic model)

Ngày đăng: 01/09/2021, 15:07

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w