1. Trang chủ
  2. » Thể loại khác

SURVIVAL ANALYSIS trong Stata

50 51 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Survival Analysis
Thể loại essay
Định dạng
Số trang 50
Dung lượng 2,12 MB
File đính kèm 103. SURVIVAL ANALYSIS.rar (2 MB)

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Xác suất bệnh nhân mắc AIDS không đạt đến 75% tại thời gian cao nhất là 97 tháng, do đó không có khoảng phân vị 75%... enter: -- meaning all enter at time 0 by: bearings Tuyên bố dữ liệ

Trang 2

Kết cục trong phân tích sống còn gọi là failure Nếu một bệnh nhân đến hết quá trình nghiên cứu xảy ra kết cục thì gọi là failure Nếu bệnh nhân không xảy ra kết cục trong thời gian nghiên cứu gọi là “censored”.

THIẾT LẬP SURVIVAL-TIME DATA

stset time, failure(aids) id(case)

id: case

failure event: aids != 0 & aids <

obs time interval: (time[_n-1], time]

exit on or before: failure

25 failures in single-failure-per-subject data

3,164 total analysis time at risk and under observation

at risk from t = 0

earliest observed entry t = 0

last observed exit t = 97

Trong lệnh stset, biến time là biến đo lường thời gian

Option failure là biến quy định bệnh nhân failed (1) hoặc censored (0)

Option id dùng để xác định biến ID của dữ liệu

Sau khi sử dụng stset, dùng lệnh save để lưu dữ liệu.

Có thể dùng lệnh stset với option fa(var==1) quy định giá trị death ==1.

Trang 3

MÔ TẢ BỘ DỮ LIỆU TIME-EVENT DATA

stdes

failure _d: aids

analysis time _t: time

id: case

| - per subject -|

Category total mean min median max

-no of subjects 51

no of records 51 1 1 1 1

(first) entry time 0 0 0 0

(final) exit time 62.03922 1 67 97

subjects with gap 0

time on gap if gap 0

time at risk 3164 62.03922 1 67 97

failures 25 .4901961 0 0 1

Mô tả dữ liệu survival trong đó biến failure là aids, biến time là biến thời gian, case

là biến id

Failure = 25 là số trường hợp có outcome khi kết thúc thời gian nghiên cứu.

Exit time: thời gian kết thúc nghiên cứu Thời gian kết thúc trung bình là 62.03 tháng, thời gian ngắn nhất là 1 tháng đã có failure, và thời gian dài nhất là 97 tháng

đã có failure.

Trang 4

stsum

failure _d: aids

analysis time _t: time

id: case

| incidence no of | - Survival time -|

| time at risk rate subjects 25% 50% 75%

total | 3164 .0079014 51 41 81

Tổng thời gian nguy cơ (time at risk) là thời gian tổng của các đối tượng từ khi tham gia đến khi kết thúc nghiên cứu

Vì có 25 ca failure nên inciden rate là 25/3164 = 0.007.

Phần bên phải mô tả hàm phân phối sống còn Kaplan-Meier Hàm này ước lượng

có 25% khả năng bệnh nhân sẽ mắc AIDS trong vòng 41 tháng sau khi chẩn đoán, 50% khả năng mắc AIDS trong vòng 81 tháng Xác suất bệnh nhân mắc AIDS không đạt đến 75% tại thời gian cao nhất là 97 tháng, do đó không có khoảng phân

vị 75%.

Trang 5

CHUYỂN COUNT-TIME DATA THÀNH SURVIVAL-TIME DATA

Trong trường hợp chúng ta có bộ số liệu gồm 3 biến time, failure là số ca

có outcome và censored là số ca không có outcome, chúng ta gọi đây là bộ số liệu count-time data Chúng ta phải chuyển bộ dữ liệu này thành dạng survival-time data.

Lệnh ctset quy định hours là biến thời gian, failures là biến số ca có

outcome và censored là biến số ca không có outcome Thứ tự lệnh phải là time, failure và censored, không được đổi khác.

Trang 6

Lệnh cttost sẽ tự động chuyển count-time data thành survival-time data.

Trang 7

ctset failtime fail

dataset name: http://www.stata-press.com/data/r13/ctset1.dta

time: failtime

no fail: fail

no lost: (meaning 0 lost)

no enter: (meaning all enter at time 0)

Tuyên bố dữ liệu là count-time data

ctset failtime fail, by(bearings)

dataset name: http://www.stata-press.com/data/r13/ctset2.dta

time: failtime

no fail: fail

no lost: (meaning 0 lost)

no enter: (meaning all enter at time 0)

by: bearings

Tuyên bố dữ liệu là count-time data theo phân nhóm của biến bearings

ctset failtime fail censored, by(bearings)

dataset name: http://www.stata-press.com/data/r13/ctset3.dta

time: failtime

no fail: fail

no lost: censored

no enter: (meaning all enter at time 0)

by: bearings

Tuyên bố dữ liệu là count-time data theo phân nhóm và có biến censored

Tuyên bố dữ liệu là count-time data trong đó biến time là thời gian, biến fail là tình trạng fail, biến cens là tình trạng mất mẫu và biến ent thể hiện số bệnh nhân tham gia vào nghiên cứu tại mỗi thời điểm khác nhau (điều này xảy ra trong nghiên cứu khi mà các đối tượng không cùng tham gia từ đầu).

Trang 8

ct

dataset name: http://www.stata-press.com/data/r13/cttost.dta

time: time

no fail: ndead

no lost: ncens

no enter: (meaning all enter at time 0)

by: agecat treat

Tuyên bố một bộ dữ liệu là count-time data

failure event: ndead != 0 & ndead <

obs time interval: (0, time]

exit on or before: failure

33 physical observations remaining, equal to

82 weighted observations, representing

39 failures in single-record/single-failure data

48726 total analysis time at risk and under observation

at risk from t = 0 earliest observed entry t = 0 last observed exit t = 1227

Chuyển bộ số liệu count-time thành survival time

Trang 9

list agecat treat time ndead ncens

+ -+ | agecat treat time ndead ncens | | -|

Trang 10

Bộ số liệu survival time

ltable t died if group==1

Trang 11

ltable t died if group==1, interval(30)

ltable t died if group==1, interval(120,180,210,240,330)

Trang 12

ltable t died, by(group) interval(30)

Beg Std

Interval Total Deaths Lost Survival Error [95% Conf Int.] -group = 1

Lập bảng sống cho cả hai nhóm can thiệp 1 và 2

ltable t died if group==1, interval(30) failure

Trang 14

TÍNH HÀM SỐNG CÒN BẰNG HÀM HAZARD (HAZARD FUNCTION)

Sử dụng bảng sống để ước lượng hazard function

Trang 17

Khoảng tứ phân vị 25% cho biết thời gian tối thiểu đối với xác suất < 75% Còn khoảng tứ phân vị 75% cho biết thời gian tối thiểu đối với xác suất < 25%.

Trang 18

SO SÁNH SURVIVAL TIME THEO NHÓM

Mô tả thời gian sống còn theo nhóm

stsum, by(sex)

failure _d: smoking

analysis time _t: days

| incidence no of | - Survival time -|

sex | time at risk rate subjects 25% 50% 75%

Trang 19

Vẽ đường K-M cho hai nhóm

failure _d: smoking

analysis time _t: days

Đồ thị KM của hai giới cho thấy không có sự khác biệt nhiều về xác suất bỏ hút thuốc của bệnh nhân

Xác suất không hút thuốc lá của bệnh nhân giảm rất nhanh trong vòng 30 ngày sau khi bỏ Ở cả hai giới, xác suất không hút thuốc lá trong vòng 1 năm rất thấp (< 15%).

Trang 20

Tính thời gian sống trung vị của nhóm

Vì đồ thị K-M rất khó để tính trung vị thời gian sống hoặc các phần trăm phân vị thời gian sống (25% phân vị, 75% phân vị), nên chúng ta có thể tính riêng các giá trị này bằng câu lệnh stst list hoặc stsci.

Tính thời gian sống trung vị của bệnh nhân khi xác suất sống < 50%.

sts graph, by (sex) hazard

Trang 21

Vẽ hàm hazard theo giới tính

stphplot, by(sex)

Vẽ hàm propotional hazard function cho giới tính

So sánh thời gian sống hai nhóm bằng phép kiểm log-rank

So sánh thời gian sống còn giữa hai nhóm Giả thuyết H0 chính là phân phối sống còn của hai nhóm không khác biệt theo thời gian theo dõi.

Trang 22

Có 201 biến cố xảy ra, 108 biến cố ở nhóm female và 93 biến cố ở nhóm male Events Expected: biến cố vọng trị khi mà cả hai nhóm có phân phối sống còn giống nhau.

Kiểm tra bằng log-rank test cho thấy p = 0,67 chứng tỏ không có sự khác biệt về thời gian sống còn giữa hai nhóm male và female

Mặc định của lệnh sts test là log-rank test.

Trang 23

So sánh thời gian sống của hai nhóm bằng phép kiểm Wilcoxon test

Sử dụng phép kiểm Wilcoxon(Breslow) để kiểm tra hàm sống còn của hai nhóm giới tính.

Phép kiểm Wilcoxon được xem như là weighted version của logrank test Việc đặt weighted này có ích khi chúng ta xem một số biến cố ban đầu quan trọng hơn biến

có còn lại.

Trang 24

Sử dụng phép kiểm Tarone-Ware để so sánh hàm sống còn của hai giới tính.

Trang 25

MÔ HÌNH COX PROPOTIONAL HAZARD MODEL VỚI MỘT BIẾN PREDICTOR NHỊ GIÁ

Kết quả cho thấy loại cấy ghép cơ quan chết có nguy cơ tử vong cao gấp 2.06 lần

so với cấy ghép bằng cơ quan sống.

Trang 26

MÔ HÌNH COX PROPOTIONAL HAZARD MODEL VỚI MỘT BIẾN PREDICTOR NHIỀU GIÁ TRỊ

Chạy mô hình Cox với biến histol gồm 4 phân loại Lệnh xi giúp tạo ra 3 biến indicator Tầng đầu tiên được dùng làm tầng tham khảo.

Lệnh testparm giúp kiểm tra hiệu ứng chung của cả biến histol chứ không phải từng tầng Lệnh lincom cũng giúp so sánh HR giữa hai tầng bất kỳ Nhóm 4 có HR cao gấp 2.49 lần

so với nhóm 3.

Trang 27

Trong trường hợp biến phân loại là biến thứ tự thì chúng ta có thể kiểm tra tính xu hướng của các tầng có tuyến tính hay không.

Biến histol có 4 tầng do đó mô hình tuyến tính cho 4 tầng là 2 + β3 + 3β4 = 0

Kết quả cho thấy p < 0.05 chứng tỏ có xu hướng tuyến tính giữa các tầng của biến

Chúng ta cũng có thể kiểm tra xu hướng tuyến tính có phải diễn ra ở tất cả các tầng của biến thứ tự hay không Chúng ta đưa thêm chính biến đó vào mô hình Sau đó sử dụng lệnh testparm để kiểm tra hiệu ứng kết hợp giữa các tầng của biến phân loại

Kết quả cho thấy p = 0.53 chứng tỏ rằng xu hướng tuyến tính giữa các phân loại là một

mô tả đầy đủ cho mối kết hợp giữa histol và nguy cơ tử vong.

Trang 28

MÔ HÌNH COX PROPOTIONAL HAZARD MODEL VỚI MỘT BIẾN PREDICTOR LIÊN TỤC

Chạy mô hình hồi quy Cox proportional hazard với biến age là biến predictor Hazard ratio =1,085 với tham khảo cho hai lứa tuổi là a và a + 1 Nếu

tăng lên k đơn vị trong predictor thì nguy cơ sẽ tăng lên 100x(HR-1)% Như vậy,

bệnh nhân có tuổi a + 1 sẽ có khả năng 8,5% mắc AIDS so với bệnh nhân a tuổi Option nolog sẽ không chạy các bước likelihood cho mô hình.

Vì khoảng giá trị tuổi có thể rất lớn trong khi chúng ta tính HR cho một tuổi tăng lên thì không có ý nghĩa Do đó chúng ta tạo khoảng cách tuổi là 5 để giải thích HR có ý nghĩa hơn Bệnh nhân lớn hơn 5 tuổi sẽ có khả năng mắc 50% mắc HIV so với bệnh nhân nhỏ hơn 5 tuổi.

Trang 29

MÔ HÌNH COX VỚI HAI BIẾN LIÊN TỤC

Kết quả cho thấy bệnh nhân có sử dụng rx thì có nguy cơ mắc bệnh bằng 82% so với bệnh nhân không sử dụng rx Tỷ số này hằng định trong suốt thời gian theo dõi (trong ví dụ này là 10 năm).

Bệnh nhân có bilirubin tăng lên một đơn vị thì mg/dL thì nguy cơ ngắn hạn tăng lên 1.16 lần

Phép kiểm Wald z test để kiểm tra giả thuyết HR=1 Giả thuyết này cho thấy rx không có ý nghĩa thống kê còn bilirubin có ý nghĩa thống kê.

Chạy mô hình Cox nhưng với coef chứ không phải là HR

Phép kiểm Wald z test kiểm tra giả thuyết H0 là coef =0 Phép kiểm này chính là phép kiểm Wald test trong mô hình Cox báo cáo HR.

Trang 30

MÔ HÌNH COX VỚI TƯƠNG TÁC HAI BIẾN PHÂN LOẠI

stcox rx hepatom rxhepa, nolog

failure _d: status

analysis time _t: years

id: number

Cox regression Breslow method for ties

No of subjects = 312 Number of obs = 312

và p được cung cấp với lệnh lincom.

Trang 31

MÔ HÌNH COX VỚI NHIỀU BIẾN LIÊN TỤC VÀ PHÂN LOẠI

Chạy mô hình Cox proportional hazard model

Mô hình Cox cho thấy nồng độ cholesterol và hút thuốc lá (cigs) có làm tăng có ý nghĩa thống kê nguy cơ biến cố tim mạch xảy ra Ngược lại, trọng lượng lại làm giảm nguy cơ Biến huyết áp tâm trương (sbp) và A/B personality (ab) không có ảnh hưởng có ý nghĩa thống kê.

Tiên đoán ho(t) và hàm hazard baseline

Trang 32

Sau khi ước lượng mô hình, chúng ta có thể tiên đoán các biến mới là ước lượng baseline cummulative hazard và hàm sống còn tiên đoán Bởi vì “baseline” đòi hỏi một tình huống mà tất cả các biến x đều = 0, nên cần phải trung tâm hóa một số biến để giá trị 0 có ý nghĩa Một bệnh nhân nặng 0 pound, hoặc có huyết áp

0 thì không cung cấp một sự so sánh có ích Dựa trên giá trị tối thiểu của dữ liệu,

có thể dịch chuyển trọng lượng để 0 tương ứng với 120, sbp 0 tương tứng với 105

và chol có 0 tương ứng 340

Giá trị 0 cho tất cả các biến x hiện đã trở nên có ý nghĩa.

Chúng ta có thể tạo hàm sống còn baseline và hàm nguy cơ tích lũy baseline bằng hai câu lệnh predict

Trang 33

Vẽ đồ thị giữa hàm baseline survivor (biến survivor) theo thời gian Hàm baseline survivor mô tả xác suất sống còn của bệnh nhân có “0” trọng lượng (120 pound),

“0” huyết áp (105), “0” cholesterol (340), 0 cigarette/ngày, và tính cách loại B giảm theo thời gian Mặc dù sự sụt giảm này trông kỳ cục ở bên phải đồ thị, cần lưu ý rằng xác suất thật sự chỉ giảm từ 1 đến 0.96 Bởi vì lý do là các giá trị của biến predictor ít thuận lợi, nên xác suất sống sót sẽ sụt giảm nhanh hơn.

Trang 34

Thay vì vẽ baseline survivor functions, sau khi chạy lệnh xtcox

Lệnh sts graph cũng vẽ đường xác suất sống còn baseline tương tự như đồ thị ở trên, với option là adjustfor(các biến predictor) Đồ thị này chỉ khác ở chỗ thang đo trên trục tung là sử dụng thang đo truyền thống của hàm sống còn (0-1) trong khi thang đo của đồ thị vẽ từ mô hình là theo xác suất sống baseline

Trang 35

Vẽ estimated baseline cummulative hazard theo thời gian Baseline cummulative hazard tăng dần theo 8 bậc (vì có 8 đối tượng failed) từ gần 0 lên 0.03

Trang 36

Tiên đoán survival time cho một đối tượng cụ thể

stcox age ndrugtx treat site c.age#i.site, nohr basesurv(surv0)

failure _d: censor

analysis time _t: time

Iteration 0: log likelihood = -2868.555

Iteration 1: log likelihood = -2851.487

Iteration 2: log likelihood = -2850.8935

Iteration 3: log likelihood = -2850.8915

Refining estimates:

Iteration 0: log likelihood = -2850.8915

Cox regression Breslow method for ties

No of subjects = 610 Number of obs = 610

No of failures = 495

Time at risk = 142994

LR chi2(5) = 35.33Log likelihood = -2850.8915 Prob > chi2 = 0.0000

_t | Coef Std Err z P>|z| [95% Conf Interval] -+ - age | -.0336943 .0092913 -3.63 0.000 -.051905 -.0154837 ndrugtx | .0364537 .0077012 4.73 0.000 0213597 .0515478 treat | -.2674113 .0912282 -2.93 0.003 -.4462153 -.0886073 site | -1.245928 .5087349 -2.45 0.014 -2.24303 -.2488262 |

site#c.age |

1 | .0337728 .0155087 2.18 0.029 0033764 .0641693 - generate surv1 = surv0^exp( (-0.0336943*30+0.0364537*5 - 0.2674113))

(18 missing values generated)

line surv1 _t, sort ylab(0 1 to 1) xlab(0 200 to 1200)

Trang 38

generate surv2 = surv0^exp( (-0.0336943*30+0.0364537*5))

(18 missing values generated)

label variable surv1 "long treatment"

label variable surv2 "short treatment"

line surv1 surv2 _t, sort ylab(0 1 to 1) xlab(0 200 to 1200)

Tiên đoán đường sống còn cho đối tượng cụ thể ở hai nhóm khác nhau Ví

dụ một người 30 tuổi (age=30), có số thuốc sử dụng trước đó là 5 (ndrugtx=5) và hiện đang điều trị ngắn hạn (treat=0) tại nơi A (site=0 và agesite=30*0=0) Hàm sống còn của bệnh nhân ở nhóm điều trị ngắn hạn là surv2 Đối với bệnh nhân ở nhóm điều trị ngắn hạn hàm sống còn của nhóm này tính được là -0.0336943*30+0.0364537*5 Từ đồ thị cho thấy thời gian sử dụng lại thuốc của nhóm ngắn và nhóm dài là hoàn toàn khác nhau

Ngày đăng: 02/09/2021, 16:35

TỪ KHÓA LIÊN QUAN

w