Xác suất bệnh nhân mắc AIDS không đạt đến 75% tại thời gian cao nhất là 97 tháng, do đó không có khoảng phân vị 75%... enter: -- meaning all enter at time 0 by: bearings Tuyên bố dữ liệ
Trang 2Kết cục trong phân tích sống còn gọi là failure Nếu một bệnh nhân đến hết quá trình nghiên cứu xảy ra kết cục thì gọi là failure Nếu bệnh nhân không xảy ra kết cục trong thời gian nghiên cứu gọi là “censored”.
THIẾT LẬP SURVIVAL-TIME DATA
stset time, failure(aids) id(case)
id: case
failure event: aids != 0 & aids <
obs time interval: (time[_n-1], time]
exit on or before: failure
25 failures in single-failure-per-subject data
3,164 total analysis time at risk and under observation
at risk from t = 0
earliest observed entry t = 0
last observed exit t = 97
Trong lệnh stset, biến time là biến đo lường thời gian
Option failure là biến quy định bệnh nhân failed (1) hoặc censored (0)
Option id dùng để xác định biến ID của dữ liệu
Sau khi sử dụng stset, dùng lệnh save để lưu dữ liệu.
Có thể dùng lệnh stset với option fa(var==1) quy định giá trị death ==1.
Trang 3MÔ TẢ BỘ DỮ LIỆU TIME-EVENT DATA
stdes
failure _d: aids
analysis time _t: time
id: case
| - per subject -|
Category total mean min median max
-no of subjects 51
no of records 51 1 1 1 1
(first) entry time 0 0 0 0
(final) exit time 62.03922 1 67 97
subjects with gap 0
time on gap if gap 0
time at risk 3164 62.03922 1 67 97
failures 25 .4901961 0 0 1
Mô tả dữ liệu survival trong đó biến failure là aids, biến time là biến thời gian, case
là biến id
Failure = 25 là số trường hợp có outcome khi kết thúc thời gian nghiên cứu.
Exit time: thời gian kết thúc nghiên cứu Thời gian kết thúc trung bình là 62.03 tháng, thời gian ngắn nhất là 1 tháng đã có failure, và thời gian dài nhất là 97 tháng
đã có failure.
Trang 4stsum
failure _d: aids
analysis time _t: time
id: case
| incidence no of | - Survival time -|
| time at risk rate subjects 25% 50% 75%
total | 3164 .0079014 51 41 81
Tổng thời gian nguy cơ (time at risk) là thời gian tổng của các đối tượng từ khi tham gia đến khi kết thúc nghiên cứu
Vì có 25 ca failure nên inciden rate là 25/3164 = 0.007.
Phần bên phải mô tả hàm phân phối sống còn Kaplan-Meier Hàm này ước lượng
có 25% khả năng bệnh nhân sẽ mắc AIDS trong vòng 41 tháng sau khi chẩn đoán, 50% khả năng mắc AIDS trong vòng 81 tháng Xác suất bệnh nhân mắc AIDS không đạt đến 75% tại thời gian cao nhất là 97 tháng, do đó không có khoảng phân
vị 75%.
Trang 5CHUYỂN COUNT-TIME DATA THÀNH SURVIVAL-TIME DATA
Trong trường hợp chúng ta có bộ số liệu gồm 3 biến time, failure là số ca
có outcome và censored là số ca không có outcome, chúng ta gọi đây là bộ số liệu count-time data Chúng ta phải chuyển bộ dữ liệu này thành dạng survival-time data.
Lệnh ctset quy định hours là biến thời gian, failures là biến số ca có
outcome và censored là biến số ca không có outcome Thứ tự lệnh phải là time, failure và censored, không được đổi khác.
Trang 6Lệnh cttost sẽ tự động chuyển count-time data thành survival-time data.
Trang 7ctset failtime fail
dataset name: http://www.stata-press.com/data/r13/ctset1.dta
time: failtime
no fail: fail
no lost: (meaning 0 lost)
no enter: (meaning all enter at time 0)
Tuyên bố dữ liệu là count-time data
ctset failtime fail, by(bearings)
dataset name: http://www.stata-press.com/data/r13/ctset2.dta
time: failtime
no fail: fail
no lost: (meaning 0 lost)
no enter: (meaning all enter at time 0)
by: bearings
Tuyên bố dữ liệu là count-time data theo phân nhóm của biến bearings
ctset failtime fail censored, by(bearings)
dataset name: http://www.stata-press.com/data/r13/ctset3.dta
time: failtime
no fail: fail
no lost: censored
no enter: (meaning all enter at time 0)
by: bearings
Tuyên bố dữ liệu là count-time data theo phân nhóm và có biến censored
Tuyên bố dữ liệu là count-time data trong đó biến time là thời gian, biến fail là tình trạng fail, biến cens là tình trạng mất mẫu và biến ent thể hiện số bệnh nhân tham gia vào nghiên cứu tại mỗi thời điểm khác nhau (điều này xảy ra trong nghiên cứu khi mà các đối tượng không cùng tham gia từ đầu).
Trang 8ct
dataset name: http://www.stata-press.com/data/r13/cttost.dta
time: time
no fail: ndead
no lost: ncens
no enter: (meaning all enter at time 0)
by: agecat treat
Tuyên bố một bộ dữ liệu là count-time data
failure event: ndead != 0 & ndead <
obs time interval: (0, time]
exit on or before: failure
33 physical observations remaining, equal to
82 weighted observations, representing
39 failures in single-record/single-failure data
48726 total analysis time at risk and under observation
at risk from t = 0 earliest observed entry t = 0 last observed exit t = 1227
Chuyển bộ số liệu count-time thành survival time
Trang 9list agecat treat time ndead ncens
+ -+ | agecat treat time ndead ncens | | -|
Trang 10Bộ số liệu survival time
ltable t died if group==1
Trang 11ltable t died if group==1, interval(30)
ltable t died if group==1, interval(120,180,210,240,330)
Trang 12ltable t died, by(group) interval(30)
Beg Std
Interval Total Deaths Lost Survival Error [95% Conf Int.] -group = 1
Lập bảng sống cho cả hai nhóm can thiệp 1 và 2
ltable t died if group==1, interval(30) failure
Trang 14TÍNH HÀM SỐNG CÒN BẰNG HÀM HAZARD (HAZARD FUNCTION)
Sử dụng bảng sống để ước lượng hazard function
Trang 17Khoảng tứ phân vị 25% cho biết thời gian tối thiểu đối với xác suất < 75% Còn khoảng tứ phân vị 75% cho biết thời gian tối thiểu đối với xác suất < 25%.
Trang 18SO SÁNH SURVIVAL TIME THEO NHÓM
Mô tả thời gian sống còn theo nhóm
stsum, by(sex)
failure _d: smoking
analysis time _t: days
| incidence no of | - Survival time -|
sex | time at risk rate subjects 25% 50% 75%
Trang 19Vẽ đường K-M cho hai nhóm
failure _d: smoking
analysis time _t: days
Đồ thị KM của hai giới cho thấy không có sự khác biệt nhiều về xác suất bỏ hút thuốc của bệnh nhân
Xác suất không hút thuốc lá của bệnh nhân giảm rất nhanh trong vòng 30 ngày sau khi bỏ Ở cả hai giới, xác suất không hút thuốc lá trong vòng 1 năm rất thấp (< 15%).
Trang 20Tính thời gian sống trung vị của nhóm
Vì đồ thị K-M rất khó để tính trung vị thời gian sống hoặc các phần trăm phân vị thời gian sống (25% phân vị, 75% phân vị), nên chúng ta có thể tính riêng các giá trị này bằng câu lệnh stst list hoặc stsci.
Tính thời gian sống trung vị của bệnh nhân khi xác suất sống < 50%.
sts graph, by (sex) hazard
Trang 21Vẽ hàm hazard theo giới tính
stphplot, by(sex)
Vẽ hàm propotional hazard function cho giới tính
So sánh thời gian sống hai nhóm bằng phép kiểm log-rank
So sánh thời gian sống còn giữa hai nhóm Giả thuyết H0 chính là phân phối sống còn của hai nhóm không khác biệt theo thời gian theo dõi.
Trang 22Có 201 biến cố xảy ra, 108 biến cố ở nhóm female và 93 biến cố ở nhóm male Events Expected: biến cố vọng trị khi mà cả hai nhóm có phân phối sống còn giống nhau.
Kiểm tra bằng log-rank test cho thấy p = 0,67 chứng tỏ không có sự khác biệt về thời gian sống còn giữa hai nhóm male và female
Mặc định của lệnh sts test là log-rank test.
Trang 23So sánh thời gian sống của hai nhóm bằng phép kiểm Wilcoxon test
Sử dụng phép kiểm Wilcoxon(Breslow) để kiểm tra hàm sống còn của hai nhóm giới tính.
Phép kiểm Wilcoxon được xem như là weighted version của logrank test Việc đặt weighted này có ích khi chúng ta xem một số biến cố ban đầu quan trọng hơn biến
có còn lại.
Trang 24Sử dụng phép kiểm Tarone-Ware để so sánh hàm sống còn của hai giới tính.
Trang 25MÔ HÌNH COX PROPOTIONAL HAZARD MODEL VỚI MỘT BIẾN PREDICTOR NHỊ GIÁ
Kết quả cho thấy loại cấy ghép cơ quan chết có nguy cơ tử vong cao gấp 2.06 lần
so với cấy ghép bằng cơ quan sống.
Trang 26MÔ HÌNH COX PROPOTIONAL HAZARD MODEL VỚI MỘT BIẾN PREDICTOR NHIỀU GIÁ TRỊ
Chạy mô hình Cox với biến histol gồm 4 phân loại Lệnh xi giúp tạo ra 3 biến indicator Tầng đầu tiên được dùng làm tầng tham khảo.
Lệnh testparm giúp kiểm tra hiệu ứng chung của cả biến histol chứ không phải từng tầng Lệnh lincom cũng giúp so sánh HR giữa hai tầng bất kỳ Nhóm 4 có HR cao gấp 2.49 lần
so với nhóm 3.
Trang 27Trong trường hợp biến phân loại là biến thứ tự thì chúng ta có thể kiểm tra tính xu hướng của các tầng có tuyến tính hay không.
Biến histol có 4 tầng do đó mô hình tuyến tính cho 4 tầng là -β2 + β3 + 3β4 = 0
Kết quả cho thấy p < 0.05 chứng tỏ có xu hướng tuyến tính giữa các tầng của biến
Chúng ta cũng có thể kiểm tra xu hướng tuyến tính có phải diễn ra ở tất cả các tầng của biến thứ tự hay không Chúng ta đưa thêm chính biến đó vào mô hình Sau đó sử dụng lệnh testparm để kiểm tra hiệu ứng kết hợp giữa các tầng của biến phân loại
Kết quả cho thấy p = 0.53 chứng tỏ rằng xu hướng tuyến tính giữa các phân loại là một
mô tả đầy đủ cho mối kết hợp giữa histol và nguy cơ tử vong.
Trang 28MÔ HÌNH COX PROPOTIONAL HAZARD MODEL VỚI MỘT BIẾN PREDICTOR LIÊN TỤC
Chạy mô hình hồi quy Cox proportional hazard với biến age là biến predictor Hazard ratio =1,085 với tham khảo cho hai lứa tuổi là a và a + 1 Nếu
tăng lên k đơn vị trong predictor thì nguy cơ sẽ tăng lên 100x(HR-1)% Như vậy,
bệnh nhân có tuổi a + 1 sẽ có khả năng 8,5% mắc AIDS so với bệnh nhân a tuổi Option nolog sẽ không chạy các bước likelihood cho mô hình.
Vì khoảng giá trị tuổi có thể rất lớn trong khi chúng ta tính HR cho một tuổi tăng lên thì không có ý nghĩa Do đó chúng ta tạo khoảng cách tuổi là 5 để giải thích HR có ý nghĩa hơn Bệnh nhân lớn hơn 5 tuổi sẽ có khả năng mắc 50% mắc HIV so với bệnh nhân nhỏ hơn 5 tuổi.
Trang 29MÔ HÌNH COX VỚI HAI BIẾN LIÊN TỤC
Kết quả cho thấy bệnh nhân có sử dụng rx thì có nguy cơ mắc bệnh bằng 82% so với bệnh nhân không sử dụng rx Tỷ số này hằng định trong suốt thời gian theo dõi (trong ví dụ này là 10 năm).
Bệnh nhân có bilirubin tăng lên một đơn vị thì mg/dL thì nguy cơ ngắn hạn tăng lên 1.16 lần
Phép kiểm Wald z test để kiểm tra giả thuyết HR=1 Giả thuyết này cho thấy rx không có ý nghĩa thống kê còn bilirubin có ý nghĩa thống kê.
Chạy mô hình Cox nhưng với coef chứ không phải là HR
Phép kiểm Wald z test kiểm tra giả thuyết H0 là coef =0 Phép kiểm này chính là phép kiểm Wald test trong mô hình Cox báo cáo HR.
Trang 30MÔ HÌNH COX VỚI TƯƠNG TÁC HAI BIẾN PHÂN LOẠI
stcox rx hepatom rxhepa, nolog
failure _d: status
analysis time _t: years
id: number
Cox regression Breslow method for ties
No of subjects = 312 Number of obs = 312
và p được cung cấp với lệnh lincom.
Trang 31MÔ HÌNH COX VỚI NHIỀU BIẾN LIÊN TỤC VÀ PHÂN LOẠI
Chạy mô hình Cox proportional hazard model
Mô hình Cox cho thấy nồng độ cholesterol và hút thuốc lá (cigs) có làm tăng có ý nghĩa thống kê nguy cơ biến cố tim mạch xảy ra Ngược lại, trọng lượng lại làm giảm nguy cơ Biến huyết áp tâm trương (sbp) và A/B personality (ab) không có ảnh hưởng có ý nghĩa thống kê.
Tiên đoán ho(t) và hàm hazard baseline
Trang 32Sau khi ước lượng mô hình, chúng ta có thể tiên đoán các biến mới là ước lượng baseline cummulative hazard và hàm sống còn tiên đoán Bởi vì “baseline” đòi hỏi một tình huống mà tất cả các biến x đều = 0, nên cần phải trung tâm hóa một số biến để giá trị 0 có ý nghĩa Một bệnh nhân nặng 0 pound, hoặc có huyết áp
0 thì không cung cấp một sự so sánh có ích Dựa trên giá trị tối thiểu của dữ liệu,
có thể dịch chuyển trọng lượng để 0 tương ứng với 120, sbp 0 tương tứng với 105
và chol có 0 tương ứng 340
Giá trị 0 cho tất cả các biến x hiện đã trở nên có ý nghĩa.
Chúng ta có thể tạo hàm sống còn baseline và hàm nguy cơ tích lũy baseline bằng hai câu lệnh predict
Trang 33Vẽ đồ thị giữa hàm baseline survivor (biến survivor) theo thời gian Hàm baseline survivor mô tả xác suất sống còn của bệnh nhân có “0” trọng lượng (120 pound),
“0” huyết áp (105), “0” cholesterol (340), 0 cigarette/ngày, và tính cách loại B giảm theo thời gian Mặc dù sự sụt giảm này trông kỳ cục ở bên phải đồ thị, cần lưu ý rằng xác suất thật sự chỉ giảm từ 1 đến 0.96 Bởi vì lý do là các giá trị của biến predictor ít thuận lợi, nên xác suất sống sót sẽ sụt giảm nhanh hơn.
Trang 34Thay vì vẽ baseline survivor functions, sau khi chạy lệnh xtcox
Lệnh sts graph cũng vẽ đường xác suất sống còn baseline tương tự như đồ thị ở trên, với option là adjustfor(các biến predictor) Đồ thị này chỉ khác ở chỗ thang đo trên trục tung là sử dụng thang đo truyền thống của hàm sống còn (0-1) trong khi thang đo của đồ thị vẽ từ mô hình là theo xác suất sống baseline
Trang 35Vẽ estimated baseline cummulative hazard theo thời gian Baseline cummulative hazard tăng dần theo 8 bậc (vì có 8 đối tượng failed) từ gần 0 lên 0.03
Trang 36Tiên đoán survival time cho một đối tượng cụ thể
stcox age ndrugtx treat site c.age#i.site, nohr basesurv(surv0)
failure _d: censor
analysis time _t: time
Iteration 0: log likelihood = -2868.555
Iteration 1: log likelihood = -2851.487
Iteration 2: log likelihood = -2850.8935
Iteration 3: log likelihood = -2850.8915
Refining estimates:
Iteration 0: log likelihood = -2850.8915
Cox regression Breslow method for ties
No of subjects = 610 Number of obs = 610
No of failures = 495
Time at risk = 142994
LR chi2(5) = 35.33Log likelihood = -2850.8915 Prob > chi2 = 0.0000
_t | Coef Std Err z P>|z| [95% Conf Interval] -+ - age | -.0336943 .0092913 -3.63 0.000 -.051905 -.0154837 ndrugtx | .0364537 .0077012 4.73 0.000 0213597 .0515478 treat | -.2674113 .0912282 -2.93 0.003 -.4462153 -.0886073 site | -1.245928 .5087349 -2.45 0.014 -2.24303 -.2488262 |
site#c.age |
1 | .0337728 .0155087 2.18 0.029 0033764 .0641693 - generate surv1 = surv0^exp( (-0.0336943*30+0.0364537*5 - 0.2674113))
(18 missing values generated)
line surv1 _t, sort ylab(0 1 to 1) xlab(0 200 to 1200)
Trang 38generate surv2 = surv0^exp( (-0.0336943*30+0.0364537*5))
(18 missing values generated)
label variable surv1 "long treatment"
label variable surv2 "short treatment"
line surv1 surv2 _t, sort ylab(0 1 to 1) xlab(0 200 to 1200)
Tiên đoán đường sống còn cho đối tượng cụ thể ở hai nhóm khác nhau Ví
dụ một người 30 tuổi (age=30), có số thuốc sử dụng trước đó là 5 (ndrugtx=5) và hiện đang điều trị ngắn hạn (treat=0) tại nơi A (site=0 và agesite=30*0=0) Hàm sống còn của bệnh nhân ở nhóm điều trị ngắn hạn là surv2 Đối với bệnh nhân ở nhóm điều trị ngắn hạn hàm sống còn của nhóm này tính được là -0.0336943*30+0.0364537*5 Từ đồ thị cho thấy thời gian sử dụng lại thuốc của nhóm ngắn và nhóm dài là hoàn toàn khác nhau