1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Luận văn thạc sĩ HUS phương pháp phân tích sự kiện dùng đánh giá các biến động trong quá trình học tập của sinh viên trường đại học thủy lợi hà nội

71 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phương pháp phân tích sự kiện dùng đánh giá các biến động trong quá trình học tập của sinh viên Trường đại học Thủy lợi Hà Nội
Tác giả Bùi Thị Huệ
Người hướng dẫn TS. Trịnh Quốc Anh
Trường học Trường đại học khoa học tự nhiên, đại học quốc gia Hà Nội
Chuyên ngành Lý thuyết xác suất và thống kê toán học
Thể loại Luận văn thạc sĩ
Năm xuất bản 2013
Thành phố Hà Nội
Định dạng
Số trang 71
Dung lượng 1,97 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Để làm sáng tỏ điều đó, trong phạm vi của bản luận văn này, tôi đã thu thập số liệu sinh viên trường Đại học Thủy Lợi Hà Nội do phòng Quản lý và Công tác sinh viên cung cấp và sử dụng “p

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

*******

BÙI THỊ HUỆ

PHƯƠNG PHÁP PHÂN TÍCH SỰ KIỆN DÙNG ĐÁNH GIÁ CÁC BIẾN ĐỘNG TRONG QUÁ TRÌNH HỌC TẬP CỦA SINH VIÊN TRƯỜNG ĐẠI HỌC THỦY LỢI HÀ NỘI

LUẬN VĂN THẠC SĨ KHOA HỌC

Hà Nội – 2013

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

*******

BÙI THỊ HUỆ

PHƯƠNG PHÁP PHÂN TÍCH SỰ KIỆN DÙNG ĐÁNH GIÁ CÁC BIẾN ĐỘNG TRONG QUÁ TRÌNH HỌC TẬP CỦA SINH VIÊN TRƯỜNG ĐẠI HỌC THỦY LỢI HÀ NỘI

Chuyên ngành: Lý thuyết Xác suất và Thống kê Toán học

Trang 3

LỜI CẢM ƠN

Tôi xin bày tỏ lời cảm ơn chân thành, sâu sắc tới TS Trịnh Quốc Anh – người đã luôn bên cạnh động viên, tận tình chỉ bảo, hướng dẫn và giúp đỡ tôi trong quá trình nghiên cứu và hoàn thành bản luận văn này

Tôi xin gửi lời cảm ơn đến các thầy cô trong Bộ môn xác suất cùng các thầy

cô trong khoa Toán – Cơ – Tin học, trường Đại học Khoa học tự nhiên, Đại học Quốc gia Hà Nội đã cung cấp cho tôi vốn kiến thức chuyên ngành trong suốt thời gian tôi học tại trường và đã giúp đỡ, tạo điều kiện để tôi hoàn thành luận văn của mình

Tôi xin gửi lời cảm ơn tới các anh chị ở phòng Công tác sinh viên của trường Đại Học Thủy Lợi đã cung cấp cho tôi số liệu về sinh viên trong trường và giúp tôi hiểu rõ về số liệu

Nhân dịp này, tôi cũng xin gửi lời cảm ơn tới gia đình, bạn bè - những người

đã luôn động viên, cổ vũ và tạo điều kiện để tôi hoàn thành luận văn của mình

Luận văn này đánh giá kết quả lao động trong quá trình học tập và nghiên cứu của tôi Tôi hi vọng nó thể hiện được phần nào tâm nguyện và mong ước mà tôi muốn thực hiện Vì thế, tôi mong nhận được sự ủng hộ và giúp đỡ nhiều hơn để thực hiện hóa ý tưởng của mình

Luận văn chỉ là một kết quả nghiên cứu nhỏ của tác giả nên chắc chắn còn nhiều thiếu sót cần chỉnh sửa Tác giả rất mong nhận được sự góp ý từ các thầy cô

và bạn đọc Mọi liên hệ gửi về hòm thư huebt@wru.edu.vn

Trang 4

MỤC LỤC

LỜI NÓI ĐẦU 1

NộI DUNG 3

CHƯƠNG 1 : PHÂN TÍCH SỐNG SÓT 3

1.1Giới thiệu chung 3

1.2Kiểm duyệt và các loại kiểm duyệt 4

1.3Hàm sống sót và hàm nguy cơ 5

1.3.1Hàm sống sót 5

1.3.2Hàm nguy cơ 6

1.3.3Mô hình tham số 8

1.3.4Mô hình phi tham số 11

1.3.5So sánh mô hình tham số và phi tham số 12

1.4Kiểm định của các mô hình 12

1.4.1Ước lượng Kaplan-Meier của hàm sống sót 12

1.4.2Kiểm định Log-rank 16

1.4.3Giới thiệu sơ bộ về mô hình Cox 18

CHƯƠNG 2 : MÔ HÌNH NGUY CƠ THEO Tỷ Lệ 21

2.1Giới thiệu về mô hình nguy cơ theo tỷ lệ 21

2.1.1Giới thiệu 21

2.1.2Tác giả mô hình Cox 21

2.1.3Mô hình Cox 22

2.1.4Hàm sống sót của Cox PHM 23

2.1.5Ước lượng các tham số của Cox PHM 24

2.2Hàm hợp lý từng phần 24

2.2.1Hàm hợp lý từng phần cho lần thất bại là duy nhất 24

2.2.2Hàm hợp lý từng phần cho lần thất bại lặp đi lặp lại 25

Trang 5

2.3Ước lượng các tham số 27

2.4Kiểm định giả thuyết cho PHM 29

CHƯƠNG 3: THựC NGHIệM PHÂN TÍCH Dữ LIệU SINH VIÊN TRƯờNG ĐạI HọC THủY LợI HÀ NộI BằNG PHƯƠNG PHÁP PHÂN TÍCH SốNG SÓT 31

3.1Giới thiệu 31

3.2Mô tả số liệu 32

3.2.1Các biến số trong mô hình 32

3.2.2Mã hóa số liệu 37

3.3Mô hình của phân tích sống sót trong R 40

3.3.1Giới thiệu về R 40

3.3.2Ước lượng Kaplan-Meier trong R 41

3.3.3Kiểm định Log-rank bằng R 53

3.3.4Mô hình Cox trong R 55

KẾT LUẬN 63

TÀI LIỆU THAM KHẢO 66

Trang 6

LỜI NÓI ĐẦU

Quản lý sinh viên là một một bài toán quan trọng không thể thiếu trong mỗi trường học ở nước ta Mỗi trường đại học, cao đẳng hay học nghề đều có một bộ phận thống kê số liệu về sinh viên bắt đầu từ khi các em nộp hồ sơ vào trường đến khi các em chính thức trở thành sinh viên của trường và trong suốt quá trình các em học tập trong trường tới khi các em nhận bằng tốt nghiệp của mình.Và ngày nay, nhờ vào việc tin học hóa đã giúp cho công việc này trở nên dễ dàng, chính xác, có tính chuyên nghiệp và mang tính bảo mật cao đối với mỗi người sử dụng khác nhau

Tuy nhiên nhà trường mới chỉ quản lý sinh viên ở mặt nổi, ví dụ như: họ và tên, nơi sinh, mã sinh viên, …những điều này mang tính hồ sơ Cái sâu hơn mà chúng ta quan tâm đó là dựa trên những thông tin ban đầu này, liệu rằng ta có thể sử dụng các phương pháp phân tích thống kê phù hợp kết hợp với các phần mềm toán học để phân tích số liệu đó và đưa ra các kết quả như: hàng năm lượng sinh viên ở đâu vào trường nhiều nhất?, sau một khóa học thì số sinh viên tốt nghiệp ra trường được bao nhiêu phần trăm so với lượng sinh viên ban đầu vào trường? Nguyên nhân ảnh hưởng tới số lượng sinh viên ra trường? Yếu tố nào quyết định nhiều tới lượng sinh viên ra trường Đó cũng chính là vấn đề mà trường Đại học Thủy Lợi đặt mục tiêu

và muốn giải quyết

Để làm sáng tỏ điều đó, trong phạm vi của bản luận văn này, tôi đã thu thập

số liệu sinh viên trường Đại học Thủy Lợi Hà Nội do phòng Quản lý và Công tác sinh viên cung cấp và sử dụng “phương pháp phân tích sự kiện dùng đánh giá các biến động trong quá trình học tập của sinh viên trường Đại học Thủy Lợi Hà Nội”

Luận văn trình bày bốn nội dung cơ bản:

1 Trình bày về phân tích sống sót, hàm sống sót, hàm nguy cơ và mối liên

hệ giữa chúng

2 Xây dựng mô hình Cox

3 Sử dụng phần mềm R vào các mô hình tham số, phi tham số của phân tích sống sót

4 Phân tích số liệu về sinh viên trường Đại học Thủy Lợi Hà Nội

Trang 7

Để thể hiện nội dung đó, luận văn được chia thành ba chương:

Chương 1 (Phân tích sống sót): Trong chương này, tác giả sẽ đưa ra những vấn đề trong phân tích sống sót, cách ước lượng cho mô hình tham số, phi tham số của phân tích sống sót

Chương 2 (Mô hình Cox): Đối với chương này, tác giả trình bày mô hình Cox, tìm hệ số của mô hình bằng phương pháp hợp lý từng phần và kiểm định lại

mô hình

Chương 3 (Thực nghiệm phân tích dữ liệu sinh viên trường Đại học Thủy Lợi Hà Nội bằng phương pháp phân tích sống sót): Chương này, tác giả ứng dụng các mô hình tham số, phi tham số của phân tích sống sót dựa trên phần mềm thống

kê R vào số liệu sinh viên Đại học Thủy Lợi để đưa ra kết quả của bản luận văn

Trang 8

NộI DUNG CHƯƠNG 1 PHÂN TÍCH SốNG SÓT 1.1 Giới thiệu chung

Trong nghiên cứu khoa học, và đặc biệt là y học và kĩ thuật, các nhà nghiên cứu muốn tìm hiểu ảnh hưởng đến các biến phụ thuộc mang tính thời gian Ởđây việc theo dõi hay mô tả các biến thứ bậc như sống hay chết, hay đánh giá ảnh hưởng của một thuật điều trị hay một yếu tố nguy cơ tuy quan trọng và có ý nghĩa lâm sàn nhất định nhưng cái quan trọng hơn là thời gian dẫn đến việc sự kiện xảy ra Và thời gian này giữa các bệnh nhân là khác nhau

Mô hình chính để thể hiện mối liên hệ giữa thời gian dẫn đến sự kiện xảy ra và

các yếu tố nguy cơ là mô hình có tên là “survival analysis” dịch là phân tích sống sót (PTSS) hay phân tích sự kiện hay phân tích biến cố

Ví dụ khi so sánh hai phương pháp điều trị của các bệnh có tần số tử vong cao như bệnh AIDS, các bệnh ung thư Nếu mô hình phân tích như phân tích hồi qui logistic, chỉ để ý đến biến kết cục (sống/chết hoặc khỏi bệnh/không khỏi bệnh) mà không quan tâm đến yếu tố thời gian thì đôi khi không tìm thấy sự khác biệt giữa hai phương pháp điều trị vì tỉ lệ tử vong gần như nhau, nhưng thời gian dẫn đến tử vong ở hai nhóm có thể khác nhau Một ví dụ khác, khi so sánh hai loại kháng sinh điều trị bệnh thương hàn, tỉ lệ khỏi bệnh của hai loại kháng sinh có thể như nhau nhưng thời gian cắt sốt của hai nhóm có thể khác nhau, vì vậy chúng ta phải sử dụng mô hình PTSS thì mới thấy sự khác biệt này Như vậy mô hình nghiên cứu

mô tả kết cục là biến nhị phân (sống/chết-hết sốt/còn sốt) tuy quan trọng nhưng không chính xác

Một ưu điểm của PTSS là xử lý được các trường hợp đối tượng nghiên cứu bỏ cuộc giữa chừng (như mất dấu theo dõi, ngưng điều trị do tác dụng phụ của thuốc hoặc tử vong do bệnh lý khác ) Trong mô hình phân tích này các đối tượng còn sống kể cả đối tượng bỏ cuộc được gọi là censored hoặc sự kiện chưa xảy ra Các đối tượng tử vong hoặc hết sốt (ví dụ trong nghiên cứu bệnh thương hàn) được gọi

Trang 9

là events hoặc sự kiện đã kết thúc Và sự phân bố thời gian sống sót được gọi là thời gian thất bại hay thời gian sự kiện

Phép ước tính thường được dùng để PTSS được gọi là ước lượng Meier (1958) Phép ước tính này giúp ta tính được xác suất sống sót tích lũy tại các mốc thời gian khác nhau Nếu muốn so sánh sự khác biệt giữa hai nhóm điều trị, dùng kiểm định Log-rank, bằng cách so sánh hai hàm xác suất tích lũy của hai nhóm Và người ta sử dụng kiểm định Log-rank trong phân tích đơn biến, còn phân tích đa biến thì ta tiến hành bởi mô hình Cox (1972) để hiệu chỉnh các yếu tố nhiễu hoặc các hiệp biến

Kaplan-Tóm lại, phân tích sống sót (Survival analysis) dựa vào sự khác biệt thời gian sống sót giữa hai nhóm hoặc thời gian dẫn đến sự kiện xảy ra (chết, ung thư tái phát, hết sốt ) Phân tích này xử lý được khi đối tượng bỏ cuộc hoặc mất dấu theo dõi Dùng kiểm định Log rank trong phân tích đơn biến và mô hình Cox trong phân tích đa biến (hiệu chỉnh các yếu tố nhiễu hoặc các hiệp biến)

1.2 Kiểm duyệt và các loại kiểm duyệt

Để hiểu về phân tích sống sót, trước hết ta cần hiểu về “kiểm duyệt” Kiểm duyệt xảy ra khi có một quan sát không đầy đủ do một số nguyên nhân ngẫu nhiên

Nguyên nhân của việc dẫn đến kiểm duyệt phải độc lập với sự kiện quan tâm

Có ba tình huống kiểm duyệt: là kiểm duyệt phải, kiểm duyệt trái và kiểm duyệt trong khoảng Trong đó kiểm duyệt phải là loại phổ biến nhất

 Kiểm duyệt phải xuất hiện khi chúng ta không hề biết khi nào đối tượng sẽ chết mà chỉ biết họ còn sống tại thời điểm chúng ta kết thúc nghiên cứu và thời gian sống của họ được kéo dài hơn thời gian trong nghiên cứu Thời gian như vậy được gọi là thời gian kiểm duyệt Thời gian kiểm duyệt chỉ ra cho ta thấy rằng thời gian quan sát đã được cất trước khi sự kiện quan tâm xảy ra Diều này có thể bị ảnh hưởng bởi các đối tượng nghiên cứu là không hợp tác, từ chối để được ở lại hoc tập, chết vì nguyên nhân khác độc lập với nguyên nhân quan tâm, hoặc mất liên lạc với

họ ở giữa đường khi đang quan sát

Hầu hết các phần trong luận văn áp dụng kiểm duyệt phải

Trang 10

 Kiểm duyệt trái ít xuất hiện hơn Điều này xảy ra khi các sự kiện quan tâm

đã xảy ra vào thời điểm quan sát, nhưng người ta chưa biết chính xác khi nào Ví dụ

về kiểm duyệt trái bao gồm:

- Nhiễm một căn bệnh lây truyền qua đường tình dục như HIV / AIDS;

- Khởi đầu của một căn bệnh trước khi có triệu chứng như ung thư, và

- Thời gian mà thanh thiếu niên bắt đầu uống rượu, sau đó lãng quên

 Kiểm duyệt trong khoảng là loại kiểm duyệt xuất hiện khi thời gian chính xác sự kiện xảy ra là không biết chính xác, nhưng một khoảng thời gian ranh giới xảy ra sự kiện thì được biết đến Nếu khoảng thời gian rất ngắn, người ta thường bỏ qua hình thức kiểm duyệt Ví dụ về khoảng thời gian kiểm duyệt là nhiễm một căn bệnh lây truyền qua đường tình dục như HIV / AIDS với kiểm tra thường xuyên (ví

dụ như hàng năm)

Phần này được trích dẫn trong [1], [7]

1.3 Hàm sống sót và hàm nguy cơ

Hầu hết trong phân tích thống kê, ta thường quan tâm tới hàm mật độ xác suất

và hàm phân phối tích lũy của biến ngẫu nhiên Mặc dù chúng là quan trọng, nhưng trong phân tích sự tồn tại ngoài hai hàm đó ra có hai hàm được nhấn mạnh hơn đó là

hàm sống sót và hàm nguy cơ

1.3.1 Hàm sống sót

 Định nghĩa Nếu 𝑇 là thời điểm thất bại, thì hàm sống sót 𝑆(𝑡) = 𝑝(𝑇 > 𝑡) là xác suất mà đối tượng còn sống sót đến thời điểm 𝑡 Nó được định nghĩa trên miền 𝑡 ∈ [0, ∞),

Trang 11

 Ước lượng hàm sống sót Chúng ta có thể ước lượng hàm sống sót qua dữ liệu quan sát Và có hai phương pháp chính có thể thực hiện điều đó

 Tham số Nếu bạn có một mô hình tham số xác định đầy đủ cho 𝑇 với các tham số 𝜃, thì ước lượng 𝑆 (𝑡) theo ước lượng 𝜃 Tham số có thể được ước lượng bằng phương pháp tiêu chuẩn, chẳng hạn như ước lượng hợp lý cực đại

 Phi tham số Nếu ta không thể giải thích cho một mô hình tham số thì ta có thể sử dụng phương pháp phi tham số, chẳng hạn như sử dụng ước lượng Kaplan-Meier để ước lượng cho 𝑆(𝑡)

𝑆 𝑡 = exp −𝑕(𝜏)𝑑𝜏

𝑡 0

Trang 12

𝑆 𝑡 ⇒ −𝑕 𝑡 =

1

𝑆 𝑡

𝑑𝑆 𝑡 𝑑𝑡

𝑆 𝑡 = exp −𝑕(𝜏)𝑑𝜏

𝑡

0

Lưu ý rằng nếu 𝑕 𝑡 = 𝑕 = 𝑐𝑜𝑛𝑠𝑡, ∀ 𝑡 ≥ 0 thì 𝑆 𝑡 = exp{−𝑕𝑡}

Nếu 𝑋 ~ exp(𝜆)thì 𝑝 𝑋 ≤ 𝑥 = 1 − exp −𝜆𝑥 → 𝑆 𝑡 = exp −𝜆𝑡 → 𝑕 𝑡 =

𝜆

Tính chất

 𝑕(𝑡) ≥ 0∀𝑡 ≥ 0

 𝑕 𝑡 𝑑𝑡 = ∞0∞Trong tính chất hai, 𝑕 𝑡 𝑑𝑡 = 𝐻 < ∞ → 𝑆 ∞ = 𝑒0∞ −𝐻 > 0, do 𝑕(𝑡) không là xác suất nên 𝑕(𝑡) > 1

Hình ảnh của hàm nguy cơ

 𝑕(𝑡)là hằng số

Trang 13

Các hàm thường gặp trong phân phối sống sót

𝑓(𝑡) 𝜆 exp(−𝜆𝑡) 𝜆𝜅𝑡exp 𝜆(1 − 𝜅𝑡)/ log 𝜅 𝜆𝜅𝑡𝜅−1exp(−𝜆𝑡𝜅) 𝜆𝜅𝑡𝑘−1/(1 + 𝜆𝑡𝜅)2𝐹(𝑡) 1 − exp(−𝜆𝑡) 1 − exp 𝜆(1 − 𝜅𝑡)/ log 𝜅 1 − exp(−𝜆𝑡𝜅) 1 − 1/1 + 𝜆𝑡𝜅

Trang 14

Các mô hình quan trọng nhất và sử dụng rộng rãi trong phân tích sống sót phân bao gồm phối mũ, phân phối Weibull, phân phối log-normal, log-logistic và phân phối gamma

Ta sẽ xem xét hai mô hình là phân phối mũ và Weibull Phân phối mũ là phân phối đơn giản và dễ dàng để xử lý với hàm mật độ

𝑓 𝑡, 𝜆 = 𝜆𝑒−𝜆𝑡 (𝜆, 𝑡 > 0) Còn phân phối Weibull là một sự tổng quát của phân phối mũ và cho phép bao gồm nhiều loại hình dạng, với hàm mật độ:

𝑓 𝑡, 𝑚, 𝜂 =𝑚

𝜂

𝑡𝜂

𝑚 −1

𝑒−

𝑡 𝜂

𝑚 −1

𝑒−

𝑡−𝛾 𝜂

𝑚

𝑚, 𝑡, 𝜂, 𝛾 > 0 (2) Theo công thức (1), cho 𝑚 = 1 thì hàm mật độ xác suất Weibull là hàm mật độ của phân phối mũ với 𝜆 = 1/𝜂 và ta không thể quan sát bất kỳ lần thất bại nào trước khi thời gian ngưỡng (𝑡 < 𝛾) hoặc không có cá nhân nào chết trước thời gian này Nên phân phối Weibull hoàn toàn bao gồm các phân phối mũ do đó ta sẽ thảo luận về mô hình Weibull Phân phối Weibull được sử dụng rộng rãi trong độ tin cậy

và kỹ thuật y sinh vì nó phù hợp với dữ liệu và dễ xử lý

 Với 𝑚là tham số hình dạng, coi 𝑡là thời gian thất bại thì phân phối Weibull đưa

ra đưa ra một phương pháp mà tỷ lệ thất bại là tỷ lệ thuận với thời gian 𝑡

- Nếu 𝑚 > 1thì tỷ lệ thất bại tăng theo thời gian Điều này khẳng định sẽ xảy

ra một quá trình lão hóa hay có nhiều khả năng thất bại trong thời gian đó

- Nếu 𝑚 = 1: tỷ lệ thất bại không đổi theo thời gian Điều đó cho thấy sự kiện

bên ngoài ngẫu nhiên đang gây ra tỷ lệ tử vong

- Nếu 𝑚 < 1: tỷ lệ thất bại giảm theo thời gian

 Và về hình dáng thì hàm mật độ Weibull thay đổi đáng kể với giá trị của𝑚

0 < 𝑚 < 1: hàm mật độ giảm nghiêm ngặt, tiến ra vô cùng

𝑚 = 1: hàm mặt độ tiến về 0

Trang 15

𝑚 > 1: hàm mật độ tiến đến 1/λ

Ước lượng hợp lý cực đại (MLE) rất nổi tiếng, nhưng nó không được thể hiện một cách rõ ràng trong dạng đóng Theo đó, một số tính toán lặp đi lặp lại phương pháp được sử dụng Menon(Menon (1963)) cung cấp một ước lượng đơn

giản của 1/ 𝑚 ,là một ước tính phù hợp của 1 / 𝑚,với một sự thiên vị có xu hướng

biến mất khikích thước mẫu tăng lên Sau đó, Cohen (Cohen, 1965; Cohen và Whitten, 1988) trình bày một biểu đồ thực tế hữu ích để có được một xấp xỉ tốt đầu tiên cho các tham số hình dạng đang sử dụng mà các hệ số biến đổi Toshinari

Kamakura sự phân bố Weibull là một hàm của các tham số hình dạng 𝑚, tức là, nó

không phụ thuộc vào 𝜂

𝑏 −𝑏 𝑒

𝑏𝑡exp 𝑎

𝑏 1 − 𝑒𝑏𝑡 = 𝑎𝑒𝑏𝑡 exp 𝑎

𝑏 1 − 𝑒𝑏𝑡 = 𝑕(𝑡)𝑆(𝑡)

Vậy chứng tỏ hàm mật độ cho 𝑡 là tích của hàm nguy cơ và hàm sống sót, như:

𝑓 𝑡𝑖 = 𝑕(𝑡𝑖)𝑆(𝑡𝑖), điều này có thể được hiểu như xác suất mà không sự kiện nào xảy ra cho đến thời điểm 𝑡𝑖 (𝑆(𝑡𝑖)), số thất bại tức thời ở thời điểm 𝑡𝑖 (𝑕(𝑡𝑖)) Tổng

Trang 16

hàm hợp lý cho các tham số 𝜃 của mô hình cho 𝑇 là 𝑓 𝑡 𝜃 = 𝑛𝑖=1𝑓(𝑡𝑖) Điều này

có thể được cực đại thông qua tính toán hoặc ước lượng để tìm MLE của 𝜃 hoặc gắn vào một phân phối quen thuộc

𝑖=1

1.3.4 Mô hình phi tham số

Chúng ta giả định rằng các thiết lập dữ liệu quan sát bao gồm cái chết hoặc thời gian chết 𝑡𝑖 và chỉ số kiểm duyệt 𝛿𝑖, 𝑖 = 1,2, … , 𝑛 δ là chỉ trường hợp đối

tượng chết và không cho kiểm duyệt Chương trình kiểm duyệt là một khái niệm quan trọng trong phân tích tồn tại mà ta có thể quan sát một phần thông tin liên quan đến biến ngẫu nhiên tồn tại Điều này là do một số hạn chế như mất theo dõi, chết, chấm dứt nghiên cứu, và những trường hợp khác Phương pháp Kaplan-Meier (Kaplan và Meier, 1958) hiện đang là tiêu chuẩn để ước tính hàm sống sót phi tham

số Đối với trường hợp của một mẫu mà không có bất kỳ quan sát kiểm duyệt thì dự toán chính xác tương ứng vào nguồn gốc từ sự phân bố thực nghiệm Các bộ dữ liệu

có thể được sắp xếp ở dạng bảng:

Bảng 1: Dữ liệu thời gian thất bại

Thời gian thất bại 𝑡1𝑡2 … 𝑡𝑖 …𝑡𝑘

Số đối tượng thất bại 𝑑1𝑑2 … 𝑑𝑖 …𝑑𝑘

Số đối tượng có nguy cơ 𝑛1𝑛2 … 𝑛𝑖 …𝑛𝑘

Trang 17

Ở đây 𝑡1 ≤ 𝑡2 ≤ ⋯ ≤ 𝑡𝑁, ứng với mỗi 𝑡𝑖, có 𝑛𝑖 là số “nguy cơ” hay số đối tượng nghiên cứu ngay trước thời gian 𝑡𝑖 và 𝑑𝑖 là số ca tử vong ngay tại thời điểm 𝑡𝑖 Theo

kí hiệu này ước lượng Kaplan-Meier là:

𝑆 𝑡 = 𝑛𝑖 − 𝑑𝑖

𝑛𝑖

𝑡𝑖<𝑡Hay ta nói ước tính Kaplan-Meier của 𝑆(𝑡) là 𝑆 𝑡 = 𝑆 𝑡− 𝑝 (𝑇 > 𝑡|𝑇 ≥ 𝑡) Khi không có sự kiện xảy ra thì 𝑝 𝑇 > 𝑡 𝑇 ≥ 𝑡 = 1

Khi có một hay nhiều sự kiện xảy ra thì

𝑝 𝑇 > 𝑡 𝑇 ≥ 𝑡 =𝑛(𝑡

−) − 𝑑(𝑡)𝑛(𝑡−)

1.3.5 So sánh mô hình tham số và phi tham số

Lợi ích của việc giả định một hình thức tham số cho hàm nguy cơ, hàm sống sót hay hàm mật độ là 𝑕 (𝑡) và 𝑆 (𝑡) là cả hai đều quy định về 𝜃, ước tính trơn tru của hai hàm có thể được nhận thấy được sức mạnh từ các lần thực nghiệm, và kiểm tra những khác biệt về thông số mạnh mẽ hơn Nhược điểm là nó rất dễ dàng để quá chắc chắn của mô hình của bạn, để vẽ kết luận không phù hợp bằng cách bóp méo các tín hiệu từ một số thời gian cho người khác.Thay thế cho các phương pháp mô

tả và thử nghiệm giả thuyết là sử dụng phương pháp phi tham số, nó rất phổ biến trong phân tích tồn tại Để khắc phục nhược điểm thì phương pháp bán tham số thực hiện một số (kiểm chứng) giả định và cho phép mô hình hóa các tác động của biến

số

Phần này được trích dẫn trong [7]

1.4 Kiểm định của các mô hình 1.4.1 Ƣớc lƣợng Kaplan-Meier của hàm sống sót 1.4.1.1 Giới thiệu

Ước lượng Kaplan-Meier của hàm sống còn là một phương pháp thực nghiệm hay phương pháp phi tham số của ước lượng 𝑆 (𝑡) từ không hay kiểm duyệt phải dữ liệu Nó rất phổ biến vì nó đòi hỏi những giả định rất yếu và chưa sử dụng nội dung

Trang 18

thông tin của dữ liệu quan sát đầy đủ và dữ liệu kiểm duyệt phải Nó đến như tiêu chuẩn trong hầu hết các phần mềm thống kê (như R) và cũng có thể tính bằng tay

1.4.1.2 Tác giả Kaplan và Meier

Cả hai đều là sinh viên nổi tiếng John Tukey Năm 1952, Paul Meier bắt đầu Nghiên cứu thời gian mắc bệnh ung thư tại trường Đại học Johns Hopkins Chicago, Hoa Kỳ Edward Kaplan sau đó bắt đầu làm việc trên cuộc đời của ống chân không trong bộ lặp của các loại cáp điện thoại tiểu đại dương tại phòng thí nghiệm Bell Họ độc lập gửi nghiên cứu của họ về thời gian tồn tại trên tạp chí của Hiệp hội thống kê Mỹ, có biên tập viên khuyến khích họ gửi một giấy chung, mà họ

đã làm vào năm 1958: Kaplan, EL và P Meier (1958) Ước lượng phi tham số từ quan sát không đầy đủ J Am Star Assoc., 53:457-481 Google Scholar có 20.000 trích dẫn cho bài viết này

Ví dụ, một tập dữ liệu nhỏ có thể bắt đầu với 10 trường hợp Giả sử có1 chết vào ngày thứ 3, đối tượng 2 và 3 chết vào ngày 11 và đối tượng 4 bị mất theo dõi (kiểm duyệt) vào ngày 9 Dữ liệu lên đến 11 ngày sẽ được như sau

Trang 19

Số phụ nữ lúc bắt đầu thời điểm (𝑛𝑡)

Số phụ nữ ngưng sử dụng (𝑑𝑡)

Xác suất ngưng sử dụng 𝑕(𝑡)

Xác suất còn sử dụng (𝑝𝑡)

Xác suất tích lũy 𝑆(𝑡)

Cột 4 là xác suất nguy cơ trong một khoảng thời gian, 𝑕 𝑡 được ước tính bằng cách lấy 𝑑𝑡 chia cho 𝑛𝑡 Ví dụ trong khoảng thời gian 10 – 18 có 1 phụ nữ ngưng sử dụng nên xác suất nguy cơ là 1/18=0.0555 Xác suất này được ước tính cho từng khoảng thời gian

Cột 5 là xác suất còn sử dụng cho một khoảng thời gian 𝑝𝑡 = 1 − 𝑕(𝑡)

Trang 20

Cột 6 là xác suất tích lũy còn sử dụng y cụ Đây là cột số liệu quan trọng nhất trong phân tích Vì tính chất tích lũy cho nên cách ước tính được nhân từ hai hay nhiều xác suất Ví dụ trong khoảng thời gian 10 – 18, xác suất tích lũy được ước tính bằng cách lấy xác suất còn sử dụng trong thời gian 0 – 9 nhân với xác suất còn

sử sụng trong khoảng thời gian 10 – 18, tức là 1.000 x 0.9445=0.9445 Ý nghĩa của ước tính này là xác suất còn sử dụng cho đến thời gian 9 tuần là 94.45%

Dựa vào R, ta có biểu đồ đường cong sống sót sau:

Trong biểu đồ này, trục hoành là thời gian (đơn vị là tuần), trục tung là xác suất tích lũy còn sử dụng y cụ Đường chính giữa là xác suất tích lũy 𝑆 (𝑡), hai đường nét đứt là khoảng tin cậy 95% của 𝑆 (𝑡) Qua kết quả phân tích này ta thấy xác suất sử dụng y cụ đến tuần 107 khoảng 25%

Trang 21

Phân tích Kaplan-Meier chỉ áp dụng cho một nhóm đối tượng và mục đích chính là ước lượng 𝑆(𝑡) cho từng khoảng thời gian Nhưng trong thực tế, nhiều nghiên cứu có mục đích so sánh 𝑆(𝑡) giữa hai hay nhiều nhóm khác nhau

Nếu ta sử dụng phương pháp trên thì ta có thể phân tích đơn giản là ước lượng 𝑆(𝑡) cho từng nhóm trên từng khoảng thời gian rồi so sánh hai nhóm bằng kiểm định thống kê thích hợp Song, phương pháp phân tích này có nhược điểm là không cung cấp cho chúng ta một bức tranh chung của tất cả các khoảng thời gian Ngoài

ra còn rắc rối nữa là so sánh giữa hai nhóm trong nhiều khoảng thời gian khác nhau làm cho kết quả rất khó diễn dịch Vậy để khắc phực nhược điểm của phương pháp Kaplan-Meier, một phương pháp phân tích được phát triển có tên là Log-rank test (kiểm định Log-rank)

1.4.2 Kiểm định Log-rank 1.4.2.1 Giới thiệu chung

Kiểm định Log-rank là một kiểm định giả thuyết để so sánh sự phân phối sống sót của hai mẫu Nó là một phương pháp phân tích phi tham số Nó được sử dụng rộng rãi trong các thử nghiệm lâm sàn để chứng minh hiệu quả của phương pháp điều trị mới dựa trên việc đo thời gian đển khi xảy ra sự kiện (chẳng hạn như thời gian điều trị ban đầu cho một cơn đau tim) Kiểm định này đôi khi được gọi là kiểm định Mantel-Cox, được đặt tên sau khi Nathan Mantel và David Cox Kiểm định Log-rank cũng có thể được xem như là một thời gian phân tầng kiểm định Cochran-Mantel-Haenszel Kiểm định Log-rank lần đầu tiên được đề xuất

bởi Nathan Mantel và được đặt tên là kiểm định Log-rank bởi Richard và Julian

Peto Kiểm định thống kê Log-rank so sánh ước tính của các hàm nguy cơ của hai nhóm tại mỗi sự kiện thời gian quan sát Nó được xây dựng bằng cách tính toán số lượng quan sát và dự đoán các sự kiện trong mỗi nhóm tại mỗi sự kiện thời gian quan sát và sau đó thêm để có được một bản tóm tắt tổng thể trên tất cả các điểm thời gian, nơi có một sự kiện

Phần này được trích dẫn trong [6]

Trang 22

1.4.2.2 Kiểm định Log-rank

Ta chia thời gian ra làm k khoảng 𝑡1, 𝑡2, … , 𝑡𝑘, mà khoảng thời gian 𝑡𝑗(𝑗 =

1, … , 𝑘) phản ánh thời điểm j khi một hay nhiều đối tượng của hai nhóm cộng lại

Gọi 𝑛1𝑗, 𝑛2𝑗 tương ứng là số đối tượng nguy cơ (chưa có một sự kiện hoặc được kiểm duyệt) vào lúc bắt đầu của khoảng thời gian 𝑡𝑗 và 𝑛𝑗 = 𝑛1𝑗 + 𝑛2𝑗 là tổng

số đối tượng của hai nhóm lúc bắt đầu của khoảng thời gian 𝑡𝑗 Gọi 𝑜𝑖𝑗(𝑖 = 1, 2) là số quan sát các sự kiện của nhóm i xảy ra trong khoảng thời gian 𝑡𝑗 ; 𝑜𝑗 = 𝑜1𝑗 + 𝑜2𝑗 là sự kiện xảy ra trên cả hai nhóm sau thời gian 𝑡𝑗 Giả thiết hai nhóm có sự tồn tại như nhau và cùng nguy cơ Với 𝑗 =

Ngoài ra chúng ta có thể ước tính tổng số sự kiện xảy ra của nhóm một và hai

kê 𝛼 = 0,05), từ đó chúng ta có thể kết luận độ khác biệt về 𝑆(𝑡) giữa hai nhóm

1.4.2.3 Hạn chế của kiểm định Log-rank

Kiểm định log-rank là phương pháp cho phép chúng ta so sánh 𝑆(𝑡) giữa hai hay nhiều nhóm Nhưng trong thực tế, 𝑆(𝑡) hay hàm nguy cơ có thể không chỉ khác nhau giữa các nhóm mà còn chịu sự chi phối của các yếu tố khác Vấn đề đặt ra là

Trang 23

làm sao ước tính mức độ ảnh hưởng của các yếu tố nguy cơ đến 𝑕(𝑡) và kết hợp các biến cố liên tục vào phân tích sự tồn tại

Kiểm tra log-rank không thể được sử dụng để khám phá (và điều chỉnh cho) những tác động của các biến số, như tuổi tác và đối tượng, khu vực đến sự tồn tại từ

đó chúng ta dự đoán được và có những tác động kịp thời Phương pháp hồi quy được giới thiệu bởi Cox được sử dụng để điều tra một số biến tại một thời điểm Nó còn được gọi là phân tích hồi quy nguy cơ theo tỷ lệ (proportional hazards regression analysis)

Phần này được trích dẫn trong [1]

1.4.3 Giới thiệu sơ bộ về mô hình Cox

Mô hình Cox là một kỹ thuật thống kê để khám phá mối quan hệ giữa sự sống còn của đối tượng với một số biến giải thích Mô hình Cox cung cấp ước lượng hiệu quả điều trị tỷ lệ sống sau khi điều chỉnh biến giải thích Ngoài ra nó còn cho phép

ta ước lượng nguy cơ, rủi ro của cái chết của một cá nhân và đưa ra triệu chứng của

họ Phân tích hồi quy Cox sẽ mang lại một phương trình cho các nguy cơ như một hàm của một số biến giải thích

Giải thích mô hình Cox liên quan tới việc kiểm tra các hệ số của mỗi biến giải thích Nếu các hệ số của biến giải thích dương cho ta biết nguy hiểm là cao hơn dẫn đến triệu chứng là xấu đi Ngược lại nếu các biến giải thích có hệ số âm cho ta biết bệnh nhân đang tốt lên Mô hình Cox được dựa trên một mô hình hóa cách tiếp cận

để phân tích dữ liệu tồn tại Mục đích của mô hình là tìm hiểu tác động của một số biến đến sự sống còn Khi nó được sử dụng để phân tích sự sống còn của bệnh nhân trong một thử nghiệm lâm sàng mô hình cho phép chúng ta cô lập những ảnh hưởng của điều trị từ các tác động của các biến số khác Mặt khác sử dụng mô hình có thể cải thiện dự đoán hiệu quả điều trị bằng cách thu hẹp khoảng tin cậy

Với 𝑋1, , 𝑋 𝑘 là 𝑘 biến nguy cơ (hay biến giải thích),𝑋 =

𝑋1, 𝑋2, … , 𝑋𝑘 có thể liên tục hay không liên tục Mô hình Cox phát biểu rằng :

𝑕 𝑡, 𝑋 = 𝑕0 𝑡 exp⁡(𝑏1𝑋1 + 𝑏2𝑋2 + ⋯ + 𝑏𝑘𝑋𝑘)

𝑕(𝑡) là hàm nguy cơ tại thời điểm 𝑡, 𝑕0(𝑡) là mối nguy cơ cơ bản tại thời điểm 𝑡 (hay là hàm nguy cơ cơ bản tại thời điểm 𝑡) khi 𝑋1 = 𝑋2 = ⋯ = 𝑋𝑘 = 0, đại

Trang 24

diện về mối nguy cơ cho một đối tượng Còn các hệ số 𝑏1, … , 𝑏𝑘 là các hệ số ảnh hưởng liên quan tới 𝑋𝑗, được ước tính bằng Cox hồi quy, và có thể được hiểu một cách tương tự như của nhiều hồi quy logistic Ở đây mức độ ảnh hưởng của các yếu

tố nguy cơ Xj thường được thể hiện bằng tỉ số nguy cơ (hazard radio) HR, hệ số expβj chính là HR khi cho Xj tăng một đơn vị

𝐻𝑅 = 𝑕(𝑡, 𝑋

∗)

𝑕(𝑡, 𝑋)

𝑋 = 𝑋1, 𝑋2, … , 𝑋𝑘 ; 𝑋∗= 𝑋1∗, 𝑋2∗, … , 𝑋𝑘∗Nguy cơ của đối tượng chia cho nguy cơ của một đối tượng khác Giả sử

𝑕(𝑡, 𝑋∗) > 𝑕(𝑡, 𝑋), 𝑋∗ là nhóm có nguy cơ lớn hơn; 𝑋 là nhóm có nguy cơ nhỏ hơn

Giả sử yếu tố nguy cơ là liên tục, sau đó số lượng điểm kinh nghiệm (𝑏𝑖) là nguy cơ tương đối tức thời của một sự kiện, bất cứ lúc nào, cho một cá nhân với sự gia tăng của một trong các giá trị của biến so với đối tượng khác, cho cả đối tượng giống nhau trên tất cả các biến số khác

Hàm nguy cơ theo tỷ lệ có thể được coi là một tỷ lệ của các hàm nguy cơ, vì vậy mô hình nguy cơ hồi quy theo tỷ lệ nguy cơ có thể được coi như hàm nguy cơ tương đối Mặc dù không có mô hình xác suất cụ thể được lựa chọn để đại diện cho thời gian tồn tại, tỷ lệ thuận với nguy cơ suy thoái không có một giả định quan trọng: hàm nguy cơ cho bất kỳ đối tượng là một tỷ lệ cố định có tính chất nguy cơ cho bất kỳ đối tượng khác Tỉ lệ nguy cơ chỉ phụ thuộc trên các biến dự đoán và

Trang 25

không phụ thuộc vào thời gian Giả định này có nghĩa là nếu một biến nguy cơ tăng gấp đôi nguy cơ của sự kiện trên một ngày, nó cũng làm tăng gấp đôi nguy cơ của

sự kiện trên bất kỳ ngày nào khác

Mô hình nguy cơ theo tỷ lệ có thể được sử dụng cho các biến rời rạc hay liên tục của các sự kiện thời gian và có thể kết hợp biến số phụ thuộc thời gian (biến số

có giá trị có thể thay đổi trong thời gian quan sát)

Mô hình nguy cơ theo tỷ lệ là tương tự như một mô hình hồi quy và cho phép

sự khác biệt giữa thời gian tồn tại của các nhóm cụ thể của bệnh nhân được thử nghiệm trong khi cho phép các yếu tố khác Trong mô hình này, phản ứng (phụ thuộc) biến là 'rủi ro' Nguy cơ là xác suất tử vong (hoặc trải qua những sự kiện trong câu hỏi) cho rằng bệnh nhân đã sống sót lên đến một điểm nhất định trong thời gian, hoặc nguy cơ tử vong vào thời điểm đó Và để hiểu rõ hơn về mô hình Cox ta sẽ tìm hiểu tiếp chương 2

Phần này được trích dẫn trong [4], [7]

Trang 26

CHƯƠNG 2 MÔ HÌNH NGUY CƠ THEO Tỷ Lệ

2.1 Giới thiệu về mô hình nguy cơ theo tỷ lệ 2.1.1 Giới thiệu

Trong chương trước chúng ta đã được biết đến phân tích sống sót và các mô hình tham số, phi tham số của nó Mô hình phi tham số thì có ước lượng Kaplan – Meier, mô hình tham số thì có kiểm định Log – rank, còn một loại mô hình bao gồm

cả tham số và phi tham số hay gọi là mô hình bán tham số đó là “Cox model” hay

“the Cox proportional hazards model”, ta dịch là mô hình Cox (hay mô hình nguy

cơ theo tỷ lệ (Cox PHM hay Coxph)

Mô hình này sẽ giúp chúng ta sẽ đi tìm hiểu hai vấn đề:

• Kết hợp các biến số liên tục vào phân tích sự tồn tại của đối tượng

• Phân tích tác động của các biến đến sự tồn tại

2.1.2 Tác giả mô hình Cox

David Roxbee Cox là nhà thống kê người Anh Ông sinh ngày 15 tháng 7 năm 1924 Cox nghiên cứu toán học tại trường Cao đẳng St John, Cambridge, là tiến sĩ năm 1949 từ Đại học Leeds, sau đó là Giáo sư thống kê tại Brikbeck College London

Ông đã có những đóng góp tiên phong và quan trọng trong lĩnh vực thống kê

và xác suất ứng dụng, trong đó nổi tiếng nhất là mô hình tỷ lệ nguy cở, được sử dụng rộng rãi trong việc phân tích các dữ liệu tồn tại

Ông đã có hơn 300 bài báo hay cuốn sách về một loạt các chủ đề, đã tư vấn cho chính phủ, đã được phong tước là hiệp sĩ vì những đóng góp cho khoa học, và ông nhận được nhiều học bổng cùng giải thưởng khoa học

Vào giữa khoảng thập niên 1970s, David R Cox, giáo sư thống kê học thuộc Đại học Imperial College (London, Anh) phát triển một phương pháp phân tích dựa vào mô hình hồi quy và bảng sống Phương pháp phân tích này sau này được gọi là

Mô hình Cox Mô hình Cox được đánh giá là một trong những phát triển quan trọng nhất của khoa học nói chung trong thế kỉ 20 Bài viết của ông giới thiệu tỷ lệ nguy

Trang 27

cơ và suy luận cho nó, các mô hình hồi quy và bảng sống, (1972, JRStat.Soc.B), đã được trích dẫn hơn 12.000 lần, theo google học giả

2.1.3 Mô hình Cox

Với 𝑋 là biến nguy cơ (hay biến giải thích),có thể liên tục hay không liên tục

Mô hình Cox phát biểu rằng :

Để xem lý do tại sao nó được gọi là Cox PHM, hãy xem xét hai đối tượng với các biến số tương ứng là 𝑋1, 𝑋2 Khi đó tỷ lệ nguy cơ của họ tại thời điểm 𝑡 là :

cơ của đối tượng có biến 𝑋2 Còn exp 𝛽(𝑥1 − 𝑥2) được gọi là tỷ lệ nguy cơ giữa

𝑋1, 𝑋2 Nếu 𝛽 = 0 thì tỷ lệ nguy cơ giữa các biến là 1, tức là các biến không ảnh hưởng đến sự sống còn Do đó chúng ta có thể sử dụng khái niệm về tỷ lệ nguy cơ

để kiểm tra nếu biến số ảnh hưởng sống còn

Tuy nhiên lưu ý rằng đây là một mô hình đó có thể là sai Có thể có một tương tác giữa biến số và thời gian

Ta đi xem xét hàm nguy cơ theo tỷ lệ trong các trường hợp sau :

• Một biến liên tục;

• Hai biến số liên tục;

a Một biến đơn liên tục Cho biến 𝑥 ∈ ℝ, tham số 𝛽 ∈ ℝ ta có hàm nguy cơ

Trang 28

𝑕 𝑡, 𝑥 = 𝑕0 𝑡 exp⁡(⁡𝛽𝑥)

Và hàm nguy cơ theo tỷ lệ cho hai đối tượng với hai biến 𝑥1, 𝑥2là exp 𝛽(𝑥1 −

𝑥2) Nếu 𝑥1 = 𝑥 + 1, 𝑥2 = 𝑥 thì tỷ lệ nguy cơ

𝑕 𝑡, 𝑥1

𝑕 𝑡, 𝑥2 = 𝑒

𝛽 → log𝑕 𝑡, 𝑥1

𝑕 𝑡, 𝑥2 = 𝛽

Do đó chúng ta có thể giải thích β như sự gia tăng trong 𝑙𝑜𝑔 của tỷ lệ nguy cơ

Ví dụ : Tuổi của người nghiện ma túy Cho 𝑥𝑖 là tuổi của đối tượng nghiện ma túy i khi bắt đầu kiểm duyệt và tỷ lệ nguy hiểm là:

𝑕 𝑡, 𝑥 = 𝑕0 𝑡 exp⁡(⁡−0,013𝑥) Như vậy, tỷ lệ nguy cơ về tuổi của người nghiện ma túy qua mỗi năm gấp

𝑒−0,013 = 0,99

b Hai biến số liên tục Cho hai biến độc lập (𝑥1, 𝑥2) ∈ ℝ2 (𝑥1, 𝑥2 không có sự tương tác), tham số (𝛽1, 𝛽2) ∈ ℝ2, hoặc tham số (𝛽1, 𝛽2, 𝛽12) ∈ ℝ3 nếu có sự tương tác giữa 𝑥1, 𝑥2

 Khi không có sự tương tác Hàm nguy cơ là 𝑕 𝑡, 𝑥1, 𝑥2 = 𝑕0 𝑡 exp(𝛽1𝑥1 + 𝛽2𝑥2) và

Tỷ lệ nguy cơ của hai đối tượng với các biến (𝑥11, 𝑥1), (𝑥22 , 𝑥2) :

Trang 29

Tổng quát cho Cox PHM ta có

2.1.5 Ƣớc lƣợng các tham số của Cox PHM

Với 𝛿𝑖 = 1 nếu đối tượng 𝑖 không bị kiểm duyệt, 𝛿𝑖 = 0 nếu đối tượng 𝑖 là kiểm duyệt phải, 𝑖 = 1,2, … , 𝑚, khi đó ta có mô hình hàm hợp lý tổng quát với tham

𝑚

𝑖=1log 𝑓 𝑡 𝛽, 𝑥 = 𝛿𝑖log 𝑕0 𝑡𝑖 +

𝑚

𝑖=1

𝛿𝑖𝛽𝑇𝑥 + exp 𝛽𝑇𝑥 log 𝑆0(𝑡𝑖) Chúng ta không thể cực đại hóa hàm này khi không có dạng xác định hàm nguy

cơ ban đầu Do đó ta sẽ xem xét hàm hợp lý từng phần Ở đây chúng taxác định tập nguy cơ ℛ(𝑡) là tập của tất cả các đối tượng 𝑖 với 𝑡𝑖 > 𝑡 tức là những người đã không chết hoặc đã qua kiểm duyệt

Nếu thời gian sống sót liên tục, chúng ta có thể hy vọng rằng tại bất kỳ điểm nào trong thời gian, chỉ có một đối tượng có thể ngay lập tức thất bại Tuy nhiên, vì hầu hết các quan sát là trong thực tế nên có khoảng thời gian bị kiểm duyệt

2.2 Hàm hợp lý từng phần 2.2.1 Hàm hợp lý từng phần cho lần thất bại là duy nhất

Trang 30

Ta ký hiệu 𝜓𝑖 = exp 𝛽𝑇𝑥𝑖 (đây là ký hiệu từ Collett, 1994, p 64), 𝜓𝑖là tỷ lệ thuận với tỷ lệ nguy hiểm cho đối tượng 𝑖 Hàm hợp lý từng phần cho 𝛽 là

ℒ𝑝 𝛽, 𝑥 = 𝜓𝑖

𝜓𝑗

𝑗 ∈ℛ(𝑡𝑖)

𝛿𝑖𝑚

𝑖=1

𝛿𝑖 có nghĩa rằng ta chỉ xem xét sự đóng góp từ cái chết, số lần thất bại, không từ

số lần kiểm duyệt phải Tử số là tỷ lệ thuận với nguy hiểm cho đối tượng 𝑖, một trong đó đã thất bại tại thời điểm 𝑡𝑖 Mẫu số là tỷ lệ thuận với tổng số nguy cơ của tất cả các đối tượng (bao gồm đối tượng 𝑖) có nguy cơ thất bại tại thời điểm 𝑡𝑖 Vì vậy, phân số được xem như là xác suất đối tượng 𝑖 so với một vài đối tượng khác thất bại tại thời điểm 𝑡𝑖

Có hai lý do tại sao nó là hợp lý từng phần:

• Nó không phải là hợp lý toàn phần cho 𝛽;

• Nó không thực sự sử dụng các dữ liệu đầy đủ: thực tế thời gian xảy ra sự kiện

là không quan trọng, chỉ xếp hạng của họ Nếu đối tượng 𝑖, 𝑗 và 𝑘 thất bại tương ứng ở lần 1, 2 và 3, điều này sẽ cung cấp cho các ước lượng tham số tương tự như nếu họ đã thất bại ở lần 100, 300, 1500, tương ứng

Vì thế, ít mạnh mẽ hơn một mô hình đầy đủ tham số Tuy nhiên, nó đòi hỏi giả định ít hơn và như vậy là mạnh hơn

2.2.2 Hàm hợp lý từng phần cho lần thất bại lặp đi lặp lại

Trường hợp khi hai hoặc nhiều đối tượng được ghi nhận là thất bại ở cùng thời gian là phức tạp hơn Hàm hợp lý từng phần chính xác cho 𝛽 được xem xét cuối cùng

Đầu tiên xem xét hai lần xấp xỉ Các ký hiệu sẽ được đơn giản nhất nếu chúng

ta sử dụng các ký hiệu sau đây:

 𝑡(𝑖) là đặt thời gian thất bại duy nhất thứ 𝑖 (ví dụ nếu bốn thất bại xảy ra tại lần 1, 1, 3, 3 thì 𝑡 1 = 1, 𝑡 2 = 3;

 𝐼 là tổng số thời gian thất bại duy nhất;

 𝒟(𝑡) là tập các đối tượng thất bại tại thời gian 𝑡

Có ba phương pháp xác định hàm hợp lý từng phận:

Trang 31

𝑖=13) Phương pháp chính xác (Exact method):

ℒ𝑝 𝛽, 𝑥 = 𝑗 ∈𝒟(𝑡 𝑖 )𝜓𝑗

Φ𝑞𝑞∈𝒬 𝑖

𝐼

𝑖=1Trong đó 𝒬𝑖 là tập tất cả 𝒟(𝑡(𝑖)) - bộ dữ liệu có thể được lựa chọn từ ℛ(𝑡(𝑖))

và Φ𝑞 là tích của 𝜓𝑗 với tất cả các 𝑗 của 𝒟(𝑡(𝑖)) – dữ liệu 𝑞

Ví dụ Giả sử các đối tượng có nhãn từ 1đến 5 là có nguy cơ tại thời điểm 𝑡(𝑖) trong ℛ(𝑡(𝑖)), trong số đó, các đối tượng từ 1 đến 3 thất bại tại thời điểm 𝑡(𝑖) Khi đó, hàm hợp lý từng phần của từng phương pháp có dang

Phương pháp Breslow

𝜓1𝜓2𝜓3(𝜓1 + 𝜓2 + 𝜓3 + 𝜓4 + 𝜓5)3Phương pháp Efron đưa ra

𝜓1𝜓2𝜓3(𝜓1+ 𝜓2 + 𝜓3+ 𝜓4 + 𝜓5) 2

Trang 32

Phương pháp Newton-Raphson là xác định, lặp đi lặp lại thủ tục Nó xác định bởi vì không có yếu tố ngẫu nhiên trong việc tìm kiếm các phương án tối ưu Nó được lặp đi lặp lại bởi vì nó bao gồm một loạt các bước lặp, với dự toán (hy vọng) nhận được tốt hơn ở mỗi lần lặp

Nói chung, nếu chúng ta có một véc tơ tham số 𝜃 của kích thước 𝑝 và muốn tìm

𝜃 ta cực đại hóa hàm 𝑙 𝜃 = 𝑙𝑜𝑔 (hàm hợp lý) (đăng nhập hàm hợp lý), thuật toán là:

Trang 33

 𝑙(𝜃) có thể được thay thế bởi log ℒ𝑝(𝜃)

 Trong trường hợp Cox PHM, chúng ta có thể viết 𝛽 thay vì 𝜃

Ví dụ:

Xem xét một biến 𝑥𝑖 liên tục, ứng với đối tượng 𝑖 Chúng ta có 9 đối tượng mắc bệnh đau tim; 𝑡𝑖 là thời gian chết của đối tượng 𝑖 trong thời gian theo dõi mắc bệnh, tính bằng ngày Dữ liệu là:

Để phù hợp với mô hình 𝑕 𝑡, 𝑥𝑖 = 𝑕0(𝑡)𝑒𝛽 𝑥𝑖 với các dữ liệu sử dụng hợp lý tối

đa Không có mối quan hệ trong thời gian tồn tại, vì vậy chúng tôi có thể sử dụng 𝑙𝑜𝑔 hàm hợp lý từng phần đơn giản nhất

𝑙 𝛽 = 𝛽 𝑥𝑖 − log 𝑒𝛽 𝑥𝑗

𝑗 ∈ℛ(𝑡(𝑖))

9

𝑖=1 9

𝑖=1

Trang 34

𝑖=1Mặc dù nhìn phức tạp nhưng chúng ta có thể dễ dàng tính toán chúng khi cho giá trị cụ thể của 𝛽 Nếu ta cho 𝑈 𝛽 = 𝑑𝑙(𝛽)/𝑑𝛽 và 𝐼 𝛽 = 𝑑2𝑙(𝛽)/𝑑𝛽2, công thức

Newton-Raphson đơn giản là

𝛽(𝑘+1)− 𝛽 𝑘 = 𝑈(𝛽 𝑘 )/𝐼(𝛽(𝑘)) Cho 𝛽(0) = 0, ta có 𝑈 0 = −2.51; 𝐼 0 = 77.13 Khi đó

𝐼 𝜃 𝑘 𝜃(𝑘+1)− 𝜃(𝑘) = 𝜉𝑈(𝜃(𝑘)) Với 𝜉 < 1 nhằm hạn chế kích thước của bước nhảy Điều này làm tăng số lần lặp cần thiết để đạt được giá trị mục tiêu

2.4 Kiểm định giả thuyết cho PHM

Có ba cách kiểm tra thường được sử dụng để giải bài toán kiểm định giả thuyết

𝐻0: 𝛽 = 0

𝐻1: 𝛽 ≠ 0 Cho mô hình 𝑕 𝑡, 𝑥𝑖 = 𝑕0 𝑡 exp(𝛽𝑥𝑖)

Trang 35

Nếu 𝐻0 đúng, 𝑧2~ 𝜒12 Giá trị lớn nhất của 𝑧2 chịu sự thay thế của giả thuyết

 Các số liệu thống kê (the score test statistic) là

 Tỷ lệ hợp lý (the likelihood ratio test statistic) là 𝐺 = 2 𝑙 𝛽 − 𝑙(0) Nếu 𝐺~𝜒12 thì 𝐻0 là đúng

Cả ba cách kiểm tra trên đều đưa ra giá trị 𝑝 (p-values)

Ta không cần sử dụng tất cả ba cách kiểm tra trên, ta trình bày ở đây bởi vì tất

cả thường được cung cấp bởi các gói phần mềm Ta sẽ sử dụng cách kiểm tra tỷ lệ hàm hợp lý vì nó tổng quát hơn và dễ dàng hơn để áp dụng

Chúng ta xét vectơ 𝛽 có 𝑝 chiều, giả sử không mất tính tổng quát, để kiểm tra giả thuyết rằng thành phần đầu tiên 𝑞 (1 ≤ 𝑞 ≤ 𝑝) của 𝛽 là bằng 𝛽𝑗∗ 𝑗 =

0, … , 𝑞 , 𝑝 − 𝑞 thành phần còn lại là tham số tự do Giả thuyết khác cho rằng ít nhất một trong các 𝑞 tham số không bằng giá trị giả thuyết

Lưu ý:

• Các trường hợp đặc biệt nêu trên có thể được xảy ra khi 𝑝 = 𝑞 = 1, 𝛽𝑗∗ = 0

• Kiểm tra này cũng có thể được sử dụng cho 𝑙𝑜𝑔(hàm hợp lý) cũng như 𝑙𝑜𝑔(hàm hợp lý từng phần)

• Nó cho phép chúng ta kiểm tra xem tỷ lệ nguy cơ là một số hằng số đặc biệt

Phần này được trích dẫn trong [3], [5], [8]

CHƯƠNG 3

Ngày đăng: 15/12/2022, 09:55

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w