Để làm sáng tỏ điều đó, trong phạm vi của bản luận văn này, tôi đã thu thập số liệu sinh viên trường Đại học Thủy Lợi Hà Nội do phòng Quản lý và Công tác sinh viên cung cấp và sử dụng “p
PHÂN TÍCH SỐNG SÓT
Giới thiệu chung
Trong nghiên cứu khoa học, đặc biệt là trong y học và kỹ thuật, việc phân tích ảnh hưởng của các biến phụ thuộc theo thời gian là rất quan trọng Các nhà nghiên cứu chú trọng theo dõi và mô tả các biến thứ bậc như sống hay chết, cũng như đánh giá tác động của điều trị hoặc yếu tố nguy cơ, nhưng điều quan trọng hơn là xác định thời gian dẫn đến sự kiện xảy ra Thời gian này thay đổi giữa các bệnh nhân, góp phần quan trọng vào việc hiểu rõ cơ chế và đưa ra các quyết định lâm sàng chính xác hơn.
Mô hình chính dùng để thể hiện mối liên hệ giữa thời gian dẫn đến sự kiện xảy ra và các yếu tố nguy cơ là "phân tích sống sót" (survival analysis), còn gọi là phân tích sự kiện hoặc phân tích biến cố Phân tích sống sót giúp xác định thời gian tới khi một sự kiện quan trọng xảy ra, từ đó đánh giá tác động của các yếu tố nguy cơ Đây là công cụ quan trọng trong các nghiên cứu y học, sinh học và các lĩnh vực liên quan để dự đoán và quản lý rủi ro hiệu quả.
Trong việc so sánh hai phương pháp điều trị cho các bệnh có tỷ lệ tử vong cao như AIDS hoặc ung thư, mô hình phân tích hồi quy logistic chỉ tập trung vào biến kết cục nhị phân như sống/mất hoặc khỏi bệnh/không khỏi bệnh, mà bỏ qua yếu tố thời gian để đánh giá sự khác biệt thực sự Điều này có thể dẫn đến việc không phát hiện ra sự khác biệt giữa các phương pháp điều trị khi tỷ lệ tử vong hoặc khỏi bệnh là gần như tương đương, mặc dù thời gian dẫn đến tử vong hoặc khỏi bệnh lại khác nhau giữa các nhóm Ví dụ, khi so sánh hai loại kháng sinh điều trị bệnh thương hàn, tỷ lệ khỏi bệnh có thể giống nhau nhưng thời gian sốt của bệnh nhân trong hai nhóm lại khác nhau, do đó cần sử dụng mô hình phân tích theo phương pháp thời gian sống (PTSS) để nhận diện chính xác những khác biệt này Như vậy, mô hình nghiên cứu dựa vào biến nhị phân như sống/chết hay hết sốt/còn sốt, mặc dù quan trọng, nhưng không phản ánh đầy đủ các đặc điểm về thời gian và mức độ biến đổi trong điều trị.
Một ưu điểm nổi bật của phương pháp phân tích Survival (PTSS) là khả năng xử lý các trường hợp nghiên cứu bỏ cuộc giữa chừng, chẳng hạn như mất dấu theo dõi, ngưng điều trị do tác dụng phụ hoặc tử vong bởi bệnh lý khác Trong mô hình này, những đối tượng còn sống hoặc bỏ cuộc được gọi là censored hoặc sự kiện chưa xảy ra, trong khi các đối tượng tử vong hoặc hết triệu chứng (ví dụ bệnh thương hàn) được gọi là events hoặc sự kiện đã kết thúc Thời gian sống sót của các đối tượng được mô tả qua khái niệm thời gian thất bại hoặc thời gian xảy ra sự kiện, qua đó giúp phân tích chính xác hơn về diễn biến của bệnh và hiệu quả điều trị.
Phép ước lượng Kaplan-Meier (1958) được sử dụng phổ biến để ước lượng xác suất sống sót tích lũy qua các mốc thời gian khác nhau trong phân tích PTSS Để so sánh sự khác biệt về khả năng sống sót giữa hai nhóm điều trị, người ta thường sử dụng kiểm định Log-rank, dựa trên sự so sánh hàm xác suất tích lũy của các nhóm Trong phân tích đơn biến, kiểm định Log-rank là phương pháp chính để kiểm tra sự khác biệt có ý nghĩa thống kê về sống sót, trong khi phân tích đa biến thường được thực hiện bằng mô hình Cox (1972) nhằm điều chỉnh các yếu tố nhiễu và các hiệp biến ảnh hưởng đến kết quả sống sót.
Phân tích sống sót (Survival analysis) giúp so sánh thời gian sống sót giữa hai nhóm hoặc thời gian đến khi xảy ra một sự kiện như tử vong, ung thư tái phát hoặc hết sốt Phương pháp này còn xử lý các trường hợp đối tượng bỏ cuộc hoặc mất dấu theo dõi, đảm bảo tính toàn diện của phân tích Trong phân tích đơn biến, kiểm định Log-rank được sử dụng để xác định sự khác biệt có ý nghĩa, trong khi mô hình Cox được áp dụng trong phân tích đa biến để hiệu chỉnh các yếu tố nhiễu và các hiệp biến ảnh hưởng.
Kiểm duyệt và các loại kiểm duyệt
Phân tích sống sót bắt nguồn từ khái niệm “kiểm duyệt”, vốn xảy ra khi các quan sát bị thiếu hụt do các nguyên nhân ngẫu nhiên Hiểu rõ về kiểm duyệt giúp làm sáng tỏ cách mà dữ liệu không đầy đủ ảnh hưởng đến kết quả phân tích, đặc biệt trong các nghiên cứu liên quan đến xác suất và thống kê Thấu hiểu quá trình kiểm duyệt là bước quan trọng để đảm bảo độ chính xác và tin cậy của các phân tích sống sót trong các lĩnh vực như y học, kỹ thuật và khoa học xã hội.
Nguyên nhân của việc dẫn đến kiểm duyệt phải độc lập với sự kiện quan tâm
Có ba tình huống kiểm duyệt: là kiểm duyệt phải, kiểm duyệt trái và kiểm duyệt trong khoảng Trong đó kiểm duyệt phải là loại phổ biến nhất
Kiểm duyệt trong nghiên cứu phải xuất hiện khi chúng ta không biết chính xác thời điểm đối tượng sẽ chết, chỉ biết họ còn sống tại thời điểm kết thúc nghiên cứu và thời gian sống của họ kéo dài hơn so với thời gian quan sát Thời gian kiểm duyệt thể hiện khoảng thời gian quan sát đã diễn ra trước khi sự kiện quan trọng xảy ra, nhưng có thể bị ảnh hưởng bởi các yếu tố như đối tượng không hợp tác, từ chối tham gia hoặc mất liên lạc trong quá trình nghiên cứu.
Hầu hết các phần trong luận văn áp dụng kiểm duyệt phải
Kiểm duyệt trái ít xuất hiện hơn khi các sự kiện quan tâm đã xảy ra nhưng chưa rõ thời điểm chính xác xảy ra Điều này thường xảy ra trong các trường hợp mà thông tin được biết sau khi sự kiện đã diễn ra, khiến nội dung cần kiểm duyệt trở nên ít phổ biến hơn Ví dụ về kiểm duyệt trái gồm các tình huống khi sự kiện đã xảy ra nhưng chưa xác định rõ thời gian, làm giảm khả năng xuất hiện của nội dung liên quan trên các phương tiện truyền thông.
- Nhiễm một căn bệnh lây truyền qua đường tình dục như HIV / AIDS;
- Khởi đầu của một căn bệnh trước khi có triệu chứng như ung thư, và
- Thời gian mà thanh thiếu niên bắt đầu uống rượu, sau đó lãng quên
Kiểm duyệt trong khoảng thời gian xuất hiện khi thời gian chính xác của sự kiện không rõ ràng, chỉ biết khoảng thời gian xảy ra sự kiện Nếu khoảng thời gian này rất ngắn, người ta thường bỏ qua hình thức kiểm duyệt Ví dụ điển hình là việc kiểm tra định kỳ hàng năm để phát hiện các bệnh truyền qua đường tình dục như HIV/AIDS trong trường hợp nhiễm bệnh trong một khoảng thời gian ngắn.
Phần này được trích dẫn trong [1], [7].
Hàm sống sót và hàm nguy cơ
Trong phân tích thống kê, hàm mật độ xác suất và hàm phân phối tích lũy là những yếu tố chính được quan tâm khi nghiên cứu biến ngẫu nhiên Tuy nhiên, bên cạnh đó, hai hàm quan trọng hơn được nhấn mạnh là hàm sống sót và hàm nguy cơ, chúng đóng vai trò thiết yếu trong việc phân tích thời gian sống và xác suất xảy ra sự kiện theo thời gian.
Hàm sống sót, hay còn gọi là hàm xác suất sống, được định nghĩa là xác suất mà đối tượng còn tồn tại đến thời điểm t, tức là S(t) = P(T > t) Trong đó, T là thời điểm thất bại của đối tượng, và hàm sống sót được xác định trên miền t từ 0 đến vô cùng, với giá trị nằm trong khoảng từ 0 đến 1 Hàm này thể hiện khả năng tồn tại của đối tượng qua thời gian và là khái niệm cốt lõi trong phân tích sống sót trong các lĩnh vực như y học, kỹ thuật và nghiên cứu dữ liệu.
𝑆 𝑡 = 1 − 𝐹 𝑡 = 𝑓(𝜏)𝑑𝜏 𝑡 ∞ Trong đó 𝑓(𝑡) là hàm mật độ xác suất, 𝐹(𝑡) là hàm phân phối tích lũy
Chúng ta có thể ước lượng hàm sống sót dựa trên dữ liệu quan sát, giúp hiểu rõ khả năng tồn tại của đối tượng nghiên cứu theo thời gian Có hai phương pháp chính để thực hiện điều này, đảm bảo độ chính xác và tin cậy trong phân tích sống sót Các phương pháp này hỗ trợ đưa ra dự đoán chính xác về khả năng sống của các cá thể hoặc nhóm nghiên cứu trong các nghiên cứu y học, sinh học hoặc các lĩnh vực liên quan.
Trong mô hình tham số, nếu bạn xác định đầy đủ các tham số 𝜃 cho quá trình 𝑇, thì ước lượng của hàm số 𝑆(𝑡) sẽ dựa trên ước lượng của các tham số này Việc ước lượng các tham số thường được thực hiện bằng các phương pháp tiêu chuẩn như ước lượng hợp lý cực đại (MLE), giúp đảm bảo độ chính xác và tin cậy của kết quả phân tích.
Trong phân tích dữ liệu, khi không thể giải thích một mô hình dựa trên các tham số cụ thể, phương pháp phi tham số trở nên hữu ích Một ví dụ điển hình là ước lượng Kaplan-Meier, giúp dự đoán tỷ lệ sống còn 𝑆(𝑡) mà không cần giả định về phân phối của dữ liệu, đảm bảo tính linh hoạt và chính xác trong phân tích Survival.
Nếu 𝑇~𝑊𝑒 𝑘, 𝜆 (phân phối Weibull) với 𝑓 𝑡 = 𝜆𝑘𝑡 𝑘−1 exp −𝜆𝑡 𝑘 khi đó
Định nghĩa Hàm nguy cơ (𝑡) là xác suất mà đối tượng xảy ra sự kiện ngay tại thời điểm 𝑡
Lưu ý rằng nếu 𝑡 = = 𝑐𝑜𝑛𝑠𝑡, ∀ 𝑡 ≥ 0 thì 𝑆 𝑡 = exp{−𝑡}
Nếu 𝑋 ~ exp(𝜆)thì 𝑝 𝑋 ≤ 𝑥 = 1 − exp −𝜆𝑥 → 𝑆 𝑡 = exp −𝜆𝑡 → 𝑡 𝜆
𝑡 𝑑𝑡 = ∞ 0 ∞ Trong tính chất hai, 𝑡 𝑑𝑡 = 𝐻 < ∞ → 𝑆 ∞ = 𝑒 0 ∞ −𝐻 > 0, do (𝑡) không là xác suất nên (𝑡) > 1
Hình ảnh của hàm nguy cơ
(𝑡) là hàm tăng và giảm t t t
Các hàm thường gặp trong phân phối sống sót
Exponential Gompertz Weibull log-logistic
𝑓(𝑡) 𝜆 exp(−𝜆𝑡) 𝜆𝜅 𝑡 exp 𝜆(1 − 𝜅 𝑡 )/ log 𝜅 𝜆𝜅𝑡 𝜅−1 exp(−𝜆𝑡 𝜅 ) 𝜆𝜅𝑡 𝑘−1 /(1 + 𝜆𝑡 𝜅 ) 2 𝐹(𝑡) 1 − exp(−𝜆𝑡) 1 − exp 𝜆(1 − 𝜅 𝑡 )/ log 𝜅 1 − exp(−𝜆𝑡 𝜅 ) 1 − 1/1 + 𝜆𝑡 𝜅 𝑆(𝑡) exp(−𝜆𝑡) exp 𝜆(1 − 𝜅 𝑡 )/ log 𝜅 exp(−𝜆𝑡 𝜅 ) 1/1 + 𝜆𝑡 𝜅
Các mô hình quan trọng và phổ biến nhất trong phân tích sống sót bao gồm phân phối phối mũ, phân phối Weibull, phân phối log-normal, log-logistic và phân phối gamma, đóng vai trò thiết yếu trong việc dự đoán và phân tích thời gian sống của các đối tượng nghiên cứu.
Chúng tôi sẽ phân tích hai mô hình phân phối phổ biến là phân phối mũ và phân phối Weibull Trong đó, phân phối mũ nổi bật với đặc điểm đơn giản, dễ hiểu và dễ xử lý, nhờ vào hàm mật độ xác suất rõ ràng và dễ tính toán Mô hình này thường được sử dụng trong các ứng dụng liên quan đến thời gian sống hoặc độ tin cậy khi quá trình xảy ra theo quy luật Poisson.
𝑓 𝑡, 𝜆 = 𝜆𝑒 −𝜆𝑡 (𝜆, 𝑡 > 0) Còn phân phối Weibull là một sự tổng quát của phân phối mũ và cho phép bao gồm nhiều loại hình dạng, với hàm mật độ:
Tham số 𝜆 là tỷ lệ thất bại trong độ tin cậy, với γ là ngưỡng tham số thì hàm mật độ Weibull có dạng:
Phân phối Weibull, khi áp dụng với m = 1 theo công thức đã đề cập, tương ứng với phân phối mũ có tham số λ = 1/η, thể hiện khả năng không có bất kỳ thất bại nào xảy ra trước thời điểm ngưỡng (t < γ) Điều này có nghĩa là không có cá nhân nào chết hoặc thất bại trước thời điểm đó Vì phân phối Weibull bao gồm phân phối mũ, chúng ta sẽ tập trung thảo luận về mô hình Weibull, một lựa chọn phổ biến trong lĩnh vực độ tin cậy và kỹ thuật y sinh do khả năng phù hợp với dữ liệu và dễ dàng trong xử lý phân tích.
Phân phối Weibull, với tham số hình dạng 𝑚l, mô tả tỷ lệ thất bại tăng tỷ lệ thuận theo thời gian 𝑡, đặc biệt khi 𝑡l là thời gian thất bại Phương pháp dựa trên phân phối Weibull giúp phân tích chính xác khả năng hỏng hóc của thiết bị theo thời gian, cung cấp cái nhìn rõ ràng về độ tin cậy của hệ thống Sử dụng phân phối Weibull trong dự đoán thất bại hỗ trợ các doanh nghiệp lập kế hoạch bảo trì hiệu quả và giảm thiểu rủi ro hỏng hóc đột xuất.
Khi hệ số m lớn hơn 1, tỷ lệ thất bại tăng theo thời gian, cho thấy quá trình lão hóa hoặc nguy cơ thất bại diễn ra ngày càng nhiều theo thời gian Điều này chứng tỏ rằng các hệ thống hoặc thiết bị có khả năng gặp sự cố cao hơn khi tuổi thọ tăng lên Việc hiểu rõ mối liên hệ giữa hệ số m và tỷ lệ thất bại giúp chúng ta dự đoán chính xác hơn về tuổi thọ và độ tin cậy của các thiết bị trong quá trình vận hành lâu dài.
- Nếu 𝑚 = 1: tỷ lệ thất bại không đổi theo thời gian Điều đó cho thấy sự kiện bên ngoài ngẫu nhiên đang gây ra tỷ lệ tử vong
- Nếu 𝑚 < 1: tỷ lệ thất bại giảm theo thời gian
Và về hình dáng thì hàm mật độ Weibull thay đổi đáng kể với giá trị của𝑚
0 < 𝑚 < 1: hàm mật độ giảm nghiêm ngặt, tiến ra vô cùng
𝑚 = 1: hàm mặt độ tiến về 0
Khi m > 1, hàm mật độ tiến tới 1/λ, và ước lượng hợp lý cực đại (MLE) nổi bật nhưng không biểu thị rõ ràng dưới dạng đóng Để thực hiện ước lượng, các phương pháp tính toán lặp đi lặp lại thường được sử dụng Menon (1963) đề xuất một ước lượng đơn giản cho 1/m, là một ước tính phù hợp của 1/m, với thiên vị có xu hướng giảm khi kích thước mẫu tăng lên Cohen (1965; Cohen và Whitten, 1988) cung cấp một biểu đồ thực tế hữu ích để xác định nhanh các tham số hình dạng của phân phối Weibull, vốn là một hàm của tham số m và không phụ thuộc vào η.
Vậy chứng tỏ hàm mật độ cho 𝑡 là tích của hàm nguy cơ và hàm sống sót, như:
𝑑𝑡𝑆 𝑡 = 𝑡 𝑆(𝑡) Cho các quan sát không bị kiểm duyệt, phân phối hợp lý của đối tượng 𝑖 là
Trong mô hình Survival Analysis, hàm mật độ xác suất tại thời điểm 𝑡𝑖 được định nghĩa là 𝑓 𝑡 𝑖 = (𝑡 𝑖 )𝑆(𝑡 𝑖 ), thể hiện xác suất không có sự kiện nào xảy ra đến thời điểm này và số thất bại tại thời điểm 𝑡 𝑖 Tổng hàm hợp lý cho các tham số 𝜃 của mô hình dữ liệu tập hợp có thể được tính bằng tích các hàm mật độ tại các thời điểm, cụ thể là 𝑓 𝑡 𝜃 = ∏ 𝑖=1 𝑓(𝑡 𝑖 ), giúp xác định các tham số của mô hình Các tham số này có thể được ước lượng bằng phương pháp tối đa hóa hợp lý hoặc gắn vào các phân phối xác suất phù hợp để tối ưu hóa mô hình Survival Analysis.
Cho 𝑡 = 𝑎𝑒 𝑏𝑡 (𝑎 > 0, 𝑏 > 0) và không kiểm duyệt log 𝑓 𝑡 𝑎, 𝑏 = log 𝑓 𝑡 𝑖
1.3.4 Mô hình phi tham số
Trong phân tích tồn tại, dữ liệu quan sát bao gồm thời gian chết hoặc thời gian chết 𝑡𝑖 cùng với chỉ số kiểm duyệt 𝛿𝑖, trong đó 𝛿=1 tượng trưng cho trường hợp chết và 𝛿=0 cho các trường hợp không kiểm duyệt Chương trình kiểm duyệt là một khái niệm quan trọng giúp phân tích dữ liệu tồn tại khi có giới hạn trong việc quan sát toàn bộ thông tin, do các nguyên nhân như mất theo dõi, chấm dứt nghiên cứu hoặc tử vong Phương pháp Kaplan-Meier (Kaplan và Meier, 1958) hiện là tiêu chuẩn để ước lượng hàm sống sót phi tham số, đặc biệt hiệu quả khi dữ liệu không có các quan sát kiểm duyệt Trong các bộ dữ liệu không có kiểm duyệt, dự toán xác suất sống là dựa trên phân bố thực nghiệm của dữ liệu Các tập dữ liệu này thường được trình bày dưới dạng bảng, giúp dễ dàng phân tích và ứng dụng trong nghiên cứu về thời gian tồn tại.
Bảng 1: Dữ liệu thời gian thất bại
Số đối tượng thất bại 𝑑 1 𝑑 2 … 𝑑 𝑖 …𝑑 𝑘
Trong phân tích sống còn, số đối tượng có nguy cơ tại các thời điểm khác nhau được biểu diễn bởi các ký hiệu n₁, n₂, , nᵢ, , nₖ, với thứ tự t₁ ≤ t₂ ≤ ≤ t_N Với mỗi thời điểm tᵢ, nᵢ là số đối tượng vẫn còn nguy cơ hoặc nghiên cứu ngay trước thời điểm đó, trong khi dᵢ thể hiện số ca tử vong xảy ra tại thời điểm tᵢ Để ước lượng tỷ lệ sống của nhóm đối tượng qua thời gian, người ta sử dụng phương pháp Kaplan-Meier dựa trên các số liệu này.
Hay ta nói ước tính Kaplan-Meier của 𝑆(𝑡) là 𝑆 𝑡 = 𝑆 𝑡 − 𝑝 (𝑇 > 𝑡|𝑇 ≥ 𝑡) Khi không có sự kiện xảy ra thì 𝑝 𝑇 > 𝑡 𝑇 ≥ 𝑡 = 1
Khi có một hay nhiều sự kiện xảy ra thì
1.3.5 So sánh mô hình tham số và phi tham số
Việc giả định một hình thức tham số cho hàm nguy cơ, hàm sống sót hoặc hàm mật độ (𝑡) và 𝑆(𝑡) giúp ước lượng trơn tru các hàm này dựa trên dữ liệu thực nghiệm, từ đó tăng cường khả năng kiểm tra các khác biệt về thông số một cách mạnh mẽ hơn Tuy nhiên, nhược điểm của phương pháp này là dễ dẫn đến việc quá chắc chắn vào mô hình, gây ra các kết luận không phù hợp do bóp méo các tín hiệu từ các thời điểm khác nhau Thay thế các phương pháp mô tả và kiểm tra giả thuyết truyền thống, phương pháp phi tham số ngày càng phổ biến trong phân tích tồn tại, vì tính linh hoạt và ít phụ thuộc vào giả định hình thức cụ thể Để khắc phục nhược điểm của phương pháp tham số, phương pháp bán tham số ra đời, cung cấp khả năng kiểm chứng các giả định và mô hình hóa các tác động của biến số một cách thích hợp hơn, từ đó nâng cao độ chính xác trong phân tích dữ liệu sống còn.
Phần này được trích dẫn trong [7].
Kiểm định của các mô hình
Ước lượng Kaplan-Meier của hàm sống còn là phương pháp phi tham số phổ biến để ước lượng xác suất sống còn tại thời điểm t, dựa trên dữ liệu không kiểm duyệt hoặc kiểm duyệt phải Phương pháp này được ưa chuộng nhờ có giả định rất yếu, không khai thác tối đa thông tin từ dữ liệu đầy đủ và dữ liệu kiểm duyệt Nó trở thành tiêu chuẩn trong hầu hết phần mềm thống kê như R và có thể thực hiện tính toán thủ công, phù hợp với dữ liệu y học và các lĩnh vực cần phân tích tồn tại.
1.4.1.2 Tác giả Kaplan và Meier
Năm 1952, Paul Meier bắt đầu nghiên cứu về thời gian mắc bệnh ung thư tại Đại học Johns Hopkins ở Chicago, Hoa Kỳ, trong khi Edward Kaplan độc lập tiến hành nghiên cứu về tuổi thọ của ống chân không trong các hệ thống cáp điện thoại tại phòng thí nghiệm Bell Cả hai đều là những sinh viên nổi bật của John Tukey Họ đã gửi các công trình nghiên cứu về thời gian sống sót không đầy đủ của bệnh nhân tới tạp chí của Hiệp hội Thống kê Mỹ, nơi biên tập viên đã khuyến khích họ hợp tác gửi bài chung vào năm 1958 Kết quả là, họ đã cùng nhau xuất bản bài báo mang tên "Ước lượng phi tham số từ quan sát không đầy đủ" trên Tạp chí của Hiệp hội Thống kê Mỹ, số 53, từ trang 457 đến 481, bài viết này đã nhận được hơn 20.000 lượt trích dẫn trên Google Scholar, góp phần quan trọng vào lĩnh vực phân tích sinh tồn.
Xác suất sống của một đối tượng đến thời điểm 𝑡 được thể hiện qua S(𝑡), giúp đánh giá khả năng tồn tại của đối tượng trong nhóm Kích thước mẫu 𝑁 phản ánh số lượng thành viên trong nhóm, là cơ sở để phân tích sự rủi ro và xác suất xảy ra các sự kiện của các thành viên trong nhóm tại các thời điểm khác nhau Thời điểm xảy ra sự kiện của 𝑁 thành viên trong nhóm là yếu tố quan trọng trong việc dự báo và đưa ra các chiến lược quản lý rủi ro hiệu quả.
𝑡 1 ≤ 𝑡 2 ≤ ⋯ ≤ 𝑡 𝑁 ứng với mỗi 𝑡 𝑖 , có 𝑛 𝑖 là số “nguy hiểm” hay số đối tượng nghiên cứu ngay trước thời gian 𝑡 𝑖 và 𝑑 𝑖 là số ca tử vong ngay tại thời điểm 𝑡 𝑖
Ví dụ, một tập dữ liệu nhỏ bắt đầu với 10 trường hợp, trong đó có một trường hợp tử vong vào ngày thứ 3, các trường hợp thứ 2 và 3 tử vong vào ngày 11, và trường hợp thứ 4 bị mất theo dõi (kiểm duyệt) vào ngày 9 Dữ liệu này, theo dõi trong 11 ngày, cung cấp thông tin quan trọng về thời gian tử vong và mất theo dõi của các đối tượng, giúp phân tích chính xác diễn biến của bệnh dịch.
2 11 2 8 Ước lượng Kaplan-Meier là ước lượng phi tham số cực đại của 𝑆(𝑡)
Số phụ nữ lúc bắt đầu thời điểm (𝑛 𝑡 )
Số phụ nữ ngưng sử dụng (𝑑 𝑡 )
Xác suất ngưng sử dụng (𝑡)
Xác suất còn sử dụng (𝑝 𝑡 )
Cột 1 là khoảng thời gian tính bằng tuần, Cột 2 là số phụ nữ trong nghiên cứu bắt đầu một khoảng thời gian Như trong ví dụ, khoảng thời gian 0 – 9, tại thời điểm bắt đầu 0 có 18 phụ nữ, hay khoảng thời gian 19 – 29, ngay tại thời điểm bắt đầu 19, ta có 15 phụ nữ…
Cột 3 là số phụ nữ ngưng sử dụng y cụ (hay biến cố xảy ra) trong một khoảng thời gian Chẳng hạn trong khoảng thời gian 10 – 18 có 1 phụ nữ ngưng sử dụng (tại tuần10)…
Cột 4 là xác suất nguy cơ trong một khoảng thời gian, 𝑡 được ước tính bằng cách lấy 𝑑 𝑡 chia cho 𝑛 𝑡 Ví dụ trong khoảng thời gian 10 – 18 có 1 phụ nữ ngưng sử dụng nên xác suất nguy cơ là 1/18=0.0555 Xác suất này được ước tính cho từng khoảng thời gian
Cột 5 là xác suất còn sử dụng cho một khoảng thời gian 𝑝 𝑡 = 1 − (𝑡)
Cột 6 là xác suất tích lũy còn sử dụng y cụ Đây là cột số liệu quan trọng nhất trong phân tích Vì tính chất tích lũy cho nên cách ước tính được nhân từ hai hay nhiều xác suất Ví dụ trong khoảng thời gian 10 – 18, xác suất tích lũy được ước tính bằng cách lấy xác suất còn sử dụng trong thời gian 0 – 9 nhân với xác suất còn sử sụng trong khoảng thời gian 10 – 18, tức là 1.000 x 0.9445=0.9445 Ý nghĩa của ước tính này là xác suất còn sử dụng cho đến thời gian 9 tuần là 94.45%
Dựa vào R, ta có biểu đồ đường cong sống sót sau:
Trong biểu đồ này, trục hoành thể hiện thời gian tính bằng tuần, còn trục tung biểu diễn xác suất tích lũy còn sử dụng y cụ Đường chính giữa thể hiện xác suất tích lũy 𝑆(𝑡), trong khi hai đường nét đứt đại diện cho khoảng tin cậy 95% của 𝑆(𝑡) Phân tích cho thấy, đến tuần thứ 107, xác suất sử dụng y cụ còn khoảng 25%.
1.4.1.4 Hạn chế của Kaplan-Meier
0 0 0 2 0 4 0 6 0 8 1 0 thời gian (tuần) xá c su ấ t số n g só t
Phân tích Kaplan-Meier thường được sử dụng để ước lượng hàm sống còn \(S(t)\) cho một nhóm đối tượng duy nhất trong nghiên cứu Tuy nhiên, trong thực tế, nhiều nghiên cứu yêu cầu so sánh khả năng sống còn \(S(t)\) giữa hai hoặc nhiều nhóm khác nhau để xác định sự khác biệt đáng kể Vì vậy, cần kết hợp các phương pháp phân tích phù hợp để đảm bảo tính chính xác và khách quan trong so sánh các nhóm đối tượng.
Phương pháp phân tích truyền thống như ước lượng S(t) cho từng nhóm theo từng khoảng thời gian rồi so sánh bằng kiểm định thống kê phù hợp giúp đánh giá sự khác biệt giữa các nhóm Tuy nhiên, cách làm này không cung cấp một bức tranh toàn diện về tất cả các khoảng thời gian, gây khó khăn trong việc diễn giải kết quả khi so sánh nhiều giai đoạn khác nhau Để khắc phục nhược điểm của phương pháp Kaplan-Meier, kiểm định Log-rank được phát triển như một công cụ phân tích mạnh mẽ, giúp so sánh các đường sống giữa các nhóm một cách tổng thể và dễ dàng hơn.
1.4.2 Kiểm định Log-rank 1.4.2.1 Giới thiệu chung
Kiểm định Log-rank là phương pháp kiểm định giả thuyết để so sánh sự phân phối sống sót giữa hai mẫu, ứng dụng phổ biến trong các thử nghiệm lâm sàng để đánh giá hiệu quả của phương pháp điều trị mới dựa trên thời gian xảy ra sự kiện Đây là phương pháp phân tích phi tham số, còn gọi là kiểm định Mantel-Cox, đặt theo tên của Nathan Mantel và David Cox Kiểm định này còn được xem như một dạng kiểm định phân tầng thời gian Cochran-Mantel-Haenszel Ban đầu, Nathan Mantel đề xuất phương pháp này, và sau đó Richard và Julian Peto đã đặt tên là kiểm định Log-rank, phản ánh khả năng so sánh tồn tại qua các thời điểm khác nhau trong nghiên cứu.
Kiểm định thống kê Log-rank là phương pháp so sánh ước tính hàm nguy cơ của hai nhóm tại từng thời điểm quan sát, giúp xác định sự khác biệt giữa các nhóm trong nghiên cứu về thời gian sống Phương pháp này dựa trên việc tính toán số lượng quan sát và dự đoán các sự kiện xảy ra trong mỗi nhóm tại các điểm thời gian quan sát, từ đó tổng hợp lại thành một bản tóm tắt tổng thể qua các điểm thời gian có sự kiện Kiểm định Log-rank là công cụ quan trọng trong phân tích sinh học và y học, giúp đánh giá hiệu quả của các điều trị hoặc tác nhân ảnh hưởng đến thời gian sống của đối tượng nghiên cứu.
Phần này được trích dẫn trong [6]
Ta chia thời gian ra làm k khoảng 𝑡 1 , 𝑡 2 , … , 𝑡 𝑘 , mà khoảng thời gian 𝑡 𝑗 (𝑗 1, … , 𝑘) phản ánh thời điểm j khi một hay nhiều đối tượng của hai nhóm cộng lại
Trong phân tích dữ liệu sinh tồn, ta định nghĩa 𝑛 1𝑗 và 𝑛 2𝑗 lần lượt là số đối tượng nguy cơ (chưa xảy ra sự kiện hoặc chưa được kiểm duyệt) tại thời điểm bắt đầu của khoảng thời gian 𝑡 𝑗 Tổng số đối tượng của hai nhóm tại thời điểm này là 𝑛 𝑗 = 𝑛 1𝑗 + 𝑛 2𝑗 Số quan sát các sự kiện xảy ra trong khoảng thời gian 𝑡 𝑗 của nhóm i là 𝑜 𝑖𝑗 (với i = 1, 2), và tổng số sự kiện của cả hai nhóm sau thời gian 𝑡 𝑗 là 𝑜 𝑗 = 𝑜 1𝑗 + 𝑜 2𝑗 Giả định hai nhóm có khả năng tồn tại tương tự và cùng nguy cơ xảy ra sự kiện, ta có thể ước lượng các tham số thống kê dựa trên các số liệu thu thập tại các khoảng thời gian j = 1, 2, , k.
𝑛 𝑗 Trong đó 𝑒 1𝑗 , 𝑒 1𝑗 là xác suất trung bình
Ngoài ra chúng ta có thể ước tính tổng số sự kiện xảy ra của nhóm một và hai
Tổng số sự kiện dự kiến xảy ra của từng nhóm là:
Khi đó kiểm định Log-rank được định nghĩa như sau:
𝐸 2 Nếu 𝜒 2 > 𝜒 1 2 (𝛼) (trong đó 𝜒 1 2 (𝛼) là trị số khi bình phương với mức ý nghĩa thống kê 𝛼 = 0,05), từ đó chúng ta có thể kết luận độ khác biệt về 𝑆(𝑡) giữa hai nhóm
1.4.2.3 Hạn chế của kiểm định Log-rank
Kiểm định log-rank là phương pháp giúp so sánh Survival Function (S(t)) giữa hai hoặc nhiều nhóm Tuy nhiên, trong thực tế, S(t) và hàm nguy cơ có thể bị ảnh hưởng bởi các yếu tố khác ngoài nhóm nghiên cứu Do đó, cần ước lượng mức độ ảnh hưởng của các yếu tố nguy cơ đến hàm nguy cơ (h(t)) và tích hợp các biến cố liên tục vào phân tích sự tồn tại để có kết quả chính xác hơn.
MÔ HÌNH NGUY CƠ THEO Tỷ Lệ
Giới thiệu về mô hình nguy cơ theo tỷ lệ
Trong chương trước, chúng ta đã tìm hiểu về phân tích sống sót và các mô hình tham số cũng như phi tham số Mô hình phi tham số sử dụng ước lượng Kaplan-Meier để ước lượng tỷ lệ sống còn, trong khi mô hình tham số áp dụng kiểm định Log-rank để so sánh các nhóm Ngoài ra, còn có mô hình bán tham số - hay còn gọi là “Cox model” - tích hợp cả đặc điểm của mô hình tham số và phi tham số để phân tích dữ liệu sống sót một cách linh hoạt và chính xác hơn.
“the Cox proportional hazards model”, ta dịch là mô hình Cox (hay mô hình nguy cơ theo tỷ lệ (Cox PHM hay Coxph)
Mô hình này sẽ giúp chúng ta sẽ đi tìm hiểu hai vấn đề:
• Kết hợp các biến số liên tục vào phân tích sự tồn tại của đối tượng
• Phân tích tác động của các biến đến sự tồn tại
2.1.2 Tác giả mô hình Cox
David Roxbee Cox là nhà thống kê người Anh nổi bật với những đóng góp quan trọng trong lĩnh vực thống kê và xác suất ứng dụng Ông sinh ngày 15 tháng 7 năm 1924, nghiên cứu toán học tại Trường Cao đẳng St John, Cambridge và nhận bằng tiến sĩ năm 1949 từ Đại học Leeds Cox đã trở thành Giáo sư thống kê tại Birkbeck College, London, với hơn 300 bài báo và sách về các chủ đề khác nhau trong thống kê Ông nổi bật với mô hình tỷ lệ nguy cơ, một công cụ phân tích dữ liệu tồn tại rộng rãi trong nghiên cứu khoa học Ngoài ra, ông đã tư vấn cho chính phủ, được phong tước hiệp sĩ vì những đóng góp cho khoa học, và nhận nhiều học bổng cùng giải thưởng khoa học danh giá.
Vào giữa những năm 1970, giáo sư David R Cox của Đại học Imperial College London đã phát triển một phương pháp phân tích dựa trên mô hình hồi quy và bảng sống Phương pháp này đã trở thành một công cụ quan trọng trong lĩnh vực thống kê học, giúp nâng cao khả năng phân tích dữ liệu theo thời gian Được biết đến rộng rãi sau này dưới tên gọi là phân tích dữ liệu sống, phương pháp của ông đã góp phần cải thiện các kỹ thuật dự báo và nghiên cứu trong các lĩnh vực y học, kỹ thuật và xã hội học.
Mô hình Cox là một trong những phát triển quan trọng nhất của khoa học trong thế kỷ 20, đóng vai trò then chốt trong phân tích dữ liệu sống và thời gian xảy ra sự kiện Bài viết của ông giới thiệu về tỷ lệ nguy cơ và các phương pháp suy luận liên quan, cùng với các mô hình hồi quy và bảng sống, góp phần cách mạng hóa lĩnh vực nghiên cứu về phân tích sống còn Với hơn 12.000 lượt trích dẫn trên Google Scholar, mô hình Cox đã chứng minh giá trị to lớn trong cộng đồng khoa học và nghiên cứu.
Với 𝑋 là biến nguy cơ (hay biến giải thích),có thể liên tục hay không liên tục
Mô hình Cox phát biểu rằng :
Hàm nguy cơ tại thời điểm t, ký hiệu là 𝑡, thể hiện khả năng xảy ra sự kiện trong khoảng thời gian ngắn tới t, trong khi 0 (𝑡) là hàm nguy cơ cơ bản tại thời điểm t Hệ số nguy cơ 𝛽 liên quan đến biến 𝑋 giúp xác định ảnh hưởng của biến đó đến nguy cơ xảy ra sự kiện Mô hình Cox PHM nổi bật bởi khả năng không cần phải xác định chính xác dạng của hàm nguy cơ cơ bản 0 (𝑡), chỉ cần ước lượng hệ số 𝛽 để phân tích ảnh hưởng của các biến độc lập đến thời gian sống Đặc điểm của Cox PHM là mô hình bán tham số, lý tưởng để nghiên cứu ảnh hưởng của biến phụ thuộc tới tỷ lệ nguy cơ trong thời gian Khi xét hai cá thể với biến số lần lượt là 𝑋 1 và 𝑋 2, tỷ lệ nguy cơ của họ tại thời điểm t được tính bằng tỷ lệ tỷ số của các hàm nguy cơ, giúp dễ dàng so sánh hiệu quả các yếu tố ảnh hưởng trong phân tích sống sót.
Trong mô hình phân tích hệ số nguy cơ (hazard ratio), công thức thể hiện mối quan hệ giữa các biến là: \(h_t, X_1 = \exp(\beta^\top X_1)\) và \(h_t, X_2 = \exp(\beta^\top X_2)\), qua đó ta có tỷ lệ nguy cơ giữa hai nhóm là \(\exp[\beta (x_1 - x_2)]\) Điều này rõ ràng cho thấy, tỷ lệ nguy cơ của các đối tượng có biến \(X_1\) so với biến \(X_2\) là không phụ thuộc vào thời gian và tỷ lệ này tỷ lệ thuận với sự chênh lệch của các giá trị biến Tỷ lệ nguy cơ này, còn gọi là hazard ratio, là chỉ số quan trọng để so sánh mức độ nguy hiểm giữa các nhóm đối tượng trong phân tích sinh học và y học.
Nếu 𝛽 = 0, tỷ lệ nguy cơ giữa các biến bằng 1, cho thấy các biến không ảnh hưởng đến khả năng sống còn Do đó, việc sử dụng khái niệm về tỷ lệ nguy cơ là cách hiệu quả để kiểm tra xem biến số có tác động đến sự sống còn hay không.
Tuy nhiên lưu ý rằng đây là một mô hình đó có thể là sai Có thể có một tương tác giữa biến số và thời gian
Ta đi xem xét hàm nguy cơ theo tỷ lệ trong các trường hợp sau :
• Hai biến số liên tục; a Một biến đơn liên tục Cho biến 𝑥 ∈ ℝ, tham số 𝛽 ∈ ℝ ta có hàm nguy cơ
Và hàm nguy cơ theo tỷ lệ cho hai đối tượng với hai biến 𝑥 1 , 𝑥 2 là exp 𝛽(𝑥 1 −
𝑥 2 ) Nếu 𝑥 1 = 𝑥 + 1, 𝑥 2 = 𝑥 thì tỷ lệ nguy cơ
Do đó chúng ta có thể giải thích β như sự gia tăng trong 𝑙𝑜𝑔 của tỷ lệ nguy cơ
Ví dụ : Tuổi của người nghiện ma túy Cho 𝑥 𝑖 là tuổi của đối tượng nghiện ma túy i khi bắt đầu kiểm duyệt và tỷ lệ nguy hiểm là:
𝑡, 𝑥 = 0 𝑡 exp(−0,013𝑥) Như vậy, tỷ lệ nguy cơ về tuổi của người nghiện ma túy qua mỗi năm gấp
𝑒 −0,013 = 0,99 b Hai biến số liên tục Cho hai biến độc lập (𝑥 1 , 𝑥 2 ) ∈ ℝ 2 (𝑥 1 , 𝑥 2 không có sự tương tác), tham số (𝛽 1 , 𝛽 2 ) ∈ ℝ 2 , hoặc tham số (𝛽 1 , 𝛽 2 , 𝛽 12 ) ∈ ℝ 3 nếu có sự tương tác giữa 𝑥 1 , 𝑥 2
Khi không có sự tương tác Hàm nguy cơ là 𝑡, 𝑥 1 , 𝑥 2 = 0 𝑡 exp(𝛽 1 𝑥 1 + 𝛽 2 𝑥 2 ) và
Tỷ lệ nguy cơ của hai đối tượng với các biến (𝑥 1 1 , 𝑥 1 ), (𝑥 2 2 , 𝑥 2 ) : exp{𝛽 1 (𝑥 1 − 𝑥 2 )}
Tăng 𝑥 1 lên một đơn vị, giữ cố định 𝑥 2 = 𝑥 1 ta có tỷ lệ nguy cơ là exp 𝛽 1 Ngược lại ta có exp 𝛽 1
Khi có sự tương tác, hàm nguy cơ
2.1.4 Hàm sống sót của Cox PHM
Tổng quát cho Cox PHM ta có
𝑆 0 𝑡 là hàm sống sót ban đầu
2.1.5 Ƣớc lƣợng các tham số của Cox PHM
Trong mô hình hàm hợp lý tổng quát, biến δₖ được định nghĩa là bằng 1 nếu đối tượng thứ k không bị kiểm duyệt, và bằng 0 nếu đối tượng đó cần kiểm duyệt Công thức này giúp xác định rõ ràng các đối tượng bị kiểm duyệt hay không, dựa trên các tham số α và β Mô hình này cung cấp nền tảng quan trọng để phân tích và dự đoán hành vi kiểm duyệt đối tượng, góp phần tối ưu hóa quy trình kiểm duyệt nội dung.
Cụ thể, đối với Cox PHM chúng ta có 𝑖=1
Chúng ta không thể xác định cực đại hóa hàm nguy cơ nếu không có dạng chính xác của hàm nguy cơ ban đầu Do đó, việc phân tích hàm hợp lý theo từng phần là cần thiết Tập hợp nguy cơ ℛ(𝑡) được định nghĩa là tập hợp các đối tượng 𝑖 với điều kiện 𝑡_𝑖 > 𝑡, tức là những cá nhân chưa tử vong hoặc đã qua kiểm duyệt trước thời điểm 𝑡.
Trong quá trình sống sót liên tục, chúng ta có thể kỳ vọng chỉ có một đối tượng có khả năng thất bại tại bất kỳ điểm nào trong thời gian Tuy nhiên, do hầu hết các quan sát thực tế diễn ra trong khoảng thời gian bị kiểm duyệt, điều này ảnh hưởng đến việc đánh giá và dự đoán chính xác về các sự cố hoặc thất bại xảy ra trong hệ thống.
Hàm hợp lý từng phần
Ta ký hiệu 𝜓 𝑖 = exp 𝛽 𝑇 𝑥 𝑖 (đây là ký hiệu từ Collett, 1994, p 64), 𝜓 𝑖 là tỷ lệ thuận với tỷ lệ nguy hiểm cho đối tượng 𝑖 Hàm hợp lý từng phần cho 𝛽 là
Trong phân tích này, 𝛿 𝑖 thể hiện rằng chỉ các yếu tố liên quan đến cái chết và số lần thất bại mới được xem xét, không bao gồm số lần kiểm duyệt bắt buộc Tử số của tỷ lệ này tỷ lệ thuận với mức độ nguy hiểm của đối tượng 𝑖 tại thời điểm 𝑡 𝑖, khi đối tượng đó đã thất bại Trong khi đó, mẫu số phản ánh tổng nguy cơ của tất cả các đối tượng (bao gồm cả đối tượng 𝑖) có nguy cơ thất bại tại thời điểm đó Chính vì vậy, phân số này có thể coi như xác suất của đối tượng 𝑖 thất bại so với các đối tượng khác trong cùng thời điểm.
Có hai lý do tại sao nó là hợp lý từng phần:
• Nó không phải là hợp lý toàn phần cho 𝛽;
Nó không thực sự sử dụng dữ liệu đầy đủ; quan trọng là thứ hạng của các sự kiện hơn là thời gian xảy ra Nếu các đối tượng 𝑖, 𝑗 và 𝑘 thất bại lần lượt ở các lần 1, 2 và 3, thì các ước lượng tham số sẽ tương tự như khi họ thất bại ở các lần 100, 300 và 1500, cho thấy thời gian thực tế không ảnh hưởng lớn đến kết quả phân tích.
Vì thế, ít mạnh mẽ hơn một mô hình đầy đủ tham số Tuy nhiên, nó đòi hỏi giả định ít hơn và như vậy là mạnh hơn
2.2.2 Hàm hợp lý từng phần cho lần thất bại lặp đi lặp lại
Trong các trường hợp khi nhiều đối tượng cùng thời điểm ghi nhận thất bại, sự phức tạp của phân tích tăng lên Việc xác định hàm hợp lý cho tham số 𝛽 một cách chính xác đóng vai trò quan trọng cuối cùng Để đơn giản hóa, phương pháp hai lần xấp xỉ được xem xét, sử dụng các ký hiệu tối giản giúp nâng cao tính chính xác trong quá trình phân tích.
𝑡 (𝑖) là đặt thời gian thất bại duy nhất thứ 𝑖 (ví dụ nếu bốn thất bại xảy ra tại lần 1, 1, 3, 3 thì 𝑡 1 = 1, 𝑡 2 = 3;
𝐼 là tổng số thời gian thất bại duy nhất;
𝒟(𝑡) là tập các đối tượng thất bại tại thời gian 𝑡
Có ba phương pháp xác định hàm hợp lý từng phận:
Trong phân tích dữ liệu sống sót, 𝒟(𝑡(𝑖)) đại diện cho số các đối tượng gặp thất bại tại thời điểm 𝑡(𝑖) Phương pháp Breslow thường được sử dụng như một lựa chọn mặc định trong nhiều phần mềm thống kê phổ biến như SAS để xử lý dữ liệu này Tuy nhiên, phương pháp Breslow không phải lúc nào cũng được đặt làm mặc định trong tất cả các phần mềm phân tích thống kê khác, đòi hỏi người dùng cần hiểu rõ các lựa chọn phù hợp để đảm bảo tính chính xác của kết quả.
R R sử dụng hàm hợp lý từng phần của Efron, vì nó được coi là một xấp xỉ với một hợp lý từng phần chính xác Hàm hợp lý từng phần chính xác yêu cầu thời gian là liên tục, các mối quan hệ là một kết quả đo không chính xác thời gian
3) Phương pháp chính xác (Exact method):
Trong đó 𝒬 𝑖 là tập tất cả 𝒟(𝑡 (𝑖) ) - bộ dữ liệu có thể được lựa chọn từ ℛ(𝑡 (𝑖) ) và Φ 𝑞 là tích của 𝜓 𝑗 với tất cả các 𝑗 của 𝒟(𝑡 (𝑖) ) – dữ liệu 𝑞
Ví dụ minh họa các đối tượng có nhãn từ 1 đến 5 có nguy cơ tại thời điểm \( t^{(i)} \) trong tập \( \mathcal{R}(t^{(i)}) \); trong đó, các đối tượng từ 1 đến 3 gặp thất bại tại thời điểm này Hàm hợp lý của từng phần trong các phương pháp liên quan phản ánh rõ nét mối liên hệ giữa các đối tượng và khả năng thất bại của chúng, góp phần nâng cao hiệu quả dự đoán và phân tích rủi ro trong hệ thống Việc sử dụng hàm hợp lý phù hợp giúp tối ưu hóa khả năng phân loại và dự đoán chính xác các đối tượng có nguy cơ cao tại thời điểm cụ thể.
𝜓 1 𝜓 2 𝜓 3 (𝜓 1 + 𝜓 2 + 𝜓 3 + 𝜓 4 + 𝜓 5 ) 3 Phương pháp Efron đưa ra
𝜓 1 𝜓 2 𝜓 3 (𝜓 1 + 𝜓 2 + 𝜓 3 + 𝜓 4 + 𝜓 5 ) 2 3 𝜓 1 + 2 3 𝜓 2 + 2 3 𝜓 3 + 𝜓 4 + 𝜓 5 1 3 𝜓 1 + 1 3 𝜓 2 + 1 3 𝜓 3 + 𝜓 4 + 𝜓 5 Trong khi đó phương pháp chính xác đưa ra :
Ta có thể thấy rằng các phương pháp chính xác nhanh chóng trở nên tính toán chuyên sau khi có một số lượng lớn các mối quan hệ.
Ước lượng các tham số
Phương pháp của hàm hợp lý toàn phần mô tả khá phức tạp để áp dụng trong phân tích, nhưng may mắn thay, phần mềm R có thể hỗ trợ trong quá trình này R sử dụng thuật toán Newton-Raphson để ước lượng các tham số, mặc dù phương pháp này không luôn đảm bảo hội tụ tới ước lượng hợp lý cực đại Do đó, cần có cái nhìn tổng quát về tính ổn định và giới hạn của phương pháp để đạt kết quả chính xác hơn trong phân tích thống kê.
Phương pháp Newton-Raphson là kỹ thuật xác định các nghiệm tối ưu thông qua quá trình lặp đi lặp lại các bước thủ công, đảm bảo tính chính xác và không phụ thuộc vào yếu tố ngẫu nhiên Phương pháp này hoạt động dựa trên việc cập nhật liên tục các dự toán mới nhất, giúp cải thiện kết quả sau mỗi vòng lặp, từ đó tìm ra nghiệm chính xác hơn cho bài toán tối ưu hóa.
Nói chung, nếu chúng ta có một véc tơ tham số 𝜃 của kích thước 𝑝 và muốn tìm
𝜃 ta cực đại hóa hàm 𝑙 𝜃 = 𝑙𝑜𝑔 (hàm hợp lý) (đăng nhập hàm hợp lý), thuật toán là:
5 Quay lại bước 3 và lặp lại cho đến khi hội tụ Ở đây ta đã sử dụng các ký hiệu :
𝜃 (𝑘) là giá trị của tham số tại lần lặp 𝑘
𝜃 𝑞 là phần tử thứ 𝑞 của 𝜃
Mặc dù chọn 𝜃 (0) là bất kì, hơn nữa nó từ 𝜃 , ít khả năng cho thuật toán là hội tụ về𝜃
𝑙(𝜃) có thể được thay thế bởi log ℒ 𝑝 (𝜃)
Trong trường hợp Cox PHM, chúng ta có thể viết 𝛽 thay vì 𝜃
Xem xét một biến liên tục 𝑥𝑖 tương ứng với đối tượng 𝑖 trong nghiên cứu về bệnh tim Trong số các đối tượng, có 9 người mắc bệnh đau tim, với 𝑡𝑖 là thời gian sống còn của đối tượng 𝑖 tính bằng ngày trong suốt quá trình theo dõi Dữ liệu thống kê cung cấp thông tin về thời gian tử vong của các bệnh nhân, giúp phân tích yếu tố nguy cơ và dự đoán diễn biến bệnh hiệu quả hơn.
Để phù hợp với mô hình 𝑡, chúng tôi sử dụng công thức 𝑥 𝑖 = 0 (𝑡)𝑒 𝛽 𝑥 𝑖 với dữ liệu được xử lý hợp lý tối đa Do không có mối quan hệ theo thời gian tồn tại, chúng tôi áp dụng hàm logarit đơn giản nhất cho từng phần của mô hình này.
Mặc dù nhìn phức tạp nhưng chúng ta có thể dễ dàng tính toán chúng khi cho giá trị cụ thể của 𝛽 Nếu ta cho 𝑈 𝛽 = 𝑑𝑙(𝛽)/𝑑𝛽 và 𝐼 𝛽 = 𝑑 2 𝑙(𝛽)/𝑑𝛽 2 , công thức
Newton-Raphson đơn giản là
𝛽 (𝑘+1) − 𝛽 𝑘 = 𝑈(𝛽 𝑘 )/𝐼(𝛽 (𝑘) ) Cho 𝛽 (0) = 0, ta có 𝑈 0 = −2.51; 𝐼 0 = 77.13 Khi đó
Trong lĩnh vực phân tích dữ liệu, ví dụ như giá trị 72.70 hoặc -0.0335 (𝛽), chúng ta có thể dừng lại khi đạt mức độ chính xác mong muốn Phương pháp này rất hiệu quả nếu giá trị bắt đầu đi gần đến mục tiêu, nhưng nếu không, nó có thể gây ra những nhảy lớn cách xa mục tiêu Để hạn chế tình trạng này, chúng ta có thể điều chỉnh bước tiến của quá trình cập nhật nhằm đảm bảo tập trung vào việc tối ưu hóa chính xác hơn.
𝐼 𝜃 𝑘 𝜃 (𝑘+1) − 𝜃 (𝑘) = 𝜉𝑈(𝜃 (𝑘) ) Với 𝜉 < 1 nhằm hạn chế kích thước của bước nhảy Điều này làm tăng số lần lặp cần thiết để đạt được giá trị mục tiêu.
Kiểm định giả thuyết cho PHM
Có ba cách kiểm tra thường được sử dụng để giải bài toán kiểm định giả thuyết
𝑉 (𝛽 ) = 𝛽 2 𝐼(𝛽 ) Nếu 𝐻 0 đúng, 𝑧 2 ~ 𝜒 1 2 Giá trị lớn nhất của 𝑧 2 chịu sự thay thế của giả thuyết
Các số liệu thống kê (the score test statistic) là
Tỷ lệ hợp lý (the likelihood ratio test statistic) là 𝐺 = 2 𝑙 𝛽 − 𝑙(0) Nếu 𝐺~𝜒 1 2 thì 𝐻 0 là đúng
Cả ba cách kiểm tra trên đều đưa ra giá trị 𝑝 (p-values)
Bạn không cần sử dụng tất cả ba cách kiểm tra đã đề cập, vì hầu hết các phương pháp này đều đã được tích hợp sẵn trong các gói phần mềm Trong đó, phương pháp kiểm tra tỷ lệ hàm hợp lý được ưu tiên lựa chọn vì mang tính tổng quát cao và dễ dàng áp dụng trong các bài toán thực tế.
Chúng ta xét vectơ 𝛽 có chiều p, và giả sử không mất tính tổng quát để kiểm tra giả thuyết rằng thành phần đầu tiên 𝑞 (1 ≤ 𝑞 ≤ 𝑝) của 𝛽 bằng 𝛽 𝑗 ∗ 𝑗 0, , 𝑞, trong đó các thành phần còn lại là tham số tự do Một giả thuyết khác đề xuất rằng ít nhất một trong số các 𝑞 tham số này không bằng giá trị giả thuyết.
• Các trường hợp đặc biệt nêu trên có thể được xảy ra khi 𝑝 = 𝑞 = 1, 𝛽 𝑗 ∗ = 0
• Kiểm tra này cũng có thể được sử dụng cho 𝑙𝑜𝑔(hàm hợp lý) cũng như 𝑙𝑜𝑔(hàm hợp lý từng phần)
• Nó cho phép chúng ta kiểm tra xem tỷ lệ nguy cơ là một số hằng số đặc biệt
Phần này được trích dẫn trong [3], [5], [8].
THựC NGHIệM PHÂN TÍCH Dữ LIệU SINH VIÊN TRƯờNG ĐạI HọC THủY LợI HÀ NộI BằNG PHƯƠNG PHÁP PHÂN TÍCH SốNG SÓT
Giới thiệu
Trường Đại học Thủy Lợi là trường đại học hàng đầu Việt Nam trong lĩnh vực đào tạo kỹ sư về quản trị nguồn nước và các ngành liên quan Được thành lập từ năm 1959, trường là đơn vị đào tạo nguồn nhân lực trình độ cao duy nhất về thủy lợi, thủy điện và tài nguyên nước phục vụ ngành công nghiệp, nông nghiệp, dân sinh và phát triển nông thôn trên toàn quốc Trường không ngừng mở rộng các chuyên ngành phù hợp với nhu cầu phát triển của đất nước, đặc biệt từ năm 1985, khái niệm thủy lợi đã chuyển sang khai thác tài nguyên nước theo hướng đa dạng, liên ngành, bao gồm cả môi trường, cải tạo đất, kinh tế, máy xây dựng và thiết bị thủy lợi, thủy điện Mục tiêu đào tạo của trường ngày càng đa dạng với 7 ngành và 9 chuyên ngành, góp phần nâng cao chất lượng nguồn nhân lực trong lĩnh vực này Năm 1995, việc sáp nhập Bộ Nông nghiệp, Bộ Lâm nghiệp và Bộ Thủy lợi đã đưa ngành thủy lợi Việt Nam phát triển mạnh mẽ hơn trong môi trường đất – nước – rừng liên kết bền vững trong nền nông nghiệp sinh thái.
Trường Đại học Thuỷ lợi đã phát triển chương trình đào tạo gồm hai bộ duyệt về 9 ngành và 20 chuyên ngành, nhằm đảm bảo phủ kín các hoạt động liên quan đến kỹ thuật tài nguyên nước ở Việt Nam Mặc dù là một trường chuyên ngành, nhưng phương pháp đào tạo của nhà trường đã bắt đầu chuyển biến theo hướng liên ngành đa lĩnh vực, đáp ứng yêu cầu thực tiễn ngày càng cao trong lĩnh vực này.
Trường đại học Thủy Lợi là một trong những đơn vị nghiên cứu khoa học công nghệ hàng đầu Việt Nam, nổi bật trong lĩnh vực thủy lợi Những năm gần đây, trường đã thúc đẩy sự phát triển của các đề tài nghiên cứu có tính ứng dụng cao, góp phần nâng cao hiệu quả và đổi mới công nghệ thủy lợi Các lĩnh vực nghiên cứu ngày càng đa dạng, phản ánh sự mở rộng và đa dạng hóa của hoạt động nghiên cứu tại trường.
Hàng năm, Trường Đại học Thủy Lợi thu hút nhiều sinh viên nam đến từ khu vực miền núi và nông thôn trên khắp cả nước Điều này phản ánh đặc thù riêng của trường, nơi lưu giữ các giá trị di sản và đặc trưng gắn liền với lĩnh vực thủy lợi Phân tích số liệu tuyển sinh của trường cho thấy rõ xu hướng này, phù hợp với mục tiêu đào tạo những nhân lực có kiến thức về thủy lợi và phát triển nguồn nhân lực ở các vùng miền núi, nông thôn.
Mô tả số liệu
Trong bài viết này, chúng tôi theo dõi hành trình của sinh viên Trường Đại học Thủy Lợi trong vòng 5 năm học tập, phân tích sáu biến số chính gồm LOP, TUỔI, KHUVƯC, DOITUONG, GIOITINH, và TINH của khóa 2006-2011 (K48) Khóa K48 ghi nhận 1598 sinh viên nhập trường, trong đó độ tuổi của sinh viên dao động từ 17 đến 29 tuổi, phản ánh sự đa dạng về độ tuổi và đặc điểm học viên của trường.
Các sinh viên năm 18 và 19 chiếm tỷ lệ chủ yếu và phân bổ rộng khắp trên 53 tỉnh thành của Việt Nam Khu vực có nhiều sinh viên nhất tập trung ở phía Bắc và các vùng miền núi, điển hình là các tỉnh như Thanh Hóa, Hà Nội, Thái Bình, Nam Định, Ninh Bình và Hòa Bình, góp phần đa dạng hóa nguồn lực giáo dục tại các địa phương này.
Trong bản luận văn này, tác giả mô tả mỗi sinh viên bằng một vectơ gồm 6 thành phần: X = (X₁, X₂, X₃, X₄, X₅, X₆) Trong đó, X₁ đại diện cho lớp, X₂ là tuổi, X₃ là giới tính, X₄ là tỉnh, X₅ là đối tượng, và X₆ là khu vực Phân bố theo lớp là một phần quan trọng trong phân tích dữ liệu của sinh viên.
71 38 72 42 62 60 54 54 b Phân bố theo giới tính và độ tuổi của sinh viên Thủy lợi
Ta quan sát biểu đồ giới tính của sinh viên K48
Tỷ lệ sinh viên nữ chiếm 19,09% tổng số sinh viên, trong khi đó sinh viên nam chiếm tới 80,91% Điều này phản ánh đặc điểm nổi bật của Đại học Thủy lợi, một trường kỹ thuật, nơi số lượng sinh viên nam chiếm ưu thế hơn so với nữ giới.
Dựa trên phân bố theo độ tuổi, mặc dù nhà trường có các hệ liên thông và tại chức, nhưng vẫn duy trì lượng sinh viên lớn là những người đã có tuổi, nhờ đó đa dạng hóa đối tượng học viên và góp phần phát triển môi trường học tập linh hoạt, phù hợp với nhu cầu của mọi đối tượng.
Biểu đồ độ tuổi cho thấy phần lớn sinh viên nằm trong độ tuổi 18-19, chiếm đa số, tiếp đó là sinh viên ở độ tuổi 20 Các sinh viên ở độ tuổi cao như 26-29 chiếm tỷ lệ rất thấp, trong khi một số ít sinh viên bắt đầu học trước tuổi, vào trường lúc 17 Phân bố theo đối tượng và khu vực cũng cho thấy sự khác biệt rõ ràng trong cơ cấu sinh viên, phù hợp với các đặc điểm dân cư và đối tượng học tập của từng khu vực.
Biểu đồ phân bố theo đối tượng của sinh viên ĐHTL K48
Trong biểu đồ này, ta thấy sinh viên thuộc đối tượng 10, chiếm 81,35% tổng số sinh viên; đối tượng 1 và 6 có lượng sinh viên tương đương; còn các đối tượng 0,
3, 5 có lượng sinh viên khá ít
Biểu đồ phân bố theo khu vực của sinh viên ĐHTL K48
Theo biểu đồ phân bố theo khu vực, khu vực 4 chiếm tỷ lệ lớn nhất với 57,51% tổng số sinh viên K48, cho thấy đây là khu vực có số lượng sinh viên đông nhất Khu vực 1 và 2 có số lượng sinh viên gần bằng nhau, chiếm khoảng 17,5% mỗi khu vực, phản ánh sự phân bổ đều đặn của sinh viên trong hai khu vực này Trong khi đó, khu vực 3 có lượng sinh viên ít nhất, chỉ chiếm khoảng 6,5%, thể hiện mức độ tham gia thấp của sinh viên tại khu vực này.
Dựa trên biểu đồ phân bố theo khu vực và đối tượng tuyển sinh của Đại học Thủy Lợi, chúng ta nhận thấy lượng sinh viên nhập học hàng năm chủ yếu đến từ khu vực nông thôn (khu vực 2) và có tỷ lệ sinh viên trong diện ưu tiên khá cao Phân bố theo tỉnh thành cũng cho thấy nhiều sinh viên đến từ các tỉnh miền Bắc, đặc biệt các tỉnh có các điều kiện phát triển nông nghiệp và công nghiệp Điều này phản ánh sự đa dạng trong nguồn tuyển sinh của trường, phù hợp với chiến lược mở rộng đào tạo và tăng cường tiếp cận các vùng miền khác nhau.
Biểu đồ phân bố theo tỉnh của K48
THANHHOA THAIBINH NAMDINH HATAY NGHEAN
TP.HANOI HAIDUONG BACNINH BACGIANG HAIPHONG
HATINH NINHBINH HANAM HOABINH HUNGYEN
VINHPHUC TUYENQUANG CAOBANG BINHDINH PHUTHO BINHTHUAN DONGNAI KHANHHOA LAOCAI QUANGTRIJ TIENGIANG BINHPHUOC GIALAI KIENGIANG PHUYEN
SONLA DIENBIEN QUANGNINH DAKLAK HABAC
LAICHAU QUANGBINH TAYNINH TP.HOCHIMINH DAKNONG HAGIANG LAMDONG QUANGNAM YENBAI BINHDUONG
DANANG HUE LANGSON NINHTHUAN QUANGNGAI
Biểu đồ phân bố theo tỉnh thành cho thấy sinh viên Trường Đại học Thủy lợi có mặt từ Bắc vào Nam, tập trung chủ yếu tại khu vực đồng bằng Bắc Bộ như Hà Nam, Nam Định, Thái Bình, Hà Tây và các tỉnh trung du - miền núi phía Bắc như Thái Nguyên, Tuyên Quang, Hòa Bình Các khu vực này ghi nhận số lượng sinh viên lớn nhất, phản ánh sự phổ biến của trường trong các vùng dân cư đông đúc và phát triển Điều này cho thấy vị trí địa lý và đặc điểm kinh tế, xã hội của từng tỉnh ảnh hưởng lớn đến phân bố sinh viên của Trường Thủy lợi.
Sinh viên K48 của Trường Đại học Thủy lợi chủ yếu tập trung ở khu vực 2 – vùng nông thôn thuộc các tỉnh đồng bằng sông Hồng và trung du, miền núi Bắc Bộ Trung du, miền núi Bắc Bộ có nguồn tài nguyên thiên nhiên phong phú, đa dạng, có khả năng phát triển đa ngành kinh tế như công nghiệp khai thác khoáng sản, chế biến, thủy điện, và nông nghiệp nhiệt đới, cận nhiệt, ôn đới Các sông lớn như hệ thống sông Hồng với trữ năng thủy điện 11 triệu kW, chiếm hơn một phần ba trữ năng thủy điện cả nước, cùng với sông Đà và các nhà máy thủy điện lớn như Hòa Bình, góp phần phát triển ngành thủy điện Trong khi đó, đồng bằng sông Hồng có đất đai màu mỡ phù hợp cho trồng lúa nước và phát triển ngành nuôi trồng, khai thác thủy hải sản, tạo điều kiện thuận lợi cho ngành Thủy Lợi phát triển phù hợp với đặc thù của vùng.
Các biến trong dữ liệu:
N1, N2: Thủy nông – cải tạo đất
NH: Hệ cử tuyển ngành thủy nông – cải tạo đất
B: Kỹ thuật xây dựng công trình (kỹ thuật bờ biển)
M: Máy xây dựng và thiết bị Thủy lợi
TH: Công nghệ thông tin
TNC: Công trình Thủy lợi (tài năng)
CĐHN (cao đẳng Hà Nội), CĐTH (cao đẳng Thanh Hóa): Cao đẳng chính quy ngành công trình Thủy lợi – thủy điện
S9-C: Công trình Thủy lợi cơ sở 2
S9-H: Cấp thoát nước cơ sở 2
S9-N: Thủy nông – cải tạo đất cơ sở 2
S9-V: Thủy văn – môi trường cơ sở 2
2) Biến tuổi (TUOI): đo độ tuổi của sinh viên khi bắt đầu vào trường, nhận giá trị nguyên dương
3) Biến tỉnh (TINH): các tỉnh thành của nước Việt Nam, được viết hoa, liền nhau, không dấu Ngoài ra còn các sinh viên của nước Lào (LAO) gửi sang
4) Biến giới tính (GIOITINH): được mã hóa như sau: số 1 là ứng với sinh viên giới tính nam (NAM), số 0 ứng với sinh viên nữ (NU)
5) Biến khu vực (KHUVUC): có 5 khu vực (0, 1, 2, 3, 4) Trong đó:
Khu vực 0: là các sinh viên người Lào
Khu vực 1 bao gồm các xã, thị trấn thuộc miền núi, vùng cao, vùng sâu, hải đảo, đặc biệt là các xã nằm trong vùng có điều kiện kinh tế - xã hội đặc biệt khó khăn theo quy định của chính phủ, nhằm hỗ trợ phát triển đồng đều và thúc đẩy các khu vực này vượt qua khó khăn.
Khu vực 2 bao gồm các thành phố trực thuộc tỉnh (không thuộc trung ương) cùng với các thị xã và huyện ngoại thành của các thành phố trực thuộc trung ương Đây là khu vực có vị trí chiến lược quan trọng, góp phần phát triển kinh tế và mở rộng đô thị Việc phân chia khu vực này giúp tăng cường quản lý hành chính và thúc đẩy các dự án phát triển hạ tầng Các địa phương trong khu vực 2 cần có các chiến lược phù hợp để thúc đẩy tăng trưởng bền vững và nâng cao chất lượng cuộc sống của người dân.
Khu vực 3: Các quận nội thành của các thành phố trực thuộc Trung ương
Khu vực 4(là khu vực 2- nông thôn “KV2-NT”): bao gồm các xã, thị trấn không thuộc KV1, KV2, KV3
6) Biến đối tượng (DOITUONG): có 7 nhóm đối tượng (0, 1, 3, 4, 5, 6, 10)
Đối tượng 0: gồm các sinh viên Lào
Đối tượng 1: Công dân Việt Nam có cha hoặc mẹ là người dân tộc thiểu số
Đối tượng 3 bao gồm công nhân ưu tú trực tiếp tham gia sản xuất, có thời gian làm việc liên tục từ 5 năm trở lên Trong đó, ít nhất 2 năm là chiến sĩ thi đua cấp tỉnh trở lên đã được công nhận và nhận bằng khen.
Thương bệnh binh, quân nhân
+ Thương binh, bệnh binh, người có thẻ chứng nhận được hưởng chính sách như thương binh;
+ Quân nhân, công an nhân dân tại ngũ được cử đi học có thời gian phục vụ từ
12 tháng trở lên tại khu vực 1;
+ Quân nhân, công an nhân dân tại ngũ được cử đi học có thời gian phục vụ từ
+ Quân nhân, công an nhân dân hoàn thành nghĩa vụ đã xuất ngũ có thời gian phục vụ từ 18 tháng trở lên;
Con liệt sĩ, thương, bệnh binh nặng:
+ Con liệt sĩ + Con thương binh mất sức lao động 81% trở lên;
+ Con bệnh binh mất sức lao động 81% trở lên;
+ Con của người được cấp “Giấy chứng nhận người hưởng chính sách như thương binh“, làm suy giảm khả năng lao động 81% trở lên;
+ Con của Bà mẹ Việt Nam anh hùng, con của Anh hùng lực lượng vũ trang, con của Anh hùng lao động
+ Con của người hoạt động cách mạng trước ngày 01/01/1945 hoặc con của người hoạt động cách mạng từ ngμy 01/01/1945 đến trước Tổng khởi nghĩa 19/8/1945
+ Thanh niên xung phong tập trung được cử đi học;
+ Quân nhân, công an nhân dân tại ngũ được cử đi học có thời gian phục vụ dưới 18 tháng không ở khu vực 1;
+ Con thương binh mất sức lao động dưới 81%;
+ Con bệnh binh mất sức lao động dưới 81%;
+ Con của người được cấp “Giấy chứng nhận người hưởng chính sách như thương binh“, làm suy giảm khả năng lao động dưới 81%;
+ Bố mẹ là công nhân, nông nhân lao động tốt, ý thức tốt ở địa phương;
Người lao động ưu tú thuộc tất cả các thành phần kinh tế, được công nhận danh hiệu thợ giỏi hoặc nghệ nhân từ cấp tỉnh, thành phố, bộ trở lên Họ còn nhận bằng và huy hiệu Lao động sáng tạo của Tổng Liên đoàn Lao động Việt Nam hoặc Trung ương Đoàn TNCS Hồ Chí Minh, thể hiện sự ghi nhận xứng đáng về những đóng góp xuất sắc trong lao động và sáng tạo.
+ Giáo viên đã giảng dạy đủ 3 năm trở lên thi vào các ngành sư phạm;
+ Y tá, dược tá, hộ lý, kỹ thuật viên, y sĩ, dược sĩ trung cấp đã công tác đủ 3 năm trở lên thi vào các ngành y, dược
7) Thời gian (THOIGIAN): tính bằng tháng, nguyên dương (0 ≤ 𝑡 ≤ 60)
Mô hình của phân tích sống sót trong R
R là phần mềm phân tích thống kê và đồ thị mạnh mẽ, giúp người dùng dễ dàng trực quan hóa dữ liệu Đặc biệt, R là một ngôn ngữ lập trình đa năng, phù hợp cho nhiều mục đích, từ các phép tính đơn giản, toán học giải trí, đến phân tích thống kê phức tạp và xử lý dữ liệu quy mô lớn Sử dụng R không chỉ nâng cao hiệu quả phân tích dữ liệu mà còn tối ưu hóa các bài toán thống kê chuyên sâu một cách linh hoạt và hiệu quả.
R được sáng tạo bởi Ross Ihaka và Robert Gentleman, nhanh chóng nhận được sự ủng hộ và đóng góp của cộng đồng nhà nghiên cứu thống kê và toán học toàn cầu Là phần mềm mã nguồn mở miễn phí, R không thua kém các phần mềm phân tích dữ liệu thương mại đắt tiền về khả năng xử lý số liệu Một điểm hấp dẫn của R là người dùng có thể tự viết chương trình theo ý riêng, miễn là đã làm quen với ngôn ngữ này Các tài liệu hướng dẫn và tham khảo luôn được cập nhật đa dạng, thuận tiện cho người dùng trong quá trình học tập và ứng dụng Với những ưu điểm nổi bật này, R là công cụ lý tưởng, hiệu quả và phù hợp để phát triển khoa học và nghiên cứu tại Việt Nam.
Trong R có một package tên là survival (do Terry Thernean và Thomas
Lumley phát triển các công cụ có thể ứng dụng để phân tích biến cố, đặc biệt trong việc ước lượng tỷ lệ sống còn Để thực hiện ước lượng Kaplan-Meier, người dùng thường sử dụng hai hàm Surv và survfit trong gói phần mềm survival, giúp xác định tỷ lệ sống còn theo thời gian một cách chính xác Ngoài ra, để ước lượng hệ số 𝛽 𝑗 trong mô hình Cox, hàm coxph trong cùng gói phần mềm này được sử dụng để phân tích ảnh hưởng của các biến độc lập đối với nguy cơ tử vong hoặc biến cố xảy ra.
Trong bản luận văn này, để phân tích số liệu tác giả sẽ sử dụng R vào mô hình Cox để làm rõ mục tiêu của bản luận văn
3.3.2 Ƣớc lƣợng Kaplan-Meier trong R Để tìm hiểu xem qua 5 năm học lượng sinh viên trường Đại học Thủy Lợi tốt nghiệp đúng thời hạn sẽ là bao nhiêu theo từng biến, chúng ta đi xét mô hình đường cong sống sót của các sinh viên này qua ước lượng Kaplan-Meier bằng R theo các biến
3.3.2.1 Ƣớc lƣợng Kaplan-Meier cho đối tƣợng a Đối tượng 1 DOITUONG=1 time n.risk n.event survival std.err lower 95% CI upper 95% CI
35 112 1 0.847 0.0314 0.788 0.911 Kết quả của R trả cho ta:
Cột 1: Mốc thời gian xảy ra sự kiện
Cột 2 : Số đối tượng nguy cơ ban đầu ngay tại từng mốc thời gian ở cột 1
Cột 3 : Các đối tượng bỏ cuộc tại thời điểm cột 1 tương ứng
Cột 4 : Xác suất sống sót tại thời điểm tương ứng ở cột 1
Cột 5, 6 tương ứng là khoảng tin cậy trên và dưới ứng với độ tin cậy 95%
Biểu đồ thể hiện xác suất sinh viên thuộc đối tượng 1 còn ở lại trường qua từng tháng học, với trục thời gian theo tháng và trục y thể hiện xác suất sống sót Đường cong chính giữa tượng trưng cho xác suất tích lũy \( S(t) \), hay còn gọi là đường sống của đối tượng 1 Phân tích cho thấy, sau 60 tháng học, xác suất sinh viên vẫn còn ở lại trường là khoảng 85%, với khoảng tin cậy từ 78,8% đến 91,1% Điều này giúp đánh giá chính xác khả năng duy trì của sinh viên trong quá trình học tập theo thời gian.
Khoảng tin cậy này khá ngắn cho biết ước số có độ dao động nhỏ
Uoc luong Kaplan-meier cua DOITUONG 1
Xác suất sống S(t) b Đối tượng Đối tượng 0 Đối tượng1Đối tượng 3 Đối tượng4 Đối tượng5Đối tượng 6Đối tượng 10
Theo đường cong sống sót trên của từng đối tượng, ta thấy phân là làm bốn nhóm:
Nhóm 1: là nhóm có xác suất sống cao nhất thuộc đối tượng 0 (các sinh viên người Lào)
Nhóm 2: nhóm có xác suất sống trong khoảng trên dưới 0,8 thuộc đối tượng
4, 10, 6; cụ thể,có xác suất sống như nhau là đối tượng 4 và 10 (khoảng 79%), đối tượng 6 ( khoảng 78%)
Uoc luong Kaplan-meier cua DOITUONG
Nhóm có xác suất sống dưới 0,7 thuộc đối tượng 3 (khoảng 67%)
Nhóm 4: nhóm có xác suất sống thấp nhất (0,5) thuộc đối tượng 5
Trong phân tích, đối tượng 4 có khoảng tin cậy từ 60,8% đến 99,6%, trong khi đối tượng 5 có khoảng tin cậy từ 12,5% đến 100% Điều này cho thấy khoảng tin cậy rộng của hai đối tượng, phần lớn là do số lượng sinh viên thuộc nhóm này khá ít, ảnh hưởng đến độ chính xác của ước lượng.
3.3.2.2 Ƣớc tính Kaplan-meier cho khu vực a Khu vực 1, 3, 4
Khu vực 1Khu vực3 khu vưc4
Khi so sánh giữa khu vực miền núi – dân tộc, thành phố và khu vực 2 – nông thôn, ta thấy:
Uoc tinh Kaplan-meier cho KHUVUC 1, 3, 4
Khu vực 3, có các mốc sự kiện xảy ra ít hơn so với khu vực 1, 4 nhưng xác suất sống lại thấp nhất, chỉ có 0.675
Khu vực 1, 4 có xác suất sống xấp xỉ như nhau ( khoảng 80%), nhưng khu vực 1 có nhiều mốc sự kiện xảy ra nhất
Khu vực 1 ở tháng thứ 11có nhiều học sinh bỏ cuộc nhất; khu vực 4 có mốc thời gian 11, 23 xảy ra nhiều sự kiện hơn cả b Khu vực
Khu vực0Khu vực1 Khu vưc2 Khu vực3 Khu vực 4 Theo biểu đồ cả 5 khu vực ta thấy:
Uoc tinh Kaplan-meier cho KHUVUC
Xác suất sống của cả 5 khu vực đều lớn hơn 0.7, khu vực 0 không xảy ra sự kiện nào
Khu vực 2, 4 có xác suất sống gần nhau (khoảng 78%), khu vực 1 có xác suất sống cao nhất (trên 80%), và khu vực 3 có xác suất sống thấp nhất (dưới 75%)
3.3.2.3 Ƣớc tính Kaplan-meier cho tỉnh a Daclak
Dựa trên biểu đồ đường cong sống sót của tỉnh Đắk Lắk, chúng ta nhận thấy xác suất sống của sinh viên tỉnh này rất thấp, chỉ hơn 20% Thời điểm xảy ra các sự kiện cũng không nhiều, điều này cho thấy lượng sinh viên tham gia vào lĩnh vực Thủy Lợi từ Đắk Lắk không lớn Tuy nhiên, tỷ lệ sinh viên bỏ cuộc lại khá cao, phản ánh khả năng nản lòng hoặc khó khăn trong quá trình học tập và rèn luyện tại ngành này.
Uoc tinh Kaplan-meier cho DACLAK
Dựa trên biểu đồ sống của năm tỉnh Đắk Lắk, Lạng Sơn, Nghệ An, Thái Bình và TP Hà Nội, Đắk Lắk là tỉnh có tỷ lệ sinh viên ra trường cao nhất sau 5 năm học, với khoảng 50% Trong khi đó, nhóm tỉnh Lạng Sơn và Nghệ An có tỷ lệ tốt nghiệp khoảng 70%, cho thấy khả năng thành công của sinh viên tại các tỉnh này tương đối cao.
Và nhóm 3 (gồm các sinh viên thuộc tỉnh Thái Bình, Hà Nội) có lượng sinh viên tốt nghiệp ra trường cao hơn cả (khoảng 90%)
Uoc tinh Kaplan-meier cho 5 TINH
Xác suất tích luy S(t) c Tỉnh
Theo biểu đồ đường cong Kaplan-meier của tỉnh, ta thấy có 8 nhóm
Nhóm 1: gồm các sinh vên người Lào, Lào Cai, Đak Nông, có xác suất sống sót là 1 (đường sống sót của họ nằm ngang)
Nhóm 2: là nhóm kết thúc ở tháng 23 (tức sau tháng 23 không còn sinh viên nào theo học ở trường nữa), đó là tỉnh Kiên Giang
Nhóm 3: là nhóm có xác suất sống sót thấp nhất (sau nhóm 2) khoảng trên 20%, gồm các sinh viên thuộc tỉnh Đăc Lăk
Nhóm 4: gồm các tỉnh như Ninh Thuận, Bình Phước,…có xác suất sống khoảng 50%
Uoc tinh Kaplan-meier cho TINH
Nhóm 5: có xác suất sống khoảng 60%, như Lạng Sơn, Phú Thọ, Khánh Hòa
Nhóm 6: có xác suất sống khoảng trên70% , trong khoảng này tập trung khá nhiều tỉnh như Tp Hồ Chí Minh, Yên Bái, Thanh Hóa, Thái Nguyên, Bình Định
Nhóm 7: có xác suất sống khoảng 80%, như Bắc Giang, Bắc Ninh, Cao Bằng, Hà Tây, Hòa Bình, Tp.Hà Nội, Vĩnh Phúc…
Nhóm 8: là các tỉnh có xác suất sống khoảng 90% như Tuyên Quang, Hải Phòng, Hà Nam
3.3.2.4 Giới tính t< - survfit (Surv(THOIGIAN, SUKIEN) ~ GIOITINH, data = thai) GIOITINH=0 time n.risk n.event survival std.err lower 95% CI upper 95% CI
GIOITINH=1 time n.risk n.event survival std.err lower 95% CI upper 95% CI
Uoc tinh Kaplan-meier cho GIOITINH
Biểu đồ cho thấy xác suất sống của nam thấp hơn nhiều so với nữ, với hơn 90% sinh viên nữ theo học trong 60 tháng và tốt nghiệp, trong khi chỉ có khoảng 75% sinh viên nam đạt được mức này Các mốc sự kiện quan trọng của sinh viên nam xảy ra nhiều hơn so với nữ, đặc biệt tại các tháng 11, 23 và 35, khi số lượng sinh viên bỏ cuộc tăng đột biến Cụ thể, vào tháng 11 có 152 sinh viên nam bỏ cuộc, chiếm 11,76% so với tổng số sinh viên nam ban đầu, tháng 23 có 105 sinh viên dừng học, và tháng 35 ghi nhận 28 sinh viên bỏ cuộc.
Khi so sánh giữa các độ tuổi vào trường, ta thấy
Một số tuổi không có sự kiện xảy ra: tuổi 28, 29, 25lứa tuổi này vào trường khá là ít, xác suất sống cao(100%)
Uoc tinh Kaplan-meier cho TUOI
Tuổi có xác suất sống thấp nhất là tuổi 21 với tỷ lệ 63,2%, tiếp theo là tuổi 27 với 66,7% Trong số các sinh viên nhập học tuổi 21, có 57 em ban đầu, nhưng sau quá trình học tập chỉ còn lại 37 sinh viên tốt nghiệp.
Các tuổi 24 có xác suất sống sót trên 90%
Các tuổi còn lại có xác suất sống trên 70%, cụ thể tuổi 17 (85,7%), tuổi 18 khoảng (80%), tuổi 19 (78,4%), tuổi 20 (73,4%), tuổi 22 (khoảng 72,5%), tuổi 23 (khoảng 74%), tuổi 26 (75%)
Trong các độ tuổi, số lượng sự kiện nổi bật nhất diễn ra ở tuổi 18, 19 và 20 Đặc biệt, trong tháng 11, có 56 sinh viên bỏ cuộc ở tuổi 18 và 19, cho thấy đây là thời điểm có nhiều thay đổi lớn đối với các sinh viên Ngoài ra, vào tháng 23, tuổi 18 có 42 sinh viên bỏ cuộc và tuổi 19 có 39 sinh viên bỏ cuộc, phản ánh xu hướng nghỉ học hoặc rút lui trong giai đoạn này.
Uoc tinh Kaplan-meier cho TUOI 17, 18, 19, 20
3.3.3 Kiểm định Log-rank bằng R 3.3.3.1 Kiểm định Log-rank cho tuổi a Tuổi survdiff(formula = Surv(THOIGIAN, SUKIEN) ~ TUOI, data = thai)
TUOI! 57 21 11.400 8.0835 TUOI" 51 14 10.823 0.9324 TUOI# 27 7 5.889 0.2095 TUOI$ 15 1 3.407 1.7007 TUOI% 4 0 0.941 0.9405 TUOI& 4 1 0.821 0.0391 TUOI' 3 1 0.586 0.2932 TUOI( 2 0 0.470 0.4703 TUOI) 3 0 0.705 0.7054 Chisq= 20 on 12 degrees of freedom, p= 0.0664
Kết quả phân tích cho thấy giá trị p = 0.0664, chưa đủ để xác nhận ý nghĩa thống kê của nghiên cứu Trong phân tích tuổi từ 18 và 19, hàm survdiff đã được sử dụng để so sánh sự khác biệt về thời gian sống giữa hai nhóm tuổi này dựa trên dữ liệu từ bộ dữ liệu "thai".
N Observed Expected (O-E)^2/E TUOI 343 72 69.1 0.122 TUOI 267 52 54.9 0.154 Chisq= 0.3 on 1 degrees of freedom, p= 0.586
Kết quả phân tích Log-rank cho nhóm tuổi 18 và 19 cho thấy giá trị p=0.586 > 0.05, cho thấy chưa có bằng chứng thống kê để xác nhận rằng sinh viên tuổi 18 tốt nghiệp nhiều hơn so với tuổi 19 Do đó, cần thêm nghiên cứu để hiểu rõ hơn về sự khác biệt giữa các nhóm tuổi này trong quá trình tốt nghiệp.
3.3.3.2 Kiểm định Log-ranh cho giới tính survdiff(formula = Surv(THOIGIAN, SUKIEN) ~ GIOITINH, data = thai)
Phân tích Log-rank cho độ tuổi cho thấy giá trị p = 2.59e-13, rõ ràng là có ý nghĩa thống kê vì p < 0.05, cho thấy sự khác biệt đáng kể về khả năng sống sót giữa hai giới tính Tuy nhiên, kết quả này chỉ cho phép so sánh xác suất sống sót giữa giới tính 1 và giới tính 2 mà chưa thể xác định mức độ ảnh hưởng của từng nhóm đến hàm nguy cơ.
3.3.3.3 Kiểm định Log-rank cho khu vực survdiff(formula = Surv(THOIGIAN, SUKIEN) ~ KHUVUC, data = thai)
N Observed Expected (O-E)^2/E KHUVUC=0 3 0 0.705 0.7054 KHUVUC=1 279 52 61.165 1.3732 KHUVUC=2 293 64 62.999 0.0159 KHUVUC=3 104 27 22.270 1.0047 KHUVUC=4 919 203 198.861 0.0862 Chisq= 3.4 on 4 degrees of freedom, p= 0.488
Theo kết quả của R trong phân tích Log-rank cho khu vực, ta cũng chưa thấy ý nghĩa thống kê ở đây
3.3.3.4 Kiểm định Log-rank cho đối tƣợng a Đối tượng (5, 10) survdiff(formula = Surv(THOIGIAN, SUKIEN) ~ DOITUONG, data = thai, subset = DOITUONG == c(5, 10))
N Observed Expected (O-E)^2/E DOITUONG=5 1 1 0.114 6.88707 DOITUONG 646 136 136.886 0.00573 Chisq= 7.6 on 1 degrees of freedom, p= 0.00584
Phân tích Log-rank cho các đối tượng 5 và 10 cho kết quả trị số p = 0.00584 > 0.05, cho thấy không có ý nghĩa thống kê giữa hai nhóm này Tuy nhiên, khi so sánh giữa đối tượng 5 và 10 riêng lẻ, có thể thấy có ý nghĩa thống kê Mặc dù vậy, trên toàn bộ các đối tượng chung, phân tích cho thấy không có ý nghĩa thống kê, dựa vào kết quả của hàm survdiff trong R: survdiff(formula = Surv(THOIGIAN, SUKIEN) ~ DOITUONG, data = thai).
N Observed Expected (O-E)^2/E DOITUONG=0 3 0 0.705 0.70539 DOITUONG=1 131 20 28.769 2.67299 DOITUONG=3 6 2 1.171 0.58639 DOITUONG=4 18 4 3.923 0.00152 DOITUONG=5 2 1 0.350 1.20359 DOITUONG=6 138 31 29.763 0.05143 DOITUONG 1300 288 281.318 0.15871 Chisq= 5.8 on 6 degrees of freedom, p= 0.446