dự BáO thời gian sống sót của bệnh nhân ung thư vú di căn bằng mạng nơron và cây hồi quy - một tiếp cận mới Trịnh Quốc Anh 2 , Bernard Assenlain 1 , Thu Hoàng 2 1 Institut Curie, Par
Trang 1dự BáO thời gian sống sót của bệnh nhân ung
thư vú di căn bằng mạng nơron và cây hồi quy -
một tiếp cận mới Trịnh Quốc Anh 2 , Bernard Assenlain 1 , Thu Hoàng 2
1 Institut Curie, Paris, France,
2 Université René Descartes, Paris, France
Chúng tôi đã phân tích số liệu thu được từ 1477 bệnh nhân nữ trên 18 tuổi bị ung thư
vú biểu mô có di căn được điều trị bằng nhiều liệu pháp khác nhau tại Viện Curie, Paris (Pháp) từ năm 1977 đến 1998 để nghiên cứu khả năng sống sót và sử dụng cây hồi quy
và mô hình mạng nơ ron trong đó có 15 nơ ron tiếp nhận thông tin từ 14 yếu tố được chọn và có yếu tố thời gian để xác định nguy cơ tử vong thevooooôo thời gian của bệnh nhân Việc kết hợp hai phương pháp thống kê để nghiên cứu thời gian sống sót của bệnh nhân cho kết quả tốt hơn mô hình Cox và cho thấy mối liên quan tiềm ẩn giữa các yếu tố tiên lượng bệnh
I Đặt vấn đề
Nghiên cứu về sự sống sót (survival
analysis) là một nghiên cứu quan trọng
trong điều trị bệnh, nhất là đối với những
bệnh hiểm nghèo vì nó giúp người thầy
thuốc có được những cải tiến hợp lý trong
quá trình điều trị bệnh nhằm kéo dài thời
gian sống của bệnh nhân Ung thư vú từ
lâu nay đã được xem là một căn bệnh
điển hình cần nghiên cứu sống sót và
ngày càng được quan tâm nhiều hơn, thể
hiện qua số lượng các công trình nghiên
cứu không ngừng tăng lên Thống kê trên
toàn thế giới của National Library of
Medicine (Mỹ) theo chủ đề "Surival
analysis"và "breast cancer" cho thấy từ
năm 1998 đến năm 2001 số bài báo đã
tăng lên hơn 1,5 lần, từ 262 đến 418 bài
Khó khăn lớn thường gặp trong nghiên
cứu sống sót là việc mất thông tin về
bệnh nhân trong quá trình theo dõi điều trị
bởi các nguyên nhân khách quan không
mong muốn; ví dụ bệnh nhân bị tai nạn
giao thông hay chuyển chỗ ở Một điều trị
có tỷ lệ mất thông tin cao sẽ gây ra sai
lệch lớn về ước đoán thời gian sống sót
của bệnh nhân và do đó đánh giá sai hiệu quả của điều trị
Các nghiên cứu về sự sống sót thường
sử dụng mô hình hồi quy của Cox (1) để
ước lượng nguy cơ tử vong của bệnh nhân (hazard) và từ đó dự báo thời gian sống sót Tuy nhiên, mô hình này khó thể hiện
được sự tác động qua lại tự nhiên giữa các yếu tố nguy cơ của bệnh (risk factors)
và do vậy không đánh giá được chính xác khả năng sống sót của bệnh nhân
Với mục đích ứng dụng toán học và tin học vào nghiên cứu sự sống sót của bệnh nhân ung thư vú biểu mô di căn, chúng tôi tiến hành nghiên cứu này nằm giải quyết các mục tiêu sau đây:
- Phân tích mối liên quan đơn biến và
đa biến giữa một số yếu tố với thời gian sống sót của bệnh nhân ung thư vú biểu mô di căn
- Mô tả mối liên quan tiềm ẩn giữa một
số yếu tố với sự sống sót bằng mạng nơ ron
- Xây dựng cây hồi quy dự báo thời gian sống sót của bệnh nhân
Trang 2II Đối tượng và phương pháp
nghiên cứu
1 Số liệu:
Các số liệu được thu thập từ 1477
bệnh nhân nữ trên 18 tuổi bị ung thư vú
biểu mô có di căn được điều trị tại Viện
Curie, Paris (Pháp) từ năm 1977 - 1998,
loại trừ các bệnh nhân sau:
- Bệnh nhân có số lượng bạch cầu đạt
dưới 1,5 x 109/L hay có số lượng tiểu cầu
dưới 100 x 109/L; trừ khi hiện tượng ức
chế tuỷ xương là do chính tuỷ xương
- Bệnh nhân có nồng độ bilirubin cao
hơn ít nhất 1,5 lần nồng độ bình thường,
có tiền sử bị suy tim ứ huyết, chỉ có di căn
ở não là bằng chứng có ung thư lan toả
Viện Curie đã sử dụng 8 thử nghiệm
khác nhau của hoá trị liệu cơ bản có
anthrracyclin để điều trị bệnh nhân bị ung
thư vú biểu mô [7] Các bệnh nhân được
đánh giá trước khi được điều trị dựa trên
các kiểm tra kỹ lưỡng về lâm sàng như đo
các tổn thương có thể sờ thấy được, đếm
các tế bào máu, thăm dò chức năng gan,
định lượng nồng độ các điện giải và canxi,
chụp X quang phổi, xương Trước mỗi đợt
điều trị, các thông số của từng bệnh nhân
lại được cập nhật nhằm phát hiện các
triệu chứng mới hoặc triệu chứng bệnh
nhân lên đòi hỏi phải điều chỉnh liều Các
tạng có thể bị di căn được chụp cắt lớp và
chụp X quang vào các tháng thứ 4, 8, 12,
18
Hiệu quả của các thử nghiệm điều trị
được đánh giá theo các tiêu chuẩn của tổ
chức chống ung thư quốc tế, như:
- Điều trị được coi là có đáp ứng toàn
phần nếu các di căn đã được phát hiện
không còn nữa và là có đáp ứng một phần
nếu tích số của hai kích thước dài nhất
vuông góc nhau của tổn thương đo được
ung thư ổn định, còn nếu kích thước đo
được tăng lên trên 25% hoặc xuất hiện tổn thương mới thì cho là có ung thư tiến triển
- Thời gian bệnh tiến triển được tính từ lúc bệnh nhân được chọn ngẫu nhiên tới lúc có ung thư tiến triển hoặc tới ngày theo dõi cuối cùng Thời gian sống sót là thời gian từ lúc được chọn ngẫu nhiên cho
đến lúc chết hoặc đến ngày cuối cùng
được theo dõi Nếu chết trước khi được
đánh giá đáp ứng thì được coi là ung thư
tiến triển
2 Điều trị ban đầu gồm có 900 người
được phẫu thuật (chiếm 63% tổng số bệnh nhân) trong đó 281 người được cắt
bỏ tuyến vú, 619 người được cắt bỏ tuyến
vú và bóc phần ngực (lumpectomy) có
364 (25%) bệnh nhân không được mổ và
được điều trị bảo tồn bằng xạ trị hay điều trị ngắn ngày Tổng cộng có 115 (78%) bệnh nhân dùng chiếu xạ như là một điều trị chính hay là một bổ trợ của điều trị Có
166 (12%) bệnh nhân không được điều trị tại chỗ vì có di căn sớm Số bệnh nhân
được hoá trị liệu trước là 446 (31%) Bệnh nhân được lựa chọn theo trị liệu trước dựa trên đánh giá của thầy thuốc về nguy cơ
tái phát Hoá trị liệu trước bao gồm kết hợp 5 - FU, foxorubicin, cyclophosphamide ở 165 (39,4%) bệnh nhân; CMF (cyclophosphamide, methotrexate, 5-FU) ở 92 người (21,9%);
cyclophosphamide, melphalan, methotrexate ở 98 người (23,4%) Có 64
bệnh nhân được điều trị bằng phối hợp thuốc khác không có anthracycline (15,3%) và 27 bệnh nhân được dùng hóa trị liệu không theo kiểu đặc hiệu nào Có
78 bệnh nhân chưa dùng hoá trị liệu bổ sung đã được dùng tamoxifen
3 Các yếu tố chính ảnh hưởng đến
Trang 3trọng đến khả năng sống sót của bệnh
nhân ung thư vú di căn Các yếu tố này
(xem bảng 1) được số hoá theo các trị số
rời rạc trừ nồng độ LHD (trùng với kết quả
của Pierga et al [7]:
- Các đặc điểm của bệnh nhân: tuổi
trên/dưới 50, có/ không mãn kinh
(menopause) chỉ số Karnovsky trên/dưới
60
- 10 thông số của bệnh bao gồm: thời
gian từ lúc chẩn đoán ung thư đầu tới lúc
có di căn kí hiệu là DFI (disease free
interval) trong/ngoài khoảng 6 - 24 tháng,
có/không dùng xạ trị hoặc hoá trị trước,
kích thước của hạch lớn/nhỏ (nodal
involvement), cơ quan di căn (ở phổi,
màng phổi, gan, xương, da) và số vị trí di
căn
- Nồng độ LDH (lactic dehydrogenase)
Khả năng sống sót của bệnh nhân
được đo bằng thời gian sống sót Đối với
một yếu tố có trị số rời rạc, kiểm định toàn
cục Wald được áp dụng để kiểm tra ảnh
hưởng của các trị số khác nhau này lên khả năng sống sót của bệnh nhân là có ý nghĩa thống kê hay không và hệ số nguy cơ tương đối (Relative Risk - RR) là tỷ số
so sánh nguy cơ tử vong của bệnh nhân khi nhận các giá trị rời rạc khác nhau đó
4 Phương pháp xây dựng mạng nơ
ron và cây hồi quy
Chúng tôi sử dụng mô hình mạng nơ
ron gồm 15 nơ ron tiếp nhận thông tin từ
14 yếu tố đã được chọn (bảng 1) và có thêm yếu tố thời gian t để xác định nguy cơ tử vong theo thời gian của bệnh nhân [9]
III Kết quả và bàn luận
1 Phân tích mối liên quan đơn biến theo mô hình của Cox [1]
Các kết quả phân tích được trình bày ở bảng 1
Bảng 1: Phân tích đơn biến khả năng sống sót trên 1477 bệnh nhân bị ung thư vú di
căn
Các yếu tố
(tên viết tắt)
Số quan sát Tỷ lệ %
Thời gian sống sót (tính theo trung vị)
Hệ số nguy cơ
tương đối (với khoảng tin cậy 95)
P
Tuổi theo năm lúc chẩn đoán ung thư vú di căn (age)
Mãn kinh (meno)
Chỉ số Karnovsky (kar)
Trang 4Hoá trị liệu bổ sung (chem)
Xạ trị (irr)
Khoảng thời gian từ lúc chẩn đoán đến lúc có di căn (dfi) 32 (0-289)
> 24 tháng
hoặc < 6
tháng
Từ > 6 tháng
đến < 24
tháng
Mức độ xâm lấn của hạch (nodes)
Số vị trí bị di căn (nbs)
Di căn vào da (ski)
Di căn vào xương (os)
Di căn vào màng phổi (plev)
Di căn vào phổi (lun)
Di căn vào gan (liver)
Trang 5Trung vị của thời gian sống sót là 24
tháng kể từ ngày được chọn ngẫu nhiên cho
điều trị cơ bản Thời gian theo dõi trung
bình là 155 tháng Khoảng thời gian thông
thường để có ung thư tiến triển là sau 12
tháng Độ tuổi bị tái phát ung thư thường
gặp là 53 tuổi (trong khoảng 23 - 79);
khoảng thời gian trung bình từ lúc chuẩn bị
ung thư đầu tới lúc tái phát ung thư là 32
tháng Có 24% (351) bệnh nhân bị ung thư
di căn ở phổi và trong số này có 150 bệnh
nhân (11%) bị di căn ở 2 chỗ
2 Phân tích mối liên quan đa biến
(bảng 2)
Các kết quả trình bày trong bảng 2
chứng tỏ có mối liên quan rõ rệt (qua giá trị
p - value) giữa cơ quan bị di căn và số
lượng di căn nên khả năng sống sót của bệnh nhân Thật vậy, nếu chỉ có một cơ
quan bị di căn thì hệ số nguy cơ (RR) chỉ phụ thuộc vào cơ quan đó và di căn vào gan là yếu tố có ý nghĩa ảnh hưởng đến khả
năng sống của bệnh nhân (RR = 1,76; p = 0,02) Trường hợp có 2 nơi bị di căn thì hệ
số nguy cơ còn cao hơn nữa nếu có một vị trí bị di căn là gan (RR = 2,58 p < 0,001 đối lập với RR = 1,65; p = 0,028) Với trường hợp có 3 nơi bị di căn, ta cũng thu được kết quả khác biệt tương tự khi có 1 di căn ở gan (RR = 3,43; p < 0,001) và khi không có di căn nào ở gan (RR = 1,7; p = 0,02)
Bảng 2: Tác động của mối quan hệ vị trí - số lượng lên khả năng sống sót của
bệnh nhân ung thư vú di căn
Vị trí di căn
Số quan sát
Tỷ lệ
%
Thời gian sống sót (tính theo trung vị)
Hệ số nguy cơ
tương đối (với khoảng tin cậy 95)
P
Chỉ có di căn ở màng
phổi
Di căn ở 2 nơi, không bị ở
gan
Di căn ở 2 nơi, có di căn ở
gan
Di căn ở > 3 nơi, không bị
ở gan
Di căn ở > 3 nơi, có di
căn ở gan
Trang 6TCNCYH 24 (4) 2003
Kiểm định toàn cục Wald với p < 0,001 chỉ
ra rằng quan hệ bậc 2 vị trí - số lượng của di
căn là có ý nghĩa trong sự sống sót của bệnh
nhân Các nghiên cứu khác của chúng tôi cũng
chứng minh rằng còn có nhiều mối quan hệ
khác giữa các yếu tố bệnh (trong bảng 1) ảnh
hưởng lên khả năng sống sót của bệnh nhân
Như vậy, quan hệ vị trí - số lượng của di căn
ảnh hưởng rất rõ đến nguy cơ tử vong của
bệnh nhân ung thư vú biểu mô di căn Ngoài
ra, Cutler et al [2] còn nêu lên tầm quan trọng
của vị trí bị di căn đầu tiên đối với tiên lượng
bệnh Nhiều tác giả khác đã khẳng định rằng di
căn ở gan, ở tạng và ở não ít có giá trị tiên
lượng và di căn ở xương có giá trị tiên lượng
hơn [6, 11] Trong phân tích của chúng tôi thì
nồng độ LDH là một yếu tố tiên lượng chính
Thông số này không được nói đến nhiều trong
các nghiên cứu trước đây về tiên lượng ung thư
vú nhưng ý nghĩa lâm sàng của nó đã được đề
cập [10]
3 Mạng nơ ron và cây hồi quy trong
nghiên cứu về sự sống sót
Các kết quả thống kê trên (bảng 1, 2) cho
thấy rằng, khả năng sống sót của bệnh nhân
ung thư vú di căn phụ thuộc vào rất nhiều yếu
tố và nhất là vào các quan hệ phức tạp khác
nhau của những yếu tố này Ngoài ra cũng
phải kể đến mối tương tác giữa một yếu tố với
một quan hệ để tạo thành một quan hệ mới
cấp cao hơn Các phương pháp thống kê
thường sử dụng hiện nay trong nghiên cứu
sống sót như mô hình của Cox, mô hình hồi
quy logistic [8] đều không có khả năng tự tìm
kiếm và phát hiện các tương tác giữa các yếu
tố và chúng ta thường phải dùng các mô hình
đó cùng với các quan hệ định trước được lựa
chọn theo chủ quan của các thầy thuốc Cách
làm này không thể đánh giá được toàn diện về
ăn bệnh nhất là với thời gian, khi giá trị của các
yếu tố không thể đưa ra được kịp thời những
hình cứng nhắc, chủ quan Một mạng nơ ron nhân tạo có thể khắc phục được các nhược
điểm này
Mô hình mạng nơ ron nhân tạo (artificial neural network model) lần đầu được đưa ra bởi
Mc Culloch và Pitts vào năm 1943 dựa trên ý tưởng của một mạng nơ ron sinh học: một nơ ron thần kinh nhận các tín hiệu điện kích thích, biến đổi và truyền chúng cho các nơ ron kế cận để cuối cùng cơ thể cảm nhận được kích thích và có phản ứng phù hợp Mô hình nơ ron McCulloch và Pitts (hình 1) mô tả mối quan hệ giữa p kích thích tố x1 , xp có độ mạnh yếu tương ứng là w1, ,wp với đáp ứng y của nơ ron Hình 1: mô hình nơ ron của McCulloch và Pitts (1943) với hàm kích hoạt bậc thang Như vậy, nếu xem đáp ứng y là thông tin đi
ra (kết quả xử lý thông tin) của nơ ron thì y cũng là tổ hợp của tất cả các thông tin và quan
hệ của p kích thích đầu vào x1, , xp Nếu coi p
đầu vào này là p yếu tố bệnh và đầu ra y là khả năng sống sót của bệnh nhân thì các thông số của mạng nơ ron w1, w2 cho ta biết mức độ ảnh hưởng của các yếu tố bệnh và quan hệ giữa chúng đối với sự sống sót của bệnh nhân Ví dụ đơn giản này cho thấy rằng, mạng nơ ron hoàn toàn có thể mô tả được quan hệ phức tạp giữa các yếu tố bệnh (đầu vào x) với khả năng sống sót của bệnh nhân (đầu ra y) [3]
Để việc đánh giá thống kê được chính xác, chúng tôi đã loại bỏ 269 bệnh nhân không có
đầy đủ các giá trị quan sát trên 14 yếu tố đã nêu và còn lại 1028j bệnh nhân có ung thư vú
di căn Mạng nơ ron được học bằng phương pháp học Bayes (Bayesian learning) nhằm thu
được tất cả các thông tin cần thiết từ mọi bệnh nhân, kể cả các bệnh nhân bị mất theo dõi trong quá trình điều trị hay bị chết vì nguyên nhân khác (censored cases) Để kiểm tra độ chính xác của mạng nơ ron trong việc dự báo
Trang 7TCNCYH 24 (4) 2003
định mạng nơ ron và tập thử (test set) gồm 600
bệnh nhân còn lại được dùng để kiểm nghiệm
kết quả dự đoán Để đánh giá sự chính xác của
dự báo, chúng tôi sử dụng chỉ số c - index của
Harrell đo tỷ lệ dự báo đúng với kết quả quan
sát [4] Các kết quả thu được chứng tỏ rằng mô
hình dạng nơ ron (0,664 < c-index < 0,690) cho
kết quả dự báo thời gian sống sót chính xác
hơn so với kết quả của mô hình Cox (0,657 <
c-index < 0,659) [5]
Mặt khác, để giúp thầy thuốc có thể xác
định được nguy cơ của từng bệnh nhân ngay từ
lúc điều trị ban đầu, chúng tôi đã xây dựng cây
hồi quy dự đoán thời gian sống sót dựa trên
các kết quả thu được từ mô hình mạng nơ ron
(hình 2)
Dựa trên cây hồi quy (hình 2) chúng tôi xây
dựng 3 nhóm tiên đoán phân loại bệnh nhân
Nhóm bệnh nhân có thời gian sống sót dài hơn
cả (A) gồm những bệnh nhân không có di căn ở
gan, nồng độ LDH < 322 U/l, chỉ số Karnovsky >
60, không điều trị hoá trị liệu trước và có thời gian
DFI rất ngắn hoặc rất dài Nhóm có nguy cơ cao
nhất (C) là những bệnh nhân bị ung thư di căn ở
gan, có nồng độ LDH >313 U/l hoặc ít hơn 313
U/l nhưng có hơn 2 điểm bị di căn, thời gian DFI
ngắn hoặc dài Những bệnh nhân còn lại thuộc
nhóm B Khả năng sống sót của 3 nhóm này trên
tập kiểm định 600 bệnh nhân được mô tả bằng
đường cong xác suất Kaplan Meier (hình 3) với
thời gian sống sót trung bình của nhóm nguy cơ
thấp (A) là 44 tháng, của nhóm nguy cơ cao (C)
là 15 tháng và của nhóm còn lại (B) là 23 tháng
Ta cũng thu được kết quả thời gian sống sót
tương tự trên tập học 608 bệnh nhân ban đầu: 45
tháng với nhóm A, 13 tháng với nhóm C và 23
tháng đối với nhóm B
V Kết luận
- Quan hệ vị trí - số lượng của di căn ảnh
hưởng rất rõ đến nguy cơ tử vong của bệnh
nhân bị ung thư vú biểu mô di căn
- Mạng nơ ron dự báo khả năng sống sót tốt
hơn mô hình Cox nhờ khả năng tổ hợp được
các quan hệ tiềm ẩn giữa các yếu tố nhưng nó
lại không thể hiện được tường minh các quan
hệ này
- Mô hình cây hồi qui sử dụng các kết quả thu
được từ mạng nơ ron cũng chỉ thể hiện được phần nào các tương tác có ý nghiã
Chúng tôi hiện đang sử dụng một số mô
hình phân tích khác như Randon Forest, Support Vector Machine để so sánh với mô
hình mạng nơ ron
Bài viết tuy sử dụng các nghiên cứu và số liệu tại viện Curie (Pháp) nhưng hy vọng sẽ giới thiệu được một tiếp cận mới về nghiên cứu sống sót ở Việt Nam trong nỗ lực nhằm đưa các ứng dụng của Toán học và Tin học vào lĩnh vực Y tế cụ thể là điều trị bệnh nhân ung thư
vú
Tài liệu tham khảo
1 Cox DR Regression model and life tables (with discussion) J.Royal Statistical Soiety B 1972; 34; 187 - 220
2 Cutler SJ, Ardyce JA, Taylor SG III Classification of patients with disseminate cancer
of the breast Cancer 1969; 24: 861 - 9
3 Farragi D, Simon R A neural network model for survival data Statistics in Medecine 1995; 14; 73 - 82
4 Harrell EF, Lee KL, and Mark đặc biệt
Multivarite prognostic models: Issues in Developing Models, Evaluating Assumptions and Adequacy, and Measuring and Reducing Errors, Statistic in Medecine 15 (1996) 361 -
387
5 Hoang T, Trinh QA, Asselain B
Construction and validation of a prognostic model for metastatic breast cancer using Bayesian neural network and regression tree
Intelligent data Analysis in Medecine and Pharmacology 2002, Workshop Notes, 37 - 43, www.cs.uu.nl/~lucas/in damap 2002/indamap2002-proc.pdf
6 Hortobagyi JY, Smith TL, Legha SS, Swenerton KD, Gehan EA, Yap HY et al
Multivariate analysis of prognostic factors in
Trang 8TCNCYH 24 (4) 2003
metastatic breast cancer J Clin Oncol 1983;
1: 776 - 86
7 Pierga JY, Asselain B, Jouve M, et al
Effect of Adjuvant Chemotherapy on Outome in
Patients with Metastatic Breast Carcinoma
Treated with Firstline Doxorubicin Containing
Chemotherapy Cancer 2001: 91: 1079 -89
8 Sargent DJ Comparison of artificial
neural net work with other statistical
approaches: results from medical data sets
Cancer 2001: 91 (8 Supp) piii: 1636 - 42
9 Trinh QA, Hoang T, Asselain B Neural
Network Models for Survival Analysis using
Bayesian Learning or Backpropagation In:
Vidal T, Liberatore P, eds STAIRS 2002 -
Starting Artificial Intelligence Researchers Symposium Amsterdam: IOS Press, 2002; pp
167 - 177
10 Yamamoto N, Watanabe, T, Katsumata
N, et al Construction and validation of a practical pognostic index for patients with metastatic breast cancer, J Clin Oncol 1998 ; 16: 2401 - 8
11 Zinser JW, Hortobagyi GN, Buzdar AU,
et al Clinical course or breast cancer patiens with lever metastases J Clin Oncol 1987; 5:
773 -82
Summary Survival data of metastasis breast cancer
prognosis by neural net works and regression tree
- a new approach
In this paper, we expose a new approach to metastasis breast cancer prognosis based on a combination of two statistical learning methods, i.e neural net works and regression tree, applied
to survival data The two methods allow for interactions among prognostic factors such as the number and the sites of the metastases