Ứng dụng ba dạng bài toán mô tả, quan hệ kết hợp, hồi quy trong điều trị và theo dõi Ung thư Đại trực tràng
Trang 1Ứng dụng ba dạng bài toán mô tả, quan hệ kết hợp, hồi quy trong điều trị và theo dõi Ung thư
Đại trực tràng Phạm Ngọc Thạch
Trường Đại học Công nghệ Luận văn ThS chuyên ngành: Hệ thống thông tin; Mã số: 60 48 05
Người hướng dẫn: PGS.TS Hoàng Minh Hằng
Năm bảo vệ: 2012
Abstract: Tổng quan về khai phá dữ liệu và thực trạng vấn đề nghiên cứu ung thư đại
trực tràng hiện nay ở Việt Nam và trên thế giới Mục tiêu của nghiên cứu này nhằm đưa
ra một số phương pháp thống kê nhằm xác định ảnh hưởng của các yếu tố: tuổi, giới, giai đoạn bệnh, kích thước khối u, số lượng hạch vét được quanh u, tình trạng di căn hạch, …
đến thời gian sống thêm 5 năm của bệnh nhân
Keywords: Công nghệ thông tin; Hệ thống thông tin; Ung thư đại trực tràng
Content
MỞ ĐẦU
Hiện nay, không một lĩnh vực nào lại không cần đến sự hỗ trợ của công nghệ thông tin và sự thành công của các lĩnh vực đó phụ thuộc rất nhiều vào việc nắm bắt thông tin một cách nhạy bén, nhanh chóng và hữu ích Với nhu cầu như thế nếu chỉ sử dụng thao tác thủ công truyền thống thì độ chính xác không cao và mất rất nhiều thời gian Do vậy việc khai phá tri thức từ dữ liệu trong các tập tài liệu lớn chứa đựng thông tin phục vụ nhu cầu nắm bắt thông tin có vai trò hết sức to lớn Việc khai phá tri thức đã có từ lâu nhưng sự bùng nổ của nó thì mới chỉ xảy ra trong những năm gần đây Các công cụ thu thập dữ liệu tự động và các công nghệ cơ sở dữ liệu được phát triển dẫn đến vấn đề một lượng dữ liệu khổng lồ được lưu trữ trong cơ sở dữ liệu và trong các kho thông tin của các tổ chức, cá nhân Do đó việc khai phá tri thức từ dữ liệu là một trong những vấn đề đã và đang nhận được nhiều sự quan tâm của các nhà nghiên cứu và đang được ứng dụng rộng rãi trong thương mại, y tế, công nghiệp
Ung thư đại trực tràng là một bệnh lý khá phổ biến trên thế giới, bệnh có xu hướng tăng dần,
tỷ lệ mắc bệnh tăng theo tuổi Theo tổ chức y tế thế giới WHO, tỷ lệ mắc bệnh trên 100.000 dân
ở nam và nữ tương ứng là 19,1 và 14,4 Trên thế giới, ước tính mỗi năm có khoảng 1 triệu trường hợp được chẩn đoán và khoảng nửa triệu người chết, ở Việt Nam, Ung thư đại trực tràng cũng có
xu hướng tăng dần Đây là căn bệnh ảnh hưởng nặng nề tới sức khỏe và đời sống của bệnh nhân
và gia đình Mục tiêu của nghiên cứu này nhằm đưa ra một số phương pháp thống kê nhằm xác
Trang 2định ảnh hưởng của các yếu tố: tuổi, giới, giai đoạn bệnh, kích thước khối u, số lượng hạch vét được quanh u, tình trạng di căn hạch, … đến thời gian sống thêm 5 năm của bệnh nhân
Mục tiêu nghiên cứu
Mô tả tần số xuất hiện, sự liên quan giữa các biến trong nghiên cứu
So sánh trung bình đối với các biến định lượng trên các nhóm
Xác định phương trình hồi quy tuyến tính đa biến giữa thời gian sống thêm 5 năm và các biến liên quan
Chương I: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ THỰC TRẠNG VẤN ĐỀ NGHIÊN CỨU UNG THƯ ĐẠI TRỰC TRÀNG HIỆN NAY
1.1 Tổng quan về khai phá dữ liệu
Phát hiện tri thức trong cơ sở dữ liệu (khai phá dữ liệu) là một quá trình không tầm thường nhận ra những mẫu có giá trị, mới, hữu ích tiềm năng và hiểu được trong dữ liệu [1]
Quá trình phát hiện tri thức trong cơ sở dữ liệu được tiến hành qua các bước sau đây:
Bước 1: Mở rộng hiểu biết về miền ứng dụng, về tri thức với độ ưu tiên thích hợp và về mục
đích của người dùng cuối Có thể coi nội dung công việc này tương ứng với nội dung khảo sát bài toán trong quá trình xây dựng một hệ thống thông tin nói chung
Bước 2: Làm sạch và tiền xử lý dữ liệu: Thực hiện các thao tác cơ sở như giải quyết thiếu
vắng giá trị, loại bỏ nhiễu hoắc yế tố ngoại lai, kết nối các thông tin cần thiết tới mô hình hoặc loại bỏ nhiễu, quyết định chiến lược nhằm nắm bắt các trường dữ liệu (các thuộc tính), tính toán dãy thông tin thời gia và sự biến đổi được định trước Chất lượng của hệ thống khai phá dữ liệu phụ thuộc vào chất lượng của dữ liệu đầu vào Mục tiêu của làm sạch nhằm đảm bảo dữ liệu đầu vào có chất lượng tốt
Bước 3: Chọn bài toán khai phá dữ liệu: quyết định mục tiêu của quá trình khai phá dữ liệu
là bài toán cụ tể nào: phân lớp, hồi quy, phân đoạn, …
Bước 4: Giải thích mẫu đối với các mẫu được khám phá, có thể quay về một cách hợp lý tới
bất kỳ bước nào từ bước đầu tiên tới bước thi hành thuật toán khai phá dữ liệu để thực hiện lặp
Bước 5: Hợp nhất các tri thức đã được khám phá, kết hợp các tri thức này thành một hệ
thống trình diễn hoặc được biên soạn dễ dàng và kết xuất thành những thành phần hấp dẫn Kiểm tra và giải quyết xung đột đối với trí thức được trích chọn [1]
Kiến trúc một hệ thống khai phá dữ liệu:
Cơ sở tri thức chứa các tri thức miền ứng dụng hiện có, được sử dụng trong thành phần hệ thống khai phá dữ liệu để làm tăng tính hiệu quả của thành phần này Cơ sở tri thức còn được sử dụng trong việc đánh giá các mẫu đã khai phá được, xem chúng có thực sự hấp dẫn hay không, trong đó có việc đối chứng mẫu với các tri thức đã có trong cơ sở tri thức Nếu mẫu khai phá được là thực sự hấp dẫn thì chúng được bổ sưng vào cơ sở tri thức để phục vụ cho hoạt động tiếp theo của hệ thống
Các bài toán khai phá dữ liệu điển hình
Mô tả khái niệm
Trang 3Hai thông số đo lường độ chính xác của một xét nghiệm là độ nhạy (sensitivity, ký hiệu ss)
và độ đặc hiệu (specificity, ký hiệu sp)
Độ nhạy:
Độ nhạy của một xét nghiệm là tỷ lệ những trường hợp thực sự có bệnh và có kết quả xét nghiệm dương tính trong toàn bộ các trường hợp có kết quả dương tính Ví dụ: xét nghiệm để xác định một người mắc một bệnh nào đó
Công thức để tính độ nhạy như sau:
độ nhạy = số dương tính thật/(số đương tính thật + số âm tính giả)
Độ nhạy 100% được hiểu là toàn bộ những người mắc bệnh hoặc toàn bộ sản phẩm hỏng đều được phát hiện
Độ đặc hiệu:
Độ đặc hiệu của một xét nghiệm là tỷ lệ những trường hợp thực sự không có bệnh và có kết quả xét nghiệm âm tính trong toàn bộ các trường hợp có kết quả âm tính Độ đặc hiệu được tính theo công thức sau:
Độ đặc hiệu = Số trường hợp âm tính thật/ ( số trường hợp âm tính thật + số trường hợp dương tính giả)
P (Probability)
Đề ra một giả thuyết chính (Ho)
Từ giả thuyết chính, đề ra một giả thuyết đảo (H1)
Tiến hành thu thập dữ kiện (D)
Phân tích dữ kiện: tính toán xác suất D xảy ra nếu H1 là sự thật Nói theo ngôn ngữ toán xác suất, bước này chính là bước tính toán trị số P hay P(D | H) [2],[3]
Vì thế, con số P có nghĩa là xác suất của dữ kiện D xảy ra nếu (nhấn mạnh: “nếu”) giả thuyết đảo H1 là sự thật Như vậy, con số P không trực tiếp cho chúng ta một ý niệm gì về sự thật của giả thuyết chính H; nó chỉ gián tiếp cung cấp bằng chứng để chúng ta chấp nhận giả thuyết chính
và bác bỏ giả thuyết đảo [17]
Trong nghiên cứu áp dụng so sánh tỷ lệ và so sánh trung bình
1.2 Thực trạng về vấn đề nghiên cứu ung thƣ đại trực tràng ở Việt Nam và trên thế giới
Trong điều trị ung thư đại trực tràng người ta sử dụng nhiều phương pháp khác nhau như phẫu thuật, hóa chất, tia xạ, miễn dịch Tuy nhiên cho đến nay phẫu thuật triệt căn vẫn được coi là phương pháp điều trị tích cực, hiệu quả nhất và được lựa chọn đầu tiên Để có được những quyết định điều trị phù hợp trong và sau mổ cũng như tiên lượng chính xác thì phải xác định đúng giai đoạn bệnh, đây là một việc hết sức quan trọng và cũng rất khó khăn Thực tế cho thấy việc chẩn đoán độ xâm lấn của u và tình trạng di căn xa thường ít sai lệch Ngược lại chẩn đoán đúng tình trạng hạch thường khó khăn và hay bị nhầm lẫn dẫn đến những quyết định sai lầm trong điều trị và tiên lượng
Ở Việt Nam hiện nay đã có nhiều nghiên cứu về dịch tễ học, triệu chứng lâm sàng, các phương pháp chẩn đoán và điều trị ung thư đại trực tràng Tuy nhiên nghiên cứu về các đặc điểm di căn hạch và giá trị tiên lượng của chúng vẫn còn ít, thậm chí khái niệm “cần xét nghiệm tối thiểu bao nhiêu hạch để đủ tin cậy chẩn đoán đúng tình trạng hạch” còn chưa được đề cập đến Và liệu hình ảnh đại thể của u, của hạch và nồng độ CEA trước mổ có thể tiên đoán chính xác tình trạng hạch hay không cũng ít được nghiên cứu Chính vì vậy chúng tôi thực hiện đề tài:
“Ứng dụng ba dạng bài toán mô tả, quan hệ kết hợp, hồi quy trong điều trị và theo dõi Ung thư Đại trực tràng” với ba mục tiêu sau:
Mô tả tần số xuất hiện, sự liên quan giữa các biến trong nghiên cứu
Trang 4 So sánh trung bình đối với các biến định lượng trên các nhóm
Xác định phương trình hồi quy tuyến tính đa biến giữa thời gian sống thêm 5 năm và các biến liên quan
Chương II: ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU 2.1 ĐỐI TƯỢNG NGHIÊN CỨU
Gồm 89 bệnh nhân ung thư biểu mô đại tràng hoặc trực tràng được phẫu thuật triệt căn tại Bệnh viện Trung ương Quân đội 108
Tiêu chuẩn lựa chọn bệnh nhân
Bệnh nhân được đưa vào nghiên cứu phải có đủ các tiêu chuẩn sau:
Được chẩn đoán xác định là ung thư biểu mô đại tràng hoặc trực tràng bằng xét nghiệm mô bệnh học
Chưa có di căn xa
Được phẫu thuật triệt căn với mức nạo vét hạch D3 (nạo vét cả 3 nhóm hạch 1, 2 và 3)
U và tất cả các hạch của bệnh phẩm được xét nghiệm mô bệnh học đầy đủ
Được xét nghiệm định lượng CEA trước và sau mổ
Có đầy đủ thông tin theo dõi trong suốt thời gian nghiên cứu
Tiêu chuẩn loại trừ bệnh nhân
Bệnh nhân bị ung thư nhiều vị trí trên khung đại trực tràng
Bệnh nhân bị ung thư đại tràng hoặc trực tràng tái phát
Bệnh nhân bị ung thư từ các cơ quan khác di căn đến đại trực tràng
Bệnh nhân không thực hiện đầy đủ các chỉ tiêu nghiên cứu
2.2 PHƯƠNG PHÁP NGHIÊN CỨU
Nghiên cứu được thực hiện theo phương pháp tiến cứu, mô tả và theo dõi dọc Dùng các test kiểm định các tỷ lệ, so sánh các trung bình của các nhóm nghiên cứu, so sánh ghép cặp trước – sau phẫu thuật
2.2.1 Cỡ mẫu nghiên cứu
Cỡ mẫu nghiên cứu được tính theo công thức sau:
2
2 1
) 1 (
*
d
p p
Z
n: cỡ mẫu
Z1- δ: hệ số tin cậy, ứng với độ tin cậy 95% (0,95) thì Z1- δ = 1,96
d: sai số tuyệt đối cho phép, ước tính bằng 0,11
p = 0,5
Với các giá trị trên ta có:
8011
,0
5,0
*5,0
*962
2.2.2 Các chỉ tiêu nghiên cứu
Đặc điểm tuổi và giới
Các nhóm cách nhau 10 tuổi, nhóm < 40 và nhóm ≥ 40 tuổi
Giới: gồm nam và nữ
Trang 5Xét nghiệm CEA: Xét nghiệm định lượng CEA được thực hiện 2 lần cho mỗi bệnh nhân: lần
1 trước mổ 1- 5 ngày, lần 2 sau mổ 7- 14 ngày [8]
Nhận định kết quả: xét nghiệm được xác định là dương tính khi nồng độ CEA > 5 ng/ ml và
âm tính khi nồng độ CEA ≤ 5 ng/ ml
- Lập bảng 2 x 2 so với chuẩn vàng là kết quả xét nghiệm mô bệnh học như sau:
Chỉ tiêu BN di căn hạch BN không di căn hạch Cộng
a Se
+ Độ đặc hiệu (Specificity - Sp):
d b
d Sp
+ Độ chính xác (Accuracy - Ac):
d c b a
d a Ac
2.2.4 Hình ảnh đại thể của u được xác định bằng các chỉ số sau:
- Kích thước u: được xác định là đường kính lớn nhất của u (đơn vị tính là cm) và chia làm 3 mức: < 5 cm, 5- 10 cm và > 10 cm
- Độ xâm lấn của u so với chu vi ruột: chia làm 2 mức: 1/2 và >1/2 chu vi ruột
- Hình ảnh bề mặt u được chia thành: thể sùi, thể loét và thể nhẫn
Trang 6■ Theo hệ thống TNM, di căn hạch được chia làm 3 mức dựa vào số lượng hạch di căn và
- Hạch nhóm 1: gồm các hạch ở trên thành đại tràng, cạnh đại tràng trong phạm vi cách mép
u 5 cm về hai phía của u
- Hạch nhóm 2 (nhóm hạch trung gian): gồm các hạch dọc theo động mạch chính cấp máu cho đoạn ruột có u và các hạch trên thành đại tràng, cạnh đại tràng cách mép u >5- 10 cm về 2 phía của u
- Hạch nhóm 3 (nhóm hạch chính): gồm các hạch nằm ở gốc động mạch chính cấp máu cho đoạn ruột có u
2.2.7 Các chỉ tiêu nghiên cứu về hạch
Trong phẫu thuật tất cả các bệnh nhân đều được thực hiện nạo vét hạch một cách hệ thống với mức D3 (vét cả 3 nhóm hạch 1, 2 và 3)
2.2.8 Cài đặt và ứng dụng phần mềm phân tích
Sử dụng phần mềm SPSS 16.0
Chương III CÀI ĐẶT VÀ ỨNG DỤNG 3.1 Quan hệ thời gian sống sau mổ với tình trạng di căn hạch
3.1.1 Một số liên quan giữa các yếu tố với tình trạng di căn hạch
Bảng 3.1 Quy tắc phân lớp trên tập D-Learn
Trang 7Bảng 3.3 Quy tắc đánh giá độ tin cậy của nồng độ CEA và tình trạng di căn hạch
Bảng 3.4 Nồng độ CEA trước và sau phẫu thuật
Nồng độ CEA trước Nồng độ CEA sau Đánh giá
Bảng 3.5 Liên quan giữa nồng độ CEA trước mổ và mức di căn hạch
Bảng 3.6 Liên quan giữa kích thước hạch, hình thái hạch và tình trạng di căn hạch
Kích thước hạch Hình thái hạch Màu sắc hạch Di căn hạch Đánh giá
Đánh giá liên quan giữa kích thước hạch, hình thái hạch, di căn hạch và tình trạng di căn hạch trên D-Test
Tổng số vét được 452 hạch trên 16 bệnh nhân, số hạch di căn là 72 hạch Độ tin cậy theo mô hình trên = 55 / 72 (76,4 %)
Bảng 3.7 Phân loại bệnh nhân di căn hạch
Trang 8Nhận xét: tỷ lệ BN di căn hạch tăng lên rõ rệt khi số hạch xét nghiệm tăng lên Tỷ lệ này là 25%
ở nhóm xét nghiệm < 10 hạch/ BN, tăng lên 28,6 % (XN 10- 13 hạch/ BN) và đạt cao nhất là 60,8% khi xét nghiệm 14- 17 hạch/ BN (p= 0,03) Tuy nhiên không có sự khác biệt (p> 0,05) về
tỷ lệ này giữa nhóm XN 14- 17 hạch/ BN và nhóm XN ≥ 18 hạch/ BN (60,8% so với 59,5%) Kết quả chỉ ra rằng xét nghiệm tối thiểu 14 hạch/ BN là đủ tin cậy cho phép chẩn đoán đúng giai đoạn hạch
Trang 9Biểu đồ 3.2 Liên quan số hạch xét nghiệm với tỷ lệ BN di căn hạch
Xác định số hạch tối thiểu theo kích thước của hạch
Để xác định số hạch tối thiểu theo phương pháp dựa theo kích thước của hạch được tiến hành xét nghiệm riêng rẽ từng hạch mà đã được xắp xếp theo thứ tự kích thước nhỏ dần Số bệnh nhân di căn hạch của lần xét nghiệm hạch tiếp theo sẽ gồm cả bệnh nhân di căn hạch của những lần xét nghiệm trước (phương pháp cộng dồn) Trong nhóm nghiên cứu này chúng tôi có 16 bệnh nhân thì 11 bệnh nhân di căn hạch, 5 bệnh nhân không di căn hạch
Trang 10Bảng 3.9 Liên quan tỷ lệ BN di căn hạch với số hạch có kích thước lớn nhất được xét nghiệm
*: tỷ lệ % BN di căn hạch so với tổng số BN di căn hạch (11 BN)
#: tỷ lệ % BN được chẩn đoán đúng giai đoạn hạch so với tổng số 16 BN
Nhận xét: phần lớn BN di căn hạch (10/11) được xác định sau khi xét nghiệm 7 hạch lớn nhất
đầu tiên và như vậy số BN được chẩn đoán đúng giai đoạn hạch đạt gần tối đa (15/16) BN di căn hạch cuối cùng được xác định khi xét nghiệm đến hạch thứ 15 (BN này cũng chỉ có duy nhất 1 hạch di căn trong tổng số 15 hạch vét được)
3.1.3 Quan hệ thời gian sống di căn
Bảng 3.10 Thời gian sống thêm theo giai đoạn Dukes
p (logrank)
Trang 11Biểu đồ 3.3 Thời gian sống thêm theo giai đoạn Dukes
Dukes A: tại 60 tháng tỷ lệ sống là 100%
Dukes B:
Tại 6 tháng, tỷ lệ sống là 100% Tại 36 tháng, tỷ lệ sống là 86,5% Tại 12 tháng, tỷ lệ sống là 100% Tại 48 tháng, tỷ lệ sống là 78,4% Tại 24 tháng, tỷ lệ sống là 97,1% Tại 60 tháng, tỷ lệ sống là 58,8% Dukes C:
Tại 6 tháng, tỷ lệ sống là 97,6% Tại 36 tháng, tỷ lệ sống là 58,7% Tại 12 tháng, tỷ lệ sống là 83,7% Tại 48 tháng, tỷ lệ sống là 55,1% Tại 24 tháng, tỷ lệ sống là 68,2% Tại 60 tháng, tỷ lệ sống là 55,1% Bảng 3.11 Liên quan giữa tình trạng hạch và thời gian sống thêm sau mổ
Tình trạng hạch Số BN
(*)
Thời gian sống trung bình (tháng)
Tỷ lệ sống 5 năm (%)
p (logrank)
40 30
20 10
Trang 12bỏ chặng
Di căn hạch
không bỏ chặng
Ghi chú: - (*): số bệnh nhân tử vong
- Số trong ngoặc vuông là thời điểm kết thúc nghiên cứu
Nhận xét:
Có sự khác biệt có ý nghĩa về thời gian sống giữa:
Nhóm BN có di căn hạch và không có di căn hạch
Nhóm BN có di căn hạch nhóm 1, nhóm 2 và nhóm 3
Nhóm BN di căn hạch bỏ chặng và di căn hạch không bỏ chặng
Không có sự khác biệt có ý nghĩa về thời gian sống giữa các bệnh nhân có số lượng hạch di căn khác nhau
Biểu đồ 3.4 Thời gian sống thêm ở BN di căn và không di căn hạch
Thêi gian sèng
6050
4030
2010