1. Trang chủ
  2. » Luận Văn - Báo Cáo

Dự đoán bệnh ung thư tiền liệt tuyến bằng cây quyết định (tt)

10 13 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 10
Dung lượng 783,66 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Với sự hỗ trợ của công nghệ, vấn đề xử lý các dữ liệu từ hàng ngàn bệnh nhân cùng các kỹ thuật thống kê, phân tích, so sánh, khai phá dữ liệu sẽ giúp đỡ rất nhiều để giúp bác sĩ đưa ra q

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

-NGUYỄN MẠNH HÙNG

DỰ ĐOÁN BỆNH UNG THƯ TIỀN LIỆT TUYẾN

BẰNG CÂY QUYẾT ĐỊNH

Chuyên ngành: HỆ THỐNG THÔNG TIN

Mã số: 60.48.01.04

TÓM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI - 2016

Trang 2

Luận văn được hoàn thành tại:

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Người hướng dẫn khoa học: TS.NGUYỄN DUY PHƯƠNG

Phản biện 1: ……… Phản biện 2: ………

Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông

Vào lúc: giờ ngày tháng năm

Có thể tìm hiểu luận văn tại:

- Thư viện của Học viện Công nghệ Bưu chính Viễn thông

Trang 3

1

MỞ ĐẦU

Trong thời buổi hiện đại với môi trường ô nhiễm cùng với chế độ sống, sinh hoạt của con người thiếu khoa học thì căn bệnh ung thư càng ngày càng gia tăng Theo Tiến sĩ Roaslie David – trường đại học Manchester – Anh và Tiến sĩ Michael Zimmermann – trường đại học Villanova trong nghiên cứu của mình đã khẳng định: cuộc sống xã hội thời hiện đại đã góp phần đẩy mạnh sự hình thành của nhiều yếu tố gây ung thư Theo dự báo của các nhà khoa học Anh, thế kỷ 21, ung thư tiếp tục là căn bệnh có tỉ lệ tử vong cao trên thế giới

Việc phòng tránh và điều trị sớm sẽ góp phần đáng kể tỉ lệ tử vong do ung thư gây ra Việc phòng tránh ung thư cần nỗ lực chủ yếu từ yếu tố con người Nhưng khi đã phát hiện

ra được ung thư thì phải có sự hỗ trợ tốt nhất từ bác sĩ cùng những công nghệ hỗ trợ từ máy móc, công nghệ để loại bỏ được căn bệnh quái ác này Trong quá trình kiểm tra, theo dõi thì quyết định được đưa ra từ bác sĩ để áp dụng phương pháp điều trị có khả năng chữa trị cao nhất đòi hỏi kiến thức cũng như kinh nghiệm từ nhiều năm chữa bệnh cũng như học hỏi từ nhiều người trong ngành Với sự hỗ trợ của công nghệ, vấn đề xử lý các dữ liệu từ hàng ngàn bệnh nhân cùng các kỹ thuật thống kê, phân tích, so sánh, khai phá dữ liệu sẽ giúp đỡ rất nhiều để giúp bác sĩ đưa ra quyết định chữa bệnh phù hợp nhất

Khai phá dữ liệu được coi là: “Một trong những phát triển mang tính cách mạng nhất trong thập kỷ tới” theo tạp chí công nghệ trực tuyến ZDNet News (ngày 08 tháng 2 năm 2001) Một trong những yêu cầu có ý nghĩa to lớn được lựa chọn khai phá dữ liệu là trong vấn đề y khoa

Đề tài “KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH VÀ ÁP DỤNG VÀO DỰ ĐOÁN VẤN ĐỀ UNG THƯ TIỀN LIỆT TUYẾN” thực hiện trong khuôn khổ luận văn thạc sỹ ngành công nghệ thông tin được thực hiện nhằm sử dụng kỹ thuật khai phá dữ liệu với phương pháp cây quyết định để áp dụng vào việc đưa ra quyết định phương pháp điều trị của bác sĩ đối với bệnh nhân ung thư tiền liệt tuyến

Mục tiêu luận văn

Nghiên cứu các phương pháp khai phá dữ liệu và tập trung vào phương pháp cây quyết định cùng các thuật toán sử dụng phương pháp cây quyết định Mục đích của luận văn giúp đưa ra quyết định cho việc chọn lựa phương pháp chữa bệnh đối với các bệnh nhân ung thư tiền liệt tuyến Giúp cho việc chữa trị đạt hiệu quả, có khả năng lành bệnh cao

Đối tượng và phạm vi nghiên cứu

Trang 4

Đối tượng nghiên cứu:


- Các phương pháp khai phá dữ liệu.


- Dữ liệu của bệnh nhân ung thư tiền liệt tuyến 


Phạm vi nghiên cứu:


- Các kỹ thuật trong khai phá dữ liệu.


- Các thuật toán trong phương pháp cây quyết định 


Phương pháp nghiên cứu

Lý thuyết:


- Tìm hiểu tổng quan về khai phá dữ liệu.


- Tìm hiểu các kỹ thuật khai phá dữ liệu.


- So sánh các kỹ thuật khai phá dữ liệu.


- Tìm hiểu các thuật toán trong phương pháp cây quyết định

Thực nghiệm:


- Cài đặt phần mềm để áp dụng phương pháp cây quyết định

- Áp dụng phương pháp cây quyết định cho việc dự đoán

- Đánh giá kết quả đạt được

Ngoài phần mở đầu và kết luận, luận văn được chia làm 3 chương, cụ thể nội dung các chương như sau: 


Chương 1: Tổng quan về khai phá dữ liệu trong lĩnh vực y khoa Những thành tựu đã đạt được của khai phá dữ liệu trong lĩnh vực này

Chương 2: Nghiên cứu, tìm hiểu các thuật toán thường được sử dụng trong việc khai phá dữ liệu Biết được điểm mạnh, điểm yếu của mỗi thuật toán

Chương 3: Tập trung nghiên cứu thuật toán Cây quyết định và áp dụng vào xử lý dữ liệu của bệnh nhân ung thư tiền liệt tuyến

Trang 5

3

CHƯƠNG 1 - GIỚI THIỆU ĐỀ TÀI

1.1 Giới thiệu về khai phá dữ liệu

Quá trình phát hiện tri thức từ cơ sở dữ liệu

Bước thứ nhất là tìm hiểu lĩnh vực ứng dụng và hình thành bài toán, bước này sẽ quyết định cho việc rút ra được các tri thức hữu ích và cho phép chọn các phương pháp khai phá dữ liệu thích hợp với mục đích ứng dụng và bản chất của dữ liệu

Bước thứ hai là thu thập và xử lý thô, còn được gọi là tiền xử lý dữ liệu nhằm loại bỏ nhiễu,

xử lý việc thiếu dữ liệu, biến đổi dữ liệu và rút gọn dữ liệu nếu cần thiết, bước này thường chiếm nhiều thời gian nhất trong toàn bộ qui trình phát hiện tri thức

Quá trình khai phá dữ liệu

1.2 Ứng dụng của khai phá dữ liệu

Ứng dụng trong phân tích dữ liệu tài chính (Financial Data Analysis)

Ứng dụng trong phân tích dữ liệu tài chính (Financial Data Analysis)

Ứng dụng trong công nghiệp viễn thông (Telecommunication Industry)

Ứng dụng trong phân tích dữ liệu sinh học (Biological Data Analysis)

Ứng dụng trong phân tích dữ liệu sinh học (Biological Data Analysis)

1.3 Ứng dụng của khai phá dữ liệu trong y học

Gian lận trong bảo hiểm y tế:

Chẩn đoán ung thư:

1.4 Kết luận

Chẩn đoán y khoa được coi là một nhiệm vụ phức tạp nhưng có nhiều ý nghĩa Nó yêu cầu sự chính xác và hiệu quả Quyết định lâm sàng được bác sĩ đưa ra dựa trên trực giác và kinh nghiệm mà không phải thu từ một tập dữ liệu đầy đủ Điều này dẫn đến những kết quả

Trang 6

sai sót hoặc thừa không mong muốn đồng thời đi cùng là chi phí chữa bệnh cao mà chất lượng không được cao Khai phá dữ liệu có tiềm năng để sinh ra môi trường tri thức cao giúp cải thiện chất lượng của các quyết định lâm sàng Công việc đề xuất có thể được tăng cường và mở rộng trong việc tự động ra quyết định cho bác sĩ đối với bệnh nhân

Để áp dụng khai phá dữ liệu trong y khoa gặp nhiều thách thức và cản trở Tuy nhiên đối với nhiều chương trình đã được áp dụng vào thực tế giúp thúc đẩy các tổ chức khác tăng cường khai thác điểm mạnh của khai phá dữ liệu

Trang 7

5

CHƯƠNG 2 – CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU 2.1 Tìm hiểu về K-means

2.1.1 Giới thiệu về K-means

Mục đích của phân cụm là tìm ra bản chất bên trong các nhóm của dữ liệu Các thuật toán phân cụm (Clustering Algorithms) đều sinh ra các cụm Tuy nhiên, không có tiêu chí nào là được xem là tốt nhất để đánh hiệu của của phân tích phân cụm, điều này phụ thuộc vào mục đích của phân cụm như: giảm bớt dữ liệu, cụm tự nhiên (natural clusters), cụm hữu dụng (useful clusters), phát hiện phần không liên quan (outlier detection)

2.1.2 K-means trong thực tiễn

Kỹ thuật phân cụm có thể áp dụng trong rất nhiều lĩnh vực như:

- Tiếp thị: Xác định các nhóm khách hàng (khách hàng tiềm năng, khách hàng giá trị, phân loại và dự đoán hành vi khách hàng) sử dụng sản phẩm hay dịch vụ của công ty

để giúp công ty có chiến lược kinh doanh hiệu quả hơn

- Sinh học: Phận nhóm động vật và thực vật dựa vào các thuộc tính của chúng

- Thư viện: Theo dõi độc giả, sách, dự đoán nhu cầu của độc giả

- Bảo hiểm, tài chính: Phân nhóm các đối tượng sử dụng bảo hiểm và các dịch vụ tài chính, dự đoán xu hướng của khách hàng, phát hiện gian lận tài chính

- Internet: Phân loại tài liệu, phân loại người dùng web

2.2 Tìm hiểu về EM (Expectation maximization)

2.2.1 Giới thiệu về EM

Phương pháp này hữu ích cho tác vụ gom nhóm và hình thành mô hình qua các tham

số Khi biết được các nhóm và tham số của mô hình, ta có thể suy luận ra điểm dữ liệu mới thuộc về nhóm nào

EM cũng có một vài điểm hạn chế

- Thứ nhất, EM chạy nhanh ở các vòng lặp ban đầu nhưng chậm hơn ở các vòng lặp sau

Thứ hai, EM không phải lúc nào cũng tìm được tham số tối ưu và bị mắc kẹt ở điểm tối ưu cục bộ (local optima) thay vì toàn cục (global optima)

Trang 8

2.2.2 EM trong thực tiễn

EM được thường xuyên sử dụng cho phân cụm dữ liệu trong học máy và thị giác máy tính Trong xử lý ngơn ngữ tự nhiên, hai ví dụ nổi bật của thuật tốn là thuật tốn Baum-Welch và thuật tốn trong-ngồi cho ngữ pháp trong ngữ cảnh thơng thường

2.3 Tìm hiểu về Nạve Bayes

2.3.1 Giới thiệu về Nạve Bayes

Định lý Bayes cho phép tính xác suất xảy ra của một sự kiện ngẫu nhiên A khi biết

sự kiện liên quan B đã xảy ra Xác suất này được ký hiệu là P(A|B), và đọc là "xác suất của

A nếu cĩ B" Đại lượng này được gọi xác suất cĩ điều kiện hay xác suất hậu nghiệm vì nĩ được rút ra từ giá trị được cho của B hoặc phụ thuộc vào giá trị đĩ

2.3.2 Nạve Bayes trong thực tiễn

Dự đốn theo thời gian thực

Dự đốn nhiều lớp

2.4 Tìm hiểu về Cây quyết định

2.4.1 Giới thiệu về Cây quyết định

Cây quyết định là một phương pháp rất mạnh và phổ biến cho cả hai nhiệm vụ của khai phá

dữ liệu là phân loại và dự báo Mặt khác, cây quyết định cịn cĩ thể chuyển sang dạng biểu diễn tương đương dưới dạng tri thức là các luật If-Then

2.4.2 Cây quyết định trong thực tiễn

- Phát triển phần mềm: Cây hồi quy được sử dụng để ước lượng lực lượng cần sử dụng

để phát triển một mơ đun

- Vật lý: Cây quyết định được sử dụng để phát hiện các hạt vật lý

2.5 Kết luận chương

Ở chương hai của luận văn, học viên đã tìm hiểu được 4 thuật tốn Những ưu điểm, nhược điểm khi được áp dụng vào thực tiễn Từ những tìm hiểu về những thuật tốn, học viên tập trung hơn vào thuật tốn Cây quyết định và muốn áp dụng thuật tốn Cây quyết định vào thực hiện trên dữ liệu bệnh nhân ung thư tiền liệt tuyến

Trang 9

7

CHƯƠNG 3 – ÁP DỤNG CÂY QUYẾT ĐỊNH TRONG THỰC TIỄN VỚI DỮ LIỆU BỆNH NHÂN UNG THƯ TIỀN LIỆT TUYẾN 3.1 Cài đặt phần mềm

3.2 Chuẩn bị dữ liệu bệnh nhân ung thư tiền liệt tuyến

Trong phạm vi của luận văn, dữ liệu được lấy từ phòng thí nghiệm của Stamey và đã được chuẩn bị theo dạng text (prostate.csv)

Kết quả sinh thiết là biến n = 97 người đàn ông ở độ tuổi khác nhau Thông tin bao gồm

- Điểm Gleason: là các điểm được gán bởi hai khối u phổ biến, biên độ từ 2 đến 10;

trong bộ dữ liệu này, biên độ từ 6 đến 9

- Kháng nguyên đặc hiệu của tiền liệt tuyến (PSA): kết quả từ phòng thí nghiệm

Lượng tăng sản tuyến tiền luyệt lành tính (bph): kích thước của tuyến tiền luyệt

3.3 Áp dụng phương pháp cây quyết định

3.4 Kết quả thử nghiệm

Sau khi thực nghiệm với phương pháp cây quyết định trên tập dữ liệu bệnh nhân ung thư tiền liệt tuyến, học viên đưa ra kết luận thuật toán cây quyết định đã hỗ trợ rất tốt việc

xử lý dữ liệu để phân chia các biểu diễn của khối u tương ứng với từng bệnh nhân vào các vùng không gian để đưa ra quyết định xử lý cho từng bệnh nhân

3.5 Kết luận chương

Ở chương ba của luận văn học viên đã áp dụng thuật toán cây quyết định vào xử lý dữ liệu của bệnh nhân ung thư tiền liệt tuyến Đồng thời đi sâu vào cách sử dụng thuật toán Cây quyết định cho dữ liệu bệnh nhân

Trang 10

KẾT LUẬN

Việc nghiên cứu các thuật toán để biết được điểm mạnh điểm yếu của mỗi thuật toán trong việc khai phá dữ liệu và ứng dụng thực tế của những thuật toán Luận văn tập trung hơn vào thuật toán Cây quyết định và áp dụng vào dữ liệu cụ thể là dữ liệu bệnh nhân ung thư tiền liệt tuyến Sau luận văn thu được cách áp dụng thuật toán Cây quyết định vào xử lý

dữ liệu bệnh nhân

Một số kết quả đạt được:

Nghiên cứu về các thuật toán K-means, EM, Naive Bayes, Cây quyết định để biết được cơ chế hoạt động, ứng dụng và phương pháp sử dụng các thuật toán

Cài đặt và sử dụng R, RStudio, R commander với dữ liệu prostate.csv Đánh giá độ chính xác của thuật toán CART

Sử dụng dữ liệu bệnh nhân ung thư tiền liệt tuyến và áp dụng thuật toán Cây quyết định vào việc xử lý dữ liệu và dự đoán

Một số hướng phát triển của đề tài:

Trong khuôn khổ của luận văn, do thời gian không cho phép nên chỉ dừng lại ở việc

áp dụng thuật toán Cây quyết định vào việc xử lý dữ liệu và cách sử dụng Cây quyết định

Để tiếp tục cải thiện các hạn chế, trong tương lai luận văn sẽ có xác định hướng đi để tiếp tục và nâng cao hiệu quả của việc nghiên cứu:

Tìm hiểu nhu cầu thực tế để từ đó cải tiến chương trình, cài đặt lại bài toán theo các thuật toán đã nghiên cứu để làm việc tốt hơn với các cơ sở dữ liệu lớn và có thể có được sản phẩm trên thị trường

Phân tích và chuẩn bị dữ liệu từ các bệnh viện trong nước đối với các bệnh khác như chứng đau nửa đầu, …

Tìm hiểu và sử dụng các thuật toán để so sánh hiệu quả cũng như độ chính xác của các thuật toán

Ngày đăng: 19/03/2021, 17:48

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w