1. Trang chủ
  2. » Giáo Dục - Đào Tạo

(TIỂU LUẬN) đề tài khai phá dữ liệu tỉ lệ mắc và tử vong do virus covid 19 bằng thuật toán phân cụm k means

15 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Khai phá dữ liệu tỉ lệ mắc và tử vong do virus covid 19 bằng thuật toán phân cụm k-means
Tác giả Nguyễn Văn Thản
Người hướng dẫn Đoàn Trung Sơn, Nguyễn Thị Khánh Trâm
Trường học Trường Đại học Kiến Trúc Hà Nội
Chuyên ngành Khoa Công Nghệ Thông Tin
Thể loại đề tài
Thành phố Hà Nội
Định dạng
Số trang 15
Dung lượng 851,86 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Trường Đại học Kiến Trúc Hà NộiKhoa Công Nghệ Thông Tin Đề tài: KHAI PHÁ DỮ LIỆU TỈ LỆ MẮC VÀ TỬ VONG DO VIRUS COVID-19 BẰNG THUẬT TOÁN PHÂN CỤM K-MEANS Giảng viên hướng dẫn: Đoàn Trung

Trang 1

Trường Đại học Kiến Trúc Hà Nội

Khoa Công Nghệ Thông Tin

Đề tài: KHAI PHÁ DỮ LIỆU TỈ LỆ MẮC VÀ TỬ VONG

DO VIRUS COVID-19 BẰNG THUẬT TOÁN PHÂN CỤM K-MEANS

Giảng viên hướng dẫn: Đoàn Trung Sơn

Nguyễn Thị Khánh Trâm Sinh viên thực hiện: Nguyễn Văn Thản

Trang 2

Nội dung chính 01

Chương 1

TỔNG QUAN ĐỀ TÀI

02 Chương 2

CƠ SỞ LÝ THUYẾT

03 Chương 3

CHƯƠNG TRÌNH

04 Chương 4

KẾT LUẬN

Trang 3

I TỔNG QUAN ĐỀ TÀI

Ý Nghĩa Đề Tài nghiên cứu

Trang 4

Mục Tiêu Đề Tài:

Sử dụng phương pháp và nghiên cứu hồi cứu với sự hỗ trợ chuyên môn của các bác sĩ chuyên khoa, đề tài tiến hành nghiên cứu trên

cơ sở thuật toán phân cụm trong khai phá dữ liệu

Trang 5

Đối tượng và phương pháp nghiên cứu

Đối tượng nghiên cứu:

Phương pháp nghiên cứu:

Sử dụng phương pháp và nghiên cứu hồi cứu với sự hỗ trợ chuyên môn của các bác sĩ chuyên khoa, đề tài tiến hành nghiên cứu trên cơ sở thuật toán phân cụm trong khai phá dữ liệu.

Trang 6

Ý Nghĩa Đề T ài

-Đánh giá tỷ lệ nhiễm , chết do virus và

phát hiện bệnh

Góp phần chuẩn đoán sớm, điều trị

- Với sự trợ giúp của máy tính, đề tài đóng góp một biện pháp thực hiện hỗ trợ các cán

bộ y tế đánh giá bệnh cho bệnh nhân.

đúng cho bệnh nhân

Trang 7

Cơ sở dữ liệu Y khoa Khái niệm về khai phá dữ

liệu II.CƠ SỞ LÝ THUYẾT

Kỹ thuật phân cụm trong

Khai phá dữ liệu

Thuật Toán

K-Means

Trang 8

Cơ sở dữ liệu Y khoa

Đại dịch COVID-19 là một đại dịch bệnh truyền nhiễm với tác nhân là virus SARS-CoV-2, đang diễn ra trên phạm vi toàn cầu.Khởi nguồn vào tháng 12 năm 2019 với tâm dịch đầu tiên được ghi nhận tại thành phố Vũ Hán thuộc miền Trung Trung Quốc, bắt nguồn từ một nhóm người mắc viêm phổi không rõ nguyên nhân Các nhà khoa học Trung Quốc đã tiến hành nghiên cứu và phân lập được một chủng loại corona virus mới, được Tổ chức Y tế Thế giới lúc đó tạm thời gọi là 2019-nCoV, có trình tự gen giống với SARS-CoV trước đây với mức tương đồng lên tới 79,5%

Trang 9

Khái niệm về khai phá dữ liệu

Data mining – khai phá dữ liệu là quá trình phân loại, sắp xếp các tập

hợp dữ liệu lớn để xác định các mẫu và thiết lập các mối liên hệ nhằm giải quyết các vấn đề nhờ phân tích dữ liệu Các MCU khai phá dữ liệu cho phép các doanh nghiệp có thể dự đoán được xu hướng tương lai

Quá trình khai phá dữ liệu là một quá trình phức tạp bao gồm kho dữ liệu chuyên sâu cũng như các công nghệ tính toán Hơn nữa, Data Mining không chỉ giới hạn trong việc trích xuất dữ liệu mà còn được sử dụng để chuyển đổi, làm sạch, tích hợp dữ liệu và phân tích mẫu

Trang 10

Kỹ thuật phân cụm trong Khai phá dữ liệu

Phân cụm là kỹ thuật rất quan trọng

trong khai phá dữ liệu, nó thuộc lớp các phương pháp Unsupervised Learning trong Machine Learning Có rất nhiều định nghĩa khác nhau về kỹ thuật này, nhưng về bản chất ta có thể hiểu phân cụm là các qui trình tìm cách nhóm các đối tượng đã cho vào các cụm (clusters), sao cho các đối tượng trong cùng 1 cụm tương tự (similar) nhau và các đối tượng khác cụm thì không tương tự (Dissimilar) nhau

Trang 11

Thuật Toán K-Means

K-Means là thuật toán rất quan trọng và được sử dụng phổ biến trong kỹ thuật phân cụm Tư tưởng chính của thuật toán K-Means là tìm cách phân nhóm các đối tượng (objects) đã cho vào K cụm (K

là số các cụm được xác đinh trước, K nguyên dương) sao cho tổng bình phương khoảng cách giữa các đối tượng đến tâm nhóm (centroid ) là nhỏ nhất

Trang 12

Thuật toán K-Means thực hiện qua các bước chính

sau:

1 Chọn ngẫu nhiên K tâm (centroid) cho K cụm (cluster) Mỗi cụm được đại diện bằng các tâm của cụm.

Euclidean)

Trang 13

III CHƯƠNG TRÌNH

WEKA là một phần mềm khai tháᴄ dữ liệu mã nguồn mở đượᴄ phát triển tại Đại họᴄ Wiᴄhita Giống như RapidMiner, Weka không ᴄó mã hóa

ᴠà ѕử dụng GUI đơn giản Sử dụng Weka, bạnử dụng GUI đơn giản Sử dụng Weka, bạn

ᴄó thể gọi trựᴄ tiếp ᴄáᴄ thuật toán họᴄ máу hoặᴄ nhập ᴄhúng bằng mã Jaᴠa Nó ᴄung ᴄấp một loạt ᴄáᴄ ᴄông ᴄụ như trựᴄ quan hóa, tiền хử lý,ử lý, phân loại, phân ᴄụm, ᴠ.ᴠ.

Trang 14

IV Kết Luận

Sau thời gian thực hiện, em đã thực hiện được một số kết quả sau:

• Tìm hiểu về K-means giải quyết bài toán phân cụm người mắc bệnh và chết trên từng tỉnh thành.

Em đã tìm hiểu lý thuyết xác suất đến thuật toán K-means Tuy độ chính xác còn chưa cao do bản chất của phương pháp cũng như tập dữ liệu chưa đủ lớn mong thầy cô giúp đỡ để bài toán của chúng em được hoàn thiện hơn.

Trang 15

Thank For Watching

Ngày đăng: 08/12/2022, 03:38

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w