1. Trang chủ
  2. » Giáo Dục - Đào Tạo

KHAI PHÁ DỮ LIỆU DỰ BÁO NGUY CƠ TIỂU ĐƯỜNG GIAI ĐOẠN đầu BẰNG THUẬT TOÁN LUẬT KẾT HỢP VÀ PHÂN LỚP

32 47 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Khai Phá Dữ Liệu Dự Báo Nguy Cơ Tiểu Đường Giai Đoạn Đầu Bằng Thuật Toán Luật Kết Hợp Và Phân Lớp
Tác giả Nguyễn Đồn Xuân Hiếu, Nguyễn Thị Hạnh, Đặng Linh Trang, Nguyễn Tiến Đạt
Người hướng dẫn TS. Trần Mạnh Tuấn
Trường học Trường Đại Học Thủy Lợi
Chuyên ngành Công Nghệ Thông Tin
Thể loại báo cáo học phần
Năm xuất bản 2021
Thành phố Hà Nội
Định dạng
Số trang 32
Dung lượng 1,15 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

TRƯỜNG ĐẠI HỌC THỦY LỢIKHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO HỌC PHẦN KHAI PHÁ DỮ LIỆU ĐỀ TÀI: KHAI PHÁ DỮ LIỆU DỰ BÁO NGUY CƠ TIỂU ĐƯỜNG GIAI ĐOẠN ĐẦU BẰNG THUẬT TOÁN LUẬT KẾT HỢP VÀ PHÂN LỚ

Trang 1

TRƯỜNG ĐẠI HỌC THỦY LỢI

KHOA CÔNG NGHỆ THÔNG TIN

BÁO CÁO HỌC PHẦN KHAI PHÁ DỮ LIỆU

ĐỀ TÀI: KHAI PHÁ DỮ LIỆU DỰ BÁO NGUY CƠ TIỂU ĐƯỜNG GIAI ĐOẠN ĐẦU BẰNG THUẬT TOÁN LUẬT KẾT HỢP VÀ PHÂN LỚP

GIẢNG VIÊN HƯỚNG DẪN: TS TRẦN MẠNH TUẤN

Nhóm sinh viên thực hiện:

Nguyễn Đoàn Xuân Hiếu 175A071206 59TH3

Hà Nội, tháng 7 năm 2021

Trang 2

PHIẾU CHẤM ĐIỂM

Sinh viên thực hiện:

Nguyễn Đồn Xuân Hiếu Tìm hiểu phương pháp khai phá tập mục phổ biến

(Apriori) và Đánh giá mơ hình bằng phương pháp

Hold-out

Nguyễn Thị Hạnh Phân lớp bằng thuật tốn NạveBayes

Đặng Linh Trang Khai phá luật kết hợp bằng thuật tốn Apriori

Nguyễn Tiến Đạt Phân lớp bằng thuật tốn J48

Giảng viên chấm:

Trang 3

MỤC LỤC

CHƯƠNG 2 Dữ liệu đầu vào của tập dữ liệu dự báo nguy cơ bệnh tiểu đường giai

CHƯƠNG 3 Khai phá luật kết hợp cho tập dữ liệu dự báo nguy cơ bệnh tiểu đường

4.2.1 Thuật toán xây dựng cây quyết định 17

4.4 Tiền xử lý dữ liệu cho thuật toán phân lớp 20

Trang 4

4.6 Biểu diễn tri thức 264.6.1 Phát hiện tri thức sau khi dùng thuật tốn Nạve Bayes 264.6.2 Phát hiện tri thức sau khi dùng thuật tốn cây quyết định J48 264.7 Đánh giá mơ hình bằng phương pháp Hold-out: 26

Lời nĩi đầu

Trong thời buổi hiện đại ngày nay, cơng nghệ thơng tin cũng như những ứng dụng của

nĩ khơng ngừng phát triển, lượng thơng tin và cơ sở dữ liệu được thu thập và lưu trữcũng tích lũy ngày một nhiều lên Con người cũng vì thế mà cần cĩ thơng tin với tốc

độ nhanh nhất để đưa ra quyết định dựa trên lượng dữ liệu khổng lồ đã cĩ Các phươngpháp quản trị và khai thác cơ sở dữ liệu truyền thống ngày càng khơng đáp ứng đượcthực tế, vì thế, một khuynh hướng kỹ thuật mới là Kỹ thuật phát hiện tri thức và khaiphá dữ liệu nhanh chĩng được phát triển Khai phá dữ liệu đã và đang được nghiêncứu, ứng dụng trong nhiều lĩnh vực khác nhau ở các nước trên thế giới Ở Việt Nam,

kỹ thuật này đang được nghiên cứu và dần đưa vào ứng dụng Khai phá dữ liệu là mộtbước trong quy trình phất hiện tri thức Hiện nay, mọi người khơng ngừng tìm tịi các

kỹ thuật để thực hiện khai phá dữ liệu một cách nhanh nhất và cĩ được kết quả tốtnhất Trong bài tập lớn này, chúng em tìm hiểu và trình bày về một kỹ thuật trong khai

phá dữ liệu để phân lớp dữ liệu cũng như tổng quan về khai phá dữ liệu, với đề tài “dự báo nguy cơ tiểu đường giai đoạn đầu (UCI) bằng thuật tốn phân lớp và luật kết hợp” Trong quá trình làm bài tập lớn này, chúng em xin gửi lời cảm ơn đến thầy giáo

Nguyễn Huy Đức Thầy đã rất tận tình hướng dẫn chi tiết cho chúng em, những kiếnthức thầy cung cấp rất hữu ích Chúng em rất mong nhận được những gĩp ý từ thầy.Chúng em xin chân thành cảm ơn!

Trang 5

CHƯƠNG 1 Tổng quan về Khai phá dữ liệu

1.1 Khái niệm cơ bản:

Khai phá dữ liệu là một quá trình xác định các mẫu tiềm ẩn có tính hợp lệ, mới lạ, cóích và có thể hiểu được trong một khối dữ liệu rất lớn

Khai phá tri thức từ CSDL ( Knowledge Discovery in Database) Khai phá tri thức từCSDL gồm 5 bước:

● B1: Lựa chọn CSDL

● B2: Tiền xử lý

● B3: Chuyển đổi

● B4: Khai phá dữ liệu

● B5: Diễn giải và đánh giá

Khai phá dữ liệu là 1 bước trong quá trình khai phá tri thức từ CSDL Các ứng dụngcủa khai phá dữ liệu Phát hiện tri thức và khai phá dữ liệu liên quan đến nhiều ngành,nhiều lĩnh vực: thống kê, trí tuệ nhân tạo, cơ sở dữ liệu, thuật toán, tính toán song song

và tốc độ cao, thu thập tri thức cho các hệ chuyên gia, quan sát dữ liệu Đặc biệt pháthiện tri thức và khai phá dữ liệu rất gần gũi với lĩnh vực thống kê, sử dụng các phươngpháp thống kê để mô hình dữ liệu và phát hiện các mẫu, luật Ngân hàng dữ liệu(Data Warehousing) và các công cụ phân tích trực tuyến (OLAP- On Line AnalyticalProcessing) cũng liên quan rất chặt chẽ với phát hiện tri thức và khai phá dữ liệu Khaiphá dữ liệu có nhiều ứng dụng trong thực tế, ví dụ như:

Bảo hiểm, tài chính và thị trường chứng khoán: phân tích tình hình tài chính và dự báogiá của các loại cổ phiếu trong thị trường chứng khoán Danh mục vốn và giá, lãi suất,

dữ liệu thẻ tín dụng, phát hiện gian lận, Thống kê, phân tích dữ liệu và hỗ trợ raquyết định Điều trị y học và chăm sóc y tế: một số thông tin về chuẩn đoán bệnh lưutrong các hệ thống quản lý bệnh viện Phân tích mối liên hệ giữa các triệu chứng bệnh,

Trang 6

chuẩn đoán và phương pháp điều trị (chế độ dinh dưỡng, thuốc, ) Sản xuất và chếbiến: Quy trình, phương pháp chế biến và xử lý sự cố Text mining và Web mining:Phân lớp văn bản và các trang Web, tóm tắt văn bản, Lĩnh vực khoa học: Quan sátthiên văn, dữ liệu gene, dữ liệu sinh vật học, tìm kiếm, so sánh các hệ gene và thôngtin di truyền, mối liên hệ gene và một số bệnh di truyền, Mạng viễn thông: Phân tíchcác cuộc gọi điện thoại và hệ thống giám sát lỗi, sự cố, chất lượng dịch vụ, Cácbước của quá trình khai phá dữ liệu Quy trình phát hiện tri thức thường tuân theo cácbước sau:

● Bước thứ nhất: Hình thành, xác định và định nghĩa bài toán Là tìm hiểu lĩnhvực ứng dụng từ đó hình thành bài toán, xác định các nhiệm vụ cần phải hoànthành Bước này sẽ quyết định cho việc rút ra được các tri thức hữu ích và chophép chọn các phương pháp khai phá dữ liệu thích hợp với mục đích ứng dụng

● Bước thứ ba: Khai phá dữ liệu, rút ra các tri thức Là khai phá dữ liệu, hay nóicách khác là trích ra các mẫu hoặc/và các mô hình ẩn dưới các dữ liệu Giaiđoạn này rất quan trọng, bao gồm các công đoạn như: chức năng, nhiệm vụ vàmục đích của khai phá dữ liệu, dùng phương pháp khai phá nào? Thông thường,các bài toán khai phá dữ liệu bao gồm: các bài toán mang tính mô tả - đưa ratính chất chung nhất của dữ liệu, các bài toán dự báo - bao gồm cả việc pháthiện các suy diễn dựa trên dữ liệu hiện có Tuỳ theo bài toán xác định được mà

ta lựa chọn các phương pháp khai phá dữ liệu cho phù hợp

● Bước thứ tư: Sử dụng các tri thức phát hiện được Là hiểu tri thức đã tìm được,đặc biệt là làm sáng tỏ các mô tả và dự đoán Các bước trên có thể lặp đi lặp lạimột số lần, kết quả thu được có thể được lấy trung bình trên tất cả các lần thực

Trang 7

hiện Các kết quả của quá trình phát hiện tri thức cĩ thể được đưa vào ứng dụngtrong các lĩnh vực khác nhau do các kết quả cĩ thể là các dự đốn

1.2 Một số kỹ thuật Khai phá dữ liệu

1.2.1 Kỹ thuật khai phá luật kết hợp

Trong khai phá dữ liệu, mục đích của luật kết hợp là tìm ra các mối quan hệ giữa cácđối tượng trong khối lượng lớn dữ liệu Để khai phá luật kết hợp cĩ rất nhiều thuậttốn, nhưng dùng phổ biến nhất là thuật tốn Apriori Đây là thuật tốn khai phá tậpphổ biến trong dữ liệu giao dịch để phát hiện các luật kết hợp dạng khẳng định nhịphân và được sử dụng để xác định, tìm ra các luật kết hợp trong dữ liệu giao dịch.Ngồi ra, cịn cĩ các thuật tốn FP-growth, thuật tốn Partition,…

1.2.2 Kỹ thuật phân lớp

Trong kỹ thuật phân lớp gồm cĩ các thuật tốn:

● Phân lớp bằng cây quyết định (giải thuật ID3, J48): phân lớp dữ liệu dựa trênviệc lập nên cây quyết định, nhìn vào cây quyết định cĩ thể ra quyết định dữliệu thuộc phân lớp nào Phân lớp dựa trên xác suất (Nạve Bayesian): dựa trênviệc giả định các thuộc tính độc lập mạnh với nhau qua việc sử dụng định lýBayes

● Phân lớp dựa trên khoảng cách (giải thuật K – láng giềng): làm như láng giềnglàm, dữ liệu sẽ được phân vào lớp của k đối tượng gần với dữ liệu đĩ nhất Phânlớp bằng SVM: phân lớp dữ liệu dựa trên việc tìm ra một siêu phẳng “tốt nhất”

để tách các lớp dữ liệu trên khơng gian nhiều chiều hơn

1.2.3 Kỹ thuật phân cụm

Phân cụm dữ liệu là cách phân bố các đối tượng dữ liệu vào các nhĩm/ cụm sao chocác đối tượng trong một cụm thì giống nhau hơn các phần tử khác cụm, gồm cĩ một sốphương pháp phân cụm cơ bản như:

● Phân cụm bằng phương pháp K-mean: tìm ra tâm của các cụm mà khoảng cáchcủa tâm đĩ đến các đối tượng, dữ liệu khác là ngắn

Trang 8

● Phân cụm trên đồ thị, ngoài ra khai phá dữ liệu có rất nhiều kỹ thuật, nhưng đây

là những kỹ thuật cơ bản và đơn giản trong khai phá dữ liệu mà chúng em đượctìm hiểu

CHƯƠNG 2 Dữ liệu đầu vào của tập dữ liệu dự báo nguy cơ bệnh tiểu đường giai đoạn đầu (nguồn UCI)

Bộ dữ liệu được sử dụng để khai phá dữ liệu là bộ dữ liệu dự báo nguy cơ tiểu đường

diabetes_data_upload.csv được cung cấp bởi learning-databases/00529/ diabetes_data_upload.csv

https://archive.ics.uci.edu/ml/machine-Số lượng thuộc tính: 17

Số lượng mẫu: 520

Bảng 2.1 Liệt kê các thuộc tính và các giá trị của từng thuộc tính trong tập dữ liệu

Sex (giới tính) Male (nam giới) Female (nữ giới) NominalPolyuria (đa niệu/đi tiểu nhiều) Yes (có) No (không) NominalPolydipsia (Thường xuyên khát

Sudden weight loss (giảm cân đột

Weakness (Thể trạng yếu) Yes (có) No (không) NominalPolyphagia (Ăn quá nhiều) Yes (có) No (không) NominalGenital thrush (Tưa miệng) Yes (có) No (không) NominalVisual blurring (Mờ thị giác) Yes (có) No (không) Nominal

Irritability (Dễ cáu gắt) Yes (có) No (không) NominalDelayed healing (Lâu lành vết

Partial paresis (Liệt một phần) Yes (có) No (không) NominalMuscle stiness (Cứng cơ) Yes (có) No (không) Nominal

Trang 9

Alopecia (Rụng lông tóc) Yes (có) No (không) NominalObesity (Béo phì) Yes (có) No (không) NominalClass (Phân loại) Positive (dương

3.1.2 Phương pháp khai phá tập mục phổ biến(Apriori)

Apriori là một giải thuật được R Agrawal, R Srikant đề xuất lần đầu vào năm 1994 nhằm khai phá tập mục phổ biến nhị phân Thuật toán này thực hiện lặp lại việc tìm

kiếm theo mức, sử dụng thông tin ở mức k để duyệt mức k+1 Đầu tiên, tập các mục

thường xuyên có độ dài là 1 được xây dựng bằng việc duyệt qua toàn bộ dữ liệu để đếm sự xuất hiện của từng phần tử và giá trị này phải lớn hơn hoặc bằng độ hỗ trợ nhỏ nhất(minsup) Kết quả của việc đếm này được ký hiệu là L1 Tiếp theo L1 này được sử dụng dụng để tìm L2 là tập mục thường xuyên có độ dài 2 Tác vụ này được thực hiện lặp lại đến khi không tìm được tập mục thường xuyên có độ dài k thỏa mãn điều kiện minsup Lưu ý rằng mỗi lần thực hiện việc tìm tập các mục thường xuyên L k yêu cầu

duyệt toàn bộ dữ liệu Từ tập mục thường xuyên này ta sinh ra luật kết hợp mạnh bằng cách tìm các luật trong tập mục thường xuyên thỏa mãn ngưỡng minconf

Độ hỗ trợ của một luât X Y là tỉ % các giao dịch trong T chứa cả X và Y cả X và Y

Support(XY) = ( X ∪Y ) count n = P(XY)

Độ tin cậy của luật X Y là tỉ lệ % các giao dịch trong T chứa cả X và Y trên tổng số các giao dịch trong T chỉ chứa X

Confidence(XY) = ( X ∪Y ) count

X count = P(XY | X)

Thuật toán Apriori

Trang 10

1 Duyệt toàn bộ CSDL giao dịch để tính giá trị hỗ trợ là phẩn tử của tập phổ biến tiềm năng C1 của 1-itemset, so sánh với minsup, để có được 1-itemset(L1)

2 L1 nối(phép join) L1 để sinh ra 2-itemset là tập phổ biến tiềm năng Loại bỏ các tập mục không phải là tập phổ biến thu được 2-itemset C2

3 Duyệt toàn bộ CSDL giao dịch để tính giá trị hỗ trợ của mỗi ứng viên 2-itemset, so sánh từng phần tử với minsup để thư được tập mục thường xuyên 2-itemset(L2)

4 Lặp lại từ bước 2 cho đến khi tập ứng cử tiềm năng C = ∅

5 Với mỗi mục phổ biến I, sinh tất cả các tập con s không rỗng của I

6 Với mỗi tập con s không rỗng của I, sinh ra các luật s => (I-s) nếu độ tin cậy

(Confidence) của nó minconf

3.1.3 Tiền xử lý dữ liệu

Trong bộ dữ liệu dự báo nguy cơ tiểu đường thuộc tính Age có kiểu dữ liệu là số mà thuật toán Apriori không làm việc với dữ liệu là số Chính vì vậy để áp dụng thuật toán Apriori với bộ dữ liệu trên ta cần áp dụng phương pháp rời rạc hóa dữ liệu cho thuộc tính Age và chuyển kiểu dữ liệu cho thuộc tính này từ Numeric trở thành Nominal Ta thấy thuộc tính Age có giá trị nhỏ nhất là 16 và giá trị lớn nhất là 90

Hình 3.1 Tập dữ liệu về bệnh tiểu đường trước khi được tiền xử lý

Trang 11

Hình 3.2 Tiền xử lý dữ liệu trên phần mềm Weka

Ở đây nhóm sẽ sử dụng Weka với bộ lọc weka.filters.unsupervised.Discretize để rời rạc hóa dữ liệu cho thuộc tính Age

Hình 3.3 Rời rạc hóa dữ liệu của thuộc tính tuổi trên phần mềm Weka

Trang 12

Nhóm sử dụng phương pháp chia giá trị của thuộc tính Age theo khoảng rộng và chia thành 3 bins.

Hình 3.4 Thuộc tính tuổi sau khi được tiền xử lý chia thành 3 bins

Chúng ta nhận được kết quả giá trị của thuộc tính Age đã được chuyển thành 3 giá trị

và từ kiểu dữ liệu Numeric đã được chuyển thành kiểu Nominal

Giá trị thứ nhất là (-inf-40.7]: thể hiển những người có độ tuổi nhỏ hơn hoặc bằng 40.7.Giá trị thứ hai là (-40.7-65.3]: thể hiện những người có độ tuổi trên 40.7 đến 65.3.Giá trị thứ 3 là (65.3-inf): thể hiện những người có độ tuổi lớn hơn 65.3

Trang 13

3.1.4 Khai phá dữ liệu

Hình 3.5 Sử dụng thuật toán Apriori

Chúng ta chọn Associate và sau đó lựa chọn thuật toán weka.associations.Apriori để khai phá dữ liệu luật kết hợp bằng thuật toán Apriori

Hình 3.6 Thiết lập các thông số minSup và minConf

Ở đây nhóm cài đặt thông số cho thuật toán Apriori là:

lowerBoundMinSupport là 0.3: Có nghĩa thuật toán chỉ lấy những tập phổ biến có độ hỗtrợ lớn hơn hoặc bằng 0.3

Trang 14

metricType là Confidence và minMetric là 0.9: Có nghĩa tập luật sẽ chỉ lấy những luật có

độ tin cậy lớn hơn hoặc bằng 0.9

numRules: Thuật toán sẽ chỉ lấy ra tối đa 20 luật có độ hỗ trợ lớn nhất và lớn hơn hoặc bằng lowerBoundMinSupport

Sau khi chạy thuật toán Apriori với thông số đã cài đặt trên chúng ta nhận được kết quảvới những thông số sau:

Hình 3.7 Kết quả sau khi chạy thuật toán Apriori – luật kết hợp

Minimum support: 0.35 (182 instances)

Minimum metric <confidence>: 0.9

Number of cycles performed: 13

Generated sets of large itemsets:

Size of set of large itemsets L(1): 29

Size of set of large itemsets L(2): 117

Size of set of large itemsets L(3): 73

Trang 15

Size of set of large itemsets L(4): 4

Best rules found:

1 Polyuria=Yes Polydipsia=Yes 193 ==> Class=Positive 193 <conf:(1)> lift:(1.63) lev:(0.14) [74] conv:(74.23)

2 Polyuria=Yes Alopecia=No 187 ==> Class=Positive 187 <conf:(1)> lift:(1.63) lev:(0.14)[71] conv:(71.92)

3 Polydipsia=Yes 233 ==> Class=Positive 225 <conf:(0.97)> lift:(1.57) lev:(0.16) [81] conv:(9.96)

4 Polyuria=Yes Obesity=No 202 ==> Class=Positive 195 <conf:(0.97)> lift:(1.57) lev:(0.14) [70] conv:(9.71)

5 Polydipsia=Yes Alopecia=No 191 ==> Class=Positive 184 <conf:(0.96)> lift:(1.57) lev:(0.13) [66] conv:(9.18)

6 Class=Negative 200 ==> Polydipsia=No 192 <conf:(0.96)> lift:(1.74) lev:(0.16) [81] conv:(9.96)

7 Polyuria=Yes 258 ==> Class=Positive 243 <conf:(0.94)> lift:(1.53) lev:(0.16) [84] conv:(6.2)

8 Sudden weight loss=No Genital thrush=No Irritability=No 203 ==> Obesity=No 191

<conf:(0.94)> lift:(1.13) lev:(0.04) [22] conv:(2.64)

9 Polyuria=No Polydipsia=No Obesity=No 199 ==> Irritability=No 187 <conf:(0.94)> lift:(1.24) lev:(0.07) [36] conv:(3.71)

10 Sudden weight loss=No Muscle stiffness=No 203 ==> Obesity=No 190 <conf:

(0.94)> lift:(1.13) lev:(0.04) [21] conv:(2.45)

11 Sudden weight loss=No Irritability=No 245 ==> Obesity=No 228 <conf:(0.93)> lift:(1.12) lev:(0.05) [24] conv:(2.3)

12 Class=Negative 200 ==> Polyuria=No 185 <conf:(0.93)> lift:(1.84) lev:(0.16) [84] conv:(6.2)

13 Polyuria=No Irritability=No Obesity=No 203 ==> Polydipsia=No 187 <conf:(0.92)> lift:(1.67) lev:(0.14) [74] conv:(5.35)

14 Polyuria=No Polydipsia=No Irritability=No 203 ==> Obesity=No 187 <conf:(0.92)> lift:(1.11) lev:(0.04) [18] conv:(2.02)

15 Class=Negative 200 ==> Irritability=No 184 <conf:(0.92)> lift:(1.21) lev:(0.06) [32] conv:(2.85)

16 Polyuria=No Polydipsia=No 222 ==> Irritability=No 203 <conf:(0.91)> lift:(1.21) lev:(0.07) [34] conv:(2.69)

Trang 16

17 Itching=No Delayed healing=No 203 ==> Genital thrush=No 185 <conf:(0.91)> lift:(1.17) lev:(0.05) [27] conv:(2.38)

18 Polydipsia=No Irritability=No 240 ==> Obesity=No 217 <conf:(0.9)> lift:(1.09) lev:(0.03) [17] conv:(1.69)

19 Polyuria=No Irritability=No 225 ==> Polydipsia=No 203 <conf:(0.9)> lift:(1.63) lev:(0.15) [78] conv:(4.38)

20 Polyuria=No Irritability=No 225 ==> Obesity=No 203 <conf:(0.9)> lift:(1.09) lev:(0.03) [16] conv:(1.66)

3.1.5 Biểu diễn tri thức

1 Polyuria=Yes Polydipsia=Yes 193 ==> Class=Positive 193 <conf:(1)> lift:(1.63) lev:(0.14) [74] conv:(74.23)

→ Người có triệu chứng đi tiểu nhiều và thường xuyên thấy khát nước sẽ có nguy cơmắc bệnh tiểu đường

2 Polyuria=Yes Alopecia=No 187 ==> Class=Positive 187 <conf:(1)> lift:(1.63) lev:(0.14) [71] conv:(71.92)

→ Người có triệu chứng đi tiểu nhiều và không có triệu chứng rụng lông tóc nhiều sẽ

có nguy cơ mắc bệnh tiểu đường

3 Polydipsia=Yes 233 ==> Class=Positive 225 <conf:(0.97)> lift:(1.57) lev:(0.16) [81] conv:(9.96)

→ Người có triệu chứng thường xuyên thấy khát nước sẽ có nguy cơ mắc bệnh tiểu đường

4 Polyuria=Yes Obesity=No 202 ==> Class=Positive 195 <conf:(0.97)> lift:(1.57) lev:(0.14) [70] conv:(9.71)

→ Người có triệu chứng đi tiểu nhiều và không mắc bệnh béo phì sẽ có nguy cơ mắc bệnh tiểu đường

5 Polydipsia=Yes Alopecia=No 191 ==> Class=Positive 184 <conf:(0.96)> lift:(1.57) lev:(0.13) [66] conv:(9.18)

→ Người có triệu chứng thường xuyên thấy khát nước và không sẽ có triệu chứng rụng lông tóc nhiều sẽ có nguy cơ mắc bệnh tiểu đường

6 Class=Negative 200 ==> Polydipsia=No 192 <conf:(0.96)> lift:(1.74) lev:(0.16) [81] conv:(9.96)

→ Người không mắc bệnh tiểu đường sẽ không có triệu chứng thường xuyên thấy khát nước

7 Polyuria=Yes 258 ==> Class=Positive 243 <conf:(0.94)> lift:(1.53) lev:(0.16) [84] conv:(6.2)

→ Người có triệu chứng đi tiểu nhiều sẽ có nguy cơ mắc bệnh tiểu đường

Ngày đăng: 16/10/2021, 08:05

HÌNH ẢNH LIÊN QUAN

Bảng 2.1 Liệt kê các thuộc tính và các giá trị của từng thuộc tính trong tập dữ liệu - KHAI PHÁ DỮ LIỆU DỰ BÁO NGUY CƠ TIỂU ĐƯỜNG GIAI ĐOẠN đầu BẰNG THUẬT TOÁN LUẬT KẾT HỢP VÀ PHÂN LỚP
Bảng 2.1 Liệt kê các thuộc tính và các giá trị của từng thuộc tính trong tập dữ liệu (Trang 8)
Hình 3.1 Tập dữ liệu về bệnh tiểu đường trước khi được tiền xử lý - KHAI PHÁ DỮ LIỆU DỰ BÁO NGUY CƠ TIỂU ĐƯỜNG GIAI ĐOẠN đầu BẰNG THUẬT TOÁN LUẬT KẾT HỢP VÀ PHÂN LỚP
Hình 3.1 Tập dữ liệu về bệnh tiểu đường trước khi được tiền xử lý (Trang 10)
Hình 3.3 Rời rạc hĩa dữ liệu của thuộc tính tuổi trên phần mềm Weka - KHAI PHÁ DỮ LIỆU DỰ BÁO NGUY CƠ TIỂU ĐƯỜNG GIAI ĐOẠN đầu BẰNG THUẬT TOÁN LUẬT KẾT HỢP VÀ PHÂN LỚP
Hình 3.3 Rời rạc hĩa dữ liệu của thuộc tính tuổi trên phần mềm Weka (Trang 11)
Hình 3.2 Tiền xử lý dữ liệu trên phần mềm Weka - KHAI PHÁ DỮ LIỆU DỰ BÁO NGUY CƠ TIỂU ĐƯỜNG GIAI ĐOẠN đầu BẰNG THUẬT TOÁN LUẬT KẾT HỢP VÀ PHÂN LỚP
Hình 3.2 Tiền xử lý dữ liệu trên phần mềm Weka (Trang 11)
Hình 3.4 Thuộc tính tuổi sau khi được tiền xử lý chia thành 3 bins - KHAI PHÁ DỮ LIỆU DỰ BÁO NGUY CƠ TIỂU ĐƯỜNG GIAI ĐOẠN đầu BẰNG THUẬT TOÁN LUẬT KẾT HỢP VÀ PHÂN LỚP
Hình 3.4 Thuộc tính tuổi sau khi được tiền xử lý chia thành 3 bins (Trang 12)
Hình 3.5 Sử dụng thuật tốn Apriori - KHAI PHÁ DỮ LIỆU DỰ BÁO NGUY CƠ TIỂU ĐƯỜNG GIAI ĐOẠN đầu BẰNG THUẬT TOÁN LUẬT KẾT HỢP VÀ PHÂN LỚP
Hình 3.5 Sử dụng thuật tốn Apriori (Trang 13)
Hình 3.6 Thiết lập các thơng số minSup và minConf - KHAI PHÁ DỮ LIỆU DỰ BÁO NGUY CƠ TIỂU ĐƯỜNG GIAI ĐOẠN đầu BẰNG THUẬT TOÁN LUẬT KẾT HỢP VÀ PHÂN LỚP
Hình 3.6 Thiết lập các thơng số minSup và minConf (Trang 13)
Hình 3.7 Kết quả sau khi chạy thuật tốn Apriori – luật kết hợp - KHAI PHÁ DỮ LIỆU DỰ BÁO NGUY CƠ TIỂU ĐƯỜNG GIAI ĐOẠN đầu BẰNG THUẬT TOÁN LUẬT KẾT HỢP VÀ PHÂN LỚP
Hình 3.7 Kết quả sau khi chạy thuật tốn Apriori – luật kết hợp (Trang 14)
Hình 4.1 Thuộc tính Age trước khi rời rạc hĩa dữ liệu (độ tuổi min = 16 và max = 90) - KHAI PHÁ DỮ LIỆU DỰ BÁO NGUY CƠ TIỂU ĐƯỜNG GIAI ĐOẠN đầu BẰNG THUẬT TOÁN LUẬT KẾT HỢP VÀ PHÂN LỚP
Hình 4.1 Thuộc tính Age trước khi rời rạc hĩa dữ liệu (độ tuổi min = 16 và max = 90) (Trang 23)
Hình 4.2 Thuộc tính Age (tuổi) sau khi được rời rạc hĩa dữ liệu thành 3 bins. - KHAI PHÁ DỮ LIỆU DỰ BÁO NGUY CƠ TIỂU ĐƯỜNG GIAI ĐOẠN đầu BẰNG THUẬT TOÁN LUẬT KẾT HỢP VÀ PHÂN LỚP
Hình 4.2 Thuộc tính Age (tuổi) sau khi được rời rạc hĩa dữ liệu thành 3 bins (Trang 24)
Hình 4.3 Độ chính xác khi sử dụng thuật tốn NaiveBaye - KHAI PHÁ DỮ LIỆU DỰ BÁO NGUY CƠ TIỂU ĐƯỜNG GIAI ĐOẠN đầu BẰNG THUẬT TOÁN LUẬT KẾT HỢP VÀ PHÂN LỚP
Hình 4.3 Độ chính xác khi sử dụng thuật tốn NaiveBaye (Trang 26)
Hình 4.4 Cây quyết định sau khi chạy thuật tốn J48 - KHAI PHÁ DỮ LIỆU DỰ BÁO NGUY CƠ TIỂU ĐƯỜNG GIAI ĐOẠN đầu BẰNG THUẬT TOÁN LUẬT KẾT HỢP VÀ PHÂN LỚP
Hình 4.4 Cây quyết định sau khi chạy thuật tốn J48 (Trang 28)
Hình 4.5 Độ chính xác khi sử dụng thuật tốn cây quyết định J48 - KHAI PHÁ DỮ LIỆU DỰ BÁO NGUY CƠ TIỂU ĐƯỜNG GIAI ĐOẠN đầu BẰNG THUẬT TOÁN LUẬT KẾT HỢP VÀ PHÂN LỚP
Hình 4.5 Độ chính xác khi sử dụng thuật tốn cây quyết định J48 (Trang 28)
4.7 Đánh giá mơ hình bằng phương pháp Hold-out: - KHAI PHÁ DỮ LIỆU DỰ BÁO NGUY CƠ TIỂU ĐƯỜNG GIAI ĐOẠN đầu BẰNG THUẬT TOÁN LUẬT KẾT HỢP VÀ PHÂN LỚP
4.7 Đánh giá mơ hình bằng phương pháp Hold-out: (Trang 29)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w