Cho tập dữ liệu về hoa iris Hoa Diên Vĩ hoặc Hoa Loa kèn với các tham số theo thứ tự: chiều dài đài hoa, chiều rộng đài hoa, chiều dài cánh hoa, chiều rông cánh hoa, loại hoa.
Trang 1VIỆN ĐẠI HỌC MỞ HÀ NỘI KHOA ĐÀO TẠO SAU ĐẠI HỌC
-BÀI TẬP LỚN MÔN KHAI PHÁ DỮ LIỆU
Thầy giáo hướng dẫn: PGS.TS Nguyễn Quang Hoan Học viên thực hiện: Nguyễn Thế Thủy
Lớp : Cao học CNTT - Khóa 2
Hà Nội, 04 /2016
Trang 2Đề bài:
1 Cho tệp dữ liệu dưới đây với 3 thâm số đầu vào x1, x2, x3 đặc trưng đấu hiệu cho một
loại bệnh Y (dương tính: +; âm tính: -) Dùng thuật toán K-NN với k=5; Một bệnh nhân cho kết quả đo x={2, 6, 9} Hỏi bệnh nhân đó được chẩn đoán là dương tính hay âm tính?
1 2 4 8 +
2 6 5 8
-3 7 4 9 +
4 4 1 10 +
5 6 5 7
-6 6 6 8 +
7 3 9 10 +
8 3 4 5
-9 4 7 7 +
10 4 9 9
(Euclid)
11 8 4 6
-12 4 3 10 +
13 7 6 7 +
14 5 10 8
-15 9 7 11 +
16 7 4 6
-17 8 5 7 +
18 6 6 7
-19 7 4 9 +
20 6 8 8
2 Cho tập dữ liệu về hoa iris (Hoa Diên Vĩ hoặc Hoa Loa kèn) với các tham số
theo thứ tự: chiều dài đài hoa, chiều rộng đài hoa, chiều dài cánh hoa, chiều rông cánh hoa, loại hoa
6.4,3.2,5.3,2.3,Iris
5.1,3.5,1.4,0.3,Iris
5.2,2.7,3.9,1.4,Iris
5.0,2.0,3.5,1.0,Iris
5.1,3.8,1.5,0.3,Iris
5.4,3.4,1.7,0.2,Iris
5.1,3.7,1.5,0.4,Iris
5.1,3.3,1.7,0.5,Iris
7.6,3.0,6.6,2.1,Iris
6.3,3.3,4.7,1.6,Iris
4.9,3.1,1.5,0.1,Iris
6.1,2.9,4.7,1.4,Iris
7.3,2.9,6.3,1.8,Iris
6.7,2.5,5.8,1.8,Iris
7.2,3.6,6.1,2.5,Iris
6.7,2.5,5.8,1.8,Iris
Với: C1: 5.4,3.4,1.7,0.2,Iris-setosa
C2: 6.7,2.5,5.8,1.8,Iris-versicolor
Dùng thuật toán K-Trung bình phân 2 cụm
Trang 3Bài làm
Câu 2.
Với tâm khởi động là
C1 (5.4,3.4,1.7,0.2) ,Iris-setosa
C2 (6.7,2.5,5.8,1.8) ,Iris-versicolor
Lần lặp 1 : Gán nhóm cho các phần tử bằng cách tính khoảng cách từ phần tử đến
các tâm và chọn nhóm có tâm gần nhất
Ta có bảng sau
Stt dài đài Chiều
hoa
Chiều rộng đài hoa
Chiều dài cánh hoa
Chiều rộng
Tính lại tâm cho các nhóm ta có tâm mới là:
C1 ( 5.10,3,26,1,83,0,04) ; C2 ( 6,61, 2,96, 5,47, 1,86)
Lần lặp 2: với tâm mới là :
Trang 4C1 ( 5.10,3,26,1,83,0,04) ; C2 ( 6,61, 2,96, 5,47, 1,86)
Ta tính được kết kết quả sau:
Stt
Chiều
dài đài
hoa
Chiều rộng Đài hoa
Chiều dài cánh hoa
Chiều rộng
Tính lại tâm cho các nhóm ta có tâm mới là:
C1 ( 5.10,3,26,1,83,0,04) ; C2 ( 6,61, 2,96, 5,47, 1,86)
Tâm không thay đổi nên giải thuật kết thúc
Câu 1: