Câu 1. (4.0 điểm) Cho CSDL giao dịch nhị phân như sau: Mã giao dịch A B C D E F 100 1 1 1 0 1 0 200 0 0 1 1 1 1 300 1 1 1 0 1 0 400 1 0 1 1 1 0 500 1 1 1 1 1 0 600 0 1 1 1 1 1 a) Tìm tất cả các tập phổ biến từ CSDL giao dịch trên thỏa ngưỡng minSup=50% bằng thuật toán Apriori. b) Liệt kê các tập phổ biến tối đại c) Tìm các luật kết hợp được xây dựng từ tập phổ biến tối đại, thỏa mãn ngưỡng minConf =80% Câu 2. (5.0 điểm) Cho tập dữ liệu huấn luyện như sau: Mã số Tuổi Thu nhập Nghề nghiệp Thẻ ATM Đi du lịch? N1 Trẻ Cao Tự do Không Không N2 Trẻ Cao Tự do Có Không N3 Trung niên Cao Tự do Không Đi N4 Lớn TB Tự do Không Đi N5 Lớn Thấp SV Không Đi N6 Lớn Thấp SV Có Không N7 Trung niên Thấp SV Có Đi N8 Trẻ TB Tự do Không Không N9 Trẻ Thấp SV Không Đi N10 Lớn TB SV Không Đi N11 Trẻ TB SV Có Đi N12 Trung niên TB Tự do Có Đi N13 Trung niên Cao SV Không Đi N14 Lớn TB Tự do Có Không a) Xây dựng cây quyết định sử dụng thuật toán ID3 (độ đo Information Gain) với cột “Đi du lịch” là thuộc tính phân lớp cho 8 dòng dữ liệu đầu. b) Xác định tập luật dựa trên cây quyết định. Đánh giá đô chính xác của tập luật dựa vào 4 dòng dữ liệu cuối. c) Hãy phân lớp dữ liệu cho 2 mẫu tin sau: Mã số Tuổi Thu nhập Nghề nghiệp Thẻ ATM Đi dụ lịch? N1 Trẻ Thấp Tự do Không ? N2 Lớn Cao Tự do Có ? Câu 3. (1.0 điểm) a) Trình bày ngắn gọn thuật toán KMeans b) Một xe đón khách về bến xe Cao Lãnh của công ty Phương Trang muốn đón n khách hàng. Do thời gian đón khách ít nên công ty muốn gom khách hàng về k địa điểm để tiện lợi việc đón. Giả sử n=5, và k = 2. Năm khách hàng đang ở các tọa độ A(1,1), B(3,1), C(3,3), D(4,2), E(1,3). Anh Chị hãy cho biết nên hẹn khách tại địa điểm nào để việc đưa đón là thuận tiện nhất. Cho biết tọa độ của 2 điểm cần đón khách. Giả sử độ đo khoảng cách cần sử dụng là độ đo Manhattan. Hết
Trang 1TRƯỜNG ĐẠI HỌC ĐỒNG THÁP
LỚP LIÊN THÔNG ĐHSP TIN CÀ MAU
- -Giảng viên hướng dẫn: Trần Kim Hương Sinh viên thực hiện: Trần Văn Kiếm
MSSV: 6120440556
CÀ MAU – 02/2022
BÀI TẬP LỚN KẾT
THÚC HỌC PHẦN
KHAI PHÁ DỮ LIỆU
Trang 2I NỘI DUNG ĐỀ
Câu 1 (4.0 điểm)
Cho CSDL giao dịch nhị phân như sau:
Mã giao
a) Tìm tất cả các tập phổ biến từ CSDL giao dịch trên thỏa ngưỡng
minSup=50% bằng thuật toán Apriori
b) Liệt kê các tập phổ biến tối đại
c) Tìm các luật kết hợp được xây dựng từ tập phổ biến tối đại, thỏa mãn ngưỡng
minConf =80%
Câu 2 (5.0 điểm)
Cho tập dữ liệu huấn luyện như sau:
Mã
Đi du lịch?
Trang 3N12 Trung niên TB Tự do Có Đi
a) Xây dựng cây quyết định sử dụng thuật toán ID3 (độ đo Information Gain)
với cột “Đi du lịch” là thuộc tính phân lớp cho 8 dòng dữ liệu đầu
b) Xác định tập luật dựa trên cây quyết định Đánh giá đô chính xác của tập luật dựa vào 4 dòng dữ liệu cuối
c) Hãy phân lớp dữ liệu cho 2 mẫu tin sau:
Mã
Thu nhập
Nghề nghiệp
Thẻ ATM Đi dụ lịch?
Câu 3 (1.0 điểm)
a) Trình bày ngắn gọn thuật toán K-Means
b) Một xe đón khách về bến xe Cao Lãnh của công ty Phương Trang muốn đón
n khách hàng Do thời gian đón khách ít nên công ty muốn gom khách hàng về k địa điểm để tiện lợi việc đón Giả sử n=5, và k = 2 Năm khách hàng đang ở các tọa độ A(1,1), B(3,1), C(3,3), D(4,2), E(1,3) Anh/ Chị hãy cho biết nên hẹn khách tại địa điểm nào để việc đưa đón là thuận tiện nhất Cho biết tọa độ của 2 điểm cần đón khách Giả sử độ đo khoảng cách cần sử dụng là độ đo Manhattan
Trang 4
-Hết -II BÀI LÀM
Câu 1:
a) Tìm tất cả các tập phổ biến từ CSDL giao dịch trên thỏa ngưỡng
minSup=50% bằng thuật toán Apriori.
Ta có: minSup=50% => minCount=3.
- Xác định tập dự tuyển C1:
- Tập phổ biến L1:
- Tập dự tuyển C2:
- Tập phổ biến L2:
Trang 5{B,E} 3
- Tập dự tuyển C3:
- Tập phổ biển L3:
- Tập dự tuyển C4:
- Tập phổ biến L4:
- Tập dự tuyển C5 rỗng
Như vậy L1+L2+L3+L4 có 19 tập phổ biến
b) Tập phổ biến tối đại là: {A,B,C,E}; {C,D,E}
c) Các luật kết hợp được xây dựng từ tập phổ biến tối đại:
- Tập {A,B,C,E}
Trang 6{A}, {B}, {C}, {E}, {A,B}, {A,C}, {A,E}, {B,C}, {B,E}, {C,E}, {A,B,C}, {A,B,E}, {A,C,E}, {B,C,E}
{A} {B,C,E} confidence = 3/4 =75%
{C} {A,B,E} confidence = 3/6 = 50%
{E} {A,B,C} confidence = 3/5 = 60%
{A,C} {B,E} confidence = 3/4 = 75%
{A,E} {B,C} confidence = 3/4 = 75%
{C,E} {A,B} confidence = 3/5 = 60%
{A,C,E} {B} confidence = 3/4 = 75%
- Luật kết hợp thỏa mincof = 80%
- Tập {C,D,E}
{C}, {D}, {E}, {C,D}, {C,E}, {D,E}
{C,D} {E} confidence = 3/4 = 75%
{C,E} {D} confidence = 3/5 =60%
{D,E} {C} confidence = 3/3 = 100%
- Luật kết hợp thỏa mincof = 80%
{D,E} {C} confidence = 3/3 = 100%
Trang 7Câu 2:
a) Xây dựng cây quyết định sử dụng thuật toán ID3 (độ đo Information Gain)
với cột “Đi du lịch” là thuộc tính phân lớp cho 8 dòng dữ liệu đầu:
Tính lần 1:
|S|=8;
Ta có:
E(S)= E[4+,4-]= -4/8log2(4/8) – 4/8log2(4/8) = 1
* A=Tuổi
Value ={Trẻ, Trung niên, Lớn}
| |
| |
A v
j j
S Gain S A Entropy S Entropy S
S
Gain(S,Tuổi)= E[4+,4-] – (3/8* E[0+,3-] + 2/8* E[2+,0-] + 3/8*E[2+,1-]) =
1 – (3/8*0 + 2/8*0 + 3/8*0,918) = 0,65575
* A=Thu nhập
Value = {Cao, TB, Thấp}
Gain(S,Thu nhập)= E[4+,4-] – (3/8* E[1+,2-] + 2/8* E[1+,1-] + 3/8*E[2+,1-]) =
1 – (3/8*0,918 + 2/8*1 + 3/8*0,918) = 0,0615
* A= Nghề nghiệp
Value = {Tự do, SV}
Gain(S,Nghề nghiệp)= E[4+,4-] – (5/8* E[2+,3-] + 3/8* E[2+,1-]) =
1 – (5/8*0,97 + 3/8*0,918) = 0,0495
* A= Thẻ ATM
Value = {Có, Không}
Gain(S,Thẻ ATM)= E[4+,4-] – (5/8* E[3+,2-] + 3/8* E[1+,2-]) =
1 – (5/8*0,97 + 3/8*0,918) = 0,0495
Do Gain tuổi lớn nhất nên ta chọn tuổi làm nút gốc
Tuổi
E[2+, 1-]
????
E[0+,3-]
Không
Lớn
E[2+,0-]
Đi
Trang 8Tính lần 2:
S(Tuổi = Lớn) = {Mã số: N4, N5, N6}
E(Tuổi = Lớn) = E[2+,1-]
= - 2/3log2(2/3) – 1/3log2(1/3)
= 0,918
** A=Thu nhập = {TB, Thấp}
= E[2+,1-] - (1/3* E[1+,0-] + 2/3* E[1+,1-])
= 0,918 – (0 + 2/3*1)
= 0,2513
** A=Nghề nghiệp = {Tự do, SV}
= E[2+,1-] - (1/3* E[1+,0-] + 2/3* E[1+,1-])
= 0,918 – (0 + 2/3*1)
= 0,2513
** A=Thẻ ATM= {Không, Có}
= E[2+,1-] - (2/3* E[2+,0-] + 2/3* E[0+,1-])
= 0,918
Do Gain Thẻ ATM lớn nhất nên ta chọn làm nút gốc tiếp theo
Tuổi
E[2+, 1-]
Thẻ ATM
E[0+,3-]
Không
Lớn
E[2+,0-]
Đi
E[2+,0-]
Trang 9b) - Xác định tập luật dựa trên cây quyết định
R1 If(Tuổi = Trẻ) Then Đi du lịch = Không
R2 If(Tuổi = Trung niên) Then Đi du lịch = Đi
R3 If(Tuổi = Lớn and Thẻ ATM = Không) Then Đi du lịch = Đi
R4 If(Tuổi = Lớn and Thẻ ATM = có) Then Đi du lịch = Không
- Đánh giá độ chính xác của tập luật dựa vào 4 dòng dữ liệu cuối:
Mã
Đi du lịch?
+ Mã số N11 (Tuổi = Trẻ) áp dụng R1 Then Không Sai
+ Mã số N12 (Tuổi = Trung niên) áp dụng R2 Then Đi Đúng
+ Mã số N13 (Tuổi = Trung niên) áp dụng R2 Then Đi Đúng
+ Mã số N14 (Tuổi = Lớn, Thẻ ATM = Có) áp dụng R4 Then Không Đúng
Độ chính xác = 3/4 *100 = 75%
c) Dựa vào xác định tập luật trên cây quyết định ta có thể điền dữ liệu cho 2 mẫu tin như sau:
Mã
Thu nhập
Nghề nghiệp
Thẻ ATM Đi dụ lịch?
Câu 3:
a) Thuật toán K-Means được phát biểu ngắn gọn như sau:
- Thuật toán phân cụm k-means là một phương pháp được sử dụng trong phân tích tính chất cụm của dữ liệu Nó đặc biệt được sử dụng nhiều trong khai phá dữ liệu
và thống kê Nó phân vùng dữ liệu thành k cụm khác nhau Giải thuật này giúp chúng
ta xác định được dữ liệu của chúng ta nó thực sử thuộc về nhóm nào
Các bước của giải thuật:
Bước 1: Chọn ngẫu nhiên k đối tượng như là những trung tâm của các nhóm.
Trang 10Bước 2: Gán từng đối tượng còn lại vào nhóm có trung tâm nhóm
gần nó nhất (dựa trên độ đo khoảng cách Euclide).
Bước 3: Tính lại giá trị trung tâm của từng nhóm
- Di chuyển trung tâm nhóm về = giá trị TB mới của nhóm
- Cho nhóm Ki={ti1,ti2,…,tim}, giá trị trung bình của nhóm là m i = (1/m)(t i1
+ … + t im )
Bước 4: Nếu các trung tâm nhóm không có gì thay đổi thì dừng, ngược lại quay
lại Bước 2
b)
- Khởi tạo tâm cho hai nhóm
A là tâm của điểm đón khách thứ nhất (nhóm 1) C1(1, 1)
D là tâm của điểm đón khách thứ hai (nhóm 2) C2(4, 2)
- Tính khoảng cách từ các đối tượng đến tâm của điểm đón khách
D0
- Gọi 0 là điểm không thuộc nhóm
- Gọi 1 là điểm thuộc nhóm
G0
- Ta xét trên một cột:
+ Giá trị nhỏ ta điền 0
+ Giá trị lớn ta điền 1
G0
Trang 110 1 1 1 0 C2(4,2)
- Như vậy ta có:
+ Nhóm 1 gồm 2 điểm A (1, 1) ; E (1, 3)
+ Nhóm 2 gồm 3 điểm B (3, 1); C(3, 3); D(4, 2)
- Tính lại điểm trung bình mỗi nhóm:
m1= (1+ 12 ;1+3
2 ¿ = (1; 2) m2 = (3+3+43 ;1+3+2
3 ¿ = ( 3,3; 2)
- Từ kết quả trước ta có:
+ m1 là tâm nhóm 1 C1(1; 2)
+ m2 là tâm nhóm 2 C2(3,3; 2)
- Tính khoảng cách từ các đối tượng đến tâm của nhóm
D1
- Gọi 0 là điểm không thuộc nhóm
- Gọi 1 là điểm thuộc nhóm
G1
- Ta xét trên một cột:
+ Giá trị nhỏ ta điền 0
+ Giá trị lớn ta điền 1
G1
- Do G0 và G1 có các điểm như nhau không thay đổi Ta không tiếp tục phân nhóm
Vậy điểm hẹn khách để thuận tiện việc đưa đón là:
+ Nhóm C1 = (A, E) có tâm m1(1; 2)
+ Nhóm C2 = ( B, C, D) có tâm m2(3,3; 2)
Trang 12-