Bài tập kết thúc môn khai phá dữ liệu

Câu 1. (4.0 điểm) Cho CSDL giao dịch nhị phân như sau: Mã giao dịch A B C D E F 100 1 1 1 0 1 0 200 0 0 1 1 1 1 300 1 1 1 0 1 0 400 1 0 1 1 1 0 500 1 1 1 1 1 0 600 0 1 1 1 1 1 a) Tìm tất cả các tập phổ biến từ CSDL giao dịch trên thỏa ngưỡng minSup=50% bằng thuật toán Apriori. b) Liệt kê các tập phổ biến tối đại c) Tìm các luật kết hợp được xây dựng từ tập phổ biến tối đại, thỏa mãn ngưỡng minConf =80% Câu 2. (5.0 điểm) Cho tập dữ liệu huấn luyện như sau: Mã số Tuổi Thu nhập Nghề nghiệp Thẻ ATM Đi du lịch? N1 Trẻ Cao Tự do Không Không N2 Trẻ Cao Tự do Có Không N3 Trung niên Cao Tự do Không Đi N4 Lớn TB Tự do Không Đi N5 Lớn Thấp SV Không Đi N6 Lớn Thấp SV Có Không N7 Trung niên Thấp SV Có Đi N8 Trẻ TB Tự do Không Không N9 Trẻ Thấp SV Không Đi N10 Lớn TB SV Không Đi N11 Trẻ TB SV Có Đi N12 Trung niên TB Tự do Có Đi N13 Trung niên Cao SV Không Đi N14 Lớn TB Tự do Có Không a) Xây dựng cây quyết định sử dụng thuật toán ID3 (độ đo Information Gain) với cột “Đi du lịch” là thuộc tính phân lớp cho 8 dòng dữ liệu đầu. b) Xác định tập luật dựa trên cây quyết định. Đánh giá đô chính xác của tập luật dựa vào 4 dòng dữ liệu cuối. c) Hãy phân lớp dữ liệu cho 2 mẫu tin sau: Mã số Tuổi Thu nhập Nghề nghiệp Thẻ ATM Đi dụ lịch? N1 Trẻ Thấp Tự do Không ? N2 Lớn Cao Tự do Có ? Câu 3. (1.0 điểm) a) Trình bày ngắn gọn thuật toán KMeans b) Một xe đón khách về bến xe Cao Lãnh của công ty Phương Trang muốn đón n khách hàng. Do thời gian đón khách ít nên công ty muốn gom khách hàng về k địa điểm để tiện lợi việc đón. Giả sử n=5, và k = 2. Năm khách hàng đang ở các tọa độ A(1,1), B(3,1), C(3,3), D(4,2), E(1,3). Anh Chị hãy cho biết nên hẹn khách tại địa điểm nào để việc đưa đón là thuận tiện nhất. Cho biết tọa độ của 2 điểm cần đón khách. Giả sử độ đo khoảng cách cần sử dụng là độ đo Manhattan. Hết

Trang 1

TRƯỜNG ĐẠI HỌC ĐỒNG THÁP

LỚP LIÊN THÔNG ĐHSP TIN CÀ MAU

- -Giảng viên hướng dẫn: Trần Kim Hương Sinh viên thực hiện: Trần Văn Kiếm

MSSV: 6120440556

CÀ MAU – 02/2022

BÀI TẬP LỚN KẾT

THÚC HỌC PHẦN

KHAI PHÁ DỮ LIỆU

Trang 2

I NỘI DUNG ĐỀ

Câu 1 (4.0 điểm)

Cho CSDL giao dịch nhị phân như sau:

Mã giao

a) Tìm tất cả các tập phổ biến từ CSDL giao dịch trên thỏa ngưỡng

minSup=50% bằng thuật toán Apriori

b) Liệt kê các tập phổ biến tối đại

c) Tìm các luật kết hợp được xây dựng từ tập phổ biến tối đại, thỏa mãn ngưỡng

minConf =80%

Câu 2 (5.0 điểm)

Cho tập dữ liệu huấn luyện như sau:

Mã

Đi du lịch?

Trang 3

N12 Trung niên TB Tự do Có Đi

a) Xây dựng cây quyết định sử dụng thuật toán ID3 (độ đo Information Gain)

với cột “Đi du lịch” là thuộc tính phân lớp cho 8 dòng dữ liệu đầu

b) Xác định tập luật dựa trên cây quyết định Đánh giá đô chính xác của tập luật dựa vào 4 dòng dữ liệu cuối

c) Hãy phân lớp dữ liệu cho 2 mẫu tin sau:

Mã

Thu nhập

Nghề nghiệp

Thẻ ATM Đi dụ lịch?

Câu 3 (1.0 điểm)

a) Trình bày ngắn gọn thuật toán K-Means

b) Một xe đón khách về bến xe Cao Lãnh của công ty Phương Trang muốn đón

n khách hàng Do thời gian đón khách ít nên công ty muốn gom khách hàng về k địa điểm để tiện lợi việc đón Giả sử n=5, và k = 2 Năm khách hàng đang ở các tọa độ A(1,1), B(3,1), C(3,3), D(4,2), E(1,3) Anh/ Chị hãy cho biết nên hẹn khách tại địa điểm nào để việc đưa đón là thuận tiện nhất Cho biết tọa độ của 2 điểm cần đón khách Giả sử độ đo khoảng cách cần sử dụng là độ đo Manhattan

Trang 4

-Hết -II BÀI LÀM

Câu 1:

a) Tìm tất cả các tập phổ biến từ CSDL giao dịch trên thỏa ngưỡng

minSup=50% bằng thuật toán Apriori.

Ta có: minSup=50% => minCount=3.

- Xác định tập dự tuyển C1:

- Tập phổ biến L1:

- Tập dự tuyển C2:

Trang 5

{B,E} 3

- Tập phổ biển L3:

- Tập dự tuyển C5 rỗng

Như vậy L1+L2+L3+L4 có 19 tập phổ biến

b) Tập phổ biến tối đại là: {A,B,C,E}; {C,D,E}

c) Các luật kết hợp được xây dựng từ tập phổ biến tối đại:

- Tập {A,B,C,E}

Trang 6

{A}, {B}, {C}, {E}, {A,B}, {A,C}, {A,E}, {B,C}, {B,E}, {C,E}, {A,B,C}, {A,B,E}, {A,C,E}, {B,C,E}

{A} {B,C,E} confidence = 3/4 =75%

{C} {A,B,E} confidence = 3/6 = 50%

{E} {A,B,C} confidence = 3/5 = 60%

{A,C} {B,E} confidence = 3/4 = 75%

{A,E} {B,C} confidence = 3/4 = 75%

{C,E} {A,B} confidence = 3/5 = 60%

{A,C,E} {B} confidence = 3/4 = 75%

- Luật kết hợp thỏa mincof = 80%

- Tập {C,D,E}

{C}, {D}, {E}, {C,D}, {C,E}, {D,E}

{C,D} {E} confidence = 3/4 = 75%

{C,E} {D} confidence = 3/5 =60%

{D,E} {C} confidence = 3/3 = 100%

- Luật kết hợp thỏa mincof = 80%

{D,E} {C} confidence = 3/3 = 100%

Trang 7

Câu 2:

a) Xây dựng cây quyết định sử dụng thuật toán ID3 (độ đo Information Gain)

với cột “Đi du lịch” là thuộc tính phân lớp cho 8 dòng dữ liệu đầu:

Tính lần 1:

|S|=8;

Ta có:

 E(S)= E[4+,4-]= -4/8log2(4/8) – 4/8log2(4/8) = 1

* A=Tuổi

Value ={Trẻ, Trung niên, Lớn}

| |

A v

j j

S Gain S A Entropy S Entropy S

S



 Gain(S,Tuổi)= E[4+,4-] – (3/8* E[0+,3-] + 2/8* E[2+,0-] + 3/8*E[2+,1-]) =

1 – (3/8*0 + 2/8*0 + 3/8*0,918) = 0,65575

* A=Thu nhập

Value = {Cao, TB, Thấp}

Gain(S,Thu nhập)= E[4+,4-] – (3/8* E[1+,2-] + 2/8* E[1+,1-] + 3/8*E[2+,1-]) =

1 – (3/8*0,918 + 2/8*1 + 3/8*0,918) = 0,0615

* A= Nghề nghiệp

Value = {Tự do, SV}

Gain(S,Nghề nghiệp)= E[4+,4-] – (5/8* E[2+,3-] + 3/8* E[2+,1-]) =

1 – (5/8*0,97 + 3/8*0,918) = 0,0495

* A= Thẻ ATM

Value = {Có, Không}

Gain(S,Thẻ ATM)= E[4+,4-] – (5/8* E[3+,2-] + 3/8* E[1+,2-]) =

1 – (5/8*0,97 + 3/8*0,918) = 0,0495

Do Gain tuổi lớn nhất nên ta chọn tuổi làm nút gốc

Tuổi

E[2+, 1-]

????

E[0+,3-]

Không

Lớn

E[2+,0-]

Đi

Trang 8

Tính lần 2:

S(Tuổi = Lớn) = {Mã số: N4, N5, N6}

E(Tuổi = Lớn) = E[2+,1-]

= - 2/3log2(2/3) – 1/3log2(1/3)

= 0,918

** A=Thu nhập = {TB, Thấp}

= E[2+,1-] - (1/3* E[1+,0-] + 2/3* E[1+,1-])

= 0,918 – (0 + 2/3*1)

= 0,2513

** A=Nghề nghiệp = {Tự do, SV}

= E[2+,1-] - (1/3* E[1+,0-] + 2/3* E[1+,1-])

= 0,918 – (0 + 2/3*1)

= 0,2513

** A=Thẻ ATM= {Không, Có}

= E[2+,1-] - (2/3* E[2+,0-] + 2/3* E[0+,1-])

= 0,918

Do Gain Thẻ ATM lớn nhất nên ta chọn làm nút gốc tiếp theo

Tuổi

E[2+, 1-]

Thẻ ATM

E[0+,3-]

Không

Lớn

E[2+,0-]

Đi

E[2+,0-]

Trang 9

b) - Xác định tập luật dựa trên cây quyết định

R1 If(Tuổi = Trẻ) Then Đi du lịch = Không

R2 If(Tuổi = Trung niên) Then Đi du lịch = Đi

R3 If(Tuổi = Lớn and Thẻ ATM = Không) Then Đi du lịch = Đi

R4 If(Tuổi = Lớn and Thẻ ATM = có) Then Đi du lịch = Không

- Đánh giá độ chính xác của tập luật dựa vào 4 dòng dữ liệu cuối:

Mã

Đi du lịch?

+ Mã số N11 (Tuổi = Trẻ) áp dụng R1 Then Không  Sai

+ Mã số N12 (Tuổi = Trung niên) áp dụng R2 Then Đi  Đúng

+ Mã số N13 (Tuổi = Trung niên) áp dụng R2 Then Đi  Đúng

+ Mã số N14 (Tuổi = Lớn, Thẻ ATM = Có) áp dụng R4 Then Không  Đúng

Độ chính xác = 3/4 *100 = 75%

c) Dựa vào xác định tập luật trên cây quyết định ta có thể điền dữ liệu cho 2 mẫu tin như sau:

Mã

Thu nhập

Nghề nghiệp

Thẻ ATM Đi dụ lịch?

Câu 3:

a) Thuật toán K-Means được phát biểu ngắn gọn như sau:

- Thuật toán phân cụm k-means là một phương pháp được sử dụng trong phân tích tính chất cụm của dữ liệu Nó đặc biệt được sử dụng nhiều trong khai phá dữ liệu

và thống kê Nó phân vùng dữ liệu thành k cụm khác nhau Giải thuật này giúp chúng

ta xác định được dữ liệu của chúng ta nó thực sử thuộc về nhóm nào

Các bước của giải thuật:

Bước 1: Chọn ngẫu nhiên k đối tượng như là những trung tâm của các nhóm.

Trang 10

Bước 2: Gán từng đối tượng còn lại vào nhóm có trung tâm nhóm

gần nó nhất (dựa trên độ đo khoảng cách Euclide).

Bước 3: Tính lại giá trị trung tâm của từng nhóm

- Di chuyển trung tâm nhóm về = giá trị TB mới của nhóm

- Cho nhóm Ki={ti1,ti2,…,tim}, giá trị trung bình của nhóm là m i = (1/m)(t i1

+ … + t im )

Bước 4: Nếu các trung tâm nhóm không có gì thay đổi thì dừng, ngược lại quay

lại Bước 2

b)

- Khởi tạo tâm cho hai nhóm

A là tâm của điểm đón khách thứ nhất (nhóm 1) C1(1, 1)

D là tâm của điểm đón khách thứ hai (nhóm 2) C2(4, 2)

- Tính khoảng cách từ các đối tượng đến tâm của điểm đón khách

D0

- Gọi 0 là điểm không thuộc nhóm

- Gọi 1 là điểm thuộc nhóm

G0

- Ta xét trên một cột:

+ Giá trị nhỏ ta điền 0

+ Giá trị lớn ta điền 1

G0

Trang 11

0 1 1 1 0 C2(4,2)

- Như vậy ta có:

+ Nhóm 1 gồm 2 điểm A (1, 1) ; E (1, 3)

+ Nhóm 2 gồm 3 điểm B (3, 1); C(3, 3); D(4, 2)

- Tính lại điểm trung bình mỗi nhóm:

m1= (1+ 12 ;1+3

2 ¿ = (1; 2) m2 = (3+3+43 ;1+3+2

3 ¿ = ( 3,3; 2)

- Từ kết quả trước ta có:

+ m1 là tâm nhóm 1 C1(1; 2)

+ m2 là tâm nhóm 2 C2(3,3; 2)

- Tính khoảng cách từ các đối tượng đến tâm của nhóm

D1

- Gọi 0 là điểm không thuộc nhóm

- Gọi 1 là điểm thuộc nhóm

G1

- Ta xét trên một cột:

+ Giá trị nhỏ ta điền 0

+ Giá trị lớn ta điền 1

G1

- Do G0 và G1 có các điểm như nhau không thay đổi Ta không tiếp tục phân nhóm

Vậy điểm hẹn khách để thuận tiện việc đưa đón là:

+ Nhóm C1 = (A, E) có tâm m1(1; 2)

+ Nhóm C2 = ( B, C, D) có tâm m2(3,3; 2)

Trang 12

-

Định dạng
Số trang	12
Dung lượng	259,29 KB
File đính kèm	Trần Văn Kiếm_ĐHSTIN20-L2-CM_BTL_DM.rar (165 KB)