1. Trang chủ
  2. » Giáo Dục - Đào Tạo

BÁO cáo THỰC HÀNH bài 4

30 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Báo Cáo Thực Hành Bài 4
Tác giả Nguyễn Hoàng Thế Bảo
Người hướng dẫn Vũ Minh Sang
Trường học Trường Đại Học
Chuyên ngành Khai Thác Dữ Liệu
Thể loại báo cáo
Định dạng
Số trang 30
Dung lượng 1,81 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Theo những thống kê từ câu 2, ta tính chỉ số Gini của lần lượt từng thuộc tính để tìm ra thuộc tính phân nhánh có lợi nhất- Xét Gini thuộc tính giảm:... Do đó chọnthuộc tính và phân nhán

Trang 1

BÁO CÁO THỰC HÀNH BÀI 4

Họ và tên: Nguyễn Hoàng Thế Bảo

MSSV: 19521247

Môn học: Khai thác dữ liệu – IS252.M21.HTCL.2

Giáo viên: Vũ Minh Sang

Đề:

b Yêu cầu:

Trang 2

Theo những thống kê từ câu 2, ta tính chỉ số Gini của lần lượt từng thuộc tính để tìm ra thuộc tính phân nhánh có lợi nhất

- Xét Gini thuộc tính giảm:

Trang 5

Gini Đi(S) = 414× 0,5+ 314× 0,444 4+ 414× 0,625+ 314× 0,444 4=0,5119

 Trong 6 thuộc tính, thuộc tính ”đi” có chỉ số Gini nhỏ nhất Do đó chọnthuộc tính và phân nhánh theo đó

TH1: Xét nhánh “0…5” ta tính các giá trị Gini như sau:

Gini Giảm(S Đi=0…5)= 3

4× 0.44 4 + 04×1+ 14×0+ 04× 1=0.333

Gini Người(S Đi=0…5)= 24.0,5+ 14.0+ 14.0=0,25

Gini Chuyển(S Đi=0…5)= 2

4.0,5+ 24.0,5=0,5

Gini Yêu(S Đi=0…5)= 24.0,5+ 24.0,5=0,5

Gini Vừa(S Đi=0…5)= 2

- Nhánh Đi = “0…5” và Người= “6…10”:

Chỉ số Gini các thuộc tính với điều kiện đi = “0…5” và Người= “6…10”

Gini Giảm(S Đi=0…5 , Người=6 10)= 12.0+ 12.0=0

Trang 6

Gini Chuyển(S Đi=0…5 , Người=6 10)= 12.0+12.0=0

Gini Yêu(S Đi=0…5, Người=6 10)= 1

2.0+ 12.0=0

Gini Vừa(S Đi=0…5, Người=6 10)= 12.0+ 12.0=0

 Vậy ở nhánh này có 4 thuộc tính có chỉ số Gini nhỏ nhất nên ta lấy thuộc tính “giảm” tiếp tục chia nhánh Nhánh Đi = “0…5”, Người = “11…20”, Giảm =”0…5”, với nhánh này luôn có phân lớp là Cảm xúc = “Tốt” và nhánh Đi = “0…5”, Người = “11…20”,Giảm =”11 20”, với nhánh này luôn

có phân lớp là Cảm xúc = “Xấu”, vì vậy 2 nhánh này nút lá không cần xét tiếp

TH2: Xét nhánh “6…10” ta tính các giá trị Gini như sau:

Gini Giảm(S Đi=6…10)= 23.0,5+ 13.0≈ 0,333

Gini Người(S Đi=6…10)=13.0+13.0+ 13.0=0

Gini Chuyển(S Đi=6…10)= 23.0,5+ 13.0≈ 0,333

Gini Yêu(S Đi=6…10)= 13.0+ 13.0+ 13.0=0

Gini Vừa(S Đi=6…10)=33.0,444=0,444

 Ta thấy ở nhánh “đi” = ”6…10” có hai thuộc tính là người và yêu có chỉ sốGini nhỏ nhất nên ta lấy thuộc tính Người tiếp tục chia nhánh

- Do nhánh Đi = “6…10” và Người = “0…5”, với nhánh này luôn có phân lớp

là Cảm xúc = “Xấu”, nhánh Đi = “6…10” và Người = “6 10”, với nhánh

Trang 7

này luôn có phân lớp là Cảm xúc = “Xấu” và nhánh Đi = “6…10” và Người

= “11 20”, với nhánh này luôn có phân lớp là Cảm xúc = “Bình thường”, vìvậy 3 nhánh này nút lá không cần xét tiếp

TH 3: Xét nhánh Đi = “11 20” ta tính các giá trị Gini như sau

Gini Giảm(S Đi=11 20)= 14.0+ 34.0,444 ≈ 0,333

Gini Người(S Đi=11…20)= 1

4.0+ 24.0,5+ 14.0=0,25

Gini Chuyển(S Đi=11…20)= 14.0+ 24.0,5+ 14.0=0,25

Gini Yêu(S Đi=11…20)= 2

4.0,5+ 24.0,5=0,5

Gini Vừa(S Đi=11…20)= 24.0,5+ 24.0,5=0,5

 Ta thấy nhánh Đi = “11 20” có 2 thuộc tính Người, chuyển có chỉ số Gininhỏ nhất nên ta lấy thuộc tính Người tiếp tục chia nhánh

- Do nhánh Đi = “11…20” và Người = “0…5”, với nhánh này luôn có phân

lớp là Cảm xúc = “Tốt”, nhánh Đi = “11…20” và Người = “>20”, với nhánh

này luôn có phân lớp là Cảm xúc = “Bình thường”, vì vậy 2 nhánh này nút lákhông cần xét tiếp

- Nhánh Đi = “11…20” và Người = “6 10”

Chỉ số Gini các thuộc tính với điều kiện Đi = “11…20” và Người = “6 10”

Gini Giảm(S Đi=11…20 , Người=6 10)= 12.0+ 12.0=0

Gini Chuyển(S Đi=11…20, Người=6 10)= 12.0+ 12.0=0

Gini Yêu(S Đi=11…20 , Người=6 10)=22.0,5=0,5

Trang 8

Gini Vừa(S Đi=11…20 , Người=6 10)= 22.0,5=0,5

 Vậy nhánh Đi = “11…20” và Người = 6 10 có 4 thuộc tính Giảm, chuyển,

có chỉ số Gini nhỏ nhất nên ta lấy thuộc tính Giảm tiếp tục chia nhánh.

- Do nhánh Đi = “11…20”, Người = “6…10”,Giảm =”0…5”, với nhánh này

luôn có phân lớp là Cảm xúc = “Xấu” và nhánh Đi = “11…20”, Người =

“6…10”,Giảm =”11 20”, với nhánh này luôn có phân lớp là Cảm xúc =

“Tốt”, vì vậy 2 nhánh này nút lá không cần xét tiếp

TH 4: Nhánh Đi = “>20” ta tính các giá trị Gini như sau

Gini Giảm(S Đi=>20)= 23.0,5+ 13.0 ≈ 0,333

Gini Người(S Đi=>20)=33.0,444=0,444

Gini Chuyển(S Đi=>20)= 23.0+ 13.0=0

Gini Yêu(S Đi=>20)= 23.0,5+ 13.0≈ 0,333

Gini Vừa(S Đi=>20)=13.0+ 13.0+ 13.0=0

 Vậy nhánh Đi = “>20” có thuộc tính Vừa, chuyển có chỉ số Gini nhỏ nhất

nên ta lấy thuộc tính Vừa tiếp tục chia nhánh

- Do nhánh Đi = “>20” và Vừa= “0…5”, với nhánh này luôn có phân lớp là

Cảm xúc = “Bình thường”, nhánh Đi = “>20” và Vừa= “6 10”, với nhánhnày luôn có phân lớp là Cảm xúc = “Tốt” và nhánh Đi = “>20” và Vừa=

“11 20”, với nhánh này luôn có phân lớp là Cảm xúc = “Bình thường”, vìvậy 3 nhánh này nút lá không cần xét tiếp

Ta có cây quyết định:

Trang 9

Câu c

Áp dụng làm trơn Laplace ta có:

 Ta có P(Cảm xúc = ‘Tốt’) = 14+35+1 = 6/17 ¿ 0,3529

 Ta có P(Cảm xúc = ‘Xấu’) = 14+35+1 = 6/17 ¿0,3529

Trang 10

 Ta có P(Cảm xúc = ‘Bình thường’) = 14+34+1 = 5/17 0,2941

Xét hồ sơ đầu tiên

X = {giảm = 0 5, người = 6 10, chuyển = 0 5, yêu =11 20, vừa = 6 10, đi = 0 5}

Trang 12

 Ta thấy hồ sơ X thứ nhất có xác suất xảy ra Cảm xúc = ‘Xấu’ lớn hơn, vậy

ta có thể kết luận dòng dữ liệu đầu tiên được dự đoán vào phân lớp Cảm xúc

Trang 14

 Ta thấy hồ sơ X thứ hai có xác suất xảy ra Cảm xúc = ‘Tốt’ lớn hơn, vậy ta

có thể kết luận dòng dữ liệu đầu tiên được dự đoán vào phân lớp Cảm xúc =

Xét giá trị Cảm xúc xấu:

Trang 16

 Ta thấy hồ sơ X thứ ba có xác suất xảy ra Cảm xúc = ‘Bình thường’ lớnhơn, vậy ta có thể kết luận dòng dữ liệu đầu tiên được dự đoán vào phân lớpCảm xúc = ‘Bình thường’

Trang 18

P(Vừa=¿ 20|Cảm xúc¿' Xấu ')= 0+15+4≈ 0,111

P(Đi=0 5|Cảm xúc¿' Xấu')= 2+1

5+4≈ 0,333P(Cảm xúc = ‘Xấu’)*P(X|Cảm xúc = ‘Xấu’) = 7,9208.10-6

 Ta thấy hồ sơ X thứ tư có xác suất xảy ra Cảm xúc = ‘Tốt’ lớn hơn, vậy ta

có thể kết luận dòng dữ liệu đầu tiên được dự đoán vào phân lớp Cảm xúc =

‘Tốt’

Trang 20

Ma trận nhầm lẫn của thuật tốn Nạve Bayes:

Lớp dự đốn được từ mơ hình

- Với những cảm xúc “bình thường” và “tốt”, ta cĩ thể giữ nguyên đề xuấtcũng như đưa thêm nhiều thơng tin tích cực hơn

Trang 21

Câu 4

Trang 22

Nhìn vào đồ thị ta có không có thuộc tính nào có độ tương đồng cao nên ta khôngloại thuộc tính nào hết.

Trang 23

Theo đề bài thuộc tính “Quality” được chọn làm thuộc tính quyết định nên ta tiến hành tách thuộc tính này ra khỏi dữ liệu và lưu vào phần mới.

Ở đây toàn bộ dữ liệu hiện tại đều thuộc dạng số nên không cần chuyển đổi

Trang 24

Tính ma trận nhằm lẫn và biểu diễn lên đồ thị heatmap

Trang 25

Biểu diễn cây ID3 bằng lệnh

Cây thu được:

Trang 27

Biểu diễn cây ID3

Trang 28

Cây thu được

Trang 30

Dựa vào mô hình ta có độ chính xác của

+ Thuật toán cây ID3 cao nhất (0.5833333333333334)

+ Thuật toán Naive Bayes là thấp nhất (0.5416666666666666)

Vậy đối với mô hình này sử dụng thuật toán cây quyết định ID3 là tốt nhất

Ngày đăng: 14/10/2022, 04:46

HÌNH ẢNH LIÊN QUAN

Lớp dự đốn từ mơ hình - BÁO cáo THỰC HÀNH bài 4
p dự đốn từ mơ hình (Trang 19)
w