Theo những thống kê từ câu 2, ta tính chỉ số Gini của lần lượt từng thuộc tính để tìm ra thuộc tính phân nhánh có lợi nhất- Xét Gini thuộc tính giảm:... Do đó chọnthuộc tính và phân nhán
Trang 1BÁO CÁO THỰC HÀNH BÀI 4
Họ và tên: Nguyễn Hoàng Thế Bảo
MSSV: 19521247
Môn học: Khai thác dữ liệu – IS252.M21.HTCL.2
Giáo viên: Vũ Minh Sang
Đề:
b Yêu cầu:
Trang 2Theo những thống kê từ câu 2, ta tính chỉ số Gini của lần lượt từng thuộc tính để tìm ra thuộc tính phân nhánh có lợi nhất
- Xét Gini thuộc tính giảm:
Trang 5Gini Đi(S) = 414× 0,5+ 314× 0,444 4+ 414× 0,625+ 314× 0,444 4=0,5119
Trong 6 thuộc tính, thuộc tính ”đi” có chỉ số Gini nhỏ nhất Do đó chọnthuộc tính và phân nhánh theo đó
TH1: Xét nhánh “0…5” ta tính các giá trị Gini như sau:
Gini Giảm(S Đi=0…5)= 3
4× 0.44 4 + 04×1+ 14×0+ 04× 1=0.333
Gini Người(S Đi=0…5)= 24.0,5+ 14.0+ 14.0=0,25
Gini Chuyển(S Đi=0…5)= 2
4.0,5+ 24.0,5=0,5
Gini Yêu(S Đi=0…5)= 24.0,5+ 24.0,5=0,5
Gini Vừa(S Đi=0…5)= 2
- Nhánh Đi = “0…5” và Người= “6…10”:
Chỉ số Gini các thuộc tính với điều kiện đi = “0…5” và Người= “6…10”
Gini Giảm(S Đi=0…5 , Người=6 10)= 12.0+ 12.0=0
Trang 6Gini Chuyển(S Đi=0…5 , Người=6 10)= 12.0+12.0=0
Gini Yêu(S Đi=0…5, Người=6 10)= 1
2.0+ 12.0=0
Gini Vừa(S Đi=0…5, Người=6 10)= 12.0+ 12.0=0
Vậy ở nhánh này có 4 thuộc tính có chỉ số Gini nhỏ nhất nên ta lấy thuộc tính “giảm” tiếp tục chia nhánh Nhánh Đi = “0…5”, Người = “11…20”, Giảm =”0…5”, với nhánh này luôn có phân lớp là Cảm xúc = “Tốt” và nhánh Đi = “0…5”, Người = “11…20”,Giảm =”11 20”, với nhánh này luôn
có phân lớp là Cảm xúc = “Xấu”, vì vậy 2 nhánh này nút lá không cần xét tiếp
TH2: Xét nhánh “6…10” ta tính các giá trị Gini như sau:
Gini Giảm(S Đi=6…10)= 23.0,5+ 13.0≈ 0,333
Gini Người(S Đi=6…10)=13.0+13.0+ 13.0=0
Gini Chuyển(S Đi=6…10)= 23.0,5+ 13.0≈ 0,333
Gini Yêu(S Đi=6…10)= 13.0+ 13.0+ 13.0=0
Gini Vừa(S Đi=6…10)=33.0,444=0,444
Ta thấy ở nhánh “đi” = ”6…10” có hai thuộc tính là người và yêu có chỉ sốGini nhỏ nhất nên ta lấy thuộc tính Người tiếp tục chia nhánh
- Do nhánh Đi = “6…10” và Người = “0…5”, với nhánh này luôn có phân lớp
là Cảm xúc = “Xấu”, nhánh Đi = “6…10” và Người = “6 10”, với nhánh
Trang 7này luôn có phân lớp là Cảm xúc = “Xấu” và nhánh Đi = “6…10” và Người
= “11 20”, với nhánh này luôn có phân lớp là Cảm xúc = “Bình thường”, vìvậy 3 nhánh này nút lá không cần xét tiếp
TH 3: Xét nhánh Đi = “11 20” ta tính các giá trị Gini như sau
Gini Giảm(S Đi=11 20)= 14.0+ 34.0,444 ≈ 0,333
Gini Người(S Đi=11…20)= 1
4.0+ 24.0,5+ 14.0=0,25
Gini Chuyển(S Đi=11…20)= 14.0+ 24.0,5+ 14.0=0,25
Gini Yêu(S Đi=11…20)= 2
4.0,5+ 24.0,5=0,5
Gini Vừa(S Đi=11…20)= 24.0,5+ 24.0,5=0,5
Ta thấy nhánh Đi = “11 20” có 2 thuộc tính Người, chuyển có chỉ số Gininhỏ nhất nên ta lấy thuộc tính Người tiếp tục chia nhánh
- Do nhánh Đi = “11…20” và Người = “0…5”, với nhánh này luôn có phân
lớp là Cảm xúc = “Tốt”, nhánh Đi = “11…20” và Người = “>20”, với nhánh
này luôn có phân lớp là Cảm xúc = “Bình thường”, vì vậy 2 nhánh này nút lákhông cần xét tiếp
- Nhánh Đi = “11…20” và Người = “6 10”
Chỉ số Gini các thuộc tính với điều kiện Đi = “11…20” và Người = “6 10”
Gini Giảm(S Đi=11…20 , Người=6 10)= 12.0+ 12.0=0
Gini Chuyển(S Đi=11…20, Người=6 10)= 12.0+ 12.0=0
Gini Yêu(S Đi=11…20 , Người=6 10)=22.0,5=0,5
Trang 8Gini Vừa(S Đi=11…20 , Người=6 10)= 22.0,5=0,5
Vậy nhánh Đi = “11…20” và Người = 6 10 có 4 thuộc tính Giảm, chuyển,
có chỉ số Gini nhỏ nhất nên ta lấy thuộc tính Giảm tiếp tục chia nhánh.
- Do nhánh Đi = “11…20”, Người = “6…10”,Giảm =”0…5”, với nhánh này
luôn có phân lớp là Cảm xúc = “Xấu” và nhánh Đi = “11…20”, Người =
“6…10”,Giảm =”11 20”, với nhánh này luôn có phân lớp là Cảm xúc =
“Tốt”, vì vậy 2 nhánh này nút lá không cần xét tiếp
TH 4: Nhánh Đi = “>20” ta tính các giá trị Gini như sau
Gini Giảm(S Đi=>20)= 23.0,5+ 13.0 ≈ 0,333
Gini Người(S Đi=>20)=33.0,444=0,444
Gini Chuyển(S Đi=>20)= 23.0+ 13.0=0
Gini Yêu(S Đi=>20)= 23.0,5+ 13.0≈ 0,333
Gini Vừa(S Đi=>20)=13.0+ 13.0+ 13.0=0
Vậy nhánh Đi = “>20” có thuộc tính Vừa, chuyển có chỉ số Gini nhỏ nhất
nên ta lấy thuộc tính Vừa tiếp tục chia nhánh
- Do nhánh Đi = “>20” và Vừa= “0…5”, với nhánh này luôn có phân lớp là
Cảm xúc = “Bình thường”, nhánh Đi = “>20” và Vừa= “6 10”, với nhánhnày luôn có phân lớp là Cảm xúc = “Tốt” và nhánh Đi = “>20” và Vừa=
“11 20”, với nhánh này luôn có phân lớp là Cảm xúc = “Bình thường”, vìvậy 3 nhánh này nút lá không cần xét tiếp
Ta có cây quyết định:
Trang 9Câu c
Áp dụng làm trơn Laplace ta có:
Ta có P(Cảm xúc = ‘Tốt’) = 14+35+1 = 6/17 ¿ 0,3529
Ta có P(Cảm xúc = ‘Xấu’) = 14+35+1 = 6/17 ¿0,3529
Trang 10 Ta có P(Cảm xúc = ‘Bình thường’) = 14+34+1 = 5/17 ≈ 0,2941
Xét hồ sơ đầu tiên
X = {giảm = 0 5, người = 6 10, chuyển = 0 5, yêu =11 20, vừa = 6 10, đi = 0 5}
Trang 12 Ta thấy hồ sơ X thứ nhất có xác suất xảy ra Cảm xúc = ‘Xấu’ lớn hơn, vậy
ta có thể kết luận dòng dữ liệu đầu tiên được dự đoán vào phân lớp Cảm xúc
Trang 14 Ta thấy hồ sơ X thứ hai có xác suất xảy ra Cảm xúc = ‘Tốt’ lớn hơn, vậy ta
có thể kết luận dòng dữ liệu đầu tiên được dự đoán vào phân lớp Cảm xúc =
Xét giá trị Cảm xúc xấu:
Trang 16 Ta thấy hồ sơ X thứ ba có xác suất xảy ra Cảm xúc = ‘Bình thường’ lớnhơn, vậy ta có thể kết luận dòng dữ liệu đầu tiên được dự đoán vào phân lớpCảm xúc = ‘Bình thường’
Trang 18P(Vừa=¿ 20|Cảm xúc¿' Xấu ')= 0+15+4≈ 0,111
P(Đi=0 5|Cảm xúc¿' Xấu')= 2+1
5+4≈ 0,333P(Cảm xúc = ‘Xấu’)*P(X|Cảm xúc = ‘Xấu’) = 7,9208.10-6
Ta thấy hồ sơ X thứ tư có xác suất xảy ra Cảm xúc = ‘Tốt’ lớn hơn, vậy ta
có thể kết luận dòng dữ liệu đầu tiên được dự đoán vào phân lớp Cảm xúc =
‘Tốt’
Trang 20Ma trận nhầm lẫn của thuật tốn Nạve Bayes:
Lớp dự đốn được từ mơ hình
- Với những cảm xúc “bình thường” và “tốt”, ta cĩ thể giữ nguyên đề xuấtcũng như đưa thêm nhiều thơng tin tích cực hơn
Trang 21Câu 4
Trang 22Nhìn vào đồ thị ta có không có thuộc tính nào có độ tương đồng cao nên ta khôngloại thuộc tính nào hết.
Trang 23Theo đề bài thuộc tính “Quality” được chọn làm thuộc tính quyết định nên ta tiến hành tách thuộc tính này ra khỏi dữ liệu và lưu vào phần mới.
Ở đây toàn bộ dữ liệu hiện tại đều thuộc dạng số nên không cần chuyển đổi
Trang 24Tính ma trận nhằm lẫn và biểu diễn lên đồ thị heatmap
Trang 25Biểu diễn cây ID3 bằng lệnh
Cây thu được:
Trang 27Biểu diễn cây ID3
Trang 28Cây thu được
Trang 30Dựa vào mô hình ta có độ chính xác của
+ Thuật toán cây ID3 cao nhất (0.5833333333333334)
+ Thuật toán Naive Bayes là thấp nhất (0.5416666666666666)
Vậy đối với mô hình này sử dụng thuật toán cây quyết định ID3 là tốt nhất