1. Trang chủ
  2. » Giáo Dục - Đào Tạo

BÁO cáo THỰC HÀNH bài 4

30 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Báo Cáo Thực Hành Bài 4
Tác giả Nguyễn Hoàng Thế Bảo
Người hướng dẫn Vũ Minh Sang
Trường học Trường Đại Học
Chuyên ngành Khai Thác Dữ Liệu
Thể loại báo cáo
Định dạng
Số trang 30
Dung lượng 4,58 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Theo những thống kê từ câu 2, ta tính chỉ số Gini của lần lượt từng thuộc tính để tìm ra thuộc tính phân nhánh có lợi nhất - Xét Gini thuộc tính giảm:... Do đó chọn thuộc tính và phân nh

Trang 1

BÁO CÁO THỰC HÀNH BÀI 4

Họ và tên: Nguyễn Hoàng Thế Bảo

MSSV: 19521247

Môn học: Khai thác dữ liệu – IS252.M21.HTCL.2

Giáo viên: Vũ Minh Sang

Đề:

b Yêu cầu:

Trang 2

Theo những thống kê từ câu 2, ta tính chỉ số Gini của lần lượt từng thuộc tính

để tìm ra thuộc tính phân nhánh có lợi nhất

- Xét Gini thuộc tính giảm:

Trang 5

Gini Đi (S )= 144 × 0,5+ 143 × 0,444 4+ 144 × 0,625+ 143 × 0,444 4=0,5119

 Trong 6 thuộc tính, thuộc tính ”đi” có chỉ số Gini nhỏ nhất Do đó chọn thuộc tính

và phân nhánh theo đó

TH1: Xét nhánh “0…5” ta tính các giá trị Gini như sau:

Gini Giảm (S Đi=0…5 )= 3

 Ta thấy ở nhánh “đi” = ”0…5” có hai thuộc tính là người và vừa có chỉ số

Gini nhỏ nhất nên ta lấy thuộc tính Người tiếp tục chia nhánh

- Do nhánh Đi = “0…5” và Người = “11…20”, với nhánh này luôn có phân lớp là cảmxúc = “Tốt” và nhánh Đi = “0…5” và Người = “>20”, nhánh này luôn có phân lớp là Cảm xúc =

“Xấu”, vì vậy 2 nhánh này nút lá không cần xét tiếp

- Nhánh Đi = “0…5” và Người= “6…10”:

Chỉ số Gini các thuộc tính với điều kiện đi = “0…5” và Người= “6…10”

GiniGiảm (S Đi=0…5 , Người=6 10 )= 1

2 0+ 1

2 0=0

Trang 6

Gini Chuyển (S Đi=0…5 , Người=6 10)= 1

 Vậy ở nhánh này có 4 thuộc tính có chỉ số Gini nhỏ nhất nên ta lấy thuộc tính

“giảm” tiếp tục chia nhánh Nhánh Đi = “0…5”, Người = “11…20”, Giảm =”0…5”, với nhánh này luôn có phân lớp là Cảm xúc = “Tốt” và nhánh Đi = “0…5”, Người = “11…20”,Giảm =”11 20”, vớinhánh này luôn có phân lớp là Cảm xúc = “Xấu”, vì vậy 2 nhánh này nút lá không cần xét tiếp

TH2: Xét nhánh “6…10” ta tính các giá trị Gini như sau:

 Ta thấy ở nhánh “đi” = ”6…10” có hai thuộc tính là người và yêu có chỉ số

Gini nhỏ nhất nên ta lấy thuộc tính Người tiếp tục chia nhánh

- Do nhánh Đi = “6…10” và Người = “0…5”, với nhánh này luôn có phân lớp là Cảmxúc = “Xấu”, nhánh Đi = “6…10” và Người = “6 10”, với nhánh

Trang 7

này luôn có phân lớp là Cảm xúc = “Xấu” và nhánh Đi = “6…10” và Người

= “11 20”, với nhánh này luôn có phân lớp là Cảm xúc = “Bình thường”, vì vậy 3 nhánh này nút lá không cần xét tiếp

TH 3: Xét nhánh Đi = “11 20” ta tính các giá trị Gini như sau

Gini Giảm (S Đi=11 20 )= 1

 Ta thấy nhánh Đi = “11 20” có 2 thuộc tính Người, chuyển có chỉ số Gini

nhỏ nhất nên ta lấy thuộc tính Người tiếp tục chia nhánh

- Do nhánh Đi = “11…20” và Người = “0…5”, với nhánh này luôn có phân lớp là

Cảm xúc = “Tốt”, nhánh Đi = “11…20” và Người = “>20”, với nhánh này luôn có phân lớp là Cảm

xúc = “Bình thường”, vì vậy 2 nhánh này nút lá không cần xét tiếp

- Nhánh Đi = “11…20” và Người = “6 10”

Chỉ số Gini các thuộc tính với điều kiện Đi = “11…20” và Người = “6 10”

GiniGiảm (S Đi=11…20 , Người=6 10)= 1

Trang 8

Gini Vừa ( S Đi=11…20 , Người=6 10 )= 2

2 0,5=0,5

 Vậy nhánh Đi = “11…20” và Người = 6 10 có 4 thuộc tính Giảm, chuyển,

có chỉ số Gini nhỏ nhất nên ta lấy thuộc tính Giảm tiếp tục chia nhánh

- Do nhánh Đi = “11…20”, Người = “6…10”,Giảm =”0…5”, với nhánh này luôn cóphân lớp là Cảm xúc = “Xấu” và nhánh Đi = “11…20”, Người = “6…10”,Giảm =”11 20”, vớinhánh này luôn có phân lớp là Cảm xúc = “Tốt”, vì vậy 2 nhánh này nút lá không cần xét tiếp

TH 4: Nhánh Đi = “>20” ta tính các giá trị Gini như sau

- Do nhánh Đi = “>20” và Vừa= “0…5”, với nhánh này luôn có phân lớp là Cảm xúc

= “Bình thường”, nhánh Đi = “>20” và Vừa= “6 10”, với nhánh này luôn có phân lớp là Cảm xúc =

“Tốt” và nhánh Đi = “>20” và Vừa= “11 20”, với nhánh này luôn có phân lớp là Cảm xúc = “Bìnhthường”, vì vậy 3 nhánh này nút lá không cần xét tiếp

Ta có cây quyết định:

Trang 10

4 +1

Ta có P(Cảm xúc = ‘Bình thường’) = 14+3 = 5/17 0,2941

Xét hồ sơ đầu tiên

X = {giảm = 0 5, người = 6 10, chuyển = 0 5, yêu =11 20, vừa = 6 10, đi = 0 5}

Trang 12

 Ta thấy hồ sơ X thứ nhất có xác suất xảy ra Cảm xúc = ‘Xấu’ lớn hơn, vậy ta có thểkết luận dòng dữ liệu đầu tiên được dự đoán vào phân lớp Cảm xúc = ‘Xấu’

Trang 14

 Ta thấy hồ sơ X thứ hai có xác suất xảy ra Cảm xúc = ‘Tốt’ lớn hơn, vậy ta có thểkết luận dòng dữ liệu đầu tiên được dự đoán vào phân lớp Cảm xúc = ‘Tốt’

Trang 16

 Ta thấy hồ sơ X thứ ba có xác suất xảy ra Cảm xúc = ‘Bình thường’ lớn hơn, vậy ta

có thể kết luận dòng dữ liệu đầu tiên được dự đoán vào phân lớp Cảm xúc = ‘Bình thường’

Trang 20

Ma trận nhầm lẫn của thuật tốn Nạve Bayes:

Lớp dự đốn được từ mơ hình

Trang 21

Câu 4

Trang 22

Nhìn vào đồ thị ta có không có thuộc tính nào có độ tương đồng cao nên ta không

loại thuộc tính nào hết

Trang 23

Theo đề bài thuộc tính “Quality” được chọn làm thuộc tính quyết định nên ta tiến

hành tách thuộc tính này ra khỏi dữ liệu và lưu vào phần mới

Ở đây toàn bộ dữ liệu hiện tại đều thuộc dạng số nên không cần chuyển đổi

Trang 24

Tính ma trận nhằm lẫn và biểu diễn lên đồ thị heatmap

Trang 25

Biểu diễn cây ID3 bằng lệnh

Cây thu được:

Trang 27

Biểu diễn cây ID3

Trang 28

Cây thu được

Trang 30

Dựa vào mô hình ta có độ chính xác của

+ Thuật toán cây ID3 cao nhất (0.5833333333333334)

+ Thuật toán Naive Bayes là thấp nhất (0.5416666666666666)

Vậy đối với mô hình này sử dụng thuật toán cây quyết định ID3 là tốt nhất

Ngày đăng: 14/10/2022, 08:35

w