Tập phổ biến đóng: số lần xuất hiện của các tập phổ biến con so với cha phải khác nhautập phổ biến cha không so với con Ví dụ ảnh minh họa Công thức tính độ phổ biến và độ tin cậy của tậ
Trang 1Chuyển đổi sang nhị phân
CÔNG THỨC TÍNH ĐỘ PHỔ BIẾN
|D|=7 (tổng số lần giao dịch từ t1 đến t7)
VÍ DỤ: số lần xuất hiện chia cho tổng giao dịch
1/ SUPP(X)=3/7
2/ SUPP(X1)=5/7
3/ SUPP(X3)=3/7
4/ SUPP(X4)=1/7
Độ phổ biến
1/ SUPP(X)=3/7*100
2/ SUPP(X1)=5/7*100
3/ SUPP(X3)=3/7*100
4/ SUPP(X4)=1/7*100
MINSUP: ĐỘ PHỔ BIẾN THẤP NHẤT
MINCONF: ĐỘ TIN CẬY
Tập cha phổ biến thì tập con phổ biến, tập con không phổ biến thì tập cha không phổ biến Tập phổ biến tối đại: là tập phổ biến k có tập cha phổ biến (ví dụ tập cha là cdw, tập con là cd)
Trang 2Tập phổ biến đóng: số lần xuất hiện của các tập phổ biến con so với cha phải khác nhau(tập phổ biến cha không so với con)
Ví dụ ảnh minh họa
Công thức tính độ phổ biến và độ tin cậy của tập luật phần tử
Ví dụ
Tập phổ biến không tối đại
Tập phổ biến tối đại
Trang 3supp=3/7 nghĩa là số lần xuất hiện của chicken, clothes, milk =3, 7 là 7 giao dịch
- conf=3(a)/3(b) 3(a): nghĩa là số lần xuất hiện của chicken, clothes, milk
3(b): là số lần xuất hiện của chicken, clothes
Chicken, clothes xác định Milk
ĐỂ XÁC ĐỊNH CÁC TẬP LUẬT thì trước tiên phải xác định tập phổ biến
Tính chất của tập phổ biến
TC1: Tất cả tập con của tập pb đều là tập pb
TC2: Mọi tập cha của tập KO pb đều ko pb
Trang 4Tập liên kết aprriori
liên kết cho ra 4 phần tử(lưu ý phải cùng 2 tiền tố) trong ví dụ chương 2 trang 48
Tập C là tập dự tuyển, tập L là tập phổ biến khi kết luận thì kết luận tập L
Có thể đổi vị trí các phần để kết hợp(ví dụ: act,at
THUẬT TOÁN FP – GROWTH (TR 58)
Trang 5XEM LẠI VÍ DỤ TRONG TÀI LIỆU THAM KHẢO(khi vẽ cây cần sắp xếp bảng giao dịch lại theo độ giảm dần của độ phổ biến)
TÌM TẬP LUẬT CHO 2 PHẦN TỬ TRỞ LÊN
Trang 6CHƯƠNG III PHÂN LỚP DỮ LIỆU
- Công thức tính độ chính xác trang 12(khoảng 70% mới tính cậy)
- có 2 bước phân lớp dữ liệu: b1: học(xây dựng mô hình); b2: sử dụng(áp dụng mô hình mới)
Trang 7THI VÀO BÀI CÂY QUYẾT ĐỊNH ID3 không cho c4.5
Log2(x)= log10(x)/log10(2)
Tính gain thằng nào lớn nhất lấy làm gốc