Định nghĩaKnearest neighbor là một trong những thuật toán supervisedlearning đơn giản nhất (mà hiệu quả trong một vài trường hợp) trong Machine Learning. Ý tưởng thuật toán là tìm ra output của dữ liệu training gần nó nhất.InputOutputThuật toán có 2 đầu vào, một là tập các dữ liệu đã biết trước kiểu(loại) của từng dữ liệu(hay còn gọi là tập huấn luyện training set), đầu vào thứ 2 là dữ liệu, chúng ta chưa biết kiểu(loại) dữ liệu đó. Đầu ra của thuật toán kNN là kiểu dữ liệu của đầu vào thứ 2.Sử dụngLà phương pháp để phân lớp các đối tượng dựa vào khoảng cách gần nhất giữa đối tượng cần phân lớp (Query point) và tất cả các đối tượng trong Training Data.
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TP HCM
ĐỀ TÀI
Tìm hiểu Thuật Toán K-Nearest-Neighbors(K-NN)
Giảng viên bộ môn:
Văn Thế Thành
Danh sách sinh viên
1 Nguyễn Hữu Trọng
2 Đặng Quốc Hải
3 Huỳnh Ngọc Khánh
KHOA CÔNG NGHỆ THÔNG TIN
Trang 21 Giới Thiệu Thuật Toán
• K-nearest neighbor là một trong những thuật toán supervised-learning đơn giản nhất (mà hiệu quả trong một vài trường hợp) trong Machine Learning
Ý tưởng thuật toán là tìm ra output của dữ liệu training gần nó nhất.
Định nghĩa
• Thuật toán có 2 đầu vào, một là tập các dữ liệu đã biết trước kiểu(loại) của từng dữ liệu(hay còn gọi là tập huấn luyện - training set), đầu vào thứ 2 là
dữ liệu, chúng ta chưa biết kiểu(loại) dữ liệu đó Đầu ra của thuật toán kNN là kiểu dữ liệu của đầu vào thứ 2.
Input/Output
• Là phương pháp để phân lớp các đối tượng dựa vào khoảng cách gần nhất giữa đối tượng cần phân lớp (Query point) và tất cả các đối tượng trong Training Data.
Sử dụng
Trang 33 Ưu điểm và Nhược điểm
Ưu điểm
• Độ phức tạp tính toán của quá trình
training là bằng 0.
• Việc dự đoán kết quả của dữ liệu mới
rất đơn giản.
• Dể sử dụng và cài đặt.
Nhược điểm
• K-NN nhiễu dễ đưa ra kết quả không chính xác khi K nhỏ.
• K-NN là một thuật toán mà mọi tính toán đều nằm ở khâu test Trong đó
việc tính khoảng cách tới từng điểm
dữ liệu trong training set sẽ tốn rất
Trang 44 Bài Tập Minh Họa
Trang 5•
•
*Công thức tính toán
Trang 64.1 Chuẩn hóa dữ liệu
Trang 74.1 Ma trận khoảng Euclide cách trung bình
ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
16 0.683 0.784 1.14 1.575 0.417 0.864 0.771 0.449 0.908 0.232 0.806 0.848 0.61 1.389 1.862
17 0.903 0.934 1.49 1.792 0.745 1.132 0.618 0.788 1.174 0.377 0.841 1.215 0.711 1.728 2.084
Phần tử d Quyết định
5 0.417 Không Mua
8 0.449 Không Mua
Lấy k=5 phần tử gần nhất
Láng giềng của 16
Phần tử d Quyết định
Láng giềng của 17
Trang 84.1 Ma trận khoảng Euclide cách trung bình
ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
16 0.683 0.784 1.14 1.575 0.417 0.864 0.771 0.449 0.908 0.232 0.806 0.848 0.61 1.389 1.862
17 0.903 0.934 1.49 1.792 0.745 1.132 0.618 0.788 1.174 0.377 0.841 1.215 0.711 1.728 2.084
Lấy k=7 phần tử gần nhất
Láng giềng của 16 Láng giềng của 17
Phần tử d Quyết định
Phần tử d Quyết định
Vậy với k=7, ID 16 và 17 là những món hàng không mua
Trang 9Tài liệu tham khảo: https://text.xemtailieu.com
DataMining