Báo cáo bài tập nhóm: Tìm hiểu về thuật toán KNN

Định nghĩaKnearest neighbor là một trong những thuật toán supervisedlearning đơn giản nhất (mà hiệu quả trong một vài trường hợp) trong Machine Learning. Ý tưởng thuật toán là tìm ra output của dữ liệu training gần nó nhất.InputOutputThuật toán có 2 đầu vào, một là tập các dữ liệu đã biết trước kiểu(loại) của từng dữ liệu(hay còn gọi là tập huấn luyện training set), đầu vào thứ 2 là dữ liệu, chúng ta chưa biết kiểu(loại) dữ liệu đó. Đầu ra của thuật toán kNN là kiểu dữ liệu của đầu vào thứ 2.Sử dụngLà phương pháp để phân lớp các đối tượng dựa vào khoảng cách gần nhất giữa đối tượng cần phân lớp (Query point) và tất cả các đối tượng trong Training Data.

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TP HCM

ĐỀ TÀI

Tìm hiểu Thuật Toán K-Nearest-Neighbors(K-NN)

Giảng viên bộ môn:

Văn Thế Thành

Danh sách sinh viên

1 Nguyễn Hữu Trọng

2 Đặng Quốc Hải

3 Huỳnh Ngọc Khánh

KHOA CÔNG NGHỆ THÔNG TIN

Trang 2

1 Giới Thiệu Thuật Toán

• K-nearest neighbor là một trong những thuật toán supervised-learning đơn giản nhất (mà hiệu quả trong một vài trường hợp) trong Machine Learning

Ý tưởng thuật toán là tìm ra output của dữ liệu training gần nó nhất.

Định nghĩa

• Thuật toán có 2 đầu vào, một là tập các dữ liệu đã biết trước kiểu(loại) của từng dữ liệu(hay còn gọi là tập huấn luyện - training set), đầu vào thứ 2 là

dữ liệu, chúng ta chưa biết kiểu(loại) dữ liệu đó Đầu ra của thuật toán kNN là kiểu dữ liệu của đầu vào thứ 2.

Input/Output

• Là phương pháp để phân lớp các đối tượng dựa vào khoảng cách gần nhất giữa đối tượng cần phân lớp (Query point) và tất cả các đối tượng trong Training Data.

Sử dụng

Trang 3

3 Ưu điểm và Nhược điểm

Ưu điểm

• Độ phức tạp tính toán của quá trình

training là bằng 0.

• Việc dự đoán kết quả của dữ liệu mới

rất đơn giản.

• Dể sử dụng và cài đặt.

Nhược điểm

• K-NN nhiễu dễ đưa ra kết quả không chính xác khi K nhỏ.

• K-NN là một thuật toán mà mọi tính toán đều nằm ở khâu test Trong đó

việc tính khoảng cách tới từng điểm

dữ liệu trong training set sẽ tốn rất

Trang 4

4 Bài Tập Minh Họa

Trang 5

•

*Công thức tính toán

Trang 6

4.1 Chuẩn hóa dữ liệu

Trang 7

4.1 Ma trận khoảng Euclide cách trung bình

ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

16 0.683 0.784 1.14 1.575 0.417 0.864 0.771 0.449 0.908 0.232 0.806 0.848 0.61 1.389 1.862

17 0.903 0.934 1.49 1.792 0.745 1.132 0.618 0.788 1.174 0.377 0.841 1.215 0.711 1.728 2.084

Phần tử d Quyết định

5 0.417 Không Mua

8 0.449 Không Mua

Lấy k=5 phần tử gần nhất

Láng giềng của 16

Láng giềng của 17

Trang 8

4.1 Ma trận khoảng Euclide cách trung bình

ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

16 0.683 0.784 1.14 1.575 0.417 0.864 0.771 0.449 0.908 0.232 0.806 0.848 0.61 1.389 1.862

17 0.903 0.934 1.49 1.792 0.745 1.132 0.618 0.788 1.174 0.377 0.841 1.215 0.711 1.728 2.084

Lấy k=7 phần tử gần nhất

Láng giềng của 16 Láng giềng của 17

Vậy với k=7, ID 16 và 17 là những món hàng không mua

Trang 9

Tài liệu tham khảo: https://text.xemtailieu.com

DataMining

Định dạng
Số trang	9
Dung lượng	1,34 MB