Bảng nhiệm vụKhổng Thị Dung Cơ sở lí thuyết, Đặc điểm củaNaive Bayes Classification Trương Thị Nhung Cách hoạt động của NaiveBayes Classification, Các loại mô hình Naive Bayes Classific
Trang 1TRƯỜNG ĐẠI HỌC PHENIKAA KHOA KHOA HỌC CƠ BẢN
-******* -TOÁN ỨNG DỤNG CHO TRÍ TUỆ NHÂN TẠO
BÁO CÁO
Đề tài 13: Naive Bayes Classifier
Thành viên:Khổng Thị Dung – 21012374
Trương Thị Nhung –
21011061 Trần Tiến Dũng
- 21013342
Trang 2HÀ NỘI, THÁNG 10, 2022
Trang 3MỤC LỤC
6
6
1.1 Đặc điểm của Naive Bayes Classification 7
1.2 Cách hoạt động của Naive Bayes Classification 7
1.3 Các loại mô hình Naive Bayes Classification 8
1.5 Ứng dụng của thuật toán Naive Bayes Classification 10
11
12
Trang 4Bảng nhiệm vụ
Khổng Thị Dung Cơ sở lí thuyết, Đặc điểm củaNaive Bayes
Classification Trương Thị
Nhung Cách hoạt động của NaiveBayes Classification, Các
loại mô hình Naive Bayes
Classification Trần Tiến
Dũng Naive Bayes Ứng dụng của thuật toán
Classification,ưu điểm ,
nhược điểm
Trang 5LỜI CẢM ƠN
Để có những kiến thức nền tảng hoàn thành đề tài này, nhóm chúng em xin cảm ơn nhà trường đã đưa môn học Toán ứng dụng cho trí tuệ nhân tạo và học máy vào chương trình giảng dạy Môn học mang lại cho chúng em kiến thức toán sử dụng cho trí tuệ nhân tạo cơ bản, ngoài ra môn học còn giúp chúng em cải thiện kỹ năng mềm như kỹ năng thuyết trình, kỹ năng viết báo cáo, kỹ năng làm việc nhóm, … Đây đều là những kỹ năng quan trọng vô cùng cần thiết cho chúng em ở giảng đường đại học và cho tương lai công việc sau này
Đặc biệt, chúng em xin gửi lời cảm ơn sâu sắc đến Thầy Vũ Hoàng Diệu đã giảng dạy, chỉ bảo và truyền đạt cho chúng em những kiến thức quý báu trong suốt thời gian chúng em học môn Toán ứng dụng cho trí tuệ nhân tạo và học máy
Nhóm chúng em đã cố gắng để hoàn thành đề tài này một cách hoàn chỉnh nhất, tuy nhiên vì kiến thức của chúng em còn hạn chế, khả năng tiếp thu thực tế còn nhiều khó khăn, vì vậy đề tài không tránh khỏi những thiếu sót Chúng em rất mong những ý kiến đóng góp của Thầy để hoàn thiện và rút ra những kinh nghiệm quý báu Xin chân thành cảm ơn!
Trang 6LỜI NÓI ĐẦU
Trong kỷ nguyên công nghiệp 4.0 phát triển nở rộ, “Trí tuệ nhân tạo là yếu tố không thể không nhắc đến Ngày nay, công nghệ trí tuệ nhân tạo là một trong những ngành công nghệ quan trọng hàng đầu, giúp con người giải quyết nhiều vấn đề trong cuộc sống Toán ứng dụng cho trí tuệ nhân tạo là học phần trang bị những kỹ năng về lập trình và các kiến thức cơ bản về đại số tuyến tính, giải tích nhiều chiều, lý thuyết xác suất thống kê, các phương pháp thuật toán tối ưu cho trí tuệ nhân tạo và học máy
Hiện nay, khoa học công nghệ ngày càng phát triển Các hệ thống thư viện điện tử, thư viện trực tuyến ngày càng được sử dụng rộng rãi, kèm theo đó là các vấn đề liên quan đến phân loại, tìm kiếm chia theo danh mục và gợi ý nội dung đọc cho người dùng Với lượng thông tin lớn, đồ sộ, một yêu cầu đặt ra là làm sao để tổ chức và tìm kiếm thông tin có hiệu quả nhất Phân loại thông tin là một trong những giải pháp hợp lý cho yêu cầu trên Nhưng thực tế
là khối lượng thông tin quá lớn, việc phân loại dữ liệu thủ công là điều không thể Hướng giải quyết là một chương trình máy tính tự động phân loại các thông tin trên Vì vậy nhóm em chọn đề tài số 13: Naive bayes classifier để nghiên cứu, tìm hiểu về thuật toán và chỉ ra ưu nhược điểm của thuật toán
Trang 7PHẦN 1:
CƠ SỞ LÝ THUYẾT 1.Thuật tốn Naive Bayes Classification
Thuật tốn phân loại Naive Bayes – là một thuật tốn dựa trên định lý Bayes về lý thuyết xác suất để đưa ra các phán đốn cũng như phân loại dữ liệu dựa trên các dữ liệu được quan sát và thống
kê, được ứng dụng rất nhiều trong các lĩnh vực học máy dùng để đưa ra các dự đốn cĩ độ chính xác cao, dựa trên một tập dữ liệu đã được thu thập Naive Bayes Classification thuộc vào nhĩm học máy
cĩ giám sát
Mơ hình Naive Bayesian dễ thực hiện và đặc biệt hữu ích cho các tập dữ liệu lớn Ngồi đơn giản Naive Bayes cịn được nhận xét
là xử lý nhanh, độ chính xác cao và vượt trội hơn cả các phương pháp phân loại rất tiên tiến
Ví dụ, một quả cĩ thể được coi là một quả cam nếu nĩ cĩ màu cam, trịn và đường kính khoảng 3 inch Ngay cả khi các tính năng này phụ thuộc vào nhau hoặc dựa trên sự tồn tại của các tính năng khác, một bộ phân loại Naive Bayes sẽ xem xét tất cả các đặc điểm này để đĩng gĩp độc lập vào xác suất rằng loại quả này là một quả cam
2.Cơng thức Naive Bayes:
Cơng thức Nạve Bayes được định nghĩa:
Trang 8P(B|A): là xác xuất của lớp mục tiêu được
dự đoán P(B): xác xuất của lớp trước P(A|B): khả năng xác xuất lớp dự đoán đưa ra P(A): là xác xuất dự đoán trước
Trang 9PHẦN 2:
NỘI DUNG
1 Naive Bayes Classification
Đây là một kỹ thuật phân loại dựa trên Định lý Bayes với giả định về sự độc lập giữa các yếu tố dự đốn Nĩi cách khác, bộ phân loại Naive Bayes giả định rằng sự hiện diện của một đối tượng cụ thể trong một lớp khơng liên quan đến sự hiện diện của bất kỳ đối tượng địa lý nào khác
1.1 Đặc điểm của Naive Bayes Classification
- Thuật tốn Nạve Bayes là một thuật tốn học cĩ giám sát, dựa trên định lý Bayes và được sử dụng để giải các bài tốn phân loại
- Nĩ chủ yếu được sử dụng trong phân loại văn bản bao gồm
một tập dữ liệu đào tạo chiều cao
- Nạve Bayes Classifier là một trong những thuật tốn Phân loại đơn giản và hiệu quả nhất giúp xây dựng các mơ hình học máy nhanh cĩ thể đưa ra dự đốn nhanh chĩng
- Nĩ là một bộ phân loại theo xác suất, cĩ nghĩa là nĩ dự đốn trên cơ sở xác suất của một đối tượng
- Một số ví dụ phổ biến của Thuật tốn Nạve Bayes là lọc thư rác, phân tích tình cảm, phân loại các bài báo
1.2 Cách hoạt động của Naive Bayes Classification
Trang 10Bước 1: Chuyển tập dữ liệu thành bảng tần số
Bước 2: Tạo bảng khả năng bằng cách tìm các xác suất
Bước 3: Bây giờ, sử dụng phương trình Naive Bayesian để tính xác suất sau cho mỗi lớp Lớp có xác suất hậu phương cao nhất là kết quả của dự đoán
Trang 111.3 Các loại mơ hình Naive Bayes Classification
1.1.1.Gaussian:
Mơ hình Gaussian giả định rằng các đối tượng địa lý tuân theo phân phối chuẩn Điều này cĩ nghĩa là nếu các yếu tố dự đốn nhận các giá trị liên tục thay vì rời rạc, thì mơ hình giả định rằng các giá trị này được lấy mẫu từ phân phối Gaussian
1.1.2.Đa thức:
Bộ phân loại Nạve Bayes đa thức được sử dụng khi dữ liệu được phân phối đa thức Nĩ chủ yếu được sử dụng cho các vấn đề phân loại tài liệu, nĩ cĩ nghĩa là một tài liệu cụ thể thuộc về danh mục nào như thể thao, chính trị, giáo dục, Trình phân loại sử dụng tần suất từ cho các yếu tố dự đốn
1.1.3.Bernoulli:
Bộ phân loại Bernoulli hoạt động tương tự như bộ phân loại đa thức, nhưng các biến dự báo là các biến Booleans độc lập Chẳng hạn như nếu một từ cụ thể cĩ trong tài liệu hay khơng Mơ hình này cũng nổi tiếng với các nhiệm vụ phân loại tài liệu
1.4 Ví dụ:
Xét một bộ dữ liệu đơn giản về việc đi làm muộn của một bạn nhân viên
Bộ dữ liệu được biểu diễn dạng bảng dưới đây
Trang 12Giờ dậy
(x1)
Sức khỏe (x2)
Thời tiết (x3) Đi muộn
(x4)
Trang 133 Bình
thường
6 Bình
8 Bình
Lập bảng tần suất cho từng đặc trưng cho
mục tiêu: Giờ dậy (x1)
Muộn Không
muộn P (x1|Muộn) P (x1|không muộn)
Bình
Sức khỏe (x2)
muộn
P (x2|Muộn) P (x2|Không
muộn)
Trang 14Thời tiết (x3)
Muộ n
Không muộn
P (x3|Muộn) P (x3|Không
muộn)
Nhiều
mây
Để dự đoán cho ngày X = (Muộn, Xấu, Mưa), cần tính:
P(Muộn|X) = P(Muộn|Muộn) * P(Xấu|Muộn) * P(Mưa|Muộn) * P(Muộn) = (3/5) * (2/5) * (1/5) * (5/10) = 0.024
P (Không muộn|X) = P(Muộn|Không muộn) * P(Xấu|Không muộn)
* P(Mưa| Không muộn) * P(Không muộn) = (0/5) * (3/5) * (1/5) * (5/10) = 0
⇨ y = argmax {P(X|y)P(y)} = Muộn
1.5 Ứng dụng của thuật toán Naive Bayes Classification
▪ Dự đoán thời gian thực: Naive Bayes là một công cụ phân loại ham học hỏi và chắc chắn là rất nhanh Do đó, nó có thể được sử dụng để đưa ra dự đoán trong thời gian thực
Trang 15▪ Dự đoán nhiều lớp: Thuật toán này cũng nổi tiếng với tính năng dự đoán nhiều lớp Ở đây chúng ta có thể dự đoán xác suất của nhiều lớp biến mục tiêu
▪ Phân loại văn bản / Lọc thư rác / Phân tích tình cảm: Các bộ phân loại Naive Bayes chủ yếu được sử dụng trong phân loại văn bản (do kết quả tốt hơn trong các bài toán nhiều lớp và quy tắc độc lập) có
tỷ lệ thành công cao hơn so với các thuật toán khác Do đó, nó được
sử dụng rộng rãi trong lọc Spam
Trang 16(xác định e-mail spam) và Phân tích cảm xúc (trong phân tích phương tiện truyền thông xã hội, để xác định cảm xúc tích cực và tiêu cực của khách hàng)
▪ Hệ thống đề xuất: Naive Bayes Classifier và Collaborative Filtering cùng nhau xây dựng một Hệ thống đề xuất sử dụng kỹ thuật học máy và khai thác dữ liệu để lọc thông tin không nhìn thấy và dự đoán liệu người dùng có muốn một tài nguyên nhất định hay không
PHẦN 3:
KẾT LUẬN 1.Ưu điểm:
- Naive Bayes Classifiers thường được sử dụng trong các bài toán
về Text Classification
- Naive Bayes Classifiers dễ dàng cài đặt, có thời gian training và test rất nhanh Điều này có được là nhờ vào việc giả sử về tính độc lập giữa các thành phần, nếu biết class
- Naive Bayes Classifiers có thể hoạt động với các feature vector
mà một phần là liên tục (sử dụng Gaussian Naive Bayes), phần còn lại ở dạng rời rạc (sử dụng Multinomial hoặc Bernoulli)
- Khi sử dụng Multinomial Naive Bayes thì Laplace smoothing thường được sử dụng để tránh trường hợp 1 thành phần trong test data chưa xuất hiện ở training data
- Dự đoán đa lớp với độ chính xác cao
Trang 172.Nhược điểm:
- Giả thuyết về tính độc lập của điều kiện làm giảm đi độ chính xác của thuật toán
- Khi tiến hành dự đoán một tập dữ liệu mà không hề có trong bộ đã được training thì xác suất này được xác định là 0
Trang 18Tài liệu tham khảo
1 Marc Peter Deisenroth, A Aldo Faisal, and Cheng Soon Ong
(2020), Mathematics for Machine Learning, Cambridge University Press, ISBN- 13: 978-1108455145.
2 Bengio, Yoshua Deep Learning (2016), Adaptive
Computation and Machine Learning Series, London, England: MIT Press, ISBN-13: 978-0262035613.
3. https://techtalk.vn
4 Exercise 6: Naive Bayes
BẢN
Trang 1920. PHẦN 3: KẾT LUẬN
23.
24.