tiểu luận TOÁN ỨNG DỤNG CHO TRÍ TUỆ NHÂN tạo đề tài naive bayes classifier

Bảng nhiệm vụKhổng Thị Dung Cơ sở lí thuyết, Đặc điểm củaNaive Bayes Classification Trương Thị Nhung Cách hoạt động của NaiveBayes Classification, Các loại mô hình Naive Bayes Classific

Trang 1

TRƯỜNG ĐẠI HỌC PHENIKAA KHOA KHOA HỌC CƠ BẢN

-******* -TOÁN ỨNG DỤNG CHO TRÍ TUỆ NHÂN TẠO

BÁO CÁO

Đề tài 13: Naive Bayes Classifier

Thành viên:Khổng Thị Dung – 21012374

Trương Thị Nhung –

21011061 Trần Tiến Dũng

- 21013342

Trang 2

HÀ NỘI, THÁNG 10, 2022

Trang 3

MỤC LỤC

6

1.1 Đặc điểm của Naive Bayes Classification 7

1.2 Cách hoạt động của Naive Bayes Classification 7

1.3 Các loại mô hình Naive Bayes Classification 8

1.5 Ứng dụng của thuật toán Naive Bayes Classification 10

11

12

Trang 4

Bảng nhiệm vụ

Khổng Thị Dung Cơ sở lí thuyết, Đặc điểm củaNaive Bayes

Classification Trương Thị

Nhung Cách hoạt động của NaiveBayes Classification, Các

loại mô hình Naive Bayes

Classification Trần Tiến

Dũng Naive Bayes Ứng dụng của thuật toán

Classification,ưu điểm ,

nhược điểm

Trang 5

LỜI CẢM ƠN

Để có những kiến thức nền tảng hoàn thành đề tài này, nhóm chúng em xin cảm ơn nhà trường đã đưa môn học Toán ứng dụng cho trí tuệ nhân tạo và học máy vào chương trình giảng dạy Môn học mang lại cho chúng em kiến thức toán sử dụng cho trí tuệ nhân tạo cơ bản, ngoài ra môn học còn giúp chúng em cải thiện kỹ năng mềm như kỹ năng thuyết trình, kỹ năng viết báo cáo, kỹ năng làm việc nhóm, … Đây đều là những kỹ năng quan trọng vô cùng cần thiết cho chúng em ở giảng đường đại học và cho tương lai công việc sau này

Đặc biệt, chúng em xin gửi lời cảm ơn sâu sắc đến Thầy Vũ Hoàng Diệu đã giảng dạy, chỉ bảo và truyền đạt cho chúng em những kiến thức quý báu trong suốt thời gian chúng em học môn Toán ứng dụng cho trí tuệ nhân tạo và học máy

Nhóm chúng em đã cố gắng để hoàn thành đề tài này một cách hoàn chỉnh nhất, tuy nhiên vì kiến thức của chúng em còn hạn chế, khả năng tiếp thu thực tế còn nhiều khó khăn, vì vậy đề tài không tránh khỏi những thiếu sót Chúng em rất mong những ý kiến đóng góp của Thầy để hoàn thiện và rút ra những kinh nghiệm quý báu Xin chân thành cảm ơn!

Trang 6

LỜI NÓI ĐẦU

Trong kỷ nguyên công nghiệp 4.0 phát triển nở rộ, “Trí tuệ nhân tạo là yếu tố không thể không nhắc đến Ngày nay, công nghệ trí tuệ nhân tạo là một trong những ngành công nghệ quan trọng hàng đầu, giúp con người giải quyết nhiều vấn đề trong cuộc sống Toán ứng dụng cho trí tuệ nhân tạo là học phần trang bị những kỹ năng về lập trình và các kiến thức cơ bản về đại số tuyến tính, giải tích nhiều chiều, lý thuyết xác suất thống kê, các phương pháp thuật toán tối ưu cho trí tuệ nhân tạo và học máy

Hiện nay, khoa học công nghệ ngày càng phát triển Các hệ thống thư viện điện tử, thư viện trực tuyến ngày càng được sử dụng rộng rãi, kèm theo đó là các vấn đề liên quan đến phân loại, tìm kiếm chia theo danh mục và gợi ý nội dung đọc cho người dùng Với lượng thông tin lớn, đồ sộ, một yêu cầu đặt ra là làm sao để tổ chức và tìm kiếm thông tin có hiệu quả nhất Phân loại thông tin là một trong những giải pháp hợp lý cho yêu cầu trên Nhưng thực tế

là khối lượng thông tin quá lớn, việc phân loại dữ liệu thủ công là điều không thể Hướng giải quyết là một chương trình máy tính tự động phân loại các thông tin trên Vì vậy nhóm em chọn đề tài số 13: Naive bayes classifier để nghiên cứu, tìm hiểu về thuật toán và chỉ ra ưu nhược điểm của thuật toán

Trang 7

PHẦN 1:

CƠ SỞ LÝ THUYẾT 1.Thuật tốn Naive Bayes Classification

Thuật tốn phân loại Naive Bayes – là một thuật tốn dựa trên định lý Bayes về lý thuyết xác suất để đưa ra các phán đốn cũng như phân loại dữ liệu dựa trên các dữ liệu được quan sát và thống

kê, được ứng dụng rất nhiều trong các lĩnh vực học máy dùng để đưa ra các dự đốn cĩ độ chính xác cao, dựa trên một tập dữ liệu đã được thu thập Naive Bayes Classification thuộc vào nhĩm học máy

cĩ giám sát

Mơ hình Naive Bayesian dễ thực hiện và đặc biệt hữu ích cho các tập dữ liệu lớn Ngồi đơn giản Naive Bayes cịn được nhận xét

là xử lý nhanh, độ chính xác cao và vượt trội hơn cả các phương pháp phân loại rất tiên tiến

Ví dụ, một quả cĩ thể được coi là một quả cam nếu nĩ cĩ màu cam, trịn và đường kính khoảng 3 inch Ngay cả khi các tính năng này phụ thuộc vào nhau hoặc dựa trên sự tồn tại của các tính năng khác, một bộ phân loại Naive Bayes sẽ xem xét tất cả các đặc điểm này để đĩng gĩp độc lập vào xác suất rằng loại quả này là một quả cam

2.Cơng thức Naive Bayes:

Cơng thức Nạve Bayes được định nghĩa:

Trang 8

P(B|A): là xác xuất của lớp mục tiêu được

dự đoán P(B): xác xuất của lớp trước P(A|B): khả năng xác xuất lớp dự đoán đưa ra P(A): là xác xuất dự đoán trước

Trang 9

PHẦN 2:

NỘI DUNG

1 Naive Bayes Classification

Đây là một kỹ thuật phân loại dựa trên Định lý Bayes với giả định về sự độc lập giữa các yếu tố dự đốn Nĩi cách khác, bộ phân loại Naive Bayes giả định rằng sự hiện diện của một đối tượng cụ thể trong một lớp khơng liên quan đến sự hiện diện của bất kỳ đối tượng địa lý nào khác

1.1 Đặc điểm của Naive Bayes Classification

- Thuật tốn Nạve Bayes là một thuật tốn học cĩ giám sát, dựa trên định lý Bayes và được sử dụng để giải các bài tốn phân loại

- Nĩ chủ yếu được sử dụng trong phân loại văn bản bao gồm

một tập dữ liệu đào tạo chiều cao

- Nạve Bayes Classifier là một trong những thuật tốn Phân loại đơn giản và hiệu quả nhất giúp xây dựng các mơ hình học máy nhanh cĩ thể đưa ra dự đốn nhanh chĩng

- Nĩ là một bộ phân loại theo xác suất, cĩ nghĩa là nĩ dự đốn trên cơ sở xác suất của một đối tượng

- Một số ví dụ phổ biến của Thuật tốn Nạve Bayes là lọc thư rác, phân tích tình cảm, phân loại các bài báo

1.2 Cách hoạt động của Naive Bayes Classification

Trang 10

Bước 1: Chuyển tập dữ liệu thành bảng tần số

Bước 2: Tạo bảng khả năng bằng cách tìm các xác suất

Bước 3: Bây giờ, sử dụng phương trình Naive Bayesian để tính xác suất sau cho mỗi lớp Lớp có xác suất hậu phương cao nhất là kết quả của dự đoán

Trang 11

1.3 Các loại mơ hình Naive Bayes Classification

1.1.1.Gaussian:

Mơ hình Gaussian giả định rằng các đối tượng địa lý tuân theo phân phối chuẩn Điều này cĩ nghĩa là nếu các yếu tố dự đốn nhận các giá trị liên tục thay vì rời rạc, thì mơ hình giả định rằng các giá trị này được lấy mẫu từ phân phối Gaussian

1.1.2.Đa thức:

Bộ phân loại Nạve Bayes đa thức được sử dụng khi dữ liệu được phân phối đa thức Nĩ chủ yếu được sử dụng cho các vấn đề phân loại tài liệu, nĩ cĩ nghĩa là một tài liệu cụ thể thuộc về danh mục nào như thể thao, chính trị, giáo dục, Trình phân loại sử dụng tần suất từ cho các yếu tố dự đốn

1.1.3.Bernoulli:

Bộ phân loại Bernoulli hoạt động tương tự như bộ phân loại đa thức, nhưng các biến dự báo là các biến Booleans độc lập Chẳng hạn như nếu một từ cụ thể cĩ trong tài liệu hay khơng Mơ hình này cũng nổi tiếng với các nhiệm vụ phân loại tài liệu

1.4 Ví dụ:

Xét một bộ dữ liệu đơn giản về việc đi làm muộn của một bạn nhân viên

Bộ dữ liệu được biểu diễn dạng bảng dưới đây

Trang 12

Giờ dậy

(x1)

Sức khỏe (x2)

Thời tiết (x3) Đi muộn

(x4)

Trang 13

3 Bình

thường

6 Bình

8 Bình

Lập bảng tần suất cho từng đặc trưng cho

mục tiêu: Giờ dậy (x1)

Muộn Không

muộn P (x1|Muộn) P (x1|không muộn)

Bình

Sức khỏe (x2)

muộn

P (x2|Muộn) P (x2|Không

muộn)

Trang 14

Thời tiết (x3)

Muộ n

Không muộn

P (x3|Muộn) P (x3|Không

muộn)

Nhiều

mây

Để dự đoán cho ngày X = (Muộn, Xấu, Mưa), cần tính:

P(Muộn|X) = P(Muộn|Muộn) * P(Xấu|Muộn) * P(Mưa|Muộn) * P(Muộn) = (3/5) * (2/5) * (1/5) * (5/10) = 0.024

P (Không muộn|X) = P(Muộn|Không muộn) * P(Xấu|Không muộn)

* P(Mưa| Không muộn) * P(Không muộn) = (0/5) * (3/5) * (1/5) * (5/10) = 0

⇨ y = argmax {P(X|y)P(y)} = Muộn

1.5 Ứng dụng của thuật toán Naive Bayes Classification

▪ Dự đoán thời gian thực: Naive Bayes là một công cụ phân loại ham học hỏi và chắc chắn là rất nhanh Do đó, nó có thể được sử dụng để đưa ra dự đoán trong thời gian thực

Trang 15

▪ Dự đoán nhiều lớp: Thuật toán này cũng nổi tiếng với tính năng dự đoán nhiều lớp Ở đây chúng ta có thể dự đoán xác suất của nhiều lớp biến mục tiêu

▪ Phân loại văn bản / Lọc thư rác / Phân tích tình cảm: Các bộ phân loại Naive Bayes chủ yếu được sử dụng trong phân loại văn bản (do kết quả tốt hơn trong các bài toán nhiều lớp và quy tắc độc lập) có

tỷ lệ thành công cao hơn so với các thuật toán khác Do đó, nó được

sử dụng rộng rãi trong lọc Spam

Trang 16

(xác định e-mail spam) và Phân tích cảm xúc (trong phân tích phương tiện truyền thông xã hội, để xác định cảm xúc tích cực và tiêu cực của khách hàng)

▪ Hệ thống đề xuất: Naive Bayes Classifier và Collaborative Filtering cùng nhau xây dựng một Hệ thống đề xuất sử dụng kỹ thuật học máy và khai thác dữ liệu để lọc thông tin không nhìn thấy và dự đoán liệu người dùng có muốn một tài nguyên nhất định hay không

PHẦN 3:

KẾT LUẬN 1.Ưu điểm:

- Naive Bayes Classifiers thường được sử dụng trong các bài toán

về Text Classification

- Naive Bayes Classifiers dễ dàng cài đặt, có thời gian training và test rất nhanh Điều này có được là nhờ vào việc giả sử về tính độc lập giữa các thành phần, nếu biết class

- Naive Bayes Classifiers có thể hoạt động với các feature vector

mà một phần là liên tục (sử dụng Gaussian Naive Bayes), phần còn lại ở dạng rời rạc (sử dụng Multinomial hoặc Bernoulli)

- Khi sử dụng Multinomial Naive Bayes thì Laplace smoothing thường được sử dụng để tránh trường hợp 1 thành phần trong test data chưa xuất hiện ở training data

- Dự đoán đa lớp với độ chính xác cao

Trang 17

2.Nhược điểm:

- Giả thuyết về tính độc lập của điều kiện làm giảm đi độ chính xác của thuật toán

- Khi tiến hành dự đoán một tập dữ liệu mà không hề có trong bộ đã được training thì xác suất này được xác định là 0

Trang 18

Tài liệu tham khảo

1 Marc Peter Deisenroth, A Aldo Faisal, and Cheng Soon Ong

(2020), Mathematics for Machine Learning, Cambridge University Press, ISBN- 13: 978-1108455145.

2 Bengio, Yoshua Deep Learning (2016), Adaptive

Computation and Machine Learning Series, London, England: MIT Press, ISBN-13: 978-0262035613.

3. https://techtalk.vn

4 Exercise 6: Naive Bayes

BẢN

Trang 19

20. PHẦN 3: KẾT LUẬN

23.

24.

Tiêu đề	Naive Bayes Classifier
Tác giả	Khổng Thị Dung, Trương Thị Nhung, Trần Tiến Dũng
Người hướng dẫn	Thầy Vũ Hoàng Diệu
Trường học	Trường đại học Phenikaa
Chuyên ngành	Toán Ứng Dụng Cho Trí Tuệ Nhân Tạo
Thể loại	Báo cáo đề tài
Năm xuất bản	2022
Thành phố	Hà Nội

Định dạng
Số trang	19
Dung lượng	75,29 KB