ThuậttốnNaiveBayesClassification Thuật tốn phân loại Naive Bayes – là một thuật tốn dựa trên định lýBayes về lý thuyết xác suất để đưa ra các phán đốn cũng như phân loại dữliệu dựa trên
Trang 1TRƯỜNGĐẠIHỌCPHENIKAAKHOAKHOAHỌC CƠBẢN
-******* -TOÁNỨNGDỤNGCHOTRÍTUỆNHÂNTẠO
BÁOCÁO Đềtài13:NaiveBayesClassifier
Thànhviên: KhổngThịDung–21012374
Trương Thị Nhung – 21011061TrầnTiếnDũng -21013342
HÀNỘI,THÁNG10,2022
Trang 2MỤC LỤC
LỜICẢMƠN 4
LỜINÓIĐẦU 5
PHẦN1:CƠSỞLÝTHUYẾT 6
1 Thuật toánNaiveBayesClassification 6
2 CôngthứcNaive Bayes 6
PHẦN2:NỘIDUNG 7
1 NaiveBayesClassification 7
1.1 Đặc điểmcủa NaiveBayesClassification 7
1.2 Cáchhoạtđộng củaNaiveBayesClassification 7
1.3 Các loạimôhình NaiveBayes Classification 8
1.4 Vídụ 8
1.5 Ứngdụng củathuậttoán NaiveBayesClassification 10
PHẦN3:KẾT LUẬN 11
1 Ưuđiểm 11
2 Nhược điểm 12
Tàiliệu thamkhảo 13
Trang 3KhổngThịDung Cơ sở lí thuyết, Đặc điểm của
NaiveBayesClassification TrươngThịNhung CáchhoạtđộngcủaNaiveBayesClas
sification, Các loại mô hìnhNaiveBayesClassification
es Classification,ưuđiểm,
nhượcđiểm
Trang 4Để có những kiến thức nền tảng hoàn thành đề tài này, nhóm chúng emxin cảm ơn nhà trường đã đưa môn học Toán ứng dụng cho trí tuệ nhân tạo vàhọc máy vào chương trình giảng dạy Môn học mang lại cho chúng em kiếnthức toán sử dụng cho trí tuệ nhân tạo cơ bản, ngoài ra môn học còn giúpchúng em cải thiện kỹ năng mềm như kỹ năng thuyết trình, kỹ năng viết báocáo,k ỹ n ă n g l à m v i ệ c n h ó m , …
Đ â y đ ề u l à n h ữ n g k ỹ n ă n g q u a n t r ọ n g v ô cùng cần thiết cho chúnge m ở g i ả n g
đ ư ờ n g đ ạ i h ọ c v à c h o t ư ơ n g l a i c ô n g việcsaunày
Đặc biệt, chúng em xin gửi lời cảm ơn sâu sắc đến Thầy Vũ Hoàng Diệuđã giảng dạy, chỉ bảo và truyền đạt cho chúng em những kiến thức quý báutrong suốt thời gian chúng em học môn Toán ứng dụng cho trí tuệ nhân tạo vàhọcmáy
Nhóm chúng em đã cố gắng để hoàn thành đề tài này một cách hoànchỉnh nhất, tuy nhiên vì kiến thức của chúng em còn hạn chế, khả năng tiếpthuthựctếcònnhiềukhókhăn,vìvậyđềtàikhôngtránhkhỏinhữngth iếusót Chúng em rất mong những ý kiến đóng góp của Thầy để hoàn thiện và rútranhững kinh nghiệm quý báu
Xinchânthànhcảmơn!
Trang 5Trongkỷ nguyên công nghiệp 4.0 phát triển nở rộ, “Trí tuệ nhân tạo làyếu tố không thể không nhắc đến Ngày nay, công nghệ trí tuệ nhân tạo là mộttrong những ngành công nghệ quan trọng hàng đầu, giúp con người giải quyếtnhiều vấn đề trong cuộc sống Toán ứng dụng cho trí tuệ nhân tạo là học phầntrang bị những kỹ năng về lập trình và các kiến thức cơ bản về đại số tuyếntính, giải tích nhiều chiều, lý thuyết xác suất thống kê, các phương pháp thuậttoántối
ưu chotrí tuệ nhân tạovàhọc máy
Hiện nay, khoa học công nghệ ngày càng phát triển Các hệ thống thưviện điện tử, thư viện trực tuyến ngày càng được sử dụng rộng rãi, kèm theođó là các vấn đề liên quan đến phân loại, tìm kiếm chia theo danh mục và gợiý nội dung đọc cho người dùng Với lượng thông tin lớn, đồ sộ, một yêu cầuđặt ra là làm sao để tổ chức và tìm kiếm thông tin có hiệu quả nhất Phân loạithông tin là một trong những giải pháp hợp lý cho yêu cầu trên Nhưng thực tếlà khối lượng thông tin quá lớn, việc phân loại dữ liệu thủ công là điều khôngthể Hướng giải quyết là một chương trình máy tính tự động phân loại cácthông tin trên Vì vậy nhóm
em chọn đề tài số 13: Naive bayes classifier đểnghiêncứu, tìmhiểuvềthuật toán vàchỉ raưu nhượcđiểmcủathuậttoán
Trang 61. ThuậttốnNaiveBayesClassification
Thuật tốn phân loại Naive Bayes – là một thuật tốn dựa trên định lýBayes về lý thuyết xác suất để đưa ra các phán đốn cũng như phân loại dữliệu dựa trên các dữ liệu được quan sát và thống kê, được ứng dụng rất nhiềutrong các lĩnh vực học máy dùng để đưa ra các dự đốn cĩ độ chính xác cao,dựa trên một tập dữ liệu đã được thu thập Naive Bayes Classification thuộcvàonhĩm học máycĩgiám sát
Mơ hình Naive Bayesian dễ thực hiện và đặc biệt hữu ích cho các tập dữliệu lớn Ngồi đơn giản Naive Bayes cịn được nhận xét là xử lý nhanh, độchínhxáccaovàvượttrội hơncảcácphươngphápphân loạirấttiêntiến
Ví dụ, một quả cĩ thể được coi là một quả cam nếu nĩ cĩ màu cam, trịnvà đường kính khoảng 3 inch Ngay cả khi các tính năng này phụ thuộc vàonhau hoặc dựa trên sự tồn tại của các tính năng khác, một bộ phân loại NaiveBayes sẽ xem xét tất cả các đặc điểm này để đĩng gĩp độc lập vào xác suấtrằngloạiquả này làmột quả cam
2. CơngthứcNaiveBayes:
CơngthứcNạveBayesđượcđịnhnghĩa:
P(B|A): là xác xuất của lớp mục tiêu được dự
đốn.P(B):xác xuất củalớptrước
P(A|B): khả năng xác xuất lớp dự đốn đưa
ra.P(A):làxácxuấtdự đốn trước
Trang 71 NaiveBayesClassification
Đây là một kỹ thuật phân loại dựa trên Định lý Bayes với giả định về sựđộc lập giữa các yếu tố dự đốn Nĩi cách khác, bộ phân loại Naive Bayes giảđịnhr ằ n g s ự h i ệ n d i ệ n c ủ a m ộ t đ ố i t ư ợ n g c ụ t h ể t r o n g m ộ t l ớ p k h ơ n g l
i ê n quanđến sựhiệndiệncủabấtkỳ đối tượngđịalý nàokhác
1.1 ĐặcđiểmcủaNaiveBayesClassification
- Thuật tốn Nạve Bayes là một thuật tốn học cĩ giám sát, dựa trên địnhlýBayesvà đượcsửdụng để giải các bài tốn phân loại
- Nĩ chủ yếu được sử dụng trongphân loại văn bảnbao gồm một tập
dữliệuđào tạochiềucao
- Nạve Bayes Classifier là một trong những thuật tốn Phân loại đơn giảnvàhiệuquảnhấtgiúpxâydựngcácmơhìnhhọcmáynhanhcĩthểđưa radự đốn nhanh chĩng
- Nĩ là một bộ phân loại theo xác suất, cĩ nghĩa là nĩ dự đốn trên cơ sởxác suất củamột đối tượng
- Một số ví dụ phổ biến của Thuật tốn Nạve Bayes là lọc thư rác, phântíchtình cảm, phân loại cácbài báo
1.2 CáchhoạtđộngcủaNaiveBayesClassification
Bước1:Chuyển tậpdữliệuthành bảngtầnsố
Bước2:Tạobảng khảnăngbằng cáchtìmcácxác suất
Bước3:Bâygiờ,sửdụngphươngtrìnhNaiveBayesianđểtínhxácsuấtsaucho mỗilớp.Lớpcĩxácsuấthậu phươngcao nhấtlàkếtquảcủadựđốn
Trang 81.3 CácloạimơhìnhNaiveBayesClassification
1.1.1 Gaussian:
Mơ hình Gaussian giả định rằng các đối tượng địa lý tuân theo phân phốichuẩn Điều này cĩ nghĩa là nếu các yếu tố dự đốn nhận các giá trị liên tụcthay vì rời rạc, thì mơ hình giả định rằng các giá trị này được lấy mẫu từ phânphốiGaussian.
1.1.2 Đathức:
Bộ phân loại Nạve Bayes đa thức được sử dụng khi dữ liệu được phânphốiđathức.Nĩchủyếuđượcsửdụngchocácvấnđềphânloạitàiliệu,nĩ
cĩ nghĩa là một tài liệu cụ thể thuộc về danh mục nào như thể thao, chính trị,giáodục, .Trìnhphân loạisửdụngtầnsuấttừchocác yếu tốdự đốn
1.1.3 Bernoulli:
Bộ phân loại Bernoulli hoạt động tương tự như bộ phân loại đa thức,nhưng các biến dự báo là các biến Booleans độc lập Chẳng hạn như nếu mộttừ cụ thể cĩ trong tài liệu hay khơng Mơ hình này cũng nổi tiếng với cácnhiệmvụ phân loại tài liệu
1.4 Vídụ:
Xét một bộ dữ liệu đơn giản về việcđi làm muộn của một bạn nhânviên Bộdữliệuđượcbiểudiễndạngbảngdướiđây
Giờdậy(x1) Sứckhỏe(x2) Thờitiết(x3) Đimuộn(x4)
Trang 93 Bìnhthường Tốt Nắng Có
Lập bảng tần suất cho từng đặc trưng cho mục
tiêu:Giờdậy (x1)
Muộn Khôngmuộn P(x1|Muộn) P(x1|khôngmuộn)
Sứckhỏe(x2)
Muộn Khôngmuộn P(x2|Muộn) P(x2|Khôngmuộn)
Trang 10Muộn Khôngmuộn P(x3|Muộn) P(x3|Khôngmuộn)
ĐểdựđoánchongàyX =(Muộn, Xấu,Mưa), cầntính:
P(Muộn|X)=P(Muộn|Muộn)*P(Xấu|Muộn)*P(Mưa|Muộn)*P(Muộn)=(3/5)* (2/5)
* (1/5) * (5/10) =0.024
P(Khôngmuộn|X)=P(Muộn|Khôngmuộn)*P(Xấu|Khôngmuộn)*P(Mưa|
Khôngmuộn) *P(Không muộn)=(0/5) *(3/5) *(1/5) *(5/10) =0
y=argmax{P(X|y)P(y)}=Muộn
1.5 ỨngdụngcủathuậttoánNaiveBayesClassification
Dựđoánthờigianthực:NaiveBayeslàmộtcôngcụphânloạihamhọchỏivà chắc chắn là rất nhanh Do đó, nó có thể được sử dụng để đưa ra dự đoántrongthời gianthực
Dự đoán nhiều lớp:T h u ậ t t o á n n à y c ũ n g n ổ i t i ế n g v ớ i
t í n h n ă n g d ự đ o á n nhiều lớp Ở đây chúng ta có thểdự đoánxác suấtc ủ a n h i ề u l ớ p b i ế n m ụ c tiêu
Phân loại văn bản / Lọc thư rác / Phân tích tình cảm: Các bộ phân loại NaiveBayesc h ủ y ế u đ ư ợ c s ử d ụ n g t r o n g p h â n l o ạ i v ă n b ả n ( d o k ế t q u
ả t ố t h ơ n trongcácbàitoánnhiềulớpvàquytắcđộclập)cótỷlệthànhcôngcaoh ơnsovớicácthuậttoánkhác Dođó,nóđượcsửdụngrộngrãitronglọcSpam
Trang 11(xác định e-mail spam) và Phân tích cảm xúc (trong phân tích phương tiệntruyềnthông xãhội, đểxácđịnh cảmxúctích cựcvàtiêu cựccủak h á c h hàng)
Hệthốngđềxuất:NaiveBayesClassifiervà CollaborativeF i l t e r i n g
c ù n g nhau xây dựng một Hệ thống đề xuất sử dụng kỹ thuật học máy và khai thácdữ liệu để lọc thông tin không nhìn thấy và dự đoán liệu người dùng có muốnmộttài nguyên nhất định hay không
PHẦN3:KẾTLUẬN
1. Ưuđiểm:
- Naive Bayes Classifiers thường được sử dụng trong các bài toán về TextClassification
- Naive Bayes Classifiers dễ dàng cài đặt, có thời gian training và test rấtnhanh Điều này có được là nhờ vào việc giả sử về tính độc lập giữa các thànhphần,nếu biết class
- NaiveB a y e s C l a s s i f i e r s c ó t h ể h o ạ t đ ộ n g v ớ i c á c f e a t u r e v e c t o r
m à m ộ t phần là liên tục (sử dụng Gaussian Naive Bayes), phần còn lại ở dạng rời rạc(sửdụng Multinomial hoặc Bernoulli)
- Khi sử dụng Multinomial Naive Bayes thì Laplace smoothing thường đượcsử dụng để tránh trường hợp 1 thành phần trong test data chưa xuất hiện ởtrainingdata
- Dựđoán đalớpvớiđộchínhxác cao
Trang 122. Nhượcđiểm:
- Giảthuyếtvềtínhđộclậpcủađiềukiệnlàmgiảmđiđộchínhxáccủathuậttoán
- Khitiếnhànhdựđoánmộttậpdữliệumàkhông hềcótrongbộđã đượctr ainingthì xác suấtnày đượcxácđịnh là0
Trang 13Tàiliệuthamkhảo
1 MarcPeter Deisenroth,A.AldoFaisal, andChengSoonOng
(2020),MathematicsforMachineLearning,CambridgeUniversityPress,ISBN-13: 978-1108455145.
2 Bengio,Yoshua.DeepLearning(2016),AdaptiveComputation
andMachineLearningSeries,London,England:MITPress,ISBN-13:978-0262035613.
4 Exercise6:NaiveBayes