1. Trang chủ
  2. » Giáo Dục - Đào Tạo

tiểu luận TOÁN ỨNG DỤNG CHO TRÍ TUỆ NHÂN tạo đề tài naive bayes classifier

13 13 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Naive Bayes Classifier
Tác giả Khổng Thị Dung, Trương Thị Nhung, Trần Tiến Dũng
Người hướng dẫn Thầy Vũ Hoàng Diệu
Trường học Trường Đại học Phenikaa
Chuyên ngành Toán Ứng Dụng Cho Trí Tuệ Nhân Tạo
Thể loại đề tài
Năm xuất bản 2022
Thành phố Hà Nội
Định dạng
Số trang 13
Dung lượng 66,16 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

ThuậttốnNaiveBayesClassification Thuật tốn phân loại Naive Bayes – là một thuật tốn dựa trên định lýBayes về lý thuyết xác suất để đưa ra các phán đốn cũng như phân loại dữliệu dựa trên

Trang 1

TRƯỜNGĐẠIHỌCPHENIKAAKHOAKHOAHỌC CƠBẢN

-******* -TOÁNỨNGDỤNGCHOTRÍTUỆNHÂNTẠO

BÁOCÁO Đềtài13:NaiveBayesClassifier

Thànhviên: KhổngThịDung–21012374

Trương Thị Nhung – 21011061TrầnTiếnDũng -21013342

HÀNỘI,THÁNG10,2022

Trang 2

MỤC LỤC

LỜICẢMƠN 4

LỜINÓIĐẦU 5

PHẦN1:CƠSỞLÝTHUYẾT 6

1 Thuật toánNaiveBayesClassification 6

2 CôngthứcNaive Bayes 6

PHẦN2:NỘIDUNG 7

1 NaiveBayesClassification 7

1.1 Đặc điểmcủa NaiveBayesClassification 7

1.2 Cáchhoạtđộng củaNaiveBayesClassification 7

1.3 Các loạimôhình NaiveBayes Classification 8

1.4 Vídụ 8

1.5 Ứngdụng củathuậttoán NaiveBayesClassification 10

PHẦN3:KẾT LUẬN 11

1 Ưuđiểm 11

2 Nhược điểm 12

Tàiliệu thamkhảo 13

Trang 3

KhổngThịDung Cơ sở lí thuyết, Đặc điểm của

NaiveBayesClassification TrươngThịNhung CáchhoạtđộngcủaNaiveBayesClas

sification, Các loại mô hìnhNaiveBayesClassification

es Classification,ưuđiểm,

nhượcđiểm

Trang 4

Để có những kiến thức nền tảng hoàn thành đề tài này, nhóm chúng emxin cảm ơn nhà trường đã đưa môn học Toán ứng dụng cho trí tuệ nhân tạo vàhọc máy vào chương trình giảng dạy Môn học mang lại cho chúng em kiếnthức toán sử dụng cho trí tuệ nhân tạo cơ bản, ngoài ra môn học còn giúpchúng em cải thiện kỹ năng mềm như kỹ năng thuyết trình, kỹ năng viết báocáo,k ỹ n ă n g l à m v i ệ c n h ó m , …

Đ â y đ ề u l à n h ữ n g k ỹ n ă n g q u a n t r ọ n g v ô cùng cần thiết cho chúnge m ở g i ả n g

đ ư ờ n g đ ạ i h ọ c v à c h o t ư ơ n g l a i c ô n g việcsaunày

Đặc biệt, chúng em xin gửi lời cảm ơn sâu sắc đến Thầy Vũ Hoàng Diệuđã giảng dạy, chỉ bảo và truyền đạt cho chúng em những kiến thức quý báutrong suốt thời gian chúng em học môn Toán ứng dụng cho trí tuệ nhân tạo vàhọcmáy

Nhóm chúng em đã cố gắng để hoàn thành đề tài này một cách hoànchỉnh nhất, tuy nhiên vì kiến thức của chúng em còn hạn chế, khả năng tiếpthuthựctếcònnhiềukhókhăn,vìvậyđềtàikhôngtránhkhỏinhữngth iếusót Chúng em rất mong những ý kiến đóng góp của Thầy để hoàn thiện và rútranhững kinh nghiệm quý báu

Xinchânthànhcảmơn!

Trang 5

Trongkỷ nguyên công nghiệp 4.0 phát triển nở rộ, “Trí tuệ nhân tạo làyếu tố không thể không nhắc đến Ngày nay, công nghệ trí tuệ nhân tạo là mộttrong những ngành công nghệ quan trọng hàng đầu, giúp con người giải quyếtnhiều vấn đề trong cuộc sống Toán ứng dụng cho trí tuệ nhân tạo là học phầntrang bị những kỹ năng về lập trình và các kiến thức cơ bản về đại số tuyếntính, giải tích nhiều chiều, lý thuyết xác suất thống kê, các phương pháp thuậttoántối

ưu chotrí tuệ nhân tạovàhọc máy

Hiện nay, khoa học công nghệ ngày càng phát triển Các hệ thống thưviện điện tử, thư viện trực tuyến ngày càng được sử dụng rộng rãi, kèm theođó là các vấn đề liên quan đến phân loại, tìm kiếm chia theo danh mục và gợiý nội dung đọc cho người dùng Với lượng thông tin lớn, đồ sộ, một yêu cầuđặt ra là làm sao để tổ chức và tìm kiếm thông tin có hiệu quả nhất Phân loạithông tin là một trong những giải pháp hợp lý cho yêu cầu trên Nhưng thực tếlà khối lượng thông tin quá lớn, việc phân loại dữ liệu thủ công là điều khôngthể Hướng giải quyết là một chương trình máy tính tự động phân loại cácthông tin trên Vì vậy nhóm

em chọn đề tài số 13: Naive bayes classifier đểnghiêncứu, tìmhiểuvềthuật toán vàchỉ raưu nhượcđiểmcủathuậttoán

Trang 6

1. ThuậttốnNaiveBayesClassification

Thuật tốn phân loại Naive Bayes – là một thuật tốn dựa trên định lýBayes về lý thuyết xác suất để đưa ra các phán đốn cũng như phân loại dữliệu dựa trên các dữ liệu được quan sát và thống kê, được ứng dụng rất nhiềutrong các lĩnh vực học máy dùng để đưa ra các dự đốn cĩ độ chính xác cao,dựa trên một tập dữ liệu đã được thu thập Naive Bayes Classification thuộcvàonhĩm học máycĩgiám sát

Mơ hình Naive Bayesian dễ thực hiện và đặc biệt hữu ích cho các tập dữliệu lớn Ngồi đơn giản Naive Bayes cịn được nhận xét là xử lý nhanh, độchínhxáccaovàvượttrội hơncảcácphươngphápphân loạirấttiêntiến

Ví dụ, một quả cĩ thể được coi là một quả cam nếu nĩ cĩ màu cam, trịnvà đường kính khoảng 3 inch Ngay cả khi các tính năng này phụ thuộc vàonhau hoặc dựa trên sự tồn tại của các tính năng khác, một bộ phân loại NaiveBayes sẽ xem xét tất cả các đặc điểm này để đĩng gĩp độc lập vào xác suấtrằngloạiquả này làmột quả cam

2. CơngthứcNaiveBayes:

CơngthứcNạveBayesđượcđịnhnghĩa:

P(B|A): là xác xuất của lớp mục tiêu được dự

đốn.P(B):xác xuất củalớptrước

P(A|B): khả năng xác xuất lớp dự đốn đưa

ra.P(A):làxácxuấtdự đốn trước

Trang 7

1 NaiveBayesClassification

Đây là một kỹ thuật phân loại dựa trên Định lý Bayes với giả định về sựđộc lập giữa các yếu tố dự đốn Nĩi cách khác, bộ phân loại Naive Bayes giảđịnhr ằ n g s ự h i ệ n d i ệ n c ủ a m ộ t đ ố i t ư ợ n g c ụ t h ể t r o n g m ộ t l ớ p k h ơ n g l

i ê n quanđến sựhiệndiệncủabấtkỳ đối tượngđịalý nàokhác

1.1 ĐặcđiểmcủaNaiveBayesClassification

- Thuật tốn Nạve Bayes là một thuật tốn học cĩ giám sát, dựa trên địnhlýBayesvà đượcsửdụng để giải các bài tốn phân loại

- Nĩ chủ yếu được sử dụng trongphân loại văn bảnbao gồm một tập

dữliệuđào tạochiềucao

- Nạve Bayes Classifier là một trong những thuật tốn Phân loại đơn giảnvàhiệuquảnhấtgiúpxâydựngcácmơhìnhhọcmáynhanhcĩthểđưa radự đốn nhanh chĩng

- Nĩ là một bộ phân loại theo xác suất, cĩ nghĩa là nĩ dự đốn trên cơ sởxác suất củamột đối tượng

- Một số ví dụ phổ biến của Thuật tốn Nạve Bayes là lọc thư rác, phântíchtình cảm, phân loại cácbài báo

1.2 CáchhoạtđộngcủaNaiveBayesClassification

Bước1:Chuyển tậpdữliệuthành bảngtầnsố

Bước2:Tạobảng khảnăngbằng cáchtìmcácxác suất

Bước3:Bâygiờ,sửdụngphươngtrìnhNaiveBayesianđểtínhxácsuấtsaucho mỗilớp.Lớpcĩxácsuấthậu phươngcao nhấtlàkếtquảcủadựđốn

Trang 8

1.3 CácloạimơhìnhNaiveBayesClassification

1.1.1 Gaussian:

Mơ hình Gaussian giả định rằng các đối tượng địa lý tuân theo phân phốichuẩn Điều này cĩ nghĩa là nếu các yếu tố dự đốn nhận các giá trị liên tụcthay vì rời rạc, thì mơ hình giả định rằng các giá trị này được lấy mẫu từ phânphốiGaussian.

1.1.2 Đathức:

Bộ phân loại Nạve Bayes đa thức được sử dụng khi dữ liệu được phânphốiđathức.Nĩchủyếuđượcsửdụngchocácvấnđềphânloạitàiliệu,nĩ

cĩ nghĩa là một tài liệu cụ thể thuộc về danh mục nào như thể thao, chính trị,giáodục, .Trìnhphân loạisửdụngtầnsuấttừchocác yếu tốdự đốn

1.1.3 Bernoulli:

Bộ phân loại Bernoulli hoạt động tương tự như bộ phân loại đa thức,nhưng các biến dự báo là các biến Booleans độc lập Chẳng hạn như nếu mộttừ cụ thể cĩ trong tài liệu hay khơng Mơ hình này cũng nổi tiếng với cácnhiệmvụ phân loại tài liệu

1.4 Vídụ:

Xét một bộ dữ liệu đơn giản về việcđi làm muộn của một bạn nhânviên Bộdữliệuđượcbiểudiễndạngbảngdướiđây

Giờdậy(x1) Sứckhỏe(x2) Thờitiết(x3) Đimuộn(x4)

Trang 9

3 Bìnhthường Tốt Nắng Có

Lập bảng tần suất cho từng đặc trưng cho mục

tiêu:Giờdậy (x1)

Muộn Khôngmuộn P(x1|Muộn) P(x1|khôngmuộn)

Sứckhỏe(x2)

Muộn Khôngmuộn P(x2|Muộn) P(x2|Khôngmuộn)

Trang 10

Muộn Khôngmuộn P(x3|Muộn) P(x3|Khôngmuộn)

ĐểdựđoánchongàyX =(Muộn, Xấu,Mưa), cầntính:

P(Muộn|X)=P(Muộn|Muộn)*P(Xấu|Muộn)*P(Mưa|Muộn)*P(Muộn)=(3/5)* (2/5)

* (1/5) * (5/10) =0.024

P(Khôngmuộn|X)=P(Muộn|Khôngmuộn)*P(Xấu|Khôngmuộn)*P(Mưa|

Khôngmuộn) *P(Không muộn)=(0/5) *(3/5) *(1/5) *(5/10) =0

 y=argmax{P(X|y)P(y)}=Muộn

1.5 ỨngdụngcủathuậttoánNaiveBayesClassification

 Dựđoánthờigianthực:NaiveBayeslàmộtcôngcụphânloạihamhọchỏivà chắc chắn là rất nhanh Do đó, nó có thể được sử dụng để đưa ra dự đoántrongthời gianthực

 Dự đoán nhiều lớp:T h u ậ t t o á n n à y c ũ n g n ổ i t i ế n g v ớ i

t í n h n ă n g d ự đ o á n nhiều lớp Ở đây chúng ta có thểdự đoánxác suấtc ủ a n h i ề u l ớ p b i ế n m ụ c tiêu

 Phân loại văn bản / Lọc thư rác / Phân tích tình cảm: Các bộ phân loại NaiveBayesc h ủ y ế u đ ư ợ c s ử d ụ n g t r o n g p h â n l o ạ i v ă n b ả n ( d o k ế t q u

ả t ố t h ơ n trongcácbàitoánnhiềulớpvàquytắcđộclập)cótỷlệthànhcôngcaoh ơnsovớicácthuậttoánkhác Dođó,nóđượcsửdụngrộngrãitronglọcSpam

Trang 11

(xác định e-mail spam) và Phân tích cảm xúc (trong phân tích phương tiệntruyềnthông xãhội, đểxácđịnh cảmxúctích cựcvàtiêu cựccủak h á c h hàng)

 Hệthốngđềxuất:NaiveBayesClassifiervà CollaborativeF i l t e r i n g

c ù n g nhau xây dựng một Hệ thống đề xuất sử dụng kỹ thuật học máy và khai thácdữ liệu để lọc thông tin không nhìn thấy và dự đoán liệu người dùng có muốnmộttài nguyên nhất định hay không

PHẦN3:KẾTLUẬN

1. Ưuđiểm:

- Naive Bayes Classifiers thường được sử dụng trong các bài toán về TextClassification

- Naive Bayes Classifiers dễ dàng cài đặt, có thời gian training và test rấtnhanh Điều này có được là nhờ vào việc giả sử về tính độc lập giữa các thànhphần,nếu biết class

- NaiveB a y e s C l a s s i f i e r s c ó t h ể h o ạ t đ ộ n g v ớ i c á c f e a t u r e v e c t o r

m à m ộ t phần là liên tục (sử dụng Gaussian Naive Bayes), phần còn lại ở dạng rời rạc(sửdụng Multinomial hoặc Bernoulli)

- Khi sử dụng Multinomial Naive Bayes thì Laplace smoothing thường đượcsử dụng để tránh trường hợp 1 thành phần trong test data chưa xuất hiện ởtrainingdata

- Dựđoán đalớpvớiđộchínhxác cao

Trang 12

2. Nhượcđiểm:

- Giảthuyếtvềtínhđộclậpcủađiềukiệnlàmgiảmđiđộchínhxáccủathuậttoán

- Khitiếnhànhdựđoánmộttậpdữliệumàkhông hềcótrongbộđã đượctr ainingthì xác suấtnày đượcxácđịnh là0

Trang 13

Tàiliệuthamkhảo

1 MarcPeter Deisenroth,A.AldoFaisal, andChengSoonOng

(2020),MathematicsforMachineLearning,CambridgeUniversityPress,ISBN-13: 978-1108455145.

2 Bengio,Yoshua.DeepLearning(2016),AdaptiveComputation

andMachineLearningSeries,London,England:MITPress,ISBN-13:978-0262035613.

4 Exercise6:NaiveBayes

Ngày đăng: 09/12/2022, 16:54

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w