Đề tài này nhằm đưa ra chẩn đoán về bệnh ung thư vú dựa trên bộ dữliệu thu thập được CÁC MỤC TIÊU CHÍNH Tìm hiểu các kiến thức liên quan về học máy, các công cụ xử lý dữ liệu và xây dựng
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ NÔNG NGHIỆP VÀ PTNT
TRƯỜNG ĐẠI HỌC THỦY LỢI
VŨ HUY HOÀNG
ỨNG DỤNG HỌC MÁY ĐỂ PHÂN LOẠI UNG THƯ VÚ
ĐỒ ÁN TỐT NGHIỆP
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ NÔNG NGHIỆP VÀ PTNT
TRƯỜNG ĐẠI HỌC THỦY LỢI
VŨ HUY HOÀNG
ỨNG DỤNG HỌC MÁY ĐỂ PHÂN LOẠI UNG THƯ VÚ
Ngành : Công nghệ thông tin
Mã số:
NGƯỜI HƯỚNG DẪN 1. PGS TS.Lê Đức Hậu
Trang 3GÁY BÌA ĐỒ ÁN TỐT NGHIỆP, KHÓA LUẬN TỐT NGHIỆP
Trang 5CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc - -NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP
Họ tên sinh viên: Vũ Huy Hoàng Hệ đào tạo : Đại học
” Ứng dụng học máy để phân loại ung thư vú ”
2- NỘI DUNG CÁC PHẦN THUYẾT MINH VÀ TÍNH TOÁN:
3- GIÁO VIÊN HƯỚNG DẪN TỪNG PHẦN
Chương 1: Giới thiệu
PGS TS.Lê Đức Hậu
Chương 2: Cơ sở lý thuyết
Chương 3: Phân tích và giải quyết bài toán
Trang 6TIEU LUAN MOI download : skknchat123@gmail.com moi nhat
Trang 7Trưởng Bộ môn Giáo viên hướng dẫn chính
(Ký và ghi rõ Họ tên) (Ký và ghi rõ Họ tên)
Nhiệm vụ Đồ án tốt nghiệp đã được Hội đồng thi tốt nghiệp của Khoa thông qua
Trang 8TRƯỜNG ĐẠI HỌC THUỶ LỢI
KHOA CÔNG NGHỆ THÔNG TIN
BẢN TÓM TẮT ĐỀ CƯƠNG ĐỒ ÁN TỐT NGHIỆPTÊN ĐỀ TÀI: Ứng dụng học máy để phân loại ung thư vú
Sinh viên thực hiện: Vũ Huy Hoàng Lớp: 59TH1
Giáo viên hướng dẫn: PGS TS Lê Đức Hậu
TÓM TẮT ĐỀ TÀI
Trong những năm gần đây, với sự phát triển của ngành khoa học kỹ thuật và côngnghệ thì việc phát hiện ra bệnh ung thư ngày càng chính xác Việc phát hiện sớm sẽgiúp cho các bác sĩ biết và có những phương pháp điều trị để giảm thiểu khả năng tửvong cho người bệnh Ung thư vú là bệnh ung thư thứ hai trong số các bệnh ung thưđược chẩn đoán nhiều nhất
Ung thư vú là loại ung thư phổ biến nhất ở phụ nữ Nó ảnh hưởng đến 10% tất cảphụ nữ ở một số giai đoạn trong cuộc sống của họ Ung thư vú bắt đầu khi các khối u
ác tính là ung thư bắt đầu phát triển từ các tế bào vú Ung thư vú xảy ra chủ yếu ở phụ
nữ từ 40 tuổi trở lên và nó xảy ra khi các tế bào trong các tuyến sản xuất sữa (được gọi
là thùy) bất thường và phân chia mạnh mẽ Cần có một hệ thống phát hiện hỗ trợ máytính (CAD) sử dụng phương pháp học máy để cung cấp chẩn đoán chính xác ung thư
vú Các hệ thống CAD này có thể hỗ trợ phát hiện ung thư vú ở giai đoạn đầu Khi ungthư vú được phát hiện đủ sớm, tỷ lệ sống sót tăng lên vì có thể điều trị tốt hơn
Trong thời gian làm đồ án tốt nghiệp, em chọn đề tài “Ứng dụng học máy để phânloại ung thư vú” Đề tài này nhằm đưa ra chẩn đoán về bệnh ung thư vú dựa trên bộ dữliệu thu thập được
CÁC MỤC TIÊU CHÍNH
Tìm hiểu các kiến thức liên quan về học máy, các công cụ xử lý dữ liệu và xây dựng ứng dụng
Trang 9KẾT QUẢ DỰ KIẾN
Nắm vững các kiến thức liên quan
Dự đoán ung thư thực trên bộ dữ liệu thu thập được
Tổng hợp kiến thức và viết báo cáo
Trang 10LỜI CAM ĐOAN
Tác giả xin cam đoan đây là Đồ án tốt nghiệp/ Khóa luận tốt nghiệp của bản thân tácgiả Các kết quả trong Đồ án tốt nghiệp/Khóa luận tốt nghiệp này là trung thực, vàkhông sao chép từ bất kỳ một nguồn nào và dưới bất kỳ hình thức nào Việc tham khảocác nguồn tài liệu (nếu có) đã được thực hiện trích dẫn và ghi nguồn tài liệu tham khảođúng quy định
Tác giả ĐATN
Hoàng
Vũ Huy Hoàng
Trang 11Đặc biệt, em được gửi lời cảm ơn chân thành đến thầy giáo PGS TS Lê Đức Hậu,trong thơi gian thực hiện đô an tôt nghiêp đa trực tiếp hướng dẫn va chỉ bảo tận tình đê
em có thể hoan thanh đươc công viêc cua minh
Cuối cùng, em xin chân thành cảm ơn gia đình, các bạn học trong trường luôn là độnglực cho em phấn đấu, đã luôn ở bên động viên, khích lệ và giúp đỡ em rất nhiều trongnhững lúc khó khăn
Do bản thân còn nhiều hạn chế nên trong quá trình thực hiện đồ án không tránh khỏisai sót, em rất mong nhận được sự góp ý của quý thầy cô và các bạn
Trang 12MỤC LỤC
DANH MỤC CÁC HÌNH ẢNH v
DANH MỤC BẢNG BIỂU vi
DANH MỤC CÁC TỪ VIẾT TẮT VÀ GIẢI THÍCH CÁC THUẬT NGỮ vii
CHƯƠNG 1 GIỚI THIỆU 1
1.1 Đặt vấn đề 1
1.2 Nội dung 1
CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 3
2.1 Học máy 3
2.1.1 Giới thiệu 3
2.1.2 Vai trị của học máy 3
2.1.3 Phân loại và ứng dụng học máy 4
2.1.4 Ứng dụng của học máy 6
2.1.5 Thuật tốn Nạve Bayes 8
2.1.6 Thuật tốn SVM (Support Vector Machine) 11
2.1.7 Chuẩn hĩa dữ liệu 15
2.1.8 Phương pháp đánh giá 18
2.2 Python với học máy 22
2.2.1 Giới thiệu về ngơn ngữ lập trình Python 22
2.2.2 Python với học máy 23
CHƯƠNG 3 PHÂN TÍCH VÀ GIẢI QUYẾT BÀI TỐN 25
3.1 Bối cảnh bài tốn 25
3.2 Thu thập và xử lý dữ liệu 26
3.2.1 Tổng quan về dữ liệu 26
3.2.1 Tiền xử lý dữ liệu 30
Trang 13TÀI LIỆU THAM KHẢO 40PHỤ LỤC 42
Trang 14DANH MỤC CÁC HÌNH ẢNH
Hình 2.1 Các phương pháp học máy phổ biến hiện nay 4
Hình 2.2 Minh họa siêu phẳng trong SVM 12
Hình 2.3 Vấn đề chọn siêu phẳng trong SVM 13
Hình 2.4 Margin trong vấn đề chọn siêu phẳng 14
Hình 2.5 Minh họa về Precision và Recall 22
Hình 3.1 Phân bổ của dữ liệu vào 2 lớp 29
Hình 3.2 Mô hình huấn luyện tổng quát 33
Hình 3.3 Mô hình huấn luyện với thuật toán Naive Bayes 34
Hình 3.4 Mô hình huấn luyện với thuật toán SVM 35
Hình 4.1 Chia dữ liệu 36
Trang 15DANH MỤC BẢNG BIỂU
Bảng 2.1 Ví dụ về ma trận nhầm lẫn 19Bảng 3.1 Bảng chi tiết dữ liệu 26Bảng 4.1 Bảng kết quả chẩn đoán u lành tính B dựa theo việc đánh giá bằng Precision
và Recall 37Bảng 4.2 Bảng kết quả chẩn đoán u ác tính M dựa theo việc đánh giá bằng Precision
và Recall 37Bảng 4.3 Bảng kết quả đánh giá dựa theo độ chính xác 38
Trang 16DANH MỤC CÁC TỪ VIẾT TẮT VÀ GIẢI THÍCH CÁC THUẬT NGỮ
ANN Artificial Neural Network Mạng lưới thần kinh nhân tạo
GPU Graphics Processing Unit
PCA Principal Component Analysis
đúng
Trang 17CHƯƠNG 1 GIỚI THIỆU1.1 Đặt vấn đề
Trong những năm gần đây, ung thư đang dần trở thành “gánh nặng” của nhiềuquốc gia trên thế giới, trong đó có Việt Nam Một trong những loại ung thư phổ biếnnhất là ung thư vú Ung thư vú là loại u phổ biến nhất ở phụ nữ Việt Nam cũng như ởhầu hết các nước trên thế giới, chiếm khoảng 1/3 các ung thư mới được chẩn đoán Tỷ
lệ mắc ung thư vú trên thế giới nói chung và Việt Nam nói riêng có xu hướng tăng,nhưng tỷ lệ tử vong do bệnh này vẫn từng bước giảm nhờ các tiến bộ trong chẩn đoán,phát hiện bệnh sớm, đặc biệt là trong điều trị nội khoa ung thư Việc phát hiện sớm sẽgiúp cho các bác sĩ biết và có những phương pháp điều trị để giảm thiểu khả năng tửvong cho người bệnh Ung thư vú là bệnh ung thư thứ hai trong số các bệnh ung thưđược chẩn đoán nhiều nhất
Ung thư vú là loại ung thư thường gặp nhất và là nguyên nhân phổ biến thứ haigây tử vong do ung thư ở phụ nữ Ung thư vú ít khi xảy ra ở nam giới
Ung thư vú bắt đầu khi các khối u ác tính là ung thư bắt đầu phát triển từ các tếbào vú Ung thư vú xảy ra chủ yếu ở phụ nữ từ 40 tuổi trở lên và nó xảy ra khi các tếbào trong các tuyến sản xuất sữa (được gọi là thùy) bất thường và phân chia mạnh mẽ.Cần có một hệ thống phát hiện hỗ trợ máy tính (CAD) sử dụng phương pháp học máy
để cung cấp chẩn đoán chính xác ung thư vú Các hệ thống CAD này có thể hỗ trợ pháthiện ung thư vú ở giai đoạn đầu Khi ung thư vú được phát hiện đủ sớm, tỷ lệ sống sóttăng lên vì có thể điều trị tốt hơn
Xuất phát từ những vấn đề thực tiễn nêu trên, yêu cầu cần có những giải pháp cụthể Bằng những kiến thức em vốn có, thúc đẩy em tìm hiểu và nghiên cứu những giảipháp để có thể tìm ra những giải pháp cụ thể giải quyết những vấn đề nêu trên Vì vậy,
em chọn đề tài “Ứng dụng của học máy để phân loại ung thư vú” làm đề tài choĐATN của mình
Trang 181.2 Nội dung
Các nội dung chính được trình bày trong báo cáo này:
Tìm hiểu các kiến thức liên quan về học máy, các cơng cụ xử lý dữ liệu và xây dựng ứng dụng
Nghiên cứu các thuật tốn: Thuật tốn Nạve Bayes, Thuật tốn SVM (Support Vector Machine)
Đánh giá và xác định thuật tốn tốt nhất
Cấu trúc của báo cáo:
CHƯƠNG 1 MỞ ĐẦUGiới thiệu về tổng quát về vấn đề ung thư và nêu lý do tại sao lại làm về đề tài nàyCHƯƠNG 2 CƠ SỞ LÝ THUYẾT
+) Giới thiệu chung về học máy và phân loại học máy, ứng dụng của học máy +)Giới thiệu về 2 thuật tốn được sử dụng trong đồ án là : Naive Bayes và SVM
+) Giới thiệu các phương pháp đánh giá sử dụng trong đồ án +) Python trong họcmáy
CHƯƠNG 3 PHÂN TÍCH VÀ GIẢI QUYẾT BÀI TỐN +) Giới thiệu về bối cảnh bài tốn
+) Giới thiệu về bộ dữ liệu được sử dụng+) Chia dữ liệu và huấn luyện
CHƯƠNG 4 KẾT QUẢ THỰC NGHIỆM
Trang 20CHƯƠNG 2 CƠ SỞ LÝ THUYẾT2.1 Học máy
Trong những năm gần đây, AI nổi nên như một bằng chứng của cuộc cáchmạng công nghiệp lần thứ 4 Theo đà phát triển của công nghệ, ứng dụng Trí tuệ nhântạo luôn là xu hướng công nghệ tương lai mà các doanh nghiệp trên toàn thế giới chạyđua đầu tư, phát triển Trong phần này sẽ đề cập về học máy – một lĩnh vực Trí tuệnhân tạo và một số thuật toán sẽ được nghiên cứu và ứng dụng trong ĐATN này
2.1.1 Giới thiệu
Học máy là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc nghiên cứu và xây dựng các kĩ thuật cho phép các hệ thống "học" tự động từ dữ liệu để giải quyết những vấn đề cụ thể Đó là một quá trình phân tích dữ liệu, phương pháp cho phép máy móc tự động học từ dữ liệu thông qua các thuật toán Máy móc sẽ được huấn luyện thông qua một lượng lớn dữ liệu Máy phân tích và tìm ra các quy tắc từ dữ liệu, và cải thiện hiệu suất của nó Để sau đó máy sẽ có được khả năng tự động phán đoán hoặc dự đoán [1]
2.1.2 Vai trò của học máy
Machine learning rất quan trọng vì nó cung cấp cho doanh nghiệp cái nhìn về
xu hướng trong hành vi của khách hàng và các mô hình hoạt động kinh doanh, cũng như hỗ trợ sự phát triển của các sản phẩm mới Nhiều công ty hàng đầu hiện nay, chẳng hạn như Facebook, Google và Uber, biến học máy trở thành một phần trọng tâmtrong hoạt động của họ Machine learning đã trở thành một yếu tố cạnh tranh khác biệtđáng kể đối với nhiều công ty
Trang 21Hình 2.1 Các phương pháp học máy phổ biến hiện nay
2.1.3 Phân loại và ứng dụng học máy
Máy học cổ điển thường được phân loại theo cách một thuật toán học để trở nênchính xác hơn trong các dự đoán của nó Có bốn cách tiếp cận cơ bản: học có giám sát,học không giám sát, học bán giám sát và học tăng cường Loại dữ liệu thuật toán màcác nhà khoa học chọn sử dụng phụ thuộc vào loại dữ liệu mà họ muốn dự đoán
Học có giám sát (supervised learning)Trong học có giám sát, máy tính học cách mô hình hóa các mối quan hệ dựatrên dữ liệu được gán nhãn (labeled data) Sau khi tìm hiểu cách tốt nhất để mô hìnhhóa các mối quan hệ cho dữ liệu được gắn nhãn, các thuật toán được huấn luyện sẽđược sử dụng cho các bộ dữ liệu mới Các thuật toán học tập có giám sát phù hợp vớicác tác vụ sau:
+) Phân loại nhị phân: Chia dữ liệu thành hai loại+) Phân loại nhiều lớp: Lựa chọn giữa nhiều hơn hai loại câu trả lời
+) Mô hình hồi quy: Dự đoán các giá trị liên tục
Trang 22+) Kết hợp: Kết hợp các dự đoán của nhiều mô hình học máy để tạo ra dự đoán chính xác.
Học không giám sát (unsupervised learning)
Trong học không giám sát, máy tính không được cung cấp dữ liệu được dánnhãn mà thay vào đó chỉ được cung cấp dữ liệu mà các thuật toán tìm cách mô tả dữliệu và cấu trúc của chúng Các thuật toán học tập không giám sát tốt cho các tác vụsau:
+) Phân cụm: Tách tập dữ liệu thành các nhóm dựa trên sự giống nhau
+) Phát hiện bất thường: Xác định các điểm dữ liệu bất thường trong tập dữ liệu+) Khai thác liên kết: Xác định các tập hợp các mục trong tập dữ liệu thườngxuyên xảy ra cùng nhau
+) Giảm kích thước: Giảm số lượng biến trong tập dữ liệuHọc bán giám sát (Semi-supervised learning)
Cách tiếp cận này đối với học máy liên quan đến sự kết hợp của hai loạitrước đó Các nhà khoa học dữ liệu có thể cung cấp một thuật toán chủ yếu là
dữ liệu đào tạo được gắn nhãn, nhưng mô hình có thể tự do khám phá dữ liệu
và phát triển sự hiểu biết của riêng mình về tập dữ liệu Một số lĩnh vực sửdụng phương pháp học bán giám sát bao gồm:
+) Dịch máy: Dạy thuật toán dịch ngôn ngữ dựa trên ít hơn một từ điển từ đầyđủ
+) Phát hiện gian lận: Xác định các trường hợp gian lận khi bạn chỉ có một vài
ví dụ tích cực
+) Dán nhãn dữ liệu: Các thuật toán được đào tạo trên tập dữ liệu nhỏ có thể
Trang 23định rõ ràng Các nhà khoa học dữ liệu lập trình một thuật toán để hoàn thànhmột nhiệm vụ và cung cấp cho nó những tín hiệu tích cực hoặc tiêu cực khi nótìm ra cách hoàn thành một nhiệm vụ Nhưng phần lớn, thuật toán tự quyết địnhcác bước cần thực hiện trong quá trình thực hiện Học tập củng cố thường được
Có rất nhiều ứng dụng thực tế khác nhau của học máy Hai lĩnh vực ứng dụng lớn nhất
của học máy là khai phá dữ liệu (data mining) và nhận dạng mẫu (pattern recognition).
Khai phá dữ liệu (data mining) là ứng dụng kỹ thuật học máy vào các cơ sở dữ liệuhoặc các tập dữ liệu lớn để phát hiện quy luật hay tri thức trong dữ liệu đó hoặc để dựđoán các thông tin quan tâm trong tương lai
Nhận dạng mẫu (pattern recognition) là ứng dụng các kỹ thuật học máy để phát hiệncác mẫu có tính quy luật trong dữ liệu, thường là dữ liệu hình ảnh, âm thanh Bài toánnhận dạng mẫu cụ thể thường là xác định nhãn cho đầu vào cụ thể, ví dụ cho ảnh chụpmặt người, cần xác định đó là ai
Cần lưu ý, khai phá dữ liệu và nhận dạng mẫu có nhiều điểm trùng nhau cả trong phạm
vi nghiên cứu và ứng dụng Điểm khác nhau chủ yếu liên quan tới lĩnh vực ứng dụng và kỹthuật sử dụng, theo đó khai phá dữ liệu liên quan tới dữ liệu thương mại trong khi nhận dạng mẫu liên quannhiều tới dữ liệu âm thanh, hình ảnh và được dùng nhiều trong kỹ thuật [2]
Trang 24Sau đây là một số ví dụ ứng dụng cụ thể của học máy:
+) Nhận dạng ký tự: phân loại hình chụp ký tự thành các loại, mỗi loại ứng với một ký
tự tương ứng+) Phát hiện và nhận dạng mặt người: phát hiện vùng có chứa mặt người trong ảnh,xác định đó là mặt người nào trong số những người đã có ảnh trước đó, tức là phânchia ảnh thành những loại tương ứng với những người khác nhau
+) Lọc thư rác, phân loại văn bản: dựa trên nội dung thư điện tử, chia thư thành loại
“thư rác” hay “thư bình thường”; hoặc phân chia tin tức thành các thể loại khác nhaunhư “xã hội”, “kinh tế”, “thể thao” …
+) Dịch tự động: dựa trên dữ liệu huấn luyện dưới dạng các văn bản song ngữ, hệthống dịch tự động học cách dịch từ ngôn ngữ này sang ngôn ngữ khác Hệ thống dịch
tự động tiêu biểu dạng này là Google Translate
+) Chẩn đoán y tế: học cách dự đoán người bệnh có mắc hay không mắc một số bệnhnào đó dựa trên triệu chứng quan sát được
+) Phân loại khách hàng và dự đoán sở thích: sắp xếp khách hàng vào một số loại, từđây dự đoán sở thích tiêu dùng của khách hàng
+) Dự đoán chỉ số thị trường: căn cứ giá trị một số tham số hiện thời và trong lịch sử,đưa ra dự đoán, chẳng hạn dự đoán giá chứng khoán, giá vàng.v.v
+) Các hệ khuyến nghị, hay hệ tư vấn lựa chọn: cung cấp một danh sách ngắn các loạihàng hóa, phim, video, tin tức v.v mà người dùng nhiều khả năng quan tâm Ví dụứng dụng loại này là phần khuyến nghị trên Youtube hay trên trang mua bán trựctuyến Amazon
+) Ứng dụng lái xe tự động: dựa trên các mẫu học chứa thông tin về các tình huống
Trang 25Trong đồ án này, các thuật tốn hồi quy sẽ được sử dụng để giải quyết bài tốnđặt ra Các thuật tốn hồi quy là nhĩm các thuật tốn thuộc phân loại học cĩ giám sát(supervised learning) Các thuật tốn sẽ nghiên cứu trong đề tài này lần lượt là Thuậttốn Nạve Bayes và thuật tốn SVM (Support Vector Machine) Nội dung chi tiết cácthuật tốn này sẽ được đề cập trong các phần tiếp theo.
2.1.5 Thuật tốn Nạve Bayes
2.1.5.1 Giới thiệu
Bộ phân lớp Bayes là một giải thuật thuộc lớp giải thuật thống kê, nĩ cĩ thể dự đốnxác suất của một phần tử dữ liệu thuộc vào một lớp là bao nhiêu Phân lớp Bayes đượcdựa trên định lý Bayes (định lý được đặt theo tên tác giả của nĩ là Thomas Bayes)
Theo định lý Bayes, xác suất xảy ra A khi biết B sẽ phụ thuộc vào 3 yếu tố:
* Xác suất xảy ra A của riêng nĩ, khơng quan tâm đến B Kí hiệu là P (A) và đọc là xác suấtcủa A Đây được gọi là xác suất biên duyên hay xác suất tiên nghiệm, nĩ là “tiên nghiệm” theo nghĩa rằng
nĩ khơng quan tâm đến bất kỳ thơng tin nào về B
* Xác suất xảy ra B của riêng nĩ, khơng quan tâm đến A Kí hiệu là P (B) và đọc là “xácsuất của B” Đại lượng này cịn gọi là hằng số chuẩn hĩa (normalising constant), vì nĩ luơn giống nhau,khơng phụ thuộc vào sự kiện A đang muốn biết
Trang 26* Xác suất xảy ra B khi biết A xảy ra Kí hiệu là P (B|A) và đọc là “xác suất của B nếu cĩA” Đại lượng này gọi là khả năng (likelihood) xảy ra B khi biết A đã xảy ra Chú ý khơng nhầm lẫn giữakhả năng xảy ra B khi biết A và xác suất xảy ra A khi biết B
Tĩm lại định lý Bayes sẽ giúp ta tính ra xác suất xảy ra của một giả thuyết bằng cáchthu thập các bằng chứng nhất quán hoặc khơng nhất quán với một giả thuyết nào đĩ.Khi các bằng chứng tích lũy, mức độ tin tưởng vào một giả thuyết thay đổi Khi cĩ đủbằng chứng, mức độ tin tưởng này thường trở nên rất cao hoặc rất thấp, tức là xác suấtxảy ra giả thuyết sẽ thay đổi thì các bằng chứng liên quan đến nĩ thay đổi [3]
Cơng thức của định luật Bayes được phát biểu như sau:
P(A|B¿=P(B|A¿ P( A)
Trong đĩ:
- P (A|B) là xác suất xảy ra của một sự kiện ngẫu nhiên A khi biết sự kiện liên quan B đã xảy ra
- P (B|A) là xác suất xảy ra B khi biết A xảy ra
- P (A) là xác suất xảy ra của riêng A mà khơng quan tâm đến B
- P (B) là xác suất xảy ra của riêng B mà khơng quan tâm đến A
2.1.5.3 Phân lớp với Nạve Bayes
Bộ phân lớp Naive bayes hay bộ phân lớp Bayes (simple bayes classifier) hoạt động như sau:
Trang 27P(Ci|X) > P(Cj|X) (1<= i, j <=m, i != j)Giá trị này sẽ tính dựa trên định lý Bayes.
lớn nhất
lớn, dĩ đĩ cĩ thể giảm độ phức tạp của thuật tốn Naive Bayes giả thiết các thuộc tính độc lập nhau Khi đĩ
P (+/nocancer) = 0.03 Bây giờ giả sử một bệnh nhân cĩ kết quả xét nghiệm dươngtính
Ta cĩ: P (+/cancer)P (cancer) = 0.98 * 0.008 = 0.0078 P (+/nocancer)P (nocancer)
Do đĩ ta xét đốn rằng, bệnh nhân là khơng ung thư
Trên đây, em đã trình bày về cơ sở lý thuyết của thuật tốn Nạve Bayes, cùngvới đĩ là áp dụng vào một ví dụ cụ thể Dưới đây em sẽ trình bày về những ưunhược điểm của thuật tốn này
2.1.5.4 Ưu nhược điểm
Trang 28Giả định độc lập: hoạt động tốt cho nhiều bài toán/miền dữ liệu và ứng dụng.
Đơn giản nhưng đủ tốt để giải quyết nhiều bài toán như phân lớp văn bản, lọc spam,
Cho phép kết hợp tri thức tiền nghiệm (prior knowledge) và dữ liệu quan sát được
Tốt khi có sự chênh lệch số lượng giữa các lớp phân loại
Huấn luyện mô hình (ước lượng tham số) dễ và nhanh
Giả định độc lập (ưu điểm cũng chính là nhược điểm)hầu hết các trường hợp thực tế trong đó có các thuộc tính trong các đối tượngthường phụ thuộc lẫn nhau
Vấn đề zero
Mô hình không được huấn luyện bằng phương pháp tối ưu mạnh và chặt chẽ Tham số của mô hình là các ước lượng xác suất điều kiện đơn lẻ
Không tính đến sự tương tác giữa các ước lượng này
2.1.6 Thuật toán SVM (Support Vector Machine)
2.1.6.1 Khái niệm
SVM (Support Vector Machine) là một thuật toán học máy có giám sát được sử dụngrất phổ biến ngày nay trong các bài toán phân lớp (classification) hay hồi quy(Regression)
SVM được đề xuất bởi Vladimir N Vapnik và các đồng nghiệp của ông vào năm 1963tại Nga và sau đó trở nên phổ biến trong những năm 90 nhờ ứng dụng giải quyết cácbài toán phi tuyến tính (nonlinear) bằng phương pháp Kernel Trick
Trang 292.1.6.2 Ý tưởng của thuật toán
Ý tưởng của SVM là tìm một siêu phẳng (hyper lane) để phân tách các điểm dữ liệu Siêuphẳng này sẽ chia không gian thành các miền khác nhau và mỗi miền sẽ chứa một loại dữ liệu [4]
Hình 2.2 Minh họa siêu phẳng trong SVM
Siêu phẳng được biểu diễn bằng hàm số < W.X > = b (W và X là các vector < W.X>
Trang 30Hình 2.3 Vấn đề chọn siêu phẳng trong SVM
Vấn đề chọn siêu mặt phẳng tối ưu:
Giả sử chúng ta phải phân loại tập dữ liệu các lớp dương (màu xanh) nhãn là 1 và các
dữ liệu lớp âm (màu đỏ) nhãn là -1 (tập dữ liệu có thể phân tách tuyến tính)
ra hai nửa không gian dữ liệu:
Trang 31Hình 2.4 Margin trong vấn đề chọn siêu phẳng
Trang 32Siêu phẳng tối ưu mà chúng ta cần chọn là siêu phẳng phân tách có lề lớn nhất Lýthuyết học máy đã chỉ ra rằng một siêu phẳng như vậy sẽ cực tiểu hóa giới hạn lỗi mắcphải.
2.1.6.3 Ưu nhược điểm
Xử lý trên không gian số chiều cao: SVM là một công cụ tính toán hiệu quảtrong không gian chiều cao, trong đó đặc biệt áp dụng cho các bài toán phân loại văn bản và phân tích quan điểm nơi chiều có thể cực kỳ lớn
Tiết kiệm bộ nhớ: Do chỉ có một tập hợp con của các điểm được sử dụng trong quá trình huấn luyện và ra quyết định thực tế cho các điểm dữ liệu mới nên chỉ có những điểm cần thiết mới được lưu trữ trong bộ nhớ khi ra quyết định
Tính linh hoạt - phân lớp thường là phi tuyến tính Khả năng áp dụng Kernel mới cho phép linh động giữa các phương pháp tuyến tính và phi tuyến tính từ đó khiến cho hiệu suất phân loại lớn hơn
ta đã bàn luận ở trên [5]
2.1.7 Chuẩn hóa dữ liệu