Nó giải thích rằng trong học có giám sát, tập huấn luyện bao gồm dữ liệu được gán nhãn labled, và thuật toán học đề thực hiện dự đoán dựa trên dữ liệu đã được dán nhãn này.. Ngoài ra, nó
Trang 1
BO GIAO DUC VA DAO TAO NGÂN HÀNG NHÀ NƯỚC VIỆT NAM TRƯỜNG ĐẠI HỌC NGÂN HÀNG THÀNH PHO HO CHi MINH
y (Machine Learning)
Hoc phan: Hoc M
Hands-On Machine Learning with Scikit-Learn, Keras
& TensorFlow
The Machine Learning Landscape
STT | MSSV Họ và tên
030138220039 _ | Nguyễn Thị Quỳnh Châu
030138220073 | Nguyễn Ngọc Thùy Dương
030138220185 | Nguyễn Thị Phương Lan
030138220222 | Bùi Nguyệt Minh
030138220297 _ | Nguyễn Trúc Quỳnh Như
Trang 2
MUC LUC
1 Hoc May (Machine Learning) 1a 98? 00.0 errr nhờ 3
2 Lợi ích của Học Máy: ch nh gà nh kg hy 3
3 Một số ứng dụng của học máy: ¿2S St Sv vs xe dec 3
4, Các loại hệ thống Học máy: 2S 232v SE Hee 3
4.1 Huấn luyện giám sát: cv St S S2 SH HH He 3
4.2 Batch learning va Online LeafmIng: ‹‹ các nh ren 5 4.3 Instance-Based learning và Model-Based learning: . - 6
5 _ Những thách thức chính của Học IMáy: ch nh nhờ 6
An 6
5.2 Thuật toán Học máy và mô hình chưa ôn định: - ¿55c se s+szsca 7
6 Kiếm tra và xác thực: -.- cSnSnT ThS TH HH TH HH Hiệu 8 6.1 Điều chính siêu tham số và lựa chọn mô hình: .- ác cv £sexcrss 8 6.2 Dữ liệu không phủ hợp: nhe tk kh 8 Định lý No Eree Lunch: nn nh kh 10
lì Si :uhỳ:tYƯIđddđđddđiiiiii.i.ẮẮÝ.Ả 10
Trang 31
CHUONG 1: TONG QUAN VE HOC MAY
Hoc May (Machine Learning) la gi?
Học máy là một môn khoa học (và cả nghệ thuật) về cach lập trình máy tính để chúng
có thể học từ đữ liệu
Một chương trình máy tính được cho là học từ kinh nghiệm E với tác vụ T và phép
đo chất lượng P nào đó, nếu chất lượng của tác vụ T, được đo bởi P, cải thiện theo kinh nghiệm E
2
4
Lợi ích của Học Máy:
Học máy rất tốt cho:
Những bài toán mà các giải pháp có đòi hỏi quá nhiều quy luật hoặc cần tính chỉnh
nhiều: một thuật toán Học Máy thường có thé don gian hoa ma nguồn và hoạt động
tốt hơn so với hướng truyền thống
Những bài toán phức tạp mà các phương pháp truyền thống không hoạt động tốt: giải pháp có thê là những kĩ thuật Học Máy tốt nhất
Môi trường thay đôi: một hệ thông Học Máy có thê thích ứng với dữ liệu mới
Việc khám phá tri thức từ các bài toán phức tạp và lượng đữ liệu lớn
Một số ứng dụng của học máy:
Phân tích hình ảnh của sản phẩm trên dây truyền sản xuất để phân loại tự động chúng
Phát hiện khối u trong hình quét não
Phân loại tự động các bài báo tin tức
Tự động đánh dấu các bình luận phản cảm trên diễn đàn tháo luận
Tóm tắt tài liệu dái một cách tự động
Tao ra một chatbox hoặc một trợ lý cá nhân
Dựa đoán doanh thu của công ty dựa trên các chỉ số hiệu suất
Phân loại khách hàng dựa trên các mua sắm của họ để thiết kế một chiến lược tiếp
thị khác cho mỗi phân khúc
Đại diện cho một bộ dữ liệu phức tạp, có nhiều chiều một cách rõ rang vả sâu sắc trong biểu đô
Đề xuất một sản phâm mà một khách hàng có thê quan tâm, dựa trên các mua sắm
trước đó
Xây dựng bot thông minh cho một trò chơi
Các loại hệ thống Học máy:
4.1 Huấn luyện giám sát:
Supervised learning (Hoc co giam sat):
Trang 4Phân về học có giám sát, trong tài liệu cung cấp một cái nhìn tổng quan về quá trình huấn luyện cho các hệ thông học máy Nó giải thích rằng trong học có giám sát, tập huấn
luyện bao gồm dữ liệu được gán nhãn (labled), và thuật toán học đề thực hiện dự đoán dựa trên dữ liệu đã được dán nhãn này Nó cũng thảo luận về hai nhiệm vụ phô biến trong học
có giám sát: phân loại và hồi quy Phân loại liên quan đến việc phân loại dữ liệu thành các
lớp, trong khi hồi quy liên quan đến việc dự đoán các giá trị số Ngoài ra, nó còn đề cập đến các thuật ngữ “target” và “label” thường được thay thế sử dụng cho nhau trong học có
giám sát Tóm lại, phần này cung cấp một hiểu biết toàn diện về khái niệm và các nhiệm
vụ liên quan đến học có giám sát
Unsupervised learning (Hoc khong co giam sat):
Về học không có giám sát, trong tài liệu giải thích rằng trong học không có giám sát,
dữ liệu huấn luyện không có nhãn, và hệ thông có gắng học mà không có giáo viên Nó đề
cập đến các ví dụ như: các thuật toán phân cụm dé phát hiện các nhóm của các khách truy cập tương tự và các thuật toán trực quan hóa xuất ra một output 2D hoặc 3D của dữ liệu phức tạp không được dán nhãn Giam chiều dữ liệu cũng được thảo luận, với mục tiêu làm
đơn giản hóa dữ liệu mà không mất quá nhiều thông tin bằng cách hợp nhất các đặc trưng tương quan thành một Phát hiện bất thường và phát hiện mới được nhân mạnh là các nhiệm
vụ không giám sát quan trọng, với mục tiêu là phát hiện các trường hợp không bình thường
và các trường hợp mới tương ứng Phần này cũng đề cập đến khái niệm trích xuất đặc trưng trong giảm chiều đữ liệu
Semi-supervised learning (Hoc ban giam sat):
Học bán giám sát được sử dụng khi có rất nhiều trường hợp không được gán nhãn
và một ít trường hợp được dán nhãn Nó giải thích rằng một số thuậ toán có thê xử lý dữ
liệu được gán nhãn bằng cách xử lý một phần và cung cấp một hình ảnh biêu diễn về học bán giám sát với hai lớp Ngoài ra, nó còn đề cập đến việc các thuật toán học bán giám sát
là sự kết hợp giữa các thuật toán không giám sát và có giám sát, trong đó mỗi thuật toán
phân cụm có thé duoc str dung dễ nhóm các trường hợp tương tự lại với nhau, sau đó mỗi
trường hợp không được gán nhãn có thê được gán nhãn với nhãn phô biến nhất trong cụm
của nó Khi toàn bộ tập dữ liệu được gán nhãn, có thê sử dụng bat kỳ thuật toán của học có
giám sát
Self-supervised learning (Hoc tw giam sat):
Tài liệu thảo luận về học tự giám sát như một phương pháp học máy liên quan đến
việc tạo ra một tập dữ liệu đầy đủ được gán nhãn từ một tập không được dán nhãn Trong học tự giám sát, một mô hình được huấn luyện bằng cách sử dụng dữ liệu không được gán nhãn bằng cách tạo ra các nhãn từ chính dữ liệu đó Ví dụ như dữ liệu về hình ảnh, một mô
hình có thê được huấn luyện để khôi phục lại hình ảnh gốc từ một phiên bản hình ảnh bị che khuất một cách ngẫu nhiên Khi toàn bộ tập dữ liệu được dán nhãn, bất kỳ thuật toán
4
Trang 5coi là một dánh mục riêng biệt, khác biệt so với học không giám sát, do việc sử dụng các nhãn (được tạo ra) trong quá trình huấn luyện Ngoài ra, nó đề cập đến việc học tự giám sát tập trung vào các nhiệm vụ như phân loại và hồi quy, tương tự như học có giám sát
Reinforcement learning (Hoc tang cwong):
Tài liệu thảo luận về học tăng cường như một nhánh của học máy được sử dụng đề huấn luyện các tác nhân như các bot, dé dua ra các quyết định nhằm tối đa hóa phần thưởng
của họ trong môi trường nhất định, như một trò chơi Nó cung cấp một ví dụ về AlphaGo,
một chương trình đã đánh bại nhà vô địch thế giới trong trò chơi GO bằng cách sử dụng học tăng cường Chương trình đã học được chính sách chiến thắng của mình bằng cách
phân tích hàng triệu trận đầu và nhiều trận đấu với chính nó Việc học đã được tắt trong các trận đầu với nhà vô địch, và AlphaGo áp dụng chính sách nó đã học được Loại này
được gọi là học offline Học tăng cường được sử dụng trong các kịch bản như huấn luyện
robot đi bộ và phát triển các bot trò chơi thông minh
4.2 Batch learning va Online Learning:
Batch learning (hoc theo dot) va Online learning (học trực truyện) là hai phương
phap tiếp cận đữ liệu trong hệ thống Hoc May
Batch learning Online learning
Hệ thông được huân luyện sử dụng các dữ
liệu có sẵn trong một lần
Hệ thông được huấn luyện dân dân bằng
cách cung cấp cho nó là trường dữ liệu có
trật tự, hoặc là từng cá thê hoặc là bằng
batches”
Batch learning doi héi tôn nhiêu thời gian
va tài nguyên tính toán, vậy nên thường
được thực hiện ngoại tuyến
Mỗi bước được thực hiện nhanh chóng và
ít tôn chi phí, cho phép hệ thông học về dữ liệu mới ngay khi nó được cung cấp
Hệ thông chỉ triên khai những gì nó được
huấn luyện mà không học them bắt kỳ điều
gì nữa
Hệ thông có thê thích nghi và thay đôi
nhanh chóng, như việc phát hiện các yêu tô
mới trên thị trường chứng khoán
Hiệu suât của mô hình có xu hướng giảm
đi theo thời gian do sự phát triển của thời
đại, được xem như là sự sụp đồ của mô hình
(model rot) hoặc sự biến đối dữ liệu (data
drift)
cung cấp, hiệu suất của hệ thống sẽ giảm
đáng kể một cách nhanh chóng
Trang 6
Mô hình cân được huân luyện thường
xuyên bằng các dữ liệu mới nhất, tần suất
đó phụ thuộc vào trường hợp sử dụng cụ
thể
Cân giám sát hệ thông một cách cân thận nêu phát hiện sự suy giảm về hiệu suất, có
thé theo dõi dữ liệu đầu vào và tiến hành
lọc các dữ liệu bat thường
4.3 Instance-Based learning và Model-Based learning:
Instance-based learning (học theo mẫu) và model-based learning (học theo mô hình)
là hai phương pháp tông quát hóa trong hé thong Hoc May
Instance-based learning Model-based learning
Instance-based learning dựa vào việc được
huấn luyện nhuần nhuyễn, trong đó hệ
thống ghi nhớ các ví dụ huấn luyện và tổng
Model-based learninng dựa vào việc học có
tiếp cận, phát hiện các mẫu trong dữ liệu
huấn luyện và xây dựng một mô hình dự
quát hóa cho các trường hợp mới bằng cách | đoán
sử dụng một phép đo tương đồng đề so sánh
chúng với các trường hợp đã học
Bản chật là xây dựng một mô hình dự đoán dựa trên các mẫu trong dữ liệu huấn luyện
Ban chat là so sánh các điểm dữ liệu mới
với các điểm dữ liệu đã biết bằng cách sử
5 Những thách thức chính của Học Máy:
Trong quá trình xây dựng mô hình và đào tạo mô hình Học Máy có thể phát sinh hai nguồn lỗi chính: “thuật toán Học Máy và mô hình không phù hợp” và “dữ liệu xấu - không phù hợp”
5.1
Không đủ số lượng dữ liệu đào tạo:
Để các thuật toán học máy hoạt động và vận hành tốt theo đúng mục tiêu mong muốn
đòi hỏi cần phải có một lượng lớn dữ liệu để đào tạo và kiêm tra Đối với các tác vụ đơn
giản, có thê cần hàng nghìn mẫu dữ liệu Đối với các tác vụ phức tạp như nhận dạng hình
Dữ liệu xâu:
ảnh hoặc giọng nói, có thê cần hàng triệu mẫu dữ liệu (các bản ghi âm về các từ, chữ cái,
các mẫu hình ảnh, ) Nếu không có đủ dữ liệu đào tạo, mô hình học máy có thể không
học tập được các thuộc tính của mẫu và không xác định được mối tương quan cần thiết dé thực hiện chính xác nhiệm vụ
Dữ liệu huấn luyện không mang tính đại diện: ;
Dé khai quát hoa tot, diéu quan trong là đữ liệu huân luyện phải đại diện cho các
trường hợp mới mà ta muốn khái quát hóa Khi sử dụng một bộ đào tạo không đại diện, mô hình đảo tại không có khả năng đưa ra dự đoán chính xác, khiến thuật toán học sai lệch về
một phía nào đó hoặc đưa ra kết quả không đáng tin cậy Dữ liệu đào tạo không mang tính
6
Trang 7đại diện có thể xuất phát từ nhiều nguyên nhân như cỡ mẫu chưa phù hợp, phương pháp chọn mầu không đúng, thiên lệch chủ quan từ phiá người thu thập dữ liệu
Dữ liệu chất lượng kém:
Dữ liệu đào tạo chứa nhiều lỗi, dị biệt và nhiễu sẽ khiến kết quả sai lệch đi rất nhiều
và cán trở khả năng phát hiện các mẫu cơ bản của thuật toán, khiến mô hình có thê hoạt
động không tốt, chính lẽ đó mà phải tốn rất nhiều thời gian đề làm sạch dữ liệu đào tạo và
loại bỏ các yêu tô nhiễu trước khi đi vào quá trình xây dựng mô hình
Cac tinh nang khong lién quan :
Thuật toán học máy chỉ có khả năng học tốt nếu dữ liệu đào tạo chứa đủ các tính
năng (features) liên quan và không có quá nhiều tính năng không liên quan Quá trình lựa
chọn dữ liệu đào tạo chứa bộ tính năng liên quan được gọi là kỹ thuật tính năng bao gồm
các giai đoạn sau: lia chon tinh nding, trích xuất tính năng và tạo các tính năng mới bằng
cách thu thập dữ liệu mới
5.2 Thuật toán Học máy và mô hình chưa ốn định:
5.2.1, Vuot qua div ligu dao tao:
Trong Học Máy, việc khái quát hoa qua mirc m6 hinh duoc goi la overfitting, nghia
là mô hình hoạt động tốt trên dữ liệu đào tạo nhưng không mang lại kết quả tốt trên tập kiểm tra và không có tính tông quát tối
Các mô hình phức tạp như mạng nơ-ron sâu có thể phát hiện các mẫu tinh tế trong
dữ liệu, nhưng nêu bộ đào tạo nhiễu hoặc nêu quá nhỏ, gây ra tiếng ồn lấy mẫu, thì mô hình có khả năng phát hiện các mẫu trong chính tiếng ồn Rõ ràng những mô hình này sẽ không khái quát hóa cho các trường hợp mới
Overfiting xảy ra khi mô hình quá phức tạp hoặc đữ liệu huấn luyện quá nhỏ Một số dau hiệu nhận biết hiện tượng Quá khớp:
—_ Sai số huấn luyện (training error): Mức độ sai khác giữa đầu ra thực và đầu ra dự đoán của mô hình Trong hôi quy, đại lượng này được xác định bởi sai số trung bình phương (mean squared error — MSE)
— Sai số kiêm tra (test error): Tương tự như sai số huấn luyện, áp dụng mô hình tìm
được vào dữ liệu kiểm tra
Dưới đây là các giải pháp khả th giúp hạn chế hiện tượng quả khớp:
— Đơn giản hóa mô hình bằng cách chọn một mô hình có ít tham số hơn, bằng cách
giảm số lượng thuộc tính trong dữ liệu đào tạo hoặc bằng cách hạn chế mô hình
— Giảm nhiều trong dữ liệu đảo tạo (ví dụ: sửa lỗi dữ liệu và loại bỏ các ngoại lệ)
3.2.2 Không phù hợp với dữ liệu đào tạo:
Trang 8Underƒitting ngược lại với overñtting, chỉ xảy ra khi mô hình quá đơn giản đề tìm
hiểu cầu trúc cơ bản của dữ liệu Ví dụ, một mô hình tuyến tính của sự hài lòng trong cuộc
sống dễ bị thiếu phù hợp; Thực tế chỉ phức tạp hơn mô hình, vì vậy dự đoán của nó chắc chăn sẽ không chính xác, ngay cả trên các ví dụ đảo tạo
Dưới đây là các tùy chọn chính để khắc phục sự cỗ này:
— Chọn một mô hình mạnh mẽ hơn, với nhiều thông số hơn
— _ Cung cấp các tính năng tốt hơn cho thuật toán học tập (kỹ thuật tính năng)
—_ Giảm các ràng buộc trên mô hình (ví dụ: bằng cách giảm siêu tham số chính quy)
6 Kiểm tra và xác thực:
Cách duy nhất để xác định trường hợp mới được tổng quát hóa tốt đến mức nào là
thực sự thử nghiệm nó lên mô hình mới
Ta có thê chia dữ liệu thành hai tập: tập huấn luyện và tập kiểm tra Tỷ lệ lỗi trên các trường hợp mới được gọi là lỗi tông quát (hoặc lỗi ngoài mẫu), và bằng cách đánh giá mô
hình trên tập kiểm tra, ta có thể ước lượng được lỗi nay G1á trị ước lượng cho biết mức độ
hiệu suất của mô hình trên các trường hợp mà nó chưa từng thấy trước đó
Nếu mô hình mắc lỗi tập huấn luyện thấp nhưng lỗi tổng quát cao, điều đó có nghĩa
là mô hình hiện đang overfitting với dữ liệu huấn luyện
6.1 Điều chỉnh siêu tham số và lựa chọn mô hình:
Quá trình điều chỉnh siêu tham số và lựa chọn mô hình bao gồm đánh giá các mô hình khác nhau với các siêu tham số khác nhau để chọn ra mô hình hoạt động tốt nhất, giúp
chọn ra mô hình phù hợp nhất cho vấn đề và tập dữ liệu đã cho
Đề thực hiện quá trình này, ta cần một tập dữ liệu kiêm định riêng biệt, tập dữ liệu kiêm định này khác biệt so với tập huấn luyện và tập kiêm tra Bằng cách huấn luyện nhiều
mô hình với các siêu tham số khác nhau trên tập huấn luyện tối ưu (tập huấn luyện đầy đủ
trừ đi tập kiêm định) và chọn mô hình hoạt động tốt nhất trên tập kiểm định, ta có thể xác định mô hình và các siêu tham số phù hợp nhất
Lưu ý: Nếu tập kiểm tra được sử dụng để lựa chọn mô hình và điều chỉnh siêu tham
số, mô hình có thể trở nên thiên vị về các đặc điểm cụ thể của tập kiểm tra, dẫn đến hiện
tượng overfñiting và tông quát hóa kém trên dữ liệu mới
6.2 Dữ liệu không phù hợp:
Dữ liệu không phủ hợp là tình huống đữ liệu được sử dụng để huấn luyện một mô hình không phản ánh đúng đữ liệu mà mô hình sẽ gặp trong quá trình thực hiện
Dữ liệu không phù hợp có thê ảnh hưởng đáng kẻ đối với các mô hình học máy Khi một mô hình được huấn luyện bằng dữ liệu không phù hợp với các tình huồng thực tế mà
nó sẽ gặp phải, nó có thể không tổng quát hóa tốt các dữ liệu mới, chưa được nhìn thấy
Điều này có thê dẫn đến hiệu suất kém và dự đoán không chính xác khi mô hình được triển
khai
Trang 9Để giải quyết dữ liệu không phù hợp, quan trọng là gia đoạn tiền xử lý dữ liệu huấn
luyện để nó phản ánh chính xác hơn dữ liệu thực tế mà mô hình được áp dụng Ngoài ra,
việc huấn luyện lại mô hình với dữ liệu được điều chỉnh hoặc bố sung có thê giúp giảm thiểu ảnh hưởng của sự không phù hợp dữ liệu
Trang 10Dinh ly No Free Lunch:
Định lý "Không có bữa trưa nào miễn phí" (No Free Lunch - NFL), duoc David
Wolpert chimg minh vao nam 1996, khang dinh rang néu không có giả định nào được đưa
ra về dữ liệu, thì không có lý do nào để ưu tiên mô hình này hơn mô hình khác
Định lý này có liên quan đến Học Máy vì nó thê hiện được tam quan trọng của việc đưa ra các giá định hợp lý về đữ liệu khi lựa chọn một mô hình, nhắn mạnh sự cần thiết phải cân thận xem xét các đặc điểm của dữ liệu và chọn lựa các mô hình phủ hợp với những
đặc điểm đó
Nếu thiếu các giả định này, không có gì bảo đảm rằng một mô hình sẽ hoạt động tốt hơn mô hình khác Do đó, trong thực tế, các chuyên gia học máy đánh giá một số mô hình hợp lý dựa trên những giá định có căn cứ về dữ liệu
Tra lời cầu hỏi:
Cau 1 How would you define machine learning? (Dinh nghia hoc may?) Hoc May (Machine Learning) là một lĩnh vực nghiên cứu tại giao điểm của thống
kê, trí tuệ nhân tạo và khoa học máy tính Thuật ngữ này được định nghĩa theo nhiều hướng
khác nhau, sau đây là một vài khái niệm điền hình:
Theo Arthur Samuel (1959): “/oc máy là lĩnh vực nghiên cứu cung cấp cho máy tính khả năng học mà không cân lập trình rõ ràng”
Tom Mitchell (1997) khang dinh rang: “Hoc mdy là một chương trình máy tính được
cho là học hỏi từ kinh nghiệm E (b6 dit liéu) đối với một số nhiệm vụ T (thudt todn ML) va
một số thước đo hiệu suất P (đánh giá mô hình), nếu hiệu suất của no trén T, duoc do bang
Ð, được cải thiện với kinh nghiệm F `”
Câu 2: Can you name four types of problems where it shines? (Ké tén bon van
đề nỗi bật của Học Máy?)
Học Máy nồi bật trong các loại van dé sau:
— Cac van dé doi hoi điều chỉnh bằng tay hoặc danh sách dài các quy tắc: Các thuật
toán Học máy có thê đơn giản mã hóa và hoạt động tốt hơn, làm chúng phù hợp cho các vấn đề có giải pháp hiện có đòi hỏi điều chỉnh thủ công một cách cân thận
—_ Các vấn đề phức tạp mà không có giải pháp tốt sử dụng các phương pháp truyền thống: Các kỹ thuật Học máy tốt nhất có thể tìm ra giải pháp cho các vấn đề quá phức tạp đối với các phương pháp thông thường
—_ Môi trường biến đôi: Các hệ thông Học máy có thê thích ứng với dữ liệu mới, làm
cho chúng phù hợp cho các môi trường mà dữ liệu thay đổi theo thời gian
— Kham phá các mẫu trong lượng lớn dữ liệu: Các kỹ thuật ML có thê giúp khám phá các mẫu không ngay lập tức rõ ràng, làm cho chúng có giá trị cho khai thác dữ liệu
và thu thập thông tin từ các bộ dữ liệu phức tạp
10