Hands on machine learning with scikit learn, keras & tensorflow the machine learning landscape

Nó giải thích rằng trong học có giám sát, tập huấn luyện bao gồm dữ liệu được gán nhãn labled, và thuật toán học đề thực hiện dự đoán dựa trên dữ liệu đã được dán nhãn này.. Ngoài ra, nó

Trang 1

BO GIAO DUC VA DAO TAO NGÂN HÀNG NHÀ NƯỚC VIỆT NAM TRƯỜNG ĐẠI HỌC NGÂN HÀNG THÀNH PHO HO CHi MINH

y (Machine Learning)

Hoc phan: Hoc M

Hands-On Machine Learning with Scikit-Learn, Keras

& TensorFlow

The Machine Learning Landscape

STT | MSSV Họ và tên

030138220039 _ | Nguyễn Thị Quỳnh Châu

030138220073 | Nguyễn Ngọc Thùy Dương

030138220185 | Nguyễn Thị Phương Lan

030138220222 | Bùi Nguyệt Minh

030138220297 _ | Nguyễn Trúc Quỳnh Như

Trang 2

MUC LUC

1 Hoc May (Machine Learning) 1a 98? 00.0 errr nhờ 3

2 Lợi ích của Học Máy: ch nh gà nh kg hy 3

3 Một số ứng dụng của học máy: ¿2S St Sv vs xe dec 3

4, Các loại hệ thống Học máy: 2S 232v SE Hee 3

4.1 Huấn luyện giám sát: cv St S S2 SH HH He 3

4.2 Batch learning va Online LeafmIng: ‹‹ các nh ren 5 4.3 Instance-Based learning và Model-Based learning: . - 6

5 _ Những thách thức chính của Học IMáy: ch nh nhờ 6

An 6

5.2 Thuật toán Học máy và mô hình chưa ôn định: - ¿55c se s+szsca 7

6 Kiếm tra và xác thực: -.- cSnSnT ThS TH HH TH HH Hiệu 8 6.1 Điều chính siêu tham số và lựa chọn mô hình: .- ác cv £sexcrss 8 6.2 Dữ liệu không phủ hợp: nhe tk kh 8 Định lý No Eree Lunch: nn nh kh 10

lì Si :uhỳ:tYƯIđddđđddđiiiiii.i.ẮẮÝ.Ả 10

Trang 3

1

CHUONG 1: TONG QUAN VE HOC MAY

Hoc May (Machine Learning) la gi?

Học máy là một môn khoa học (và cả nghệ thuật) về cach lập trình máy tính để chúng

có thể học từ đữ liệu

Một chương trình máy tính được cho là học từ kinh nghiệm E với tác vụ T và phép

đo chất lượng P nào đó, nếu chất lượng của tác vụ T, được đo bởi P, cải thiện theo kinh nghiệm E

2

4

Lợi ích của Học Máy:

Học máy rất tốt cho:

Những bài toán mà các giải pháp có đòi hỏi quá nhiều quy luật hoặc cần tính chỉnh

nhiều: một thuật toán Học Máy thường có thé don gian hoa ma nguồn và hoạt động

tốt hơn so với hướng truyền thống

Những bài toán phức tạp mà các phương pháp truyền thống không hoạt động tốt: giải pháp có thê là những kĩ thuật Học Máy tốt nhất

Môi trường thay đôi: một hệ thông Học Máy có thê thích ứng với dữ liệu mới

Việc khám phá tri thức từ các bài toán phức tạp và lượng đữ liệu lớn

Một số ứng dụng của học máy:

Phân tích hình ảnh của sản phẩm trên dây truyền sản xuất để phân loại tự động chúng

Phát hiện khối u trong hình quét não

Phân loại tự động các bài báo tin tức

Tự động đánh dấu các bình luận phản cảm trên diễn đàn tháo luận

Tóm tắt tài liệu dái một cách tự động

Tao ra một chatbox hoặc một trợ lý cá nhân

Dựa đoán doanh thu của công ty dựa trên các chỉ số hiệu suất

Phân loại khách hàng dựa trên các mua sắm của họ để thiết kế một chiến lược tiếp

thị khác cho mỗi phân khúc

Đại diện cho một bộ dữ liệu phức tạp, có nhiều chiều một cách rõ rang vả sâu sắc trong biểu đô

Đề xuất một sản phâm mà một khách hàng có thê quan tâm, dựa trên các mua sắm

trước đó

Xây dựng bot thông minh cho một trò chơi

Các loại hệ thống Học máy:

4.1 Huấn luyện giám sát:

Supervised learning (Hoc co giam sat):

Trang 4

Phân về học có giám sát, trong tài liệu cung cấp một cái nhìn tổng quan về quá trình huấn luyện cho các hệ thông học máy Nó giải thích rằng trong học có giám sát, tập huấn

luyện bao gồm dữ liệu được gán nhãn (labled), và thuật toán học đề thực hiện dự đoán dựa trên dữ liệu đã được dán nhãn này Nó cũng thảo luận về hai nhiệm vụ phô biến trong học

có giám sát: phân loại và hồi quy Phân loại liên quan đến việc phân loại dữ liệu thành các

lớp, trong khi hồi quy liên quan đến việc dự đoán các giá trị số Ngoài ra, nó còn đề cập đến các thuật ngữ “target” và “label” thường được thay thế sử dụng cho nhau trong học có

giám sát Tóm lại, phần này cung cấp một hiểu biết toàn diện về khái niệm và các nhiệm

vụ liên quan đến học có giám sát

Unsupervised learning (Hoc khong co giam sat):

Về học không có giám sát, trong tài liệu giải thích rằng trong học không có giám sát,

dữ liệu huấn luyện không có nhãn, và hệ thông có gắng học mà không có giáo viên Nó đề

cập đến các ví dụ như: các thuật toán phân cụm dé phát hiện các nhóm của các khách truy cập tương tự và các thuật toán trực quan hóa xuất ra một output 2D hoặc 3D của dữ liệu phức tạp không được dán nhãn Giam chiều dữ liệu cũng được thảo luận, với mục tiêu làm

đơn giản hóa dữ liệu mà không mất quá nhiều thông tin bằng cách hợp nhất các đặc trưng tương quan thành một Phát hiện bất thường và phát hiện mới được nhân mạnh là các nhiệm

vụ không giám sát quan trọng, với mục tiêu là phát hiện các trường hợp không bình thường

và các trường hợp mới tương ứng Phần này cũng đề cập đến khái niệm trích xuất đặc trưng trong giảm chiều đữ liệu

Semi-supervised learning (Hoc ban giam sat):

Học bán giám sát được sử dụng khi có rất nhiều trường hợp không được gán nhãn

và một ít trường hợp được dán nhãn Nó giải thích rằng một số thuậ toán có thê xử lý dữ

liệu được gán nhãn bằng cách xử lý một phần và cung cấp một hình ảnh biêu diễn về học bán giám sát với hai lớp Ngoài ra, nó còn đề cập đến việc các thuật toán học bán giám sát

là sự kết hợp giữa các thuật toán không giám sát và có giám sát, trong đó mỗi thuật toán

phân cụm có thé duoc str dung dễ nhóm các trường hợp tương tự lại với nhau, sau đó mỗi

trường hợp không được gán nhãn có thê được gán nhãn với nhãn phô biến nhất trong cụm

của nó Khi toàn bộ tập dữ liệu được gán nhãn, có thê sử dụng bat kỳ thuật toán của học có

giám sát

Self-supervised learning (Hoc tw giam sat):

Tài liệu thảo luận về học tự giám sát như một phương pháp học máy liên quan đến

việc tạo ra một tập dữ liệu đầy đủ được gán nhãn từ một tập không được dán nhãn Trong học tự giám sát, một mô hình được huấn luyện bằng cách sử dụng dữ liệu không được gán nhãn bằng cách tạo ra các nhãn từ chính dữ liệu đó Ví dụ như dữ liệu về hình ảnh, một mô

hình có thê được huấn luyện để khôi phục lại hình ảnh gốc từ một phiên bản hình ảnh bị che khuất một cách ngẫu nhiên Khi toàn bộ tập dữ liệu được dán nhãn, bất kỳ thuật toán

4

Trang 5

coi là một dánh mục riêng biệt, khác biệt so với học không giám sát, do việc sử dụng các nhãn (được tạo ra) trong quá trình huấn luyện Ngoài ra, nó đề cập đến việc học tự giám sát tập trung vào các nhiệm vụ như phân loại và hồi quy, tương tự như học có giám sát

Reinforcement learning (Hoc tang cwong):

Tài liệu thảo luận về học tăng cường như một nhánh của học máy được sử dụng đề huấn luyện các tác nhân như các bot, dé dua ra các quyết định nhằm tối đa hóa phần thưởng

của họ trong môi trường nhất định, như một trò chơi Nó cung cấp một ví dụ về AlphaGo,

một chương trình đã đánh bại nhà vô địch thế giới trong trò chơi GO bằng cách sử dụng học tăng cường Chương trình đã học được chính sách chiến thắng của mình bằng cách

phân tích hàng triệu trận đầu và nhiều trận đấu với chính nó Việc học đã được tắt trong các trận đầu với nhà vô địch, và AlphaGo áp dụng chính sách nó đã học được Loại này

được gọi là học offline Học tăng cường được sử dụng trong các kịch bản như huấn luyện

robot đi bộ và phát triển các bot trò chơi thông minh

4.2 Batch learning va Online Learning:

Batch learning (hoc theo dot) va Online learning (học trực truyện) là hai phương

phap tiếp cận đữ liệu trong hệ thống Hoc May

Batch learning Online learning

Hệ thông được huân luyện sử dụng các dữ

liệu có sẵn trong một lần

Hệ thông được huấn luyện dân dân bằng

cách cung cấp cho nó là trường dữ liệu có

trật tự, hoặc là từng cá thê hoặc là bằng

batches”

Batch learning doi héi tôn nhiêu thời gian

va tài nguyên tính toán, vậy nên thường

được thực hiện ngoại tuyến

Mỗi bước được thực hiện nhanh chóng và

ít tôn chi phí, cho phép hệ thông học về dữ liệu mới ngay khi nó được cung cấp

Hệ thông chỉ triên khai những gì nó được

huấn luyện mà không học them bắt kỳ điều

gì nữa

Hệ thông có thê thích nghi và thay đôi

nhanh chóng, như việc phát hiện các yêu tô

mới trên thị trường chứng khoán

Hiệu suât của mô hình có xu hướng giảm

đi theo thời gian do sự phát triển của thời

đại, được xem như là sự sụp đồ của mô hình

(model rot) hoặc sự biến đối dữ liệu (data

drift)

cung cấp, hiệu suất của hệ thống sẽ giảm

đáng kể một cách nhanh chóng

Trang 6

Mô hình cân được huân luyện thường

xuyên bằng các dữ liệu mới nhất, tần suất

đó phụ thuộc vào trường hợp sử dụng cụ

thể

Cân giám sát hệ thông một cách cân thận nêu phát hiện sự suy giảm về hiệu suất, có

thé theo dõi dữ liệu đầu vào và tiến hành

lọc các dữ liệu bat thường

4.3 Instance-Based learning và Model-Based learning:

Instance-based learning (học theo mẫu) và model-based learning (học theo mô hình)

là hai phương pháp tông quát hóa trong hé thong Hoc May

Instance-based learning Model-based learning

Instance-based learning dựa vào việc được

huấn luyện nhuần nhuyễn, trong đó hệ

thống ghi nhớ các ví dụ huấn luyện và tổng

Model-based learninng dựa vào việc học có

tiếp cận, phát hiện các mẫu trong dữ liệu

huấn luyện và xây dựng một mô hình dự

quát hóa cho các trường hợp mới bằng cách | đoán

sử dụng một phép đo tương đồng đề so sánh

chúng với các trường hợp đã học

Bản chật là xây dựng một mô hình dự đoán dựa trên các mẫu trong dữ liệu huấn luyện

Ban chat là so sánh các điểm dữ liệu mới

với các điểm dữ liệu đã biết bằng cách sử

5 Những thách thức chính của Học Máy:

Trong quá trình xây dựng mô hình và đào tạo mô hình Học Máy có thể phát sinh hai nguồn lỗi chính: “thuật toán Học Máy và mô hình không phù hợp” và “dữ liệu xấu - không phù hợp”

5.1

Không đủ số lượng dữ liệu đào tạo:

Để các thuật toán học máy hoạt động và vận hành tốt theo đúng mục tiêu mong muốn

đòi hỏi cần phải có một lượng lớn dữ liệu để đào tạo và kiêm tra Đối với các tác vụ đơn

giản, có thê cần hàng nghìn mẫu dữ liệu Đối với các tác vụ phức tạp như nhận dạng hình

Dữ liệu xâu:

ảnh hoặc giọng nói, có thê cần hàng triệu mẫu dữ liệu (các bản ghi âm về các từ, chữ cái,

các mẫu hình ảnh, ) Nếu không có đủ dữ liệu đào tạo, mô hình học máy có thể không

học tập được các thuộc tính của mẫu và không xác định được mối tương quan cần thiết dé thực hiện chính xác nhiệm vụ

Dữ liệu huấn luyện không mang tính đại diện: ;

Dé khai quát hoa tot, diéu quan trong là đữ liệu huân luyện phải đại diện cho các

trường hợp mới mà ta muốn khái quát hóa Khi sử dụng một bộ đào tạo không đại diện, mô hình đảo tại không có khả năng đưa ra dự đoán chính xác, khiến thuật toán học sai lệch về

một phía nào đó hoặc đưa ra kết quả không đáng tin cậy Dữ liệu đào tạo không mang tính

6

Trang 7

đại diện có thể xuất phát từ nhiều nguyên nhân như cỡ mẫu chưa phù hợp, phương pháp chọn mầu không đúng, thiên lệch chủ quan từ phiá người thu thập dữ liệu

Dữ liệu chất lượng kém:

Dữ liệu đào tạo chứa nhiều lỗi, dị biệt và nhiễu sẽ khiến kết quả sai lệch đi rất nhiều

và cán trở khả năng phát hiện các mẫu cơ bản của thuật toán, khiến mô hình có thê hoạt

động không tốt, chính lẽ đó mà phải tốn rất nhiều thời gian đề làm sạch dữ liệu đào tạo và

loại bỏ các yêu tô nhiễu trước khi đi vào quá trình xây dựng mô hình

Cac tinh nang khong lién quan :

Thuật toán học máy chỉ có khả năng học tốt nếu dữ liệu đào tạo chứa đủ các tính

năng (features) liên quan và không có quá nhiều tính năng không liên quan Quá trình lựa

chọn dữ liệu đào tạo chứa bộ tính năng liên quan được gọi là kỹ thuật tính năng bao gồm

các giai đoạn sau: lia chon tinh nding, trích xuất tính năng và tạo các tính năng mới bằng

cách thu thập dữ liệu mới

5.2 Thuật toán Học máy và mô hình chưa ốn định:

5.2.1, Vuot qua div ligu dao tao:

Trong Học Máy, việc khái quát hoa qua mirc m6 hinh duoc goi la overfitting, nghia

là mô hình hoạt động tốt trên dữ liệu đào tạo nhưng không mang lại kết quả tốt trên tập kiểm tra và không có tính tông quát tối

Các mô hình phức tạp như mạng nơ-ron sâu có thể phát hiện các mẫu tinh tế trong

dữ liệu, nhưng nêu bộ đào tạo nhiễu hoặc nêu quá nhỏ, gây ra tiếng ồn lấy mẫu, thì mô hình có khả năng phát hiện các mẫu trong chính tiếng ồn Rõ ràng những mô hình này sẽ không khái quát hóa cho các trường hợp mới

Overfiting xảy ra khi mô hình quá phức tạp hoặc đữ liệu huấn luyện quá nhỏ Một số dau hiệu nhận biết hiện tượng Quá khớp:

—_ Sai số huấn luyện (training error): Mức độ sai khác giữa đầu ra thực và đầu ra dự đoán của mô hình Trong hôi quy, đại lượng này được xác định bởi sai số trung bình phương (mean squared error — MSE)

— Sai số kiêm tra (test error): Tương tự như sai số huấn luyện, áp dụng mô hình tìm

được vào dữ liệu kiểm tra

Dưới đây là các giải pháp khả th giúp hạn chế hiện tượng quả khớp:

— Đơn giản hóa mô hình bằng cách chọn một mô hình có ít tham số hơn, bằng cách

giảm số lượng thuộc tính trong dữ liệu đào tạo hoặc bằng cách hạn chế mô hình

— Giảm nhiều trong dữ liệu đảo tạo (ví dụ: sửa lỗi dữ liệu và loại bỏ các ngoại lệ)

3.2.2 Không phù hợp với dữ liệu đào tạo:

Trang 8

Underƒitting ngược lại với overñtting, chỉ xảy ra khi mô hình quá đơn giản đề tìm

hiểu cầu trúc cơ bản của dữ liệu Ví dụ, một mô hình tuyến tính của sự hài lòng trong cuộc

sống dễ bị thiếu phù hợp; Thực tế chỉ phức tạp hơn mô hình, vì vậy dự đoán của nó chắc chăn sẽ không chính xác, ngay cả trên các ví dụ đảo tạo

Dưới đây là các tùy chọn chính để khắc phục sự cỗ này:

— Chọn một mô hình mạnh mẽ hơn, với nhiều thông số hơn

— _ Cung cấp các tính năng tốt hơn cho thuật toán học tập (kỹ thuật tính năng)

—_ Giảm các ràng buộc trên mô hình (ví dụ: bằng cách giảm siêu tham số chính quy)

6 Kiểm tra và xác thực:

Cách duy nhất để xác định trường hợp mới được tổng quát hóa tốt đến mức nào là

thực sự thử nghiệm nó lên mô hình mới

Ta có thê chia dữ liệu thành hai tập: tập huấn luyện và tập kiểm tra Tỷ lệ lỗi trên các trường hợp mới được gọi là lỗi tông quát (hoặc lỗi ngoài mẫu), và bằng cách đánh giá mô

hình trên tập kiểm tra, ta có thể ước lượng được lỗi nay G1á trị ước lượng cho biết mức độ

hiệu suất của mô hình trên các trường hợp mà nó chưa từng thấy trước đó

Nếu mô hình mắc lỗi tập huấn luyện thấp nhưng lỗi tổng quát cao, điều đó có nghĩa

là mô hình hiện đang overfitting với dữ liệu huấn luyện

6.1 Điều chỉnh siêu tham số và lựa chọn mô hình:

Quá trình điều chỉnh siêu tham số và lựa chọn mô hình bao gồm đánh giá các mô hình khác nhau với các siêu tham số khác nhau để chọn ra mô hình hoạt động tốt nhất, giúp

chọn ra mô hình phù hợp nhất cho vấn đề và tập dữ liệu đã cho

Đề thực hiện quá trình này, ta cần một tập dữ liệu kiêm định riêng biệt, tập dữ liệu kiêm định này khác biệt so với tập huấn luyện và tập kiêm tra Bằng cách huấn luyện nhiều

mô hình với các siêu tham số khác nhau trên tập huấn luyện tối ưu (tập huấn luyện đầy đủ

trừ đi tập kiêm định) và chọn mô hình hoạt động tốt nhất trên tập kiểm định, ta có thể xác định mô hình và các siêu tham số phù hợp nhất

Lưu ý: Nếu tập kiểm tra được sử dụng để lựa chọn mô hình và điều chỉnh siêu tham

số, mô hình có thể trở nên thiên vị về các đặc điểm cụ thể của tập kiểm tra, dẫn đến hiện

tượng overfñiting và tông quát hóa kém trên dữ liệu mới

6.2 Dữ liệu không phù hợp:

Dữ liệu không phủ hợp là tình huống đữ liệu được sử dụng để huấn luyện một mô hình không phản ánh đúng đữ liệu mà mô hình sẽ gặp trong quá trình thực hiện

Dữ liệu không phù hợp có thê ảnh hưởng đáng kẻ đối với các mô hình học máy Khi một mô hình được huấn luyện bằng dữ liệu không phù hợp với các tình huồng thực tế mà

nó sẽ gặp phải, nó có thể không tổng quát hóa tốt các dữ liệu mới, chưa được nhìn thấy

Điều này có thê dẫn đến hiệu suất kém và dự đoán không chính xác khi mô hình được triển

khai

Trang 9

Để giải quyết dữ liệu không phù hợp, quan trọng là gia đoạn tiền xử lý dữ liệu huấn

luyện để nó phản ánh chính xác hơn dữ liệu thực tế mà mô hình được áp dụng Ngoài ra,

việc huấn luyện lại mô hình với dữ liệu được điều chỉnh hoặc bố sung có thê giúp giảm thiểu ảnh hưởng của sự không phù hợp dữ liệu

Trang 10

Dinh ly No Free Lunch:

Định lý "Không có bữa trưa nào miễn phí" (No Free Lunch - NFL), duoc David

Wolpert chimg minh vao nam 1996, khang dinh rang néu không có giả định nào được đưa

ra về dữ liệu, thì không có lý do nào để ưu tiên mô hình này hơn mô hình khác

Định lý này có liên quan đến Học Máy vì nó thê hiện được tam quan trọng của việc đưa ra các giá định hợp lý về đữ liệu khi lựa chọn một mô hình, nhắn mạnh sự cần thiết phải cân thận xem xét các đặc điểm của dữ liệu và chọn lựa các mô hình phủ hợp với những

đặc điểm đó

Nếu thiếu các giả định này, không có gì bảo đảm rằng một mô hình sẽ hoạt động tốt hơn mô hình khác Do đó, trong thực tế, các chuyên gia học máy đánh giá một số mô hình hợp lý dựa trên những giá định có căn cứ về dữ liệu

Tra lời cầu hỏi:

Cau 1 How would you define machine learning? (Dinh nghia hoc may?) Hoc May (Machine Learning) là một lĩnh vực nghiên cứu tại giao điểm của thống

kê, trí tuệ nhân tạo và khoa học máy tính Thuật ngữ này được định nghĩa theo nhiều hướng

khác nhau, sau đây là một vài khái niệm điền hình:

Theo Arthur Samuel (1959): “/oc máy là lĩnh vực nghiên cứu cung cấp cho máy tính khả năng học mà không cân lập trình rõ ràng”

Tom Mitchell (1997) khang dinh rang: “Hoc mdy là một chương trình máy tính được

cho là học hỏi từ kinh nghiệm E (b6 dit liéu) đối với một số nhiệm vụ T (thudt todn ML) va

một số thước đo hiệu suất P (đánh giá mô hình), nếu hiệu suất của no trén T, duoc do bang

Ð, được cải thiện với kinh nghiệm F `”

Câu 2: Can you name four types of problems where it shines? (Ké tén bon van

đề nỗi bật của Học Máy?)

Học Máy nồi bật trong các loại van dé sau:

— Cac van dé doi hoi điều chỉnh bằng tay hoặc danh sách dài các quy tắc: Các thuật

toán Học máy có thê đơn giản mã hóa và hoạt động tốt hơn, làm chúng phù hợp cho các vấn đề có giải pháp hiện có đòi hỏi điều chỉnh thủ công một cách cân thận

—_ Các vấn đề phức tạp mà không có giải pháp tốt sử dụng các phương pháp truyền thống: Các kỹ thuật Học máy tốt nhất có thể tìm ra giải pháp cho các vấn đề quá phức tạp đối với các phương pháp thông thường

—_ Môi trường biến đôi: Các hệ thông Học máy có thê thích ứng với dữ liệu mới, làm

cho chúng phù hợp cho các môi trường mà dữ liệu thay đổi theo thời gian

— Kham phá các mẫu trong lượng lớn dữ liệu: Các kỹ thuật ML có thê giúp khám phá các mẫu không ngay lập tức rõ ràng, làm cho chúng có giá trị cho khai thác dữ liệu

và thu thập thông tin từ các bộ dữ liệu phức tạp

10

Tiêu đề	Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow The Machine Learning Landscape
Tác giả	Nguyễn Thị Quỳnh Châu, Nguyễn Ngọc Thùy Dương, Nguyễn Thị Phương Lan, Bùi Nguyệt Minh, Nguyễn Trúc Quỳnh Như
Trường học	Trường Đại Học Ngân Hàng Thành Phố Hồ Chí Minh
Chuyên ngành	Machine Learning
Thể loại	thesis
Thành phố	Thành Phố Hồ Chí Minh

Định dạng
Số trang	15
Dung lượng	1,63 MB