1. Trang chủ
  2. » Công Nghệ Thông Tin

TÌM HIỂU CÔNG NGHỆ HỌC MÁY (MACHINE LEARNING)

55 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 55
Dung lượng 1,1 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Cấu trúc

  • CHƯƠNG I: GIỚI THIỆU VỀ HỌC MÁY - MACHINE LEARNING (14)
    • I. Giới thiệu về học máy (14)
    • II. Các loại thuật toán (16)
      • 1. Học có giám sát (16)
      • 2. Học không giám sát (19)
    • III. Thuật toán (23)
    • IV. Lưu ý quan trọng trong Machine learning (24)
    • V. Tôi nên sử dụng thuật toán học máy nào? (25)
      • 1. Feature engineering (26)
      • 2. Dữ liệu huấn luyện(Training data) (28)
      • 3. Dữ liệu kiểm thử và các độ đo (28)
      • 4. Hiệu suất (29)
  • CHƯƠNG II: CÁC QUY TRÌNH HỌC MÁY (31)
    • 1. Các qui trình cơ bản của Machine learning (32)
    • 2. Gradient thuật toán - tối ưu hóa thông tin số cho Học máy hệ thống (38)
    • 3. Received format (39)
    • 4. Nhận sự kiện dạng (40)
  • CHƯƠNG III: CÁC ỨNG DỤNG CỦA MACHINE LEARNING TRONG CUỘC SỐNG (42)
    • 1. Cảnh báo giao thông (trên ứng dụng Google Maps) (42)
    • 2. Ứng dụng của Machine Learning trong mạng xã hội Facebook (43)
    • 3. Trợ lý cá nhân ảo (Virtual Personal Assistants) – Ứng dụng của Machine Learning311 4. Truyền phát video trực tuyến trên Netflix (Online Video Streaming) (44)
    • 5. Machine learning - Công nghê khai thác tối đa giá trị Big DATAError! Bookmark (45)
    • 7. Machine learning và vai trò của con người (47)
    • 8. Machine learning hỗ trợ cho các thông báo xác định (48)
    • 9. Học máy và tiếp thị nội dung (49)
    • 10. Máy học áp dụng trong thực tế (50)
    • 11. Tóm tắt lại (51)
  • CHƯƠNG IV: KẾT LUẬN (54)

Nội dung

LỜI CẢM ƠN Người mà em muốn cảm ơn đầu tiên là thầy Vương Xuân Chí giảng viên hướng dẫn môn đồ án cơ sở khoa học dữ liệu đã nhiệt tình giúp đỡ em trong suốt khoảng thời gian học, giải đáp mọi thắc mắc cũng như các vấn đề khó trong quá trình học tập cũng như thực hành. Trong quá trình học tập thì thầy đã có các bài giảng hay, dễ tiếp thu giúp các sinh viên mới như em dễ dàng tiếp thu được các kiến thức mới. Và trong suốt quá trình thực hiện đồ án thì thầy luôn nhiệt tình giải đáp và đưa ra những lời khuyên bổ ích giúp e hoàn thiện tốt hơn cho đồ án của mình. Tiếp đến là em xin gửi lời cảm ơn của mình đến các anh chị khóa trên đã chia sẽ nhưng kinh nghiệm quí báo của mình cho e để cho e có thể làm tốt đồ án môn học này của mình. Các anh chị đã dành thời gian rãnh của mình để nhận xét và góp ý cho em. Đồng thời cũng cảm ơn những người bạn luôn bên cạnh em, dù nội dung đồ án có khác nhau những vẫn quan tâm, để ý đến bài làm của em. Vì thời gian ngắn còn phải chia đều thời gian cho các môn cộng với việc vẫn chưa có nhiều kinh nghiệm trọng việc layout nên không tránh được những thiếu sót và nhiều điểm còn chưa hợp lí. Em mong là mình sẽ nhận được sự thông cảm và góp ý từ các thầy cô để bổ sung và hoàn thiện, có thêm kinh nghiệm để cho các đồ án sau này được tốt hơN MỤC LỤC CHƯƠNG I: GIỚI THIỆU VỀ HỌC MÁY - MACHINE LEARNING ............................ 1 I.Giới thiệu về học máy. ...................................................................................................... 1 1.Định nghĩa.................................................................................................................. 1 2.Lý do cần tới học máy.................................................................................................... 2 II.Các loại thuật toán ........................................................................................................ 3 1. Học có giám sát...................................................................................................... 3 2. Học không giám sát ............................................................................................... 6 3.Học nửa giám sát ....................................................................................................... 7 4.Học tăng cường.......................................................................................................... 8 III.Thuật toán................................................................................................................ 100 Một số thuật toán Machine learning ........................................................................... 11 IV. Lưu ý quan trọng trong Machine learning ............................................................... 11 V. Tôi nên sử dụng thuật toán học máy nào?................................................................. 12 1. Feature engineering............................................................................................... 133 2. Dữ liệu huấn luyện(Training data)........................................................................ 155 3. Dữ liệu kiểm thử và các độ đo.............................................................................. 155 4. Hiệu suất ............................................................................................................... 166 CHƯƠNG II: CÁC QUY TRÌNH HỌC MÁY ................................................................. 18 1. Các qui trình cơ bản của Machine learning ............................................................ 19 2. Gradient thuật toán - tối ưu hóa thông tin số cho Học máy hệ thống................... 2553. Received format.................................................................................................... 266 4. Nhận sự kiện dạng .................................................................................................. 27 CHƯƠNG III: CÁC ỨNG DỤNG CỦA MACHINE LEARNING TRONG CUỘC SỐNG ........................................................................................................................................... 29 1. Cảnh báo giao thông (trên ứng dụng Google Maps) .............................................. 29 2. Ứng dụng của Machine Learning trong mạng xã hội Facebook .......................... 300 3. Trợ lý cá nhân ảo (Virtual Personal Assistants) – Ứng dụng của Machine Learning311 4. Truyền phát video trực tuyến trên Netflix (Online Video Streaming) ................. 311 5. Machine learning - Công nghê khai thác tối đa giá trị Big DATAError! Bookmark not defined.2 6. Machine learning gắn liền với quá trình phát triển Internet ................................. 333 7. Machine learning và vai trò của con người .......................................................... 344 8. Machine learning hỗ trợ cho các thông báo xác định........................................... 355 9. Học máy và tiếp thị nội dung................................................................................ 366 10. Máy học áp dụng trong thực tế ............................................................................. 37 11. Tóm tắt lại............................................................................................................. 38 CHƯƠNG IV: KẾT LUẬN............................................................................................... 41

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH

KHOA CÔNG NGHỆ THÔNG TIN

TÌM HIỂU CÔNG NGHỆ HỌC MÁY (MACHINE LEARNING)

Giảng viên hướng dẫn: VƯƠNG XUÂN CHÍ

Sinh viên thực hiện: PHẠM THỊ KIM NGÂN

TRẦN HOÀNG PHÚC

MSSV: 2000001163

2000000553

Chuyên ngành: KHOA HỌC DỮ LIỆU

Môn học: ĐỒ ÁN CƠ SỞ CHUYÊN NGÀNH

Khóa: 2020

Tp.HCM, tháng năm

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH

KHOA CÔNG NGHỆ THÔNG TIN

TÌM HIỂU CÔNG NGHỆ HỌC MÁY (MACHINE LEARNING)

Giảng viên hướng dẫn: VƯƠNG XUÂN CHÍ

Sinh viên thực hiện: PHẠM THỊ KIM NGÂN

TRẦN HOÀNG PHÚC

MSSV: 2000001163

2000000553

Chuyên ngành: KHOA HỌC DỮ LIỆU

Môn học: ĐỒ ÁN CƠ SỞ CHUYÊN NGÀNH

Khóa: 2020

Tp.HCM, tháng năm

Trang 3

Trường Đại học Nguyễn Tất Thành

Khoa Công Nghệ Thông Tin

(Sinh viên phải đóng tờ này vào báo cáo)

Họ và tên: Phạm Thị Kim Ngân MSSV: 2000001163

Chuyên ngành: Khoa học dữ liệu Lớp: 20DTH1D

Email: phamthikimngan18122002@gmail.com SĐT: 0333322154

Tên đề tài: Tìm hiểu công nghệ Học máy (Machine learning)

Gíao viên hướng dẫn: Vương Xuân Chí

Thời gian thực hiện: 20 /6 /2022 đến 20 /9 /2022

MÔ TẢ ĐỀ TÀI:

Là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc nghiên cứu và xây dựng các kĩ thuật cho

phép các hệ thống "học" tự động từ dữ liệu để giải quyết những vấn đề cụ thể

NỘI DUNG VÀ PHƯƠNG PHÁP:

- Giới thiệu học máy- Machine Learning

- Trình bày các quy trình học máy

- Các ứng dụng của Machine Learning trong cuộc sống

- Kết luận

YÊU CẦU:

- Có kiến thức, đam mê, hiểu biết về công nghệ mới như Mạng neural, Machine Learning, Deep

Learning… Đọc hiểu tài liệu tiếng Anh, kỹ năng trình bày văn bản trên máy tính tốt

- Có tác phong làm việc chăm chỉ, tinh thần trách nhiệm cao, có khả năng làm việc độc lập hoặc

Trang 4

Trường Đại học Nguyễn Tất Thành

Khoa Công Nghệ Thông Tin

Tên đề tài: Tìm hiểu công nghệ Học máy (Machine learning)

Gíao viên hướng dẫn: Vương Xuân Chí

Thời gian thực hiện: 20/6/2022 đến 20/9/2022

MÔ TẢ ĐỀ TÀI:

Là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc nghiên cứu và xây dựng các kĩ thuật cho phép các hệ thống "học" tự động từ dữ liệu để giải quyết những vấn đề cụ thể

NỘI DUNG VÀ PHƯƠNG PHÁP:

- Giới thiệu học máy- Machine Learning

- Trình bày các quy trình học máy

- Các ứng dụng của Machine Learning trong cuộc sống

Trang 5

LỜI CẢM ƠN

Người mà em muốn cảm ơn đầu tiên là thầy Vương Xuân Chí giảng viên hướng dẫn môn đồ

án cơ sở khoa học dữ liệu đã nhiệt tình giúp đỡ em trong suốt khoảng thời gian học, giải đáp mọi thắc mắc cũng như các vấn đề khó trong quá trình học tập cũng như thực hành Trong quá trình học tập thì thầy đã có các bài giảng hay, dễ tiếp thu giúp các sinh viên mới như em

dễ dàng tiếp thu được các kiến thức mới Và trong suốt quá trình thực hiện đồ án thì thầy luôn nhiệt tình giải đáp và đưa ra những lời khuyên bổ ích giúp e hoàn thiện tốt hơn cho đồ

án của mình

Tiếp đến là em xin gửi lời cảm ơn của mình đến các anh chị khóa trên đã chia sẽ nhưng kinh nghiệm quí báo của mình cho e để cho e có thể làm tốt đồ án môn học này của mình Các anh chị đã dành thời gian rãnh của mình để nhận xét và góp ý cho em Đồng thời cũng cảm ơn những người bạn luôn bên cạnh em, dù nội dung đồ án có khác nhau những vẫn quan tâm, để ý đến bài làm của em

Vì thời gian ngắn còn phải chia đều thời gian cho các môn cộng với việc vẫn chưa có nhiều kinh nghiệm trọng việc layout nên không tránh được những thiếu sót và nhiều điểm còn chưa hợp lí Em mong là mình sẽ nhận được sự thông cảm và góp ý từ các thầy cô để bổ sung và hoàn thiện, có thêm kinh nghiệm để cho các đồ án sau này được tốt hơn

Em xin chân thành cảm ơn! Sinh viên thực hiện

Phạm Thị Kim Ngân Trần Hoàng Phúc

Trang 6

LỜI MỞ ĐẦU

Về Machine Learning Học máy là tấm vé hạng nhất đến với những nghề nghiệp thú vị nhất trong phân tích dữ liệu ngày nay Khi các nguồn dữ liệu gia tăng cùng với sức mạnh tính toán để xử lý chúng, đi thẳng đến dữ liệu là một trong những cách đơn giản nhất để nhanh chóng có được thông tin chi tiết và đưa ra dự đoán Máy học tập hợp khoa học máy tính và thống kê để khai thác sức mạnh dự đoán đó Đó là kỹ năng cần phải có đối với tất cả các nhà phân tích dữ liệu và nhà khoa học dữ liệu đầy tham vọng hoặc bất kỳ ai khác muốn giành tất

cả dữ liệu thô đó thành các xu hướng và dự đoán đã được tinh chỉnh Học máy sẽ dạy cho bạn quy trình đầu cuối của việc điều tra dữ liệu thông qua lăng kính máy học Nó sẽ dạy bạn cách trích xuất và xác định các tính năng hữu ích thể hiện tốt nhất dữ liệu của bạn, một số thuật toán máy học quan trọng nhất và cách đánh giá hiệu suất của các thuật toán máy học của bạn

Trang 7

TRƯỜNG ĐH NGUYỄN TẤT THÀNH

TRUNG TÂM KHẢO THÍ

KỲ THI KẾT THÚC HỌC PHẦN HỌC KỲ III NĂM HỌC 2021 - 2022

PHIẾU CHẤM THI TIỂU LUẬN/ĐỒ ÁN

Môn thi: Đồ án cơ sở Khoa học dữ liệu Lớp học phần: 20DTH2A

Nhóm sinh viên thực hiện:

1.Sinh viên: Trần Hoàng Phúc Tham gia đóng góp: Chỉnh sửa soạn thảo 2.Sinh viên: Phạm Thị Kim Ngân Tham gia đóng góp: Tra cứu thông tin Ngày thi: 22/09/2022 Phòng thi: L.507

Đề tài tiểu luận/báo cáo của sinh viên: TÌM HIỂU CÔNG NGHỆ HỌC MÁY (MACHINE LEARNING)

Phần đánh giá của giảng viên (căn cứ trên thang rubrics của môn học):

Tiêu chí (theo CĐR HP) Đánh giá của GV Điểm tối đa Điểm đạt được

Cấu trúc của báo cáo

Trang 8

PHẦN NHẬN XÉT + CHẤM ĐIỂM CỦA GIẢNG VIÊN

Điểm giáo viên hướng dẫn

:

Điểm giảng viên chấm vòng 2

:

TPHCM, Ngày …… tháng …… năm 2022

Giáo viên chấm vòng 2 Giáo viên hướng dẫn

Trang 9

MỤC LỤC

CHƯƠNG I: GIỚI THIỆU VỀ HỌC MÁY - MACHINE LEARNING 1

I.Giới thiệu về học máy 1

1.Định nghĩa 1

2.Lý do cần tới học máy 2

II.Các loại thuật toán 3

1 Học có giám sát 3

2 Học không giám sát 6

3.Học nửa giám sát 7

4.Học tăng cường 8

III.Thuật toán 100

Một số thuật toán Machine learning 11

IV Lưu ý quan trọng trong Machine learning 11

V Tôi nên sử dụng thuật toán học máy nào? 12

1 Feature engineering 133

2 Dữ liệu huấn luyện(Training data) 155

3 Dữ liệu kiểm thử và các độ đo 155

4 Hiệu suất 166

CHƯƠNG II: CÁC QUY TRÌNH HỌC MÁY 18

1 Các qui trình cơ bản của Machine learning 19

2 Gradient thuật toán - tối ưu hóa thông tin số cho Học máy hệ thống 255

Trang 10

3 Received format 266

4 Nhận sự kiện dạng 27

CHƯƠNG III: CÁC ỨNG DỤNG CỦA MACHINE LEARNING TRONG CUỘC SỐNG 29

1 Cảnh báo giao thông (trên ứng dụng Google Maps) 29

2 Ứng dụng của Machine Learning trong mạng xã hội Facebook 300

3 Trợ lý cá nhân ảo (Virtual Personal Assistants) – Ứng dụng của Machine Learning311 4 Truyền phát video trực tuyến trên Netflix (Online Video Streaming) 311

5 Machine learning - Công nghê khai thác tối đa giá trị Big DATAError! Bookmark not defined.2 6 Machine learning gắn liền với quá trình phát triển Internet 333

7 Machine learning và vai trò của con người 344

8 Machine learning hỗ trợ cho các thông báo xác định 355

9 Học máy và tiếp thị nội dung 366

10 Máy học áp dụng trong thực tế 37

11 Tóm tắt lại 38

CHƯƠNG IV: KẾT LUẬN 411 Nguồn: https://ocw.mit.edu/courses/6-036-introduction-to-machine-learning-fall-2020/ https://www.geeksforgeeks.org/introduction-machine-learning/

DANH MỤC CÁC BẢNG BIỂU

Bảng 1 5

Trang 12

DANH MỤC CÁC BẢNG HÌNH

Hình 1 1

Hình 2 7

Hình 3 8

Hình 4 12

Hình 5 19

Hình 6 22

Hình 7 23

Hình 8 24

Hình 9 25

Hình 10 27

Hình 11 28

Hình 12 30

Trang 13

DANH MỤC CÁC TỪ VIẾT TẮT

Trang 14

CHƯƠNG I: GIỚI THIỆU VỀ HỌC MÁY - MACHINE LEARNING

I.Giới thiệu về học máy

1.Định nghĩa

Trong hai thập kỷ qua, Học máy đã trở thành một trong những trụ cột của công nghệ thông tin và cùng với đó, một công cụ khá trung tâm, mặc dù thường là ẩn, một phần cuộc sống của chúng ta Với số lượng ngày càng tăng của dữ liệu trở nên có sẵn lý do chính đáng để tin rằng phân tích dữ liệu thông minh sẽ trở thànhthậm chí còn phổ biến hơn như một thành phần cần thiết cho tiến bộ công nghệ Mục đích của chương này là cung cấp cho người đọc một cái nhìn tổng quan về phạm vi rộng lớn của các ứng dụng

có trung tâm là máy học vấn đề và để mang lại một số mức độ trật tự cho các vấn đề Sau đó, chúng ta sẽ thảo luận về một số công cụ cơ bản từ thống kê và lý thuyết xác suất, vì chúng tạo thành ngôn ngữ mà trong đó nhiều vấn đề học máy phải

được diễn đạt để trở nên dễ giải quyết Cuối cùng, chúng tôi sẽ phác thảo một tập hợp các thuật toán khá cơ bản nhưng hiệu quả để giải quyết một vấn đề quan trọng, cụ thể là phân loại Các công cụ phức tạp hơn, một cuộc thảo luận về tổng quát hơn các vấn đề

và phân tích chi tiết sẽ tiếp theo trong các phần sau của cuốn sách

Học máy (machine learning) là khả năng của chương trình máy tính sử dụng kinh nghiệm, quan sát, hoặc dữ liệu trong quá khứ để cải thiện công việc của mình trong tương lai thay vì chỉ thực hiện theo đúng các quy tắc đã được lập trình sẵn Chẳng hạn, máy tính có thể học cách dự đoán dựa trên các ví dụ, hay học cách tạo ra các hành vi phù hợp dựa trên quan sát trong quá khứ

Học máy có thể xuất hiện dưới nhiều hình thức Bây giờ chúng ta thảo luận về một số ứng dụng, các loại dữ liệu mà chúng xử lý và cuối cùng, chúng tôi chính thức hóa vấn

đề theo kiểu cách điệu hơn một chút Điều sau là chìa khóa nếu chúng ta muốn tránh phát minh lại bánh xe cho mọi ứng dụng mới Thay vào đó, phần lớn nghệ thuật của máy học là giảm thiểu một loạt các vấn đề khá khác nhau để một tập hợp các nguyên

Trang 15

2

mẫu khá hẹp Phần lớn khoa học của máy học là sau đó để giải quyết những vấn đề đó

và cung cấp các đảm bảo tốt cho các giải pháp

Ví dụ Xét một số ví dụ sau Ví dụ thứ nhất là học cách đánh cờ Chương trình có thể

quan sát các ván cờ cùng với kết quả (thắng hay thua) để cải thiện khả năng chơi cờ và tăng số ván thắng trong tương lai Trong trường hợp này, kinh nghiệm là các ván cờ trong quá khứ (có thể là ván cờ chương trình tự chơi với chính mình), được sử dụng để học cách làm tốt hơn công việc chơi cờ với tiêu chí đánh giá là số ván thắng

Ví dụ thứ hai là học nhận dạng các ký tự Chương trình được cung cấp dữ liệu dưới dạng ảnh chụp các ký tự (chữ cái) cùng mã UNICODE của ký tự đó Sau khi học, chương trình cần có khả năng nhận dạng các ảnh chụp ký tự mới, tức là xác định được

mã UNICODE của các ảnh mới chụp ký tự đã được học

Tương tự quá trình học thông thường, một hệ thống học máy cần có khả năng ghi nhớ, thích nghi, và đặc biệt là tổng quát hóa Tổng quát hóa là khả năng của hệ thống học máy ra quyết định chính xác trong các trường hợp mới, chưa gặp, dựa trên kinh nghiệm học được từ dữ liệu hoặc các quan sát trước đó

2.Lý do cần tới học máy

Học máy là một nhánh nghiên cứu rất quan trọng của trí tuệ nhân tạo với khá nhiều ứng dụng thành công trong thực tế Hiện nay, học máy là một trong những lĩnh vực phát triển mạnh nhất của trí tuệ nhân tạo Có một số lý do giải thích cho sự cần thiết và phát triển của học máy:

• Thứ nhất, rất khó xây dựng hệ thống thông minh có thể thực hiện các công việc liên quan đến trí tuệ như thị giác máy, xử lý ngôn ngữ tự nhiên mà không sử dụng tới kinh nghiệm và quá trình học Thông thường, khi viết chương trình, cần có thuật toán rõ ràng để chuyển đổi đầu vào thành đầu ra Tuy nhiên, trong nhiều bài toán, rất khó để xây dựng được thuật toán như vậy Như trong ví dụ về nhận dạng chữ ở trên, người

Trang 16

bình thường có khả năng nhận dạng các chữ rất tốt nhưng rất khó để giải thích vì sao

từ đầu vào là ảnh lại kết luận được đây là ký tự cụ thể nào Học máy cho phép tìm ra giải pháp cho những trường hợp như vậy dựa trên dữ liệu, chẳng hạn bằng cách tìm ra điểm chung và riêng giữa rất nhiều ảnh chụp các ký tự

• Thứ hai, nhiều ứng dụng đòi hỏi chương trình máy tính phải có khả năng thích nghi

Ví dụ, hành vi mua sắm của khách hàng có thể thay đổi theo thời điểm cụ thể trong ngày, trong năm, hoặc theo tuổi tác Việc xây dựng thuật toán cố định cho những ứng dụng cần thích nghi và thay đổi là không phù hợp Học máy mang lại khả năng thích nghi nhờ phân tích dữ liệu thu thập được

• Thứ ba, việc tìm được chuyên gia và thu thập được tri thức cần thiết cho việc thiết kế thuật toán để giải quyết các vấn đề tương đối khó, trong khi dữ liệu ngày càng nhiều

và có thể thu thập dễ dàng hơn Khả năng lưu trữ và tính toán của máy tính cũng ngày càng tăng, cho phép thực hiện thuật toán học máy trên dữ liệu có kích thước lớn

• Cuối cùng, bản thân khả năng học là một hoạt động trí tuệ quan trọng của con người,

do vậy học tự động hay học máy luôn thu hút được sự quan tâm khi xây dựng hệ thống thông minh

II.Các loại thuật toán

Các thuật toán học máy được phân loại theo kết quả mong muốn của thuật toán Các loại thuật toán thường dùng bao gồm:

1 Học có giám sát

Trong đó, thuật toán tạo ra một hàm ánh xạ dữ liệu vào tới kết quả mong muốn Một phát biểu chuẩn về một việc học có giám sát là bài toán phân loại: chương

trình cần học (cách xấp xỉ biểu hiện của) một hàm ánh xạ một vector [X1, X 2 ,

X 3 , X n ] tới một vài lớp bằng cách xem xét một số mẫu dữ liệu - kết quả của hàm

đó

Trang 17

4

Học có giám sát là một hướng tiếp cận của Máy học để làm cho máy tính có khả năng "học" Trong hướng tiếp cận này, người ta "huấn luyện" máy tính dựa trên những quan sát có dán nhãn Ta có thể hình dung những quan sát này như là những câu hỏi, và nhãn của chúng là những câu trả lời Ý tưởng của học có giám sát là: bằng việc ghi nhớ và tổng quát hóa một số quy tắc từ một tập câu hỏi có đáp án trước, máy tính sẽ có thể trả lời được những câu hỏi dù chưa từng gặp phải, nhưng có mối liên quan

Ví dụ ta dạy máy tính "1 + 1 = 2" và hy vọng nó sẽ học được phép tính cộng, x +

1 và trả lời được là "2 + 1 = 3" Học có giám sát mô phỏng việc con người học bằng cách đưa ra dự đoán của mình cho một câu hỏi, sau đó đối chiếu với đáp án Sau đó con người rút ra phương pháp để trả lời đúng không chỉ câu hỏi đó, mà cho những câu hỏi có dạng tương tự

Trong học có giám sát, các quan sát bắt buộc phải được dán nhãn trước Đây chính là một trong những nhược điểm của phương pháp này, bởi vì không phải lúc nào việc dán nhãn chính xác cho quan sát cũng dễ dàng Ví dụ như trong dịch thuật, từ một câu của ngôn ngữ gốc có thể dịch thành rất nhiều phiên bản khác nhau trong ngôn ngữ cần dịch sang Tuy nhiên, việc quan sát được dán nhãn cũng lại chính là ưu điểm của học có giám sát bởi vì một khi đã thu thập được một bộ

dữ liệu lớn được dán nhãn chuẩn xác, thì việc huấn luyện trở nên dễ dàng hơn rất nhiều so với khi dữ liệu không được dán nhãn

Ví dụ: Trong nhận dạng chữ viết tay, ta có ảnh của hàng nghìn ví dụ của mỗi chữ

số được viết bởi nhiều người khác nhau Chúng ta đưa các bức ảnh này vào trong một thuật toán và chỉ cho nó biết mỗi bức ảnh tương ứng với chữ số nào Sau khi thuật toán tạo ra một mô hình, tức một hàm số mà đầu vào là một bức ảnh và đầu

ra là một chữ số, khi nhận được một bức ảnh mới mà mô hình chưa nhìn thấy bao giờ, nó sẽ dự đoán bức ảnh đó chứa chữ số nào

Trang 18

Hình 1

Ví dụ này khá giống với cách học của con người khi còn nhỏ Ta đưa bảng chữ cái cho một đứa trẻ và chỉ cho chúng đây là chữ A, đây là chữ B Sau một vài lần được dạy thì trẻ có thể nhận biết được đâu là chữ A, đâu là chữ B trong một cuốn sách mà chúng chưa nhìn thấy bao giờ

1.1 Phân loại(Classification)

Khi đầu ra mong muốn của chúng ta là một tập hữu hạn và rời rạc Khi đó bài toán của

chúng ta được gọi là bài toán phân loại VD2 phía trên có thể xếp vào bài toán phân loại;

Các đầu ra mong muốn của chúng ta là: tích cực, tiêu cực và trung tính; Khi đó, tập dữ liệu huấn luyện có thể giống thế này:

Bảng 1

“Món này ngon phết, giá cả sinh viên nhưng

phải chờ khá lâu vì đông khách.” Tích cực

Trang 19

2 Học không giám sát

Mô hình hóa một tập dữ liệu, không có sẵn các ví dụ đã được gắn nhãn

Trong thuật toán này, chúng ta không biết được dữ liệu đầu ra hay nhãn mà chỉ

có dữ liệu đầu vào Thuật toán Học không giám sát dựa vào cấu trúc của dữ liệu

Trang 20

để thực hiện một công việc nào đó, ví dụ như phân nhóm hoặc giảm số chiều của

dữ liệu để thuận tiện trong việc lưu trữ và tính toán

Một cách toán học, Học không giám sát là khi chúng ta chỉ có dữ liệu vào X mà

không biết nhãn Y tương ứng

Những thuật toán loại này được gọi là Học không giám sát vì không giống như Học có giám sát, chúng ta không biết câu trả lời chính xác cho mỗi dữ liệu đầu vào Giống như khi ta học, không có thầy cô giáo nào chỉ cho ta biết đó là chữ A

hay chữ B Cụm không giám sát được đặt tên theo nghĩa này

Nằm ở đâu đó giữa học tập được giám sát và không giám sát, vì chúng sử dụng cả

dữ liệu được gắn nhãn và không dán nhãn để đào tạo - thường là một lượng nhỏ

dữ liệu có nhãn và một lượng lớn dữ liệu không được dán nhãn Các hệ thống sử dụng phương pháp này có thể cải thiện đáng kể độ chính xác của việc học Thông thường, việc học bán giám sát được chọn khi dữ liệu được dán nhãn được yêu cầu đòi hỏi tài nguyên có kỹ năng và có liên quan để đào tạo/học hỏi từ nó Nếu không, dữ liệu được gắn nhãn thường không yêu cầu tài nguyên bổ sung

Trang 21

Trong ngành khoa học máy tính, học tăng cường (tiếng Anh: reinforcement

learning) là một lĩnh vực con của học máy, nghiên cứu cách thức một agent trong

một môi trường nên chọn thực hiện các hành động nào để cực đại hóa một

khoản thưởng (reward) nào đó về lâu dài Các thuật toán học tăng cường cố gắng tìm một chiến lược ánh xạ các trạng thái của thế giới tới các hành động mà agent

nên chọn trong các trạng thái đó

Môi trường thường được biểu diễn dưới dạng một quá trình quyết định

Markov trạng thái hữu hạn (Markov decision process - MDP), và các thuật toán

học tăng cường cho ngữ cảnh này có liên quan nhiều đến các kỹ thuật quy hoạch động Các xác suất chuyển trạng thái và các xác suất thu lợi trong MDP thường là

Trang 22

ngẫu nhiên nhưng lại tĩnh trong quá trình của bài toán (stationary over the course

of the problem)

Khác với học có giám sát, trong học tăng cường không có các cặp dữ liệu vào/kết quả đúng, các hành động gần tối ưu cũng không được đánh giá đúng sai một cách

tường minh Hơn nữa, ở đây hoạt động trực tuyến (on-line performance) được

quan tâm, trong đó có việc tìm kiếm một sự cân bằng giữa khám phá (lãnh thổ chưa lập bản đồ) và khai thác (tri thức hiện có) Trong học tăng cường, sự được và mất giữa khám phá và khai thác đã được nghiên cứu chủ yếu qua bài toán multi-armed bandit

Một cách hình thức, mô hình học tăng cường bao gồm:

1 S: tập các trạng thái của môi trường;

2 A: tập các hành động; và

3 : tập các khoản "thưởng" với giá trị vô hướng

Tại mỗi thời điểm t, agent thấy được trạng thái của nó là s t ∈ S và tập các hành

động có thể A(s t ) Nó chọn một hành động a A(s t) và nhận được từ môi trường

trạng thái mới s t+1 và một khoản thưởng r t+1 Dựa trên các tương tác này, agent

học tăng cường phải phát triển một chiến lược π:S →A có tác dụng cực đại hóa lượng R=r0+r1+ +r n với các MDP có một trạng thái kết thúc, hoặc

lượng R=Σ tγt r t với các MDP không có trạng thái kết thúc (trong đó γ là một hệ số giảm khoản "thưởng trong tương lai" nào đó, với giá trị trong khoảng 0.0 và 1.0)

Do đó, học tăng cường đặc biệt thích hợp cho các bài toán có sự được mất giữa các khoản thưởng ngắn hạn và dài hạn Học tăng cường đã được áp dụng thành công cho nhiều bài toán, trong đó có điều khiển robot, điều vận thang máy, viễn thông, các trò chơi backgammon và cờ vua

Trang 23

10

1 Chuyển đổi—tương tự học có giám sát nhưng không xây dựng hàm một cách rõ

ràng Thay vì thế, cố gắng đoán kết quả mới dựa vào các dữ liệu huấn luyện, kết quả huấn luyện, và dữ liệu thử nghiệm có sẵn trong quá trình huấn luyện

2 Học cách học—trong đó thuật toán học thiên kiến quy nạp của chính mình, dựa

theo các kinh nghiệm đã gặp

Phân tích hiệu quả các thuật toán học máy là một nhánh của ngành thống kê, được biết với tên lý thuyết học điện toán

III.Thuật toán

Đi sâu hơn để hiểu rõ hơn cách machine learning làm việc Để thực hiện chuyển đổi

từ input thành output mong muốn, chúng ta có thể sử dụng các mô hình khác nhau Machine learning không phải là một loại thuật toán duy nhất; Có thể bạn đã nghe tới Support vector machine(SVM), Naive Bayes, Cây quyết định(Decision Trees) hay Học sâu(Deep learning) Các thuật toán này đều cố gắng giải quyết một bài toán: Học cách chuyển đổi

mọi input thành output chính xác của mà nó thuộc về

Những thuật toán machine learning này sử dụng các mô hình/ kỹ thuật khác nhau để thực hiện quá trình học tập và thể hiện kiến thức về những gì nó được học

Nhưng trước khi đi vào từng thuật toán, có một nguyên tắc chung: Các thuật toán machine

learning cố gắng khái quát hóa Nghĩa là, nó sẽ tìm và giải thích theo cách đơn giản nhất;

Nguyên tắc đó được biết đến là Occam’s razor

Mọi thuật toán machine learning đều cố gắng đưa ra những giả thiết đơn giản nhất mà có thể đúng với hầu hết các mẫu trong tập dữ liệu huấn luyện

Có rất nhiều thuật toán machine learning khác nhau Nhưng tôi sẽ trình bày ngắn gọn về 3 thuật toán phổ biến nhất:

Trang 24

Một số thuật toán Machine learning

Support Vector Machines: Một thuật toán cố gắng xây dựng một siêu mặt phẳng

trong không gian nhiều chiều để phân biệt các đối tượng ở các lớp khác nhau; Làm sao cho khoảng cách giữa 2 đối tượng khác label gần nhau nhất có khoảng cách cực đại Ý tưởng của thuật toán cực kỳ đơn giản, nhưng mô hình này lại rất phức tạp và có hiệu quả Thực tế, ở một số bài toán, SVM là một mô hình machine learning cho hiệu quả tốt nhất

Mô hình xác suất(Probabilistic Models): Các mô hình này cố gắng giải quyết bài

toán bằng phân bố xác suất Một thuật toán phổ biến nhất là phân loại Naive

Bayes; Nó sử dụng lý thuyết Bayes và giả thiết các đặc trưng là độc lập Điểm mạnh của mô hình xác suất là đơn giản nhưng hiệu quả Đầu ra của nó không chỉ

là label mà còn đi kèm xác suất thể hiện độ chính xác cho kết quả đó

Học sâu(Deep learning): Hiện đang là xu hướng trong machine learning dựa trên

các mô hình mạng nơ ron nhân tạo(Artificial Neural Networks) Mạng nơ ron có cách tiếp cận kết nối và sử dụng ý tưởng theo cách bộ não con người làm việc Chúng bao gồm số lượng lớn các nơ ron liên kết với nhau; được tổ chức thành các lớp(layers) Học sâu liên tục được phát triển với các cấu trúc mới sâu hơn; Nó không chỉ cố gắng học mà còn xây dựng các cấu trúc biểu diễn các đặc trưng quan trọng một cách tự động

IV Lưu ý quan trọng trong Machine learning

Nhắc lại, Machine learning nghe có vẻ rất thần thánh Nhưng machine learning không tự động làm tất cả mọi thứ cho bạn được Thực tế, có nhiều bước thủ công cần làm để thiết kế

ra một giải pháp Tuy nhiên, chúng lại có ảnh hưởng lớn tới kết quả của bài toán Một số điều cần lưu ý là:

Trang 25

12

V

Tôi nên sử dụng thuật toán học máy nào?

Hình 4

Lựa chọn thuật toán machine learning phù hợp

1.1 Học có giám sát hay học không giám sát?

Dữ liệu của bạn có nhãn(label) hay không? Tức là, mỗi mẫu dữ liệu huấn luyện có một đầu

ra tương ứng hay không? Nếu có, bạn hãy sử dụng học có giám sát để giải bài toán Nếu không, học không giám sát là thuật toán bạn nên dùng

1.2 Phân loại, hồi quy hay phân cụm?

Điều đó phụ thuộc chủ yếu vào câu hỏi: Bạn đang muốn giải quyết cái gì? Nếu bạn muốn gắn thẻ cho một bài báo; phân loại có thể là lựa chọn đúng đắn Nhưng nếu bạn cần kết quả

là một con số, chẳng hạn dự báo giá nhà đất, hồi quy là lựa chọn tốt nhất Nếu bạn có một trang web bán hàng và muốn gợi ý sản phẩm tương tự cho khách, lựa chọn hợp lý nhất trong trường hợp này là phân cụm

5.1 Deep learning, SVM, Naive Bayes, Decision Trees… thuật toán nào tốt nhất?

Câu trả lời là: Không có thuật toán nào là tốt nhất cho mọi bài toán Có thể bạn thấy Deep learning và SVM đã chứng minh chúng mạnh mẽ và hiệu quả trong nhiều ứng dụng khác

Trang 26

nhau Nhưng tùy vào từng bài toán cụ thể và phân tích dữ liệu, một vài thuật toán machine learning có thể làm tốt hơn các thuật toán còn lại Bạn cần biết điểm mạnh của mỗi thuật toán và thử chúng để tìm được thuật toán tối ưu nhất!

1 Feature engineering

Feature engineering là quá trình chúng ta thực hiện trích xuất và trích chọn các đặc

trưng(thuộc tính) quan trọng từ dữ liệu thô để sử dụng làm đại diện cho các mẫu dữ liệu huấn luyện Một tập dữ liệu huấn luyện có thể có rất nhiều thuộc tính, nhưng không phải cái nào cũng cần thiết và quan trọng Feature engineering là kỹ thuật giúp loại bỏ các thuộc tính dư thừa; làm đơn giản hóa quá trình biểu diễn dữ liệu nhưng không làm ảnh hưởng tới kết quả cuối cùng Nếu không có bước này, mô hình học sẽ cực kỳ phức tạp và thậm chí còn giảm độ chính xác khi có những thuộc tính nhiễu

Feature engineering là một bước quan trọng trong Machine learning(trừ khi dữ liệu của bạn

đã sạch sẽ hoặc là bài toán chưa đủ lớn)

Nên chú ý: Nếu bạn không thực hiện bước này, kết quả sẽ có thể rất tệ, cho dù bạn có dùng

một thuật toán tốt nhất đi nữa Nó giống như bạn cố gắng đọc trong bóng tối vậy; bạn không thể đọc được cho dù bạn thông minh tới đâu đi nữa

1.1 Trích xuất đặc trưng(Feature extraction)

Để nạp dữ liệu huấn luyện vào mô hình học máy, bạn cần phải đưa dữ liệu thô về cấu trúc nào đó mà thuật toán có thể “hiểu” Công việc này được gọi là trích xuất đặc trưng Thông dụng nhất, chúng ta sẽ chuyển dữ liệu thô về dữ liệu số là vector của các đặc trưng.Trong VD1, làm sao ta có thể truyền vào thuật toán machine learning một hình ảnh?

Trang 27

14

Một cách đơn giản là chuyển ảnh đó thành một vector; Mỗi phần tử trong vector đó tương ứng là giá trị màu xám của từng pixel trong ảnh Khi đó, mỗi đặc trưng/thành phần sẽ là một giá trị số từ 0 – 255; 0 là màu đen, 255 là trắng và 1 – 254 là các giá trị mức độ xám

Giải pháp trên có thể cho kết quả, nhưng kết quả sẽ cải thiện hơn nếu ta cung cấp nhiều đặc trưng có giá trị hơn:

• Hình ảnh đó có chứa ảnh khuông mặt người?

Nếu chúng ta cung cấp các đặc trưng tốt hơn:

• Thuật toán sẽ có khả năng cung cấp những kết quả chính xác hơn

• Có thể sẽ cần ít dữ liệu huấn luyện hơn

• Có thể giảm đáng kể thời gian huấn luyện mô hình

Ngày đăng: 27/10/2022, 17:34

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w