Tại sao “Học”?• Máy học là những chương trình máy tính dùng để tối ưu hóa một tiêu chuẩn hiệu năng sử dụng dữ liệu cho trước và kinh nghiệm từ quá khứ.. • Học được sử dụng khi: – Các chu
Trang 1Giới thiệu về máy học
Giáo viên giảng dạy: Nguyễn Thị Thu Hà
Sinh viên thực hiện: Trần Văn Đại
Đ4 - CNTT
Mục đích
• Có thể đọc và hiểu tiếng anh
• Đưa ra vấn đề và giải quyết vấn đề
• Kĩ năng Code
• Khả năng trình bày
Trang 2Tại sao “Học”?
• Máy học là những chương trình máy tính dùng để tối ưu
hóa một tiêu chuẩn hiệu năng sử dụng dữ liệu cho trước và
kinh nghiệm từ quá khứ.
• Không cần học để tính toán bảng lương.
• Học được sử dụng khi:
– Các chuyên gia con người không xuất hiện (điều hướng trên sao
hỏa)
– Con người không thể giải thích một cách chuyên sâu (nhận dạng
giọng nói )
– Cách thức giải quyết thay đổi theo thời gian (định tuyến trên
một mạng máy tính )
– Giải quyết vấn đề cho từng trường hợp riêng ( sinh trắc học
người dùng)
Tại sao học?
• Ví dụ: nhận dạng khuôn mặt
Trang 3Tại sao học?
• Ví dụ: nhận dạng khuôn mặt
• Dữ liệu tập huấn: một tập những bức ảnh và
nhãn (tên)
• Tiêu chuẩn đánh giá: những nhãn đúng của
những bức ảnh
Tại sao học?
• Ví dụ: phân loại tài liệu, văn bản
– Một vài nhãn cho những tài liệu tập huấn (trang
web)
– Thành công tới cả những tài liệu chưa gán nhãn
Trang 4Tại sao học?
• Khai phá dữ liệu
– Bán lẻ: phân tích giỏ hàng thị trường, quản lý mối
quan hệ khách hàng (CRM)
– Tài chính: điểm tín dụng, phát hiện gian lận
– Y học: chẩn đoán y tế
– Truyền thông: tối ưu hóa chất lượng của dịch vụ
– Khai phá Web: bộ máy tìm kiếm
Tại sao học?
• Có một số ứng dụng về loại này
– Nhận dạng khuôn mặt, chữ viết tay
– Dự đoán vấn đề thị trường (vd: những phim, sản
phẩm nào sẽ được ưa thích)
– Tìm kiếm lỗi trong chương trình máy tính, an ninh
máy tính
– Và nhiều hơn nữa
Trang 5Chúng ta nói gì khi nói về sự học
• Học sinh ra những dạng mẫu từ một tập dữ liệu ví
dụ riêng rẽ
• Dữ liệu thì rẻ và phong phú (kho dữ liệu, trung
tâm dữ liệu), sự hiểu biết lại đắt và khan hiếm
• Ví dụ trong bán lẻ: Giao dịch khách hàng thường
có hành vi:
– Những người mua cuốn “Da Vinci Code” cũng mua
cuốn “The Five People You Meet in Heaven”
( www.amazon.com )
• Xây dựng một mô hình mà tốt và hữu ích xấp xỉ
về dữ liệu
Học tập là gì?
• Herbert Simon:“ Học tập là mọi quá trình
giúp cho hệ thống tăng cường hiệu năng từ
kinh nghiệm”
• Nhiệm vụ là gì?
– Phân loại văn bản.
– Giải quyết vấn đề / lập kế hoạch/ điều khiển
Trang 6Phân loại
• Đưa đối tượng/ sự việc vào một tập hữu hạn những
phân loại.
– Chẩn đoán y tế.
– Những ứng dụng về giao dịch hoặc thẻ tín dụng
– Phát hiện gian lận trong thương mại
– Lọc thư rác trong email.
– Giới thiệu những bài báo nhỏ trên một trang báo
– Giới thiệu những cuốn sách, những bộ phim hay bài nhạc.
– Đầu tư tài chính
– Chuỗi ADN
– Đọc từ
– Ký tự viết tay
Giải quyết vấn đề/ lập kế hoạch/ điều
khiển
• Thực hiện những hành động theo tác động bên
ngoài theo mệnh lệnh để đạt được mục tiêu
– Giải quyết vấn đề tính toán
– Chơi cờ ca rô, cờ cua hoặc cá ngựa
– Vị trí cân bằng
– Lái một chiếc xe con hoặc xe jeep
– Lái máy bay, trực thăng hặc tên lửa
– Điều khiển một thang máy
– Điều khiển một nhân vật trong một trò chơi
– Điều khiển một robot chuyển động
Trang 7Tại sao học Máy học?
Kĩ thuật tốt hơn những hệ thống máy tính
• Việc phát triển những hệ thống là quá phức tạp / đắt cho việc xây
dựng bằng tay bởi vì chúng đòi hỏi những kĩ năng đặc thù cao hoặc
sự hiểu biết chuyên biệt ( khó khăn trong sự hiểu biết về kĩ thuật )
• Phát triển những hệ thống có thể tj động điều chỉnh và tự tùy chỉnh
theo từng người dùng
– Lọc những tin tức hoặc thư điện tử cá nhân
– Hướng dẫn cá nhân
• Khám phá những hiểu biết mới từ những cơ sở dữ liệu lớn ( khai
phá dữ liệu).
– Phân tích giỏ hàng thị trường ( vd: tã lót và bia)
– Tìm hiểu dữ liệu y học (vd: chứng đau nửa đầu quan hệ tới sự tập
trung can xi , magie trong đầu)
Tại sao học Máy học?
Khoa học nhận dạng
• Việc học máy học có thể giúp chúng ta hiểu
cách học của con người và những cơ chế sinh
học khác
– Thuyết Hebbian về thần kinh học
• Các nơron luôn hoạt động, kết nối với nhau
– Mối liên hệ của con người rất khó để có thể học
một cách riêng rẽ các khái niệm và kết nối làm
Trang 8Tại sao học Máy học?
Đã đến lúc phải học
• Có nhiều thuật toán cơ bản có sẵn tốt và hiệu
quả
• Một lượng lớn dữ liệu trực tuyến là có sẵn
• Một lượng lớn tài nguyên máy tính là có sẵn
Các ngành ứng dụng
• Trí tuệ nhân tạo
• Khai phá dữ liệu
• Xác suất và thống kê
• Nguyên lý thông tin
• Tối ưu hóa số học
• Nguyên lý máy tính phức tạp
• Nguyên lý điều khiển ( thích hợp)
• Tâm lý học (phát triển tư duy, nhận dạng)
• Thần kinh học
• Ngôn ngữ học
• Triết học
Trang 9Định nghĩa tập học
• Học dựa vào bài tập, T, với tiêu chuẩn hiệu năng, P, dựa trên kinh nghiệm,
E.
T: Chơi cờ caro
P: Tỉ lệ thắng với bất kỳ đối thủ nào
E: Tự chơi lại các trò chơi
T: Nhận dạng những từ viết tay
P: Tỉ lệ phân loại đúng các từ
E: Cơ sở dữ liệu của nhãn trong những hình ảnh là những từ viết tay.
T: Lái xe trên đường cao tốc 4 làn đường sử dụng cảm biến thị giác.
P: Sai số trung bình về khoảng cách với người phía trước
E: Một chuỗi các hình ảnh và những câu lệnh điều hướng được ghi
lại trong khi quan sát một người lái xe.
Thiết kế một hệ thống có thể học
• Chọn lựa tìm kiếm những kinh nghiệm tập
huấn
• Lựa chọn một cách chính xác những gì có thể
học được như một mục tiêu chức năng
• Chọn cách biểu thị mục tiêu chức năng đó
• Chọn một thuật toán học để mô phỏng mục
tiêu chức năng từ những kinh nghiệm
Trang 10Vấn đề học đơn giản
• Học chơi cờ caro bằng cách tự chơi
• Chúng ta sẽ phát triển theo hướng tiếp cận
tương tự những thứ được phát triển trong hệ
thống máy học đầu tiên được phát triển bởi
Arthur Samuels tại IBM vào năm 1959
Kinh nghiệm tập huấn
• Kinh nghiệm trực tiếp: đưa vào một tập các cặp dữ liệu
vào và ra hữu ích cho hàm mục tiêu.
– Bảng nhãn với những nước đi đúng của người chơi chẳng
hạn như trích rút và ghi lại từ các chuyên gia chơi cờ.
• Kinh nghiệm gián tiếp: đưa ra những thông tin phản
hồi một cách gián tiếp thông qua cặp dữ liệu vào/ra
hữu ích cho hàm mục tiêu.
– Tập hợp tất cả các khả năng khi chơi dẫn ra kết quả cuối
cùng.
• Vấn đề tin cậy của bài tập: làm sao để phân chia độ tin
cậy cho từng nước đi thông qua phản hồi gián tiếp.
Trang 11Tài liệu cho tập huấn dữ liệu
• Tự đưa ra các khả năng mà người chơi có thể chơi.
– Chơi theo những khả năng có sẵn hoặc có độ tin cậy cao.
• Những khả năng tập luyện tốt được lựa chọn bởi một
“giáo viên tốt”.
– Chẳng hạn như “gần trượt”
• Người học có thể hỏi một chuyên viên về tập hợp
những ví dụ chưa được gán nhãn trong môi trường.
• Người học có thể tạo một ví dụ bất kỳ và hỏi một
chuyên viên về cái nhãn của nó.
• Người học có thể thiết kế và chạy trực tiếp những thử
nghiệm trong môi trường mà không có bất kỳ sụ
hướng dẫn của con người.
Trang 13Vấn đề học đơn giản
• Học chơi cờ caro bằng cách tự chơi
• Chúng ta sẽ phát triển theo hướng tiếp cận
tương tự những thứ được phát triển trong hệ
thống máy học đầu tiên được phát triển bởi
Arthur Samuels tại IBM vào năm 1959