1. Trang chủ
  2. » Giáo án - Bài giảng

Slide Bài Giảng Chương 8 Giới Thiệu Học Máy

48 36 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Giới thiệu học máy
Tác giả Ngô Xuân Bách
Trường học Học viện Công nghệ Bưu chính Viễn thông
Chuyên ngành Công nghệ thông tin
Thể loại Bài giảng
Năm xuất bản 2025
Thành phố Hà Nội
Định dạng
Số trang 48
Dung lượng 807,51 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

PowerPoint Presentation Giới thiệu học máy Ngô Xuân Bách Học viện Công nghệ Bưu chính Viễn thông Khoa Công nghệ thông tin 1 Nhập môn trí tuệ nhân tạo Nội dung http //www ptit edu vn2  Giới thiệu  Họ[.]

Trang 1

Giới thiệu học máy

Ngô Xuân Bách

Học viện Công nghệ Bưu chính Viễn thông

Khoa Công nghệ thông tin 1

Nhập môn trí tuệ nhân tạo

Trang 3

Tài liệu tham khảo

http://ai.stanford.edu/people/nilsson/mlbook.html

2004

Machine Learning MIT Press, 2012

Trang 5

Một số ứng dụng của học máy (1/3)

do không tồn tại hoặc khó giải thích kinh nghiệm, kỹ

năng của con người

o Nhận dạng chữ viết, âm thanh, hình ảnh

o Lái xe tự động, thám hiểm sao Hoả

thay đổi theo thời gian hoặc theo tình huống cụ thể

o Chương trình trợ giúp cá nhân

o Định tuyến mạng

Trang 7

Một số ứng dụng của học máy (3/3)

dụng học máy

Trang 8

Học máy là gì?

 Học:

o …thu thập kiến thức hoặc kỹ năng…

o “ A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E ” Tom Mitchell (1997)

o Giải quyết vấn đề từ kinh nghiệm

o …được thực hiện bởi chương trình máy tính có khả năng:

▪ Thực hiện công việc 𝑇 tốt hơn

▪ Theo tiêu chí 𝑃

▪ Nhờ sử dụng dữ liệu mẫu hoặc kinh nghiệm 𝐸

Trang 9

o 𝑇 : dịch một câu tiếng Anh sang tiếng Việt

o 𝑃 : độ đo dịch máy (ví dụ số câu đúng, số mệnh đề đúng,…)

o 𝐸 : cặp câu tiếng Anh và tiếng Việt tương ứng

Trang 10

Vấn đề cần quan tâm (1/2)

o Kinh nghiệm trực tiếp và gián tiếp

▪ Trực tiếp: trạng thái cụ thể + nước đi đúng tương ứng

▪ Gián tiếp: toàn bộ ván cờ và kết quả

o Có giám sát (hướng dẫn) và không giám sát

Trang 12

Một số khái niệm

phân loại)

o Ví dụ: khi lọc thư rác thì mỗi thư là một mẫu

Trang 13

Một số dạng học máy phổ biến

o Phân lớp (classification)

o Hồi quy (regression)

o Học luật kết hợp (association)

o Phân cụm (clustering)

Trang 14

Phân lớp

chiều caocân nặng

Trang 15

Hồi quy (regression)

Tài sản

Ứng dụng: dự đoán giá cả, lái xe,…

Trang 16

o Người mua bánh mì thường mua bơ

o Người mua lạc rang thường mua bia

Trang 17

Phân cụm

o Phân cụm khách hàng, phân cụm sinh viên

o Phân đoạn ảnh

o Thiết kế vi mạch

Trang 18

Học tăng cường

vào / đầu ra

quả cho một chuỗi hành động nào đó

Trang 19

Nội dung

 Giới thiệu

Trang 20

Dữ liệu huấn luyện

D1 nắng nóng cao yếu không

D2 nắng nóng cao mạnh không

D4 mưa trung bình cao yếu có

D5 mưa lạnh bình thường yếu có

D6 mưa lạnh bình thường mạnh không

Trang 21

Ngày Trời Nhiệt độ Độ ẩm Gió Chơi tennis

D1 nắng nóng cao yếu không

D2 nắng nóng cao mạnh không

D4 mưa trung bình cao yếu có

D5 mưa lạnh bình thường yếu có

D6 mưa lạnh bình thường mạnh không

Trang 24

Cây quyết định là gì?

o Mỗi nút trung gian (không phải lá) ứng với một phép kiểm tra

thuộc tính, mỗi nhánh của nút ứng với một giá trị của thuộc tính tại nút đó

o Mỗi nút lá ứng với một nhãn phân loại

o Mẫu phân loại đi từ gốc cây xuống dưới

o Tại mỗi nút trung gian, thuộc tính tương ứng với nút được kiểm tra, tùy giá trị thuộc tính, mẫu được chuyển xuống nhánh tương ứng

o Khi tới nút lá, mẫu được nhận nhãn phân loại của nút

Trang 25

Biểu diễn dưới dạng quy tắc

Trang 26

hợp với dữ liệu huấn luyện

o Cho phép phân loại đúng dữ liệu huấn luyện

Trang 27

Thuật toán ID3

 Xây dựng lần lượt các nút của cây bắt đầu từ gốc

 Thuật toán

o Khởi đầu: nút hiện thời là nút gốc chứa toàn bộ tập dữ liệu huấn luyện

o Tại nút hiện thời 𝑛 , lựa chọn thuộc tính

▪ Chưa được sử dụng ở nút tổ tiên

▪ Cho phép phân chia tập dữ liệu hiện thời thành các tập con một cách tốt nhất

▪ Với mỗi giá trị thuộc tính được chọn thêm một nút con bên dưới

▪ Chia các ví dụ ở nút hiện thời về các nút con theo giá trị thuộc tính được chọn

o Lặp (đệ quy) cho tới khi

▪ Tất cả các thuộc tính đã được sử dụng ở các nút phía trên, hoặc

▪ Tất cả ví dụ tại nút hiện thời có cùng nhãn phân loại

▪ Nhãn của nút được lấy theo đa số nhãn của ví dụ tại nút hiện thời

Lựa chọn thuộc tính tại mỗi nút thế nào?

Trang 28

Tiêu chuẩn chọn thuộc tính của ID3

 Tại mỗi nút 𝑛

o Tập (con) dữ liệu ứng với nút đó

o Cần lựa chọn thuộc tính cho phép phân chia tập dữ liệutốt nhất

 Tiêu chuẩn:

o Dữ liệu sau khi phân chia càng đồng nhất càng tốt

o Đo bằng độ tăng thông tin (Information Gain - IG)

o Chọn thuộc tính có độ tăng thông tin lớn nhất

o IG dựa trên entropy của tập (con) dữ liệu

Trang 29

sai (-)

𝑬𝒏𝒕𝒓𝒐𝒑𝒚 𝑺 = −𝒑+𝒍𝒐𝒈𝟐𝒑+ −𝒑−𝒍𝒐𝒈𝟐𝒑−

𝑝+: % số mẫu đúng, 𝑝−: % số mẫu sai

Trang 30

Độ tăng thông tin IG

Với tập (con) mẫu 𝑆 và thuộc tính 𝐴

Trong đó:

values (A): tập các giá trị của 𝐴

( )

,

(

A values v

v

v

S

Entropy S

S S

Entropy A

S

IG

Trang 32

Các đặc điểm của ID3

dữ liệu huấn luyện

o Ít nút

o Các thuộc tính có độ tăng thông tin lớn nằm gần gốc

Trang 33

Training error và Test error (1/2)

o Là lỗi đo được trên tập dữ liệu huấn luyện

o Thường đo bằng sự sai khác giữa giá trị tính toán của mô hình và giá trị thực của dữ liệu huấn luyện

o Trong quá trình học ta cố gắng làm giảm tới mức tối thiểu lỗi huấn luyện

o Là lỗi đo được trên tập dữ liệu kiểm tra

o Là cái ta thực sự quan tâm

Làm sao ta có thể tác động tới hiệu quả của mô hình trên tập

dữ liệu kiểm tra khi ta chỉ quan sát được tập dữ liệu huấn luyện?

Trang 34

Training error và Test error (2/2)

o Giả thiết rằng các mẫu dữ liệu (cả ở tập huấn luyện và tập kiểm tra) là độc lập , và các tập dữ liệu huấn luyện và kiểm tra có cùng phân phối

o Nếu ta cố định các tham số của mô hình thì lỗi huấn luyện và lỗi kiểm tra sẽ bằng nhau

▪ Trong quá trình huấn luyện tham số được tối ưu theo lỗi huấn luyện,

do đó lỗi kiểm tra thường lớn hơn lỗi huấn luyện

o Khả năng giảm thiểu lỗi huấn luyện

o Khả năng giảm thiểu khoảng cách giữa lỗi huấn luyện và lỗi kiểm tra

Trang 35

Underfitting và Overfitting

Underfitting: dưới vừa; Overfitting: quá vừa

Trang 36

Chống quá vừa bằng cách tỉa cây

o Huấn luyện

o Kiểm tra

được cải thiện nhất

Trang 37

Chống quá vừa dữ liệu bằng cách tỉa luật (C4.5)

o Bỏ một số phần trong vế trái của luật

luật

Trang 38

Sử dụng thuộc tính có giá trị liên tục

𝐴𝑐 như sau

o 𝐴𝑐 = 𝑡𝑟𝑢𝑒 nếu A > 𝑐

o 𝐴𝑐 = 𝑓𝑎𝑙𝑠𝑒 nếu A ≤ 𝑐

o Thường chọn sao cho 𝐴𝑐 đem lại độ tăng thông tin lớn nhất

Trang 39

Các độ đo khác

giá trị, ví dụ, thuộc tính ngày sẽ có độ tăng thông tin caonhất

S

S S

S A

S mation

c

i

2 1

log)

(

) ,

(

A S

mation SplitInfor

A S

nGain Informatio

GainRatio =

Trang 41

Phương pháp phân loại Bayes (1/2)

được cho bởi cặp < 𝒙𝑖, 𝑦𝑖 >, trong đó

o 𝒙𝑖 là vector đặc trưng (thuộc tính)

o 𝑦𝑖 là nhãn phân loại,𝑦𝑖 ∈ 𝐶 (𝐶 là tập các nhãn)

𝑦 cho mẫu mới 𝒙 =< 𝑥1, 𝑥2, … , 𝑥𝑛 >

𝑦 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑐𝑗∈𝐶𝑃(𝑐𝑗|𝑥1, 𝑥2, … , 𝑥𝑛)

𝑦 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑐𝑗∈𝐶 𝑃 𝑥1, 𝑥2, … , 𝑥𝑛|𝑐𝑗 𝑃(𝑐𝑗)

𝑃(𝑥1, 𝑥2, … , 𝑥𝑛)

Trang 42

Phương pháp phân loại Bayes (2/2)

Sử dụng giả thiết về tính độc lập (Đơn giản!!!)

Trang 44

Nội dung

 Giới thiệu

 Học cây quyết định

 Phân loại Bayes đơn giản

Trang 45

Nguyên tắc chung

mẫu mới nhất

Trang 48

Thuật toán 𝑘-NN

Ngày đăng: 21/03/2023, 13:58

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN