1. Trang chủ
  2. » Công Nghệ Thông Tin

Giáo trình giảng dạy Máy học

41 653 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 41
Dung lượng 1,83 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Khái niệm Học máy  Học máy là một phương pháp để tạo ra các chương trình máy tính bằng việc phân tích các tập dữ liệu..  Học máy có liên quan lớn đến thống kê, vì cả hai lĩnh vực đều n

Trang 1

HỌC MÁY

TRƯỜNG ĐẠI HỌC ĐIỆN LỰC

Thạc sĩ: Phạm Đức Hồng

Trang 2

 Biểu diễn dữ liệu

 Các thuật toán máy học

Trang 3

Khái niệm Học máy

 Học máy là một phương pháp để tạo ra các

chương trình máy tính bằng việc phân tích các tập

dữ liệu

 Học máy có liên quan lớn đến thống kê, vì cả hai

lĩnh vực đều nghiên cứu việc phân tích dữ liệu,

nhưng khác với thống kê, học máy tập trung vào

sự phức tạp của các giải thuật trong việc thực thi tính toán

Trang 4

 Phân tích thị trường chứng khoán.

 Phân loại các chuỗi DNA, nhận dạng tiếng nói và chữ

viết, dịch tự động, chơi trò chơi và cử động rô-bốt (robot locomotion).

Trang 5

Các loại thuật toán Học máy

 Học có giám sát trong đó, thuật toán tạo ra một

hàm ánh xạ dữ liệu vào tới kết quả mong muốn Một phát biểu chuẩn về một việc học có giám sát

là bài toán phân loại: chương trình cần học (cách xấp xỉ biểu hiện của) một hàm ánh xạ một vector tới một vài lớp bằng cách xem xét một số mẫu

dữ_liệu - kết_quả của hàm đó

 Học không giám sát mô hình hóa một tập dữ

liệu, không có sẵn các ví dụ đã được gắn nhãn

Trang 6

Các loại thuật toán Học máy (tiếp)

 Học nửa giám sát : kết hợp các ví dụ có gắn

nhãn và không gắn nhãn để sinh một hàm

hoặc một bộ phân loại thích hợp

 Học tăng cường : trong đó, thuật toán học

một chính sách hành động tùy theo các quan sát về thế giới Mỗi hành động đều có tác

động tới môi trường, và môi trường cung cấp thông tin phản hồi để hướng dẫn cho thuật toán của quá trình học

Trang 7

Các loại thuật toán Học máy (tiếp)

 Chuyển đổi tương tự học có giám sát nhưng

không xây dựng hàm một cách rõ ràng Thay vì thế, cố gắng đoán kết quả mới dựa vào các dữ liệu huấn luyện, kết quả huấn luyện, và dữ liệu thử nghiệm có sẵn trong quá trình huấn luyện

 Học cách học trong đó thuật toán học thiên

kiến quy nạp của chính mình, dựa theo các kinh nghiệm đã gặp

Trang 8

Biểu diễn một bài toán học máy

Trang 9

Các ví dụ học máy

Trang 10

Các ví dụ học máy (tiếp)

Trang 11

Các ví dụ học máy (tiếp)

Trang 12

Các ví dụ học máy (tiếp)

Trang 13

Quy trình học máy

Trang 14

Quy trình giải bài toán học giám sát

Trang 15

Các thuật toán học

 Các thuật toán học bao gồm:

 Bayes (Mitchell, 1996).

 Cây quyết định (Fuhr et al, 1991).

 Véc-tơ trọng tâm (Centroid- based vector) (Han

và Karypis, 2000).

 k-láng giềng gần nhất (Yang, 1994)

 Mạng nơron (Wiener et al, 1995).

 Support vector machines (Joachims, 1998).

Trang 16

Biểu diễn dữ liệu

Trang 17

Biểu diễn dữ liệu (tiếp)

 Đối với dữ liệu phi cấu trúc thì phải biểu diễn

bằng dữ liệu có cấu trúc.

 Biểu diễn dữ liệu bằng Mô hình thông tin không

gian-Vector

Trang 18

Ví dụ: Biểu diễn ảnh bằng Véc-tơ

Trang 19

Ví dụ: Biểu diễn văn bản bằng véc - tơ

Cho văn bản D = “Khi tất cả đều nghĩ hai

đội mạnh nhất Đông Nam Á sắp sửa vào hai hiệp phụ thì bất ngờ cái đầu vàng của

Lê Công Vinh đội lên tích tắc mang về

chiếc cúp AFF cho đội tuyển Việt Nam ”

 Giả sử bộ từ điển bao gồm: “Thể_thao,

Bóng_đá, Đội_tuyển, Đông_Nam_Á,

Cúp_AFF, Việt_Nam”

Thì văn bản D được biểu diễn bằng

phương pháp tần suất là: D = (0,0,1,1,1,1)

Trang 20

Biểu diễn dữ liệu (tiếp)

Hình: Biểu diễn các véc-tơ văn bản trong không

gian chỉ có 2 thuật ngữ

Trang 21

 Các giá trị wij được tính dựa trên tần số (hay

số lần) xuất hiện của thuật ngữ trong văn bản Gọi fij là số lần xuất hiện của thuật ngữ ti trong văn bản dj, khi đó wij được tính bởi một trong

Trang 22

Các thuật toán máy học

 Lựa chọn, mô hình học hiệu quả phát triển

- Bayes (Mitchell, 1996).

- Cây quyết định (Fuhr et al, 1991).

- Véc-tơ trọng tâm (Centroid- based vector) (Han

và Karypis, 2000).

- k-láng giềng gần nhất (Yang, 1994)

- Mạng nơron (Wiener et al, 1995).

- Support vector machines (Joachims, 1998).

Trang 23

Phân loại Bayes

Trang 24

Phân loại Bayes (tiếp)

 Định lý Bayes cho phép tính xác suất xảy ra

của một sự kiện ngẫu nhiên A khi biết sự

kiện liên quan B đã xảy ra Xác suất này

được ký hiệu là P(A|B), và đọc là "xác suất của A nếu có B"

Trang 25

Bayes (tiếp)

Theo định lí Bayes, xác suất xảy ra A khi biết

B sẽ phụ thuộc vào 3 yếu tố:

Xác suất xảy ra A của riêng nó, không quan tâm

đến B Kí hiệu là P(A) và đọc là xác suất của A

Xác suất xảy ra B của riêng nó, không quan tâm

đến A Kí hiệu là P(B) và đọc là "xác suất của B".

Xác suất xảy ra B khi biết A xảy ra Kí hiệu là P(B|

A) và đọc là "xác suất của B nếu có A"

Khi biết ba đại lượng này, xác suất của A khi

biết B cho bởi công thức:

Trang 26

Ví dụ: Giả sử chúng ta dự đoán một người

sau có chơi tennis hay không? dựa vào tập

dữ liệu sau đây:

Trang 27

Ví dụ: (tiếp)

 Sự kiện A: Anh ta chơi tennis

 Sự kiện B: Ngoài trời là nắng và Gió là mạnh

 Xác suất P(A): Xác suất rằng anh ta chơi tennis

(bất kể Ngoài trời như thế nào và Gió ra sao)

 Xác suất P(B ): Xác suất rằng Ngoài trời là nắng và

Gió là mạnh

 P(B|A): Xác suất rằng Ngoài trời là nắng và Gió là

mạnh, nếu biết rằng anh ta chơi tennis

 P(A|B): Xác suất rằng anh ta chơi tennis, nếu biết

rằng Ngoài trời là nắng và Gió là mạnh

Trang 28

 P(A|B) => Giá trị xác suất có điều kiện này sẽ

được dùng để dự đoán xem anh ta có chơi

tennis hay không?

 P(A)=8/12, P(B|A)=1/2

Trong trường hợp: A là Anh ta không chơi tennis

 P(A)=4/12, P(B|A)=1/2

Trang 29

Phân loại Naive Bayes

- Biểu diễn bài toán phân loại (classification problem)

+) Một tập học D_train, trong đó mỗi ví dụ học x được gán nhãn và biểu diễn là một vectơ n chiều: (x1, x2,

… , xn)

+) Một tập xác định các nhãn lớp: C={c1 , c2 , …, cm } +) Với một ví dụ (mới) z, z sẽ được phân vào lớp

Trang 30

Thuật toán Phân loại Bayes

Trang 31

Thuật toán Phân loại Bayes (tiếp)

Giải thích P(d)=const vì

Dữ liệu quan sát D là tập con của tập giả thuyết

cho nên chúng ta có thể phân rã P(D) như sau:

Trang 32

Ví dụ: Bảng dữ liệu huấn luyện

Trang 33

Credit_rating = Fair)

Trang 34

P(buys_computer = “no”) = 5/14= 0.357

P(age = “<=30” | buys_computer = “yes”) = 2/9 = 0.222

P(age = “<= 30” | buys_computer = “no”) = 3/5 = 0.6

P(income = “medium” | buys_computer = “yes”) = 4/9 = 0.444

P(income = “medium” | buys_computer = “no”) = 2/5 = 0.4

P(student = “yes” | buys_computer = “yes) = 6/9 = 0.667

P(student = “yes” | buys_computer = “no”) = 1/5 = 0.2

P(credit_rating = “fair” | buys_computer = “yes”) = 6/9 = 0.667

P(credit_rating = “fair” | buys_computer = “no”) = 2/5 = 0.4

Trang 36

36

Ngày đăng: 03/07/2015, 14:45

TỪ KHÓA LIÊN QUAN

w