1. Trang chủ
  2. » Tất cả

máy học,nguyễn nhật quang,dhbkhn

16 3 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Học Máy (IT 4862)
Tác giả Nguyễn Nhật Quang
Trường học Trường Đại học Bách Khoa Hà Nội
Chuyên ngành Máy Học
Thể loại Báo cáo môn học
Năm xuất bản 2011-2012
Thành phố Hà Nội
Định dạng
Số trang 16
Dung lượng 468,85 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

máy học,nguyễn nhật quang,dhbkhn Học Máy (IT 4862) ễ hậNguyễn Nhật Quang quangnn fit@mail hut edu vn Trường Đại học Bách Khoa Hà Nội Viện Công nghệ thông tin và truyền thông Năm học 2011 2012 CuuDuong[.]

Trang 1

Học Máy

(IT 4862)

Nguyễn Nhật Quang

quangnn-fit@mail.hut.edu.vn

Trường Đại học Bách Khoa Hà Nội Viện Công nghệ thông tin và truyền thông

Năm học 2011-2012

Trang 2

Nội d ô h

Nội dung môn học:

„ Giới thiệu chungg

„ Đánh giá hiệu năng hệ thống học máy

„ Các phương pháp học dựa trên xác suất

„ Các phương pháp học dựa trên xác suất

„ Các phương pháp học có giám sát

„ Các phương pháp học không giám sát

„ Phân cụm dựa trên tích tụ phân cấp: HAC (Hierarchical agglomerative clustering)

„ Lọc cộng tác

„ Học tăng cường

„ Học tăng cường

Trang 3

HAC (1)

„ Sinh ra một chuỗi lồng nhau của các cụm, được gọi là

dendrogram g

(hierarchy)/cây (tree) của các ví dụ

[Liu, 2006]

Trang 4

HAC (2)

„ Phân cụm dựa trên tích tụ phân cấp (Hierarchical

Agglomerative Clustering – HAC) sẽ xây dựng dendrogram

từ mức đáy (cuối) dần lên (bottom-up)

„ Giải thuật HAC

„ Giải thuật HAC

• Hợp nhất 2 cụm có mức độ tương tự (gần) nhau nhất ợp ụ ộ g ự (g )

cụm duy nhất (là nút gốc trong dendrogram)

Trang 5

HAC – Ví dụ ụ

(Venn diagram)

[Liu, 2006]

Trang 6

Khoảng cách giữa 2 cụm g g ụ

„ Giải thuật HAC cần định nghĩa việc tính toán khoảng cách giữa 2 cụm

thể

„ Có nhiều phương pháp để đánh giá khoảng cách giữa 2 cụm – đưa đến các biến thể khác nhau của giải thuật HAC

• Liên kết đơn (Single link)

• Liên kết trung bình (Average link)

• Liên kết trung bình (Average link)

• Liên kết trung tâm (Centroid link)

• …

Trang 7

HAC – Liên kết đơn

HAC liên kết đơn (Single link):

+

C

ƒ Khoảng cách giữa 2 cụm là

khoảng cách nhỏ nhất giữa

các ví dụ (các thành viên) của

+

+

C1

C

các ví dụ (các thành viên) của

2 cụm đó

ƒ Có xu hướng sinh ra các cụm

C2

Có xu hướng sinh ra các cụm

có dạng “chuỗi dài” (long

chain)

[Liu, 2006]

Trang 8

HAC – Liên kết hoàn toàn

HAC liên kết hoàn toàn

(Complete link): C1 +

(Complete link):

ƒ Khoảng cách giữa 2 cụm là

khoảng cách lớn nhất giữa

+

+

C1

C

các ví dụ (các thành viên) của

2 cụm đó

C2

ƒ Nhạy cảm (gặp lỗi phân cụm)

đối với các ngoại lai (outliers)

Có h ớ i h á

ƒ Có xu hướng sinh ra các cụm

có dạng “bụi cây” (clumps)

[Liu, 2006]

Trang 9

HAC – Liên kết trung bình g

„ Khoảng cách trong liên kết trung bình (Average-link) là sự thỏa hiệp giữa các khoảng cách trong liên kết hoàn toàn (Complete-link) và liên kết đơn (Single-link)

cụm dựa trên liên kết hoàn toàn đối với các ngoại lai (outliers)

phương pháp phân cụm dựa trên liên kết đơn (dạng “chuỗi dài” không phù hợp với khái niệm tự nhiên của một cụm)

„ Khoảng cách giữa 2 cụm là khoảng cách trung bình củag g ụ g g tất cả các cặp ví dụ (mỗi ví dụ thuộc về một cụm)

Trang 10

HAC – Liên kết trung tâm g

HAC liên kết trung tâm (Centroid link):

„ Khoảng cách giữa 2 cụm là khoảng cách giữa 2 điểm trung tâm (centroids) của 2 cụm đó

+

+

C1

C2

Trang 11

Giải thuật HAC – Độ phức tạp ậ ộ p ạp

„ Tất cả các biến thể của giải thuật HAC đều có độ phức tạp tối thiểu mức O(r2)

tạp tối thiểu mức O(r )

r: Tổng số các ví dụ (kích thước của tập dữ liệu)

„ Phương pháp phân cụm HAC liên kết đơn (Single-link) có

„ Phương pháp phân cụm HAC liên kết đơn (Single-link) có

độ phức tạp mức O(r2)

„ Các phương pháp phân cụm HAC liên kết hoàn toàn

„ Các phương pháp phân cụm HAC liên kết hoàn toàn

(Complete-link) và liên kết trung bình (Average-link) có độ phức tạp mức O(r2logr)

„ Do độ phức tạp cao, giải thuật HAC khó có thể áp dụng được đối với các tập dữ liệu có kích thước (rất) lớn

Trang 12

Các hàm khoảng cách g

„ Một thành phần quan trọng của các phương pháp phân cụm

functions), hoặc các hàm tính độ tương tự (similarity functions)

„ Các hàm tính khoảng cách khác nhau đối với

Trang 13

Hàm khoảng cách cho thuộc tính số

„ Họ các hàm khoảng cách hình học (khoảng cách

Minkowski)

„ Các hàm được dùng phổ biến nhất

„ Ký hiệu d(x x ) là khoảng cách giữa 2 ví dụ (2 vectơ) x

„ Ký hiệu d(x i, xj) là khoảng cách giữa 2 ví dụ (2 vectơ) xi

và xj

„ Khoảng cách Minkowski (với p là một số nguyên dương)

„ Khoảng cách Minkowski (với p là một số nguyên dương)

p

p jn in

p j i

p j

x

d ( xi, xj) = [( 1 − 1) + ( 2 − 2) + + ( − ) ]1/

Trang 14

Hàm k/c cho thuộc tính nhị phân

„ Sử dụng một ma trận để biểu diễn hàm tính

khoảng cách g

a: Tổng số thuộc tính có giá trị là 1 trong cả x i và x j

b: Tổng số các thuộc tính có giá trị là 1 trong x i

ví dụ x j

c: Tổng số các thuộc tính có giá trị là 0 trong x i

có giá trị là 1 trong x j

d: Tổng số các thuộc tính có giá trị là 0 trong cả x i

a b

c d

1 0

x i

và x j

„ Hệ số phù hợp đơn giản (Simple matching

coefficient) Tỷ lệ sai lệch giá trị của các

coe c e t) ỷ ệ sa ệc g á ị của các

thuộc tính giữa 2 ví dụ:

c

b

= ) ,

( xi xj

d c

b

a + + +

) ,

Trang 15

Hàm k/c cho thuộc tính định danh

„ Hàm khoảng cách cũng dựa trên phương pháp đánh giá

tỷ lệ khác biệt giá trị thuộc tính giữa 2 ví dụ

„ Với 2 ví dụ xi và xj , ký hiệu p là tổng số các thuộc tính

(trong tập dữ liệu) và q là số các thuộc tính mà giá trị là

(trong tập dữ liệu), và q là số các thuộc tính mà giá trị là

như nhau trong xi và xj

p

q

p

) ,

Trang 16

Tài liệu tham khảo

Contents, and Usage Data Springer, 2006 g p g

Ngày đăng: 25/11/2022, 22:46

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w