1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng Lập trình cho khoa học dữ liệu - Bài 11: Một số mô hình học máy

59 16 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Một Số Mô Hình Học Máy
Trường học Trường Đại Học
Chuyên ngành Lập Trình Cho Khoa Học Dữ Liệu
Thể loại bài giảng
Định dạng
Số trang 59
Dung lượng 3,34 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Bài giảng Lập trình cho khoa học dữ liệu - Bài 11: Một số mô hình học máy cung cấp cho người học những kiến thức như: Phân cụm dữ liệu; Phân cụm mờ; Hồi quy tuyến tính; Phân lớp SVM. Mời các bạn cùng tham khảo!

Trang 1

LẬPTRÌNH CHO KHOA HỌC DỮ LIỆU

Bài 11 Một số mô hình học máy

Trang 4

Tổng quan

❖PCDL là một lĩnh vực liên ngành đang được phát

triển mạnh mẽ Ở một mức cơ bản nhất, đưa ra

định nghĩa PCDL như sau [10][11]:

MINING, nhằm tìm kiếm, phát hiện các cụm, các

mẫu dữ liệu tự nhiên tiềm ẩn, quan tâm trong tập dữ

liệu lớn, từ đó cung cấp thông tin, tri thức hữu ích

cho ra quyết định"

Trang 5

Tổng quan

❖Như vậy, PCDL là quá trình phân chia một tập DL

ban đầu thành các cụm DL sao cho:

▪ Các phần tử trong một cụm "tương tự" (Similar)

nhau

▪ Các phần tử trong các cụm khác nhau sẽ "phi

tương tự" (Dissimilar) nhau

▪ Số các cụm được xác định trước theo kinh

nghiệm hoặc tự động

Trang 6

Tổng quan

❖Trong học máy, PCDL được xem là vấn đề học không

có giám sát

▪ Nó phải đi giải quyết vấn đề tìm một cấu trúc

trong tập hợp các DL chưa biết trước các thông tin

Trang 7

Tổng quan

❖Vấn đề thường gặp trong PCDL là hầu hết các DL cần phân cụm đều có DL "nhiễu" (noise) do quá trình thu thập thiếu chính xác, không đầy đủ

❖Cần phải xây dựng chiến lược cho bước tiền xử lý DL

để loại bỏ "nhiễu" trước khi bước vào giai đoạn phân tích PCDL

❖Kỹ thuật xử lý nhiễu phổ biến là thay thế giá trị các thuộc tính của đối tượng "nhiễu" bằng giá trị thuộc

tính tương ứng của đối tượng DL gần nhất

Các hướng tiếp cận trong phân cụm

Trang 8

mại và trong làm sạch dữ liệu,…

Các hướng tiếp cận trong phân cụm

Trang 9

▪ Xây dựng các tiêu chuẩn phân cụm.

▪ Xây dụng mô hình cho cấu trúc cụm dữ liệu

▪ Xây dựng thuật toán phân cụm và xác lập các

điều kiện khởi tạo

▪ Xây dựng các thủ tục biểu diễn và đánh giá kết

quả phân cụm

Trang 10

Tổng quan

❖Đến nay chưa có một phương pháp phân cụm tổng

quát nào có thể giải quyết trọn vẹn cho tất cả các dạng cấu trúc cụm DL

❖Các phương pháp PC cần có cách thức biểu diễn cấu trúc của các cụm DL, với mỗi cách thức biểu diễn sẽ tương ứng một thuật toán PC phù hợp

❖PCDL đang là vấn đề mở và khó, cần giải quyết

những vấn đề phù hợp với nhiều dạng DL khác nhau, đặc biệt là DL hỗn hợp, đây cũng là một thách thức

lớn trong lĩnh vực Data Mining

Trang 11

Tổng quan

Trang 12

Tổng quan

Trang 13

Tổng quan

Trang 14

Tổng quan

Trang 15

Tổng quan

Trang 16

Tổng quan

Trang 17

Tổng quan

Trang 18

Tổng quan

Trang 19

Tổng quan

Trang 20

Tổng quan

Trang 21

Tổng quan

Trang 22

Tổng quan

Trang 23

Tổng quan

Trang 24

✓ Biology: Phân nhóm động vật và thực vật dựa vào các

thuộc tính của chúng;

Một số ứng dung

Trang 25

✓ Insurance, Finance: Phân nhóm các đối tượng sử dụng

bảo hiểm và các dịch vụ tài chính, dự đoán xu hướng (trend) của khách hàng, phát hiện gian lận tài chính (identifying frauds);

✓ WWW: Phân loại tài liệu (document

classification); phân loại người dùng web (clustering weblog);…

Trang 26

Cách tiếp cận phân cụm

• Phân cụm (clustering): là tập các phương

pháp nhằm tìm ra các nhóm con trong dữ liệu

– Các mẫu có đặc điểm chung trong cùng 1 nhóm nhưng khác với các mẫu ở ngoài nhóm

– Việc gom nhóm là phân tích cấu trúc dữ liệu nội tại, điều này khác với phân lớp

Trang 27

- Các đối tượng trong 1 cụm “tương tự” nhau.

- Các đối tượng khác cụm thì “không tương tự” nhau.

➢ Mục đích: giải quyết vấn đề tìm kiếm, phát hiện các cụm, các mẫu dữ liệu trong 1 tập hợp ban đầu các dữ liệu không có nhãn.

Trang 28

➢ Phân cụm không dựa trên 1 tiêu chuẩn chung nào,

mà dựa vào tiêu chí mà người dùng cung cấp trong từng trường hợp.

Trang 29

▪ Tốc độ thực hiện của thuật toán

1 Phân cụm phân hoạch

2 Phân cụm phân cấp

3 Phân cụm dựa trên mật độ

4 Phân cụm dựa trên lưới

5 Phân cụm dựa trên mô hình

6 Phân cụm có ràng buộc

Trang 30

Phân cụmK-‐means

• Các tâm cụm cực tiểu sự biến đổi giữa các cụm

– Các tâm cụm (trung tâm của cụm) :

• Bài toán cực tiểu hóa này là tối ưu tổ hợp

Giải pháp cho cực tiểu hóa địa phương ta sử dụng phương pháp lặp

MIN

Các thuật toán phân cụm

Trang 31

d i

xR

Các thuật toán phân cụm

Trang 32

Các thuật toán phân cụm

Trang 33

1) Khởi tạo: Chọn ngẫu nhiên K tâm cụm

2) Tính toán khoảng cách từ các đối tượng đến các tâm

để phân hoạch dữ liệu (bằng cách gán mỗi đối tượng vào cụm mà nó gần tâm nhất)

3) Tính lại các tâm cụm mới trong mỗi cụm

4) Lặp lại 2 và 3 cho đến khi “thỏa mãn điều kiện” ( khi

các tâm cụm ổn định và các đối tượng không dịch chuyển giữa các cụm)

Các thuật toán phân cụm

Trang 34

Khởi tạo tâm cụm

Các thuật toán phân cụm

Trang 36

Khởi tạo tâm cụm Gán các cụm ban đầu

Cập nhật các tâm cụm

Các thuật toán phân cụm

Trang 37

Khởi tạo tâm cụm Gán các cụm ban đầu

Cập nhật các tâm cụm

Gán lại các cụm

Các thuật toán phân cụm

Trang 38

Khởi tạo tâm cụm Gán các cụm ban đầu Cập nhật các tâm cụm Gán lại các cụm

Cập nhật tâm cụm

Các thuật toán phân cụm

Trang 39

Khởi tạo tâm cụm Gán các cụm ban đầu Cập nhật các tâm cụm Gán lại các cụm

Cập nhật tâm cụm

Gán lại các cụm

Các thuật toán phân cụm

Trang 40

Khởi tạo tâm cụm Gán các cụm ban đầu Cập nhật các tâm cụm Gán lại các cụm

Cập nhật tâm cụm Gán lại các cụm

Cập nhật tâm cụm

Các thuật toán phân cụm

Trang 41

Khởi tạo tâm cụm Gán các cụm ban đầu Cập nhật các tâm cụm Gán lại các cụm

Cập nhật tâm cụm Gán lại các cụm Cập nhật tâm cụm

Gán lại các cụm

Các thuật toán phân cụm

Trang 42

Khởi tạo tâm cụm Gán các cụm ban đầu Cập nhật các tâm cụm Gán lại các cụm

Cập nhật tâm cụm Gán lại các cụm Cập nhật tâm cụm Gán lại các cụm

Thỏa mãn điều kiện

Các thuật toán phân cụm

Trang 43

VÍ DỤ: KHỞI TẠO TÂM C1 = A, C2 = B

ÁP DỤNG K-means CHO DỮ LIỆU SAU

Trang 44

ví dụ minh họa

Bước 1: Khởi tạo

Chọn 2 trọng tâm ban đầu:

c 1 (1,1) ≡ A và c 2 (2,1) ≡ B, thuộc 2 cụm 1 và 2

Các thuật toán phân cụm

Trang 45

ví dụ minh họa

Các thuật toán phân cụm

Trang 48

• Khởi tạo không tốt dẫn đến kết quả phân cụm kém

Các thuật toán phân cụm

Trang 49

❑❑ Tương tự với nhau (theo một ý nghĩa, đánh giá nào đó)

❑❑ Khác biệt với các ví dụ thuộc các cụm khác

Sau khi phân cụm

Trang 50

❑❑ Tương tự với nhau (theo một ý nghĩa, đánh giá nào đó)

❑❑ Khác biệt với các ví dụ thuộc các cụm khác

Sau khi phân cụm

Trang 51

Phân cụm K-mean

◼◼ Giải thuật phân cụm

Dựa trên phân hoạch (Partition-based clustering)

Dựa trên tích tụ phân cấp (Hierarchical clustering)

• Bản đồ tự tổ thức (Self-organizing map – SOM)

• Các mô hình hỗn hợp (Mixture models)

• …

◼◼ Đánh giá chất lượng phân cụm (Clustering quality)

• Khoảng cách/sự khác biệt giữa các cụm → Cần được cực đại hóa

• Khoảng cách/sự khác biệt bên trong một cụm → Cần được cực tiểu hóa

Trang 52

Phân cụm K-mean

◼◼ K-means được giới thiệu đầu tiên bởi Lloyd năm 1957.

◼◼ Là phương pháp phân cụm phổ biến nhất trong các

phương pháp dựa trên phân hoạch (partition-based

clustering)

◼◼ Biểu diễn dữ liệu: D={x1,x2,…,xr}

x i là một ví dụ (một vectơ trong một không gian n chiều)

◼◼Giải thuật K-means phân chia tập dữ liệu thành k cụm

Mỗi cụm (cluster) có một điểm trung tâm, được gọi là centroid

k (tổng số các cụm thu được) là một giá trị được cho trước

(vd: được chỉ định bởi người thiết kế hệ thống phân cụm)

Trang 53

Phân cụm K-mean

Đầu vào: tập học D, số lượng cụm k, khoảng cách d(x,y)

nhân – seeds) để sử dụng làm các điểm trung tâm ban

đầu (initial centroids) của k cụm.

kiện hội tụ (convergence criterion):

❑❑ Bước 2.1 Đối với mỗi ví dụ, gán nó vào cụm (trong số k

cụm) mà có tâm (centroid) gần ví dụ đó nhất.

❑❑ Bước 2.2 Đối với mỗi cụm, tính toán lại điểm trung tâm (centroid) của nó dựa trên tất cả các ví dụ thuộc vào cụm đó.

Trang 54

Phân cụm K-mean

Trang 55

Phân cụm K-mean

Trang 56

Phân cụm K-mean

◼◼Mặc dù có những nhược điểm như trên, k-means vẫn là

giải thuật phổ biến nhất được dùng để giải quyết các bài toán phân cụm – do tính đơn giản và hiệu quả.

• Các giải thuật phân cụm khác cũng có các nhược điểm riêng.

◼◼ Về tổng quát, không có lý thuyết nào chứng minh rằng

một giải thuật phân cụm khác hiệu quả hơn k-means.

• Một số giải thuật phân cụm có thể phù hợp hơn một số giải thuật khác đối với một số kiểu tập dữ liệu nhất định, hoặc đối với một

Trang 57

❖ Phân cụm mờ bán giám sát: là phân cụm mờ kết hợp với các thông tin

bổ trợ hình thành lên nhóm các thuật toán gọi là phân cụm mờ bán giám sát.

Trang 58

m

kj X V u

C

k

k

m kj j

u

X u V

1 1

m i k

j k kj

V X

V X u

1

1 1

1

Trang 59

LOGO

Ngày đăng: 09/08/2021, 18:02

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm