Bài giảng Lập trình cho khoa học dữ liệu - Bài 11: Một số mô hình học máy cung cấp cho người học những kiến thức như: Phân cụm dữ liệu; Phân cụm mờ; Hồi quy tuyến tính; Phân lớp SVM. Mời các bạn cùng tham khảo!
Trang 1LẬPTRÌNH CHO KHOA HỌC DỮ LIỆU
Bài 11 Một số mô hình học máy
Trang 4Tổng quan
❖PCDL là một lĩnh vực liên ngành đang được phát
triển mạnh mẽ Ở một mức cơ bản nhất, đưa ra
định nghĩa PCDL như sau [10][11]:
MINING, nhằm tìm kiếm, phát hiện các cụm, các
mẫu dữ liệu tự nhiên tiềm ẩn, quan tâm trong tập dữ
liệu lớn, từ đó cung cấp thông tin, tri thức hữu ích
cho ra quyết định"
Trang 5Tổng quan
❖Như vậy, PCDL là quá trình phân chia một tập DL
ban đầu thành các cụm DL sao cho:
▪ Các phần tử trong một cụm "tương tự" (Similar)
nhau
▪ Các phần tử trong các cụm khác nhau sẽ "phi
tương tự" (Dissimilar) nhau
▪ Số các cụm được xác định trước theo kinh
nghiệm hoặc tự động
Trang 6Tổng quan
❖Trong học máy, PCDL được xem là vấn đề học không
có giám sát
▪ Nó phải đi giải quyết vấn đề tìm một cấu trúc
trong tập hợp các DL chưa biết trước các thông tin
Trang 7Tổng quan
❖Vấn đề thường gặp trong PCDL là hầu hết các DL cần phân cụm đều có DL "nhiễu" (noise) do quá trình thu thập thiếu chính xác, không đầy đủ
❖Cần phải xây dựng chiến lược cho bước tiền xử lý DL
để loại bỏ "nhiễu" trước khi bước vào giai đoạn phân tích PCDL
❖Kỹ thuật xử lý nhiễu phổ biến là thay thế giá trị các thuộc tính của đối tượng "nhiễu" bằng giá trị thuộc
tính tương ứng của đối tượng DL gần nhất
Các hướng tiếp cận trong phân cụm
Trang 8mại và trong làm sạch dữ liệu,…
Các hướng tiếp cận trong phân cụm
Trang 9▪ Xây dựng các tiêu chuẩn phân cụm.
▪ Xây dụng mô hình cho cấu trúc cụm dữ liệu
▪ Xây dựng thuật toán phân cụm và xác lập các
điều kiện khởi tạo
▪ Xây dựng các thủ tục biểu diễn và đánh giá kết
quả phân cụm
Trang 10Tổng quan
❖Đến nay chưa có một phương pháp phân cụm tổng
quát nào có thể giải quyết trọn vẹn cho tất cả các dạng cấu trúc cụm DL
❖Các phương pháp PC cần có cách thức biểu diễn cấu trúc của các cụm DL, với mỗi cách thức biểu diễn sẽ tương ứng một thuật toán PC phù hợp
❖PCDL đang là vấn đề mở và khó, cần giải quyết
những vấn đề phù hợp với nhiều dạng DL khác nhau, đặc biệt là DL hỗn hợp, đây cũng là một thách thức
lớn trong lĩnh vực Data Mining
Trang 11Tổng quan
Trang 12Tổng quan
Trang 13Tổng quan
Trang 14Tổng quan
Trang 15Tổng quan
Trang 16Tổng quan
Trang 17Tổng quan
Trang 18Tổng quan
Trang 19Tổng quan
Trang 20Tổng quan
Trang 21Tổng quan
Trang 22Tổng quan
Trang 23Tổng quan
Trang 24✓ Biology: Phân nhóm động vật và thực vật dựa vào các
thuộc tính của chúng;
Một số ứng dung
Trang 25✓ Insurance, Finance: Phân nhóm các đối tượng sử dụng
bảo hiểm và các dịch vụ tài chính, dự đoán xu hướng (trend) của khách hàng, phát hiện gian lận tài chính (identifying frauds);
✓ WWW: Phân loại tài liệu (document
classification); phân loại người dùng web (clustering weblog);…
Trang 26Cách tiếp cận phân cụm
• Phân cụm (clustering): là tập các phương
pháp nhằm tìm ra các nhóm con trong dữ liệu
– Các mẫu có đặc điểm chung trong cùng 1 nhóm nhưng khác với các mẫu ở ngoài nhóm
– Việc gom nhóm là phân tích cấu trúc dữ liệu nội tại, điều này khác với phân lớp
Trang 27- Các đối tượng trong 1 cụm “tương tự” nhau.
- Các đối tượng khác cụm thì “không tương tự” nhau.
➢ Mục đích: giải quyết vấn đề tìm kiếm, phát hiện các cụm, các mẫu dữ liệu trong 1 tập hợp ban đầu các dữ liệu không có nhãn.
Trang 28➢ Phân cụm không dựa trên 1 tiêu chuẩn chung nào,
mà dựa vào tiêu chí mà người dùng cung cấp trong từng trường hợp.
Trang 29▪ Tốc độ thực hiện của thuật toán
1 Phân cụm phân hoạch
2 Phân cụm phân cấp
3 Phân cụm dựa trên mật độ
4 Phân cụm dựa trên lưới
5 Phân cụm dựa trên mô hình
6 Phân cụm có ràng buộc
Trang 30Phân cụmK-‐means
• Các tâm cụm cực tiểu sự biến đổi giữa các cụm
– Các tâm cụm (trung tâm của cụm) :
• Bài toán cực tiểu hóa này là tối ưu tổ hợp
Giải pháp cho cực tiểu hóa địa phương ta sử dụng phương pháp lặp
MIN
Các thuật toán phân cụm
Trang 31d i
x R
Các thuật toán phân cụm
Trang 32Các thuật toán phân cụm
Trang 331) Khởi tạo: Chọn ngẫu nhiên K tâm cụm
2) Tính toán khoảng cách từ các đối tượng đến các tâm
để phân hoạch dữ liệu (bằng cách gán mỗi đối tượng vào cụm mà nó gần tâm nhất)
3) Tính lại các tâm cụm mới trong mỗi cụm
4) Lặp lại 2 và 3 cho đến khi “thỏa mãn điều kiện” ( khi
các tâm cụm ổn định và các đối tượng không dịch chuyển giữa các cụm)
Các thuật toán phân cụm
Trang 34Khởi tạo tâm cụm
Các thuật toán phân cụm
Trang 36Khởi tạo tâm cụm Gán các cụm ban đầu
Cập nhật các tâm cụm
Các thuật toán phân cụm
Trang 37Khởi tạo tâm cụm Gán các cụm ban đầu
Cập nhật các tâm cụm
Gán lại các cụm
Các thuật toán phân cụm
Trang 38Khởi tạo tâm cụm Gán các cụm ban đầu Cập nhật các tâm cụm Gán lại các cụm
Cập nhật tâm cụm
Các thuật toán phân cụm
Trang 39Khởi tạo tâm cụm Gán các cụm ban đầu Cập nhật các tâm cụm Gán lại các cụm
Cập nhật tâm cụm
Gán lại các cụm
Các thuật toán phân cụm
Trang 40Khởi tạo tâm cụm Gán các cụm ban đầu Cập nhật các tâm cụm Gán lại các cụm
Cập nhật tâm cụm Gán lại các cụm
Cập nhật tâm cụm
Các thuật toán phân cụm
Trang 41Khởi tạo tâm cụm Gán các cụm ban đầu Cập nhật các tâm cụm Gán lại các cụm
Cập nhật tâm cụm Gán lại các cụm Cập nhật tâm cụm
Gán lại các cụm
Các thuật toán phân cụm
Trang 42Khởi tạo tâm cụm Gán các cụm ban đầu Cập nhật các tâm cụm Gán lại các cụm
Cập nhật tâm cụm Gán lại các cụm Cập nhật tâm cụm Gán lại các cụm
Thỏa mãn điều kiện
Các thuật toán phân cụm
Trang 43VÍ DỤ: KHỞI TẠO TÂM C1 = A, C2 = B
ÁP DỤNG K-means CHO DỮ LIỆU SAU
Trang 44ví dụ minh họa
❖ Bước 1: Khởi tạo
Chọn 2 trọng tâm ban đầu:
c 1 (1,1) ≡ A và c 2 (2,1) ≡ B, thuộc 2 cụm 1 và 2
Các thuật toán phân cụm
Trang 45ví dụ minh họa
Các thuật toán phân cụm
Trang 48• Khởi tạo không tốt dẫn đến kết quả phân cụm kém
Các thuật toán phân cụm
Trang 49❑❑ Tương tự với nhau (theo một ý nghĩa, đánh giá nào đó)
❑❑ Khác biệt với các ví dụ thuộc các cụm khác
Sau khi phân cụm
Trang 50❑❑ Tương tự với nhau (theo một ý nghĩa, đánh giá nào đó)
❑❑ Khác biệt với các ví dụ thuộc các cụm khác
Sau khi phân cụm
Trang 51Phân cụm K-mean
◼◼ Giải thuật phân cụm
• Dựa trên phân hoạch (Partition-based clustering)
• Dựa trên tích tụ phân cấp (Hierarchical clustering)
• Bản đồ tự tổ thức (Self-organizing map – SOM)
• Các mô hình hỗn hợp (Mixture models)
• …
◼◼ Đánh giá chất lượng phân cụm (Clustering quality)
• Khoảng cách/sự khác biệt giữa các cụm → Cần được cực đại hóa
• Khoảng cách/sự khác biệt bên trong một cụm → Cần được cực tiểu hóa
Trang 52Phân cụm K-mean
◼◼ K-means được giới thiệu đầu tiên bởi Lloyd năm 1957.
◼◼ Là phương pháp phân cụm phổ biến nhất trong các
phương pháp dựa trên phân hoạch (partition-based
clustering)
◼◼ Biểu diễn dữ liệu: D={x1,x2,…,xr}
•x i là một ví dụ (một vectơ trong một không gian n chiều)
◼◼Giải thuật K-means phân chia tập dữ liệu thành k cụm
• Mỗi cụm (cluster) có một điểm trung tâm, được gọi là centroid
•k (tổng số các cụm thu được) là một giá trị được cho trước
(vd: được chỉ định bởi người thiết kế hệ thống phân cụm)
Trang 53Phân cụm K-mean
Đầu vào: tập học D, số lượng cụm k, khoảng cách d(x,y)
nhân – seeds) để sử dụng làm các điểm trung tâm ban
đầu (initial centroids) của k cụm.
kiện hội tụ (convergence criterion):
❑❑ Bước 2.1 Đối với mỗi ví dụ, gán nó vào cụm (trong số k
cụm) mà có tâm (centroid) gần ví dụ đó nhất.
❑❑ Bước 2.2 Đối với mỗi cụm, tính toán lại điểm trung tâm (centroid) của nó dựa trên tất cả các ví dụ thuộc vào cụm đó.
Trang 54Phân cụm K-mean
Trang 55Phân cụm K-mean
Trang 56Phân cụm K-mean
◼◼Mặc dù có những nhược điểm như trên, k-means vẫn là
giải thuật phổ biến nhất được dùng để giải quyết các bài toán phân cụm – do tính đơn giản và hiệu quả.
• Các giải thuật phân cụm khác cũng có các nhược điểm riêng.
◼◼ Về tổng quát, không có lý thuyết nào chứng minh rằng
một giải thuật phân cụm khác hiệu quả hơn k-means.
• Một số giải thuật phân cụm có thể phù hợp hơn một số giải thuật khác đối với một số kiểu tập dữ liệu nhất định, hoặc đối với một
Trang 57❖ Phân cụm mờ bán giám sát: là phân cụm mờ kết hợp với các thông tin
bổ trợ hình thành lên nhóm các thuật toán gọi là phân cụm mờ bán giám sát.
Trang 58m
kj X V u
C
k
k
m kj j
u
X u V
1 1
m i k
j k kj
V X
V X u
1
1 1
1
Trang 59LOGO