Số lượngMức độ trừu tượng... Tên Tóc Ch.Cao Cân Nặng Dùng kem?. Thuật tốn Quinlan• Các thuộc tính khác được tính tương tự... Thuật tốn Quinlan• Như vậy thuộc tính màu tóc có số vector
Trang 1Giới thiệu máy học
ThS Dương Thị Thùy Vân
Khoa CNTT-TƯD
Trang 2• t ch c tri th c m i thành các bi u di n t ng quát, ổ ứ ứ ớ ể ễ ổ
hi u qu ệ ả
Trang 3Thế nào là máy học (Machine Learning)
• Máy h c có ngh a là vi c mô hình hóa môi tr ọ ĩ ệ ườ ng xung
quanh hay kh n ng m t ch ả ă ộ ươ ng trình máy tính sinh ra
m t c u trúc d li u m i khác v i c u trúc hi n có Ch ng ộ ấ ữ ệ ớ ớ ấ ệ ẳ
h n vi c tìm ra nh ng lu t ạ ệ ữ ậ If…then… t t p d li u ừ ậ ữ ệ đầ u vào.
(Krzysztof J Cios, Witold Pedrycz, Roman W Swiniarski Data Mining Methods for Knowledge Discovery Kluwer Academic Publishers, 1998)
Trang 4Số lượng
Mức độ
trừu
tượng
Trang 5Phân loại máy học
• Phân lo i thô: ạ
– H c giám sát (supervised learning) ọ
– H c không giám sát (unsupervised learning) ọ
Trang 6Phân loại máy học
• C p ấ độ ọ h c:
» Học vẹt (Rote learning)
» Học theo giải thích (by explanation)
» Học theo ví dụ, trường hợp (by examples, cases)
» Học khám phá (by discovering)
Trang 7Phân loại máy học
• Cách ti p c n: ế ậ
– Tiếp cận thống kê – Tiếp cận toán tử logic – Tiếp cận hình học (phân hoạch không gian, xây dựng cây định danh, …) – Tiếp cận mạng Neural
– Tiếp cận khai mỏ dữ liệu – …
Trang 8Ví dụ 1
Ch ươ ng trình oán ý ngh con ng đ ĩ ườ i Máy s oán ng ẽ đ ườ i ch i ơ ngh s 0 hay 1 trong ĩ ố đầ u, ng ườ i ch i s ph i tr l i cho ơ ẽ ả ả ờ máy bi t là máy ã oán úng hay sai ế đ đ đ Để ừ đ t ó máy tính s h c ẽ ọ qui lu t suy ngh a c a ng ậ ĩ ủ ườ i ch i ơ
Trang 9Học dựa trên cây định danh
• Ví d : ụ Xây d ng các quy lu t ự ậ để ế k t lu n m t ng ậ ộ ườ i nh ư
th nào khi i t m bi n thì b cháy n ng ế đ ắ ể ị ắ
• Ta g i tính ch t cháy n ng hay không cháy n ng là thu c ọ ấ ắ ắ ộ tính quan tâm (thu c tính m c tiêu) ộ ụ
R = {“cháy n ng”, “bình th ắ ườ ng”}
Trang 10Học dựa trên cây định danh
• P = t p h p 8 ng ậ ợ ườ i quan sát đượ ớ c v i 4 thu c tính ộ :
– chi u cao (cao, trung bình, th p), ề ấ
– màu tóc (vàng, nâu, đỏ ),
– cân n ng (nh , TB, n ng), ặ ẹ ặ
– dùng kem (có, không)
Trang 11Tên Tóc Ch.Cao Cân
Nặng Dùng kem? Kết quả
Trang 12Thuật toán Quinlan
• V i m i thu c tính d n xu t A còn có th s d ng ớ ỗ ộ ẫ ấ ể ử ụ để phân
ho ch, tính : ạ
– V A(j) = ( T(j , r 1 ), T(j , r 2 ) , …, T(j , r n ) )
– T(j, r i ) = (t ng s ph n t trong phân ho ch có giá tr thu c tính ổ ố ầ ử ạ ị ộ
d n xu t A là ẫ ấ j và có giá tr thu c tính m c tiêu là ị ộ ụ r i ) ( t ng s ph n ổ ố ầ
t trong phân ho ch có giá tr thu c tính d n xu t A là ử ạ ị ộ ẫ ấ j )
– trong ó đ r 1 , r 2 , … , r n là các giá tr c a thu c tính m c tiêu ị ủ ộ ụ
– Nh v y n u m t thu c tính A có th nh n m t trong 5 giá tr ư ậ ế ộ ộ ể ậ ộ ị khác nhau thì nó s có 5 vector ẽ đặ c tr ng ư
Trang 13Thuật toán Quinlan
• M t vector V(Aj ) ộ đượ c g i là vector ọ đơ n v n u nó ch có ị ế ỉ duy nh t m t thành ph n có giá tr 1 và nh ng thành ph n khác ấ ộ ầ ị ữ ầ
có giá tr 0 ị
• Thu c tính ộ đượ c ch n ọ để phân ho ch là thu c tính có ạ ộ
nhi u vector ề đơ n v nh t ị ấ
Trang 14Thuật tốn Quinlan
• Xét ví dụ, lúc ban đầu (chưa phân hoạch)
V Tóc (vàng) = ( T(vàng, cháy nắng), T(vàng, không cháy nắng))
Số người tóc vàng là : 4
Số người tóc vàng và cháy nắng là : 2
Số người tóc vàng và không cháy nắng là : 2
Do đó: V Tóc (vàng) = (2/4 , 2/4) = (0.5, 0.5)
Trang 15Thuật tốn Quinlan
• Tương tự
– V Tóc (nâu) = (0/3, 3/3) = (0,1) (vector đơn vị)
– Số người tóc nâu là : 3
– Số người tóc nâu và cháy nắng là : 0
– Số người tóc nâu và không cháy nắng là : 3
– V Tóc (đỏ) = (1/1, 0/1) = (1,0) (vector đơn vị)
– Tổng số vector đơn vị của thuộc tính tóc là 2
Trang 16Thuật tốn Quinlan
• Các thuộc tính khác được tính tương tự
Trang 17Thuật tốn Quinlan
• Như vậy thuộc tính màu tóc có số vector đơn vị
nhiều nhất nên sẽ được chọn để phân hoạch
• Phân hoạch theo tóc vàng (Pvàng) là còn chứa
những người cháy nắng và không cháy nắng
– Tiếp tục phân hoạch tập này
– Tính vector đặc trưng tương tự đối với các thuộc tính
còn lại (chiều cao, cân nặng, dùng kem)
Trang 18Thuật tốn Quinlan
• Trong phân hoạch Pvàng, tập dữ liệu của chúng ta còn lại là :
Nặng Dùng kem? Kết quả
Trang 19Thuật toán Quinlan
Trang 20Thuật tốn Quinlan
• 2 thuộc tính dùng kem và chiều cao đều có 2 vector đơn vị
Tuy nhiên, số phân hoạch của thuộc tính dùng kem là ít
định danh cuối cùng: