Cụ thể hơn, máy học là một phương pháp để tạo ra các chương trình máy tính bằng việc phân tích các tập dữ liệu.. Máy học có liên quan lớn đến lĩnh vực thống kê vì cả hai lĩnh vực đều ngu
Trang 1MuÏc LuÏc
Lời mở đầu ……… 5
Lời cảm ơn ……… 6
Nhận xét của giáo viên ……… 7
ChƯƠng 1 TôÛng quan vêØ máy hoÏc. I. GIỚI THIỆU VỀ MÁY HỌC ……….….…… 8
1. Các định nghĩa …… ……… 8
1.1 Thế nào là học ? ……… …… ……….… 8
1.2 Thế nào là máy học ? ……… ……… … 8
2. Phân loại máy học ……… ……… 8
2.1 Phân loại thơ ……… ……… 8
2.1.1 Học cĩ giám sát ……… 8
2.1.2 Học khơng giám sát ……….……… 8
2.1.3 Học bán giám sát ……… ……… 9
2.1.4 Học tăng cường ……… …… 9
2.1.5 Chuyển đổi ……… …… 9
2.1.6 Học cách học ……… ……… 9
2.2 Phân loại theo hai tiêu chuẫn cùng lúc: “cấp độ học” & “cách tiếp cận” ……… 9
2.2.1 Học vẹt ……… …… 9
2.2.2 Học bằng cách chỉ dẫn ……… …… 9
2.2.3 Học bằng qui nạp ……… ……… 10
2.2.4 Học bằng tương tự ……… ……… 10
2.2.5 Học dựa theo giải thích ……… ………… 10
2.2.6 Học dựa trên tình huống ……….……… 10
3. Cách tiếp cận: cĩ hai cách tiếp cận cho hệ thống học …….……….……… 10
3.1 Học từ ký hiệu ……….………… 10
3.2 Học từ dữ liệu số ……….……… 10
4. Khảo sát một số cách tiếp cận của máy học ……… 10
4.1 Tiếp cận thống kê ……….… 10
4.1.1 Ví dụ ……….….… 11
4.1.2 Ý tưởng cài đặt: hết sức đơn giản ……….….… 11
4.1.3 Nhận xét ví dụ ……… 11
4.2 Tiếp cận hình học ……… … … 12
4.2.1 Hãy xét bài tốn sau ……….…… 12
4.2.2 Giải quyết bài tốn ……….……… 12
4.2.3 Nhận xét bài tốn ……….…… 13
4.3 Tiếp cận logic ……….……… 14
CH1101098 Nguyễn Ngọc Lâm ¦ GVHD: GS TSKH Hồng Văn Kiếm Trang 1
Trang 24.3.1 Ví dụ 1 ……….……… 14
4.3.2 Nhận xét ví dụ 1 ……….… 14
4.3.3 Ví dụ 2 ……….… 15
4.3.4 Nhận xét ví dụ 2 ……….…… 15
4.3.5 Định nghĩa các mệnh đề logic đơn giản ……….… 15
4.3.6 Nhận xét ……….……… 16
4.4 Tiếp cận mạng neural ……….… …… 17
4.5 Tiếp cận khai mỏ dữ liệu ……….… …… 17
4.5.1 Tại sao cần khai mỏ dữ liệu ? ……….…… 17
4.5.1.1 Sự cần thiết của khai mỏ dữ liệu ……….…… 17
4.5.1.1.1 Khía cạnh thương mại ……….…… 17
4.5.1.1.2 Khía cạnh khoa học ……… 17
4.5.1.2 Sự ra đời của khai mỏ dữ liệu ……… 17
4.5.1.3 Sử dụng khai mỏ dữ liệu khi nào ……….…… 17
4.5.1.4 Lĩnh vực ứng dụng khai mỏ dữ liệu ……….…… 17
4.5.1.4.1 Thơng tin thương mại ……… ….… 17
4.5.1.4.2 Thơng tin sản xuất ……….……… 18
4.5.1.4.3 Thơng tin khoa học ……… …… 18
4.5.1.5 Khai mỏ dữ liệu là gì ? ……… 18
4.5.1.5.1 Định nghĩa ……… 18
4.5.1.5.2 Thế nào là mẫu tiềm ẩn ? ……… 18
4.5.1.6 Qui trình khám phá tri thức ……… 18
4.5.1.7 Các nhiệm vụ chính của khai mỏ dữ liệu ……… 19
4.5.1.7.1 Dự đốn ……… 19
4.5.1.7.2 Mơ tả ……… …… 19
4.5.1.8 Các kỹ thuật khai mỏ dữ liệu ……… ……… 19
4.5.1.8.1 Kỹ thuật phân lớp và dự đốn ……… …… 19
4.5.1.8.1.1 Phân lớp ……… …… 19
4.5.1.8.1.2 Dự đốn ……… 19
4.5.1.8.2 Kỹ thuật gom nhĩm ……… ……… 19
4.5.1.9 Thách thức trong quá trình khai mỏ dữ liệu ……… …… 19
ChƯƠng 2 HoÏc băØng phƯƠng pháp xây DưÏng cây ĐiÏnh Danh I. CÂY ĐỊNH DANH ……… ……… ……… 20
1. Cây định danh ……… ……… …… 20
2. Thuật tốn xây dựng cây định danh … ……… …… 20
3. Phân tích bài tốn ……….……… ……… 20
4. Ý tưởng ……… ……… ……… 13
II. ĐÂM CHỒI ……… ……… …… 21
1. Quan sát thuộc tính màu tĩc ….……… …… 21
2. Dùng sơ đồ hình cây để mơ tả phân hoạch …….……….… 22
3. Nhận xét ……… ……….…… 23
CH1101098 Nguyễn Ngọc Lâm ¦ GVHD: GS TSKH Hồng Văn Kiếm Trang 2
Trang 34. Phương pháp chọn thuộc tính phân hoạch ……….…… 23
III. THUẬT TỐN QUINLAN ……… ……… …… … 23
IV. MINH HỌA THUẬT TỐN ……… …… … 24
1. Xét thuộc tính màu tĩc ……… …… 24
2. Xét thuộc tính chiều cao ……… 24
3. Xét thuộc tính cân nặng ……… … 24
4. Xét thuộc tính dùng kem ……… 25
5. Cây được phân hoạch theo thuộc tính màu tĩc ……… … 25
6. Phân hoạch P vàng ……… … 26
6.1 Xét thuộc tính chiều cao ……… … 26
6.2 Xét thuộc tính cân nặng ……….… 26
6.3 Xét thuộc tính dùng kem ……… … 26
V. ĐỘ ĐO HỖN LOẠN ……… ……….… 27
1. Tính độ do hỗn loạn ……… 27
2. Cơng thức tính độ đo hỗn loạn ……… … 27
3. Minh họa thuật tốn ……… … 27
3.1 Tính độ đo hỗn loạn trung bình ……… 27
3.2 Cây được phân hoạch theo thuộc tính màu tĩc ……… …… 28
VI. PHÁT SINH TẬP LUẬT ……… … 30
VII. TỐI ƯU HĨA TẬP LUẬT ……… … 30
1. Loại bỏ mệnh đề thừa ……… 30
2. Áp dụng loại bỏ luật thừa ……… … 31
VIII. XÂY DỰNG MỆNH ĐỂ MẶC ĐỊNH ……… 32
IX. THUẬT TỐN ILA (Inductive Learning Algorithm) ……… 33
1. Thuật tốn ……… 33
2. Minh họa thuật tốn ILA ……… ……… 34
3. Đánh giá thuật tốn ……….… … 38
ChƯƠng 3 MaÏng Neural nhân taÏo I. TỔNG QUAN VỀ MẠNG NEURAL NHÂN TẠO ……… 39
1. Lịch sử phát triển của mạng neural ……….…….39
2. Các ứng dụng thực tiễn của mạng neural nhân tạo ……….……39
3. Mạng neural sinh học ……….………… ….…… 40
4. Mạng neural nhân tạo ……… 40
4.1 Cấu tạo của một đơn vị thần kinh nhân tạo ……….… 41
4.2 Các hàm truyền thống được sử dụng ……… …… 41
4.3 Mơ hình mạng neural nhân tạo ……… 41
4.3.1Mạng neural một lớp ……… ……….…… 41
4.3.2Mạng neural nhiều lớp ……… 42
4.3.3Mạng lan truyền ngược ……… 43
4.3.3.1 Định nghĩa ……… … 43
4.3.3.2 Nguyên tắc hoạt động của mạng lan truyền ngược ……….……… 43
4.3.3.2.1 Tín hiệu hàm ……… …… 43
CH1101098 Nguyễn Ngọc Lâm ¦ GVHD: GS TSKH Hồng Văn Kiếm Trang 3
Trang 44.3.3.2.2 Tín hiệu lỗi ……… ……… 43
4.3.4Mạng perceptron ……… 44
4.3.4.1 Định nghĩa ……… …… 44
4.3.4.2 Nguyên tắc hoạt động ……… … 44
II. THUẬT TỐN HỌC ĐƠN GIẢN TRÊN PERCEPTRON ……… 45
III. THUẬT TỐN LAN TRUYỀN NGƯỢC ……….……… 47
ChƯƠng 4 Cài ĐăÏt Ứng DuÏng minh hoÏa 50
ChƯƠng 5 KêÙt luâÏn ……… 52
CH1101098 Nguyễn Ngọc Lâm ¦ GVHD: GS TSKH Hồng Văn Kiếm Trang 4
Trang 5L Ô øi m ÔŒ Ñ aâØu
Máy học là một lĩnh vực của trí tệ nhân tạo liên quan đến việc phát triển các kỹ thuật cho phép máy tính có thể “Học” Cụ thể hơn, máy học là một phương pháp để tạo ra các chương trình máy tính bằng việc phân tích các tập dữ liệu Máy học có liên quan lớn đến lĩnh vực thống kê vì
cả hai lĩnh vực đều nguyên cứu việc phân tích dữ liệu, nhưng khác với thống kê, máy học tập trung vào nguyên cứu sự phức tạp của các giải thuật trong việc thực thi tính toán
Một trong những nguyên nhân làm cho trí tuệ nhân tạo trở thành một trong những lĩnh vực mũi nhọn trong thời đại hiện nay là việc làm cho máy tính trở nên thông minh hơn, tăng cường sự cộng tác giữa người và máy, tự động hóa một phần, góp phần giải các công việc trong lĩnh vực đời sống xã hội
Máy học có tính ứng dụng rất cao trong các ngành khoa học sản xuất, đặt biệt là những ngành cần phân tích khối lượng dữ liệu khổng lồ Một số ứng dụng thường thấy như:
Xử lý ngôn ngữ tự nhiên: xử lý văn bản, giao tiếp giữa người và máy
Nhận dạng: nhận dạng tiếng nói, chữ viết tay, vân tay, thị giác máy
Tìm kiếm
Chuẩn đoán y khoa: phân tích ảnh X – Quang, các hệ chuyên gia chuẫn đoán tự động
Sinh học: Phân tích các chuỗi DNA
Vật lý: phân tích ảnh thiên văn, tác động giữa các hạt
Phân tích thị trường chính khoán
Chơi trò chơi và cử động của rô-bốt
Chuyên đề sau đây sẽ khảo sát một phần nhỏ về ứng dụng của máy học, đó là việc học bằng phương pháp xây dựng cây định danh Bài toán được đặt ra từ một mẫu CSDL có sẳn, máy tính
sẽ phân tích các quy luật trong tập CSDL bằng phương pháp xây dựng cây định danh và nhờ đó giúp con người đưa ra quyết định nhanh chống và chính xác
CH1101098 Nguyễn Ngọc Lâm ¦ GVHD: GS TSKH Hoàng Văn Kiếm Trang 5
Trang 6L Ô Øi caœm Ô n
Với lòng biết ơn sâu sắc nhất, em xin gửi đến quý Thầy Cô ở khoa Khoa Học Máy Tính - trường Đại Học Công Nghệ Thông Tin đã đem hết tâm huyết của mình truyền đạt vốn kiến thức quý báu cho chúngem
Em xin chân thành cảm ơn GS TSKH Hoàng Văn Kiếm đã truyền đạt kiến thức môn Công Nghệ Tri Thức và Ứng Dụng Qua đó giúp em co đầy đủ kiến thức để hoàn thành bài thu hoạch này
Nhân đây em cũng xin gửi lời cảm ơn chân thành đến gia đình, bạn bè, đồng nghiệp đã động viên tin thần cho em trong suốt quá trình học tập của mình
Sau cùng, em xin kính chúc quý Thầy Cô trong khoa Khoa Học Máy Tính cùng GS TSKH Hoàng Văn Kiếm dồi dào sức khỏe để thực hiện sứ mệnh cao đẹp của mình là truyền đạt kiến thức cho thế hệ mai sau
Một lần nữa em xin chân thành cảm ơn !
Trang 7TP HCM, ngày 03 tháng 06 năm 2012 Sinh viên thực hiện
(ký và ghi rõ họ tên)
Nguyễn Ngọc Lâm
Trang 8NhâÏn xét cuœa giáo viên h ƯƠ ùng D âÕn
………
………
………
………
………
………
………
………
………
………
………
………
………
………
………
………
………
………
TP HCM, ngày 03 tháng 06 năm 2012 Sinh viên thực hiện
(ký và ghi rõ họ tên)
Nguyễn Ngọc Lâm
Trang 9Ch ƯƠ ng 1 TôÛng quan vêØ máy hoÏc
- Máy tính hay chương trình máy tính cĩ khả năng tự hồn thiện từ “kinh nghiện”
- Máy học cịn cĩ nghĩa là việc mơ hình hĩa mơi trường xung quanh hay khả năng một chương trình máy tính sinh ra một cấu trúc dữ liệu mới khác với cấu trúc hiện cĩ Chẳng hạn việc tìm ra những luật If…then… từ tập dữ liệu đầu vào
2.1 Phân loại thơ
để phân loại các mẫu dữ liệu mới vào các lớp tương ứng
- Các chương trình học cĩ giám sát được sử dụng rộng rãi như: Mạng Nơ-ron nhân tạo, Support Vector Machine, k – láng giềng gần nhất, Naive Bayes, mơ hình hỗn hợp Gauss
2.1.2 Học khơng giám sát
- Là một phương pháp của ngành máy học nhằm tìm ra một mơ hình phù hợp với các quan sát Trong mơ hình học cĩ giám sát, số các lớp là biết trước Ngược lại trong mơ hình học khơng giám sát, mẫu học chưa được gán nhãn nên nĩi chung,
số lớp chưa biết trước Các hệ học loại này cĩ khả năng tự giám sát quá trình hìnhthành và phát sinh của các lớp Cơng tác gán nhãn được thực hiện tự động một cách hệ thống và phân biệt với các lớp khác
- Trong học khơng giám sát một tập dữ liệu đầu vào là một tập các biến ngẫu nhiên Sau đĩ hệ tìm ra quy luật hình thành các mẫu và khám phá mối quan hệ của dữ liệu
Trang 10- Học không giám sát hữu ích cho việc nén dữ liệu, về cơ bản mọi thuật toán nén
dữ liệu dựa vào một phân bố xác suất trên một tập đầu vào một cách tường minh hay không tường minh
2.1.3 Học bán giám sát
- Học bán giám sát sử dụng các mẫu dữ liệu chưa được gán nhãn để làm giàu cho tập huấn luyện bằng cách từ từ gán nhãn cho chúng dựa vào ước lượng từ tập mẫu
đã được gán nhãn ban đầu
- Tập huấn luyện là một giải thuật được sử dụng nhiều nhất cho học bán giám sát Trong tập huấn luyện một bộ phận lớp đầu tiên được huấn luyện với một lượng nhỏ dữ liệu được gán nhãn Thông thường những điểm được gán nhãn với độ tin cậy cao nhất cùng với những nhãn dự đoán của nó sẽ được thêm vào tập huấn luyện
- Học bán giám sát là một giải thuật được kết hợp từ hai giải thuật: học có giám sát
và học không giám sát
2.1.4 Học tăng cường
- Trong ngành khoa học máy tính, học tăng cường là một lĩnh vực con của máy học, máy tính đưa ra quyết định hành động và nhận kết quả phản hồi từ môi trường, sau đó máy tính tìm cách chỉnh sửa cách ra quyết định của mình
- Khác với học có giám sát, trong học tăng cường các hành động gần tối ưu cũng không được đánh giá đúng sai một cách tường minh
2.1.5 Chuyển đổi
- Tương tự như học có giám sát nhưng không xây dựng hàm một cách rõ ràng Thay vào đó cố gắng đoán kết quả mới dựa vào các dữ liệu huấn luyện, kết quả huấn luyện, và dữ liệu thử nghiệm có sẵn trong quá trình huấn luyện
2.1.6 Học cách học
- Đề cập đến những giả định bổ sung mà máy học dùng để dự đoán đầu ra đúng cho các tình huống chưa từng gặp phải trước đây, là cách học dựa vào kinh nghiệm đã gặp phải trước đó
2.2 Phân loại theo hai tiêu chuẩn cùng lúc: “cấp độ học” & “cách tiếp cận”
2.2.1 Học vẹt
- Hệ tiếp nhận tập khẳng định của các quyết định đúng, nếu tạo ra một quyết định không đúng, hệ sẽ đưa ra các luật/quan hệ đúng đã sử dụng Hình thức học vẹt nhằm cho phép chuyên gia cung cấp tri thức theo kiểu tương tác
2.2.2 Học bằng cách chỉ dẫn
- Thay vì đưa ra một luật cụ thể cần áp dụng vào một tình huống cho trước, hệ thống được cung cấp các chỉ dẫn tổng quát Hệ tự đề ra cách biến đổi trừu tượng thành các luật phổ dụng
2.2.3 Học bằng qui nạp
- Hệ thống được cung cấp một tập các ví dụ và kết luận được rút ra từ từng ví dụ
Hệ liên tục học các luật và quan hệ nhằm xử lý và rút ra kết luận cho từng ví dụ mới
Trang 112.2.4 Học bằng tương tự
- Hệ thống được cung cấp đáp án đúng cho các tác vụ tương tự nhưng không giống nhau Hệ thống cần làm thích ứng đáp án trước đó nhằm tạo ra một luật mới có khả năng áp dụng cho tình huống mới
2.2.5 Học dựa theo giải thích
- Hệ thống phân tích tập các ví dụ nhằm ấn định khả năng đúng hoặc sai, sau đó tạo
ra các giải thích hướng dẫn cách giải các bài toán tương tự trong tương lai
2.2.6 Học dựa trên tình huống
- Bất kỳ tình huống nào được hệ thống lập luận đều được lưu trữ cùng với kết quả cho dù đúng hay sai Khi gặp tình huống mới, hệ thống sẽ tự thích nghi dựa vào các tình huống cũ đã được lưu trữ
4.1 Tiếp cận thống kê
4.1.1 ví dụ: chúng ta hãy tìm hiểu một chương trình khá thú vị Chương trình này tuy chỉ hoạt động dựa trên xác xuất nhưng lại cho ra một kết quả hết sức ấn tượng Đó là chươngtrình dự đoán ý nghĩ con người, liệu đây có phải là một “tiểu xảo” nhằm lừa chúng ta, cho rằng máy tính cũng thông minh không? Câu trả lời là có nhưng hiệu quả của chương trình này khiến chúng ta phải suy nghĩ Chương trình này khá đơn giản: máy sẽ đoán người chơi nghĩ số 1 hay số 0 trong đầu, người chơi phải trả lời cho máy biết là máy đoán đúng hay đoán sai Để từ đó máy tính sẽ học quy luật suy nghĩ của người chơi
Trang 12Hình 1.1 chương trình dự đoán ý nghĩ con người
4.1.2 Ý tưởng cài đặt: hết sức đơn giản
- Lưu trữ toàn bộ dãy số 0, 1 mà người chơi đã nghĩ ra
- Lấy 7 con số trước đó (do người chơi đưa ra), tính xác xuất xuất hiện của số 1 và
số 0 sau dãy 7 con số này Máy sẽ đoán số có xác xuất xuất hiện cao hơn
- Giả sử ở lần đoán thứ i, dãy số mà người dùng đã dự đoán như sau:
- … 1 1 0 1 0 1 0 0 0 0 1 0 1 0 0 0 0 0 0 1 0 0 ?
- Từ dữ liệu ở những lần đoán trước đó, giả sử số lần xuất hiện của 1 sau dãy 0 0 0
0 1 0 0 là 28 và số lần xuất hiện của số 0 là 90
- Xác xuất xuất hiện của số 1 sau dãy này là: = 23.7%
- Xác xuất xuất hiện của số 0 sau dãy này là: = 76.3%
Máy sẽ đoán là số 04.1.3 Nhận xét ví dụ
- ví dụ đã đưa ra là thuộc cấp độ học vẹt sử dụng cách tiếp cận thống kê
- Máy không thể đoán đúng ngay được, nhưng càng về sau(sau vài trăm lần đoán) máy càng trở nên chính xác một cách kinh ngạc (trung bình có thể lên đến 90% )
- Trên thực tế khi cài đặt chương trình này tác giả không chỉ đoán qui luật từ người chơi, máy còn sử dụng cả dãy số mà máy đã đoán
4.2 Tiếp cận hình học
4.2.1 Hãy xét bài toán sau: cho tập các hình chữ nhật với kích thước( ngang & rộng) và màu sắc khác nhau(hình vẽ 1.2) cho biết hình bên phải có màu gì?
Trang 13Hình 1.2 các khối hình chữ nhật4.2.2 Giải quyết bài toán
- Theo phản ứng tự nhiên của con người khi đứng trước bài toán loại này là: tìm xem khối hình chữ nhật cần đoán màu sắc có kích thước ( ngang & rộng) gần giống với hình chữ nhật đã cho nào nhất để đoán màu sắc cho khối hình chữ nhậtchưa biết Như thế nào là gần giống?
- Để dể hình dung hơn về khái niệm “gần” trong bài toán này, ta hãy nhìn bài toán
từ một góc nhìn khác Biểu diễn 2 thuộc tính chiều rộng & chiều cao của hình chữ nhật dưới dạng 1 điểm trên mặt phẳng 2 chiều, trong đó chiều rộng ứng với trục hoành còn chiều cao ứng với trục tung
Hình 1.3 biểu diễn dưới mặt phẳng tọa độ
- Tính khoảng cách từ khối cần tìm đến tất cả các khối còn lại, sau đó chọn ra khoảng cách gần nhất Người ta gọi bài toán này là bài toán người láng giềng gần nhất Tuy nhiên cách làm này có độ phức tạp O(n)
- Một cách hiệu quả hơn là tìm cách phân chia không gian các hình chữ nhật mẫu thành từng khu vực riêng biệt theo kiểu phân cấp không gian
Trang 14- Đầu tiên ta phân chia không gian thành 2 đường trên và dưới theo đường y = 3.5(đường [1]) Sau đó, mỗi phần không gian còn lại tiếp tục được phân chia Quá trình phân chia tiếp tục cho đến khi mỗi phần không gian chứa đúng một hình chữ nhật trong tập mẫu.
Hình 1.4 phân chia không gian
- Kết quả của phép phân chia này cho chúng ta 8 phần không gian riêng biệt ứng với 8 hình chữ nhật đã cho ban đầu
- Để xác định hình chữ nhật mẫu gần với hình chữ nhật chưa biết màu cần tìm(tạmgọi là U), ta xác định vị trí tương đối của U so với đường chia [1] U nằm trên đường chia [1] nên nó sẽ được xếp vào vùng không gian bên trên Tiếp theo ta lại so sánh U với đường chia [1.2] U nằm bên trái Cuối cùng, u nằm bên dưới đường chia [1.2.2], nêu U được xếp vào cùng một không gian với hình chữ nhật màu cam Do đó U có màu gia cam
4.2.3 Nhận xét bài toán
- Về mặt thuật toán, phân chia không gian theo cách làm như trên là phân chia theo cây k-d, với d là số chiều của không gian được phân chia Trường hợp bài toán ở trên là chia theo theo cây k – 2 Nếu bài toán đặt ra còn thêm một thông
số nữa là trọng lượng của các hình chữ nhật thì bài toán của chúng ta sẽ dẫn đến cây k – 3
- Cây quyết định K–2 của bài toán có thể biểu diễn như sau:
Trang 15Hình 1.5 Cây quyết định k-2
4.3 Tiếp cận logic
4.3.1 Ví dụ 1
- Trong chương trình máy học ở phương pháp tiếp cận thống kê chỉ là một chuổi
số nhị phân đơn giản Nhưng trên thực tế, tập mẫu mà chúng ta khảo sát thường
có cấu trúc rất phức tạp, đặc biệt là liên quan tới các hình ảnh Bạn hãy thử tìm đặc tính để phân biệt hai nhóm hình ảnh A và B sau đây
Hình 1.6 phân biệt nhóm hình ảnh4.3.2 Nhận xét ví dụ 1
- Nếu tinh mắt bạn sẽ nhân thấy các điểm trắng của nhóm A luôn thẳng hàng
- Thật khó để phát hiện ra đặc tính vừa nêu trên (ngay cả đối với con người) nhất
là đối với các đối tượng hình học
- Nhà bác học Bongard đã đề ra một phương án xác định mối liên hệ bằng cách xây dựng các mệnh đề logic Khảo sát ví dụ 2 sau đây để nắm rõ vấn đề hơn về phương pháp này
4.3.3 Ví dụ 2
- Xác định đặc điểm của 2 nhóm hình A và B sau đây
Trang 16Hình 1.6 xác định đặc điểm 2 nhóm hình A và B4.3.4 Nhận xét ví dụ 2.
- Nhóm A: tổng số đỉnh trừ đi tổng số đối tượng bằng 7(chẳng hạn như hình 2 trong nhóm A gồm 2 hình tam giác và 1 hình chữ nhật, tổng cộng 10 đỉnh)
- Nhóm B: tổng số đỉnh trừ tổng số đối tượng bằng 6(chẳng hạn như hình 4 trong nhóm B gồm 2 hình chữ nhật, tổng cộng có 8 đỉnh)
- Hình ellipse và hình tròn được xem là không có đỉnh nào
- Nếu không được gợi ý thì quan hệ trên là một loại quan hệ rất khó được phát hiện
- Với phương án của Bongard, ta vẫn có thể tìm ra được mối quan hệ đủ để phân biệt hai nhóm hình này
4.3.5 Định ra các mệnh đề logic đơn giản
- P1: “tồn tại tam giác”
- P2: “tồn tại vòng tròn”
- P3: “tồn tại hình oval”
- P4: “tồn tại hình chữ nhật”
- P5: “tồn tại hình đa giác nhiều hơn 4 cạnh”
Với 5 mệnh đề logic này bạn hãy lập ra bảng sau nhằm xác định giá trị của các mệnh đề ứng với mỗi hình trong tập hình đã cho
Trang 17có giá trị là 0 Nói cách khác, ta có thể phân biệt hình 2 với các hình còn lại bằngmệnh đề logic “đặc trưng” sau:
q2 = P 1 ∧ P 2 ∧ ¬P 3 ∧ P 4 ∧ ¬P 5 hay viết gọn lại là
- Như vậy một hình H nào đó muốn xếp vào nhóm hình A thì giá trị các mệnh đề
P1 đến P6 của hình H phải thỏa đều kiện ϕ
4.3.6 Nhận xét
- Trong trường hợp tổng quát, phải chọn các mệnh đề cơ sở (như các mệnh đề P1, P2,…, P6 trong ví dụ trên) như thế nào để mệnh đề đặt trưng của tất cả các hình trong tập mẫu là khác nhau và mệnh đề đặt trưng của nhóm hình cũng phải khác nhau
- Làm sao xây dựng các thủ tục để kiểm tra các giá trị của mệnh đề cơ sở mắt người có thể dễ dàng nhận biết sự tồn tại một hình tròn, hình tam giác, hình vuông,… trong một hình ảnh có nhiều đối tượng khác nhau nhưng làm bằng chương trình máy tính hoàn toàn không đơn giản chút nào
- Chính vì lý do đó, phương pháp học này rất cần đến sự hỗ trợ của con người trong việc đưa ra quyết định tính đúng đắn của mệnh đề thành viên trong mệnh
đề đặc trưng
4.4 Tiếp cận mạng Neural
- Mạng neural là một thuật ngữ nói đến một phương pháp giải quyết vấn đề - bài toán trên máy tính mô phỏng theo hoạt động của các tế bào thần kinh trong não bộ Vấn đềnày sẽ được phân tích kỹ hơn trong các chương sau
Trang 184.5 Tiếp cận khai mỏ dữ liệu
4.5.1 Tại sao cần khai mỏ dữ liệu?
4.5.1.1 Sự cần thiết của khai mỏ dữ liệu
- Dữ liệu chứa rất nhiều thông tin có giá trị, rất có lợi cho quy trình ra quyết định
- Không thể phân tích một khối lượng lớn dữ liệu bằng tay do phần lớn dữ liệu chưa bao giờ được phân tích
4.5.1.1.1 Khía cạnh thương mại
- Trong thương mại khối lượng dữ liệu cần thu thập và lưu trữ vô cùng lớn
- Máy tính ngày càng mạnh và rẽ hơn
- Áp lực cạnh tranh vô cùng khóc liệt
4.5.1.1.2 Khía cạnh khoa học
- Dữ liệu được thu thập và lưu trữ với tốc độ cao (GB/h)
- Các kỹ thuật truyền thống không đủ khả năng làm việc với dữ liệu thô
- Khai mỏ dữ liệu có thể giúp các nhà khoa học phân loại và phân đoạn dữ liệu, đồng thời xây dựng các giả thiết
4.5.1.2 Sự ra đời của khai mỏ dữ liệu
- Khai mỏ dữ liệu được ra đời trong bối cảnh: “giàu dữ liệu – nghèo tri thức”.
- Khai mỏ dữ liệu là một giải pháp giúp phân tích tự động các núi dữ liệu và hỗ trợ ra quyết định
4.5.1.3 Sử dụng khai mỏ dữ liệu khi nào
- Dữ liệu quá nhiều
- Dữ liệu lớn (chiều và kích thước)
Dữ liệu ảnh (kích thước)
Dữ liệu gene (số chiều)
- Có ít tri thức về dữ liệu
4.5.1.4 Lĩnh vực ứng dụng khai mỏ dữ liệu 4.5.1.4.1 Thông tin thương mại
- Phân tích thị trường và mua bán (chính khoán, nhà đất, tiền tuệ, )
- Phân tích đầu tư
- Phát hiện gian lận
- …4.5.1.4.2 Thông tin sản xuất
- Đều khiển và lên kế hoạch
Trang 194.5.1.5.1 Định nghĩa: khai mỏ dữ liệu là quá trình không tầm thường của việc
xác định các mẫu tiềm ẩn có tính hợp lệ, mới lạ, có ích, và có thể hiểuđược tối đa trong CSDL U.Fayyad(996)
4.5.1.5.2 Thế nào là mẫu tiềm ẩn?
- Mẫu tiềm ẩn là mối quan hệ trong dữ liệu ví dụ như:
- Những người mua quần tây thường hay mua thêm áo sơ mi
- Những người có mức tính dụng tốt thì thường ít bị tai nạn
Mô hình hóa phụ thuộc
4.5.1.8 Các kỹ thuật khai mỏ dữ liệu
Trang 204.5.1.8.1 Kỹ thuật phân lớp và dự đoán
4.5.1.8.1.1 Phân lớp
- Mục đích: để dự đoán những nhãn phân lớp cho các mẫu dữ liệu mới
- Đầu vào: một tập các mẫu dữ liệu huấn luyện, với một nhãn phân lớp cho mỗi mẫu dữ liệu
- Đầu ra: mô hình dựa trên tập huyến luyện và những nhãn phân lớp.4.5.1.8.1.2 Dự đoán
- Tương tự như phân lớp, dự đoán cũng xây dụng một mô hình và sử dụng
mô hình đó để dự đoán cho những giá trị chưa biết
4.5.1.8.2 Kỹ thuật gom nhóm
- Gom nhóm là quá trình nhóm các đối tượng thành từng nhóm/cụm/lớp có
ý nghĩa Các đối tượng trong cùng một nhóm có nhiều tính chất chung và
có những tính chất khác với các đối tượng
4.5.1.9 Thách thức trong quá trình khai mỏ dữ liệu
- Tính hiệu quả và tính ổn định của các giải thuật khai mỏ dữ liệu
- Các phương pháp khai mỏ dữ liệu song song, phân tán, luồng và tăng cường
- Xử lý với dữ liệu chứa nhiều lỗi, không chắc chắn, không hoàn chỉnh
- Khai mỏ các kiểu dữ liệu rất khác nhau
- Bảo đãm tính an ninh, toàn vẹn, riêng tư trong khai mỏ dữ liệu
- …
Trang 21Ch ƯƠ ng 2 Học bằng phưƠng pháp
xây D ưÏng cây Đ iÏnh D anh
- Một trong những phương pháp học ở đây là học bằng phương pháp xây dựng cây định danh
- Quy trình học:
Bảng dữ liệu Phép thử Cây định danh Xây dựng Luật Tối ưu luật
thiết lập một cách ngầm định bởi một danh sách các mẫu mà chúng được phân vào một lớp
đã biết
- Một vấn đề vơ cùng quan trọng trong các thuật tốn xây dựng cây định danh đĩ là tại mỗithời điểm chúng ta chọn thuộc tính nào để phân hoạch sao cho cây định danh thu được là gọn nhất
- Cĩ 2 thuật tốn chọn thuộc tính phân hoạch hay được sử dụng đĩ là:
Thuật tốn Quinlan
Thuật tốn độ đo hỗn loạn
Nhận xét: thơng thường trong CSTT người ta hay dùng thuật tốn “Độ đo hỗn loạn”.
ST T
1 Sarah Vàng Trung Bình Nhẹ Khơng Cháy Nắng
2 Dana Vàng Cao Trung Bình Cĩ Khơng
3 Alex Nâu Thấp Trung Bình Cĩ Khơng
4 Annie Vàng Thấp Trung Bình Khơng Cháy Nắng
5 Emille Đỏ Trung Bình Nặng Khơng Cháy Nắng
6 Peter Nâu Cao Nặng Khơng Khơng
7 John Nâu Trung Bình Nặng Khơng Khơng
8 Kartie Vàng Thấp Nhẹ Cĩ Khơng
Hình 2.1 bảng dữ liệu quan sát
- Cần xây dựng các quy luật để kết luận một người như thế nào khi đi tắm biển thì bị cháynắng
Trang 22 Trong trường hợp này tập R gồm có 2 phần tử {Cháy nắng, Không cháy nắng}.
Tập P là tập tất cả các mẫu trong bảng dữ liệu quan sát
- Hiệu tượng cháy nắng dựa trên 4 thuộc tính sau:
- Các phân hoạch Pi được đặt trưng bởi thuộc tính đích ri với ri R
- Ứng với mỗi phân hoạch Pi ta xây dựng luật Li : GT i ri trong đó các giả thiết GTi là mệnh đề được hình thành bằng cách kết hợp các thuộc tính dẫn xuất
- Có 2 cách phân hoạch hiển nhiên
Cách thứ nhất: Là cho mỗi mẫu vào một phân hoạch riêng( P1 = {Sarah}, P2 = {Dana}, P3 = {Alex}, …) Tổng cộng có 8 phân hoạch tương ứng với 8 mẫu trong bảng dữ liệu quan sát
Cách thứ hai: Là phân hoạch thành hai tập, một tập gồm tất cả những người cháy nắng, tập còn lại gồm tất cả những người không cháy nắng
Một phương pháp khác là xét ngẫu nhiên qua từng thuộc tính rồi phân nhóm kết quả theo từng giá trị của thuộc tính
- Pvàng = {Sarah, Dana, Annie, Kartie}
- Pnâu = {Alex, Peter, John}
- Pđỏ = {Emmile}
Ghi chú: những người được gạch dưới và in đậm là bị cháy nắng.
Trang 23- Tập Pnâu chứa toàn người không cháy nắng
- Tập Pđỏ chứa toàn người bị cháy nắng
- Tập Pvàng chứa lẫn lộn người không cháy nắng và người cháy nắng, nên tiếp tục phân hoạch tập Pvàng kết hợp với thuộc tính chiều cao thành 3 tập con sau:
Pvàng, trung bình = {Sarah}
Pvàng, cao = {Dana}
Pvàng, thấp = {Annie, Kartie}
Hình 2.3 sơ đồ mô tả phân hoạch cho thuộc tính màu tóc và chiều cao
- Quá trình này cứ tiếp tục cho đến khi tất cả các nút lá của cây không còn lẫn lộn giữa cháy nắng và không cháy nắng
- Quá trình này còn được gọi là quá trình “đâm chồi” Cây chúng ta đang xây dựng được gọi là cây định danh
- Nếu ban đầu ta không chọn thuộc tính màu tóc để phân hoạch mà chọn một thuộc tính khác, chẳng hạn như thuộc tính chiều cao thì kết quả như thế nào? Vậy thì cách phân hoạch nào sẽ tốt hơn?
Trang 244 Phương án chọn thuộc tính phân hoạch.
- Khi đứng trước một ngã rẽ, ta phải đi hướng nào?
- Hai phương pháp dưới đây sẽ giúp chúng ta chọn được thuộc tính phân hoạch tại mỗi bước xây dựng cây định danh
- Quinlan quyết định thuộc tính phân hoạch bằng cách xây dựng các vector đặc trưng cho
mỗi giá trị của từng thuộc tính dẫn xuất và thuộc tính mục tiêu Cụ thể như sau:
Với mỗi thuộc tính dẫn xuất A còn có thể sử dụng để phân hoạch, tính:
Thuộc tính được chọn để phân hoạch là thuộc tính có nhiều vector đơn vị nhất
Lưu ý: nếu không có vector đơn vị thì chọn thuộc tính có ít đặc tính nhất để phân hoạch.
- Định nghĩa độ đo V:
V(thuộc tính = đặc tính) =
đỏ) nên sẽ có 3 vector đặc trưng tương ứng
- VTóc (Vàng) = (T(vàng, cháy nắng), T(vàng, không cháy nắng))
Số người tóc vàng: 4
Số người tóc vàng và bị cháy nắng: 2
Tổng số phần tử trong phân hoạch có giá trị thuộc tính dẫn xuất A là j
và có giá trị thuộc tính mục tiêu là ri
Tổng số phần tử trong phân hoạch có giá trị thuộc tính dẫn xuất A là j
Trang 25Kết luận: tổng số vector đơn vị của thuộc tính màu tóc: 2
VChiều cao(Trung bình) = ()
VChiều cao(Cao) = () = (0, 1) (vector đơn vị)
VDùng kem (Có) = () = (0, 1) (vector đơn vị)
Kết luận: tổng số vector đơn vị của thuộc tính dùng kem: 1
Nhận xét: thuộc tính màu tóc có nhiều vector đơn vị nhất nên được chọn để phân hoạch đầu
tiên
Trang 26Hình 2.5 phân hoạch theo thuộc tính màu tóc
- Tiếp tục phân hoạch tập Pvàng.
- Tính các vector đặc trưng đối với các thuộc tính còn lại(Chiều cao, cân nặng, dùng kem)
- Trong phân hoạch Pvàng bảng dữ liệu quan sát còn lại sau khi loại bỏ các mẫu ổn định
ST T
1 Sarah Trung Bình Nhẹ Không Cháy Nắng
2 Dana Cao Trung Bình Có Không
4 Annie Thấp Trung Bình Không Cháy Nắng
VChiều cao(Trung bình) = () = (1, 0) (vector đơn vị)
VChiều cao(Cao) = () = (0, 1) (vector đơn vị)
VDùng kem(Không) = () = (1, 0) (vector đơn vị)
VDùng kem(Có) = () = (0, 1) (vector đơn vị)
Kết luận: tổng số vector đơn vị của thuộc tính dùng kem: 2
Nhận xét: