Giải quyết vấn đề thiếu thông tin quan trọng Xử lý và thao tác với “biểu tượng” Thế hệ học máy thứ hai ML2.0 Học và sử dụng tri thức từ kinh nghiệm, đặc biệt các miền văn bản
Trang 1BÀI GIẢNG KHAI PHÁ DỮ LIỆU
Nội dung bổ sung về Khai phá dữ liệu
1
Trang 31 GIỚI THIỆU VỀ HỌC MÁY SUỐT ĐỜI
3
Trang 4Nguồn tài liệu chính
Sách
[Chen16[ Zhiyuan Chen and Bing Liu Lifelong Machine Learning
Morgan & Claypool Publishers, November 2016
[Thrun96] Sebastian Thrun Explanation-Based Neural Network
Learning: A Lifelong Learning Approach Springer US, 1996.
Bài trình bày
Zhiyuan Chen and Bing Liu Lifelong Machine Learning in the Big
Data Era A IJCAI 2015 Tutorial 130
Zhiyuan Chen, Estevam Hruschka, Bing Liu Lifelong Machine
Learning and Computer Reading the Web A KDD-2016 Tutorial 217
DS&KTLab: A New Lifelong Topic Modeling Method and Its Application
to Vietnamese Text Multi-label Classification ACIIDS 2018
https://www.cs.uic.edu/~liub/lifelong-learning.html Zhiyuan Chen
https://www.cs.uic.edu/~liub/lifelong-learning.html Bing Liu
Trang 5Hình ảnh Trường thu – đông Quảng Bình
5
Trang 6Hình ảnh Trường thu – đông Quảng Bình
Trang 7Tại sao học máy suốt đời?
Trang 8Học máy truyền thống (ML1.0)
Học máy thống kê: nhiều thành công đáng ghi nhận
Học máy cô lập: xem xét một bài toán học máy
Không thừa kế được ”kinh nghiệm” từ học trước đây
Không thể đáp ứng “học tựa như con người”
Yêu cầu tập ví dụ huấn luyện đủ lớn
“học tựa như con người”
Chỉ cần tập ví dụ rất nhỏ
Trang 9Học suốt đời (ML2.0): một hành vi trí tuệ
Nghiên cứu trí tuệ tự nhiên luôn thời sự
Một số hành vi trí tuệ liên quan tới học
Học từ kinh nghiệm và áp dụng tri thức từ kinh nghiệm
Giải quyết vấn đề thiếu thông tin quan trọng
Xử lý và thao tác với “biểu tượng”
Thế hệ học máy thứ hai (ML2.0)
Học và sử dụng tri thức từ kinh nghiệm, đặc biệt các miền văn bản
Giải quyết thách thức tập ví dụ huấn luyện lớn
Vấn đề: Chọn tri thức đã học để giải quyết bài toán mới
9
Trang 10Học suốt đời: một nguồn trí tuệ [Poole17]
Sinh học
Tiến hóa của loài người
Sống sót được trong nhiều môi trường sống khác nhau
Cung cấp ngôn ngữ
Các công cụ hữu dụng, các khái niệm hữu dụng, sự thông thái
từ cha mẹ và giáo viên truyền tới con cái
Học suốt đời
Con người học hỏi suốt đời
Tích lũy tri thức và kỹ năng
Học nhanh hơn và hiệu quả hơn
[Poole17] David L Poole, Alan K Mackworth Artificial intelligence foundations of
computational agents (2 nd edition) Cambridge University Press, 2017
Trang 11Xe tự lái: một hệ thống học suốt đời
11
https://www.darpa.mil/news-events/2017-03-16
Hình mô tả hệ thống học của “xe tự lái”
cảm biến quét xung quanh thông báo không ngừng tới hệ thống
hệ thống học sử dụng dữ liệu (i) Hướng dẫn hành động lái xe hiện
thời; (ii) Chỉnh sửa chương trình và dữ liệu
Trang 12Học suốt đời: hiện diện một cộng đồng
http://lifelongml.org/
công bố về học máy suốt đời danh sách học giả học suốt đời
dự án học suốt đời chính Các sự kiện học suốt đời thông báo và tin tức học suốt đời
Trang 13Học suốt đời: một cộng đồng
13
http://lifelongml.org/research-groups/
Bing Liu Sentiment Analysis Mining Opinions Sentiments and
Emotions Cambridge University Press, 2015 (11 Mining Intentions)
Trang 14Một thư xin tài liệu
Trang 15Một chương trình nghiên cứu
Thông tin chung
Cơ quan nghiên cứu Bộ Quốc phòng Mỹ (Defense Advanced Research Projects Agency: DARPA)
Quản lý chương trình: Tiến sĩ Hava Siegelmann,
https://www.darpa.mil/staff/dr-hava-siegelmann,
http://dblp.uni-trier.de/pers/hd/s/Siegelmann:
Hava_T= (J40, C42)
Mục tiêu kỹ thuật
Cơ chế học máy: học máy liên tục áp dụng kinh nghiệm quá khứ
và thích ứng "bài học kinh nghiệm" với dữ liệu/tình huống mới, phát triển kỹ thuật giám sát hành vi hệ thống học máy, đặt phạm vi khả năng thích ứng, và can thiệp vào chức năng hệ thống khi cần
Lý thuyết mạng, thuật toán, phần mềm và kiến trúc máy tính
Cơ chế học sinh học: (i) hệ sinh thái học: di truyền từ thế hệ cha
con: di truyền toàn bộ, di truyền chỉ khả năng học, v.v.?; (ii) làm thích nghi áp dụng được tới hệ thống học máy
15
https://www.darpa.mil/news-events/2017-03-16
Trang 16Học máy truyền thống liên quan
Trang 17Học máy giám sát tối ưu hóa
Bài toán học máy giám sát
Input
Cho “tập ví dụ mẫu” IL: (ILIIL),
f xác định trên IL, i IL: f(i)=o đã biết.
tự động gán nhãn cho mọi nhận xét.
Trang 18Xấp xỉ tốt nhất?
Biết f chỉ ở một bộ phận (tập IL): f|IL
Tập G vô hạn các ánh xạ, gG, g: IO
Chưa biết f toàn bộ
Cơ hội: Biết f|IL để chọn f* “xấp xỉ tốt nhất” f
f|IL là toàn bộ “hiểu biết” về f
IL: vừa tìm f* vừa đánh giá f* Chia ngẫu nhiên IL = ITrain + ITest
Trang 19Học máy không giám sát tối ưu hóa
Bài toán học không giám sát
Cho I là tập dữ liệu I={<i>},
G = {g là một phân hoạch của I: g={I1,I2,…, Ig} và I=Ij}}
tìm f là phân hoạch tốt nhất
Trang 20Học truyền thống và học chuyển đổi
Học truyền thống: (i) Cho bài toán/miền A: có dữ liệu có nhãn để dạy mô hình A, áp dụng mô hình tới dữ liệu chưa nhãn của A; (ii) Cho bài toán/miền B: cần đủ ví dụ mẫu cho B; (iii) Không liên hệ học A và B
Học chuyển đổi: (i) Transfer learning/domain adaptation (thích ứng miền); (ii) Miền B: một/nhiều miền nguồn, nhiều dữ liệu có nhãn; Miền đích A: ví dụ mẫu ít/vắng; (iii) Liên kết học B tới A ; (iv): Giả thiết quan trọng: miền nguồn “tương tự” miền đích : tri thức miền B dùng cho học miền đích A
Trang 21Học chuyển đổi và học suốt đời
Kiểu truyền tri thức miền nguồn cho miền đích
chuyển dịch “ví dụ có nhãn nguồn” “ví dụ có nhãn đích”; NLP
chuyển dịch “đặc trưng nguồn” “đặc trưng đích”
Học tương ứng cấu trúc Structural Correspondence Learning:
SCL: ứng dụng văn bản, “dấu hiệu đặc trưng” cùng xuất hiện ở hai miền “đặc trưng then chốt”, ví dụ từ phổ biến ở cả hai miền
Học sâu (deep learning) trong học chuyển đổi
Phân biệt học suốt đời với học chuyển đổi
Học chuyển đổi không học liên tục và không tích lũy tri thức
Học chuyển đổi là một chiều
Học suốt đời không đòi hỏi yêu cầu tương tự miền
Textual Entailment: Minh Quang Nhat Pham, Minh Le Nguyen, Akira Shimazu An
Empirical Study of Recognizing Textual Entailment in Japanese Text CICLing (1)
2012: 438-449; Quang-Thuy Ha, Thi-Oanh Ha, Thi-Dung Nguyen, Thuy-Linh
Nguyen Thi Refining the Judgment Threshold to Improve Recognizing Textual
Entailment Using Similarity ICCCI (2) 2012: 335-344.
VietSentiWordNet : Quang-Thuy Ha, Tien-Thanh Vu, Huyen-Trang Pham, Cong-To Luu.An Upgrading Feature-Based Opinion Mining Model on Vietnamese Product Reviews AMT 2011: 173-185.
Trang 22Học đa nhiệm theo lô và học suốt đời
Giới thiệu
multi-task learning/batch multi-task learning “theo lô”
Định nghĩa: học nhiều bài toán = {1, 2, …, 𝒯 = {1, 2, …, N} đồng thời, mỗi bài
toán j có dữ liệu học Dj Mục tiêu tối ưu hóa hiệu năng mọi bài toán
Giả thiết các bài toán có liên quan chặt
Dữ liệu bài toán trong cùng một không gian, các mô hình bài toán
“tựa” trên một mô hình tổng quát
Sử dụng chung tập đặc trưng
Phân biệt học suốt đời với học đa nhiệm theo lô
Cùng mục địch chia sẻ thông tin hỗ trợ việc học
Học đa nhiệm theo mô hình truyền thống: không tích lũy tri thức, không sử dụng khái niệm học liên tục
Học đa nhiệm trực tuyến: một kiểu học suốt đời do có giữ lại tri thức cho học về sau
Trang 23Học trực tuyến đơn nhiệm& học suốt đời
Giới thiệu
theo một thứ tự nhất định, khi điểm dữ liệu mới xuất
hiện mô hình hiện tại được cập nhật để phù hợp tốt nhất
Phân biệt học suốt đời với học trực tuyến
gian, không lưu tri thức, không sử dụng tri thức từ trước.
sử dụng tri thức hỗ trợ bài toán mới
Trang 24Học tăng cường và học suốt đời
Học được quỹ đạo tối ưu hóa mục tiêu ánh xạ trạng thái hành động để cực đại tổng thưởng trong thời gian dài
Phân biệt học suốt đời với học tăng cường
Học tăng cường:
chi phạm vi một bài toán và ở một môi trường,
không tích lũy và sử dụng tri thức
Trang 26Học mạng nơ-ron giải thích EBNN [Thrun96]
EBNN: Explanation-based neural network learning
Tích hợp học quy nạp và học phân tích Mức cơ sở, mức meta EBNN
Học quy nạp: EBNN biên dịch tập hỗ trợ Y thành lý thuyết miền: tri thức mức meta Tập ràng buộc Sử dụng tri thức kinh nghiệm
Học phân tích: Ví dụ học trong tập học X được giải thích và phân tích theo lý thuyết miền, lấy được thông tin dốc cho hàm đích: tri thức mức
cơ sở Thông tin độ dốc được kết hợp vào học mạng nơ-ron
Trang 27Lựa chọn tri thức kinh nghiệm
Bài toán học
Học giám sát: Cho một ánh xạ F: IO, tập ví dụ {<i,o>}, i I, oO,
Tìm f*G xấp xỉ tốt nhất f G là không gian mọi hàm
Tồn tại một tập các tập giả thuyết đối với các bài toán học
Học thiên vị (learning bias): Học hàm f* có sử dụng thiên vị từ các tập giả thuyết
Ví dụ: các giả thuyết Ho, H1, H2, H3, H4 H4 thiên vị tốt nhất
Hi tập ví dụ học bài toán học Fi “tập hỗ trợ”
Trang 28Khung học suốt đời [Silver13]
Định nghĩa hệ thống học máy suốt đời
Học nhiều bài toán trong suốt vòng đời từ một hoặc nhiều miền
Duy trì tri thức học được một cách hiệu suất và hiệu quả
Sử dụng tri thức đó để học bài toán mới một cách hiệu suất và hiệu quả
Trang 29Giải thích [Silver13]
Duy trì hiệu suất và hiệu quả
Hiệu quả (i) Ngăn ngừa tiến cử /sử dụng tri thức lỗi; (ii) Lưu dài hạn giả thuyết đủ chính xác tổng quát hóa, (ii) Thêm giả thuyết không giảm độ chính xác mọi giả thuyết cũ/mới, (iv) Tích hợp/hợp nhất tri thức mới: tăng độ chính xác tri thức cũ
Hiệu suất: về không gian bộ nhớ lưu giữ và thời gian tính toán
Học hiệu suất và hiệu quả
Hiệu năng giả thuyết mới hiệu năng giả thuyết từ tập ví dụ học
Dùng tri thức quá khứ cần ra mô hình bài toán mới chính xác hơn
Lựa chọn tri thức liên quan nhất để thiên vị mô hình bài toán mới
Lựa chọn tri thức quá khứ nên giảm thời gian học
Duy trì (hợp nhất) tri thức bài toán đã học
Chuyển giao tri thức chọn lọc để học bài toán mới
Hệ thống hóa tương tác hiệu suất và hiệu quả duy trì/chuyển giao tri thức
29
Trang 30Hệ thống học suốt đời [Isele17]
[Isele17] David Isele, Mohammad Rostami, Eric Eaton Using Task Descriptions in
Lifelong Machine Learning for Improved Performance and Zero-Shot Transfer
Trang 31Học máy suốt đời [Chen and Liu, 2016]
Định nghĩa học suốt đời
Một quá trình học liên tục
Tại thời điểm bất kỳ: (i) bộ học đã hoàn thành một chuỗi N bài toán/với tập dữ liệu học T1/D1, T2/D2, …, TN/DN: Ti thuộc 1/nhiều kiểu bài toán thuộc một miền hoặc nhiều miền; (ii) Gặp bài toán mới/hiện tại TN+1/DN+1, sử dụng tri thức quá khứ trong CS tri thức
KB để học bài toán TN+1
Mục tiêu: Tối ưu hóa bài toán TN+1/Tối ưu hóa mọi bài toán T1, T2,
…, TN, TN+1
Một số nhận xét
Định nghĩa ở mức chung chung cần được diễn giải
Ba đặc trưng chính: học liên tục, tích lũy và duy trì tri thức trong
KB học một loạt bài toán, học có thể không dừng, học ngày càng thông thạo và học tốt hơn
Khái niệm “miền” (không gian đặc trưng) và “kiểu bài toán” (trích xuất thông tin, liên kết thực thể)
Bài toán mới xuất hiện đột ngột hoặc từng bước 31
Trang 32Tri thức mức cao [Chen and Liu, 2016]
Hai kiểu tri thức quá khứ
mọi bài toán Cấu trúc ngầm định này được học, tận dụng bài toán mới
Tri thức cục bộ : Không có ngầm định trên Cần chọn mẩu tri thức theo nhu cầu bài toán hiện tại Tối ưu hóa kết quả bài toán hiện thời dựa trên tri thức quá khứ
Hai loại bài toán
Trang 33Khung học máy suốt đời [Chen and Liu, 2016]
Giới thiệu
Bốn thành phần chính: Cơ sở tri thức (Knowledge Base: KB), Bộ học dựa trên tri thức (Knowledge-Based Learner: KBL), Bộ quản lý bài toán (Task Manager: TM) và Đầu ra
Có chuyển giao thông tin từ các bước
33
Trang 34Cơ sở tri thức
Giới thiệu chung
Cơ sở tri thức gồm có: Kho thông tin quá khứ (Past Information Store: PIS), Bộ khai phá siêu tri thức (Meta-Knowledge Miner: MKM), Kho siêu tri thức (Meta-Knowledge Store: MKS) và Bộ suy luận tri thức (Knowledge Reasoner: KR)
Kho thông tin quá khứ
Lưu thông tin học trong mỗi bài toán quá khứ: (i) dữ liệu gốc, (ii) kết quả trung gian, (iii) mô hình/mẫu kết quả học được
Người dùng quyết định cần giữ lại gì để giúp việc học tương lai
Bộ khai phá siêu tri thức
Khai phá siêu tri thức từ PIS và MKS (siêu khai phá: meta-mining) Tri thức kết quả được lưu vào MKS
Kho siêu tri thức và Bộ suy luận tri thức
MKS: Biểu diễn tri thức phù hợp
KR: suy luận dựa trên tri thức MKS, thông tin PIS ra tri thức mới
Trang 35Ba thành phần khác
Bộ học dựa trên tri thức
Hai thành phần con: dùng tri thức quá khứ từ KB học bài toán mới
Bộ khai phá tri thức bài toán (Task knowledge miner: TKM): dùng tri thức thô/thông tin từ KB để khai phá/xác định tri thức phù hợp bài toán hiện tại Cần tri thức đặc tả bài toán và tri thức tổng quát hơn được khai phá từ KB
Bộ học: Sử dụng tri thức khai phá được vào học bài toán mới
Đầu ra
Kết quả học cho người dùng: mô hình dự báo/phân lớp, cụm chủ đề…
Bộ quản lý bài toán
nhận và quản lý các bài toán đi tới hệ thống và xử lý việc thay đổi bài toán và đề xuất bài toán học mới cho KBL
35
Trang 36Mô hình chủ đề suốt đời
Trang 37Các bước khai phá dữ liệu văn bản
Giải thích
Nguồn văn bản: Nội bộ, Internet, kết hợp
Chọn lọc tập dữ liệu miền bài toán: văn bản, trang web, nhận xét…
Tiền xử lý dữ liệu (tách câu, tách từ, gán nhãn từ loại, phân tích cú pháp, v.v.)
Lựa chọn đặc trưng, biểu diễn văn bản: phù hợp thuật toán, định hướng ngữ nghĩa
Thực hiện thuật toán sinh mô hình kết quả
Đánh giá: tốt đưa vào sử dụng
37
Trang 38Lựa chọn từ trong biểu diễn văn bản
Các âm tiết liền nhau n-gram
Uni-gram: chỉ chứa một âm tiết
Bigram: chứa không quá 2 âm tiết
Trigram: chứa không quá 3 âm tiết
N-gram: Thường không quá 4 gram
Một số đặc trưng
Chính xác hơn về ngữ nghĩa
Tăng số lượng đặc trưng
Tăng độ phức tạp tính toán
Trang 39Đặc trưng chủ đề ẩn
Đặc trưng chủ đề LSI
LSI: Latent Semantic Indexing biểu diễn ngữ nghĩa ẩn
Nâng mức ngữ nghĩa (trừu tượng) của đặc trưng
Rút gọn tập đặc trưng, giảm số chiều không gian biểu diễn
Không gian từ khóa không gian khái niệm (chủ đề)
Ma trận trọng số ma trận hạng nhỏ hơn
Phép biến đổi : Từ khóa khái niệm Thay thế biểu diễn
Hidden Topic Model
(long tail) bùng nổ tham số; ví dụ, cỡ vector 300 từ, từ điển 10K từ 3 triệu tham số.
39
Trang 40Biểu diễn văn bản
Bài toán
Input: Cho tập văn bản miền ứng dụng D = {dj }, tập đặc
trưng được chọn biểu diễn văn bản V = {wi }, ma trân trọng
số W = (wi,j)
Output: Tìm biểu diễn của các văn bản dj D
Mô hình Boolean
Mô hình không gian vector
Mô hình túi các từ (Mô hình xác suất)
Các mô hình khác
Tập các từ thuộc V xuất hiện trong văn bản
Trang 41Biểu diễn không gian vector
Giới thiệu
Ánh xạ tập tài liệu vào không gian vector n =|V| chiều
Mỗi tài liệu được ánh xạ thành 1 vector
di (wi1, wi2, …, win)
Chuẩn hóa vector: đưa về độ dài 1
Độ “tương tự nội dung” giữa hai văn bản độ tương tự
giữa hai vector
Một số phương án sơ khai “các thành phần giống nhau”,
“nghịch đảo khoảng cách”,
Phổ biến là tính độ đo cosin của góc giữa hai
vector: không yêu cầu chuẩn hóa
w w
v v
v v d
d sim
i
1
2 2 1
2
1
12 1
2 1
2
1 2
1
*
* )
, ( )
, (
1