BÀI GIẢNG KHAI PHÁ dữ LIỆU nội dung bổ sung về khai phá dữ liệu

 Giải quyết vấn đề thiếu thông tin quan trọng  Xử lý và thao tác với “biểu tượng”  Thế hệ học máy thứ hai ML2.0  Học và sử dụng tri thức từ kinh nghiệm, đặc biệt các miền văn bản 

Trang 1

BÀI GIẢNG KHAI PHÁ DỮ LIỆU

Nội dung bổ sung về Khai phá dữ liệu

1

Trang 3

1 GIỚI THIỆU VỀ HỌC MÁY SUỐT ĐỜI

3

Trang 4

Nguồn tài liệu chính

 Sách

 [Chen16[ Zhiyuan Chen and Bing Liu Lifelong Machine Learning

Morgan & Claypool Publishers, November 2016

 [Thrun96] Sebastian Thrun Explanation-Based Neural Network

Learning: A Lifelong Learning Approach Springer US, 1996.

 Bài trình bày

 Zhiyuan Chen and Bing Liu Lifelong Machine Learning in the Big

Data Era A IJCAI 2015 Tutorial 130

 Zhiyuan Chen, Estevam Hruschka, Bing Liu Lifelong Machine

Learning and Computer Reading the Web A KDD-2016 Tutorial 217

 DS&KTLab: A New Lifelong Topic Modeling Method and Its Application

to Vietnamese Text Multi-label Classification ACIIDS 2018

 https://www.cs.uic.edu/~liub/lifelong-learning.html Zhiyuan Chen

 https://www.cs.uic.edu/~liub/lifelong-learning.html Bing Liu

Trang 5

Hình ảnh Trường thu – đông Quảng Bình

5

Trang 6

Hình ảnh Trường thu – đông Quảng Bình

Trang 7

Tại sao học máy suốt đời?

Trang 8

Học máy truyền thống (ML1.0)

 Học máy thống kê: nhiều thành công đáng ghi nhận

 Học máy cô lập: xem xét một bài toán học máy

 Không thừa kế được ”kinh nghiệm” từ học trước đây

 Không thể đáp ứng “học tựa như con người”

 Yêu cầu tập ví dụ huấn luyện đủ lớn

 “học tựa như con người”

 Chỉ cần tập ví dụ rất nhỏ

Trang 9

Học suốt đời (ML2.0): một hành vi trí tuệ

 Nghiên cứu trí tuệ tự nhiên luôn thời sự

 Một số hành vi trí tuệ liên quan tới học

 Học từ kinh nghiệm và áp dụng tri thức từ kinh nghiệm

 Giải quyết vấn đề thiếu thông tin quan trọng

 Xử lý và thao tác với “biểu tượng”

 Thế hệ học máy thứ hai (ML2.0)

 Học và sử dụng tri thức từ kinh nghiệm, đặc biệt các miền văn bản

 Giải quyết thách thức tập ví dụ huấn luyện lớn

 Vấn đề: Chọn tri thức đã học để giải quyết bài toán mới

9

Trang 10

Học suốt đời: một nguồn trí tuệ [Poole17]

 Sinh học

 Tiến hóa của loài người

 Sống sót được trong nhiều môi trường sống khác nhau

 Cung cấp ngôn ngữ

 Các công cụ hữu dụng, các khái niệm hữu dụng, sự thông thái

từ cha mẹ và giáo viên truyền tới con cái

 Học suốt đời

 Con người học hỏi suốt đời

 Tích lũy tri thức và kỹ năng

 Học nhanh hơn và hiệu quả hơn

[Poole17] David L Poole, Alan K Mackworth Artificial intelligence foundations of

computational agents (2 nd edition) Cambridge University Press, 2017

Trang 11

Xe tự lái: một hệ thống học suốt đời

11

https://www.darpa.mil/news-events/2017-03-16

 Hình mô tả hệ thống học của “xe tự lái”

 cảm biến quét xung quanh thông báo không ngừng tới hệ thống

 hệ thống học sử dụng dữ liệu (i) Hướng dẫn hành động lái xe hiện

thời; (ii) Chỉnh sửa chương trình và dữ liệu

Trang 12

Học suốt đời: hiện diện một cộng đồng

http://lifelongml.org/

công bố về học máy suốt đời danh sách học giả học suốt đời

dự án học suốt đời chính Các sự kiện học suốt đời thông báo và tin tức học suốt đời

Trang 13

Học suốt đời: một cộng đồng

13

http://lifelongml.org/research-groups/

Bing Liu Sentiment Analysis Mining Opinions Sentiments and

Emotions Cambridge University Press, 2015 (11 Mining Intentions)

Trang 14

Một thư xin tài liệu

Trang 15

Một chương trình nghiên cứu

 Thông tin chung

 Cơ quan nghiên cứu Bộ Quốc phòng Mỹ (Defense Advanced Research Projects Agency: DARPA)

 Quản lý chương trình: Tiến sĩ Hava Siegelmann,

 https://www.darpa.mil/staff/dr-hava-siegelmann,

 http://dblp.uni-trier.de/pers/hd/s/Siegelmann:

Hava_T= (J40, C42)

 Mục tiêu kỹ thuật

 Cơ chế học máy: học máy liên tục áp dụng kinh nghiệm quá khứ

và thích ứng "bài học kinh nghiệm" với dữ liệu/tình huống mới, phát triển kỹ thuật giám sát hành vi hệ thống học máy, đặt phạm vi khả năng thích ứng, và can thiệp vào chức năng hệ thống khi cần

Lý thuyết mạng, thuật toán, phần mềm và kiến trúc máy tính

 Cơ chế học sinh học: (i) hệ sinh thái học: di truyền từ thế hệ cha

 con: di truyền toàn bộ, di truyền chỉ khả năng học, v.v.?; (ii) làm thích nghi áp dụng được tới hệ thống học máy

15

https://www.darpa.mil/news-events/2017-03-16

Trang 16

Học máy truyền thống liên quan

Trang 17

Học máy giám sát  tối ưu hóa

 Bài toán học máy giám sát

Input

 Cho “tập ví dụ mẫu” IL: (ILIIL),

f xác định trên IL, i IL: f(i)=o đã biết.

tự động gán nhãn cho mọi nhận xét.

Trang 18

Xấp xỉ tốt nhất?

 Biết f chỉ ở một bộ phận (tập IL): f|IL

 Tập G vô hạn các ánh xạ, gG, g: IO

 Chưa biết f toàn bộ

 Cơ hội: Biết f|IL để chọn f* “xấp xỉ tốt nhất” f

 f|IL là toàn bộ “hiểu biết” về f

 IL: vừa tìm f* vừa đánh giá f* Chia ngẫu nhiên IL = ITrain + ITest

Trang 19

Học máy không giám sát  tối ưu hóa

 Bài toán học không giám sát

 Cho I là tập dữ liệu I={<i>},

 G = {g là một phân hoạch của I: g={I1,I2,…, Ig} và I=Ij}}

 tìm f là phân hoạch tốt nhất

Trang 20

Học truyền thống và học chuyển đổi

 Học truyền thống: (i) Cho bài toán/miền A: có dữ liệu có nhãn để dạy mô hình A, áp dụng mô hình tới dữ liệu chưa nhãn của A; (ii) Cho bài toán/miền B: cần đủ ví dụ mẫu cho B; (iii) Không liên hệ học A và B

 Học chuyển đổi: (i) Transfer learning/domain adaptation (thích ứng miền); (ii) Miền B: một/nhiều miền nguồn, nhiều dữ liệu có nhãn; Miền đích A: ví dụ mẫu ít/vắng; (iii) Liên kết học B tới A ; (iv): Giả thiết quan trọng: miền nguồn “tương tự” miền đích : tri thức miền B dùng cho học miền đích A

Trang 21

Học chuyển đổi và học suốt đời

 Kiểu truyền tri thức miền nguồn cho miền đích

 chuyển dịch “ví dụ có nhãn nguồn”  “ví dụ có nhãn đích”; NLP

 chuyển dịch “đặc trưng nguồn”  “đặc trưng đích”

 Học tương ứng cấu trúc Structural Correspondence Learning:

SCL: ứng dụng văn bản, “dấu hiệu đặc trưng” cùng xuất hiện ở hai miền “đặc trưng then chốt”, ví dụ từ phổ biến ở cả hai miền

 Học sâu (deep learning) trong học chuyển đổi

 Phân biệt học suốt đời với học chuyển đổi

 Học chuyển đổi không học liên tục và không tích lũy tri thức

 Học chuyển đổi là một chiều

 Học suốt đời không đòi hỏi yêu cầu tương tự miền

Textual Entailment: Minh Quang Nhat Pham, Minh Le Nguyen, Akira Shimazu An

Empirical Study of Recognizing Textual Entailment in Japanese Text CICLing (1)

2012: 438-449; Quang-Thuy Ha, Thi-Oanh Ha, Thi-Dung Nguyen, Thuy-Linh

Nguyen Thi Refining the Judgment Threshold to Improve Recognizing Textual

Entailment Using Similarity ICCCI (2) 2012: 335-344.

VietSentiWordNet : Quang-Thuy Ha, Tien-Thanh Vu, Huyen-Trang Pham, Cong-To Luu.An Upgrading Feature-Based Opinion Mining Model on Vietnamese Product Reviews AMT 2011: 173-185.

Trang 22

Học đa nhiệm theo lô và học suốt đời

 Giới thiệu

 multi-task learning/batch multi-task learning “theo lô”

 Định nghĩa: học nhiều bài toán = {1, 2, …, 𝒯 = {1, 2, …, N} đồng thời, mỗi bài

toán j có dữ liệu học Dj Mục tiêu tối ưu hóa hiệu năng mọi bài toán

 Giả thiết các bài toán có liên quan chặt

 Dữ liệu bài toán trong cùng một không gian, các mô hình bài toán

“tựa” trên một mô hình tổng quát

 Sử dụng chung tập đặc trưng

 Phân biệt học suốt đời với học đa nhiệm theo lô

 Cùng mục địch chia sẻ thông tin hỗ trợ việc học

 Học đa nhiệm theo mô hình truyền thống: không tích lũy tri thức, không sử dụng khái niệm học liên tục

 Học đa nhiệm trực tuyến: một kiểu học suốt đời do có giữ lại tri thức cho học về sau

Trang 23

Học trực tuyến đơn nhiệm& học suốt đời

theo một thứ tự nhất định, khi điểm dữ liệu mới xuất

hiện mô hình hiện tại được cập nhật để phù hợp tốt nhất

 Phân biệt học suốt đời với học trực tuyến

gian, không lưu tri thức, không sử dụng tri thức từ trước.

sử dụng tri thức hỗ trợ bài toán mới

Trang 24

Học tăng cường và học suốt đời

 Học được quỹ đạo tối ưu hóa mục tiêu ánh xạ trạng thái  hành động để cực đại tổng thưởng trong thời gian dài

 Phân biệt học suốt đời với học tăng cường

 Học tăng cường:

 chi phạm vi một bài toán và ở một môi trường,

 không tích lũy và sử dụng tri thức

Trang 26

Học mạng nơ-ron giải thích EBNN [Thrun96]

 EBNN: Explanation-based neural network learning

 Tích hợp học quy nạp và học phân tích Mức cơ sở, mức meta EBNN

 Học quy nạp: EBNN biên dịch tập hỗ trợ Y thành lý thuyết miền: tri thức mức meta Tập ràng buộc Sử dụng tri thức kinh nghiệm

 Học phân tích: Ví dụ học trong tập học X được giải thích và phân tích theo lý thuyết miền, lấy được thông tin dốc cho hàm đích: tri thức mức

cơ sở Thông tin độ dốc được kết hợp vào học mạng nơ-ron

Trang 27

Lựa chọn tri thức kinh nghiệm

 Bài toán học

 Học giám sát: Cho một ánh xạ F: IO, tập ví dụ {<i,o>}, i I, oO,

Tìm f*G xấp xỉ tốt nhất f G là không gian mọi hàm

 Tồn tại một tập các tập giả thuyết đối với các bài toán học

 Học thiên vị (learning bias): Học hàm f* có sử dụng thiên vị từ các tập giả thuyết

 Ví dụ: các giả thuyết Ho, H1, H2, H3, H4 H4 thiên vị tốt nhất

 Hi  tập ví dụ học bài toán học Fi  “tập hỗ trợ”

Trang 28

Khung học suốt đời [Silver13]

 Định nghĩa hệ thống học máy suốt đời

 Học nhiều bài toán trong suốt vòng đời từ một hoặc nhiều miền

 Duy trì tri thức học được một cách hiệu suất và hiệu quả

 Sử dụng tri thức đó để học bài toán mới một cách hiệu suất và hiệu quả

Trang 29

Giải thích [Silver13]

 Duy trì hiệu suất và hiệu quả

 Hiệu quả (i) Ngăn ngừa tiến cử /sử dụng tri thức lỗi; (ii) Lưu dài hạn giả thuyết đủ chính xác tổng quát hóa, (ii) Thêm giả thuyết không giảm độ chính xác mọi giả thuyết cũ/mới, (iv) Tích hợp/hợp nhất tri thức mới: tăng độ chính xác tri thức cũ

 Hiệu suất: về không gian bộ nhớ lưu giữ và thời gian tính toán

 Học hiệu suất và hiệu quả

 Hiệu năng giả thuyết mới  hiệu năng giả thuyết từ tập ví dụ học

 Dùng tri thức quá khứ cần ra mô hình bài toán mới chính xác hơn

 Lựa chọn tri thức liên quan nhất để thiên vị mô hình bài toán mới

 Lựa chọn tri thức quá khứ nên giảm thời gian học

 Duy trì (hợp nhất) tri thức bài toán đã học

 Chuyển giao tri thức chọn lọc để học bài toán mới

 Hệ thống hóa tương tác hiệu suất và hiệu quả duy trì/chuyển giao tri thức

29

Trang 30

Hệ thống học suốt đời [Isele17]

[Isele17] David Isele, Mohammad Rostami, Eric Eaton Using Task Descriptions in

Lifelong Machine Learning for Improved Performance and Zero-Shot Transfer

Trang 31

Học máy suốt đời [Chen and Liu, 2016]

 Định nghĩa học suốt đời

 Một quá trình học liên tục

 Tại thời điểm bất kỳ: (i) bộ học đã hoàn thành một chuỗi N bài toán/với tập dữ liệu học T1/D1, T2/D2, …, TN/DN: Ti thuộc 1/nhiều kiểu bài toán thuộc một miền hoặc nhiều miền; (ii) Gặp bài toán mới/hiện tại TN+1/DN+1, sử dụng tri thức quá khứ trong CS tri thức

KB để học bài toán TN+1

 Mục tiêu: Tối ưu hóa bài toán TN+1/Tối ưu hóa mọi bài toán T1, T2,

…, TN, TN+1

 Một số nhận xét

 Định nghĩa ở mức chung chung cần được diễn giải

 Ba đặc trưng chính: học liên tục, tích lũy và duy trì tri thức trong

KB  học một loạt bài toán, học có thể không dừng, học ngày càng thông thạo và học tốt hơn

 Khái niệm “miền” (không gian đặc trưng) và “kiểu bài toán” (trích xuất thông tin, liên kết thực thể)

 Bài toán mới xuất hiện đột ngột hoặc từng bước 31

Trang 32

Tri thức mức cao [Chen and Liu, 2016]

 Hai kiểu tri thức quá khứ

mọi bài toán Cấu trúc ngầm định này được học, tận dụng bài toán mới

 Tri thức cục bộ : Không có ngầm định trên Cần chọn mẩu tri thức theo nhu cầu bài toán hiện tại Tối ưu hóa kết quả bài toán hiện thời dựa trên tri thức quá khứ

 Hai loại bài toán

Trang 33

Khung học máy suốt đời [Chen and Liu, 2016]

 Bốn thành phần chính: Cơ sở tri thức (Knowledge Base: KB), Bộ học dựa trên tri thức (Knowledge-Based Learner: KBL), Bộ quản lý bài toán (Task Manager: TM) và Đầu ra

 Có chuyển giao thông tin từ các bước

33

Trang 34

Cơ sở tri thức

 Giới thiệu chung

 Cơ sở tri thức gồm có: Kho thông tin quá khứ (Past Information Store: PIS), Bộ khai phá siêu tri thức (Meta-Knowledge Miner: MKM), Kho siêu tri thức (Meta-Knowledge Store: MKS) và Bộ suy luận tri thức (Knowledge Reasoner: KR)

 Kho thông tin quá khứ

 Lưu thông tin học trong mỗi bài toán quá khứ: (i) dữ liệu gốc, (ii) kết quả trung gian, (iii) mô hình/mẫu kết quả học được

 Người dùng quyết định cần giữ lại gì để giúp việc học tương lai

 Bộ khai phá siêu tri thức

 Khai phá siêu tri thức từ PIS và MKS (siêu khai phá: meta-mining) Tri thức kết quả được lưu vào MKS

 Kho siêu tri thức và Bộ suy luận tri thức

 MKS: Biểu diễn tri thức phù hợp

 KR: suy luận dựa trên tri thức MKS, thông tin PIS ra tri thức mới

Trang 35

Ba thành phần khác

 Bộ học dựa trên tri thức

 Hai thành phần con: dùng tri thức quá khứ từ KB học bài toán mới

 Bộ khai phá tri thức bài toán (Task knowledge miner: TKM): dùng tri thức thô/thông tin từ KB để khai phá/xác định tri thức phù hợp bài toán hiện tại Cần tri thức đặc tả bài toán và tri thức tổng quát hơn được khai phá từ KB

 Bộ học: Sử dụng tri thức khai phá được vào học bài toán mới

 Đầu ra

 Kết quả học cho người dùng: mô hình dự báo/phân lớp, cụm chủ đề…

 Bộ quản lý bài toán

 nhận và quản lý các bài toán đi tới hệ thống và xử lý việc thay đổi bài toán và đề xuất bài toán học mới cho KBL

35

Trang 36

Mô hình chủ đề suốt đời

Trang 37

Các bước khai phá dữ liệu văn bản

 Giải thích

 Nguồn văn bản: Nội bộ, Internet, kết hợp

 Chọn lọc tập dữ liệu miền bài toán: văn bản, trang web, nhận xét…

 Tiền xử lý dữ liệu (tách câu, tách từ, gán nhãn từ loại, phân tích cú pháp, v.v.)

 Lựa chọn đặc trưng, biểu diễn văn bản: phù hợp thuật toán, định hướng ngữ nghĩa

 Thực hiện thuật toán sinh mô hình kết quả

 Đánh giá: tốt đưa vào sử dụng

37

Trang 38

Lựa chọn từ trong biểu diễn văn bản

 Các âm tiết liền nhau n-gram

 Uni-gram: chỉ chứa một âm tiết

 Bigram: chứa không quá 2 âm tiết

 Trigram: chứa không quá 3 âm tiết

 N-gram: Thường không quá 4 gram

 Một số đặc trưng

 Chính xác hơn về ngữ nghĩa

 Tăng số lượng đặc trưng

 Tăng độ phức tạp tính toán

Trang 39

Đặc trưng chủ đề ẩn

 Đặc trưng chủ đề LSI

 LSI: Latent Semantic Indexing biểu diễn ngữ nghĩa ẩn

 Nâng mức ngữ nghĩa (trừu tượng) của đặc trưng

 Rút gọn tập đặc trưng, giảm số chiều không gian biểu diễn

 Không gian từ khóa  không gian khái niệm (chủ đề)

 Ma trận trọng số  ma trận hạng nhỏ hơn

 Phép biến đổi : Từ khóa  khái niệm Thay thế biểu diễn

 Hidden Topic Model

(long tail)  bùng nổ tham số; ví dụ, cỡ vector 300 từ, từ điển 10K từ  3 triệu tham số.

39

Trang 40

Biểu diễn văn bản

 Bài toán

 Input: Cho tập văn bản miền ứng dụng D = {dj }, tập đặc

trưng được chọn biểu diễn văn bản V = {wi }, ma trân trọng

số W = (wi,j)

 Output: Tìm biểu diễn của các văn bản dj D

 Mô hình Boolean

 Mô hình không gian vector

 Mô hình túi các từ (Mô hình xác suất)

 Các mô hình khác

 Tập các từ thuộc V xuất hiện trong văn bản

Trang 41

Biểu diễn không gian vector

 Ánh xạ tập tài liệu vào không gian vector n =|V| chiều

 Mỗi tài liệu được ánh xạ thành 1 vector

di  (wi1, wi2, …, win)

 Chuẩn hóa vector: đưa về độ dài 1

 Độ “tương tự nội dung” giữa hai văn bản  độ tương tự

giữa hai vector

 Một số phương án sơ khai “các thành phần giống nhau”,

“nghịch đảo khoảng cách”,

 Phổ biến là tính độ đo cosin của góc giữa hai

vector: không yêu cầu chuẩn hóa

w w

v v

v v d

d sim

i

1

2 2 1

2

1

12 1

2 1

2

1 2

1

*

* )

, ( )

, (

1

Định dạng
Số trang	105
Dung lượng	6,08 MB