Đồ thị khoảng cách: định nghĩa Phát biểu ở đây khác đôi chút so với bài báo Cho ngữ liệu C = {tài liệu miền ứng dụng} và V ={từ có nghĩa trong C}... Tính phẳng của tài liệu chỉ chứa
Trang 1Đồ thị khoảng cách của văn bản
và một số ứng dụng
KTLab
Hà Quang Thụy
Phòng Thí nghiệm Công nghệ Tri thức - KTLab
Trường ĐHCN, Đại học Quốc gia Hà Nội,
Ngày 31/5/2014
1
Marc
h 12, 2024
Trang 2N i dung ội dung
Trang 3Đồ thị khoảng cách: giới thiệu
Charu C Aggarwal, Peixiang Zhao (2013) Towards graphical
models for text processing Knowl Inf Syst 36(1): 1-21.
Research Scientist, IBM T J Watson Research Center in Yorktown Heights, BSc IIT
Kanpur (1993) PhD MIT (1996).
Awards: IBM Corporate (2003), IBM Outstanding Innovation (2008), IBM Research
Division (2008), IBM Outstanding Technical Achievement (2009).
Associate editor of Journals : ACM TKDD, Data Mining and Knowledge Discovery,
ACM SIGKDD Explorations, and the Knowledge and Information Systems.
Trang 4Đồ thị khoảng cách: định nghĩa
Phát biểu ở đây khác đôi chút so với bài báo
Cho ngữ liệu C = {tài liệu miền ứng dụng} và V ={từ có nghĩa trong C} Ví dụ, V = {từ trong C} \ {từ dừng}
Với một tài liệu D: “đồ thị khoảng cách bậc k” của D trên C là đồ thị G(C, D, k) = (N(C), A(D, k)) với N(C) là tập đỉnh, A(D,k) là tập cung
N(C) = {nút v: vV và v xuất hiện trong D} vV: xuất hiện ≤ 01 lần ở N(C) Trong N(C): gọi “nút i” hoặc “từ i”
D’ nhận được từ D sau khi loại bỏ mọi từ V, giữ nguyên thứ tự các từ
Tập cung A(D,k) chứa cung (i ,j) có hướng từ nút i tới nút j nếu như từ i đi trước từ j với khoảng cách ≤ k từ trong D’ Cung (i, j) có trọng số m nếu có nhiều nhất m lần từ i xuất hiện trước từ j với khoảng cách ≤ k ở trong D’
Trang 5Đồ thị khoảng cách: ví dụ từ bài báo
V = {từ tiếng Anh} \ {từ dừng}
D lấy từ bài đồng dao “Mary had a little lamb” là “Mary had a little lamb, little lamb, little lamb, Mary had a little lamb, its fleece was white as snow” D’=“Mary little
lamb , little lamb , little lamb , Mary little lamb , fleece
white snow ” Các đồ thị khoảng cách bậc 0,1,2:
Bậc 0: các từ đơn tự kết nối Bâc k+1: thêm cung và thêm trọng số
Trang 6Đồ thị khoảng cách: tính chất
Tính chất “thưa”:
f(D): số lượng từ có nghĩa trong D’ kế cả bội
n(D): số lượng từ phân biệt trong D’ chính là số nút của đồ thị |N(C)|
n(D)*(k+1) – k*(k-1)/2 ≤ |A(D,k)| ≤ f(D)*(k+1)
Chứng minh trong bài báo
Tính phẳng của tài liệu chỉ chứa từ phân biệt
Đồ thị khoảng cách bậc không quá 2 tương ứng với các tài liệu chỉ chứa
các từ phân biệt là các đồ thị phẳng (planar)
Tính đơn điệu
D1 là đoạn con của D2 G(C, D1, k) là đồ thị con của G(C, D2, k)
Chứng minh trong bài báo
Lưu ý: Ngược lại không luôn đúng “G(C, D1, k) đồ thị con G(C, D2, k)
không D1 là đoạn con của D2”: phức tạp cấu trúc nắm bắt từ của đồ
thị khoảng cách!
Cực kỳ hữu ích cho truy hồi theo đoạn text chính xác: Truy hồi thông tin
dựa trên đồ thị: xác định bao đóng của tập văn bản cần tìm: hiệu quả
hơn trình diễn không gian vector đánh chỉ số theo từ khóa
Trang 7Đồ thị khoảng cách: tính chất
Tính bảo tồn đoạn giao
D1, D2 có xâu chung F G(C, D1, k) và G(C, D1, k) chia sẻ đồ thị con
G(C, F, k)
Suy diễn trực tiếp từ tính đơn điệu
Tìm kiếm tài liệu có đoạn về một chủ đề
Giả thiết: Một chủ đề được đặc trưng bởi tập S gồm m từ khóa liên thông
xây dựng clique_có hướng_hai chiều chứa các nút (từ) này
clique_có hướng_hai chiều: mọi cặp nút đều tồn tại cung hai hướng (đồ
thị đầy đủ) và một chu trình đơn nối mọi đỉnh clique
Tần số kết hợp giao theo cung của clique với đồ thị G(C, D, k) cho biết
số lần các từ khóa tương ứng xuất hiện trong D hành vi cục bộ của
chủ đề
Tính chất xuất hiện clique hai chiều
Cho F1 là clique hai chiều chứa m nút và D là tài liệu thuộc C Cho E là
giao theo cung của tập các cung của G(C, D, k) được chứa trong F1 Gọi
q là tổng các tần số của các cung trong E thì q chính là số lần các từ
khóa trong các nút tương ứng với F1 xuất hiện với khoảng cách k
trong tài liệu
Trang 8ĐTKC: Xác định chủ đề khác nhau
Xác định các đoạn liên quan các chủ đề khác nhau
S1, S2 : tập từ khóa tương ứng với các chủ đề khác nhau
F1, F2: hai clique tương ứng với S1 và S2
Gọi F12 là clique chứa các nút của S1+S2
Xét E1 (D), E2 (D), E12 (D) là giao theo cung của G(C, D, k) với F1,
F2, F12 E12 (D) là bao đóng các cung của E1 (D) E2 (D)
Tính cục bộ các chủ đề khi tần số các cung trong E1(D), E2(D) lớn
nhưng tần số các cung E12(D)-(E1(D) E2(D)) là nhỏ
Bài toán xác định tính cục bộ các chủ đề
Tím các tài liệu D mà tần số theo cung của (E1(D) E2(D)) là lớn hơn
s1 và tần số theo cung trong E12(D)-(E1(D) E2(D)) là nhỏ hơn s2
Trang 9ĐTKC: phương án vô hướng
Định nghĩa
Đồ thị khoảng cách vô hướng bậc k của tài liệu D theo C là đồ thị G(C, D, k) = (N(D), A(D,
k)):
N(D) như trường hợp có hướng
A(D,k) là tập cung tương tự như trường hợp có hướng song được tính cả hai chiều (về
trước và về sau).
Ví dụ, đồ thị khoảng cách vô hướng bậc 2 của tài liệu trong ví dụ trước: Đồ thị KC vô
hướng nhận được bằng cách đổi cung có hướng thành vô hướng.
Đồ thị vô hướng giữ thông tin khoảng cách và bỏ qua thông tin thứ tự
Chưa đề cập ứng dụng đồ thị KC vô hướng song (i) dễ thi hành thuận lợi cho KPDL; (ii)
Trang 10Đồ thị khoảng cách: ứng dụng KPDL
Hai phương án áp dụng
kỹ thuật cũ với thay biểu diễn túi từ bằng biểu diễn đồ thị khoảng cách:
dề dàng thi hành
Dùng cho khai phá DL và quản lý cấu trúc: tương tác dễ dàng hơn các
phương pháp khai phá cấu trúc
Độ phức tạp tính toán
Số thẻ khoảng 4-5 lần so với biểu diễn sẵn có
Có thể làm chậm song không quá nặng nề
Trang 11Đồ thị khoảng cách: các ứng dụng KPDL
Các thuật toán phân cụm lặp hoặc phân cấp.dựa trên “hạt giống”.
Thuật toán EM.
Phân lớp Bayes thơ ngây
Phân lớp k-láng giềng gần nhất hoặc phân lớp trọng tâm
Phân lớp dựa trên luật.
Đánh chỉ số và truy hồi
entire structural fragments
Tìm kiếm chính xác: đã đề cập
Tìm kiếm gần đúng
Tìm kiếm đồ thị con thường xuyên
Phát hiện đạo văn (Plagiarism detection)
G A , G B đồ thị khoảng cách hai tài liệu
MCG (G A , G B ) là đồ thị con chung lớn nhất giữa hai tài liệu
Trang 12Đồ thị khoảng cách: Một số bàn luận
Tính sau khi loại bỏ từ dừng ?
Lý do ?
Nên chăng tính khoảng cách giữ nguyên từ dừng.
Các hành động là “từ khóa”.
Xây dựng đồ thị khoảng cách
Mẫu tuần tự: Phân cụm
Mẫu có thứ tự: Phát hiện đồ thị con thường xuyên.
Áp dụng cho các bài toán xử lý văn bản
Tóm tắt văn bản: Biểu diễn câu, biểu diễn văn bản theo đồ thị khoảng cách, tính độ
quan trọng, tương tự hai cầu …
Thay nút được chỉ số bằng chủ đề
Biểu diễn văn bản qua đồ thị khoảng cách
Áp dụng tính chất cục bộ của chủ đề
Trang 13Áp dụng khai phá mẫu từ nhật ký sự kiện
• Hai thách thức của KPQT
C2 Đối phó với nhật ký sự kiện phức tạp với đặc trưng đa dạng
C4 Đối phó với sai lệch khái niệm
~ đối phó với nhật ký sự kiện quá lớn
• Một số tài liệu nghiên cứu
[Aalst13] Wil M P van der Aalst (2013) A General Divide and Conquer
Approach for Process Mining FedCSIS 2013: 1-10.
[BA12a] R P Jagadeesh Chandra Bose, Wil M P van der Aalst
(2012) Process diagnostics using trace alignment: Opportunities, issues, and
challenges Inf Syst 37(2): 117-141.
[BAZP11]c R P Jagadeesh Chandra Bose, Wil M.P van der Aalst, Indre
Zliobaite and Mykola Pechenizkiy (2011) Handling Concept Drift in Process
Mining CAiSE 2011: 391-405.
[Bose12] R P Jagadeesh Chandra Bose (2012) Process Mining in the
Large: Preprocessing, Discovery, and Diagnostics PhD Thesis, Eindhoven
University of Technology, The Netherlands.
[Manifesto12] Wil van der Aalst et al (2012) Process Mining Manifesto, BPM 2011
Workshops (Part I, LNBIP 99), pp 169–194
Trang 14Khai phá mẫu: Trừu tượng hóa sự kiện
[Bose12] R P Jagadeesh Chandra Bose (2012) Process Mining in the Large:
Preprocessing, Discovery, and Diagnostics PhD Thesis, Eindhoven
University of Technology, The Netherlands
Trang 15Khai phá mẫu: Phân cụm vết
• Phân cụm vết
Trace Clustering
Các vết có tính tương đồng
[Bose12] R P Jagadeesh Chandra Bose (2012) Process Mining in the Large:
Preprocessing, Discovery, and Diagnostics PhD Thesis, Eindhoven
University of Technology, The Netherlands
Trang 16Khai phá mẫu: Tiến hóa quy trình
• Tiến hóa quy trình
Concept Drift
Quy trình thay đổi theo thời gian
Các vòng đời quá trình kinh doanh khác nhau
[Bose12] R P Jagadeesh Chandra Bose (2012) Process Mining in the Large:
Preprocessing, Discovery, and Diagnostics PhD Thesis, Eindhoven
University of Technology, The Netherlands
Trang 17Trừu tượng hóa quá trình kinh doanh
[Smir11] Sergey Smirnov (2011) Business Process Model Abstraction. PhD
Thesis, The University of Potsdam.
Trang 182 Khoảng cách Google chuẩn và ứng
dụng Các tài liệu liên quan
Rudi Cilibrasi, Paul M B Vitányi (2004) The Google Similarity Distance
“Automatic Meaning Discovery Using Google” CoRR abs/cs/0412098.
Rudi Cilibrasi, Paul M B Vitányi (2007) The Google Similarity Distance IEEE
Trans Knowl Data Eng 19(3): 370-383 Có 1036 citation trong Google
Scholar.
Paul M B Vitányi (2012) Information Distance: New Developments CoRR abs/
1201.1221.
Andrew R Cohen, Paul M B Vitányi (2013) Normalized Google Distance of
Multisets with Applications CoRR abs/1308.3177.
Trang 19Khoảng cách Google chuẩn
Lập luận
Đối tượng nhận được theo nghĩa đen các từ: tổ chức gene ACGT của chuột
hoặc văn bản nội dung của truyện Chiến tranh và Hòa bình của Lev Tolxtoi
Đối tượng nhận được theo tên gọi của nó: “cấu tạo gene ACGT của chuột”
hoặc “văn bản CT&HB của Lev Tolxtoi” đối tượng chỉ nhận biết bằng tên
như “home” hoặc “red” khi mà chữ cái chưa nói điều gì.
Sử dụng tri thức miền để đo tương tự “gián tiếp” Thường gặp, ví dụ như
TAC: Hai thành phần (Track) của TAC 2014 (http://www.nist.gov/tac/) là
Knowledge Base Population (KBP) và
Biomedical Summarization (BiomedSumm).
Khoảng cách thông tin chuẩn
Cho hai xâu x và y:
với K(x), K(y), K(x,y) độ phức tạp Kolmogorov, độ dài bit của CT tính ngắn nhất
sản ra xâu x, y., xy
E(x,y) thực sự là một khoảng cách: ba tính chất
Trang 20Khoảng cách Google chuẩn
Đối tượng nhận được theo nghĩa đen các từ: tổ chức gene ACGT của chuột
hoặc văn bản nội dung của truyện Chiến tranh và Hòa bình của Lev Tolxtoi
Đối tượng nhận được theo tên gọi của nó: “cấu tạo gene ACGT của chuột” hoặc
“văn bản CT&HB của Lev Tolxtoi” đối tượng chỉ nhận biết bằng tên như
“home” hoặc “red” khi mà chữ cái chưa nói điều gì.
Sử dụng tri thức miền để đo tương tự “gián tiếp” Thường gặp, ví dụ như TAC:
Hai thành phần (Track) của TAC 2014 (http://www.nist.gov/tac/) là Knowledge
Base Population (KBP) và
Biomedical Summarization (BiomedSumm).
Khoảng cách thông tin hai xâu x và y:
với K(x), K(y), K(x,y) độ phức tạp Kolmogorov, độ dài bit của CT tính ngắn nhất sản
ra xâu x, y., xy
E(x,y) thực sự là một khoảng cách: ba tính chất
Khoảng cách thông tin chuẩn:
Trang 21Khoảng cách Google chuẩn
Trang 22CÁM N ƠN
22
KT-SISLAB
22