1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Đồ thị khoảng cách của văn bản và một số ứng dụng

22 495 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 22
Dung lượng 628,5 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Đồ thị khoảng cách: định nghĩa Phát biểu ở đây khác đôi chút so với bài báo  Cho ngữ liệu C = {tài liệu miền ứng dụng} và V ={từ có nghĩa trong C}...  Tính phẳng của tài liệu chỉ chứa

Trang 1

Đồ thị khoảng cách của văn bản

và một số ứng dụng

KTLab

Hà Quang Thụy

Phòng Thí nghiệm Công nghệ Tri thức - KTLab

Trường ĐHCN, Đại học Quốc gia Hà Nội,

Ngày 31/5/2014

1

Marc

h 12, 2024

Trang 2

N i dung ội dung

Trang 3

Đồ thị khoảng cách: giới thiệu

 Charu C Aggarwal, Peixiang Zhao (2013) Towards graphical

models for text processing Knowl Inf Syst 36(1): 1-21.

Research Scientist, IBM T J Watson Research Center in Yorktown Heights, BSc IIT

Kanpur (1993) PhD MIT (1996).

 Awards: IBM Corporate (2003), IBM Outstanding Innovation (2008), IBM Research

Division (2008), IBM Outstanding Technical Achievement (2009).

 Associate editor of Journals : ACM TKDD, Data Mining and Knowledge Discovery,

ACM SIGKDD Explorations, and the Knowledge and Information Systems.

Trang 4

Đồ thị khoảng cách: định nghĩa

 Phát biểu ở đây khác đôi chút so với bài báo

 Cho ngữ liệu C = {tài liệu miền ứng dụng} và V ={từ có nghĩa trong C} Ví dụ, V = {từ trong C} \ {từ dừng}

 Với một tài liệu D: “đồ thị khoảng cách bậc k” của D trên C là đồ thị G(C, D, k) = (N(C), A(D, k)) với N(C) là tập đỉnh, A(D,k) là tập cung

 N(C) = {nút v: vV và v xuất hiện trong D} vV: xuất hiện ≤ 01 lần ở N(C) Trong N(C): gọi “nút i” hoặc “từ i”

 D’ nhận được từ D sau khi loại bỏ mọi từ V, giữ nguyên thứ tự các từ

 Tập cung A(D,k) chứa cung (i ,j) có hướng từ nút i tới nút j nếu như từ i đi trước từ j với khoảng cách ≤ k từ trong D’ Cung (i, j) có trọng số m nếu có nhiều nhất m lần từ i xuất hiện trước từ j với khoảng cách ≤ k ở trong D’

Trang 5

Đồ thị khoảng cách: ví dụ từ bài báo

 V = {từ tiếng Anh} \ {từ dừng}

 D lấy từ bài đồng dao “Mary had a little lamb” là “Mary had a little lamb, little lamb, little lamb, Mary had a little lamb, its fleece was white as snow” D’=“Mary little

lamb , little lamb , little lamb , Mary little lamb , fleece

white snow ” Các đồ thị khoảng cách bậc 0,1,2:

 Bậc 0: các từ đơn tự kết nối Bâc k+1: thêm cung và thêm trọng số

Trang 6

Đồ thị khoảng cách: tính chất

 Tính chất “thưa”:

 f(D): số lượng từ có nghĩa trong D’ kế cả bội

 n(D): số lượng từ phân biệt trong D’ chính là số nút của đồ thị |N(C)|

 n(D)*(k+1) – k*(k-1)/2 ≤ |A(D,k)| ≤ f(D)*(k+1)

Chứng minh trong bài báo

 Tính phẳng của tài liệu chỉ chứa từ phân biệt

 Đồ thị khoảng cách bậc không quá 2 tương ứng với các tài liệu chỉ chứa

các từ phân biệt là các đồ thị phẳng (planar)

 Tính đơn điệu

 D1 là đoạn con của D2  G(C, D1, k) là đồ thị con của G(C, D2, k)

 Chứng minh trong bài báo

 Lưu ý: Ngược lại không luôn đúng “G(C, D1, k) đồ thị con G(C, D2, k)

không  D1 là đoạn con của D2”: phức tạp cấu trúc nắm bắt từ của đồ

thị khoảng cách!

 Cực kỳ hữu ích cho truy hồi theo đoạn text chính xác: Truy hồi thông tin

dựa trên đồ thị: xác định bao đóng của tập văn bản cần tìm: hiệu quả

hơn trình diễn không gian vector đánh chỉ số theo từ khóa

Trang 7

Đồ thị khoảng cách: tính chất

 Tính bảo tồn đoạn giao

 D1, D2 có xâu chung F  G(C, D1, k) và G(C, D1, k) chia sẻ đồ thị con

G(C, F, k)

Suy diễn trực tiếp từ tính đơn điệu

 Tìm kiếm tài liệu có đoạn về một chủ đề

 Giả thiết: Một chủ đề được đặc trưng bởi tập S gồm m từ khóa liên thông

  xây dựng clique_có hướng_hai chiều chứa các nút (từ) này

 clique_có hướng_hai chiều: mọi cặp nút đều tồn tại cung hai hướng (đồ

thị đầy đủ) và  một chu trình đơn nối mọi đỉnh clique

 Tần số kết hợp giao theo cung của clique với đồ thị G(C, D, k) cho biết

số lần các từ khóa tương ứng xuất hiện trong D  hành vi cục bộ của

chủ đề

 Tính chất xuất hiện clique hai chiều

 Cho F1 là clique hai chiều chứa m nút và D là tài liệu thuộc C Cho E là

giao theo cung của tập các cung của G(C, D, k) được chứa trong F1 Gọi

q là tổng các tần số của các cung trong E thì q chính là số lần các từ

khóa trong các nút tương ứng với F1 xuất hiện với khoảng cách  k

trong tài liệu

Trang 8

ĐTKC: Xác định chủ đề khác nhau

 Xác định các đoạn liên quan các chủ đề khác nhau

 S1, S2 : tập từ khóa tương ứng với các chủ đề khác nhau

 F1, F2: hai clique tương ứng với S1 và S2

 Gọi F12 là clique chứa các nút của S1+S2

 Xét E1 (D), E2 (D), E12 (D) là giao theo cung của G(C, D, k) với F1,

F2, F12 E12 (D) là bao đóng các cung của E1 (D)  E2 (D)

 Tính cục bộ các chủ đề khi tần số các cung trong E1(D), E2(D) lớn

nhưng tần số các cung E12(D)-(E1(D)  E2(D)) là nhỏ

 Bài toán xác định tính cục bộ các chủ đề

 Tím các tài liệu D mà tần số theo cung của (E1(D)  E2(D)) là lớn hơn

s1 và tần số theo cung trong E12(D)-(E1(D)  E2(D)) là nhỏ hơn s2

Trang 9

ĐTKC: phương án vô hướng

Định nghĩa

 Đồ thị khoảng cách vô hướng bậc k của tài liệu D theo C là đồ thị G(C, D, k) = (N(D), A(D,

k)):

 N(D) như trường hợp có hướng

 A(D,k) là tập cung tương tự như trường hợp có hướng song được tính cả hai chiều (về

trước và về sau).

 Ví dụ, đồ thị khoảng cách vô hướng bậc 2 của tài liệu trong ví dụ trước: Đồ thị KC vô

hướng nhận được bằng cách đổi cung có hướng thành vô hướng.

 Đồ thị vô hướng giữ thông tin khoảng cách và bỏ qua thông tin thứ tự

 Chưa đề cập ứng dụng đồ thị KC vô hướng song (i) dễ thi hành thuận lợi cho KPDL; (ii)

Trang 10

Đồ thị khoảng cách: ứng dụng KPDL

 Hai phương án áp dụng

 kỹ thuật cũ với thay biểu diễn túi từ bằng biểu diễn đồ thị khoảng cách:

dề dàng thi hành

Dùng cho khai phá DL và quản lý cấu trúc: tương tác dễ dàng hơn các

phương pháp khai phá cấu trúc

 Độ phức tạp tính toán

 Số thẻ khoảng 4-5 lần so với biểu diễn sẵn có

 Có thể làm chậm song không quá nặng nề

Trang 11

Đồ thị khoảng cách: các ứng dụng KPDL

 Các thuật toán phân cụm lặp hoặc phân cấp.dựa trên “hạt giống”.

 Thuật toán EM.

 Phân lớp Bayes thơ ngây

 Phân lớp k-láng giềng gần nhất hoặc phân lớp trọng tâm

 Phân lớp dựa trên luật.

 Đánh chỉ số và truy hồi

 entire structural fragments

 Tìm kiếm chính xác: đã đề cập

 Tìm kiếm gần đúng

Tìm kiếm đồ thị con thường xuyên

Phát hiện đạo văn (Plagiarism detection)

 G A , G B đồ thị khoảng cách hai tài liệu

 MCG (G A , G B ) là đồ thị con chung lớn nhất giữa hai tài liệu

Trang 12

Đồ thị khoảng cách: Một số bàn luận

 Tính sau khi loại bỏ từ dừng ?

 Lý do ?

 Nên chăng tính khoảng cách giữ nguyên từ dừng.

 Các hành động là “từ khóa”.

 Xây dựng đồ thị khoảng cách

 Mẫu tuần tự: Phân cụm

 Mẫu có thứ tự: Phát hiện đồ thị con thường xuyên.

 Áp dụng cho các bài toán xử lý văn bản

 Tóm tắt văn bản: Biểu diễn câu, biểu diễn văn bản theo đồ thị khoảng cách, tính độ

quan trọng, tương tự hai cầu …

 Thay nút được chỉ số bằng chủ đề

 Biểu diễn văn bản qua đồ thị khoảng cách

 Áp dụng tính chất cục bộ của chủ đề

Trang 13

Áp dụng khai phá mẫu từ nhật ký sự kiện

• Hai thách thức của KPQT

 C2 Đối phó với nhật ký sự kiện phức tạp với đặc trưng đa dạng

 C4 Đối phó với sai lệch khái niệm

~ đối phó với nhật ký sự kiện quá lớn

• Một số tài liệu nghiên cứu

[Aalst13] Wil M P van der Aalst (2013) A General Divide and Conquer

Approach for Process Mining FedCSIS 2013: 1-10.

[BA12a] R P Jagadeesh Chandra Bose, Wil M P van der Aalst

(2012) Process diagnostics using trace alignment: Opportunities, issues, and

challenges Inf Syst 37(2): 117-141.

[BAZP11]c R P Jagadeesh Chandra Bose, Wil M.P van der Aalst, Indre

Zliobaite and Mykola Pechenizkiy (2011) Handling Concept Drift in Process

Mining CAiSE 2011: 391-405.

[Bose12] R P Jagadeesh Chandra Bose (2012) Process Mining in the

Large: Preprocessing, Discovery, and Diagnostics PhD Thesis, Eindhoven

University of Technology, The Netherlands.

[Manifesto12] Wil van der Aalst et al (2012) Process Mining Manifesto, BPM 2011

Workshops (Part I, LNBIP 99), pp 169–194

Trang 14

Khai phá mẫu: Trừu tượng hóa sự kiện

[Bose12] R P Jagadeesh Chandra Bose (2012) Process Mining in the Large:

Preprocessing, Discovery, and Diagnostics PhD Thesis, Eindhoven

University of Technology, The Netherlands

Trang 15

Khai phá mẫu: Phân cụm vết

• Phân cụm vết

Trace Clustering

 Các vết có tính tương đồng

[Bose12] R P Jagadeesh Chandra Bose (2012) Process Mining in the Large:

Preprocessing, Discovery, and Diagnostics PhD Thesis, Eindhoven

University of Technology, The Netherlands

Trang 16

Khai phá mẫu: Tiến hóa quy trình

• Tiến hóa quy trình

Concept Drift

 Quy trình thay đổi theo thời gian

 Các vòng đời quá trình kinh doanh khác nhau

[Bose12] R P Jagadeesh Chandra Bose (2012) Process Mining in the Large:

Preprocessing, Discovery, and Diagnostics PhD Thesis, Eindhoven

University of Technology, The Netherlands

Trang 17

Trừu tượng hóa quá trình kinh doanh

[Smir11] Sergey Smirnov (2011) Business Process Model Abstraction. PhD

Thesis, The University of Potsdam.

Trang 18

2 Khoảng cách Google chuẩn và ứng

dụng  Các tài liệu liên quan

Rudi Cilibrasi, Paul M B Vitányi (2004) The Google Similarity Distance

“Automatic Meaning Discovery Using Google” CoRR abs/cs/0412098.

Rudi Cilibrasi, Paul M B Vitányi (2007) The Google Similarity Distance IEEE

Trans Knowl Data Eng 19(3): 370-383 Có 1036 citation trong Google

Scholar.

Paul M B Vitányi (2012) Information Distance: New Developments CoRR abs/

1201.1221.

Andrew R Cohen, Paul M B Vitányi (2013) Normalized Google Distance of

Multisets with Applications CoRR abs/1308.3177.

Trang 19

Khoảng cách Google chuẩn

 Lập luận

 Đối tượng nhận được theo nghĩa đen các từ: tổ chức gene ACGT của chuột

hoặc văn bản nội dung của truyện Chiến tranh và Hòa bình của Lev Tolxtoi

 Đối tượng nhận được theo tên gọi của nó: “cấu tạo gene ACGT của chuột”

hoặc “văn bản CT&HB của Lev Tolxtoi”  đối tượng chỉ nhận biết bằng tên

như “home” hoặc “red” khi mà chữ cái chưa nói điều gì.

 Sử dụng tri thức miền để đo tương tự “gián tiếp” Thường gặp, ví dụ như

TAC: Hai thành phần (Track) của TAC 2014 (http://www.nist.gov/tac/) là

Knowledge Base Population (KBP) và

Biomedical Summarization (BiomedSumm).

 Khoảng cách thông tin chuẩn

 Cho hai xâu x và y:

với K(x), K(y), K(x,y) độ phức tạp Kolmogorov, độ dài bit của CT tính ngắn nhất

sản ra xâu x, y., xy

 E(x,y) thực sự là một khoảng cách: ba tính chất

Trang 20

Khoảng cách Google chuẩn

 Đối tượng nhận được theo nghĩa đen các từ: tổ chức gene ACGT của chuột

hoặc văn bản nội dung của truyện Chiến tranh và Hòa bình của Lev Tolxtoi

 Đối tượng nhận được theo tên gọi của nó: “cấu tạo gene ACGT của chuột” hoặc

“văn bản CT&HB của Lev Tolxtoi”  đối tượng chỉ nhận biết bằng tên như

“home” hoặc “red” khi mà chữ cái chưa nói điều gì.

 Sử dụng tri thức miền để đo tương tự “gián tiếp” Thường gặp, ví dụ như TAC:

Hai thành phần (Track) của TAC 2014 (http://www.nist.gov/tac/) là Knowledge

Base Population (KBP) và

Biomedical Summarization (BiomedSumm).

 Khoảng cách thông tin hai xâu x và y:

với K(x), K(y), K(x,y) độ phức tạp Kolmogorov, độ dài bit của CT tính ngắn nhất sản

ra xâu x, y., xy

 E(x,y) thực sự là một khoảng cách: ba tính chất

 Khoảng cách thông tin chuẩn:

Trang 21

Khoảng cách Google chuẩn

Trang 22

CÁM N ƠN

22

KT-SISLAB

22

Ngày đăng: 07/05/2017, 18:05

HÌNH ẢNH LIÊN QUAN

Đồ thị khoảng cách của văn bản - Đồ thị khoảng cách của văn bản và một số ứng dụng
th ị khoảng cách của văn bản (Trang 1)
Đồ thị khoảng cách: định nghĩa - Đồ thị khoảng cách của văn bản và một số ứng dụng
th ị khoảng cách: định nghĩa (Trang 4)
Đồ thị khoảng cách: ví dụ từ bài báo - Đồ thị khoảng cách của văn bản và một số ứng dụng
th ị khoảng cách: ví dụ từ bài báo (Trang 5)

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w