tiếp cận đô thị biểu diễn, khai thác văn bản và ứng dụng bản tóm tắt

Những năm gần đây, mô hình biểu diễn văn bản bằng đồ thị trong luận án này gọi tắt là mô hình đồ thị được đề xuất và sử dụng riêng lẻ trong các bài toán khác nhau của khai thác văn bản v

Trang 1

ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

  

NGUYỄN HOÀNG TÚ ANH

TIẾP CẬN ĐỒ THỊ BIỂU DIỄN, KHAI THÁC VĂN BẢN VÀ ỨNG DỤNG

Chuyên ngành: Đảm bảo toán học cho máy tính và hệ

thống tính toán

Mã số chuyên ngành: 1.01.10

TÓM TẮT LUẬN ÁN TIẾN SĨ TOÁN HỌC

Tp Hồ Chí Minh, năm 2011

Trang 2

Công trình được hoàn thành tại: Khoa Công Nghệ Thông Tin, Trường Đại Học Khoa Học Tự Nhiên

Người hướng dẫn khoa học: GS.TSKH Hoàng Văn Kiếm

Phản biện 1: GS.TS Nguyễn Thanh Thủy

Phản biện 2: PGS.TS Đinh Điền

Phản biện 3: TS Nguyễn Đức Cường

Phản biện độc lập 1: PGS.TSKH Nguyễn Xuân Huy

Phản biện độc lập 2: TS Quản Thành Thơ

Phản biện độc lập 3: PGS.TS Nguyễn Kim Anh

Luận án sẽ được bảo vệ trước Hội đồng chấm luận án họp tại

Trường Đại Học Khoa Học Tự Nhiên

vào hồi ……… giờ………ngày………tháng………năm 2011

Có thể tìm hiểu luận án tại thư viện:

- Thư viện Khoa học Tổng hợp Tp.HCM

- Thư viện Trường Đại học Khoa học Tự Nhiên

Trang 3

1 Mở đầu

1.1 Dẫn nhập

Trong những năm gần đây, lĩnh vực Khám phá tri thức trong cơ sở dữ liệu (Knowledge Discovery in Databases – KDD) hay còn được gọi là Khai thác dữ liệu (Data mining) đã ra

đời và phát triển nhanh chóng

Theo đánh giá của công ty Oracle [28], hiện có đến 80% dữ liệu trên thế giới là dữ liệu văn bản, vì vậy khai thác dữ liệu văn bản là vấn đề quan trọng, đầy thử thách và cần được đầu

tư nghiên cứu Đặc điểm của dữ liệu văn bản là thường không có cấu trúc hoặc bán cấu trúc,

cơ sở dữ liệu rất lớn, đa chiều và hay bị nhiễu Ngoài ra đối với dữ liệu văn bản chúng ta còn phải đối mặt với vấn đề nhập nhằng ở nhiều cấp độ (cấp độ về từ, ngữ, câu), ở nhiều khía cạnh (hình thái, ngữ pháp, ngữ nghĩa)

Luận án này nghiên cứu khai thác dữ liệu văn bản, hay còn gọi là khai thác văn bản Khai thác văn bản là “sự tìm kiếm thông tin mới, chưa biết bằng cách dùng máy tính rút trích tự động tri thức từ nhiều nguồn văn bản khác nhau”[18] Các bài toán chính của khai thác văn bản là phân loại, gom cụm văn bản, rút trích thông tin và tóm tắt tài liệu Mặc dù đã có nhiều tiến bộ trong nghiên cứu khai thác văn bản nhưng vẫn còn khoảng cách khá xa giữa nhu cầu ứng dụng và các kết quả đạt được Luận án tập trung nghiên cứu, phát triển các kỹ thuật khai thác dữ liệu hiện có, cũng như những kỹ thuật phân tích dữ liệu văn bản nhằm tích hợp chúng

và tăng cường hiệu quả giải quyết bài toán khai thác dữ liệu văn bản

1.2 Mục tiêu và đóng góp của luận án

Mô hình không gian vectơ [29] là một phương pháp biểu diễn văn bản phổ biến Mô hình không gian vectơ biểu diễn văn bản như một vectơ đặc trưng của các thuật ngữ (từ) xuất hiện trong toàn bộ tập văn bản Tuy nhiên, phương pháp này không lưu trữ được các thông tin cấu trúc quan trọng như trật tự xuất hiện của các từ, vùng lân cận, vị trí xuất hiện của từ trong văn bản Những năm gần đây, mô hình biểu diễn văn bản bằng đồ thị (trong luận án này gọi tắt là

mô hình đồ thị) được đề xuất và sử dụng riêng lẻ trong các bài toán khác nhau của khai thác văn bản và cho kết quả tốt vì tận dụng được các thông tin quan trọng về cấu trúc mà biểu diễn vectơ đã bỏ qua

Bên cạnh đó, mặc dù được viết bằng các ký tự La tinh mở rộng, tiếng Việt cũng có đặc tính chung với các ngôn ngữ châu Á đơn lập khác (tiếng Hoa, Lào, Thái) như khó xác định ranh giới giữa các từ và có các điểm khác biệt về ngữ âm, ngữ pháp so với tiếng Anh Việc xác định ranh giới từ trong tiếng Việt là bài toán khó [12] Do đó, khó có thể áp dụng các kỹ thuật và hướng tiếp cận đã được nghiên cứu và thử nghiệm thành công trên tiếng Anh cho tiếng Việt nếu không xây dựng thành công giải pháp cho việc tách từ trong văn bản tiếng Việt hoặc sử dụng mô hình biểu diễn có thể hạn chế được ảnh hưởng của bài toán tách từ

Phần lớn các nghiên cứu về khai thác văn bản tiếng Việt [1], [2], [3], [4], [5], [6], [11], [12], [19], [27] sử dụng mô hình không gian vectơ biểu diễn văn bản và đòi hỏi công cụ tách

Trang 4

từ tốt Ngoài ra, mô hình không gian vectơ không quan tâm đến trật tự của từ trong câu trong khi đối với tiếng Việt, trật từ của từ rất quan trọng

Mục tiêu của luận án là nghiên cứu, hệ thống hóa và phân tích khả năng ứng dụng của mô

hình đồ thị vào biểu diễn và khai thác văn bản Luận án nghiên cứu, phát triển các kỹ thuật khai thác dữ liệu đã có để áp dụng hiệu quả trên đồ thị biểu diễn văn bản Luận án nghiên cứu, phát triển qui trình khai thác văn bản sử dụng tiếp cận đồ thị nhằm giải quyết một số bài toán: phân loại, gom cụm tập văn bản có biến động và tóm tắt văn bản

1.3 Các đóng góp chính của luận án

1 Hệ thống hóa, phân tích khả năng ứng dụng của từng loại mô hình đồ thị và lựa chọn

mô hình biểu diễn đồ thị phù hợp cho các nhiệm vụ khai thác văn bản

2 Cải tiến thuật toán gSpan khai thác đồ thị con phổ biến cho tập đồ thị có hướng

3 Cải tiến kỹ thuật trộn cụm của thuật toán gom cụm động Incremental DBSCAN

4 Đề xuất qui trình phân loại văn bản dựa trên biểu diễn đồ thị và kỹ thuật khai thác đồ thị con phổ biến cải tiến

5 Đề xuất qui trình gom cụm tập văn bản có biến động sử dụng đồ thị biểu diễn văn bản kết hợp kỹ thuật chọn lựa động đặc trưng và thuật toán Incremental DBSCAN cải tiến

6 Đề xuất mô hình tóm tắt văn bản tiếng Việt dựa trên biểu diễn đồ thị kết hợp kỹ thuật xếp hạng đỉnh

7 Tiến hành thử nghiệm khai thác văn bản tiếng Việt dựa trên tiếp cận đồ thị theo mô hình đề xuất

2 Mô hình biểu diễn văn bản bằng đồ thị

2.1 Giới thiệu

Mô hình đồ thị biểu diễn văn bản, cụ thể là mô hình đồ thị khái niệm, được John F Sowa trình bày vào năm 1976 [33] Hiện nay, mô hình đồ thị không ngừng phát triển và ứng dụng vào dãy rộng các bài toán liên quan đến xử lý văn bản và trở nên khá phong phú Luận án trình bày những đặc tính khái quát của mô hình đồ thị biểu diễn văn bản

Mỗi đồ thị là một văn bản hoặc biểu diễn cho tập văn bản Đỉnh của đồ thị có thể là câu, hoặc từ, hoặc kết hợp các thành phần khác nhau của văn bản (ví dụ như câu và từ) Cạnh nối giữa các đỉnh là vô hướng hoặc có hướng, thể hiện mối quan hệ trong đồ thị Nhãn đỉnh thường là tần suất xuất hiện của đỉnh Còn nhãn cạnh là tên mối liên kết khái niệm giữa hai đỉnh, hay tần suất xuất hiện chung của hai đỉnh trong một phạm vi nào đó, hay tên vùng mà đỉnh xuất hiện Do thông tin cấu trúc quan trọng của văn bản thể hiện ở trật tự xuất hiện của

từ, vùng lân cận của từ, cũng như vị trí xuất hiện của từ trong văn bản nên mô hình đồ thị sử dụng đỉnh là từ được nghiên cứu sâu hơn và có nhiều biến thể nhất Mô hình đồ thị đơn giản

2.2 Phân loại các mô hình đồ thị [CT4]

Luận án đã hệ thống các mô hình đồ thị chính và phân loại dựa trên loại đỉnh mà đồ thị sử dụng thành các nhóm: nhóm mô hình sử dụng đỉnh là từ, nhóm sử dụng đỉnh là câu, nhóm sử

Trang 5

dụng đỉnh là các thành phần khác nhau trong văn bản Bảng 2.1 so sánh những đặc trưng chính và lĩnh vực ứng dụng cơ bản của các mô hình đồ thị

 Nhóm mô hình đồ thị sử dụng đỉnh là từ trong văn bản (gồm các đồ thị ký hiệu từ số 1

→ 10 trong Bảng 2.1)

 Mô hình đồ thị sử dụng mạng ngữ nghĩa (mô hình số 1, 2, 3) Ưu điểm của nhóm

mô hình này là mô hình hoá văn bản một cách trực quan, logic, thể hiện được quan

hệ ngữ nghĩa giữa các khái niệm và cho kết quả truy vấn thông tin chính xác hơn

 Mô hình đồ thị không sử dụng mạng ngữ nghĩa (mô hình số 4 → 10) Nhóm mô hình này khai thác được các thông tin cấu trúc của văn bản (thứ tự xuất hiện, vị trí, vùng lận cận của từ trong văn bản) nhanh chóng, đơn giản và không phụ thuộc vào mạng ngữ nghĩa nên dễ dàng cài đặt các ứng dụng phân lớp, gom cụm

 Nhóm mô hình đồ thị sử dụng đỉnh là câu (mô hình số 11 trong Bảng 2.1) Thế mạnh

của mô hình này là khả năng lưu trữ mối liên kết giữa các câu, thứ tự xuất hiện câu và

hỗ trợ tốt cho quá trình trích chọn câu quan trọng của văn bản và tạo bản tóm tắt bằng tiếp cận không giám sát

 Mô hình đồ thị sử dụng đỉnh là các thành phần khác nhau trong văn bản (mô hình

lưỡng phần trong Bảng 2.1) Mô hình này tận dụng được mối liên quan giữa từ với câu, cũng như sự đồng hiện của từ trong câu nhằm tăng hiệu quả của bài toán rút trích thông tin văn bản Mô hình lưỡng phần với đỉnh là câu và từ có thể thay đổi đỉnh là đoạn trong văn bản hay văn bản trong tập văn bản và nhóm từ thay cho từ Trong mô hình đồ thị lưỡng phần, trật tự xuất hiện của các thành phần trong văn bản không được quan tâm

Bảng 2.1 So sánh các mô hình biểu diễn văn bản bằng đồ thị [CT4]

Ý nghĩa

Gom cụm văn bản

4 Đồ thị hình sao

Từ / cấu trúc

1

Có (tần suất xuất hiện)

Liên kết từ và đỉnh cấu trúc trung tâm

Không

Có (vị trí từ trong cấu trúc văn bản)

Phân loại email

5 Đồ thị tần số

Có (tần suất xuất hiện)

Liên kết từ

chung trong cấu trúc

Không

Có (tần suất xuất hiện chung)

Tìm kiếm thông tin trên Web

Trang 6

Ý nghĩa Số loại đỉnh Nhãn Ý nghĩa Hướng Nhãn

Cĩ (tên từ)

Từ a xuất hiện ngay trước từ

Cĩ (số từ giữa a

và b + 1)

Phân lớp văn bản

Cĩ (tên từ)

b

Cĩ

Cĩ (vị trí từ trong cấu trúc văn bản)

Phân lớp, gom cụm văn bản

Cĩ (tần suất xuất hiện )

b

Cĩ

Cĩ (tần suất 2

từ xuất hiện liên tiếp)

Phân lớp văn bản

11 Đồ thị đỉnh là

Cĩ (trọng

Rút trích thơng tin, gom cụm

3 Phân loại văn bản dựa trên tiếp cận đồ thị

Phân loại văn bản là quá trình gán văn bản vào một hoặc nhiều chủ đề đã xác định trước Rất nhiều phương pháp phân loại như Nạve Bayes, cây quyết định, k-láng giềng gần nhất (k-NN), mạng nơron, máy vectơ hỗ trợ (SVM) đã áp dụng vào bài tốn loại văn bản [32] Trong

số đĩ thì cả hai phương pháp SVM và k-NN đều cho kết quả tốt khi phân loại văn bản tiếng Anh [37] Các phương pháp này đều sử dụng mơ hình khơng gian vectơ [29] khi biểu diễn văn bản

Luận án đề xuất qui trình phân loại văn bản dựa trên biểu diễn đồ thị và kỹ thuật khai thác

đồ thị Các văn bản được biểu diễn dưới dạng đồ thị đơn giản Kỹ thuật khai thác đồ thị con phổ biến gSpan cải tiến khai thác những đồ thị cĩ hướng biểu diễn văn bản thuộc cùng một lớp đề nhằm phát hiện các mẫu đại diện Sau đĩ, xây dựng vectơ lớp dựa trên tập mẫu phổ biến hay tập đồ thị con phổ biến Văn bản mới sẽ được biểu diễn bằng đồ thị và chuyển thành vectơ nhị phân với các chiều của vectơ là đồ thị con phổ biến của chủ đề Độ đo tương tự Dice xác định khoảng cách gần nhất giữa văn bản mới và các vectơ chủ đề Qui trình phân loại này cĩ thể áp dụng cho một số ngơn ngữ

3.1 Qui trình phân loại văn bản dựa trên kỹ thuật khai thác đồ thị

Hình 3.1 là sơ đồ giai đoạn huấn luyện hệ thống và Hình 3.2 là giai đoạn phân loại văn bản nĩi chung và email nĩi riêng

Trang 7

Hình 3.1 Sơ đồ giai đoạn huấn luyện Hình 3.2 Sơ đồ giai đoạn phân loại

3.1.1 Tiền xử lý văn bản

Trước khi loại bỏ các hư từ, ta cần thực hiện tách câu Sau đó, hệ thống tính tần suất xuất hiện của các “thuật ngữ” trong tập văn bản („thuật ngữ” có thể là từ, tiếng, hay cụm từ tùy theo kiểu đồ thị biểu diễn văn bản) Để giảm kích thước của đồ thị và thời gian tính toán đồ

thị con phổ biến, chỉ f% số “thuật ngữ” có tần suất xuất hiện cao nhất được giữ lại Luận án

thống kê tần suất xuất hiện và tính trọng số của “thuật ngữ” theo phương pháp TF×IDF [29]

3.1.2 Mô hình hóa văn bản thành đồ thị

Các kết quả nghiên cứu trong [31] cho thấy mô hình đồ thị đơn giản và mô hình đồ thị dạng chuẩn là hai loại mô hình cho độ chính xác phân lớp tốt nhất trên các bộ dữ liệu văn bản web Sự khác biệt giữa hai mô hình này là mô hình dạng chuẩn đưa thêm giá trị nhãn cạnh là

vị trí của từ trong văn bản (như “nhan đề”, “liên kết”, “nội dung”, ) vào đồ thị so với đồ thị đơn giản Khi áp dụng cho văn bản nói chung thì không phải lúc nào ta cũng xác định được nhãn “nhan đề”, “liên kết”, hay “nội dung” như trên văn bản web nên luận án sử dụng mô hình đồ thị đơn giản để biểu diễn văn bản Trong mô hình này, mỗi văn bản là một đồ thị Đỉnh biểu diễn “thuật ngữ” trong văn bản Các đỉnh được gán nhãn duy nhất là tên của “thuật

ngữ” Sau bước tiền xử lý văn bản, nếu thuật ngữ a đứng ngay trước thuật ngữ b thì sẽ tồn tại cạnh có hướng nối từ đỉnh a đến đỉnh b (không kể các trường hợp phân cách bởi dấu câu)

3.1.3 Rút trích đặc trưng đồ thị

Mục đích của quá trình này là xác định các đặc trưng (đồ thị con) liên quan đến việc phân loại để giảm độ phức tạp tính toán và cũng là nội dung chính của bài toán khai thác đồ thị con phổ biến - một bài toán quan trọng trong lĩnh vực khai thác đồ thị Đồ thị con phổ biến là đồ thị có tần suất xuất hiện trong tập đồ thị nhiều hơn một ngưỡng cho trước Chỉ có những đồ

thị con xuất hiện ít nhất minSup% trong các đồ thị mới được dùng để xác định đặc trưng

Trong các phương pháp tìm đồ thị con phổ biến trên tập dữ liệu đồ thị, gSpan là thuật toán nhanh, cho kết quả ổn định [35] Bên cạnh đó, trong khi phần lớn các thuật toán tìm đồ thị con phổ biến khác khó có thể cải tiến cho tập đồ thị có hướng thì gSpan có thể cải tiến để áp dụng cho tập đồ thị có hướng Chính vì vậy luận án lựa chọn gSpan và thực hiện một số cải tiến để

có thể áp dụng gSpan lên tập đồ thị có hướng

Mô hình hóa văn bản thành

đồ thị

Rút trích đặc trưng đồ thị từ các lớp

Xây dựng tập vectơ đại diện lớp

Tập vectơ đại diện lớp

R1=(1,0,1,…1)

R2=(1,1,0,…0)

… Rm=(0,0,1,…1)

Lớp của văn bản mới

Mô hình hóa văn bản thành

đồ thị

Văn bản mới

Tập vectơ đại diện lớp

Trang 8

Thuật toán gSpan (graph-based Substructure pattern) [36] là thuật toán khai thác đồ thị

con phổ biến theo chiều sâu Thuật toán ánh xạ mỗi mẫu vào nhãn chính tắc duy nhất và gán mỗi đồ thị một mã DFS (Depth-first search) tối tiểu Mã DFS là thứ tự duyệt các cạnh của đồ thị theo chiều sâu hay là chuỗi các cạnh DFS Dựa trên các nhãn này, quan hệ thứ tự đầy đủ giữa các mẫu được tạo lập Thứ tự từ điển này cũng được dùng trong việc thiết lập cây tìm kiếm phân cấp (gọi là cây DFS) Trong quá trình duyệt cây theo chiều sâu, thuật toán gSpan chỉ mở rộng ứng viên trên các đỉnh hay nhánh nằm bên phải nhất của cây DFS

Cải tiến gSpan cho đồ thị có hướng

Do đồ thị biểu diễn văn bản là đồ thị có hướng, luận án thực hiện một số cải tiến để có thể

áp dụng gSpan lên tập đồ thị có hướng Đầu tiên, luận án thêm giá trị hướng vào trong mã DFS Nhờ vào thứ tự của các đỉnh trong biểu diễn mã DFS mà ta có thể mã hóa thêm hướng của cạnh một cách chính xác, không bị nhập nhằng

Bên cạnh đó, đồ thị biểu diễn văn bản không có

nhãn cạnh nên mã DFS sẽ biểu diễn cạnh DFS

dưới dạng: (i, j, l i , l j , d (i,j) ) với l i , l j là nhãn đỉnh v i và

v j tương ứng, d (i,j) xác định hướng cạnh giữa hai

đỉnh Luận án gán d (i,j) = nếu cạnh có hướng từ

v i sang v j và d (i,j) =  nếu ngược lại Chẳng hạn ta

có đồ thị s có hướng như trong Hình 3.4, khi đó

một mã DFS cho đồ thị này được mô tả bên cạnh Hình 3.4 Ví dụ mã DFS cho đồ thị có

Định nghĩa 3.1 Thứ tự từ điển trên mã DFS

Nếu α = (a 0 , a 1 , …, a m ) và β = (b 0 , b 1 , …, b n) là hai mã DFS Giả sử tập cạnh tiến và tập

cạnh lùi của α và β tương ứng là E α,f , E α,b , E β,f và E β,b Đặt a t  (i j l i l j d(i,j)) và

) (  i j (i,j)

t i j l l d

b  là cạnh DFS thứ t trong mã DFS α và β tương ứng Khi đó   khi

và chỉ khi một trong những điều kiện sau là chính xác

(i)  t, 0  t  min(m, n), sao cho a k = b k với k < t và a t e b t

(a t e b t khi một trong những điều kiện dưới đây xảy ra:

Trang 9

Với định nghĩa thứ tự từ điển này, luận án có thể điều chỉnh chính xác bước kiểm tra mã

DFS tối tiểu Một điều cần lưu ý nữa khi tạo đồ thị con của s bằng việc phát triển thêm một đỉnh hay một nhánh bên phải nhất từ s (s là một mã DFS hoặc là một đỉnh trong cây DFS)

Việc thêm giá trị hướng cạnh sẽ tạo nên ít nhất hai cạnh giữa hai đỉnh: mỗi cạnh cho một hướng Như vậy, luận án cần kiểm tra các cạnh này giữa hai đỉnh thay vì chỉ kiểm tra một cạnh như trước đây khi tìm đồ thị con phù hợp Các phần còn lại của thuật toán gSpan nguyên thủy không thay đổi khi cải tiến cho tập đồ thị có hướng Do gSpan sử dụng phương pháp tìm kiếm theo chiều sâu và không sử dụng danh sách lưu trữ đồ thị con phổ biến nên không cần

dùng nhiều bộ nhớ Độ phức tạp về thời gian của gSpan cải tiến là O(FS + rF) với F là số đồ thị con phổ biến, S là kích thước tập dữ liệu và r là số mã trùng lắp tối đa của một đồ thị con

phổ biến được phát triển từ mã tối tiểu

Với tiếp cận biểu diễn văn bản thành đồ thị mà mỗi đỉnh được gán nhãn duy nhất và cạnh

có hướng thì độ phức tạp của bài toán xác đỉnh đẳng cấu đồ thị con giảm xuống còn O(n 2 ) (n -

số cạnh của đồ thị) Từ tập các đồ thị con phổ biến thu được từ tất cả các lớp, xây dựng tập các đặc trưng – tập đồ thị con phổ biến Đây là đầu vào cho bước xây dựng vectơ đại diện lớp tiếp theo

3.1.4 Xây dựng vectơ đại diện lớp

Với mục tiêu thực hiện giai đoạn phân loại thuận tiện, các vectơ nhị phân đại diện cho từng lớp được xây dựng Mỗi lớp cho trước được biểu diễn thành một vectơ đặc trưng có số chiều bằng kích thước tập đồ thị con phổ biến Đặc trưng nhận giá trị 1 nếu đồ thị con phổ biến tương ứng xuất hiện trong tập đồ thị con phổ biến của lớp và ngược lại sẽ nhận giá trị 0

Để tiện cho việc trình bày các công thức, luận án sử dụng các ký hiệu sau

Tập văn bản huấn luyện ký hiệu là D = {d 1 , d 2 , …, d n } có gán nhãn lớp và tập các lớp C = { C 1 , C 2 , …, C m } Tập đồ thị G = {G 1 , G 2 , …, G n } tương ứng với các văn bản thuộc tập D sau bước mô hình hoá văn bản Tập đồ thị con phổ biến (đặc trưng) ký hiệu là F = {f 1 , f 2 , …, f k } Vectơ đại diện cho mỗi lớp C i ; 1 ≤ i ≤ m ký hiệu là R i = (R i1 , R i2 , …, R ik ) Khi đó, vectơ R i đại

diện cho mỗi lớp C i ; 1 ≤ i ≤ m có k chiều (ứng với số đặc trưng trong tập F) được tính với giá trị R ij =1 nếu đặc trưng f j F là một trong các đồ thị con phổ biến tìm được từ tập đồ thị biểu diễn văn bản thuộc lớp C i và ngược lại

3.1.5 Bộ phân loại

Lớp của văn bản mới X được xác định như sau Đầu tiên, luận án sử dụng tập các “thuật ngữ” đã lựa chọn trong quá trình huấn luyện để xây dựng đồ thị g biểu diễn cho X Sau đó xây dựng vectơ nhị phân v 0 có số chiều tương ứng với k đặc trưng của tập F Giá trị của từng thành phần trong vectơ v 0 thể hiện sự tồn tại hay không của các đặc trưng f i  F trong đồ thị g

Trang 10

Tiếp theo, luận án tính toán sự tương tự giữa vectơ v 0 với tất cả m vectơ đại diện cho các lớp

Luận án sử dụng độ đo Dice – độ đo sử dụng phổ biến, hiệu quả trong việc xác định độ tương

tự giữa các vectơ nhị phân Độ đo Manhattan được cài đặt để so sánh kết quả phân loại với độ

đo Dice Cuối cùng, dựa trên các độ tương tự Dice ta gán văn bản mới vào lớp cho giá trị Dice lớn nhất Còn nếu sử dụng độ đo Manhattan thì lớp có giá trị Manhattan nhỏ nhất được chọn làm lớp cho văn bản mới

3.2 Kết quả thử nghiệm

3.2.1 Thử nghiệm trên tập dữ liệu email tiếng Anh

Tập dữ liệu Enron gồm 619.446 email của 158 người và trung bình mỗi người dùng có khoảng 0.5 MB dữ liệu email Luận án thực hiện các bước làm sạch, tiền xử lý và tổ chức lại

dữ liệu trước khi đưa vào quá trình huấn luyện Khi thử nghiệm, luận án dùng phương pháp đánh giá chéo để xác định độ chính xác phân loại trung bình

 Đánh giá độ chính xác phân loại theo thư mục

Luận án thống kê thư mục có cùng một kích thước Với từng loại thư mục, độ chính xác phân loại bằng tổng số email phân loại đúng chia cho tổng số email phân loại Luận án chia các thư mục của Enron thành 6 loại với kích thước: nhỏ hơn 35 email, từ 36 đến 75 email, từ

76 đến 165 email, từ 166 đến 255 email, từ 255 đến 475 email và trên 476 email Trong Bảng 3.2 là mô tả các hệ thống phân loại email đã được cài đặt và thử nghiệm Hệ thống eClass là cải tiến của eMailSift [8] với việc xây dựng vectơ đại diện thư mục (tương tự qui trình đã mô

tả trong mục 3.1.4) và thực hiện phân loại email với độ đo tương tự Dice Hệ thống eTCG là

ký hiệu cho hệ thống triển khai qui trình phân loại dựa trên kỹ thuật khai thác đồ thị mà luận

án đã đề xuất trong mục 3.1

Bảng 3.2 Mô tả các hệ thống thử nghiệm

eMailSift Mô hình đồ thị hình sao Dùng Subdue tìm đồ thị con đại diện, phân loại bằng cách so

khớp với đồ thị con đại diện có thứ hạng cao nhất

eClass Mô hình đồ thị hình sao Dùng Subdue tìm đồ thị con phổ biến, xây dựng vectơ nhị phân đại diện thư mục, phân loại bằng độ đo tương tự Dice

eTCG Mô hình đồ thị đơn giản gSpan cải tiến khai thác đồ thị có hướng, độ đo tương tự

Dice, đỉnh đồ thị tạo từ đơn vị “từ”

Biểu đồ trong hình 3.7 cho thấy kết quả phân loại theo thư mục của eClass nhỉnh hơn phương pháp so khớp theo thứ hạng của eMailSift Đó là do thay vì chỉ xác định sự trùng khớp với đồ thị con đại diện có thứ hạng cao nhất (trong eMailSift) thì eClass tính độ phủ của thư mục theo độ đo Dice so với email mới nên khắc phục được nhược điểm khó xác định chính xác thư mục đích khi email mới trùng khớp với nhiều đồ thị con đại diện của các thư mục Như vậy với việc cải tiến eMailsft bằng độ đo tương tự Dice (trong eClass), chất lượng phân loại đã tăng lên

Trong Hình 3.8 là biểu đồ so sánh kết quả phân loại theo thư mục giữa eClass và eTCG

Hệ thống eTCG cho kết quả phân loại tốt hơn eClass ở phần lớn các loại kích thước thư mục,

Trang 11

đặc biệt khi kích thước thư mục tăng lên Điều này chứng tỏ mơ hình biểu diễn đồ thị đơn giản phù hợp cho việc biểu diễn văn bản trong bài tốn phân loại văn bản

Hình 3.7 Kết quả phân loại theo thư mục của

eClass và eMailSift [CT10]

Hình 3.8 Kết quả phân loại theo thư mục của

eTCG và eClass

 So sánh độ chính xác phân loại theo người dùng với Nạve Bayes

Phương pháp phân loại Nạve Bayes dự đốn thư mục cho email mới dựa trên biểu diễn

vectơ Kết quả trên biểu đồ hình 3.9 cho thấy độ chính xác phân loại khá khác biệt tùy theo

người dùng trong cả ba hệ thống Dựa trên kết quả phân loại, chúng ta thấy eClass và eTCG phân loại tương đối tốt với người dùng cĩ nhiều thư mục và nội dung thư mục khơng đồng nhất, cũng như khá tốt đối với các thư mục thưa

Nĩi chung, eTCG cho kết

quả phân loại tốt hơn cả Điều

này càng chứng minh phương

pháp biểu diễn bằng đồ thị đơn

giản cho kết quả phân loại tốt

hơn biểu diễn theo đồ thị hình

sao Bên cạnh đĩ, tốc độ xử lý

của gSpan cải tiến nhanh hơn

gấp rưỡi so với thuật tốn

Sudue nên hiệu quả phân loại

của eTCG tốt hơn nhiều Hình 3.9 Độ chính xác phân loại theo người dùng [CT10]

Thời gian huấn luyện trung bình của eTCG là 3.5 x 10-3 giây/ email và thời gian thực hiện phân lớp tính từ thời điểm tiền xử lý email mới cho đến khi phân lớp hồn tất trung bình là 2.9

x 10-3 giây/email (trên máy tính Intel Core Duo 2.56Ghz, 2GB RAM) Từ các kết quả thử nghiệm, cĩ thể nhận thấy qui trình phân loại đề xuất dựa trên biểu diễn bằng đồ thị đơn giản

và kỹ thuật khai thác đồ thị phổ biến cĩ thể áp dụng hiệu quả trên dữ liệu email

3.2.1 Thử nghiệm trên tập dữ liệu tiếng Việt

Những nghiên cứu gần đây trong lĩnh vực phân loại văn bản tiếng Việt thường sử dụng

mơ hình biểu diễn văn bản là mơ hình túi từ hoặc mơ hình khơng gian vectơ [2], [19], [27] Độ

Trang 12

chính xác phân lớp văn bản tiếng Việt phụ thuộc vào bộ dữ liệu, công cụ tách từ và có thể đạt

từ 48% cho đến 98% tùy theo phương pháp và bộ dữ liệu thử nghiệm

Luận án xây dựng bộ dữ liệu thử nghiệm gồm các bài báo lấy từ các tờ báo điện tử lớn Tập dữ liệu thử nghiệm (gọi là TC1) bao gồm 3900 tập tin văn bản được chia thành 7 chủ đề Khi áp dụng qui trình phân loại đã đề xuất lên tiếng Việt, luận án chọn lựa đơn vị „tiếng” biểu diễn đỉnh trong đồ thị Sau khi tiền xử lý, đồ thị có kích thước trung bình 45 đỉnh/đồ thị Luận án thử nghiệm bằng phương pháp đánh giá chéo

Bảng 3.4 Kết quả thử nghiệm phân loại [CT3]

Độ phủ Độ chính xác F1 Độ phủ Độ chính xác F1Khoa học 0.887 0.722 0.796 0.6 0.515 0.544 Kinh doanh 0.931 0.787 0.853 0.866 0.813 0.839 Sức khỏe 0.639 0.875 0.739 0.62 0.721 0.667 Thể thao 0.873 0.968 0.918 0.86 0.896 0.878 Văn hóa 0.798 0.941 0.864 0.8 0.909 0.851

Bảng 3.5 So sánh kết quả phân loại theo giá trị F 1 trung bình [CT6]

Hệ

thống

Mô hình biểu diễn

Giá trị F 1 trung bình

Khoảng tin cậy 95%

VSM Mô hình không gian vectơ k-NN, độ đo tương tự Cosine 0.708

[0.6937, 0.7223]

Hybrid Mô hình lai giữa

đồ thị và vectơ

k-NN, độ đo tương tự Manhattan,

“từ” tạo thành đỉnh của đồ thị 0.716

[0.7018, 0.7302]

TCG Mô hình đồ thị đơn

giản

Độ đo tương tự Dice, đỉnh đồ thị

Trang 13

thời gian của các bước xác định đặc trưng, cũng như xây dựng vectơ biểu diễn văn bản của VSM lớn hơn nhiều so với thời gian thực hiện công việc tương ứng của TCG

Hình 3.11 là đồ thị so

sánh kết quả phân loại của

các hệ thống TCG, Hybrid

và VSM trên chủ đề theo độ

đo F1 Kết quả của hệ thống

TCG dựa trên qui trình phân

loại đã đề xuất dùng độ đo

Dice trên tập dữ liệu tiếng

Việt này cho kết quả tốt

nhất Hình 3.11 So sánh kết quả phân loại theo chủ đề [ CT3 ]

4 Gom cụm tập văn bản có biến động dựa trên biểu diễn đồ thị

Gom cụm là quá trình phân chia tập văn bản thành những cụm chủ đề khác nhau Khi có

sự thay đổi trong tập dữ liệu, chẳng hạn thêm vào các văn bản mới, chúng ta cần một phương pháp có khả năng xử lý trên văn bản ngay khi nó xuất hiện, thay vì tái gom cụm trên toàn bộ tập văn bản Đây cũng chính là mục tiêu của các phương pháp gom cụm trên tập văn bản có biến động [34]

Luận án tập trung vào gom cụm tập

văn bản có biến động (gọi tắt là gom

cụm văn bản động) và đề xuất tiếp cận

kết hợp biểu diễn đồ thị và thuật toán

gom cụm động Incremental DBSCAN

cải tiến Các thông tin cấu trúc của văn

bản được rút trích từ đồ thị thông qua

các đồ thị con hay các cụm từ chung

Độ tương tự giữa hai văn bản là sự kết

hợp giữa độ tương tự của các vectơ đặc

trưng và thông tin về cụm từ chung

Luận án đã thực hiện việc cải tiến Incremental DBSCAN để hạn chế nhược điểm trộn cụm của thuật toán Luận án đề xuất kỹ thuật chọn lựa động đặc trưng nhằm nâng cao kết quả gom cụm

4.1 Gom cụm tập văn bản có biến động dựa trên biểu diễn đồ thị

Hình 4.1 là sơ đồ qui trình gom cụm văn bản động Đầu tiên, ta thực hiện tiền xử lý tập văn bản Sau đó, mô hình của dữ liệu được xây dựng sử dụng biểu diễn đồ thị đơn giản Khi xây dựng đồ thị động chúng ta có thể rút trích các đặc trưng đồ thị ở dạng các cụm từ chung

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

Khoa học Kinh doanh Sức khoẻ Thể thao Văn hóa Vi tính Xã hội

Mô hình hóa văn bản bằng

đồ thị

Rút trích đặc trưng đồ thị

Xác định độ tương tự giữa các văn bản

Incremental DBSCAN cải tiến Văn bản

Các nhóm văn bản

Trang 14

Tiếp theo, độ tương tự giữa các văn bản được tính dựa trên các cụm từ chung và vectơ văn bản đã tinh chỉnh Cuối cùng, hệ thống gom cụm văn bản và tạo các cụm chỉ gồm những văn bản liên quan đến cùng chủ đề Luận án sử dụng thuật toán Incremental DBSCAN cải tiến để gom cụm động văn bản dựa trên độ tương tự giữa các cặp văn bản

4.1.1 Rút trích đặc trưng đồ thị

Luận án sử dụng cùng mô hình đồ thị đơn giản biểu diễn văn bản như trong bài toán phân loại văn bản và dựa trên các kết quả nghiên cứu [30], [31] Khi xử lý việc văn bản cập nhật động, luận án sử dụng thuật toán xây dựng đồ thị DIG [17] để đánh chỉ mục văn bản trong khi vẫn giữ nguyên được cấu trúc của văn bản gốc Đồ thị biểu diễn văn bản được xây dựng động,

xử lý từng văn bản tại mỗi thời điểm Khi xác định sự tương tự giữa các văn bản, chúng ta cần rút trích đặc trưng từ đồ thị biểu diễn văn bản Thuật toán DIG có thể xác định động các đồ thị con đại diện hay các cụm từ chung từ các văn bản trước đó trong khi xây dựng đồ thị Các cụm từ chung này là những đặc trưng quan trọng được rút trích từ đồ thị biểu diễn văn bản và

có thể tính toán độ tương tự giữa các văn bản

4.1.2 Xác định độ tương tự giữa các văn bản

Dựa trên khảo sát về việc sử dụng kết hợp cụm từ và từ đơn có thể tăng kết quả gom cụm, luận án sử dụng độ đo lai là sự kết hợp hai độ đo tương tự: độ tương tự dựa trên cụm từ chung

(simsp) và độ đo cosine giữa vectơ văn bản (simdf) để gom cụm văn bản

Định nghĩa 4.1: Độ đo lai xác định sự tương tự giữa cặp văn bản

Cho hai văn bản d 1 và d 2, độ đo lai được định nghĩa như sau [CT5]:

),()

1(),()

,

(

d1 d2 sim d1 d2 sim d1 d2

Với   [0, 1] – hệ số pha trộn độ tương tự1, sim df (d 1 , d 2): độ tương tự dựa trên từ riêng

biệt giữa văn bản d 1 và d 2 , sim sp (d 1 , d 2 ): độ tương tự dựa trên cụm từ chung giữa văn bản d 1 và

d 2

Định nghĩa 4.2: Độ đo tương tự dựa trên cụm từ chung giữa hai văn bản

Độ đo tương tự sim sp (d 1 , d 2 ) dựa trên cụm từ chung giữa hai văn bản d 1 và d 2 được tính như sau [CT5]:

sp

s s

f f s avg l d

d sim

2 1

1

2 2 1

2 1

) (

) ) ( ( )

,

Trong đó, P: số cụm từ chung giữa hai văn bản, f 1i , f 2i: lần lượt là tần suất xuất hiện của

cụm từ chung thứ i trong văn bản d 1 và d 2 , l i : chiều dài của cụm từ chung i, |s ij |: chiều dài của câu thứ j trong văn bản d i, avg (si): chiều dài trung bình của các câu chứa cụm từ chung i

Độ tương tự dựa trên từ riêng biệt chính là độ tương tự giữa hai vectơ đặc trưng của hai văn bản Độ đo Cosine dùng để tính toán độ tương tự giữa các vectơ đặc trưng

1

λ=0.2 qua thực nghiệm cho kết quả gom nhóm tốt nhất

Định dạng
Số trang	28
Dung lượng	1,15 MB