Những năm gần đây, mô hình biểu diễn văn bản bằng đồ thị trong luận án này gọi tắt là mô hình đồ thị được đề xuất và sử dụng riêng lẻ trong các bài toán khác nhau của khai thác văn bản v
Trang 1ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
NGUYỄN HOÀNG TÚ ANH
TIẾP CẬN ĐỒ THỊ BIỂU DIỄN, KHAI THÁC VĂN BẢN VÀ ỨNG DỤNG
Chuyên ngành: Đảm bảo toán học cho máy tính và hệ
thống tính toán
Mã số chuyên ngành: 1.01.10
TÓM TẮT LUẬN ÁN TIẾN SĨ TOÁN HỌC
Tp Hồ Chí Minh, năm 2011
Trang 2Công trình được hoàn thành tại: Khoa Công Nghệ Thông Tin, Trường Đại Học Khoa Học Tự Nhiên
Người hướng dẫn khoa học: GS.TSKH Hoàng Văn Kiếm
Phản biện 1: GS.TS Nguyễn Thanh Thủy
Phản biện 2: PGS.TS Đinh Điền
Phản biện 3: TS Nguyễn Đức Cường
Phản biện độc lập 1: PGS.TSKH Nguyễn Xuân Huy
Phản biện độc lập 2: TS Quản Thành Thơ
Phản biện độc lập 3: PGS.TS Nguyễn Kim Anh
Luận án sẽ được bảo vệ trước Hội đồng chấm luận án họp tại
Trường Đại Học Khoa Học Tự Nhiên
vào hồi ……… giờ………ngày………tháng………năm 2011
Có thể tìm hiểu luận án tại thư viện:
- Thư viện Khoa học Tổng hợp Tp.HCM
- Thư viện Trường Đại học Khoa học Tự Nhiên
Trang 31 Mở đầu
1.1 Dẫn nhập
Trong những năm gần đây, lĩnh vực Khám phá tri thức trong cơ sở dữ liệu (Knowledge Discovery in Databases – KDD) hay còn được gọi là Khai thác dữ liệu (Data mining) đã ra
đời và phát triển nhanh chóng
Theo đánh giá của công ty Oracle [28], hiện có đến 80% dữ liệu trên thế giới là dữ liệu văn bản, vì vậy khai thác dữ liệu văn bản là vấn đề quan trọng, đầy thử thách và cần được đầu
tư nghiên cứu Đặc điểm của dữ liệu văn bản là thường không có cấu trúc hoặc bán cấu trúc,
cơ sở dữ liệu rất lớn, đa chiều và hay bị nhiễu Ngoài ra đối với dữ liệu văn bản chúng ta còn phải đối mặt với vấn đề nhập nhằng ở nhiều cấp độ (cấp độ về từ, ngữ, câu), ở nhiều khía cạnh (hình thái, ngữ pháp, ngữ nghĩa)
Luận án này nghiên cứu khai thác dữ liệu văn bản, hay còn gọi là khai thác văn bản Khai thác văn bản là “sự tìm kiếm thông tin mới, chưa biết bằng cách dùng máy tính rút trích tự động tri thức từ nhiều nguồn văn bản khác nhau”[18] Các bài toán chính của khai thác văn bản là phân loại, gom cụm văn bản, rút trích thông tin và tóm tắt tài liệu Mặc dù đã có nhiều tiến bộ trong nghiên cứu khai thác văn bản nhưng vẫn còn khoảng cách khá xa giữa nhu cầu ứng dụng và các kết quả đạt được Luận án tập trung nghiên cứu, phát triển các kỹ thuật khai thác dữ liệu hiện có, cũng như những kỹ thuật phân tích dữ liệu văn bản nhằm tích hợp chúng
và tăng cường hiệu quả giải quyết bài toán khai thác dữ liệu văn bản
1.2 Mục tiêu và đóng góp của luận án
Mô hình không gian vectơ [29] là một phương pháp biểu diễn văn bản phổ biến Mô hình không gian vectơ biểu diễn văn bản như một vectơ đặc trưng của các thuật ngữ (từ) xuất hiện trong toàn bộ tập văn bản Tuy nhiên, phương pháp này không lưu trữ được các thông tin cấu trúc quan trọng như trật tự xuất hiện của các từ, vùng lân cận, vị trí xuất hiện của từ trong văn bản Những năm gần đây, mô hình biểu diễn văn bản bằng đồ thị (trong luận án này gọi tắt là
mô hình đồ thị) được đề xuất và sử dụng riêng lẻ trong các bài toán khác nhau của khai thác văn bản và cho kết quả tốt vì tận dụng được các thông tin quan trọng về cấu trúc mà biểu diễn vectơ đã bỏ qua
Bên cạnh đó, mặc dù được viết bằng các ký tự La tinh mở rộng, tiếng Việt cũng có đặc tính chung với các ngôn ngữ châu Á đơn lập khác (tiếng Hoa, Lào, Thái) như khó xác định ranh giới giữa các từ và có các điểm khác biệt về ngữ âm, ngữ pháp so với tiếng Anh Việc xác định ranh giới từ trong tiếng Việt là bài toán khó [12] Do đó, khó có thể áp dụng các kỹ thuật và hướng tiếp cận đã được nghiên cứu và thử nghiệm thành công trên tiếng Anh cho tiếng Việt nếu không xây dựng thành công giải pháp cho việc tách từ trong văn bản tiếng Việt hoặc sử dụng mô hình biểu diễn có thể hạn chế được ảnh hưởng của bài toán tách từ
Phần lớn các nghiên cứu về khai thác văn bản tiếng Việt [1], [2], [3], [4], [5], [6], [11], [12], [19], [27] sử dụng mô hình không gian vectơ biểu diễn văn bản và đòi hỏi công cụ tách
Trang 4từ tốt Ngoài ra, mô hình không gian vectơ không quan tâm đến trật tự của từ trong câu trong khi đối với tiếng Việt, trật từ của từ rất quan trọng
Mục tiêu của luận án là nghiên cứu, hệ thống hóa và phân tích khả năng ứng dụng của mô
hình đồ thị vào biểu diễn và khai thác văn bản Luận án nghiên cứu, phát triển các kỹ thuật khai thác dữ liệu đã có để áp dụng hiệu quả trên đồ thị biểu diễn văn bản Luận án nghiên cứu, phát triển qui trình khai thác văn bản sử dụng tiếp cận đồ thị nhằm giải quyết một số bài toán: phân loại, gom cụm tập văn bản có biến động và tóm tắt văn bản
1.3 Các đóng góp chính của luận án
1 Hệ thống hóa, phân tích khả năng ứng dụng của từng loại mô hình đồ thị và lựa chọn
mô hình biểu diễn đồ thị phù hợp cho các nhiệm vụ khai thác văn bản
2 Cải tiến thuật toán gSpan khai thác đồ thị con phổ biến cho tập đồ thị có hướng
3 Cải tiến kỹ thuật trộn cụm của thuật toán gom cụm động Incremental DBSCAN
4 Đề xuất qui trình phân loại văn bản dựa trên biểu diễn đồ thị và kỹ thuật khai thác đồ thị con phổ biến cải tiến
5 Đề xuất qui trình gom cụm tập văn bản có biến động sử dụng đồ thị biểu diễn văn bản kết hợp kỹ thuật chọn lựa động đặc trưng và thuật toán Incremental DBSCAN cải tiến
6 Đề xuất mô hình tóm tắt văn bản tiếng Việt dựa trên biểu diễn đồ thị kết hợp kỹ thuật xếp hạng đỉnh
7 Tiến hành thử nghiệm khai thác văn bản tiếng Việt dựa trên tiếp cận đồ thị theo mô hình đề xuất
2 Mô hình biểu diễn văn bản bằng đồ thị
2.1 Giới thiệu
Mô hình đồ thị biểu diễn văn bản, cụ thể là mô hình đồ thị khái niệm, được John F Sowa trình bày vào năm 1976 [33] Hiện nay, mô hình đồ thị không ngừng phát triển và ứng dụng vào dãy rộng các bài toán liên quan đến xử lý văn bản và trở nên khá phong phú Luận án trình bày những đặc tính khái quát của mô hình đồ thị biểu diễn văn bản
Mỗi đồ thị là một văn bản hoặc biểu diễn cho tập văn bản Đỉnh của đồ thị có thể là câu, hoặc từ, hoặc kết hợp các thành phần khác nhau của văn bản (ví dụ như câu và từ) Cạnh nối giữa các đỉnh là vô hướng hoặc có hướng, thể hiện mối quan hệ trong đồ thị Nhãn đỉnh thường là tần suất xuất hiện của đỉnh Còn nhãn cạnh là tên mối liên kết khái niệm giữa hai đỉnh, hay tần suất xuất hiện chung của hai đỉnh trong một phạm vi nào đó, hay tên vùng mà đỉnh xuất hiện Do thông tin cấu trúc quan trọng của văn bản thể hiện ở trật tự xuất hiện của
từ, vùng lân cận của từ, cũng như vị trí xuất hiện của từ trong văn bản nên mô hình đồ thị sử dụng đỉnh là từ được nghiên cứu sâu hơn và có nhiều biến thể nhất Mô hình đồ thị đơn giản
2.2 Phân loại các mô hình đồ thị [CT4]
Luận án đã hệ thống các mô hình đồ thị chính và phân loại dựa trên loại đỉnh mà đồ thị sử dụng thành các nhóm: nhóm mô hình sử dụng đỉnh là từ, nhóm sử dụng đỉnh là câu, nhóm sử
Trang 5dụng đỉnh là các thành phần khác nhau trong văn bản Bảng 2.1 so sánh những đặc trưng chính và lĩnh vực ứng dụng cơ bản của các mô hình đồ thị
Nhóm mô hình đồ thị sử dụng đỉnh là từ trong văn bản (gồm các đồ thị ký hiệu từ số 1
→ 10 trong Bảng 2.1)
Mô hình đồ thị sử dụng mạng ngữ nghĩa (mô hình số 1, 2, 3) Ưu điểm của nhóm
mô hình này là mô hình hoá văn bản một cách trực quan, logic, thể hiện được quan
hệ ngữ nghĩa giữa các khái niệm và cho kết quả truy vấn thông tin chính xác hơn
Mô hình đồ thị không sử dụng mạng ngữ nghĩa (mô hình số 4 → 10) Nhóm mô hình này khai thác được các thông tin cấu trúc của văn bản (thứ tự xuất hiện, vị trí, vùng lận cận của từ trong văn bản) nhanh chóng, đơn giản và không phụ thuộc vào mạng ngữ nghĩa nên dễ dàng cài đặt các ứng dụng phân lớp, gom cụm
Nhóm mô hình đồ thị sử dụng đỉnh là câu (mô hình số 11 trong Bảng 2.1) Thế mạnh
của mô hình này là khả năng lưu trữ mối liên kết giữa các câu, thứ tự xuất hiện câu và
hỗ trợ tốt cho quá trình trích chọn câu quan trọng của văn bản và tạo bản tóm tắt bằng tiếp cận không giám sát
Mô hình đồ thị sử dụng đỉnh là các thành phần khác nhau trong văn bản (mô hình
lưỡng phần trong Bảng 2.1) Mô hình này tận dụng được mối liên quan giữa từ với câu, cũng như sự đồng hiện của từ trong câu nhằm tăng hiệu quả của bài toán rút trích thông tin văn bản Mô hình lưỡng phần với đỉnh là câu và từ có thể thay đổi đỉnh là đoạn trong văn bản hay văn bản trong tập văn bản và nhóm từ thay cho từ Trong mô hình đồ thị lưỡng phần, trật tự xuất hiện của các thành phần trong văn bản không được quan tâm
Bảng 2.1 So sánh các mô hình biểu diễn văn bản bằng đồ thị [CT4]
Ý nghĩa
Gom cụm văn bản
4 Đồ thị hình sao
Từ / cấu trúc
1
Có (tần suất xuất hiện)
Liên kết từ và đỉnh cấu trúc trung tâm
Không
Có (vị trí từ trong cấu trúc văn bản)
Phân loại email
5 Đồ thị tần số
Có (tần suất xuất hiện)
Liên kết từ
chung trong cấu trúc
Không
Có (tần suất xuất hiện chung)
Tìm kiếm thông tin trên Web
Trang 6Ý nghĩa Số loại đỉnh Nhãn Ý nghĩa Hướng Nhãn
Cĩ (tên từ)
Từ a xuất hiện ngay trước từ
Cĩ (số từ giữa a
và b + 1)
Phân lớp văn bản
Cĩ (tên từ)
Từ a xuất hiện ngay trước từ
b
Cĩ
Cĩ (vị trí từ trong cấu trúc văn bản)
Phân lớp, gom cụm văn bản
Cĩ (tần suất xuất hiện )
Từ a xuất hiện ngay trước từ
b
Cĩ
Cĩ (tần suất 2
từ xuất hiện liên tiếp)
Phân lớp văn bản
11 Đồ thị đỉnh là
Cĩ (trọng
Rút trích thơng tin, gom cụm
3 Phân loại văn bản dựa trên tiếp cận đồ thị
Phân loại văn bản là quá trình gán văn bản vào một hoặc nhiều chủ đề đã xác định trước Rất nhiều phương pháp phân loại như Nạve Bayes, cây quyết định, k-láng giềng gần nhất (k-NN), mạng nơron, máy vectơ hỗ trợ (SVM) đã áp dụng vào bài tốn loại văn bản [32] Trong
số đĩ thì cả hai phương pháp SVM và k-NN đều cho kết quả tốt khi phân loại văn bản tiếng Anh [37] Các phương pháp này đều sử dụng mơ hình khơng gian vectơ [29] khi biểu diễn văn bản
Luận án đề xuất qui trình phân loại văn bản dựa trên biểu diễn đồ thị và kỹ thuật khai thác
đồ thị Các văn bản được biểu diễn dưới dạng đồ thị đơn giản Kỹ thuật khai thác đồ thị con phổ biến gSpan cải tiến khai thác những đồ thị cĩ hướng biểu diễn văn bản thuộc cùng một lớp đề nhằm phát hiện các mẫu đại diện Sau đĩ, xây dựng vectơ lớp dựa trên tập mẫu phổ biến hay tập đồ thị con phổ biến Văn bản mới sẽ được biểu diễn bằng đồ thị và chuyển thành vectơ nhị phân với các chiều của vectơ là đồ thị con phổ biến của chủ đề Độ đo tương tự Dice xác định khoảng cách gần nhất giữa văn bản mới và các vectơ chủ đề Qui trình phân loại này cĩ thể áp dụng cho một số ngơn ngữ
3.1 Qui trình phân loại văn bản dựa trên kỹ thuật khai thác đồ thị
Hình 3.1 là sơ đồ giai đoạn huấn luyện hệ thống và Hình 3.2 là giai đoạn phân loại văn bản nĩi chung và email nĩi riêng
Trang 7Hình 3.1 Sơ đồ giai đoạn huấn luyện Hình 3.2 Sơ đồ giai đoạn phân loại
3.1.1 Tiền xử lý văn bản
Trước khi loại bỏ các hư từ, ta cần thực hiện tách câu Sau đó, hệ thống tính tần suất xuất hiện của các “thuật ngữ” trong tập văn bản („thuật ngữ” có thể là từ, tiếng, hay cụm từ tùy theo kiểu đồ thị biểu diễn văn bản) Để giảm kích thước của đồ thị và thời gian tính toán đồ
thị con phổ biến, chỉ f% số “thuật ngữ” có tần suất xuất hiện cao nhất được giữ lại Luận án
thống kê tần suất xuất hiện và tính trọng số của “thuật ngữ” theo phương pháp TF×IDF [29]
3.1.2 Mô hình hóa văn bản thành đồ thị
Các kết quả nghiên cứu trong [31] cho thấy mô hình đồ thị đơn giản và mô hình đồ thị dạng chuẩn là hai loại mô hình cho độ chính xác phân lớp tốt nhất trên các bộ dữ liệu văn bản web Sự khác biệt giữa hai mô hình này là mô hình dạng chuẩn đưa thêm giá trị nhãn cạnh là
vị trí của từ trong văn bản (như “nhan đề”, “liên kết”, “nội dung”, ) vào đồ thị so với đồ thị đơn giản Khi áp dụng cho văn bản nói chung thì không phải lúc nào ta cũng xác định được nhãn “nhan đề”, “liên kết”, hay “nội dung” như trên văn bản web nên luận án sử dụng mô hình đồ thị đơn giản để biểu diễn văn bản Trong mô hình này, mỗi văn bản là một đồ thị Đỉnh biểu diễn “thuật ngữ” trong văn bản Các đỉnh được gán nhãn duy nhất là tên của “thuật
ngữ” Sau bước tiền xử lý văn bản, nếu thuật ngữ a đứng ngay trước thuật ngữ b thì sẽ tồn tại cạnh có hướng nối từ đỉnh a đến đỉnh b (không kể các trường hợp phân cách bởi dấu câu)
3.1.3 Rút trích đặc trưng đồ thị
Mục đích của quá trình này là xác định các đặc trưng (đồ thị con) liên quan đến việc phân loại để giảm độ phức tạp tính toán và cũng là nội dung chính của bài toán khai thác đồ thị con phổ biến - một bài toán quan trọng trong lĩnh vực khai thác đồ thị Đồ thị con phổ biến là đồ thị có tần suất xuất hiện trong tập đồ thị nhiều hơn một ngưỡng cho trước Chỉ có những đồ
thị con xuất hiện ít nhất minSup% trong các đồ thị mới được dùng để xác định đặc trưng
Trong các phương pháp tìm đồ thị con phổ biến trên tập dữ liệu đồ thị, gSpan là thuật toán nhanh, cho kết quả ổn định [35] Bên cạnh đó, trong khi phần lớn các thuật toán tìm đồ thị con phổ biến khác khó có thể cải tiến cho tập đồ thị có hướng thì gSpan có thể cải tiến để áp dụng cho tập đồ thị có hướng Chính vì vậy luận án lựa chọn gSpan và thực hiện một số cải tiến để
có thể áp dụng gSpan lên tập đồ thị có hướng
Mô hình hóa văn bản thành
đồ thị
Rút trích đặc trưng đồ thị từ các lớp
Xây dựng tập vectơ đại diện lớp
Tập vectơ đại diện lớp
R1=(1,0,1,…1)
R2=(1,1,0,…0)
… Rm=(0,0,1,…1)
Lớp của văn bản mới
Mô hình hóa văn bản thành
đồ thị
Văn bản mới
Tập vectơ đại diện lớp
Trang 8Thuật toán gSpan (graph-based Substructure pattern) [36] là thuật toán khai thác đồ thị
con phổ biến theo chiều sâu Thuật toán ánh xạ mỗi mẫu vào nhãn chính tắc duy nhất và gán mỗi đồ thị một mã DFS (Depth-first search) tối tiểu Mã DFS là thứ tự duyệt các cạnh của đồ thị theo chiều sâu hay là chuỗi các cạnh DFS Dựa trên các nhãn này, quan hệ thứ tự đầy đủ giữa các mẫu được tạo lập Thứ tự từ điển này cũng được dùng trong việc thiết lập cây tìm kiếm phân cấp (gọi là cây DFS) Trong quá trình duyệt cây theo chiều sâu, thuật toán gSpan chỉ mở rộng ứng viên trên các đỉnh hay nhánh nằm bên phải nhất của cây DFS
Cải tiến gSpan cho đồ thị có hướng
Do đồ thị biểu diễn văn bản là đồ thị có hướng, luận án thực hiện một số cải tiến để có thể
áp dụng gSpan lên tập đồ thị có hướng Đầu tiên, luận án thêm giá trị hướng vào trong mã DFS Nhờ vào thứ tự của các đỉnh trong biểu diễn mã DFS mà ta có thể mã hóa thêm hướng của cạnh một cách chính xác, không bị nhập nhằng
Bên cạnh đó, đồ thị biểu diễn văn bản không có
nhãn cạnh nên mã DFS sẽ biểu diễn cạnh DFS
dưới dạng: (i, j, l i , l j , d (i,j) ) với l i , l j là nhãn đỉnh v i và
v j tương ứng, d (i,j) xác định hướng cạnh giữa hai
đỉnh Luận án gán d (i,j) = nếu cạnh có hướng từ
v i sang v j và d (i,j) = nếu ngược lại Chẳng hạn ta
có đồ thị s có hướng như trong Hình 3.4, khi đó
một mã DFS cho đồ thị này được mô tả bên cạnh Hình 3.4 Ví dụ mã DFS cho đồ thị có
Định nghĩa 3.1 Thứ tự từ điển trên mã DFS
Nếu α = (a 0 , a 1 , …, a m ) và β = (b 0 , b 1 , …, b n) là hai mã DFS Giả sử tập cạnh tiến và tập
cạnh lùi của α và β tương ứng là E α,f , E α,b , E β,f và E β,b Đặt a t (i j l i l j d(i,j)) và
) ( i j (i,j)
t i j l l d
b là cạnh DFS thứ t trong mã DFS α và β tương ứng Khi đó khi
và chỉ khi một trong những điều kiện sau là chính xác
(i) t, 0 t min(m, n), sao cho a k = b k với k < t và a t e b t
(a t e b t khi một trong những điều kiện dưới đây xảy ra:
Trang 9Với định nghĩa thứ tự từ điển này, luận án có thể điều chỉnh chính xác bước kiểm tra mã
DFS tối tiểu Một điều cần lưu ý nữa khi tạo đồ thị con của s bằng việc phát triển thêm một đỉnh hay một nhánh bên phải nhất từ s (s là một mã DFS hoặc là một đỉnh trong cây DFS)
Việc thêm giá trị hướng cạnh sẽ tạo nên ít nhất hai cạnh giữa hai đỉnh: mỗi cạnh cho một hướng Như vậy, luận án cần kiểm tra các cạnh này giữa hai đỉnh thay vì chỉ kiểm tra một cạnh như trước đây khi tìm đồ thị con phù hợp Các phần còn lại của thuật toán gSpan nguyên thủy không thay đổi khi cải tiến cho tập đồ thị có hướng Do gSpan sử dụng phương pháp tìm kiếm theo chiều sâu và không sử dụng danh sách lưu trữ đồ thị con phổ biến nên không cần
dùng nhiều bộ nhớ Độ phức tạp về thời gian của gSpan cải tiến là O(FS + rF) với F là số đồ thị con phổ biến, S là kích thước tập dữ liệu và r là số mã trùng lắp tối đa của một đồ thị con
phổ biến được phát triển từ mã tối tiểu
Với tiếp cận biểu diễn văn bản thành đồ thị mà mỗi đỉnh được gán nhãn duy nhất và cạnh
có hướng thì độ phức tạp của bài toán xác đỉnh đẳng cấu đồ thị con giảm xuống còn O(n 2 ) (n -
số cạnh của đồ thị) Từ tập các đồ thị con phổ biến thu được từ tất cả các lớp, xây dựng tập các đặc trưng – tập đồ thị con phổ biến Đây là đầu vào cho bước xây dựng vectơ đại diện lớp tiếp theo
3.1.4 Xây dựng vectơ đại diện lớp
Với mục tiêu thực hiện giai đoạn phân loại thuận tiện, các vectơ nhị phân đại diện cho từng lớp được xây dựng Mỗi lớp cho trước được biểu diễn thành một vectơ đặc trưng có số chiều bằng kích thước tập đồ thị con phổ biến Đặc trưng nhận giá trị 1 nếu đồ thị con phổ biến tương ứng xuất hiện trong tập đồ thị con phổ biến của lớp và ngược lại sẽ nhận giá trị 0
Để tiện cho việc trình bày các công thức, luận án sử dụng các ký hiệu sau
Tập văn bản huấn luyện ký hiệu là D = {d 1 , d 2 , …, d n } có gán nhãn lớp và tập các lớp C = { C 1 , C 2 , …, C m } Tập đồ thị G = {G 1 , G 2 , …, G n } tương ứng với các văn bản thuộc tập D sau bước mô hình hoá văn bản Tập đồ thị con phổ biến (đặc trưng) ký hiệu là F = {f 1 , f 2 , …, f k } Vectơ đại diện cho mỗi lớp C i ; 1 ≤ i ≤ m ký hiệu là R i = (R i1 , R i2 , …, R ik ) Khi đó, vectơ R i đại
diện cho mỗi lớp C i ; 1 ≤ i ≤ m có k chiều (ứng với số đặc trưng trong tập F) được tính với giá trị R ij =1 nếu đặc trưng f j F là một trong các đồ thị con phổ biến tìm được từ tập đồ thị biểu diễn văn bản thuộc lớp C i và ngược lại
3.1.5 Bộ phân loại
Lớp của văn bản mới X được xác định như sau Đầu tiên, luận án sử dụng tập các “thuật ngữ” đã lựa chọn trong quá trình huấn luyện để xây dựng đồ thị g biểu diễn cho X Sau đó xây dựng vectơ nhị phân v 0 có số chiều tương ứng với k đặc trưng của tập F Giá trị của từng thành phần trong vectơ v 0 thể hiện sự tồn tại hay không của các đặc trưng f i F trong đồ thị g
Trang 10Tiếp theo, luận án tính toán sự tương tự giữa vectơ v 0 với tất cả m vectơ đại diện cho các lớp
Luận án sử dụng độ đo Dice – độ đo sử dụng phổ biến, hiệu quả trong việc xác định độ tương
tự giữa các vectơ nhị phân Độ đo Manhattan được cài đặt để so sánh kết quả phân loại với độ
đo Dice Cuối cùng, dựa trên các độ tương tự Dice ta gán văn bản mới vào lớp cho giá trị Dice lớn nhất Còn nếu sử dụng độ đo Manhattan thì lớp có giá trị Manhattan nhỏ nhất được chọn làm lớp cho văn bản mới
3.2 Kết quả thử nghiệm
3.2.1 Thử nghiệm trên tập dữ liệu email tiếng Anh
Tập dữ liệu Enron gồm 619.446 email của 158 người và trung bình mỗi người dùng có khoảng 0.5 MB dữ liệu email Luận án thực hiện các bước làm sạch, tiền xử lý và tổ chức lại
dữ liệu trước khi đưa vào quá trình huấn luyện Khi thử nghiệm, luận án dùng phương pháp đánh giá chéo để xác định độ chính xác phân loại trung bình
Đánh giá độ chính xác phân loại theo thư mục
Luận án thống kê thư mục có cùng một kích thước Với từng loại thư mục, độ chính xác phân loại bằng tổng số email phân loại đúng chia cho tổng số email phân loại Luận án chia các thư mục của Enron thành 6 loại với kích thước: nhỏ hơn 35 email, từ 36 đến 75 email, từ
76 đến 165 email, từ 166 đến 255 email, từ 255 đến 475 email và trên 476 email Trong Bảng 3.2 là mô tả các hệ thống phân loại email đã được cài đặt và thử nghiệm Hệ thống eClass là cải tiến của eMailSift [8] với việc xây dựng vectơ đại diện thư mục (tương tự qui trình đã mô
tả trong mục 3.1.4) và thực hiện phân loại email với độ đo tương tự Dice Hệ thống eTCG là
ký hiệu cho hệ thống triển khai qui trình phân loại dựa trên kỹ thuật khai thác đồ thị mà luận
án đã đề xuất trong mục 3.1
Bảng 3.2 Mô tả các hệ thống thử nghiệm
eMailSift Mô hình đồ thị hình sao Dùng Subdue tìm đồ thị con đại diện, phân loại bằng cách so
khớp với đồ thị con đại diện có thứ hạng cao nhất
eClass Mô hình đồ thị hình sao Dùng Subdue tìm đồ thị con phổ biến, xây dựng vectơ nhị phân đại diện thư mục, phân loại bằng độ đo tương tự Dice
eTCG Mô hình đồ thị đơn giản gSpan cải tiến khai thác đồ thị có hướng, độ đo tương tự
Dice, đỉnh đồ thị tạo từ đơn vị “từ”
Biểu đồ trong hình 3.7 cho thấy kết quả phân loại theo thư mục của eClass nhỉnh hơn phương pháp so khớp theo thứ hạng của eMailSift Đó là do thay vì chỉ xác định sự trùng khớp với đồ thị con đại diện có thứ hạng cao nhất (trong eMailSift) thì eClass tính độ phủ của thư mục theo độ đo Dice so với email mới nên khắc phục được nhược điểm khó xác định chính xác thư mục đích khi email mới trùng khớp với nhiều đồ thị con đại diện của các thư mục Như vậy với việc cải tiến eMailsft bằng độ đo tương tự Dice (trong eClass), chất lượng phân loại đã tăng lên
Trong Hình 3.8 là biểu đồ so sánh kết quả phân loại theo thư mục giữa eClass và eTCG
Hệ thống eTCG cho kết quả phân loại tốt hơn eClass ở phần lớn các loại kích thước thư mục,
Trang 11đặc biệt khi kích thước thư mục tăng lên Điều này chứng tỏ mơ hình biểu diễn đồ thị đơn giản phù hợp cho việc biểu diễn văn bản trong bài tốn phân loại văn bản
Hình 3.7 Kết quả phân loại theo thư mục của
eClass và eMailSift [CT10]
Hình 3.8 Kết quả phân loại theo thư mục của
eTCG và eClass
So sánh độ chính xác phân loại theo người dùng với Nạve Bayes
Phương pháp phân loại Nạve Bayes dự đốn thư mục cho email mới dựa trên biểu diễn
vectơ Kết quả trên biểu đồ hình 3.9 cho thấy độ chính xác phân loại khá khác biệt tùy theo
người dùng trong cả ba hệ thống Dựa trên kết quả phân loại, chúng ta thấy eClass và eTCG phân loại tương đối tốt với người dùng cĩ nhiều thư mục và nội dung thư mục khơng đồng nhất, cũng như khá tốt đối với các thư mục thưa
Nĩi chung, eTCG cho kết
quả phân loại tốt hơn cả Điều
này càng chứng minh phương
pháp biểu diễn bằng đồ thị đơn
giản cho kết quả phân loại tốt
hơn biểu diễn theo đồ thị hình
sao Bên cạnh đĩ, tốc độ xử lý
của gSpan cải tiến nhanh hơn
gấp rưỡi so với thuật tốn
Sudue nên hiệu quả phân loại
của eTCG tốt hơn nhiều Hình 3.9 Độ chính xác phân loại theo người dùng [CT10]
Thời gian huấn luyện trung bình của eTCG là 3.5 x 10-3 giây/ email và thời gian thực hiện phân lớp tính từ thời điểm tiền xử lý email mới cho đến khi phân lớp hồn tất trung bình là 2.9
x 10-3 giây/email (trên máy tính Intel Core Duo 2.56Ghz, 2GB RAM) Từ các kết quả thử nghiệm, cĩ thể nhận thấy qui trình phân loại đề xuất dựa trên biểu diễn bằng đồ thị đơn giản
và kỹ thuật khai thác đồ thị phổ biến cĩ thể áp dụng hiệu quả trên dữ liệu email
3.2.1 Thử nghiệm trên tập dữ liệu tiếng Việt
Những nghiên cứu gần đây trong lĩnh vực phân loại văn bản tiếng Việt thường sử dụng
mơ hình biểu diễn văn bản là mơ hình túi từ hoặc mơ hình khơng gian vectơ [2], [19], [27] Độ
Trang 12chính xác phân lớp văn bản tiếng Việt phụ thuộc vào bộ dữ liệu, công cụ tách từ và có thể đạt
từ 48% cho đến 98% tùy theo phương pháp và bộ dữ liệu thử nghiệm
Luận án xây dựng bộ dữ liệu thử nghiệm gồm các bài báo lấy từ các tờ báo điện tử lớn Tập dữ liệu thử nghiệm (gọi là TC1) bao gồm 3900 tập tin văn bản được chia thành 7 chủ đề Khi áp dụng qui trình phân loại đã đề xuất lên tiếng Việt, luận án chọn lựa đơn vị „tiếng” biểu diễn đỉnh trong đồ thị Sau khi tiền xử lý, đồ thị có kích thước trung bình 45 đỉnh/đồ thị Luận án thử nghiệm bằng phương pháp đánh giá chéo
Bảng 3.4 Kết quả thử nghiệm phân loại [CT3]
Độ phủ Độ chính xác F1 Độ phủ Độ chính xác F1Khoa học 0.887 0.722 0.796 0.6 0.515 0.544 Kinh doanh 0.931 0.787 0.853 0.866 0.813 0.839 Sức khỏe 0.639 0.875 0.739 0.62 0.721 0.667 Thể thao 0.873 0.968 0.918 0.86 0.896 0.878 Văn hóa 0.798 0.941 0.864 0.8 0.909 0.851
Bảng 3.5 So sánh kết quả phân loại theo giá trị F 1 trung bình [CT6]
Hệ
thống
Mô hình biểu diễn
Giá trị F 1 trung bình
Khoảng tin cậy 95%
VSM Mô hình không gian vectơ k-NN, độ đo tương tự Cosine 0.708
[0.6937, 0.7223]
Hybrid Mô hình lai giữa
đồ thị và vectơ
k-NN, độ đo tương tự Manhattan,
“từ” tạo thành đỉnh của đồ thị 0.716
[0.7018, 0.7302]
TCG Mô hình đồ thị đơn
giản
Độ đo tương tự Dice, đỉnh đồ thị
Trang 13thời gian của các bước xác định đặc trưng, cũng như xây dựng vectơ biểu diễn văn bản của VSM lớn hơn nhiều so với thời gian thực hiện công việc tương ứng của TCG
Hình 3.11 là đồ thị so
sánh kết quả phân loại của
các hệ thống TCG, Hybrid
và VSM trên chủ đề theo độ
đo F1 Kết quả của hệ thống
TCG dựa trên qui trình phân
loại đã đề xuất dùng độ đo
Dice trên tập dữ liệu tiếng
Việt này cho kết quả tốt
nhất Hình 3.11 So sánh kết quả phân loại theo chủ đề [ CT3 ]
4 Gom cụm tập văn bản có biến động dựa trên biểu diễn đồ thị
Gom cụm là quá trình phân chia tập văn bản thành những cụm chủ đề khác nhau Khi có
sự thay đổi trong tập dữ liệu, chẳng hạn thêm vào các văn bản mới, chúng ta cần một phương pháp có khả năng xử lý trên văn bản ngay khi nó xuất hiện, thay vì tái gom cụm trên toàn bộ tập văn bản Đây cũng chính là mục tiêu của các phương pháp gom cụm trên tập văn bản có biến động [34]
Luận án tập trung vào gom cụm tập
văn bản có biến động (gọi tắt là gom
cụm văn bản động) và đề xuất tiếp cận
kết hợp biểu diễn đồ thị và thuật toán
gom cụm động Incremental DBSCAN
cải tiến Các thông tin cấu trúc của văn
bản được rút trích từ đồ thị thông qua
các đồ thị con hay các cụm từ chung
Độ tương tự giữa hai văn bản là sự kết
hợp giữa độ tương tự của các vectơ đặc
trưng và thông tin về cụm từ chung
Luận án đã thực hiện việc cải tiến Incremental DBSCAN để hạn chế nhược điểm trộn cụm của thuật toán Luận án đề xuất kỹ thuật chọn lựa động đặc trưng nhằm nâng cao kết quả gom cụm
4.1 Gom cụm tập văn bản có biến động dựa trên biểu diễn đồ thị
Hình 4.1 là sơ đồ qui trình gom cụm văn bản động Đầu tiên, ta thực hiện tiền xử lý tập văn bản Sau đó, mô hình của dữ liệu được xây dựng sử dụng biểu diễn đồ thị đơn giản Khi xây dựng đồ thị động chúng ta có thể rút trích các đặc trưng đồ thị ở dạng các cụm từ chung
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
Khoa học Kinh doanh Sức khoẻ Thể thao Văn hóa Vi tính Xã hội
Mô hình hóa văn bản bằng
đồ thị
Rút trích đặc trưng đồ thị
Xác định độ tương tự giữa các văn bản
Incremental DBSCAN cải tiến Văn bản
Các nhóm văn bản
Trang 14
Tiếp theo, độ tương tự giữa các văn bản được tính dựa trên các cụm từ chung và vectơ văn bản đã tinh chỉnh Cuối cùng, hệ thống gom cụm văn bản và tạo các cụm chỉ gồm những văn bản liên quan đến cùng chủ đề Luận án sử dụng thuật toán Incremental DBSCAN cải tiến để gom cụm động văn bản dựa trên độ tương tự giữa các cặp văn bản
4.1.1 Rút trích đặc trưng đồ thị
Luận án sử dụng cùng mô hình đồ thị đơn giản biểu diễn văn bản như trong bài toán phân loại văn bản và dựa trên các kết quả nghiên cứu [30], [31] Khi xử lý việc văn bản cập nhật động, luận án sử dụng thuật toán xây dựng đồ thị DIG [17] để đánh chỉ mục văn bản trong khi vẫn giữ nguyên được cấu trúc của văn bản gốc Đồ thị biểu diễn văn bản được xây dựng động,
xử lý từng văn bản tại mỗi thời điểm Khi xác định sự tương tự giữa các văn bản, chúng ta cần rút trích đặc trưng từ đồ thị biểu diễn văn bản Thuật toán DIG có thể xác định động các đồ thị con đại diện hay các cụm từ chung từ các văn bản trước đó trong khi xây dựng đồ thị Các cụm từ chung này là những đặc trưng quan trọng được rút trích từ đồ thị biểu diễn văn bản và
có thể tính toán độ tương tự giữa các văn bản
4.1.2 Xác định độ tương tự giữa các văn bản
Dựa trên khảo sát về việc sử dụng kết hợp cụm từ và từ đơn có thể tăng kết quả gom cụm, luận án sử dụng độ đo lai là sự kết hợp hai độ đo tương tự: độ tương tự dựa trên cụm từ chung
(simsp) và độ đo cosine giữa vectơ văn bản (simdf) để gom cụm văn bản
Định nghĩa 4.1: Độ đo lai xác định sự tương tự giữa cặp văn bản
Cho hai văn bản d 1 và d 2, độ đo lai được định nghĩa như sau [CT5]:
),()
1(),()
,
(
d1 d2 sim d1 d2 sim d1 d2
Với [0, 1] – hệ số pha trộn độ tương tự1, sim df (d 1 , d 2): độ tương tự dựa trên từ riêng
biệt giữa văn bản d 1 và d 2 , sim sp (d 1 , d 2 ): độ tương tự dựa trên cụm từ chung giữa văn bản d 1 và
d 2
Định nghĩa 4.2: Độ đo tương tự dựa trên cụm từ chung giữa hai văn bản
Độ đo tương tự sim sp (d 1 , d 2 ) dựa trên cụm từ chung giữa hai văn bản d 1 và d 2 được tính như sau [CT5]:
sp
s s
f f s avg l d
d sim
2 1
1
2 2 1
2 1
) (
) ) ( ( )
,
Trong đó, P: số cụm từ chung giữa hai văn bản, f 1i , f 2i: lần lượt là tần suất xuất hiện của
cụm từ chung thứ i trong văn bản d 1 và d 2 , l i : chiều dài của cụm từ chung i, |s ij |: chiều dài của câu thứ j trong văn bản d i, avg (si): chiều dài trung bình của các câu chứa cụm từ chung i
Độ tương tự dựa trên từ riêng biệt chính là độ tương tự giữa hai vectơ đặc trưng của hai văn bản Độ đo Cosine dùng để tính toán độ tương tự giữa các vectơ đặc trưng
1
λ=0.2 qua thực nghiệm cho kết quả gom nhóm tốt nhất