MỞ ĐẦU1 Tính cấp thiết của đề tài và động lực nghiên cứu Trong vài thập niên gần đây, khi các kho dữ liệu dễ dàng được thu thập vàlưu trữ, các phương pháp khai phá dữ liệu để trích rút đ
Trang 1HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-TÓM TẮT DỮ LIỆU BẰNG NGÔN NGỮ THEO CÁCH TIẾP CẬN ĐẠI SỐ GIA TỬ
LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH
Hà Nội – 2022
BỘ GIÁO DỤC
VÀ ĐÀO TẠO
Trang 2HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-TÓM TẮT DỮ LIỆU BẰNG NGÔN NGỮ
THEO CÁCH TIẾP CẬN ĐẠI SỐ GIA TỬ
LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH
Chuyên ngành: Khoa học máy tính
Mã số: 9 48 01 01
NGƯỜI HƯỚNG DẪN KHOA HỌC:
Hà Nội – 2022
Trang 3Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các kếtquả được viết chung với các tác giả khác đều được sự đồng ý của các đồng tácgiả trước khi đưa vào luận án Các kết quả nêu trong luận án là trung thực vàchưa từng được công bố trong các công trình nào khác
Luận án được hoàn thành trong thời gian tôi làm Nghiên cứu sinh tạiHọc viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học và Công nghệViệt Nam
Tác giả
NCS
Trang 4Trước tiên, tôi xin gửi lời cảm ơn sâu sắc tới tập thể hướng dẫn là
PGS TSKH Trong quá trình nghiên cứu và
hoàn thành luận án, tác giả đã nhận được sự chỉ dẫn tận tình, các định hướng khoahọc, những kinh nghiệm quý báu trong nghiên cứu từ hai thầy cô Đặc biệt, thầy côluôn quan tâm, khuyến khích, động viên tác giả vượt qua các giai đoạn khó khăn đểhoàn thành luận án
Tác giả xin gửi lời cảm ơn chân thành tới các thầy cô, các phòng ban trongHọc viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học Việt Nam đã tạo điềukiện thuận lợi cho tác giả trong suốt quá trình nghiên cứu và thực hiện bảo vệ luận
án Tác giả xin gửi lời cảm ơn tới các thầy cô và anh chị trong nhóm nghiên cứu Đại
số gia tử và ứng dụng đã luôn chia sẻ, động viên và đưa ra góp ý quý báu đối vớivấn đề nghiên cứu của tác giả
Tác giả cũng xin gửi lời cảm ơn chân thành tới Ban giám hiệu trường Đạihọc Sư phạm Hà Nội, Ban chủ nhiệm khoa và cán bộ, giảng viên tại khoa Côngnghệ thông tin, trường Đại học Sư phạm Hà Nội đã tạo điều kiện, giúp đỡ, độngviên trong suốt quá trình học tập, nghiên cứu và hoàn thiện bảo vệ luận án
Tác giả xin gửi lời cảm ơn và lòng biết ơn sâu sắc tới các thành viên trongđại gia đình đã luôn hỗ trợ, tạo điều kiện, động viên để tác giả có thời gian, tâm lýtốt nhất để thực hiện các nhiệm vụ trong nghiên cứu
Tác giả
NCS
Trang 5MỤC LỤC
DANH MỤC CÁC BẢNG 5
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 6
DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT 8
MỞ ĐẦU 10
CHƯƠNG 1 MỘT SỐ KIẾN THỨC CƠ SỞ 20
1 1 Một số kiến thức cơ bản về tập mờ 20
1 1 1 Định nghĩa tập mờ 20
1 1 2 Biến ngôn ngữ 21
1 1 3 Phân hoạch mờ 22
1 2 Khung nhận thức dựa trên lý thuyết tập mờ 23
1 2 1 Định nghĩa khung nhận thức 23
1 2 2 Các ràng buộc về tính giải nghĩa được 24
1 3 Tổng quan về trích rút tóm tắt bằng ngôn ngữ dựa trên lý thuyết tập mờ 26 1 3 1 Bài toán trích rút tóm tắt bằng ngôn ngữ là một nhánh trong lĩnh vực khai phá dữ liệu 26
1 3 2 Dạng câu tóm tắt có từ lượng hóa ngôn ngữ và ứng dụng 29
1 3 3 Trích rút tóm tắt từ cơ sở dữ liệu 36
1 4 Trích rút tập câu tóm tắt tối ưu từ cơ sở dữ liệu 38
1 4 1 Giải thuật di truyền giải bài toán trích rút tập tóm tắt 39
1 4 2 Các yếu tố trong mô hình giải thuật di truyền trích rút tập câu tóm tắt 40
1 5 Lý thuyết đại số gia tử 41
1 5 1 Cấu trúc đại số cho miền giá trị của biến ngôn ngữ 42
1 5 2 Đại số gia tử mở rộng mô hình lõi ngữ nghĩa của hạng từ 48
1 6 Kết luận chương 1 55
Trang 6CHƯƠNG 2 VẤN ĐỀ NỘI DUNG THÔNG TIN CÂU TÓM TẮT VÀ BIỂU
DIỄN TẬP MỜ CỦA MIỀN NGÔN NGỮ THUỘC TÍNH 56
2 1 Vai trò của khung nhận thức trong bài toán trích rút tóm tắt bằng ngôn ngữ dựa trên lý thuyết tập mờ 56
2 2 Vấn đề nội dung thông tin của các câu tóm tắt bằng ngôn ngữ 59
2 3 Khung nhận thức ngôn ngữ trong lý thuyết đại số gia tử 62
2 4 Cấu trúc đa ngữ nghĩa và tính mở rộng được của LFoC 64
2 4 1 Cấu trúc đa ngữ nghĩa trong LFoC 65
2 4 2 Mô hình bụi biểu diễn cấu trúc đa ngữ nghĩa của LFoC 66
2 4 3 Tính mở rộng được của LFoC 68
2 5 Xây dựng cấu trúc ngữ nghĩa tính toán giải nghĩa được của LFoC 70
2 5 1 Thủ tục xây dựng ngữ nghĩa tính toán cho LFoC 70
2 5 2 Tính giải nghĩa được của ngữ nghĩa tính toán với cấu trúc đa thể 76
2 6 Kết luận chương 2 82
CHƯƠNG 3 PHƯƠNG PHÁP TRÍCH RÚT CÂU TÓM TẮT NGÔN NGỮ DỰA TRÊN ĐẠI SỐ GIA TỬ 84
3 1 Cú pháp câu tóm tắt trong ngôn ngữ tự nhiên 84
3 2 Phương pháp trích rút câu tóm tắt dựa trên lý thuyết Đại số gia tử 85
3 2 1 Các thành phần chính trong phương pháp đề xuất 86
3 2 2 Tính mở rộng được của phương pháp đề xuất 89
3 3 Thực nghiệm 90
3 3 1 Đánh giá thông tin của câu tóm tắt 90
3 3 2 Mục tiêu thực hiện thí nghiệm 91
3 3 3 Cơ sở dữ liệu, cú pháp và ngữ nghĩa của các thuộc tính 93
3 3 4 Thí nghiệm 1: Ưu điểm của LFoC có số lượng từ lớn và tính mở rộng được 95
Trang 73 3 5 Thí nghiệm 2: Khả năng mở rộng tập tri thức trích rút từ cơ sở dữ liệu
98
3 3 6 Thí nghiệm 3: Trích rút phân phối ngôn ngữ cho các nhóm mờ 103
3 4 Kết luận chương 3 107
CHƯƠNG 4 TRÍCH RÚT TẬP CÂU TÓM TẮT TỐI ƯU SỬ DỤNG GIẢI THUẬT DI TRUYỀN KẾT HỢP CHIẾN LƯỢC THAM LAM 109
4 1 Mối liên hệ giữa luật kết hợp ngôn ngữ và câu tóm tắt có từ lượng hóa 109 4 1 1 Liên hệ giữa luật kết hợp ngôn ngữ và câu tóm tắt bằng ngôn ngữ 110
4 1 2 Từ thuật toán khai phá luật kết hợp đến thuật toán trích rút tóm tắt 111 4 2 Bài toán trích rút tập con câu tóm tắt tối ưu 113
4 3 Giải thuật di truyền trích rút tập câu tóm tắt tối ưu 115
4 3 1 Hàm đánh giá độ thích nghi 115
4 3 2 Các phép toán trong mô hình giải thuật di truyền lai Hybrid-GA 117
4 3 3 Một số hạn chế trong mô hình giải thuật di truyền lai Hybrid-GA và định hướng khắc phục 118
4 4 Đề xuất thủ tục sinh câu tóm tắt tốt dựa trên chiến lược tham lam 119
4 4 1 Ý tưởng trích rút câu tóm tắt tốt và làm tăng độ đa dạng tập câu tóm tắt 120
4 4 2 Ý tưởng sinh câu tóm tắt tốt dựa trên đánh giá lực lượng của nhóm mờ 121
4 5 Đề xuất mô hình giải thuật di truyền kết hợp chiến lược tham lam trích rút tập câu tóm tắt tối ưu 124
4 5 1 Mã hóa các đối tượng 124
4 5 2 Hàm đánh giá độ thích nghi 124
4 5 3 Mô hình giải thuật di truyền Greedy-GA 125
4 6 Thực nghiệm 127
4 6 1 Cơ sở dữ liệu và dạng câu tóm tắt 128
Trang 84 6 2 Khung nhận thức ngôn ngữ của các thuộc tính và từ lượng hóa Q 128
4 6 3 Tham số của giải thuật di truyền 129
4 6 4 Kết quả thực nghiệm 129
4 7 Kết luận chương 4 131
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 133
DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ 136
TÀI LIỆU THAM KHẢO 137
Trang 9DANH MỤC CÁC BẢNG
Bảng 1 1: Dữ liệu ví dụ về 10 công việc 32Bảng 1 2: Tính độ thuộc của từng mức lương vào các tập mờ tương ứng từngôn ngữ trong Dom(LƯƠNG) 32
Bảng 1 3: Phân loại các mức tổng quát cấu trúc câu tóm tắt 37Bảng 1 4: Quan hệ dấu giữa một gia tử trên dòng với gia tử trên cột 44Bảng 3 1: Các câu tóm tắt trích rút từ cơ sở dữ liệu, điều kiện lọc là “o(JOB)
IS ‘technician’ AND o(Y) IS ‘yes’”, có 730 bản ghi thỏa điều kiện lọc 97
Bảng 3 2: Phân phối ngôn ngữ của nhóm mờ xác định bởi điều kiện “(JOB IS
‘student’) AND (AGE IS x)” đối với thuộc tính CCI và Y = ‘yes’ với tập từ lượng hóa Q có tính riêng mức 3 ℱ Q,(3) 105
Bảng 3 3: Phân phối ngôn ngữ của nhóm mờ xác định bởi điều kiện “(JOB IS
‘student’) AND (AGE IS x)” đối với thuộc tính CCI và Y = ‘yes’ với tập từ lượng hóa Q có tính riêng mức 4 ℱ Q,(4) 105
Bảng 3 4: Phân phối ngôn ngữ của nhóm mờ xác định bởi điều kiện “(JOB IS
‘student’) AND (AGE IS x)” đối với thuộc tính CCI và Y = ‘no’ với tập từ lượng hóa Q có tính riêng mức 3 ℱ Q,(3) 106
Bảng 3 5: Phân phối ngôn ngữ của nhóm mờ xác định bởi điều kiện “(JOB IS
‘student’) AND (AGE IS x)” đối với thuộc tính CCI và Y = ‘no’ với tập từ lượng hóa Q có tính riêng mức 4 ℱ Q,(4) 106
Bảng 4 1: Thống kê số lượng câu tóm tắt theo số thuộc tính trong câu 114Bảng 4 2: Kết quả trung bình 10 lần chạy mô hình Greedy-GA và kết quảthực nghiệm mô hình Hybrid-GA trong [38] 131
Trang 10DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1 1: Ba kiểu tập mờ phổ biến 21Hình 1 2: Ví dụ năm tập mờ biểu diễn ngữ nghĩa các giá trị ngôn ngữ củabiến LƯƠNG trong miền tham chiếu [0, 10] (đơn vị: triệu đồng) 21
Hình 1 3 Ví dụ về phân hoạch mờ: (a) dạng đơn thể hạt; (b) dạng đa thể hạt 23
Hình 1 4: Ví dụ về các tập mờ trên miền tham chiếu số 24Hình 1 5: Khung nhận thức ngôn ngữ gồm 3 tập mờ và gán nhãn ngữ nghĩakhông đúng về thứ tự ngữ nghĩa 25
Hình 1 6: Hai ví dụ về khung nhận thức được thiết kế có tính giải nghĩa tốt 25Hình 1 7: Quá trình khai phá tri thức từ cơ sở dữ liệu 26Hình 1 8: Mờ hóa miền tham chiếu của khoảng cách, lương/tháng và đoạn[0,1] của từ lượng hóa tương đối 32
Hình 1 9: Các khoảng tính mờ của các hạng từ trong X(2) với tập gia tử H = {L, V} 46
Hình 1 10: Các tập mờ tam giác xây dựng từ giá trị định lượng ngữ nghĩa 48
Hình 1 11: Cấu trúc ngữ nghĩa của các hạng từ sinh ra từ hạng từ ‘old’ 49 Hình 1 12: Các khoảng tính mờ của hạng từ trong Xen,(3) sinh ra từ c+ 52
Hình 1 13: Các tập mờ hình thang cho các hạng từ trong X(2) 55
Hình 3 1: Các thành phần chính trong phương pháp trích rút tóm tắt bằngngôn ngữ dựa trên lý thuyết đại số gia tử 87
Trang 11Hình 3 2: Các tập mờ hình thang biểu diễn ngữ nghĩa cho các từ lượng hóatrong ℱ Q,1, ℱ Q,2 và ℱ Q,3 96
Hình 3 3: Cây phân cấp biểu diễn phân phối ngôn ngữ các độ tuổi của nhómkhách hàng JOB = ‘retired’ AND Y = ‘no’ 101
Hình 3 4: Cây phân cấp biểu diễn phân phối ngôn ngữ các độ tuổi của nhómkhách hàng JOB = ‘student’ AND Y = ‘no’ 101
Hình 3 5: Cây phân cấp biểu diễn phân phối ngôn ngữ các độ tuổi của nhómkhách hàng JOB = ‘housemaid’ AND Y = ‘no’ 101
Hình 4 1: Minh họa cấu trúc của một gen biểu diễn một câu tóm tắt 124Hình 4 2: Độ đo Fit của cá thể tốt nhất trong quần thể qua 100 lần tiến hóa 130
Trang 12DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮTCác ký hiệu
U A Miền tham chiếu số của thuộc tính A
LDA Miền hạng từ của thuộc tính (biến ngôn ngữ) A
AA Cấu trúc đại số gia tử cho thuộc tính A
S L Câu tóm tắt bằng ngôn ngữ
T Giá trị chân lý (đúng đắn) của câu tóm tắt
ℱ A Khung nhận thức ngôn ngữ cho thuộc tính A
Mức tính riêng
ℱ A, κ Khung nhận thức ngôn ngữ cho thuộc tính A ở mức tính riêng
ℱ A, (κ) Khung nhận thức ngôn ngữ cho thuộc tính A có mức tính riêng không
quá
G Quan hệ chung – riêng
S≤,G Cấu trúc đa ngữ nghĩa dựa trên quan hệ thứ tự, quan hệ chung – riêng
của miền hạng từ của biến ngôn ngữ
(x) Tập mờ biểu diễn ngữ nghĩa cho hạng từ x
T(ℱ κ) Cấu trúc phân cấp biểu diễn mối quan hệ giữa các tập mờ biểu diễn ngữ
nghĩa cho các hạng từ trong ℱ κ
D Cơ sở dữ liệu quan hệ
Mls Phương pháp trích rút các câu tóm tắt bằng ngôn ngữ
o(Es) Thành phần kết luận trong một câu tóm tắt
o(Fq) Thành phần lọc trong một câu tóm tắt
KBD, t Cơ sở tri thức về tập dữ liệu D tại thời điểm t
�� Độ tốt của một câu tóm tắt
�� Độ tốt của một tập câu tóm tắt
Trang 13Các từ viết tắt
LSMd Linguistic Summarization Method Phương pháp trích rút tóm tắt
ngôn ngữKDD Knowledge Discovery in Database Khai phá tri thức từ cơ sở dữ
liệu
LFoC Linguistic Frame of Cognition Khung nhận thức ngôn ngữ
Problem
Bài toán nội dung thông tin câutóm tắt
FRBS Fuzzy rule based system Hệ dựa trên luật mờ
HA-TFS-MG Hedge Algebra – Trapezoid Fuzzy
Set – Multi Granualarity
Các tập mờ hình thang với cấutrúc đa thể hạt xây dựng từtham số định lượng của cấutrúc đại số gia tử
Greedy-GA Greedy genetic algorithm Giải thuật di truyền kết hợp
chiến lược tham lam
�� Độ đa dạng của tập câu tóm tắt
Dom(X) Miền hạng từ của từ của biến ngôn ngữ X
��� Hàm thích nghi cho mỗi cá thế trong giải thuật di truyền
supp(Fq) Độ hỗ trợ cho thành phần lọc F q St(Q) Trọng số ưu tiên của từ lượng hóa Q
Trang 14MỞ ĐẦU
1 Tính cấp thiết của đề tài và động lực nghiên cứu
Trong vài thập niên gần đây, khi các kho dữ liệu dễ dàng được thu thập vàlưu trữ, các phương pháp khai phá dữ liệu để trích rút được thông tin, tri thức tiềm
ẩn từ tập dữ liệu luôn là một chủ đề thu hút nhiều nghiên cứu Nhiều phương phápkhác nhau đã được nghiên cứu để đề xuất các cách khai phá tri thức từ các tập dữliệu hay cơ sở dữ liệu Trong đó, phương pháp tính toán mềm nói chung và tập mờnói riêng là một hướng nghiên cứu có nhiều kết quả mong đợi và được ứng dụngtrong thực tế [1, 2] Lý thuyết tập mờ cung cấp một cơ sở phương pháp luận chophép phát triển các phương pháp khai phá dữ liệu mà kết quả có thể là những trithức được diễn đạt bằng ngôn ngữ tự nhiên Vì ngôn ngữ tự nhiên là phương tiệngiao tiếp hàng ngày của con người, nên dạng tri thức bằng ngôn ngữ tự nhiên có ưuđiểm là dễ hiểu, dễ sử dụng cho mọi đối tượng người dùng Hơn nữa, chúng có thểđược phát thanh tự động hoặc được sử dụng trong các hệ sản sinh báo cáo văn bản
tự động Do đó, hướng nghiên cứu trích rút tri thức diễn đạt bằng ngôn ngữ tự nhiên
từ tập dữ liệu là có tính thời sự và ý nghĩa khoa học cũng như thực tiễn
Các phương pháp trích rút tri thức ngôn ngữ dựa trên lý thuyết tập mờ đã đạtđược nhiều thành tựu về phương pháp luận có giá trị ứng dụng để giải quyết nhiềulớp bài toán khác nhau Một trong số đó là vấn đề xây dựng các hệ luật ngôn ngữ vàxây dựng các hệ mờ giải các bài toán thực tiễn như các bài toán phân lớp, bài toánhồi quy và các bài toán điều khiển mờ Trong các bài toán này, thực chất hệ luậtngôn ngữ là phương tiện để mô phỏng cách con người giải quyết vấn đề mà quyếtđịnh được dựa trên tri thức ngôn ngữ Hiệu quả của các phương pháp giải chúngđược đánh bằng định lượng, chẳng hạn như dựa trên tỷ lệ phân lớp đúng, sai số bìnhphương trung bình (Mean Squared Error - MSE) Do đó, nội dung thông tin của cáctri thức trong hệ luật ngôn ngữ chưa được xem xét và coi trọng
Một bài toán trích rút tri thức ngôn ngữ từ dữ liệu được Yager đề xuất năm
1982 [3] dựa trên phương pháp luận của lý thuyết tập mờ là bài toán tóm tắt dữ liệubằng ngôn ngữ (linguistic summarization of data) Trong bài toán này, chính nộidung thông tin trong tri thức ngôn ngữ là cốt yếu trong ứng dụng Trên cơ sở đó,ông đã phát triển một số phương pháp trích rút các câu tóm tắt có chứa từ lượng hóa
Trang 15ngôn ngữ [4-6] Các câu này được coi là các mệnh đề mờ diễn đạt tri thức ẩn dấu
trong tập dữ liệu số được xem xét
Hướng nghiên cứu này đã thu hút sự quan tâm đông đảo của các nhà khoahọc, điển hình là nhóm nghiên cứu của Kacprzyk và cộng sự [7-17], Castillo vàcộng sự [18-22], Moyse và cộng sự [23-25], Wilbik và cộng sự [26-37], Donis-Diaz
và cộng sự [38-40],… Một số lĩnh vực ứng dụng cụ thể là tạo các báo cáo, phân tíchkinh doanh hoặc quản lý [9, 13, 35, 41], hỗ trợ trong y tế [31, 33, 34, 42, 43] và một
số lĩnh vực khác [38, 40] Các ứng dụng này đã khẳng định ý nghĩa rất thực tiễn củaviệc nghiên cứu, phát triển các phương pháp trích rút các câu tóm tắt bằng ngôn ngữ
tự nhiên
Các nghiên cứu trên quan tâm đến các câu tóm tắt có các dạng cấu trúc tổngquát như sau:
“Q y are S” và “Q F y are S”
Trong đó: Q (quantifier) là một từ lượng hóa, ví dụ như ‘most’, ‘few’, ‘a
half’; S (summarizer) là kết luận sử dụng ngôn ngữ tự nhiên, ví dụ như “AGE is
‘young’”, “SALARY is ‘high’”; F (qualifier) là điều kiện lọc, ví dụ như “AGE is
‘old’”, “QUALIFICATION is ‘high’” Tổng quát hơn, thành phần S và F có thể là
một biểu thức logic của các điều kiện trên nhiều thuộc tính khác nhau
Ví dụ, ta có thể có các câu tóm tắt ngôn ngữ trích rút từ cơ sở dữ liệu mà giá
trị của thuộc tính AGE và QUALIFICATION được lưu trữ ở dạng số: (1) “Most wokers are young”; (2) “A half of workers with high qualification are middle” Trong câu thứ nhất, thành phần kết luận S (‘young’) diễn đạt kết luận trên thuộc tính đang xem xét (AGE), thành phần Q (most) diễn đạt tỷ lệ các đối tượng thỏa kết luận
S trong tập dữ liệu Trong câu thứ hai, thành phần kết luận S (‘middle’) diễn đạt kết
luận trên thuộc tính AGE của nhóm con gồm các đối tượng thỏa điều kiện lọc F (workers with high qualification), từ lượng hóa Q (a half) diễn đạt tỷ lệ các đối tượng thỏa kết luận S trong nhóm con này
Các câu tóm tắt như trên được coi là các mệnh đề mờ diễn đạt tri thức về các
đối tượng trong thế giới thực được lưu trữ trong cơ sở dữ liệu Do đó, với mỗi câu
tóm tắt bằng ngôn ngữ (Linguistic Summary - LS), một yêu cầu đặt ra là cần tính
toán một giá trị đánh giá độ đúng đắn, giá trị này còn được coi là giá trị chân lý của
Trang 16mệnh đề mờ, ký hiệu là T (T [0, 1]) T được coi là độ đo cơ bản cần thiết để đánh giá câu LS Những câu LS với giá trị T lớn sẽ được đưa vào tập tri thức trích rút từ
dữ liệu đã cho Trong phương pháp trích rút tóm tắt ngôn ngữ (Linguistic
Summarization Method - LSMd) dựa trên lý thuyết tập mờ, hàm thuộc của các tập
mờ biểu diễn ngữ nghĩa cho hạng từ của các thuộc tính và từ lượng hóa là một thànhphần đầu vào quan trọng của LSMd Các hàm thuộc này được sử dụng để tính giá
trị đúng đắn T Do đó, việc xây dựng các tập mờ đóng vai trò nền tảng cho việc tính giá trị độ đo T cho các câu tóm tắt Tức là, nó ảnh hưởng trực tiếp đến kết quả của
các phương pháp trích rút tóm tắt ngôn ngữ
Có một vấn đề nổi lên trong phương pháp luận của các nghiên cứu LSMddựa trên lý thuyết tập mờ chính là sự liên kết giữa các tập mờ và hạng từ ngôn ngữđược gán cho chúng Trong khi người dùng giải nghĩa các câu LS dựa trên ngữnghĩa vốn có của nó trong ngôn ngữ tự nhiên, các từ ngôn ngữ được lựa chọn bởiLSMd lại chỉ được xem là nhãn ngôn ngữ của các tập mờ mà chúng được xây dựngdựa trên trực giác của nhà thiết kế, phát triển phương pháp luận và giải thuật trongLSMd Do đó, với cùng một câu LS, nó có thể mang hai nội dung thông tin Thứnhất là nội dung gán cho một câu LS bởi quá trình tính toán tương tác giữa dữ liệucủa cơ sở dữ liệu và các tập mờ (nội dung này mang tính chủ quan) Thứ hai là nộidung của câu LS trong ngôn ngữ tự nhiên mà người dùng thu nhận khi đọc câu LS
đó (nội dung này mang tính khách quan) Hai nội dung này nhìn chung là khác nhaunếu không có tiêu chuẩn đảm bảo cách xây dựng tập mờ biểu diễn một cách đúngđắn ngữ nghĩa vốn có của các từ ngôn ngữ được gán cho chúng Đây là vấn đề cốt
yếu, còn được gọi là vấn đề hay bài toán nội dung thông tin của các câu LS trích rút
từ cơ sở dữ liệu mà luận án cần giải quyết Tuy nhiên, vấn đề này lại chưa được đặt
ra trong các nghiên cứu trong phạm vi lý thuyết tập mờ
Trong phạm vi nghiên cứu của luận án, tác giả quan tâm giải quyết bài toánnội dung thông tin của các câu LS Đây là vấn đề đầy thách thức và chưa được xemxét trong các nghiên cứu về LSMd đã công bố Tuy nhiên, có các vấn đề tương tựtrong logic và toán học cho phép gợi mở phương pháp tiếp cận giải quyết vấn đề
trên là khái niệm giải nghĩa được (interpretability) của một lý thuyết S vào một lý thuyết T của Tarski và cộng sự trong [44] Khái niệm này được hiểu như sau: giả sử
Trang 17ta có một vấn đề P cần giải quyết trong S, nhưng gặp nhiều trở ngại Khi đó, ta có thể chuyển đổi P thành P’ trong T để kỳ vọng giải nó dễ hơn Điều này có thể thực hiện được khi và chỉ khi S có thể nhúng đẳng cấu trong T để nghiệm của P chính là nghịch ảnh của nghiệm bài toán P’ trong T
Ý tưởng trên gợi mở luận án cần nghiên cứu giải quyết một số vấn đề sau:
Thứ nhất, vấn đề tính giải nghĩa (interpretability) trong bài toán trích rút câu
tóm tắt được đề cập đến trong số rất ít các nghiên cứu [45-47] Hơn nữa, các nghiêncứu này xem xét về vấn đề tính giải nghĩa theo khía cạnh có dễ đọc không, có dễhiểu nội dung không Do đó, các tác giả trong [45-47] coi việc sử dụng mẫu câuchứa từ lượng hóa là đảm bảo tính hiểu được dựa trên độ phức tạp của cấu trúc câu
Do đó, dẫn dến việc nghiên cứu các tiêu chuẩn về độ phức tạp của câu như hạn chế
độ dài của câu, giới hạn về số lượng từ ngôn ngữ là đảm bảo tính dễ đọc Tuy nhiên,như đã phân tích ở trên, tính giải nghĩa cần được xem xét dựa trên việc đảm bảo giảinghĩa một cách đúng đắn nội dung thông tin của các câu LS Tức là, nội dung tínhtoán dựa trên các tập mờ trong một phương pháp LSMd gán cho câu LS phải tươngđồng (bằng nhau trong môi trường mờ) với nội dung mà các câu LS phản ánh khingười dùng giải nghĩa trong ngôn ngữ tự nhiên Tính giải nghĩa theo quan điểm nàychưa được đề cập đến trong các LSMd dựa trên lý thuyết tập mờ đã có
Thứ hai, còn có những hạn chế không thỏa đáng trong thiết kế các tập mờ và
gán ngữ nghĩa cho chúng bởi các hạng từ ngôn ngữ trong miền hạng từ của cácthuộc tính Các nghiên cứu thường cố định số lượng tập mờ cho mỗi thuộc tínhtrong giới hạn 7 2 và các tập mờ thường tạo thành phân hoạch mạnh trên miềntham chiếu số Một số nghiên cứu còn lựa chọn phân hoạch mờ đều để dễ dàngtrong thiết kế các tập mờ [40, 42, 48] Khi giới hạn số lượng từ ngôn ngữ của cácthuộc tính sẽ dẫn đến giới hạn tập câu tóm tắt được trích rút từ cơ sở dữ liệu Điềunày không phù hợp với thực tiễn sử dụng ngôn ngữ tự nhiên của con người Trongthực tế, tùy từng ứng dụng, từng giai đoạn mà con người cần mở rộng tập hạng từ
để mô tả tính chất, đặc điểm của thuộc tính Khi mở rộng tập hạng từ, tập tri thứcngôn ngữ cũng được mở rộng để nhận thức tốt hơn về thế giới thực Do đó, tính mởrộng được của tập hạng từ và tập câu tóm tắt (được coi là tập tri thức ngôn ngữ) làvấn đề cần được nghiên cứu trong giải bài toán trích rút tóm tắt bằng ngôn ngữ
Trang 18Thứ ba, khi khảo sát tập từ ngôn ngữ của mỗi thuộc tính với số lượng lớn
hơn sẽ dẫn đến bùng nổ số lượng câu tóm tắt Tuy nhiên, lúc này lại có thể thu đượcnhững câu tóm tắt diễn đạt các tri thức thú vị, bất ngờ, không tầm thường về tập dữliệu Từ đó đặt ra bài toán tìm kiếm một tập con các câu tóm tắt tối ưu từ khônggian lớn chứa tất cả các câu tóm tắt Một số nghiên cứu đã áp dụng mô hình giảithuật di truyền để giải bài toán tối ưu này [18, 38, 39, 41, 49] Ngoài các phép toán
di truyền cơ bản, một số nghiên cứu cũng đề xuất sử dụng thêm các phép toán mới
để tăng hiệu quả của việc tìm kiếm tập câu tóm tắt tối ưu, ví dụ như phép toán
cleaning trong [38, 41], phép toán improver trong [38, 39] Tuy nhiên, trong kết quả
thực nghiệm [38, 41], tập câu tóm tắt tối ưu vẫn chứa các câu tóm tắt không có chất
lượng khi mà giá trị đúng đắn T = 0 hoặc T < 0 8 Do đó, vấn đề trích rút một tập
câu tóm tắt tối ưu vẫn cần phải tiếp tục nghiên cứu để có kết quả tốt hơn nữa
Từ những phân tích nêu trên, các nhiệm vụ nghiên cứu của luận án được xácđịnh là cần đề xuất một LSMd sao cho đảm bảo tính giải nghĩa nội dung thông tincủa các câu tóm tắt; phương pháp LSMd cũng cần tương tác được với khả năng mởrộng tập hạng từ của các thuộc tính Hơn nữa, luận án cần đề xuất cải tiến mới cho
mô hình giải thuật di truyền để tìm kiếm tập câu tóm tắt tối ưu từ cơ sở dữ liệu
Cùng với việc xác định nhiệm vụ cần nghiên cứu, tác giả đã tìm hiểu về lýthuyết Đại số gia tử (ĐSGT) do Nguyễn Cát Hồ và W Wechler đề xuất năm 1990
và 1992 [50, 51] Lý thuyết ĐSGT tiếp tục được phát triển trong các nghiên cứu[52-55] để mô hình hóa cấu trúc dựa trên quan hệ thứ tự ngữ nghĩa vốn có của miềnhạng từ của các biến ngôn ngữ Tính giải nghĩa ở mức thấp (mức từ vựng) của các
hệ dựa trên luật mờ trong nghiên cứu [56] đã được giải quyết dựa trên lý thuyếtĐSGT Điều này chứng tỏ lý thuyết ĐSGT có thể cung cấp một phương pháp luận
để thực hiện được các nhiệm vụ nghiên cứu trong luận án đã nêu trên
Từ những nghiên cứu về bài toán trích rút tóm tắt bằng ngôn ngữ và phương
pháp luận ĐSGT, tác giả đã lựa chọn đề tài “Tóm tắt dữ liệu bằng ngôn ngữ theo
cách tiếp cận Đại số gia tử” làm đề tài nghiên cứu của luận án
2 Mục tiêu, đối tượng, phạm vi nghiên cứu
2 1 Mục tiêu nghiên cứu
Trang 19Mục tiêu của luận án là đề xuất cơ sở phương pháp dựa trên lý thuyết ĐSGT
để phát triển một phương pháp trích rút câu tóm tắt bằng ngôn ngữ để giải quyết bàitoán nội dung thông tin của các câu LS Hơn nữa, phương pháp đề xuất còn có khảnăng tương thích với tính mở rộng được của tập hạng từ của các thuộc tính Mụctiêu nghiên cứu khác là đề xuất cải tiến cho mô hình giải thuật di truyền để trích rúttập câu LS tối ưu, tức là một tập chứa các câu LS có chất lượng cao và cung cấp trithức ngôn ngữ phong phú, đa dạng hơn
Cụ thể, luận án nghiên cứu và thực hiện được các nhiệm vụ sau:
o Chỉ ra được điều kiện đảm bảo giải nghĩa đúng đắn nội dung thông tin củacâu tóm tắt trích rút bởi một LSMd dựa trên việc đảm bảo tính giải nghĩađược của cấu trúc các tập mờ được xây dựng trong mờ hóa miền giá trị củacác thuộc tính
o Phát triển phương pháp luận và đề xuất một thủ tục xây dựng các tập mờbiểu diễn đúng đắn ngữ nghĩa vốn có của các hạng từ được gán cho chúng Đồng thời, các tập mờ này cũng mở rộng được tương ứng với tính mở rộngđược của miền ngôn ngữ thuộc tính
o Đề xuất phương pháp LSMd đảm bảo giải được bài toán nội dung thông tincâu tóm tắt và tương thích được với tính mở rộng miền ngôn ngữ của cácthuộc tính Tức là, tập tri thức cũng được bổ sung thêm tri thức mới khi tập
từ ngôn ngữ được tăng trưởng nhưng vẫn duy trì ngữ nghĩa của các tri thức
đã được trích rút trước đó
o Phát triển phương pháp và xây dựng được mô hình giải thuật di truyềntrích rút tập câu tóm tắt tối ưu có cải tiến so với các mô hình giải thuật ditruyền đã có
2 2 Đối tượng nghiên cứu
Đối tượng nghiên cứu trong luận án bao gồm:
o Khung nhận thức mờ và khung nhận thức ngôn ngữ Tính giải nghĩa đượccủa khung nhận thức mờ trong biểu diễn ngữ nghĩa của khung nhận thứcngôn ngữ tương ứng
Trang 20o Vấn đề nội dung thông tin của các câu tóm tắt ngôn ngữ từ dữ liệu Phươngpháp trích rút câu tóm tắt bằng ngôn ngữ sử dụng tập mờ biểu diễn ngữnghĩa cho hạng từ ngôn ngữ
o Khung nhận thức ngôn ngữ dựa trên lý thuyết Đại số gia tử và vấn đề sinhkhung nhận thức mờ giải nghĩa được từ khung nhận thức ngôn ngữ đã cho
o Mô hình giải thuật di truyền trích rút tập câu tóm tắt tối ưu từ tập dữ liệu
2 3 Phạm vi nghiên cứu
Luận án nghiên cứu phương pháp mờ dựa trên lý thuyết ĐSGT và lý thuyếttập mờ để trích rút tóm tắt bằng ngôn ngữ từ cơ sở dữ liệu Trong đó, tập dữ liệuđầu vào là các cơ sở dữ liệu có các thuộc tính mà giá trị được lưu trữ ở dạng số,mẫu câu tóm tắt có chứa từ lượng hóa ngôn ngữ
Luận án nghiên cứu về các mô hình của giải thuật di truyền áp dụng trong bàitoán trích rút một tập câu tóm tắt tối ưu từ không gian chứa tất cả các câu tóm tắt cóthể trích rút từ cơ sở dữ liệu
3 Phương pháp nghiên cứu
Các phương pháp nghiên cứu được sử dụng trong luận án gồm có:
o Phương pháp tổng hợp, phân tích: được sử dụng khi tìm hiểu kiến thức cơ
sở về trích rút tóm tắt bằng ngôn ngữ, lý thuyết ĐSGT Từ đó tìm được cáchạn chế, tồn tại trong các nghiên cứu đã có, đặt ra các nhiệm vụ mới cầngiải quyết và đưa ra được phương hướng để thực hiện các nhiệm vụ nghiêncứu mới
o Phương pháp so sánh: được sử dụng để tìm ra điểm khác biệt của bài toán
trích rút tóm tắt với các nhánh nghiên cứu khác trong lĩnh vực khai phá dữliệu; so sánh phương pháp luận khi sử dụng lý thuyết tập mờ và lý thuyếtĐSGT trong vấn đề tính giải nghĩa của thiết kế tập mờ biểu diễn ngữ nghĩacác hạng từ trong miền giá trị của biến ngôn ngữ; các mô hình giải thuật ditruyền trong trích rút tóm tắt bằng ngôn ngữ
o Phương pháp thiết kế và chứng minh: được sử dụng khi đưa ra phương
pháp xây dựng các tập mờ và thuật toán trích rút tóm tắt; phát biểu vàchứng minh các định lý về đảm bảo tính giải nghĩa của nội dung thông tincâu tóm tắt và tính mở rộng được của phương pháp đề xuất
Trang 21o Phương pháp thực nghiệm: thực hiện thực nghiệm để chứng tỏ tính khả thi
và ưu điểm của phương pháp đề xuất dựa trên lý thuyết ĐSGT; thực hiệncải tiến mô hình giải thuật di truyền để so sánh với mô hình đã có trên cùngmột tập dữ liệu đầu vào
4 Các đóng góp chính của luận án
Sau những nỗ lực nghiên cứu, luận án có những đóng góp chính như sau:
Luận án đã chỉ ra điều kiện đảm bảo tính giải nghĩa của biểu diễn tập mờcho miền hạng từ của các thuộc tính dựa trên khái niệm giải nghĩa tronglogic và toán học của Tarski Từ đó, đưa ra tiêu chuẩn ràng buộc đối với tậpcác tập mờ cần xây dựng để biểu diễn ngữ nghĩa của các từ ngôn ngữ gáncho chúng Một thủ tục HA-TFS-MG (Hedge Algebra – Trapezoid FuzzySet - Multiple Granularity) được đề xuất để sản sinh các tập mờ hình thang
từ bộ tham số định lượng của một cấu trúc ĐSGT của thuộc tính Nó đảmbảo các tập mờ này trong cấu trúc đa thể được thủ tục sinh ra là ảnh đẳngcấu ngữ nghĩa với các từ trong miền hạng từ của thuộc tính Khi đó, mộtthuật toán trích rút câu tóm tắt tính toán với các hàm thuộc của hình thangnày sẽ được coi như tương tác trực tiếp với ngữ nghĩa định tính của từ ngônngữ
Luận án đã đề xuất một phương pháp trích rút câu tóm tắt (LSMd) tươngtác trực tiếp, hiệu quả với ngữ nghĩa định tính của các hạng từ trong câutóm tắt LSMd được đề xuất có khả năng tương tác được với tính mở rộngcác khung nhận thức ngôn ngữ của các thuộc tính để mở rộng tập câu tómtắt bằng bổ sung thêm các câu tóm tắt mới Tính khả thi và những ưu điểmcủa phương pháp đã đề xuất được chứng tỏ qua các kết quả thực nghiệm
Luận án đề xuất sử dụng chiến lược tham lam trong hàm
Random-Greedy-LS để sinh câu tóm tắt hướng đến tăng độ đo tốt và độ đa dạng của tập câutóm tắt Đồng thời, luận án đã xây dựng mô hình giải thuật di truyền
Greedy-GA có sử dụng hàm Random-Greedy-LS để tìm kiếm một tập câutóm tắt tối ưu từ một cơ sở dữ liệu
5 Bố cục luận án
Luận án gồm phần mở đầu, 04 chương và phần kết luận:
Trang 22Phần mở đầu: Trình bày về tính cấp thiết của đề tài và động lực nghiên cứu;mục tiêu, đối tượng, phạm vi nghiên cứu; phương pháp nghiên cứu; các đóng gópchính của luận án; bố cục luận án
Chương 1: Một số kiến thức cơ sở
Trong chương này, luận án trình bày các kiến thức cơ sở liên quan đến cácbài toán cần nghiên cứu và phương pháp giải quyết các nhiệm vụ nghiên cứu Cụthể, các nội dung gồm có một số kiến thức cơ bản về tập mờ, khung nhận thức ngônngữ dựa trên tập mờ, tổng quan về trích rút tóm tắt bằng ngôn ngữ và vấn đề tríchrút tập câu tóm tắt tối ưu và tổng quan về lý thuyết ĐSGT Các nội dung trongchương 1 là cơ sở lý thuyết được sử dụng để đưa ra một số đề xuất mới giải quyếtcác nhiệm vụ nghiên cứu đã đặt ra
Chương 2: Vấn đề nội dung thông tin câu tóm tắt và biểu diễn tập mờ
của miền ngôn ngữ thuộc tính
Phần đầu chương 2, luận án trình bày và phân tích bài toán nội dung thôngtin của các câu tóm tắt được sinh ra bởi các thuật toán tính toán trên các tập mờ Ýtưởng giải bài toán này được gợi mở từ khái niệm giải nghĩa trong logic của Tarski Phần tiếp theo, luận án trình bày phương pháp luận và đề xuất một thủ tục xây dựngcác tập mờ từ bộ tham số định lượng của ĐSGT dùng để mờ hóa miền tham chiếucủa các thuộc tính Phần cuối chương, luận án phát biểu và chứng minh các định lý
để chứng tỏ rằng các tập mờ được xây dựng từ thủ tục đề xuất đảm bảo biểu diễnđúng đắn ngữ nghĩa của các hạng từ trong miền ngôn ngữ của thuộc tính Đồngthời, các tập mờ này cũng có khả năng mở rộng được như tính mở rộng được củamiền ngôn ngữ của thuộc tính
Chương 3: Phương pháp trích rút câu tóm tắt ngôn ngữ dựa trên Đại số
gia tử
Phần đầu chương 3, luận án trình bày đề xuất một phương pháp trích rút câutóm tắt ngôn ngữ Mls tính toán trên các tập mờ được sinh bởi thủ tục đã đề xuấttrong chương 2 Nội dung tiếp theo là một chuỗi các thực nghiệm với cơ sở dữ liệu
Bank Marketing trên kho dữ liệu UCI để chứng tỏ tính hiệu quả và ưu điểm của
phương pháp Mls đã đề xuất Mỗi thực nghiệm cụ thể gồm có các kịch bản, kết quả
và phân tích ý nghĩa của kết quả nhận được
Trang 23Chương 4: Trích rút tập câu tóm tắt tối ưu sử dụng giải thuật di truyền
kết hợp chiến lược tham lam
Phần đầu chương 4, luận án trình bày về mối liên hệ giữa bài toán trích rútluật kết hợp ngôn ngữ và trích rút tóm tắt ngôn ngữ; bài toán trích rút tập con câutóm tắt tối ưu Nội dung tiếp theo là phân tích các mô hình giải thuật di truyền đã cólàm cơ sở cho đề xuất cải tiến cho mô hình giải thuật di truyền mới giải bài toántrích rút tập câu tóm tắt tối ưu Các đề xuất mới trong chương này gồm có hàmRandom-Greedy-LS dựa trên chiến lược tham lam để sản sinh một câu tóm tắt tốt
và hướng đến tính đa dạng của tập câu tóm tắt tối ưu và mô hình giải thuật di truyềnGreedy-GA sử dụng hàm Random-Greedy-LS Phần cuối chương là thực nghiệm sosánh mô hình Greedy-GA đề xuất mới so với mô hình Hybrid-GA để chứng tỏ ưuđiểm của các đề xuất
Phần kết luận và hướng phát triển: Trình bày một số kết luận về ý nghĩa củanhững kết quả đã đạt được của luận án và một số hướng nghiên cứu tiếp theo
Trang 24CHƯƠNG 1 MỘT SỐ KIẾN THỨC CƠ SỞ
Trong chương này, luận án trình bày một số kiến thức cơ sở trong lý thuyếttập mờ, bài toán trích rút tóm tắt bằng ngôn ngữ dựa trên lý thuyết tập mờ và bàitoán tìm kiếm một tập câu tóm tắt tối ưu từ cở sở dữ liệu Phần cuối chương, luận ántrình bày những kiến thức cơ bản trong lý thuyết ĐSGT cơ sở và ĐSGT mở rộng Những kiến thức cơ sở trong chương 1 sẽ được sử dụng khi trình bày các kết quảnghiên cứu trong các chương tiếp theo
1 1 Một số kiến thức cơ bản về tập mờ
Lý thuyết tập mờ được Zadeh đề xuất năm 1965 trong [57] với ý tưởng làmcho máy tính có thể hiểu và xử lý được những tri thức diễn đạt bằng ngôn ngữ tựnhiên Khái niệm tập mờ là một mở rộng của khái niệm tập cổ điển hay tập rõ vàmỗi tập rõ là một trường hợp riêng của khái niệm tập mờ Tập cổ điển chỉ xem xétmột phần tử có thuộc hay không thuộc vào nó, với tập mờ thì bất kỳ phần tử nàotrong vũ trụ đều có thể thuộc về nó với mức độ thuộc được đo bởi một giá trị trongđoạn [0, 1]
Ánh xạX được gọi là hàm thuộc (membership function) của tập mờ X Tập
U được gọi là tập cơ sở của tập mờ X Giá trịX (x) biểu thị mức độ thuộc của phần
tử x vào tập mờ X Nếu giá trịX (x) càng gần 1 thì mức độ thuộc của x vào X càng
cao KhiX (x) chỉ nhận giá trị 0 hoặc 1 thì tập X là tập con rõ của tập U Do đó, tập
mờ là khái niệm mở rộng của tập rõ
Khi xây dựng các tập mờ, giá trị hàm thuộc biến thiên trong khoảng [0,1] Trong các ứng dụng lý thuyết tập mờ thường sử dụng các tập mờ có hình dạng phổbiến như trong Hình 1 1 Các tập mờ này được gọi là các tập mờ chuẩn vì có giá trị
Trang 25hàm thuộc lớn nhất bằng 1 Tập mờ tam giác và tập mờ hình thang được sử dụng
nhiều nhất do tính đơn giản và dễ hiểu với người dùng
(a) Tập mờ tam giác (b) Tập mờ hình thang (c) Tập mờ hình chuông
Hình 1 1: Ba kiểu tập mờ phổ biến
1 1 2 Biến ngôn ngữ
Theo Zadeh [57] “biến ngôn ngữ là biến mà các giá trị của nó là các từ hoặccâu trong ngôn ngữ tự nhiên hoặc ngôn ngữ nhân tạo” Ví dụ khi nhận xét về lươngcủa nhân viên tập sự, chúng ta có thể xem đây là biến ngôn ngữ có tên gọi LƯƠNG
và nhận các giá trị ngôn ngữ như ‘rất thấp’, ‘thấp’, ‘trung bình’, ‘cao’, ‘rất cao’
Với mỗi giá trị ngôn ngữ này, gán cho nó một hàm thuộc tương ứng xác định một
tập mờ trên miền giá trị số [0, 10] (đơn vị triệu đồng) của thuộc tính LƯƠNG (xemHình 1 2)
1
Hình 1 2: Ví dụ năm tập mờ biểu diễn ngữ nghĩa các giá trị ngôn ngữ của biến
LƯƠNG trong miền tham chiếu [0, 10] (đơn vị: triệu đồng)
Một cách hình thức, chúng ta có định nghĩa của biến ngôn ngữ như sau:
Định nghĩa 1 2 [58, 59]: Biến ngôn ngữ là một bộ năm thành phần (�, T(�),
U, R, M ), trong đó � là tên biến, T(�) là tập các giá trị ngôn ngữ của biến �, U là
không gian tham chiếu, mỗi giá trị ngôn ngữ xem như là một tập mờ trên U, R là
Trang 26một qui tắc cú pháp sinh các giá trị ngôn ngữ cho tập T(�), M là qui tắc ngữ nghĩa gán mỗi giá trị ngôn ngữ trong T(�) tương ứng với một tập mờ trên U
1 1 3 Phân hoạch mờ
Phân hoạch mờ là một khái niệm được sử dụng để mờ hóa các miền xác địnhcủa các biến ngôn ngữ Chúng ta có định nghĩa phân hoạch mờ như sau
Định nghĩa 1 3 [60]: Cho m điểm cố định p1 < p2 < < pm thuộc tập U = [a,
b] R là không gian tham chiếu của biến cơ sở u của biến ngôn ngữ � Khi đó, một tập T gồm m tập mờ X1, X2, , X m định nghĩa trên U (với hàm thuộc tương ứng là
X1 , X 2 , , X m ) được gọi là một phân hoạch mờ của U nếu các điều kiện sau thỏa
Nếu phân hoạch mờ thỏa mãn thêm điều kiện 7), 8), 9) dưới đây thì được gọi
là phân hoạch đều
7) Với k m thì h k = p k+1 - p k là hằng số
8) X k (x) là hàm thuộc đối xứng
9) X k (x) có cùng một dạng hình học
Hình 1 1 là một ví dụ về phân hoạch mờ mạnh Mỗi phân hoạch mờ theo
định nghĩa 1 3 còn được gọi là một thể hạt (granularity), một phân hoạch mờ gồm một thể hạt gọi là phân hoạch mờ đơn thể hạt (single granularity) như trong Hình
Trang 271 3-(a), một phân hoạch mờ gồm nhiều thể hạt gọi là phân hoạch mờ đa thể hạt
(multi granularity) như trong Hình 1 3-(b)
Hình 1 3 Ví dụ về phân hoạch mờ: (a) dạng đơn thể hạt; (b) dạng đa thể hạt
1 2 Khung nhận thức dựa trên lý thuyết tập mờ
1 2 1 Định nghĩa khung nhận thức
Theo Mencar và Fanelli trong [61], mỗi khung nhận thức (Frame of
Cognition - FoC) F của một biến ngôn ngữ A là tập hữu hạn các tập mờ có thứ tự trên miền tham chiếu của biến A và chúng được gán nhãn ngôn ngữ bởi các hạng từ trong miền hạng từ của thuộc tính A Trong mô hình lý thuyết tập mờ, mỗi FoC F
gán nhãn các tập mờ là các hạng từ ngôn ngữ mà con người có thể sử dụng để mô tảcác tính chất định tính của các thuộc tính của các đối tượng trong tự nhiên Do đó,việc gán nhãn ngôn ngữ cho các tập mờ cần phải thể hiện ngữ nghĩa của các nhãnngôn ngữ này
Từ đó, các tác giả trong [61] đưa ra một định nghĩa đầy đủ cho FoC như sau:
Định nghĩa 1 4 [61]: Khung nhận thức FoC là một cấu trúc gồm 5 thành
phần � = 〈�, �, ≤, ℒ, �〉 Trong đó:
o � = {�1, �2, … , �� }, với �� là các tập mờ có thứ tự trên miền tham chiếu U của thuộc tính A
o ≤ là quan hệ thứ tự giữa các tập mờ sao cho � ≤ � ⟹ �� ≤ ��
o ℒ là tập các nhãn ngôn ngữ trong miền hạng từ của biến ngôn ngữ hoặc
thuộc tính A có thứ tự tương ứng với các tập mờ trong � = {�1, �2, … , �� }
Trang 28Quan hệ thứ tự giữa hai tập mờ �� ≤ �� phản ánh thứ tự giá trị hàm thuộc
của chúng như trong khẳng định sau:
∀�� , �� ∈ �: �� ≤ ��⟹ ∃� ∈ �, ∀� ∈ �:
(� ≤ � ⟹ �� � (�) ≥ �� � (�)) (∧ � ≥ � ⟹ �� � (�) ≤ �� � (�)) (1 1)Các hạng từ ngôn ngữ trong mỗi miền hạng từ của các thuộc tính có thứ tự
dựa trên ngữ nghĩa vốn có của nó Ví dụ, trong nghiên cứu trích rút tóm tắt về bệnh
nhân [42], các tác giả lựa chọn năm hạng từ trong miền hạng từ của thuộc tính
“heart rate” với thứ tự ngữ nghĩa tăng dần là ‘very low’, ‘low’, ‘medium’, ‘high’, và
‘very high’ Khi đó các tập mờ biểu diễn ngữ nghĩa cho năm hạng từ này cũng có
thứ tự tăng dần như trong Hình 1 4-(a) Tương tự, năm từ lượng hóa có thứ tự ngữ
nghĩa tăng dần là ‘very few’, ‘few’, ‘half’, ‘most’, và ‘almost all’ Các tập mờ biểu
diễn ngữ nghĩa cho các từ lượng hóa như trong Hình 1 4-(b) Trong ví dụ này, các
tập mờ hình thang tạo thành phân hoạch mạnh của miền tham chiếu số của thuộc
tính tương ứng
Hình 1 4: Ví dụ về các tập mờ trên miền tham chiếu số
1 2 2 Các ràng buộc về tính giải nghĩa được
Trong định nghĩa về khung nhận thức sử dụng tập mờ chỉ có một điều kiện
ràng buộc về thứ tự của các tập mờ và thứ tự ngữ nghĩa của các hạng từ Tuy nhiên
các hạng từ lúc này chỉ được coi là nhãn bằng ngôn ngữ của các tập mờ Nếu việc
gán nhãn là các chuỗi ký tự không có ý nghĩa như A11, A12, … sẽ gây khó hiểu cho
người sử dụng Nếu việc gán nhãn là từ có nghĩa nhưng không đảm bảo một số quan
hệ, tính chất ngữ nghĩa có thể gây nhầm lẫn khi người sử dụng giải nghĩa của các
hạng từ Ví dụ trong Hình 1 5 gồm ba tập mờ của một khung nhận thức, ngữ nghĩa
được gán cho tập mờ có thứ tự ở giữa và tập mờ bên phải không phản ánh đúng về
ngữ nghĩa của hai hạng từ ‘high’ và ‘medium’ Quan hệ thứ tự ngữ nghĩa vốn có của
Trang 29‘high’ và ‘medium’ trong ngôn ngữ tự nhiên có thứ tự ngữ nghĩa là ‘medium’ ≤
‘high’, tuy nhiên chúng được gán cho hai tập mờ có thứ tự ngược lại
Hình 1 5: Khung nhận thức ngôn ngữ gồm 3 tập mờ và gán nhãn ngữ nghĩa
các hạng từ ‘very few’, ‘few’, ‘a half’, ‘most’, ‘almost all’ thì ràng buộc về thứ tự
ngữ nghĩa được đảm bảo Số lượng tập mờ là năm nên nó thỏa ràng buộc trongkhoảng 7 2 Vị trí giữa các tập mờ đảm bảo có sự phân biệt và chúng bao phủ toàn
bộ miền tham chiếu [0, 1] (bao gồm cả hai đầu mút 0 và 1) Các tập mờ thỏa điềukiện 6, 7, 8, 9 trong Định nghĩa 1 3 nên chúng tạo thành một phân hoạch mạnh đềutrên miền tham chiếu [0, 1]
Hình 1 6: Hai ví dụ về khung nhận thức được thiết kế có tính giải nghĩa tốt
Trang 301 3 Tổng quan về trích rút tóm tắt bằng ngôn ngữ dựa trên lý thuyết tập mờ
1 3 1 Bài toán trích rút tóm tắt bằng ngôn ngữ là một nhánh trong lĩnh vực khai
phá dữ liệu
Nhờ kết quả của cuộc cách mạng kỹ thuật số, sự phát triển của phần cứng vàphần mềm, chúng ta dễ dàng thực hiện số hóa dữ liệu, thu thập và lưu trữ được
những kho dữ liệu khổng lồ Các kho dữ liệu này ẩn chứa rất nhiều thông tin, tri
thức hữu ích cho con người Do đó, ngày càng có nhiều nhà nghiên cứu phát triển
các phương pháp phân tích dữ liệu tự động nhằm trích rút tri thức hữu ích cho con
người sử dụng để định hướng hành động thực tế
Mitra và cộng sự trong [1] đã đưa ra khái niệm về thuật ngữ khai phá tri thức
từ cơ sở dữ liệu (Knowledge Discovery in Database - KDD) là toàn bộ quá trình
chuyển hóa từ dữ liệu ở mức thô thành tri thức ở mức cao Các tác giả đã chỉ ra quá
trình KDD (xem Hình 1 7) gồm các bước chọn lọc dữ liệu, tiền xử lý dữ liệu,
chuyển đổi dữ liệu, khai phá dữ liệu, đánh giá và diễn giải Trong đó, khai phá dữ
liệu là một bước quan trọng nhất, quyết định các bước khác trong quá trình KDD
Khai phá dữ liệu là lĩnh vực bao gồm nhiều hướng nghiên cứu khác nhau màmục tiêu chung là để đưa ra dự đoán kết quả hoặc phát hiện được các mối quan hệ
có nghĩa trong tập dữ liệu Khai phá dữ liệu sử dụng các công cụ tự động mà trong
đó chứa các thuật toán thông minh để phát hiện các mẫu bị ẩn, liên kết, sự bất
thường hoặc một cấu trúc từ một lượng lớn dữ liệu được lưu trong các kho dữ liệu
Hình 1 7: Quá trình khai phá tri thức từ cơ sở dữ liệu
Có nhiều phương pháp khác nhau được nghiên cứu sử dụng để giải các bài
toán trong khai phá dữ liệu như học máy (machine learning), mạng nơ-ron (Neural
network), tính toán mềm (soft computing) Trong đó, phương pháp tính toán mềm
Trang 31dựa trên lý thuyết tập mờ là một hướng nghiên cứu đã được sử dụng và đạt đượcnhiều kết quả ý nghĩa trong giải các bài toán thực tế [1, 2] Những kết quả nghiêncứu đó cho thấy tính hiệu quả trong thực tế khi áp dụng lý thuyết tập mờ vào giảicác bài toán khai phá dữ liệu
Một nhánh trong khai phá dữ liệu có nhiều ý nghĩa ứng dụng trong thực tế làtrích rút tri thức diễn đạt bằng ngôn ngữ tự nhiên từ kho dữ liệu Một bài toán điểnhình trong nhánh nghiên cứu này là bài toán trích rút tóm tắt bằng ngôn ngữ từ dữ
liệu (linguistic summarization of data) Bài toán này được đưa ra bởi Yager năm
1982 [3] khi cần mô tả cho một tập các giá trị số bằng các câu trong ngôn ngữ tựnhiên Sau đó, hướng nghiên cứu này thu hút nhiều sự quan tâm của các nhóm
nghiên cứu khác để phát triển cả lý thuyết và ứng dụng như các nhóm Kacprzyk vàcộng sự [7-13], Castillo và cộng sự [18-22], Moyse và cộng sự [23-25], Wilbik vàcộng sự [26-34], Donis-Diaz và cộng sự [38, 39], … Kacprzyk và cộng sự [9, 10,12-15, 17] đã nghiên cứu trích rút các câu tóm tắt từ một số cơ sở dữ liệu và coitrích rút tóm tắt bằng ngôn ngữ như một công cụ để khai phá dữ liệu dựa trên lýthuyết tập mờ, như là một nhánh trong nghiên cứu tính toán với từ [62] Các tác giảWilbik [27, 31, 32, 35-37], R Castillo Ortega và cộng sự [18, 20]; R M Catillo-Ortega và cộng sự [22]; N Marín và D Sánchez [63]; G Moyse và cộng sự [23,24]; R J Almeida và cộng sự [42] đã thực hiện các nghiên cứu trích rút tóm tắtbằng ngôn ngữ từ các dữ liệu dạng chuỗi thời gian và ứng dụng trong một số vấn đềcủa y tế, quản lý Một số nghiên cứu gần đây về ứng dụng của trích rút tóm tắt bằngngôn ngữ vẫn chứng tỏ khả năng ứng dụng lớn và mang lại hiệu quả cao trong cácvấn đề thực tế đặt ra Gilsing và cộng sự trong [64] sử dụng các câu tóm tắt để đánhgiá mô hình kinh doanh Bartczak và cộng sự trong [65] trích rút các câu mô tả mốiquan hệ giữa các khách hàng từ cơ sở dữ liệu dạng đồ thị Duraj và cộng sự trong
[66] sử dụng các câu tóm tắt với các từ lượng hóa ‘very few’, ‘few’ để xác định các
thông tin ngoại lai từ cơ sở dữ liệu Jain và cộng sự trong [48] trích rút câu tóm tắt
từ dữ liệu thu được bởi sensor tại gia đình để sử dụng cho việc hỗ trợ, chăm sócngười già Hai ứng dụng có hiệu quả tốt trong lĩnh vực y tế là phân tích việc tuânthủ quy trình lâm sàng kiểm soát lượng glucose [34], theo dõi lu ồng nh ịp tim c ủ a
bệ nh nhân qua d ữ liệu thu được t ừ thi ế t b ị đeo trên tay bệ nh nhân [43] Từ những
Trang 32kết quả nghiên cứu đã chứng tỏ trích rút tóm tắt bằng ngôn ngữ là một bài toántrong khai phá tri thức được sử dụng trong các hệ hỗ trợ ra quyết định hoặc các hệthống thông minh khác
Trong luận án này, tác giả tập trung nghiên cứu về bài toán trích rút câu tómtắt bằng ngôn ngữ như sau:
Dữ liệu vào của bài toán: tập dữ liệu đầu vào là các bản ghi trong cơ sở dữ
liệu quan hệ, các trường có thể là giá trị phi số (như giới tính, nghề nghiệp,
…) hoặc giá trị số (như lương, tuổi, …) Kiểu dữ liệu này dễ dàng được thuthập, lưu trữ, đồng thời đây cũng là dạng dữ liệu phổ biến được lưu trữ trongcác bài toán quản lý thực tế hàng ngày Mọi đối tượng người sử dụng nhưnhà quản lý, doanh nhân, nhân viên y tế… luôn có nhu cầu trích rút các trithức ẩn dấu trong các kho dữ liệu này để sử dụng điều chỉnh hành vi, hỗ trợ
ra quyết định hợp lý
Đầu ra của bài toán: các câu tóm tắt diễn đạt bằng ngôn ngữ tự nhiên
(linguistic summaries - LS) thể hiện các tri thức trích rút được từ tập dữ liệu Các câu tóm tắt này được coi là các mệnh đề mờ mô tả ngắn ngọn, súc tích về
nội dung của tập dữ liệu Vì ngôn ngữ tự nhiên là phương tiện giao tiếp hàngngày của con người, nên dạng tri thức diễn đạt bằng ngôn ngữ tự nhiên này
dễ dàng được hiểu và sử dụng trong thực tế cho mọi đối tượng người dùng Hơn nữa, dạng tri thức này cũng dễ dàng được phát thanh tự động thông quacác công cụ đọc văn bản tự động Trong thực tế, cách biểu diễn kết quả bằngcác câu trong ngôn ngữ tự nhiên sẽ giúp cho việc đưa ra thông tin, tri thứcnhanh chóng và dễ dàng cho người dùng tiếp nhận
Để giải bài toán trích rút câu tóm tắt bằng ngôn ngữ, trước tiên cần xác địnhcấu trúc cú pháp của câu tóm tắt Một ví dụ về mẫu câu tóm tắt là mệnh đề có chứa
từ lượng hóa như “Hầu hết công nhân trẻ có mức lương khá thấp” được trích rút từ
cơ sở dữ liệu về các công nhân Các trường thông tin tuổi và lương của công nhân
được lưu trữ ở dạng số trong cơ sở dữ liệu (đầu vào của bài toán) Các hạng từ ‘trẻ’,
‘khá thấp’ được dùng trong câu tóm tắt (đầu ra của bài toán) để mô tả về tuổi và
lương của công nhân, từ lượng hóa ‘hầu hết’ thể hiện một định lượng trong kết luận
về mối quan hệ giữa tuổi và lương của các công nhân
Trang 33Lý thuyết tập mờ đã cung cấp một phương pháp luận để phát triển các
phương pháp trích rút câu tóm tắt bằng ngôn ngữ tự nhiên (linguistic summarizationMethod - LSMd) từ các tập dữ liệu số Trong các phương pháp LSMd dựa trên lýthuyết tập mờ, miền tham chiếu số của các thuộc tính trong cơ sở dữ liệu được phânhoạch mềm bởi các tập mờ Mỗi tập mờ trong phân hoạch được gán nhãn là một từngôn ngữ trong miền ngôn ngữ của thuộc tính Các hàm thuộc của các tập mờ và
các giá trị thuộc tính trong cơ sở dữ liệu được sử dụng để tính toán độ đo đánh giáchất lượng của các câu tóm tắt Dựa trên các độ đo này, một tập các câu tóm tắt cóchất lượng tốt được coi là tập tri thức ngôn ngữ trích rút từ cơ sở dữ liệu đã cho
1 3 2 Dạng câu tóm tắt có từ lượng hóa ngôn ngữ và ứng dụng
Trong bài toán trích rút câu tóm tắt bằng ngôn ngữ từ tập dữ liệu, ta cần xácđịnh trước cấu trúc của câu tóm tắt, từ đó xây dựng thuật toán để quét tập dữ liệu vàđưa ra các câu tóm tắt theo cấu trúc đã chọn Trong phần này, luận án trình bày vềcấu trúc câu tóm tắt chứa từ lượng hóa được trích rút từ cơ sở dữ liệu quan hệ theohướng nghiên cứu được đề xuất bởi Yager [3, 5, 6] Mẫu câu này được sử dụng
trong nhiều nghiên cứu khác như nhóm Kacpryzk và cộng sự [9, 11, 12], nhóm
Wilbik và cộng sự [32, 67], và một số nghiên cứu khác [13, 38-40] [41]… Có mộtvài dạng cấu trúc khác cũng được sử dụng như dạng luật IF-THEN [68, 69], dạngcâu mô tả xu hướng cho chuỗi thời gian [16, 49, 70], dạng câu có thêm định lượngthời gian [42], …
1 3 2 1 Cấu trúc câu tóm tắt có từ lượng hóa ngôn ngữ
Cho Y = {y 1 , y 2 , …, y n} là tập các đối tượng (bản ghi) trong cơ sở dữ liệu nhưtập các khách hàng của một ngân hàng; A = {A1 , A2, …, A m} là tập các thuộc tính
cần xem xét của các đối tượng trong tập Y như tuổi, trình độ học vấn, tình trạng hôn nhân, … Ký hiệu A i (y j ) là giá trị thuộc tính A i của đối tượng y j Cơ sở dữ liệu đượccho bởi tập D = {{A1 (y 1 ), A 2 (y 1 ), …, A m (y 1 )}, …, {A 1 (y n ), A 2 (y n ), …, A m (y n)}}
Mỗi câu tóm tắt là một câu trong ngôn ngữ tự nhiên theo cấu trúc cú pháp
tổng quát của các câu chứa từ lượng hóa như sau:
Trong đó:
Q y are S
Q F y are S
(1 2)(1 3)
Trang 34o Kết luận (summarizer) S là một đánh giá diễn đạt bằng một từ trong miền
hạng từ (word-domain) của biến ngôn ngữ tương ứng với một thuộc tính
Ví dụ: TUỔI = ‘trẻ’, LƯƠNG = ‘rất cao’
o Từ lượng hóa (quantifier) Q là một từ biểu diễn tỷ lệ các bản ghi thỏa kết
luận S trong toàn bộ cơ sở dữ liệu D như trong dạng (1 2) hoặc trong nhóm
mờ F như trong dạng (1 3) Ví dụ: ‘rất ít’, ‘một nửa’, ‘hầu hết’
o Giá trị đúng đắn T (validity hoặc truth) là giá trị trong khoảng [0, 1] đánh
giá mức độ đúng đắn của câu tóm tắt Giá trị T được coi là giá trị chân lý
của mệnh đề mờ có từ lượng hóa theo cấu trúc trong (1 2) và (1 3)
o Điều kiện lọc F (qualifier) là tùy chọn để xác định một nhóm con các đối
tượng trong tập Y được xem xét trong câu tóm tắt Một điều kiện lọc mờ có dạng như TUỔI = ‘trẻ’ tức là chỉ xét các đối tượng trong nhóm tuổi ‘trẻ’
Câu tóm tắt (1 4) trích rút từ cơ sở dữ liệu bán hàng [15] là ví dụ cho mẫu
câu theo cấu trúc dạng (1 2), câu tóm tắt (1 5) trích rút từ cơ sở dữ liệu về các bệnh
viện tại Thổ Nhĩ Kỳ [41] là ví dụ cho mẫu câu theo cấu trúc dạng (1 3) Thành phần
“y are S” và “F y are S” được xem như là thân của câu tóm tắt thể hiện các kết luận
bằng ngôn ngữ về tập đối tượng Y hoặc một nhóm đối tượng thỏa điều kiện F được
xem xét trong cơ sở dữ liệu Thành phần Q cho biết tỷ lệ các bản ghi thỏa phần thân
Các câu theo cấu trúc dạng (1 2), (1 3) được xem là các mệnh đề mờ có từ
lượng hóa Công thức tính giá trị chân lý của các mệnh đề này là công thức được đề
xuất bởi Zadeh [71] cho mệnh đề có từ lượng hóa như công thức (1 6) và (1 7)
Trong đó,Q,F,S là các hàm thuộc lần lượt biểu diễn ngữ nghĩa của các hạng từ
Q và hạng từ trong thành phần F, S; là phép giao mờ, thông thường phép giao mờ
được chọn là lấy giá trị nhỏ nhất, tức là �� (�� ) ∧ �� (�� ) = ���(�� (�� ), �� (�� ))
1 n
n i1
(1 6)
T (Q y are S )QS y i
Trang 35i1
Giá trị đúng đắn T là độ đo cơ bản được dùng để đánh giá chất lượng, độ tin
cậy của câu tóm tắt Các câu tóm tắt theo cấu trúc như (1 2) và (1 3) là các mệnh đề
mờ có từ lượng hóa được trích rút từ dữ liệu số mà trong đó ngữ nghĩa của các hạng
từ trong thành phần F, S và cả từ lượng hóa trong câu được biểu diễn bởi các tập
mờ Do đó, một số nghiên cứu đặt ra ngưỡng cho giá trị đúng đắn T để chỉ chọn lọc các câu tóm tắt có giá trị đúng đắn T lớn hơn ngưỡng cho trước như = 0 85 [39]hoặc = 0 8 [18]
Tuy nhiên, độ đo giá trị đúng đắn T chưa phản ánh đầy đủ mọi khía cạnh về
chất lượng của một câu tóm tắt Các tác giả trong [12], [35] đã đề xuất một số độ đokhác để đánh giá trên các tiêu chí khác nhau về chất lượng của câu tóm tắt Một số
độ đo đã được đề xuất là độ đo tính mờ (imprecision), độ đo mức độ bao phủ
(covering) đối với cơ sở dữ liệu, độ đo mức độ tập trung (focus), độ đo sự phù hợp(appropriateness) và độ dài của câu tóm tắt (length of summary) Công thức tính các
độ đo này cũng sử dụng các giá trị A i (y j) trong cơ sở dữ liệu D và các hàm thuộc củacác tập mờ biểu diễn ngữ nghĩa cho các hạng từ trong câu
Do vậy, khi cho trước một cơ sở dữ liệu D tức là xác định một tập các đốitượng được xem xét trong thực tế, cách thiết kế các tập mờ biểu diễn ngữ nghĩa chocác hạng từ trong miền hạng từ của các thuộc tính đóng vai trò quyết định đến kết
quả tính giá trị đúng đắn T, cũng như các độ đo đánh giá chất lượng khác Nếu sử
dụng các độ đo đánh giá này để lựa chọn các câu tóm tắt chất lượng thì việc thiết kếcác tập mờ này sẽ có vai trò quyết định đến tập các câu tóm tắt được chọn làm đầu
ra của thuật toán trích rút tóm tắt bằng ngôn ngữ
1 3 2 2 Ví dụ đơn giản
Giả sử bảng dữ liệu về 10 công việc được xem xét trên dựa trên hai thuộc
tính KHOẢNG CÁCH (KC) (km) và LƯƠNG (triệu đồng) trong Bảng 1 1 Thực
hiện phân hoạch mờ miền tham chiếu số [0, 20] của biến KC bằng năm tập mờ biểu
diễn ngữ nghĩa lần lượt cho các từ ngôn ngữ trong Dom(KC) = {‘rất gần’, ‘gần’,
Trang 36‘trung bình’, ‘xa’, ‘rất xa’} như trong Hình 1 8 Tương tự với biến LƯƠNG, từ
lượng hóa tương đối, miền tham chiếu cũng được phân hoạch mờ bởi năm tập mờ
hình thang như trong Hình 1 8
Bảng 1 1: Dữ liệu ví dụ về 10 công việc
Chúng ta cần khảo sát để thống kê về số lượng công việc theo mức lương
khác nhau bằng các câu tóm tắt chứa từ định lượng dạng “Q công việc có mức
lương S” Trong đó, Q được chọn trong tập gồm năm từ lượng hóa Dom(Q) = {‘rất
ít’, ‘ít’, ‘một nửa’, ‘nhiều’, ‘hầu hết’}, S là một từ ngôn ngữ được chọn trong tập
Dom(LƯƠNG) = {‘rất thấp’, ‘thấp’, ‘trung bình’ (‘tb’), ‘cao’, ‘rất cao’} Bảng 1 2
là kết quả độ thuộc của lương các công việc vào tập mờ biểu diễn ngữ nghĩa cho cáchạng từ diễn đạt các mức lương khác nhau trong Dom(LƯƠNG)
Hình 1 8: Mờ hóa miền tham chiếu của khoảng cách, lương/tháng và đoạn
[0,1] của từ lượng hóa tương đốiBảng 1 2: Tính độ thuộc của từng mức lương vào các tập mờ tương ứng từ
ngôn ngữ trong Dom(LƯƠNG)
Trang 37Theo công thức (1 6) để tính toán giá trị đúng đắn T cho các câu tóm tắt Từ
đó, với mỗi từ S Dom(LƯƠNG) chỉ chọn một từ lượng hóa Q để có T lớn nhất
Ví dụ, khi S = ‘trung bình’, ∑�=1 ������ �ì ℎ � (���) /10 = 0 25, ta có �í� (0 25) =
1, �� (0 25) = 0 khi Q ‘ít’ Do đó, chọn hạng từ lượng hóa ‘ít’ trong câu tóm tắt
có S = ‘trung bình’ Tương tự, kết quả thu được 5 câu tóm tắt như sau:
1) Rất ít công việc có mức lương rất thấp (T = 1 0) 2) Rất ít công việc có mức lương thấp (T = 1 0) 3) Ít công việc có mức lương trung bình (T = 1 0) 4) Một nửa công việc có mức lương cao (T = 0 8) 5) Một nửa công việc có mức lương rất cao (T = 0 7) Giả sử cần khảo sát về các mức lương khác nhau ‘trung bình’, ‘cao’, ‘rất
cao’ trong nhóm công việc có khoảng cách ‘trung bình’, chúng ta lựa chọn mẫu câu
mở rộng là “Q công việc với khoảng cách ‘trung bình’ có mức lương S”, S
{‘trung bình’, ‘cao’, ‘rất cao’} Thực hiện tính toán theo công thức (1 7) và với mỗi thân câu tóm tắt, chọn một từ lượng hóa Q Dom(Q) mà giá trị T lớn nhất Chúng
ta nhận được ba câu tóm tắt như sau:
1) Một nửa công việc với khoảng cách trung bình có mức lương trung bình (T = 0 89)
2) Ít công việc với khoảng cách trung bình có mức lương cao (T = 0 67) 3) Ít công việc với khoảng cách trung bình có mức lương rất cao (T = 0 67)
Với cơ sở dữ liệu đơn giản như trong ví dụ này, giả sử trong các thành phần
lọc F, kết luận S chỉ có một thuộc tính hoặc KC hoặc LƯƠNG; miền hạng từ của
mỗi thuộc tính chỉ có 5 từ ngôn ngữ Chúng ta có thể trích rút được 10 câu tóm tắt
dạng cơ bản “Q y are S” với S Dom(KC) Dom(LƯƠNG) Với dạng câu mở rộng “Q F y are S”, vì có 2 lựa chọn cho thuộc tính trong F, có 5 từ ngôn ngữ có thể chọn cho thuộc tính trong F, tiếp đó có 5 từ ngôn ngữ trong miền hạng từ của thuộc tính còn lại có thể chọn cho S Do đó, tất cả có 255 = 50 câu tóm tắt (vì mỗi miền
10
Trang 38giá trị của biến ngôn ngữ KC, LƯƠNG có 5 từ, có 2 lựa chọn thuộc tính cho thành
phần F)
1 3 2 3 Một số ứng dụng thực tế của câu tóm tắt ngôn ngữ với từ lượng hóa
Trong phần này, luận án tóm tắt một số ứng dụng của bài toán trích rút tómtắt bằng ngôn ngữ trong một số lĩnh vực như y tế, quản lý Từ đó cho thấy khả năng
và ý nghĩa trong giải quyết vấn đề thực tế của bài toán
Wilbik cùng các cộng sự [31] sử dụng mẫu câu tóm tắt (1 2) và (1 3) để mô
tả dữ liệu thu được từ hai sensor được gắn trong phòng của một người già tại trungtâm chăm sóc người cao tuổi Một sensor đo sự chuyển động khi người cao tuổinằm trên giường và một sensor đo sự di chuyển của người cao tuổi trong căn phòng
Một số câu tóm tắt được trích rút từ dữ liệu thu được trong 15 tháng là: “On most of the nights the resident had a medium level of restlessness (T =0 85, d foc=1 0)”;
“Before CABG, on most of the nights, when the resident had a high level of motion,
he had also a medium level of restlessness (T =1 0, d foc=0 82)”; “After CABG, on
most of the nights, when the resident had a low level of motion, he had also a low
level of restlessness (T =1 0, d foc=0 22)” Các câu tóm tắt bằng ngôn ngữ này rất dễhiểu đối với các nhân viên y tế Đồng thời chúng cũng phản ánh được có sự khácbiệt trong dữ liệu thu thập được trong các giai đoạn sức khỏe khác nhau trước vàsau thời điểm mà bệnh nhân phải cấp cứu Tiếp theo, nhóm nghiên cứu trích rút tậpcác câu tóm tắt từ dữ liệu của hai người bệnh khác nhau, thực hiện phân cụm cáccâu tóm tắt để tìm ra một tập câu tóm tắt mô tả cho một đêm sức khỏe ổn định, mộtđêm có dấu hiệu bất thường [72] Kết quả này được sinh tự động từ dữ liệu và diễnđạt dễ hiểu bằng ngôn ngữ tự nhiên Do đó, chúng có ý nghĩa trong thực tế đối vớicác nhân viên y tế chăm sóc người bệnh để có những đánh giá kịp thời tình trạngcủa người bệnh
Một ứng dụng khác của trích rút tóm tắt bằng ngôn ngữ đáng chú ý trong lĩnhvực y tế gần đây là của nhóm Peláez-Aguiler và cộng sự trong bài báo [43] Cácbệnh nhân tham gia chương trình theo dõi phục hồi chức năng tim của một trungtâm y tế sẽ đeo một thiết bị trên cổ tay để đo nhịp tim Dữ liệu được thu thập và lưutrữ, sau đó áp dụng phương pháp trích rút tóm tắt bằng ngôn ngữ dựa trên lý thuyếttập mờ để tự động sinh các kết luận tóm tắt bằng ngôn ngữ theo cấu trúc câu có từ
Trang 39lượng hóa Ví dụ như “At least half of the time the HR is adequate for around 25-50
minutes”, “Most of the time the HR is high for around 1-3 minutes”, “Most of the
time the HR is low for around 15-25 minutes” Ứng dụng này có hai ưu điểm lớn là
có thể xử lý dữ liệu tự động trên một số lượng lớn bệnh nhân và nhanh chóng xácđịnh các trường hợp cần quan tâm để kịp thời đưa ra những phản hồi từ trung tâmquản lý y tế Hơn nữa, các mô tả bằng ngôn ngữ tự nhiên có thể được sử dụng trongcác hệ hỗ trợ ra quyết định dựa trên tri thức để đưa ra các gợi ý dễ hiểu cho bệnhnhân
Nhóm Kacrpyzk và cộng sự [13] trích rút tóm tắt từ dữ liệu nhật ký truy cậpmáy chủ Web của viện nghiên cứu nơi nhóm làm việc Các câu tóm tắt chứa từ
lượng hóa như “All requests with the status code 304 (“not modified”) referred to
small files”, “Most of the requests concerning large files occur in the evening”, …
Các câu tóm tắt này được sử dụng làm báo cáo về tình trạng truy cập máy chủ để từ
đó hỗ trợ đưa ra các định hướng, quyết định trong quản lý hoặc nâng cấp hệ thốngphù hợp nhu cầu sử dụng thực tế
Nhóm Altintop và cộng sự [41] trích rút các tóm tắt để đưa ra các đánh giábằng ngôn ngữ về tình trạng chăm sóc sức khỏe và tình hình tài chính của các bệnh
viện tại Thổ Nhĩ Kỳ Một số câu tóm tắt được trích rút như “Most hospitals with
very high average hospital stay have very low computer software expense ”, “Most
hospitals with very low plumbing expense have very low local government
income ”, “Few hospitals with low medical device expense have many USG devices and high cesarean parity” Các câu tóm tắt này được gửi đến các chuyên gia tại Bộ
Y tế của Thỗ Nhĩ Kỳ để đánh giá theo các tiêu chuẩn tính nhất quán, độ tin cậy, tínhhiệu quả, khả năng hỗ trợ ra quyết định theo thang điểm 100 Kết quả trung bình từ
89 6 đến 92 điểm cho các tiêu chí đưa ra
Qua một số nghiên cứu nêu trên đã chứng tỏ khả năng ứng dụng của kết quảtrích rút tóm tắt bằng ngôn ngữ vào giải quyết các vấn đề thực tế một cách hiệu quả Đồng thời, các nhà nghiên cứu cũng cho thấy còn nhiều vấn đề mở cần tiếp tụcnghiên cứu để làm cho các kết quả trích rút tóm tắt được sử dụng rộng rãi và hiệuquả hơn nữa trong thực tế Từ đó cho thấy hướng nghiên cứu bài toán này có ýnghĩa thực tế, tính thời sự bởi khả năng ứng dụng thực tế cao
Trang 401 3 3 Trích rút tóm tắt từ cơ sở dữ liệu
1 3 3 1 Mối quan hệ giữa trích rút tóm tắt và truy vấn mờ
Kacprzyk và Zadrożny [12] đã giới thiệu một công cụ bổ sung thêm choAccess để thực hiện các truy vấn mờ từ cơ sở dữ liệu quan hệ Trong đó, ngườidùng xác định các tập mờ để biểu diễn ngữ nghĩa cho các hạng từ, thành lập các
biểu thức điều kiện lọc mờ dạng “AGE = ‘young’” Các tác giả cũng đã chỉ ra một
số câu tóm tắt có thể được thực hiện thông qua các truy vấn mờ Bảng 1 3 đưa raphân loại các mức độ tổng quát tăng dần trong trích rút câu tóm tắt
Trong mức độ 1, cần trích rút câu tóm tắt dạng (1 2), thành phần S đã được người dùng xác định trước Ví dụ câu tóm tắt cần tìm có dạng như “Q employees are ‘young’” từ cơ sở dữ liệu về nhân viên Lúc này chỉ cần xác định hạng từ lượng hóa Q để biết lực lượng nhân viên thỏa kết luận “AGE = ‘young’” Nếu sử dụng
công thức (1 6) để tính giá trị đúng đắn của câu tóm tắt, sử dụng hàm thuộc của từ
‘young’, ứng với mỗi hạng từ lượng hóa Q sẽ tính được một giá trị T Tùy thuộc vào tiêu chí chọn lựa câu tóm tắt dựa trên giá trị T có thể đưa ra một câu tóm tắt có giá trị T lớn nhất hoặc đưa ra một số câu tóm tắt có T lớn hơn ngưỡng cho trước Hoàn
toàn tương tự trong mức độ 2 khi xem xét câu tóm tắt mở rộng dạng (1 3), tức là
thành phần kết luận S và F đã hoàn toàn xác định như “Q ‘young’ employes have
‘high’ salary” Lúc này yêu cầu đặt ra chỉ là tìm từ lượng hóa Q Khi đó, chỉ cần
quét cơ sở dữ liệu để tính giá trị trong ngoặc vuông của công thức (1 7) Cách xác
định hạng từ Q và đưa ra câu tóm tắt tương tự như trong mức 1
Với mức độ 3 và 4, thành phần Q và F đã hoàn toàn xác định, thành phần kết luận S đã xác định thuộc tính, yêu cầu cần tìm một hạng từ trong miền hạng từ của thuộc tính trong S để hoàn thành đầy đủ thành phần của câu tóm tắt Ví dụ: yêu cầu trích rút câu tóm tắt có dạng “Very few employees with high quality are S value ”, với
Sstructure có dạng “AGE = ?” Khi đó, S value là một hạng từ trong miền hạng từ của
thuộc tính AGE, Dom(AGE) Khi đó, chỉ cần xét lần lượt các hạng từ trong
Dom(AGE) để chọn một hạng từ cho Svalue tạo thành một câu tóm tắt đầy đủ thành
phần Với mỗi hạng từ chọn cho S value tính toán được một giá trị đúng đắn T khác nhau Tùy thuộc vào điều kiện chọn câu tóm tắt dựa trên độ đo T để đưa ra kết quả