DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮTCác ký hiệu U A Miền tham chiếu số của thuộc tính A LD A Miền hạng từ của thuộc tính biến ngôn ngữ A AA Cấu trúc đại số gia tử cho thuộc tính A S L Câu
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-PHẠM THỊ LAN
TÓM TẮT DỮ LIỆU BẰNG NGÔN NGỮ THEO CÁCH TIẾP CẬN ĐẠI SỐ GIA TỬ
LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH
Hà Nội – 2022
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-PHẠM THỊ LAN
TÓM TẮT DỮ LIỆU BẰNG NGÔN NGỮ THEO CÁCH TIẾP CẬN ĐẠI SỐ GIA TỬ
LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH
Chuyên ngành: Khoa học máy tính
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các kết quảđược viết chung với các tác giả khác đều được sự đồng ý của các đồng tác giả trướckhi đưa vào luận án Các kết quả nêu trong luận án là trung thực và chưa từng đượccông bố trong các công trình nào khác
Luận án được hoàn thành trong thời gian tôi làm Nghiên cứu sinh tại Họcviện Khoa học và Công nghệ, Viện Hàn lâm Khoa học và Công nghệ Việt Nam
Tác giả
NCS Phạm Thị Lan
Trang 4LỜI CẢM ƠN
Trước tiên, tôi xin gửi lời cảm ơn sâu sắc tới tập thể hướng dẫn làPGS.TSKH Nguyễn Cát Hồ và PGS.TS Hồ Cẩm Hà Trong quá trình nghiên cứu vàhoàn thành luận án, tác giả đã nhận được sự chỉ dẫn tận tình, các định hướng khoahọc, những kinh nghiệm quý báu trong nghiên cứu từ hai thầy cô Đặc biệt, thầy côluôn quan tâm, khuyến khích, động viên tác giả vượt qua các giai đoạn khó khăn đểhoàn thành luận án
Tác giả xin gửi lời cảm ơn chân thành tới các thầy cô, các phòng ban trongHọc viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học Việt Nam đã tạo điềukiện thuận lợi cho tác giả trong suốt quá trình nghiên cứu và thực hiện bảo vệ luận
án Tác giả xin gửi lời cảm ơn tới các thầy cô và anh chị trong nhóm nghiên cứu Đại
số gia tử và ứng dụng đã luôn chia sẻ, động viên và đưa ra góp ý quý báu đối vớivấn đề nghiên cứu của tác giả
Tác giả cũng xin gửi lời cảm ơn chân thành tới Ban giám hiệu trường Đạihọc Sư phạm Hà Nội, Ban chủ nhiệm khoa và cán bộ, giảng viên tại khoa Côngnghệ thông tin, trường Đại học Sư phạm Hà Nội đã tạo điều kiện, giúp đỡ, độngviên trong suốt quá trình học tập, nghiên cứu và hoàn thiện bảo vệ luận án
Tác giả xin gửi lời cảm ơn và lòng biết ơn sâu sắc tới các thành viên trongđại gia đình đã luôn hỗ trợ, tạo điều kiện, động viên để tác giả có thời gian, tâm lýtốt nhất để thực hiện các nhiệm vụ trong nghiên cứu
Tác giả
NCS Phạm Thị Lan
Trang 5MỤC LỤC
DANH MỤC CÁC BẢNG
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT
MỞ ĐẦU 10
CHƯƠNG 1 MỘT SỐ KIẾN THỨC CƠ SỞ 20
1.1 Một số kiến thức cơ bản về tập mờ 20
1.1.1 Định nghĩa tập mờ 20
1.1.2 Biến ngôn ngữ 21
1.1.3 Phân hoạch mờ 22
1.2 Khung nhận thức dựa trên lý thuyết tập mờ 23
1.2.1 Định nghĩa khung nhận thức 23
1.2.2 Các ràng buộc về tính giải nghĩa được 24
1.3 Tổng quan về trích rút tóm tắt bằng ngôn ngữ dựa trên lý thuyết tập mờ 26
1.3.1 Bài toán trích rút tóm tắt bằng ngôn ngữ là một nhánh trong lĩnh vực khai phá dữ liệu 26
1.3.2 Dạng câu tóm tắt có từ lượng hóa ngôn ngữ và ứng dụng 29
1.3.3 Trích rút tóm tắt từ cơ sở dữ liệu 36
1.4 Trích rút tập câu tóm tắt tối ưu từ cơ sở dữ liệu 38
1.4.1 Giải thuật di truyền giải bài toán trích rút tập tóm tắt 39
1.4.2 Các yếu tố trong mô hình giải thuật di truyền trích rút tập câu tóm tắt 40
1.5 Lý thuyết đại số gia tử 41
1.5.1 Cấu trúc đại số cho miền giá trị của biến ngôn ngữ 42
1.5.2 Đại số gia tử mở rộng mô hình lõi ngữ nghĩa của hạng từ 48
1.6 Kết luận chương 1 55
Trang 6CHƯƠNG 2 VẤN ĐỀ NỘI DUNG THÔNG TIN CÂU TÓM TẮT VÀ BIỂU
DIỄN TẬP MỜ CỦA MIỀN NGÔN NGỮ THUỘC TÍNH 56
2.1 Vai trò của khung nhận thức trong bài toán trích rút tóm tắt bằng ngôn ngữ dựa trên lý thuyết tập mờ 56
2.2 Vấn đề nội dung thông tin của các câu tóm tắt bằng ngôn ngữ 59
2.3 Khung nhận thức ngôn ngữ trong lý thuyết đại số gia tử 62
2.4 Cấu trúc đa ngữ nghĩa và tính mở rộng được của LFoC 64
2.4.1 Cấu trúc đa ngữ nghĩa trong LFoC 65
2.4.2 Mô hình bụi biểu diễn cấu trúc đa ngữ nghĩa của LFoC 66
2.4.3 Tính mở rộng được của LFoC 68
2.5 Xây dựng cấu trúc ngữ nghĩa tính toán giải nghĩa được của LFoC 70
2.5.1 Thủ tục xây dựng ngữ nghĩa tính toán cho LFoC 70
2.5.2 Tính giải nghĩa được của ngữ nghĩa tính toán với cấu trúc đa thể 76
2.6 Kết luận chương 2 82
CHƯƠNG 3 PHƯƠNG PHÁP TRÍCH RÚT CÂU TÓM TẮT NGÔN NGỮ DỰA TRÊN ĐẠI SỐ GIA TỬ 84
3.1 Cú pháp câu tóm tắt trong ngôn ngữ tự nhiên 84
3.2 Phương pháp trích rút câu tóm tắt dựa trên lý thuyết Đại số gia tử 85
3.2.1 Các thành phần chính trong phương pháp đề xuất 86
3.2.2 Tính mở rộng được của phương pháp đề xuất 89
3.3 Thực nghiệm 90
3.3.1 Đánh giá thông tin của câu tóm tắt 90
3.3.2 Mục tiêu thực hiện thí nghiệm 91
3.3.3 Cơ sở dữ liệu, cú pháp và ngữ nghĩa của các thuộc tính 93
3.3.4 Thí nghiệm 1: Ưu điểm của LFoC có số lượng từ lớn và tính mở rộng được 95
Trang 73.3.5 Thí nghiệm 2: Khả năng mở rộng tập tri thức trích rút từ cơ sở dữ liệu
98
3.3.6 Thí nghiệm 3: Trích rút phân phối ngôn ngữ cho các nhóm mờ 103
3.4 Kết luận chương 3 107
CHƯƠNG 4 TRÍCH RÚT TẬP CÂU TÓM TẮT TỐI ƯU SỬ DỤNG GIẢI THUẬT DI TRUYỀN KẾT HỢP CHIẾN LƯỢC THAM LAM 109
4.1 Mối liên hệ giữa luật kết hợp ngôn ngữ và câu tóm tắt có từ lượng hóa 109
4.1.1 Liên hệ giữa luật kết hợp ngôn ngữ và câu tóm tắt bằng ngôn ngữ 110
4.1.2 Từ thuật toán khai phá luật kết hợp đến thuật toán trích rút tóm tắt 111
4.2 Bài toán trích rút tập con câu tóm tắt tối ưu 113
4.3 Giải thuật di truyền trích rút tập câu tóm tắt tối ưu 115
4.3.1 Hàm đánh giá độ thích nghi 115
4.3.2 Các phép toán trong mô hình giải thuật di truyền lai Hybrid-GA 117
4.3.3 Một số hạn chế trong mô hình giải thuật di truyền lai Hybrid-GA và định hướng khắc phục 118
4.4 Đề xuất thủ tục sinh câu tóm tắt tốt dựa trên chiến lược tham lam 119
4.4.1 Ý tưởng trích rút câu tóm tắt tốt và làm tăng độ đa dạng tập câu tóm tắt 120
4.4.2 Ý tưởng sinh câu tóm tắt tốt dựa trên đánh giá lực lượng của nhóm mờ 121
4.5 Đề xuất mô hình giải thuật di truyền kết hợp chiến lược tham lam trích rút tập câu tóm tắt tối ưu 124
4.5.1 Mã hóa các đối tượng 124
4.5.2 Hàm đánh giá độ thích nghi 124
4.5.3 Mô hình giải thuật di truyền Greedy-GA 125
4.6 Thực nghiệm 127
4.6.1 Cơ sở dữ liệu và dạng câu tóm tắt 128
Trang 84.6.2 Khung nhận thức ngôn ngữ của các thuộc tính và từ lượng hóa Q 128
4.6.3 Tham số của giải thuật di truyền 129
4.6.4 Kết quả thực nghiệm 129
4.7 Kết luận chương 4 131
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 133
DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ 136
TÀI LIỆU THAM KHẢO 137
Trang 9DANH MỤC CÁC BẢNG
Bảng 1.1: Dữ liệu ví dụ về 10 công việc
Bảng 1.2: Tính độ thuộc của từng mức lương vào các tập mờ tương ứng từ
ngôn ngữ trong Dom(LƯƠNG)
Bảng 1.3: Phân loại các mức tổng quát cấu trúc câu tóm tắt
Bảng 1.4: Quan hệ dấu giữa một gia tử trên dòng với gia tử trên cột
Bảng 3.1: Các câu tóm tắt trích rút từ cơ sở dữ liệu, điều kiện lọc là “o(JOB)
IS ‘technician’ AND o(Y) IS ‘yes’”, có 730 bản ghi thỏa điều kiện lọc
Bảng 3.2: Phân phối ngôn ngữ của nhóm mờ xác định bởi điều kiện “(JOB IS
‘student’) AND (AGE IS x)” đối với thuộc tính CCI và Y = ‘yes’ với tập từ lượng hóa Q có tính riêng mức 3 ℱ Q,(3) 105
Bảng 3.3: Phân phối ngôn ngữ của nhóm mờ xác định bởi điều kiện “(JOB IS
‘student’) AND (AGE IS x)” đối với thuộc tính CCI và Y = ‘yes’ với tập từ lượng
hóa Q có tính riêng mức 4 ℱ Q,(4) 105
Bảng 3.4: Phân phối ngôn ngữ của nhóm mờ xác định bởi điều kiện “(JOB IS
‘student’) AND (AGE IS x)” đối với thuộc tính CCI và Y = ‘no’ với tập từ lượng
hóa Q có tính riêng mức 3 ℱ Q,(3) 106
Bảng 3.5: Phân phối ngôn ngữ của nhóm mờ xác định bởi điều kiện “(JOB IS
‘student’) AND (AGE IS x)” đối với thuộc tính CCI và Y = ‘no’ với tập từ lượng
hóa Q có tính riêng mức 4 ℱ Q,(4) 106Bảng 4.1: Thống kê số lượng câu tóm tắt theo số thuộc tính trong câu 114Bảng 4.2: Kết quả trung bình 10 lần chạy mô hình Greedy-GA và kết quảthực nghiệm mô hình Hybrid-GA trong [38] 131
Trang 10DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1: Ba kiểu tập mờ phổ biến
Hình 1.2: Ví dụ năm tập mờ biểu diễn ngữ nghĩa các giá trị ngôn ngữ của
biến LƯƠNG trong miền tham chiếu [0, 10] (đơn vị: triệu đồng)
Hình 1.3 Ví dụ về phân hoạch mờ: (a) dạng đơn thể hạt; (b) dạng đa thể hạt
Hình 1.4: Ví dụ về các tập mờ trên miền tham chiếu số
Hình 1.5: Khung nhận thức ngôn ngữ gồm 3 tập mờ và gán nhãn ngữ nghĩa
không đúng về thứ tự ngữ nghĩa
Hình 1.6: Hai ví dụ về khung nhận thức được thiết kế có tính giải nghĩa tốt 25
Hình 1.7: Quá trình khai phá tri thức từ cơ sở dữ liệu
Hình 1.8: Mờ hóa miền tham chiếu của khoảng cách, lương/tháng và đoạn
[0,1] của từ lượng hóa tương đối
Hình 1.9: Các khoảng tính mờ của các hạng từ trong X(2) với tập gia tử H =
{L, V}
Hình 1.10: Các tập mờ tam giác xây dựng từ giá trị định lượng ngữ nghĩa
Hình 1.11: Cấu trúc ngữ nghĩa của các hạng từ sinh ra từ hạng từ ‘old’
Hình 1.12: Các khoảng tính mờ của hạng từ trong Xen,(3) sinh ra từ c+
Hình 1.13: Các tập mờ hình thang cho các hạng từ trong X(2)
Hình 2.1: Vấn đề chuyển đổi cấu trúc của miền hạng từ ngôn ngữ thành một
cấu trúc tính toán phù hợp
Hình 2.2: Một phần cấu trúc bụi biểu diễn hai quan hệ ngữ nghĩa vốn của
trong LFoC: quan hệ thứ tự và quan hệ tính chung – riêng
Hình 2.3: Ngữ nghĩa tập mờ ở dạng đa mức cho các hạng từ ℱ 3 với tập gia tử
H = {L, V}
Hình 2.4: Các khoảng tính mờ của các hạng từ trong X(3) sinh từ cấu trúc Đại
số gia tử với tập gia tử H = {L, V}
Trang 11Hình 3.2: Các tập mờ hình thang biểu diễn ngữ nghĩa cho các từ lượng hóa
trong ℱQ, 1 , ℱQ, 2 và ℱQ, 3 96Hình 3.3: Cây phân cấp biểu diễn phân phối ngôn ngữ các độ tuổi của nhómkhách hàng JOB = ‘retired’ AND Y = ‘no’ 101
Hình 3.4: Cây phân cấp biểu diễn phân phối ngôn ngữ các độ tuổi của nhómkhách hàng JOB = ‘student’ AND Y = ‘no’ 101
Hình 3.5: Cây phân cấp biểu diễn phân phối ngôn ngữ các độ tuổi của nhómkhách hàng JOB = ‘housemaid’ AND Y = ‘no’ 101Hình 4.1: Minh họa cấu trúc của một gen biểu diễn một câu tóm tắt 124Hình 4.2: Độ đo Fit của cá thể tốt nhất trong quần thể qua 100 lần tiến hóa
130
Trang 12DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT
Các ký hiệu
U A Miền tham chiếu số của thuộc tính A
LD A Miền hạng từ của thuộc tính (biến ngôn ngữ) A
AA Cấu trúc đại số gia tử cho thuộc tính A
S L Câu tóm tắt bằng ngôn ngữ
T Giá trị chân lý (đúng đắn) của câu tóm tắt
ℱA Khung nhận thức ngôn ngữ cho thuộc tính A
Mức tính riêng
quá
G Quan hệ chung – riêng
S≤,G Cấu trúc đa ngữ nghĩa dựa trên quan hệ thứ tự, quan hệ chung – riêng
của miền hạng từ của biến ngôn ngữ
,G Cấu trúc đa ngữ nghĩa và phân cấp của khung nhận thức có mức tính
(x) Tập mờ biểu diễn ngữ nghĩa cho hạng từ x
T(ℱκ ) Cấu trúc phân cấp biểu diễn mối quan hệ giữa các tập mờ biểu diễn ngữ
nghĩa cho các hạng từ trong ℱ κ
D Cơ sở dữ liệu quan hệ
Mls Phương pháp trích rút các câu tóm tắt bằng ngôn ngữ
o(Es ) Thành phần kết luận trong một câu tóm tắt
o(Fq ) Thành phần lọc trong một câu tóm tắt
KBD, t Cơ sở tri thức về tập dữ liệu D tại thời điểm t
Độ tốt của một câu tóm tắt
Độ tốt của một tập câu tóm tắt
Trang 13Độ đa dạng của tập câu tóm tắt
Dom(X) Miền hạng từ của từ của biến ngôn ngữ X
Hàm thích nghi cho mỗi cá thế trong giải thuật di truyền
supp(F q) Độ hỗ trợ cho thành phần lọc F q
Các từ viết tắt
LSMd Linguistic Summarization Method Phương pháp trích rút tóm tắt
ngôn ngữKDD Knowledge Discovery in Database Khai phá tri thức từ cơ sở dữ
liệu
LFoC Linguistic Frame of Cognition Khung nhận thức ngôn ngữ
tính A
LD A Linguistic Domain of A Miền hạng từ của thuộc tính
(biến ngôn ngữ) A
IVQM Interval Value Quatification Ánh xạ định lượng ngữ nghĩa
FRBS Fuzzy rule based system Hệ dựa trên luật mờ
HA-TFS-MG Hedge Algebra – Trapezoid Fuzzy Các tập mờ hình thang với cấu
Set – Multi Granualarity trúc đa thể hạt xây dựng từ
tham số định lượng của cấutrúc đại số gia tử
Greedy-GA Greedy genetic algorithm Giải thuật di truyền kết hợp
chiến lược tham lam
Trang 14MỞ ĐẦU
1 Tính cấp thiết của đề tài và động lực nghiên cứu
Trong vài thập niên gần đây, khi các kho dữ liệu dễ dàng được thu thập vàlưu trữ, các phương pháp khai phá dữ liệu để trích rút được thông tin, tri thức tiềm
ẩn từ tập dữ liệu luôn là một chủ đề thu hút nhiều nghiên cứu Nhiều phương phápkhác nhau đã được nghiên cứu để đề xuất các cách khai phá tri thức từ các tập dữliệu hay cơ sở dữ liệu Trong đó, phương pháp tính toán mềm nói chung và tập mờnói riêng là một hướng nghiên cứu có nhiều kết quả mong đợi và được ứng dụngtrong thực tế [1, 2] Lý thuyết tập mờ cung cấp một cơ sở phương pháp luận chophép phát triển các phương pháp khai phá dữ liệu mà kết quả có thể là những trithức được diễn đạt bằng ngôn ngữ tự nhiên Vì ngôn ngữ tự nhiên là phương tiệngiao tiếp hàng ngày của con người, nên dạng tri thức bằng ngôn ngữ tự nhiên có ưuđiểm là dễ hiểu, dễ sử dụng cho mọi đối tượng người dùng Hơn nữa, chúng có thểđược phát thanh tự động hoặc được sử dụng trong các hệ sản sinh báo cáo văn bản
tự động Do đó, hướng nghiên cứu trích rút tri thức diễn đạt bằng ngôn ngữ tự nhiên
từ tập dữ liệu là có tính thời sự và ý nghĩa khoa học cũng như thực tiễn
Các phương pháp trích rút tri thức ngôn ngữ dựa trên lý thuyết tập mờ đã đạtđược nhiều thành tựu về phương pháp luận có giá trị ứng dụng để giải quyết nhiềulớp bài toán khác nhau Một trong số đó là vấn đề xây dựng các hệ luật ngôn ngữ vàxây dựng các hệ mờ giải các bài toán thực tiễn như các bài toán phân lớp, bài toánhồi quy và các bài toán điều khiển mờ Trong các bài toán này, thực chất hệ luậtngôn ngữ là phương tiện để mô phỏng cách con người giải quyết vấn đề mà quyếtđịnh được dựa trên tri thức ngôn ngữ Hiệu quả của các phương pháp giải chúngđược đánh bằng định lượng, chẳng hạn như dựa trên tỷ lệ phân lớp đúng, sai số bìnhphương trung bình (Mean Squared Error - MSE) Do đó, nội dung thông tin của cáctri thức trong hệ luật ngôn ngữ chưa được xem xét và coi trọng
Một bài toán trích rút tri thức ngôn ngữ từ dữ liệu được Yager đề xuất năm
1982 [3] dựa trên phương pháp luận của lý thuyết tập mờ là bài toán tóm tắt dữ liệubằng ngôn ngữ (linguistic summarization of data) Trong bài toán này, chính nộidung thông tin trong tri thức ngôn ngữ là cốt yếu trong ứng dụng Trên cơ sở đó,ông đã phát triển một số phương pháp trích rút các câu tóm tắt có chứa từ lượng hóa
Trang 15ngôn ngữ [4-6] Các câu này được coi là các mệnh κđề κmờ diễn đạt tri thức ẩn dấu
trong tập dữ liệu số được xem xét
Hướng nghiên cứu này đã thu hút sự quan tâm đông đảo của các nhà khoa
học, điển hình là nhóm nghiên cứu của Kacprzyk và cộng sự [7-17], Castillo và
cộng sự [18-22], Moyse và cộng sự [23-25], Wilbik và cộng sự [26-37], Donis-Diaz
và cộng sự [38-40],… Một số lĩnh vực ứng dụng cụ thể là tạo các báo cáo, phân tích
kinh doanh hoặc quản lý [9, 13, 35, 41], hỗ trợ trong y tế [31, 33, 34, 42, 43] và một
số lĩnh vực khác [38, 40] Các ứng dụng này đã khẳng định ý nghĩa rất thực tiễn của
việc nghiên cứu, phát triển các phương pháp trích rút các câu tóm tắt bằng ngôn ngữ
tự nhiên
Các nghiên cứu trên quan tâm đến các câu tóm tắt có các dạng cấu trúc tổng
quát như sau:
“Q κy are S” và “Q κF κy are S”
Trong đó: Q (quantifier) là một từ lượng hóa, ví dụ như ‘most’, ‘few’, ‘a
half’; S (summarizer) là kết luận sử dụng ngôn ngữ tự nhiên, ví dụ như “AGE is
‘young’”, “SALARY is ‘high’”; κF (qualifier) là điều kiện lọc, ví dụ như “AGE is
‘old’”, “QUALIFICATION is ‘high’” Tổng quát hơn, thành phần S và F có thể là
một biểu thức logic của các điều kiện trên nhiều thuộc tính khác nhau
Ví dụ, ta có thể có các câu tóm tắt ngôn ngữ trích rút từ cơ sở dữ liệu mà giá
trị của thuộc tính AGE và QUALIFICATION được lưu trữ ở dạng số: (1) “Most
wokers are young”; (2) “A κhalf of workers with high qualification are middle”.
Trong câu thứ nhất, thành phần kết luận S (‘young’) diễn đạt kết luận trên thuộc tính
đang xem xét (AGE), thành phần Q (most) diễn đạt tỷ lệ các đối tượng thỏa kết luận
S trong tập dữ liệu Trong câu thứ hai, thành phần kết luận S (‘middle’) diễn đạt kết luận trên thuộc tính AGE của nhóm con gồm các đối tượng thỏa điều kiện lọc F
(workers with high qualification), từ lượng hóa Q (a κhalf) diễn đạt tỷ lệ các đối
tượng thỏa kết luận S trong nhóm con này.
Các câu tóm tắt như trên được coi là các mệnh κđề κmờ diễn đạt tri thức về các
đối tượng trong thế giới thực được lưu trữ trong cơ sở dữ liệu Do đó, với mỗi câu
tóm tắt bằng ngôn ngữ (Linguistic κSummary - LS), một yêu cầu đặt ra là cần tính
toán một giá trị đánh giá độ đúng đắn, giá trị này còn được coi là giá trị chân lý của
Trang 16mệnh đề mờ, ký hiệu là T (T [0, 1]) T được coi là độ đo cơ bản cần thiết để đánh giá câu LS Những câu LS với giá trị T lớn sẽ được đưa vào tập tri thức trích rút từ dữ liệu đã cho Trong phương pháp trích rút tóm tắt ngôn ngữ (Linguistic
Summarization κMethod - LSMd) dựa trên lý thuyết tập mờ, hàm thuộc của các tập
mờ biểu diễn ngữ nghĩa cho hạng từ của các thuộc tính và từ lượng hóa là một thànhphần đầu vào quan trọng của LSMd Các hàm thuộc này được sử dụng để tính giá trị
đúng đắn T Do đó, việc xây dựng các tập mờ đóng vai trò nền tảng cho việc tính giá trị độ đo T cho các câu tóm tắt Tức là, nó ảnh hưởng trực tiếp đến kết quả của
các phương pháp trích rút tóm tắt ngôn ngữ
Có một vấn đề nổi lên trong phương pháp luận của các nghiên cứu LSMddựa trên lý thuyết tập mờ chính là sự liên kết giữa các tập mờ và hạng từ ngôn ngữđược gán cho chúng Trong khi người dùng giải nghĩa các câu LS dựa trên ngữnghĩa vốn có của nó trong ngôn ngữ tự nhiên, các từ ngôn ngữ được lựa chọn bởiLSMd lại chỉ được xem là nhãn ngôn ngữ của các tập mờ mà chúng được xây dựngdựa trên trực giác của nhà thiết kế, phát triển phương pháp luận và giải thuật trongLSMd Do đó, với cùng một câu LS, nó có thể mang hai nội dung thông tin Thứnhất là nội dung gán cho một câu LS bởi quá trình tính toán tương tác giữa dữ liệucủa cơ sở dữ liệu và các tập mờ (nội dung này mang tính chủ quan) Thứ hai là nộidung của câu LS trong ngôn ngữ tự nhiên mà người dùng thu nhận khi đọc câu LS
đó (nội dung này mang tính khách quan) Hai nội dung này nhìn chung là khác nhaunếu không có tiêu chuẩn đảm bảo cách xây dựng tập mờ biểu diễn một cách đúngđắn ngữ nghĩa vốn có của các từ ngôn ngữ được gán cho chúng Đây là vấn đề cốt
yếu, còn được gọi là vấn đề hay bài κtoán κnội κdung κthông κtin của các câu LS trích rút
từ cơ sở dữ liệu mà luận án cần giải quyết Tuy nhiên, vấn đề này lại chưa được đặt
ra trong các nghiên cứu trong phạm vi lý thuyết tập mờ
Trong phạm vi nghiên cứu của luận án, tác giả quan tâm giải quyết bài toánnội dung thông tin của các câu LS Đây là vấn đề đầy thách thức và chưa được xemxét trong các nghiên cứu về LSMd đã công bố Tuy nhiên, có các vấn đề tương tựtrong logic và toán học cho phép gợi mở phương pháp tiếp cận giải quyết vấn đề
trên là khái niệm giải nghĩa được (interpretability) của một lý thuyết S vào một lý thuyết T của Tarski và cộng sự trong [44] Khái niệm này được hiểu như sau: giả sử
Trang 17ta có một vấn đề P cần giải quyết trong S, nhưng gặp nhiều trở ngại Khi đó, ta có thể chuyển đổi P thành P’ trong T để kỳ vọng giải nó dễ hơn Điều này có thể thực hiện được khi và chỉ khi S có thể nhúng đẳng cấu trong T để nghiệm của P chính là nghịch ảnh của nghiệm bài toán P’ trong T.
Ý tưởng trên gợi mở luận án cần nghiên cứu giải quyết một số vấn đề sau:
Thứ κnhất, vấn đề tính giải nghĩa (interpretability) trong bài toán trích rút câu
tóm tắt được đề cập đến trong số rất ít các nghiên cứu [45-47] Hơn nữa, các nghiêncứu này xem xét về vấn đề tính giải nghĩa theo khía cạnh có dễ đọc không, có dễhiểu nội dung không Do đó, các tác giả trong [45-47] coi việc sử dụng mẫu câuchứa từ lượng hóa là đảm bảo tính hiểu được dựa trên độ phức tạp của cấu trúc câu
Do đó, dẫn dến việc nghiên cứu các tiêu chuẩn về độ phức tạp của câu như hạn chế
độ dài của câu, giới hạn về số lượng từ ngôn ngữ là đảm bảo tính dễ đọc Tuy nhiên,như đã phân tích ở trên, tính giải nghĩa cần được xem xét dựa trên việc đảm bảo giảinghĩa một cách đúng đắn nội dung thông tin của các câu LS Tức là, nội dung tínhtoán dựa trên các tập mờ trong một phương pháp LSMd gán cho câu LS phải tươngđồng (bằng nhau trong môi trường mờ) với nội dung mà các câu LS phản ánh khingười dùng giải nghĩa trong ngôn ngữ tự nhiên Tính giải nghĩa theo quan điểm nàychưa được đề cập đến trong các LSMd dựa trên lý thuyết tập mờ đã có
Thứ κhai, còn có những hạn chế không thỏa đáng trong thiết kế các tập mờ và
gán ngữ nghĩa cho chúng bởi các hạng từ ngôn ngữ trong miền hạng từ của cácthuộc tính Các nghiên cứu thường cố định số lượng tập mờ cho mỗi thuộc tínhtrong giới hạn 7 2 và các tập mờ thường tạo thành phân hoạch mạnh trên miền thamchiếu số Một số nghiên cứu còn lựa chọn phân hoạch mờ đều để dễ dàng trong thiết
kế các tập mờ [40, 42, 48] Khi giới hạn số lượng từ ngôn ngữ của các thuộc tính sẽdẫn đến giới hạn tập câu tóm tắt được trích rút từ cơ sở dữ liệu Điều này không phùhợp với thực tiễn sử dụng ngôn ngữ tự nhiên của con người Trong thực tế, tùy từngứng dụng, từng giai đoạn mà con người cần mở rộng tập hạng từ để mô tả tính chất,đặc điểm của thuộc tính Khi mở rộng tập hạng từ, tập tri thức ngôn ngữ cũng được
mở rộng để nhận thức tốt hơn về thế giới thực Do đó, tính mở rộng được của tậphạng từ và tập câu tóm tắt (được coi là tập tri thức ngôn ngữ) là vấn đề cần đượcnghiên cứu trong giải bài toán trích rút tóm tắt bằng ngôn ngữ
Trang 18Thứ κba, khi khảo sát tập từ ngôn ngữ của mỗi thuộc tính với số lượng lớn
hơn sẽ dẫn đến bùng nổ số lượng câu tóm tắt Tuy nhiên, lúc này lại có thể thu đượcnhững câu tóm tắt diễn đạt các tri thức thú vị, bất ngờ, không tầm thường về tập dữliệu Từ đó đặt ra bài toán tìm kiếm một tập con các câu tóm tắt tối ưu từ không gianlớn chứa tất cả các câu tóm tắt Một số nghiên cứu đã áp dụng mô hình giải thuật ditruyền để giải bài toán tối ưu này [18, 38, 39, 41, 49] Ngoài các phép toán di truyền
cơ bản, một số nghiên cứu cũng đề xuất sử dụng thêm các phép toán mới để tăng
hiệu quả của việc tìm kiếm tập câu tóm tắt tối ưu, ví dụ như phép toán κ cleaning trong [38, 41], phép toán improver trong [38, 39] Tuy nhiên, trong kết quả thực
nghiệm [38, 41], tập câu tóm tắt tối ưu vẫn chứa các câu tóm tắt không có chất
lượng khi mà giá trị đúng đắn T = 0 hoặc T < 0.8 Do đó, vấn đề trích rút một tập
câu tóm tắt tối ưu vẫn cần phải tiếp tục nghiên cứu để có kết quả tốt hơn nữa
Từ những phân tích nêu trên, các nhiệm vụ nghiên cứu của luận án được xácđịnh là cần đề xuất một LSMd sao cho đảm bảo tính giải nghĩa nội dung thông tincủa các câu tóm tắt; phương pháp LSMd cũng cần tương tác được với khả năng mởrộng tập hạng từ của các thuộc tính Hơn nữa, luận án cần đề xuất cải tiến mới cho
mô hình giải thuật di truyền để tìm kiếm tập câu tóm tắt tối ưu từ cơ sở dữ liệu
Cùng với việc xác định nhiệm vụ cần nghiên cứu, tác giả đã tìm hiểu về lýthuyết Đại số gia tử (ĐSGT) do Nguyễn Cát Hồ và W Wechler đề xuất năm 1990
và 1992 [50, 51] Lý thuyết ĐSGT tiếp tục được phát triển trong các nghiên cứu[52-55] để mô hình hóa cấu trúc dựa trên quan hệ thứ tự ngữ nghĩa vốn có của miềnhạng từ của các biến ngôn ngữ Tính giải nghĩa ở mức thấp (mức từ vựng) của các
hệ dựa trên luật mờ trong nghiên cứu [56] đã được giải quyết dựa trên lý thuyếtĐSGT Điều này chứng tỏ lý thuyết ĐSGT có thể cung cấp một phương pháp luận
để thực hiện được các nhiệm vụ nghiên cứu trong luận án đã nêu trên
Từ những nghiên cứu về bài toán trích rút tóm tắt bằng ngôn ngữ và phương
pháp luận ĐSGT, tác giả đã lựa chọn đề tài “Tóm κtắt κdữ κliệu κbằng κngôn κngữ κtheo
cách κtiếp κcận κĐại κsố κgia κtử” làm đề tài nghiên cứu của luận án.
2 Mục tiêu, đối tượng, phạm vi nghiên cứu 2.1 Mục tiêu nghiên cứu
Trang 19Mục tiêu của luận án là đề xuất cơ sở phương pháp dựa trên lý thuyết ĐSGT
để phát triển một phương pháp trích rút câu tóm tắt bằng ngôn ngữ để giải quyết bài
toán nội dung thông tin của các câu LS Hơn nữa, phương pháp đề xuất còn có khả
năng tương thích với tính mở rộng được của tập hạng từ của các thuộc tính Mục
tiêu nghiên cứu khác là đề xuất cải tiến cho mô hình giải thuật di truyền để trích rút
tập câu LS tối ưu, tức là một tập chứa các câu LS có chất lượng cao và cung cấp tri
thức ngôn ngữ phong phú, đa dạng hơn
Cụ thể, luận án nghiên cứu và thực hiện được các nhiệm vụ sau:
o Chỉ ra được điều kiện đảm bảo giải nghĩa đúng đắn nội dung thông tin của câu tómtắt trích rút bởi một LSMd dựa trên việc đảm bảo tính giải nghĩa được của cấu trúc các tập mờđược xây dựng trong mờ hóa miền giá trị của
các thuộc tính
o Phát triển phương pháp luận và đề xuất một thủ tục xây dựng các tập mờ biểu diễnđúng đắn ngữ nghĩa vốn có của các hạng từ được gán cho chúng Đồng thời, các tập mờ này cũng
mở rộng được tương ứng với tính mở rộng
được của miền ngôn ngữ thuộc tính
o Đề xuất phương pháp LSMd đảm bảo giải được bài toán nội dung thông tin câutóm tắt và tương thích được với tính mở rộng miền ngôn ngữ của các
thuộc tính Tức là, tập tri thức cũng được bổ sung thêm tri thức mới khi tập
từ ngôn ngữ được tăng trưởng nhưng vẫn duy trì ngữ nghĩa của các tri thức
đã được trích rút trước đó
o Phát triển phương pháp và xây dựng được mô hình giải thuật di truyền trích rút tậpcâu tóm tắt tối ưu có cải tiến so với các mô hình giải thuật di truyền đã có
2.2 Đối tượng nghiên cứu
Đối tượng nghiên cứu trong luận án bao gồm:
o Khung nhận thức mờ và khung nhận thức ngôn ngữ Tính giải nghĩa được củakhung nhận thức mờ trong biểu diễn ngữ nghĩa của khung nhận thức ngôn ngữ tương ứng
Trang 20o Vấn đề nội dung thông tin của các câu tóm tắt ngôn ngữ từ dữ liệu Phương pháptrích rút câu tóm tắt bằng ngôn ngữ sử dụng tập mờ biểu diễn ngữ nghĩa cho hạng từ ngôn ngữ.
o Khung nhận thức ngôn ngữ dựa trên lý thuyết Đại số gia tử và vấn đề sinh
khung nhận thức mờ giải nghĩa được từ khung nhận thức ngôn ngữ đã cho
o Mô hình giải thuật di truyền trích rút tập câu tóm tắt tối ưu từ tập dữ liệu
2.3 Phạm vi nghiên cứu
Luận án nghiên cứu phương pháp mờ dựa trên lý thuyết ĐSGT và lý thuyết
tập mờ để trích rút tóm tắt bằng ngôn ngữ từ cơ sở dữ liệu Trong đó, tập dữ liệu
đầu vào là các cơ sở dữ liệu có các thuộc tính mà giá trị được lưu trữ ở dạng số, mẫu
câu tóm tắt có chứa từ lượng hóa ngôn ngữ
Luận án nghiên cứu về các mô hình của giải thuật di truyền áp dụng trong bài
toán trích rút một tập câu tóm tắt tối ưu từ không gian chứa tất cả các câu tóm tắt có
thể trích rút từ cơ sở dữ liệu
3 Phương pháp nghiên cứu
Các phương pháp nghiên cứu được sử dụng trong luận án gồm có:
o Phương κpháp κtổng κhợp, κphân κtích: được sử dụng khi tìm hiểu kiến thức cơ sở về
trích rút tóm tắt bằng ngôn ngữ, lý thuyết ĐSGT Từ đó tìm được các
hạn chế, tồn tại trong các nghiên cứu đã có, đặt ra các nhiệm vụ mới cầngiải quyết và đưa ra được phương hướng để thực hiện các nhiệm vụ nghiêncứu mới
o Phương κpháp κso κsánh: được sử dụng để tìm ra điểm khác biệt của bài toán trích rút
tóm tắt với các nhánh nghiên cứu khác trong lĩnh vực khai phá dữ liệu; so sánh phương pháp luậnkhi sử dụng lý thuyết tập mờ và lý thuyết ĐSGT trong vấn đề tính giải nghĩa của thiết kế tập mờbiểu diễn ngữ nghĩa các hạng từ trong miền giá trị của biến ngôn ngữ; các mô hình giải thuật ditruyền trong trích rút tóm tắt bằng ngôn ngữ
o Phương κpháp κthiết κkế κvà κchứng κminh: được sử dụng khi đưa ra phương pháp xây
dựng các tập mờ và thuật toán trích rút tóm tắt; phát biểu và chứng minh các định lý về đảm bảotính giải nghĩa của nội dung thông tin câu tóm tắt và tính mở rộng được của phương pháp đềxuất
Trang 21o Phương κpháp κthực κnghiệm: thực hiện thực nghiệm để chứng tỏ tính khả thi và ưu
điểm của phương pháp đề xuất dựa trên lý thuyết ĐSGT; thực hiện cải tiến mô hình giải thuật ditruyền để so sánh với mô hình đã có trên cùng một tập dữ liệu đầu vào
4 Các đóng góp chính của luận án
Sau những nỗ lực nghiên cứu, luận án có những đóng góp chính như sau:
• Luận án đã chỉ ra điều kiện đảm bảo tính giải nghĩa của biểu diễn tập mờ cho miềnhạng từ của các thuộc tính dựa trên khái niệm giải nghĩa trong logic và toán học của Tarski Từ
đó, đưa ra tiêu chuẩn ràng buộc đối với tập các tập mờ cần xây dựng để biểu diễn ngữ nghĩa củacác từ ngôn ngữ gán cho chúng Một thủ tục HA-TFS-MG (Hedge Algebra – Trapezoid FuzzySet - Multiple Granularity) được đề xuất để sản sinh các tập mờ hình thang từ bộ tham số địnhlượng của một cấu trúc ĐSGT của thuộc tính Nó đảm bảo các tập mờ này trong cấu trúc đa thểđược thủ tục sinh ra là ảnh đẳng cấu ngữ nghĩa với các từ trong miền hạng từ của thuộc tính Khi
đó, một thuật toán trích rút câu tóm tắt tính toán với các hàm thuộc của hình thang này sẽ đượccoi như tương tác trực tiếp với ngữ nghĩa định tính của từ ngôn ngữ
• Luận án đã đề xuất một phương pháp trích rút câu tóm tắt (LSMd) tương tác trựctiếp, hiệu quả với ngữ nghĩa định tính của các hạng từ trong câu tóm tắt LSMd được đề xuất cókhả năng tương tác được với tính mở rộng các khung nhận thức ngôn ngữ của các thuộc tính để
mở rộng tập câu tóm tắt bằng bổ sung thêm các câu tóm tắt mới Tính khả thi và những ưu điểmcủa phương pháp đã đề xuất được chứng tỏ qua các kết quả thực nghiệm
• Luận án đề xuất sử dụng chiến lược tham lam trong hàm Random-Greedy-LS đểsinh câu tóm tắt hướng đến tăng độ đo tốt và độ đa dạng của tập câu tóm tắt Đồng thời, luận án
đã xây dựng mô hình giải thuật di truyền Greedy-GA có sử dụng hàm Random-Greedy-LS để tìmkiếm một tập câu tóm tắt tối ưu từ một cơ sở dữ liệu
5 Bố cục luận án
Luận án gồm phần mở đầu, 04 chương và phần kết luận:
Trang 22Phần mở đầu: Trình bày về tính cấp thiết của đề tài và động lực nghiên cứu;mục tiêu, đối tượng, phạm vi nghiên cứu; phương pháp nghiên cứu; các đóng gópchính của luận án; bố cục luận án.
Chương 1: Một số kiến thức cơ sở
Trong chương này, luận án trình bày các kiến thức cơ sở liên quan đến cácbài toán cần nghiên cứu và phương pháp giải quyết các nhiệm vụ nghiên cứu Cụthể, các nội dung gồm có một số kiến thức cơ bản về tập mờ, khung nhận thức ngônngữ dựa trên tập mờ, tổng quan về trích rút tóm tắt bằng ngôn ngữ và vấn đề tríchrút tập câu tóm tắt tối ưu và tổng quan về lý thuyết ĐSGT Các nội dung trongchương 1 là cơ sở lý thuyết được sử dụng để đưa ra một số đề xuất mới giải quyếtcác nhiệm vụ nghiên cứu đã đặt ra
Chương 2: Vấn đề nội dung thông tin câu tóm tắt và biểu diễn tập mờ
của miền ngôn ngữ thuộc tính
Phần đầu chương 2, luận án trình bày và phân tích bài toán nội dung thôngtin của các câu tóm tắt được sinh ra bởi các thuật toán tính toán trên các tập mờ Ýtưởng giải bài toán này được gợi mở từ khái niệm giải nghĩa trong logic của Tarski.Phần tiếp theo, luận án trình bày phương pháp luận và đề xuất một thủ tục xây dựngcác tập mờ từ bộ tham số định lượng của ĐSGT dùng để mờ hóa miền tham chiếucủa các thuộc tính Phần cuối chương, luận án phát biểu và chứng minh các định lý
để chứng tỏ rằng các tập mờ được xây dựng từ thủ tục đề xuất đảm bảo biểu diễnđúng đắn ngữ nghĩa của các hạng từ trong miền ngôn ngữ của thuộc tính Đồng thời,các tập mờ này cũng có khả năng mở rộng được như tính mở rộng được của miềnngôn ngữ của thuộc tính
Chương 3: Phương pháp trích rút câu tóm tắt ngôn ngữ dựa trên Đại số
gia tử
Phần đầu chương 3, luận án trình bày đề xuất một phương pháp trích rút câutóm tắt ngôn ngữ Mls tính toán trên các tập mờ được sinh bởi thủ tục đã đề xuấttrong chương 2 Nội dung tiếp theo là một chuỗi các thực nghiệm với cơ sở dữ liệu
Bank κMarketing trên kho dữ liệu UCI để chứng tỏ tính hiệu quả và ưu điểm của
phương pháp Mls đã đề xuất Mỗi thực nghiệm cụ thể gồm có các kịch bản, kết quả
và phân tích ý nghĩa của kết quả nhận được
Trang 23Chương 4: Trích rút tập câu tóm tắt tối ưu sử dụng giải thuật di truyền
kết hợp chiến lược tham lam
Phần đầu chương 4, luận án trình bày về mối liên hệ giữa bài toán trích rútluật kết hợp ngôn ngữ và trích rút tóm tắt ngôn ngữ; bài toán trích rút tập con câutóm tắt tối ưu Nội dung tiếp theo là phân tích các mô hình giải thuật di truyền đã cólàm cơ sở cho đề xuất cải tiến cho mô hình giải thuật di truyền mới giải bài toántrích rút tập câu tóm tắt tối ưu Các đề xuất mới trong chương này gồm có hàmRandom-Greedy-LS dựa trên chiến lược tham lam để sản sinh một câu tóm tắt tốt
và hướng đến tính đa dạng của tập câu tóm tắt tối ưu và mô hình giải thuật di truyềnGreedy-GA sử dụng hàm Random-Greedy-LS Phần cuối chương là thực nghiệm sosánh mô hình Greedy-GA đề xuất mới so với mô hình Hybrid-GA để chứng tỏ ưuđiểm của các đề xuất
Phần kết luận và hướng phát triển: Trình bày một số kết luận về ý nghĩa củanhững kết quả đã đạt được của luận án và một số hướng nghiên cứu tiếp theo
Trang 24CHƯƠNG 1 MỘT SỐ KIẾN THỨC CƠ SỞ
Trong chương này, luận án trình bày một số kiến thức cơ sở trong lý thuyết
tập mờ, bài toán trích rút tóm tắt bằng ngôn ngữ dựa trên lý thuyết tập mờ và bài
toán tìm kiếm một tập câu tóm tắt tối ưu từ cở sở dữ liệu Phần cuối chương, luận án
trình bày những kiến thức cơ bản trong lý thuyết ĐSGT cơ sở và ĐSGT mở rộng
Những kiến thức cơ sở trong chương 1 sẽ được sử dụng khi trình bày các kết quả
nghiên cứu trong các chương tiếp theo
1.1 Một số kiến thức cơ bản về tập mờ
Lý thuyết tập mờ được Zadeh đề xuất năm 1965 trong [57] với ý tưởng làm
cho máy tính có thể hiểu và xử lý được những tri thức diễn đạt bằng ngôn ngữ tự
nhiên Khái niệm tập mờ là một mở rộng của khái niệm tập cổ điển hay tập rõ và
mỗi tập rõ là một trường hợp riêng của khái niệm tập mờ Tập cổ điển chỉ xem xét
một phần tử có thuộc hay không thuộc vào nó, với tập mờ thì bất kỳ phần tử nào
trong vũ trụ đều có thể thuộc về nó với mức độ thuộc được đo bởi một giá trị trong
đoạn [0, 1]
1.1.1 Định nghĩa tập mờ
Cho U là một tập hợp các điểm (đối tượng), một tập con mờ X trên miền
tham chiếu U được định nghĩa như sau:
Định nghĩa 1.1 [57-59]: Một tập mờ X trên U là một tập mà mỗi phần tử của
nó là một cặp các giá trị (x, κX (x)), trong đó x κU và X là ánh xạ:
Ánh xạ X được gọi là hàm thuộc (membership function) của tập mờ X Tập
U được gọi là tập cơ sở của tập mờ X Giá trị X (x) biểu thị mức độ thuộc của phần tử x vào tập mờ X Nếu giá trị X (x) càng gần 1 thì mức độ thuộc của x vào X càng cao Khi X (x) chỉ nhận giá trị 0 hoặc 1 thì tập X là tập con rõ của tập U Do đó, tập mờ là khái niệm mở rộng của tập rõ.
Khi xây dựng các tập mờ, giá trị hàm thuộc biến thiên trong khoảng [0,1]
Trong các ứng dụng lý thuyết tập mờ thường sử dụng các tập mờ có hình dạng phổ
biến như trong Hình 1.1 Các tập mờ này được gọi là các tập mờ chuẩn vì có giá trị
Trang 25hàm thuộc lớn nhất bằng 1 Tập mờ tam giác và tập mờ hình thang được sử dụng
nhiều nhất do tính đơn giản và dễ hiểu với người dùng
(a) Tập mờ tam giác (b) Tập mờ hình thang (c) Tập mờ hình chuông
Hình 1.1: Ba kiểu tập mờ phổ biến
1.1.2 Biến ngôn ngữ
Theo Zadeh [57] “biến ngôn ngữ là biến mà các giá trị của nó là các từ hoặccâu trong ngôn ngữ tự nhiên hoặc ngôn ngữ nhân tạo” Ví dụ khi nhận xét về lươngcủa nhân viên tập sự, chúng ta có thể xem đây là biến ngôn ngữ có tên gọi LƯƠNG
và nhận các giá trị ngôn ngữ như ‘rất κthấp’, ‘thấp’, ‘trung κbình’, ‘cao’, ‘rất κcao’.
Với mỗi giá trị ngôn ngữ này, gán cho nó một hàm thuộc tương ứng xác định mộttập mờ trên miền giá trị số [0, 10] (đơn vị triệu đồng) của thuộc tính LƯƠNG (xemHình 1.2)
Rất thấp Thấp Trung bình Cao Rất cao 1
Hình 1.2: Ví dụ năm tập mờ biểu diễn ngữ nghĩa các giá trị ngôn ngữ của biến
LƯƠNG trong miền tham chiếu [0, 10] (đơn vị: triệu đồng)
Một cách hình thức, chúng ta có định nghĩa của biến ngôn ngữ như sau:
Định nghĩa 1.2 [58, 59]: Biến ngôn ngữ là một bộ năm thành phần ( , T( ),
U, R, M ), trong đó là tên biến, T( ) là tập các giá trị ngôn ngữ của biến , U là không gian tham chiếu, mỗi giá trị ngôn ngữ xem như là một tập mờ trên U, R là
Trang 26một qui tắc cú pháp sinh các giá trị ngôn ngữ cho tập T( ), M là qui tắc ngữ nghĩa gán mỗi giá trị ngôn ngữ trong T( ) tương ứng với một tập mờ trên U.
1.1.3 Phân hoạch mờ
Phân hoạch mờ là một khái niệm được sử dụng để mờ hóa các miền xác địnhcủa các biến ngôn ngữ Chúng ta có định nghĩa phân hoạch mờ như sau
Định nghĩa 1.3 [60]: Cho m điểm cố định p1 < p2 < < pm thuộc tập U = [a,
b] R là không gian tham chiếu của biến cơ sở u của biến ngôn ngữ Khi đó, một tập
T gồm m tập mờ X1, X2, , X m định nghĩa trên U (với hàm thuộc tương ứng là
1) X k
( pk
Nếu phân hoạch mờ thỏa mãn thêm điều kiện 7), 8), 9) dưới đây thì được gọi
là phân hoạch đều
7) Với k κ κ κm thì h k = p k+1 - p k là hằng số
Trang 27một thể hạt gọi là phân hoạch mờ đơn thể hạt (single κgranularity) như trong Hình
Trang 281.3-(a), một phân hoạch mờ gồm nhiều thể hạt gọi là phân hoạch mờ đa thể hạt
(multi κgranularity) như trong Hình 1.3-(b).
Hình 1.3 Ví dụ về phân hoạch mờ: (a) dạng đơn thể hạt; (b) dạng đa thể hạt
1.2 Khung nhận thức dựa trên lý thuyết tập mờ
1.2.1 Định nghĩa khung nhận thức
Theo Mencar và Fanelli trong [61], mỗi khung nhận thức (Frame of
Cognition - FoC) F của một biến ngôn ngữ A là tập hữu hạn các tập mờ có thứ tự trên miền tham chiếu của biến A và chúng được gán nhãn ngôn ngữ bởi các hạng từ trong miền hạng từ của thuộc tính A Trong mô hình lý thuyết tập mờ, mỗi FoC F
gán nhãn các tập mờ là các hạng từ ngôn ngữ mà con người có thể sử dụng để mô tảcác tính chất định tính của các thuộc tính của các đối tượng trong tự nhiên Do đó,việc gán nhãn ngôn ngữ cho các tập mờ cần phải thể hiện ngữ nghĩa của các nhãnngôn ngữ này
Từ đó, các tác giả trong [61] đưa ra một định nghĩa đầy đủ cho FoC như sau:
Định nghĩa 1.4 [61]: Khung nhận thức FoC là một cấu trúc gồm 5 thành
phần = 〈 , , ≤, ℒ, 〉 Trong đó:
o = { 1 , 2 , … , }, với là các tập mờ có thứ tự trên miền tham chiếu U của thuộc tính A.
o ≤ là quan hệ thứ tự giữa các tập mờ sao cho ≤ ⟹ ≤
o ℒ là tập các nhãn ngôn ngữ trong miền hạng từ của biến ngôn ngữ hoặc thuộc tính A có thứ tự tương ứng với các tập mờ trong = { 1 , 2 , … , }.
Trang 29Quan hệ thứ tự giữa hai tập mờ ≤ phản ánh thứ tự giá trị hàm thuộc của chúng như trong khẳng định sau:
∀ , ∈ : ≤ ⟹ ∃ ∈ , ∀ ∈ :
( ≤ ⟹ ( ) ≥ ( )) ∧ ( ≥ ⟹ ( ) ≤ ( ))
Các hạng từ ngôn ngữ trong mỗi miền hạng từ của các thuộc tính có thứ tựdựa trên ngữ nghĩa vốn có của nó Ví dụ, trong nghiên cứu trích rút tóm tắt về bệnhnhân [42], các tác giả lựa chọn năm hạng từ trong miền hạng từ của thuộc tính
“heart rate” với thứ tự ngữ nghĩa tăng dần là ‘very κlow’, ‘low’, ‘medium’, ‘high’, và
‘very κhigh’ Khi đó các tập mờ biểu diễn ngữ nghĩa cho năm hạng từ này cũng có
thứ tự tăng dần như trong Hình 1.4-(a) Tương tự, năm từ lượng hóa có thứ tự ngữ
nghĩa tăng dần là ‘very κfew’, ‘few’, ‘half’, ‘most’, và ‘almost κall’ Các tập mờ biểu
diễn ngữ nghĩa cho các từ lượng hóa như trong Hình 1.4-(b) Trong ví dụ này, cáctập mờ hình thang tạo thành phân hoạch mạnh của miền tham chiếu số của thuộctính tương ứng
Hình 1.4: Ví dụ về các tập mờ trên miền tham chiếu số
1.2.2 Các ràng buộc về tính giải nghĩa được
Trong định nghĩa về khung nhận thức sử dụng tập mờ chỉ có một điều kiệnràng buộc về thứ tự của các tập mờ và thứ tự ngữ nghĩa của các hạng từ Tuy nhiêncác hạng từ lúc này chỉ được coi là nhãn bằng ngôn ngữ của các tập mờ Nếu việc
gán nhãn là các chuỗi ký tự không có ý nghĩa như A11, κA12, … sẽ gây khó hiểu cho
người sử dụng Nếu việc gán nhãn là từ có nghĩa nhưng không đảm bảo một số quan
hệ, tính chất ngữ nghĩa có thể gây nhầm lẫn khi người sử dụng giải nghĩa của cáchạng từ Ví dụ trong Hình 1.5 gồm ba tập mờ của một khung nhận thức, ngữ nghĩađược gán cho tập mờ có thứ tự ở giữa và tập mờ bên phải không phản ánh đúng về
ngữ nghĩa của hai hạng từ ‘high’ và ‘medium’ Quan hệ thứ tự ngữ nghĩa vốn có của
Trang 30‘high’ và ‘medium’ trong ngôn ngữ tự nhiên có thứ tự ngữ nghĩa là ‘medium’ ≤
‘high’, tuy nhiên chúng được gán cho hai tập mờ có thứ tự ngược lại.
Hình 1.5: Khung nhận thức ngôn ngữ gồm 3 tập mờ và gán nhãn ngữ nghĩa
các hạng từ ‘very κfew’, ‘few’, ‘a κhalf’, ‘most’, ‘almost κall’ thì ràng buộc về thứ tự
ngữ nghĩa được đảm bảo Số lượng tập mờ là năm nên nó thỏa ràng buộc trongkhoảng 7 2 Vị trí giữa các tập mờ đảm bảo có sự phân biệt và chúng bao phủ toàn
bộ miền tham chiếu [0, 1] (bao gồm cả hai đầu mút 0 và 1) Các tập mờ thỏa điềukiện 6, 7, 8, 9 trong Định nghĩa 1.3 nên chúng tạo thành một phân hoạch mạnh đềutrên miền tham chiếu [0, 1]
Hình 1.6: Hai ví dụ về khung nhận thức được thiết kế có tính giải nghĩa tốt
Trang 311.3 Tổng quan về trích rút tóm tắt bằng ngôn ngữ dựa trên lý thuyết tập mờ
1.3.1 Bài toán trích rút tóm tắt bằng ngôn ngữ là một nhánh trong lĩnh vực khai phá dữ liệu
Nhờ kết quả của cuộc cách mạng kỹ thuật số, sự phát triển của phần cứng vàphần mềm, chúng ta dễ dàng thực hiện số hóa dữ liệu, thu thập và lưu trữ đượcnhững kho dữ liệu khổng lồ Các kho dữ liệu này ẩn chứa rất nhiều thông tin, trithức hữu ích cho con người Do đó, ngày càng có nhiều nhà nghiên cứu phát triểncác phương pháp phân tích dữ liệu tự động nhằm trích rút tri thức hữu ích cho conngười sử dụng để định hướng hành động thực tế
Mitra và cộng sự trong [1] đã đưa ra khái niệm về thuật ngữ khai phá tri thức
từ cơ sở dữ liệu (Knowledge Discovery in Database - KDD) là toàn bộ quá trìnhchuyển hóa từ dữ liệu ở mức thô thành tri thức ở mức cao Các tác giả đã chỉ ra quátrình KDD (xem Hình 1.7) gồm các bước chọn lọc dữ liệu, tiền xử lý dữ liệu,chuyển đổi dữ liệu, khai phá dữ liệu, đánh giá và diễn giải Trong đó, khai phá dữliệu là một bước quan trọng nhất, quyết định các bước khác trong quá trình KDD
Khai phá dữ liệu là lĩnh vực bao gồm nhiều hướng nghiên cứu khác nhau màmục tiêu chung là để đưa ra dự đoán kết quả hoặc phát hiện được các mối quan hệ
có nghĩa trong tập dữ liệu Khai phá dữ liệu sử dụng các công cụ tự động mà trong
đó chứa các thuật toán thông minh để phát hiện các mẫu bị ẩn, liên kết, sự bấtthường hoặc một cấu trúc từ một lượng lớn dữ liệu được lưu trong các kho dữ liệu
Dữ
liệu
thô
Dữ liệu được Dữ liệu đã
Tri thức
Dữ liệu đã chuyển đổi
Trang 32network), tính toán mềm (soft computing) Trong đó, phương pháp tính toán mềm
Trang 33dựa trên lý thuyết tập mờ là một hướng nghiên cứu đã được sử dụng và đạt được
nhiều kết quả ý nghĩa trong giải các bài toán thực tế [1, 2] Những kết quả nghiên
cứu đó cho thấy tính hiệu quả trong thực tế khi áp dụng lý thuyết tập mờ vào giải
các bài toán khai phá dữ liệu
Một nhánh trong khai phá dữ liệu có nhiều ý nghĩa ứng dụng trong thực tế là
trích rút tri thức diễn đạt bằng ngôn ngữ tự nhiên từ kho dữ liệu Một bài toán điển
hình trong nhánh nghiên cứu này là bài toán trích rút tóm tắt bằng ngôn ngữ từ dữ
liệu (linguistic κsummarization κof κdata) Bài toán này được đưa ra bởi Yager năm
1982 [3] khi cần mô tả cho một tập các giá trị số bằng các câu trong ngôn ngữ tự
nhiên Sau đó, hướng nghiên cứu này thu hút nhiều sự quan tâm của các nhóm
nghiên cứu khác để phát triển cả lý thuyết và ứng dụng như các nhóm Kacprzyk và
cộng sự [7-13], Castillo và cộng sự [18-22], Moyse và cộng sự [23-25], Wilbik và
cộng sự [26-34], Donis-Diaz và cộng sự [38, 39], … Kacprzyk và cộng sự [9, 10,
12-15, 17] đã nghiên cứu trích rút các câu tóm tắt từ một số cơ sở dữ liệu và coi
trích rút tóm tắt bằng ngôn ngữ như một công cụ để khai phá dữ liệu dựa trên lý
thuyết tập mờ, như là một nhánh trong nghiên cứu tính toán với từ [62] Các tác giả
Wilbik [27, 31, 32, 35-37], R Castillo Ortega và cộng sự [18, 20]; R M
Catillo-Ortega và cộng sự [22]; N Marín và D Sánchez [63]; G Moyse và cộng sự [23,
24]; R J Almeida và cộng sự [42] đã thực hiện các nghiên cứu trích rút tóm tắt
bằng ngôn ngữ từ các dữ liệu dạng chuỗi thời gian và ứng dụng trong một số vấn đề
của y tế, quản lý Một số nghiên cứu gần đây về ứng dụng của trích rút tóm tắt bằng
ngôn ngữ vẫn chứng tỏ khả năng ứng dụng lớn và mang lại hiệu quả cao trong các
vấn đề thực tế đặt ra Gilsing và cộng sự trong [64] sử dụng các câu tóm tắt để đánh
giá mô hình kinh doanh Bartczak và cộng sự trong [65] trích rút các câu mô tả mối
quan hệ giữa các khách hàng từ cơ sở dữ liệu dạng đồ thị Duraj và cộng sự trong
[66] sử dụng các câu tóm tắt với các từ lượng hóa ‘very κfew’, ‘few’ để xác định các thông tin
ngoại lai từ cơ sở dữ liệu Jain và cộng sự trong [48] trích rút câu tóm tắt từ dữ liệu thu được bởisensor tại gia đình để sử dụng cho việc hỗ trợ, chăm sóc người già Hai ứng dụng có hiệu quả tốttrong lĩnh vực y tế là phân tích việc tuân thủ quy trình lâm sàng kiểm soát lượng glucose [34],theo dõi luồng nhịp tim của bệnh nhân qua dữ liệu thu được từ thiết bị đeo trên tay bệnh nhân[43] Từ những
Trang 34kết quả nghiên cứu đã chứng tỏ trích rút tóm tắt bằng ngôn ngữ là một bài toán
trong khai phá tri thức được sử dụng trong các hệ hỗ trợ ra quyết định hoặc các hệ
thống thông minh khác
Trong luận án này, tác giả tập trung nghiên cứu về bài toán trích rút câu tóm
tắt bằng ngôn ngữ như sau:
• Dữ κliệu κvào κcủa κbài κtoán: tập dữ liệu đầu vào là các bản ghi trong cơ sở dữ liệu quan
hệ, các trường có thể là giá trị phi số (như giới tính, nghề nghiệp,
…) hoặc giá trị số (như lương, tuổi, …) Kiểu dữ liệu này dễ dàng được thu
thập, lưu trữ, đồng thời đây cũng là dạng dữ liệu phổ biến được lưu trữ trong
các bài toán quản lý thực tế hàng ngày Mọi đối tượng người sử dụng như
nhà quản lý, doanh nhân, nhân viên y tế… luôn có nhu cầu trích rút các tri
thức ẩn dấu trong các kho dữ liệu này để sử dụng điều chỉnh hành vi, hỗ trợ
ra quyết định hợp lý
• Đầu κra κcủa κbài κtoán: các câu tóm tắt diễn đạt bằng ngôn ngữ tự nhiên (linguistic summaries - LS) thể hiện các tri thức trích rút được từ tập dữ liệu Các câu tóm tắt này được coi
là các mệnh κđề κmờ mô tả ngắn ngọn, súc tích về nội dung của tập dữ liệu Vì ngôn ngữ tự nhiên là
phương tiện giao tiếp hàng ngày của con người, nên dạng tri thức diễn đạt bằng ngôn ngữ tựnhiên này dễ dàng được hiểu và sử dụng trong thực tế cho mọi đối tượng người dùng Hơn nữa,dạng tri thức này cũng dễ dàng được phát thanh tự động thông qua các công cụ đọc văn bản tựđộng Trong thực tế, cách biểu diễn kết quả bằng các câu trong ngôn ngữ tự nhiên sẽ giúp choviệc đưa ra thông tin, tri thức
nhanh chóng và dễ dàng cho người dùng tiếp nhận
Để giải bài toán trích rút câu tóm tắt bằng ngôn ngữ, trước tiên cần xác định
cấu trúc cú pháp của câu tóm tắt Một ví dụ về mẫu câu tóm tắt là mệnh đề có chứa
từ lượng hóa như “Hầu κhết công nhân trẻ có mức lương khá κthấp” được trích rút từ
cơ sở dữ liệu về các công nhân Các trường thông tin tuổi và lương của công nhân
được lưu trữ ở dạng số trong cơ sở dữ liệu (đầu vào của bài toán) Các hạng từ ‘trẻ’,
‘khá κthấp’ được dùng trong câu tóm tắt (đầu ra của bài toán) để mô tả về tuổi và
lương của công nhân, từ lượng hóa ‘hầu κhết’ thể hiện một định lượng trong kết luận
về mối quan hệ giữa tuổi và lương của các công nhân.
Trang 35Lý thuyết tập mờ đã cung cấp một phương pháp luận để phát triển cácphương pháp trích rút câu tóm tắt bằng ngôn ngữ tự nhiên (linguistic summarizationMethod - LSMd) từ các tập dữ liệu số Trong các phương pháp LSMd dựa trên lýthuyết tập mờ, miền tham chiếu số của các thuộc tính trong cơ sở dữ liệu được phânhoạch mềm bởi các tập mờ Mỗi tập mờ trong phân hoạch được gán nhãn là một từngôn ngữ trong miền ngôn ngữ của thuộc tính Các hàm thuộc của các tập mờ vàcác giá trị thuộc tính trong cơ sở dữ liệu được sử dụng để tính toán độ đo đánh giáchất lượng của các câu tóm tắt Dựa trên các độ đo này, một tập các câu tóm tắt cóchất lượng tốt được coi là tập tri thức ngôn ngữ trích rút từ cơ sở dữ liệu đã cho.
1.3.2 Dạng câu tóm tắt có từ lượng hóa ngôn ngữ và ứng dụng
Trong bài toán trích rút câu tóm tắt bằng ngôn ngữ từ tập dữ liệu, ta cần xácđịnh trước cấu trúc của câu tóm tắt, từ đó xây dựng thuật toán để quét tập dữ liệu vàđưa ra các câu tóm tắt theo cấu trúc đã chọn Trong phần này, luận án trình bày vềcấu trúc câu tóm tắt chứa từ lượng hóa được trích rút từ cơ sở dữ liệu quan hệ theohướng nghiên cứu được đề xuất bởi Yager [3, 5, 6] Mẫu câu này được sử dụngtrong nhiều nghiên cứu khác như nhóm Kacpryzk và cộng sự [9, 11, 12], nhómWilbik và cộng sự [32, 67], và một số nghiên cứu khác [13, 38-40] [41]… Có mộtvài dạng cấu trúc khác cũng được sử dụng như dạng luật IF-THEN [68, 69], dạngcâu mô tả xu hướng cho chuỗi thời gian [16, 49, 70], dạng câu có thêm định lượngthời gian [42], …
1.3.2.1 κCấu κtrúc κcâu κtóm κtắt κcó κtừ κlượng κhóa κngôn κngữ
Cho Y = {y 1 , κy 2 , κ…, κy n} là tập các đối tượng (bản ghi) trong cơ sở dữ liệu nhưtập các khách hàng của một ngân hàng; A = {A1 , κA2, …, A m} là tập các thuộc tính
cần xem xét của các đối tượng trong tập Y như tuổi, trình độ học vấn, tình trạng hôn nhân, … Ký hiệu A i (y j ) là giá trị thuộc tính A i của đối tượng y j Cơ sở dữ liệu đượccho bởi tập D = {{A1 (y 1 ), A 2 (y 1 ), …, A m (y 1 )}, …, {A 1 (y n ), A 2 (y n ), …, A m (y n)}}
Mỗi câu tóm tắt là một câu trong ngôn ngữ tự nhiên theo cấu trúc cú pháptổng quát của các câu chứa từ lượng hóa như sau:
Q κy are S
Q κF κy are S
Trong đó:
Trang 36o Kết κluận (summarizer) S là một đánh giá diễn đạt bằng một từ trong miền hạng từ
(word-domain) của biến ngôn ngữ tương ứng với một thuộc tính Ví dụ: TUỔI = ‘trẻ’, LƯƠNG =
‘rất κcao’.
o Từ κlượng κhóa (quantifier) Q là một từ biểu diễn tỷ lệ các bản ghi thỏa kết luận S
trong toàn bộ cơ sở dữ liệu D như trong dạng (1.2) hoặc trong nhóm
mờ F như trong dạng (1.3) Ví dụ: ‘rất κít’, κ‘một κnửa’, κ‘hầu κhết’
o Giá κtrị κđúng κđắn κT (validity hoặc truth) là giá trị trong khoảng [0, 1] đánh
giá mức độ đúng đắn của câu tóm tắt Giá trị T được coi là giá trị chân lý
của mệnh đề mờ có từ lượng hóa theo cấu trúc trong (1.2) và (1.3)
o Điều κkiện κlọc κF (qualifier) là tùy chọn để xác định một nhóm con các đối tượng
trong tập Y được xem xét trong câu tóm tắt Một điều kiện lọc mờ có dạng như TUỔI = κ‘trẻ’ tức
là chỉ xét các đối tượng trong nhóm tuổi ‘trẻ’.
Câu tóm tắt (1.4) trích rút từ cơ sở dữ liệu bán hàng [15] là ví dụ cho mẫu
câu theo cấu trúc dạng (1.2), câu tóm tắt (1.5) trích rút từ cơ sở dữ liệu về các bệnh
viện tại Thổ Nhĩ Kỳ [41] là ví dụ cho mẫu câu theo cấu trúc dạng (1.3) Thành phần
“y are S” và “F κy are S” được xem như là thân của câu tóm tắt thể hiện các kết luận
bằng ngôn ngữ về tập đối tượng Y hoặc một nhóm đối tượng thỏa điều kiện F được
xem xét trong cơ sở dữ liệu Thành phần Q cho biết tỷ lệ các bản ghi thỏa phần thân
Các câu theo cấu trúc dạng (1.2), (1.3) được xem là các mệnh đề mờ có từ
lượng hóa Công thức tính giá trị chân lý của các mệnh đề này là công thức được đề
xuất bởi Zadeh [71] cho mệnh đề có từ lượng hóa như công thức (1.6) và (1.7)
Trong đó, Q , κF, κS là các hàm thuộc lần lượt biểu diễn ngữ nghĩa của các hạng từ
Q và hạng từ trong thành phần F, S; là phép giao mờ, thông thường phép giao mờ
được chọn là lấy giá trị nhỏ nhất, tức là ( ) ∧ ( ) = ( ( ), ( )).
n
κ i=1
Trang 37Giá trị đúng đắn T là độ đo cơ bản được dùng để đánh giá chất lượng, độ tin
cậy của câu tóm tắt Các câu tóm tắt theo cấu trúc như (1.2) và (1.3) là các mệnh đề
mờ có từ lượng hóa được trích rút từ dữ liệu số mà trong đó ngữ nghĩa của các hạng
từ trong thành phần F, S và cả từ lượng hóa trong câu được biểu diễn bởi các tập
mờ Do đó, một số nghiên cứu đặt ra ngưỡng cho giá trị đúng đắn T để chỉ chọn lọc các câu tóm tắt có giá trị đúng đắn T lớn hơn ngưỡng cho trước như = 0.85 [39]
hoặc = 0.8 [18]
Tuy nhiên, độ đo giá trị đúng đắn T chưa phản ánh đầy đủ mọi khía cạnh về
chất lượng của một câu tóm tắt Các tác giả trong [12], [35] đã đề xuất một số độ đokhác để đánh giá trên các tiêu chí khác nhau về chất lượng của câu tóm tắt Một số
độ đo đã được đề xuất là độ đo tính mờ (imprecision), độ đo mức độ bao phủ(covering) đối với cơ sở dữ liệu, độ đo mức độ tập trung (focus), độ đo sự phù hợp(appropriateness) và độ dài của câu tóm tắt (length of summary) Công thức tính các
độ đo này cũng sử dụng các giá trị A i (y j) trong cơ sở dữ liệu D và các hàm thuộc củacác tập mờ biểu diễn ngữ nghĩa cho các hạng từ trong câu
Do vậy, khi cho trước một cơ sở dữ liệu D tức là xác định một tập các đốitượng được xem xét trong thực tế, cách thiết kế các tập mờ biểu diễn ngữ nghĩa chocác hạng từ trong miền hạng từ của các thuộc tính đóng vai trò quyết định đến kết
quả tính giá trị đúng đắn T, cũng như các độ đo đánh giá chất lượng khác Nếu sử
dụng các độ đo đánh giá này để lựa chọn các câu tóm tắt chất lượng thì việc thiết kếcác tập mờ này sẽ có vai trò quyết định đến tập các câu tóm tắt được chọn làm đầu
ra của thuật toán trích rút tóm tắt bằng ngôn ngữ
1.3.2.2 κVí κdụ κđơn κgiản
Giả sử bảng dữ liệu về 10 công việc được xem xét trên dựa trên hai thuộctính KHOẢNG CÁCH (KC) (km) và LƯƠNG (triệu đồng) trong Bảng 1.1 Thựchiện phân hoạch mờ miền tham chiếu số [0, 20] của biến KC bằng năm tập mờ biểu
diễn ngữ nghĩa lần lượt cho các từ ngôn ngữ trong Dom(KC) = {‘rất κgần’, ‘gần’,
Trang 38‘trung κbình’, ‘xa’, ‘rất κxa’} như trong Hình 1.8 Tương tự với biến LƯƠNG, từ
lượng hóa tương đối, miền tham chiếu cũng được phân hoạch mờ bởi năm tập mờ
hình thang như trong Hình 1.8
Bảng 1.1: Dữ liệu ví dụ về 10 công việc
Chúng ta cần khảo sát để thống kê về số lượng công việc theo mức lương
khác nhau bằng các câu tóm tắt chứa từ định lượng dạng “Q công việc có mức
lương S” Trong đó, Q được chọn trong tập gồm năm từ lượng hóa Dom(Q) = {‘rất
ít’, ‘ít’, ‘một κnửa’, ‘nhiều’, ‘hầu κhết’}, S là một từ ngôn ngữ được chọn trong tập
Dom(LƯƠNG) = {‘rất κthấp’, ‘thấp’, ‘trung κbình’ (‘tb’), ‘cao’, ‘rất κcao’} Bảng 1.2
là kết quả độ thuộc của lương các công việc vào tập mờ biểu diễn ngữ nghĩa cho các
hạng từ diễn đạt các mức lương khác nhau trong Dom(LƯƠNG)
Hình 1.8: Mờ hóa miền tham chiếu của khoảng cách, lương/tháng và đoạn
[0,1] của từ lượng hóa tương đốiBảng 1.2: Tính độ thuộc của từng mức lương vào các tập mờ tương ứng
từ ngôn ngữ trong Dom(LƯƠNG)
Trang 39tb 0 0.5 1 0 1 0 0 0 0 0
Theo công thức (1.6) để tính toán giá trị đúng đắn T cho các câu tóm tắt Từ đó, với mỗi từ S Dom(LƯƠNG)
chỉ chọn một từ lượng hóa Q để có T lớn nhất Ví dụ, khi S = ‘trung κbình’, ∑10 =1 ì ℎ ( ) /10 = 0.25, ta có í
(0.25) = 1, (0.25) = 0 khi Q ‘ít’ Do đó, chọn hạng từ lượng hóa ‘ít’ trong câu tóm tắt có S = ‘trung κbình’ Tương tự,
kết quả thu được 5 câu tóm tắt như sau:
Giả sử cần khảo sát về các mức lương khác nhau ‘trung κbình’, κ‘cao’, κ‘rất
cao’ trong nhóm công việc có khoảng cách ‘trung κbình’, chúng ta lựa chọn mẫu câu
mở rộng là “Q công việc với khoảng cách ‘trung κbình’ có mức lương S”, S {‘trung
bình’, κ‘cao’, κ‘rất κcao’} Thực hiện tính toán theo công thức (1.7) và với mỗi thân
câu tóm tắt, chọn một từ lượng hóa Q Dom(Q) mà giá trị T lớn nhất Chúng ta nhận
được ba câu tóm tắt như sau:
1) Một κnửa công việc với khoảng cách trung κbình có mức lương trung κbình κ(T =
0.89)
3) Ít công việc với khoảng cách trung κbình có mức lương rất κcao (T = 0.67) Với cơ
sở dữ liệu đơn giản như trong ví dụ này, giả sử trong các thành phần
lọc F, kết luận S chỉ có một thuộc tính hoặc KC hoặc LƯƠNG; miền hạng từ của
mỗi thuộc tính chỉ có 5 từ ngôn ngữ Chúng ta có thể trích rút được 10 câu tóm tắt
dạng cơ bản “Q y are S” với S Dom(KC) Dom(LƯƠNG) Với dạng câu mở rộng “Q
F y are S”, vì có 2 lựa chọn cho thuộc tính trong F, có 5 từ ngôn ngữ có thể chọn
cho thuộc tính trong F, tiếp đó có 5 từ ngôn ngữ trong miền hạng từ của thuộc tính
còn lại có thể chọn cho S Do đó, tất cả có 2 5 5 = 50 câu tóm tắt (vì mỗi miền
Trang 40giá trị của biến ngôn ngữ KC, LƯƠNG có 5 từ, có 2 lựa chọn thuộc tính cho thành
phần F).
1.3.2.3 κMột κsố κứng κdụng κthực κtế κcủa κcâu κtóm κtắt κngôn κngữ κvới κtừ κlượng κhóa
Trong phần này, luận án tóm tắt một số ứng dụng của bài toán trích rút tómtắt bằng ngôn ngữ trong một số lĩnh vực như y tế, quản lý Từ đó cho thấy khả năng
và ý nghĩa trong giải quyết vấn đề thực tế của bài toán
Wilbik cùng các cộng sự [31] sử dụng mẫu câu tóm tắt (1.2) và (1.3) để mô
tả dữ liệu thu được từ hai sensor được gắn trong phòng của một người già tại trungtâm chăm sóc người cao tuổi Một sensor đo sự chuyển động khi người cao tuổinằm trên giường và một sensor đo sự di chuyển của người cao tuổi trong căn phòng
Một số câu tóm tắt được trích rút từ dữ liệu thu được trong 15 tháng là: “On most of the nights the resident had a medium level of restlessness (T =0.85, d foc=1.0)”;
“Before CABG, on most of the nights, when the resident had a high level of motion,
he had also a medium level of restlessness (T =1.0, d foc=0.82)”; “After CABG, on
most of the nights, when the resident had a low level of motion, he had also a low
level of restlessness (T =1.0, d foc=0.22)” Các câu tóm tắt bằng ngôn ngữ này rất dễhiểu đối với các nhân viên y tế Đồng thời chúng cũng phản ánh được có sự khácbiệt trong dữ liệu thu thập được trong các giai đoạn sức khỏe khác nhau trước vàsau thời điểm mà bệnh nhân phải cấp cứu Tiếp theo, nhóm nghiên cứu trích rút tậpcác câu tóm tắt từ dữ liệu của hai người bệnh khác nhau, thực hiện phân cụm cáccâu tóm tắt để tìm ra một tập câu tóm tắt mô tả cho một đêm sức khỏe ổn định, mộtđêm có dấu hiệu bất thường [72] Kết quả này được sinh tự động từ dữ liệu và diễnđạt dễ hiểu bằng ngôn ngữ tự nhiên Do đó, chúng có ý nghĩa trong thực tế đối vớicác nhân viên y tế chăm sóc người bệnh để có những đánh giá kịp thời tình trạngcủa người bệnh
Một ứng dụng khác của trích rút tóm tắt bằng ngôn ngữ đáng chú ý trong lĩnhvực y tế gần đây là của nhóm Peláez-Aguiler và cộng sự trong bài báo [43] Cácbệnh nhân tham gia chương trình theo dõi phục hồi chức năng tim của một trungtâm y tế sẽ đeo một thiết bị trên cổ tay để đo nhịp tim Dữ liệu được thu thập và lưutrữ, sau đó áp dụng phương pháp trích rút tóm tắt bằng ngôn ngữ dựa trên lý thuyếttập mờ để tự động sinh các kết luận tóm tắt bằng ngôn ngữ theo cấu trúc câu có từ