(Luận án tiến sĩ) tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận đại số gia tử

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮTCác ký hiệu U A Miền tham chiếu số của thuộc tính A LD A Miền hạng từ của thuộc tính biến ngôn ngữ A AA Cấu trúc đại số gia tử cho thuộc tính A S L Câu

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC

VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

-PHẠM THỊ LAN

TÓM TẮT DỮ LIỆU BẰNG NGÔN NGỮ THEO CÁCH TIẾP CẬN ĐẠI SỐ GIA TỬ

LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH

Hà Nội – 2022

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC

VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

-PHẠM THỊ LAN

TÓM TẮT DỮ LIỆU BẰNG NGÔN NGỮ THEO CÁCH TIẾP CẬN ĐẠI SỐ GIA TỬ

LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH

Chuyên ngành: Khoa học máy tính

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các kết quảđược viết chung với các tác giả khác đều được sự đồng ý của các đồng tác giả trướckhi đưa vào luận án Các kết quả nêu trong luận án là trung thực và chưa từng đượccông bố trong các công trình nào khác

Luận án được hoàn thành trong thời gian tôi làm Nghiên cứu sinh tại Họcviện Khoa học và Công nghệ, Viện Hàn lâm Khoa học và Công nghệ Việt Nam

Tác giả

NCS Phạm Thị Lan

Trang 4

LỜI CẢM ƠN

Trước tiên, tôi xin gửi lời cảm ơn sâu sắc tới tập thể hướng dẫn làPGS.TSKH Nguyễn Cát Hồ và PGS.TS Hồ Cẩm Hà Trong quá trình nghiên cứu vàhoàn thành luận án, tác giả đã nhận được sự chỉ dẫn tận tình, các định hướng khoahọc, những kinh nghiệm quý báu trong nghiên cứu từ hai thầy cô Đặc biệt, thầy côluôn quan tâm, khuyến khích, động viên tác giả vượt qua các giai đoạn khó khăn đểhoàn thành luận án

Tác giả xin gửi lời cảm ơn chân thành tới các thầy cô, các phòng ban trongHọc viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học Việt Nam đã tạo điềukiện thuận lợi cho tác giả trong suốt quá trình nghiên cứu và thực hiện bảo vệ luận

án Tác giả xin gửi lời cảm ơn tới các thầy cô và anh chị trong nhóm nghiên cứu Đại

số gia tử và ứng dụng đã luôn chia sẻ, động viên và đưa ra góp ý quý báu đối vớivấn đề nghiên cứu của tác giả

Tác giả cũng xin gửi lời cảm ơn chân thành tới Ban giám hiệu trường Đạihọc Sư phạm Hà Nội, Ban chủ nhiệm khoa và cán bộ, giảng viên tại khoa Côngnghệ thông tin, trường Đại học Sư phạm Hà Nội đã tạo điều kiện, giúp đỡ, độngviên trong suốt quá trình học tập, nghiên cứu và hoàn thiện bảo vệ luận án

Tác giả xin gửi lời cảm ơn và lòng biết ơn sâu sắc tới các thành viên trongđại gia đình đã luôn hỗ trợ, tạo điều kiện, động viên để tác giả có thời gian, tâm lýtốt nhất để thực hiện các nhiệm vụ trong nghiên cứu

Tác giả

NCS Phạm Thị Lan

Trang 5

MỤC LỤC

DANH MỤC CÁC BẢNG

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT

MỞ ĐẦU 10

CHƯƠNG 1 MỘT SỐ KIẾN THỨC CƠ SỞ 20

1.1 Một số kiến thức cơ bản về tập mờ 20

1.1.1 Định nghĩa tập mờ 20

1.1.2 Biến ngôn ngữ 21

1.1.3 Phân hoạch mờ 22

1.2 Khung nhận thức dựa trên lý thuyết tập mờ 23

1.2.1 Định nghĩa khung nhận thức 23

1.2.2 Các ràng buộc về tính giải nghĩa được 24

1.3 Tổng quan về trích rút tóm tắt bằng ngôn ngữ dựa trên lý thuyết tập mờ 26

1.3.1 Bài toán trích rút tóm tắt bằng ngôn ngữ là một nhánh trong lĩnh vực khai phá dữ liệu 26

1.3.2 Dạng câu tóm tắt có từ lượng hóa ngôn ngữ và ứng dụng 29

1.3.3 Trích rút tóm tắt từ cơ sở dữ liệu 36

1.4 Trích rút tập câu tóm tắt tối ưu từ cơ sở dữ liệu 38

1.4.1 Giải thuật di truyền giải bài toán trích rút tập tóm tắt 39

1.4.2 Các yếu tố trong mô hình giải thuật di truyền trích rút tập câu tóm tắt 40

1.5 Lý thuyết đại số gia tử 41

1.5.1 Cấu trúc đại số cho miền giá trị của biến ngôn ngữ 42

1.5.2 Đại số gia tử mở rộng mô hình lõi ngữ nghĩa của hạng từ 48

1.6 Kết luận chương 1 55

Trang 6

CHƯƠNG 2 VẤN ĐỀ NỘI DUNG THÔNG TIN CÂU TÓM TẮT VÀ BIỂU

DIỄN TẬP MỜ CỦA MIỀN NGÔN NGỮ THUỘC TÍNH 56

2.1 Vai trò của khung nhận thức trong bài toán trích rút tóm tắt bằng ngôn ngữ dựa trên lý thuyết tập mờ 56

2.2 Vấn đề nội dung thông tin của các câu tóm tắt bằng ngôn ngữ 59

2.3 Khung nhận thức ngôn ngữ trong lý thuyết đại số gia tử 62

2.4 Cấu trúc đa ngữ nghĩa và tính mở rộng được của LFoC 64

2.4.1 Cấu trúc đa ngữ nghĩa trong LFoC 65

2.4.2 Mô hình bụi biểu diễn cấu trúc đa ngữ nghĩa của LFoC 66

2.4.3 Tính mở rộng được của LFoC 68

2.5 Xây dựng cấu trúc ngữ nghĩa tính toán giải nghĩa được của LFoC 70

2.5.1 Thủ tục xây dựng ngữ nghĩa tính toán cho LFoC 70

2.5.2 Tính giải nghĩa được của ngữ nghĩa tính toán với cấu trúc đa thể 76

CHƯƠNG 3 PHƯƠNG PHÁP TRÍCH RÚT CÂU TÓM TẮT NGÔN NGỮ DỰA TRÊN ĐẠI SỐ GIA TỬ 84

3.1 Cú pháp câu tóm tắt trong ngôn ngữ tự nhiên 84

3.2 Phương pháp trích rút câu tóm tắt dựa trên lý thuyết Đại số gia tử 85

3.2.1 Các thành phần chính trong phương pháp đề xuất 86

3.2.2 Tính mở rộng được của phương pháp đề xuất 89

3.3 Thực nghiệm 90

3.3.1 Đánh giá thông tin của câu tóm tắt 90

3.3.2 Mục tiêu thực hiện thí nghiệm 91

3.3.3 Cơ sở dữ liệu, cú pháp và ngữ nghĩa của các thuộc tính 93

3.3.4 Thí nghiệm 1: Ưu điểm của LFoC có số lượng từ lớn và tính mở rộng được 95

Trang 7

3.3.5 Thí nghiệm 2: Khả năng mở rộng tập tri thức trích rút từ cơ sở dữ liệu

98

3.3.6 Thí nghiệm 3: Trích rút phân phối ngôn ngữ cho các nhóm mờ 103

CHƯƠNG 4 TRÍCH RÚT TẬP CÂU TÓM TẮT TỐI ƯU SỬ DỤNG GIẢI THUẬT DI TRUYỀN KẾT HỢP CHIẾN LƯỢC THAM LAM 109

4.1 Mối liên hệ giữa luật kết hợp ngôn ngữ và câu tóm tắt có từ lượng hóa 109

4.1.1 Liên hệ giữa luật kết hợp ngôn ngữ và câu tóm tắt bằng ngôn ngữ 110

4.1.2 Từ thuật toán khai phá luật kết hợp đến thuật toán trích rút tóm tắt 111

4.2 Bài toán trích rút tập con câu tóm tắt tối ưu 113

4.3 Giải thuật di truyền trích rút tập câu tóm tắt tối ưu 115

4.3.1 Hàm đánh giá độ thích nghi 115

4.3.2 Các phép toán trong mô hình giải thuật di truyền lai Hybrid-GA 117

4.3.3 Một số hạn chế trong mô hình giải thuật di truyền lai Hybrid-GA và định hướng khắc phục 118

4.4 Đề xuất thủ tục sinh câu tóm tắt tốt dựa trên chiến lược tham lam 119

4.4.1 Ý tưởng trích rút câu tóm tắt tốt và làm tăng độ đa dạng tập câu tóm tắt 120

4.4.2 Ý tưởng sinh câu tóm tắt tốt dựa trên đánh giá lực lượng của nhóm mờ 121

4.5 Đề xuất mô hình giải thuật di truyền kết hợp chiến lược tham lam trích rút tập câu tóm tắt tối ưu 124

4.5.1 Mã hóa các đối tượng 124

4.5.2 Hàm đánh giá độ thích nghi 124

4.5.3 Mô hình giải thuật di truyền Greedy-GA 125

4.6 Thực nghiệm 127

4.6.1 Cơ sở dữ liệu và dạng câu tóm tắt 128

Trang 8

4.6.2 Khung nhận thức ngôn ngữ của các thuộc tính và từ lượng hóa Q 128

4.6.3 Tham số của giải thuật di truyền 129

4.6.4 Kết quả thực nghiệm 129

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 133

DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ 136

TÀI LIỆU THAM KHẢO 137

Trang 9

DANH MỤC CÁC BẢNG

Bảng 1.1: Dữ liệu ví dụ về 10 công việc

Bảng 1.2: Tính độ thuộc của từng mức lương vào các tập mờ tương ứng từ

ngôn ngữ trong Dom(LƯƠNG)

Bảng 1.3: Phân loại các mức tổng quát cấu trúc câu tóm tắt

Bảng 1.4: Quan hệ dấu giữa một gia tử trên dòng với gia tử trên cột

Bảng 3.1: Các câu tóm tắt trích rút từ cơ sở dữ liệu, điều kiện lọc là “o(JOB)

IS ‘technician’ AND o(Y) IS ‘yes’”, có 730 bản ghi thỏa điều kiện lọc

Bảng 3.2: Phân phối ngôn ngữ của nhóm mờ xác định bởi điều kiện “(JOB IS

‘student’) AND (AGE IS x)” đối với thuộc tính CCI và Y = ‘yes’ với tập từ lượng hóa Q có tính riêng mức 3 ℱ Q,(3) 105

‘student’) AND (AGE IS x)” đối với thuộc tính CCI và Y = ‘yes’ với tập từ lượng

hóa Q có tính riêng mức 4 ℱ Q,(4) 105

‘student’) AND (AGE IS x)” đối với thuộc tính CCI và Y = ‘no’ với tập từ lượng

hóa Q có tính riêng mức 3 ℱ Q,(3) 106

‘student’) AND (AGE IS x)” đối với thuộc tính CCI và Y = ‘no’ với tập từ lượng

hóa Q có tính riêng mức 4 ℱ Q,(4) 106Bảng 4.1: Thống kê số lượng câu tóm tắt theo số thuộc tính trong câu 114Bảng 4.2: Kết quả trung bình 10 lần chạy mô hình Greedy-GA và kết quảthực nghiệm mô hình Hybrid-GA trong [38] 131

Trang 10

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Hình 1.1: Ba kiểu tập mờ phổ biến

Hình 1.2: Ví dụ năm tập mờ biểu diễn ngữ nghĩa các giá trị ngôn ngữ của

biến LƯƠNG trong miền tham chiếu [0, 10] (đơn vị: triệu đồng)

Hình 1.3 Ví dụ về phân hoạch mờ: (a) dạng đơn thể hạt; (b) dạng đa thể hạt

Hình 1.4: Ví dụ về các tập mờ trên miền tham chiếu số

Hình 1.5: Khung nhận thức ngôn ngữ gồm 3 tập mờ và gán nhãn ngữ nghĩa

không đúng về thứ tự ngữ nghĩa

Hình 1.6: Hai ví dụ về khung nhận thức được thiết kế có tính giải nghĩa tốt 25

Hình 1.7: Quá trình khai phá tri thức từ cơ sở dữ liệu

Hình 1.8: Mờ hóa miền tham chiếu của khoảng cách, lương/tháng và đoạn

[0,1] của từ lượng hóa tương đối

Hình 1.9: Các khoảng tính mờ của các hạng từ trong X(2) với tập gia tử H =

{L, V}

Hình 1.10: Các tập mờ tam giác xây dựng từ giá trị định lượng ngữ nghĩa

Hình 1.11: Cấu trúc ngữ nghĩa của các hạng từ sinh ra từ hạng từ ‘old’

Hình 1.12: Các khoảng tính mờ của hạng từ trong Xen,(3) sinh ra từ c+

Hình 1.13: Các tập mờ hình thang cho các hạng từ trong X(2)

Hình 2.1: Vấn đề chuyển đổi cấu trúc của miền hạng từ ngôn ngữ thành một

cấu trúc tính toán phù hợp

Hình 2.2: Một phần cấu trúc bụi biểu diễn hai quan hệ ngữ nghĩa vốn của

trong LFoC: quan hệ thứ tự và quan hệ tính chung – riêng

Hình 2.3: Ngữ nghĩa tập mờ ở dạng đa mức cho các hạng từ ℱ 3 với tập gia tử

H = {L, V}

Hình 2.4: Các khoảng tính mờ của các hạng từ trong X(3) sinh từ cấu trúc Đại

số gia tử với tập gia tử H = {L, V}

Trang 11

Hình 3.2: Các tập mờ hình thang biểu diễn ngữ nghĩa cho các từ lượng hóa

trong ℱQ, 1 , ℱQ, 2 và ℱQ, 3 96Hình 3.3: Cây phân cấp biểu diễn phân phối ngôn ngữ các độ tuổi của nhómkhách hàng JOB = ‘retired’ AND Y = ‘no’ 101

Hình 3.4: Cây phân cấp biểu diễn phân phối ngôn ngữ các độ tuổi của nhómkhách hàng JOB = ‘student’ AND Y = ‘no’ 101

Hình 3.5: Cây phân cấp biểu diễn phân phối ngôn ngữ các độ tuổi của nhómkhách hàng JOB = ‘housemaid’ AND Y = ‘no’ 101Hình 4.1: Minh họa cấu trúc của một gen biểu diễn một câu tóm tắt 124Hình 4.2: Độ đo Fit của cá thể tốt nhất trong quần thể qua 100 lần tiến hóa

130

Trang 12

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT

Các ký hiệu

U A Miền tham chiếu số của thuộc tính A

LD A Miền hạng từ của thuộc tính (biến ngôn ngữ) A

AA Cấu trúc đại số gia tử cho thuộc tính A

S L Câu tóm tắt bằng ngôn ngữ

T Giá trị chân lý (đúng đắn) của câu tóm tắt

ℱA Khung nhận thức ngôn ngữ cho thuộc tính A

Mức tính riêng

quá

G Quan hệ chung – riêng

S≤,G Cấu trúc đa ngữ nghĩa dựa trên quan hệ thứ tự, quan hệ chung – riêng

của miền hạng từ của biến ngôn ngữ

,G Cấu trúc đa ngữ nghĩa và phân cấp của khung nhận thức có mức tính

(x) Tập mờ biểu diễn ngữ nghĩa cho hạng từ x

T(ℱκ ) Cấu trúc phân cấp biểu diễn mối quan hệ giữa các tập mờ biểu diễn ngữ

nghĩa cho các hạng từ trong ℱ κ

D Cơ sở dữ liệu quan hệ

Mls Phương pháp trích rút các câu tóm tắt bằng ngôn ngữ

o(Es ) Thành phần kết luận trong một câu tóm tắt

o(Fq ) Thành phần lọc trong một câu tóm tắt

KBD, t Cơ sở tri thức về tập dữ liệu D tại thời điểm t

Độ tốt của một câu tóm tắt

Độ tốt của một tập câu tóm tắt

Trang 13

Độ đa dạng của tập câu tóm tắt

Dom(X) Miền hạng từ của từ của biến ngôn ngữ X

Hàm thích nghi cho mỗi cá thế trong giải thuật di truyền

supp(F q) Độ hỗ trợ cho thành phần lọc F q

Các từ viết tắt

LSMd Linguistic Summarization Method Phương pháp trích rút tóm tắt

ngôn ngữKDD Knowledge Discovery in Database Khai phá tri thức từ cơ sở dữ

liệu

LFoC Linguistic Frame of Cognition Khung nhận thức ngôn ngữ

tính A

LD A Linguistic Domain of A Miền hạng từ của thuộc tính

(biến ngôn ngữ) A

IVQM Interval Value Quatification Ánh xạ định lượng ngữ nghĩa

FRBS Fuzzy rule based system Hệ dựa trên luật mờ

HA-TFS-MG Hedge Algebra – Trapezoid Fuzzy Các tập mờ hình thang với cấu

Set – Multi Granualarity trúc đa thể hạt xây dựng từ

tham số định lượng của cấutrúc đại số gia tử

Greedy-GA Greedy genetic algorithm Giải thuật di truyền kết hợp

chiến lược tham lam

Trang 14

MỞ ĐẦU

1 Tính cấp thiết của đề tài và động lực nghiên cứu

Trong vài thập niên gần đây, khi các kho dữ liệu dễ dàng được thu thập vàlưu trữ, các phương pháp khai phá dữ liệu để trích rút được thông tin, tri thức tiềm

ẩn từ tập dữ liệu luôn là một chủ đề thu hút nhiều nghiên cứu Nhiều phương phápkhác nhau đã được nghiên cứu để đề xuất các cách khai phá tri thức từ các tập dữliệu hay cơ sở dữ liệu Trong đó, phương pháp tính toán mềm nói chung và tập mờnói riêng là một hướng nghiên cứu có nhiều kết quả mong đợi và được ứng dụngtrong thực tế [1, 2] Lý thuyết tập mờ cung cấp một cơ sở phương pháp luận chophép phát triển các phương pháp khai phá dữ liệu mà kết quả có thể là những trithức được diễn đạt bằng ngôn ngữ tự nhiên Vì ngôn ngữ tự nhiên là phương tiệngiao tiếp hàng ngày của con người, nên dạng tri thức bằng ngôn ngữ tự nhiên có ưuđiểm là dễ hiểu, dễ sử dụng cho mọi đối tượng người dùng Hơn nữa, chúng có thểđược phát thanh tự động hoặc được sử dụng trong các hệ sản sinh báo cáo văn bản

tự động Do đó, hướng nghiên cứu trích rút tri thức diễn đạt bằng ngôn ngữ tự nhiên

từ tập dữ liệu là có tính thời sự và ý nghĩa khoa học cũng như thực tiễn

Các phương pháp trích rút tri thức ngôn ngữ dựa trên lý thuyết tập mờ đã đạtđược nhiều thành tựu về phương pháp luận có giá trị ứng dụng để giải quyết nhiềulớp bài toán khác nhau Một trong số đó là vấn đề xây dựng các hệ luật ngôn ngữ vàxây dựng các hệ mờ giải các bài toán thực tiễn như các bài toán phân lớp, bài toánhồi quy và các bài toán điều khiển mờ Trong các bài toán này, thực chất hệ luậtngôn ngữ là phương tiện để mô phỏng cách con người giải quyết vấn đề mà quyếtđịnh được dựa trên tri thức ngôn ngữ Hiệu quả của các phương pháp giải chúngđược đánh bằng định lượng, chẳng hạn như dựa trên tỷ lệ phân lớp đúng, sai số bìnhphương trung bình (Mean Squared Error - MSE) Do đó, nội dung thông tin của cáctri thức trong hệ luật ngôn ngữ chưa được xem xét và coi trọng

Một bài toán trích rút tri thức ngôn ngữ từ dữ liệu được Yager đề xuất năm

1982 [3] dựa trên phương pháp luận của lý thuyết tập mờ là bài toán tóm tắt dữ liệubằng ngôn ngữ (linguistic summarization of data) Trong bài toán này, chính nộidung thông tin trong tri thức ngôn ngữ là cốt yếu trong ứng dụng Trên cơ sở đó,ông đã phát triển một số phương pháp trích rút các câu tóm tắt có chứa từ lượng hóa

Trang 15

ngôn ngữ [4-6] Các câu này được coi là các mệnh κđề κmờ diễn đạt tri thức ẩn dấu

trong tập dữ liệu số được xem xét

Hướng nghiên cứu này đã thu hút sự quan tâm đông đảo của các nhà khoa

học, điển hình là nhóm nghiên cứu của Kacprzyk và cộng sự [7-17], Castillo và

cộng sự [18-22], Moyse và cộng sự [23-25], Wilbik và cộng sự [26-37], Donis-Diaz

và cộng sự [38-40],… Một số lĩnh vực ứng dụng cụ thể là tạo các báo cáo, phân tích

kinh doanh hoặc quản lý [9, 13, 35, 41], hỗ trợ trong y tế [31, 33, 34, 42, 43] và một

số lĩnh vực khác [38, 40] Các ứng dụng này đã khẳng định ý nghĩa rất thực tiễn của

việc nghiên cứu, phát triển các phương pháp trích rút các câu tóm tắt bằng ngôn ngữ

tự nhiên

Các nghiên cứu trên quan tâm đến các câu tóm tắt có các dạng cấu trúc tổng

quát như sau:

“Q κy are S” và “Q κF κy are S”

Trong đó: Q (quantifier) là một từ lượng hóa, ví dụ như ‘most’, ‘few’, ‘a

half’; S (summarizer) là kết luận sử dụng ngôn ngữ tự nhiên, ví dụ như “AGE is

‘young’”, “SALARY is ‘high’”; κF (qualifier) là điều kiện lọc, ví dụ như “AGE is

‘old’”, “QUALIFICATION is ‘high’” Tổng quát hơn, thành phần S và F có thể là

một biểu thức logic của các điều kiện trên nhiều thuộc tính khác nhau

Ví dụ, ta có thể có các câu tóm tắt ngôn ngữ trích rút từ cơ sở dữ liệu mà giá

trị của thuộc tính AGE và QUALIFICATION được lưu trữ ở dạng số: (1) “Most

wokers are young”; (2) “A κhalf of workers with high qualification are middle”.

Trong câu thứ nhất, thành phần kết luận S (‘young’) diễn đạt kết luận trên thuộc tính

đang xem xét (AGE), thành phần Q (most) diễn đạt tỷ lệ các đối tượng thỏa kết luận

S trong tập dữ liệu Trong câu thứ hai, thành phần kết luận S (‘middle’) diễn đạt kết luận trên thuộc tính AGE của nhóm con gồm các đối tượng thỏa điều kiện lọc F

(workers with high qualification), từ lượng hóa Q (a κhalf) diễn đạt tỷ lệ các đối

tượng thỏa kết luận S trong nhóm con này.

Các câu tóm tắt như trên được coi là các mệnh κđề κmờ diễn đạt tri thức về các

đối tượng trong thế giới thực được lưu trữ trong cơ sở dữ liệu Do đó, với mỗi câu

tóm tắt bằng ngôn ngữ (Linguistic κSummary - LS), một yêu cầu đặt ra là cần tính

toán một giá trị đánh giá độ đúng đắn, giá trị này còn được coi là giá trị chân lý của

Trang 16

mệnh đề mờ, ký hiệu là T (T [0, 1]) T được coi là độ đo cơ bản cần thiết để đánh giá câu LS Những câu LS với giá trị T lớn sẽ được đưa vào tập tri thức trích rút từ dữ liệu đã cho Trong phương pháp trích rút tóm tắt ngôn ngữ (Linguistic

Summarization κMethod - LSMd) dựa trên lý thuyết tập mờ, hàm thuộc của các tập

mờ biểu diễn ngữ nghĩa cho hạng từ của các thuộc tính và từ lượng hóa là một thànhphần đầu vào quan trọng của LSMd Các hàm thuộc này được sử dụng để tính giá trị

đúng đắn T Do đó, việc xây dựng các tập mờ đóng vai trò nền tảng cho việc tính giá trị độ đo T cho các câu tóm tắt Tức là, nó ảnh hưởng trực tiếp đến kết quả của

các phương pháp trích rút tóm tắt ngôn ngữ

Có một vấn đề nổi lên trong phương pháp luận của các nghiên cứu LSMddựa trên lý thuyết tập mờ chính là sự liên kết giữa các tập mờ và hạng từ ngôn ngữđược gán cho chúng Trong khi người dùng giải nghĩa các câu LS dựa trên ngữnghĩa vốn có của nó trong ngôn ngữ tự nhiên, các từ ngôn ngữ được lựa chọn bởiLSMd lại chỉ được xem là nhãn ngôn ngữ của các tập mờ mà chúng được xây dựngdựa trên trực giác của nhà thiết kế, phát triển phương pháp luận và giải thuật trongLSMd Do đó, với cùng một câu LS, nó có thể mang hai nội dung thông tin Thứnhất là nội dung gán cho một câu LS bởi quá trình tính toán tương tác giữa dữ liệucủa cơ sở dữ liệu và các tập mờ (nội dung này mang tính chủ quan) Thứ hai là nộidung của câu LS trong ngôn ngữ tự nhiên mà người dùng thu nhận khi đọc câu LS

đó (nội dung này mang tính khách quan) Hai nội dung này nhìn chung là khác nhaunếu không có tiêu chuẩn đảm bảo cách xây dựng tập mờ biểu diễn một cách đúngđắn ngữ nghĩa vốn có của các từ ngôn ngữ được gán cho chúng Đây là vấn đề cốt

yếu, còn được gọi là vấn đề hay bài κtoán κnội κdung κthông κtin của các câu LS trích rút

từ cơ sở dữ liệu mà luận án cần giải quyết Tuy nhiên, vấn đề này lại chưa được đặt

ra trong các nghiên cứu trong phạm vi lý thuyết tập mờ

Trong phạm vi nghiên cứu của luận án, tác giả quan tâm giải quyết bài toánnội dung thông tin của các câu LS Đây là vấn đề đầy thách thức và chưa được xemxét trong các nghiên cứu về LSMd đã công bố Tuy nhiên, có các vấn đề tương tựtrong logic và toán học cho phép gợi mở phương pháp tiếp cận giải quyết vấn đề

trên là khái niệm giải nghĩa được (interpretability) của một lý thuyết S vào một lý thuyết T của Tarski và cộng sự trong [44] Khái niệm này được hiểu như sau: giả sử

Trang 17

ta có một vấn đề P cần giải quyết trong S, nhưng gặp nhiều trở ngại Khi đó, ta có thể chuyển đổi P thành P’ trong T để kỳ vọng giải nó dễ hơn Điều này có thể thực hiện được khi và chỉ khi S có thể nhúng đẳng cấu trong T để nghiệm của P chính là nghịch ảnh của nghiệm bài toán P’ trong T.

Ý tưởng trên gợi mở luận án cần nghiên cứu giải quyết một số vấn đề sau:

Thứ κnhất, vấn đề tính giải nghĩa (interpretability) trong bài toán trích rút câu

tóm tắt được đề cập đến trong số rất ít các nghiên cứu [45-47] Hơn nữa, các nghiêncứu này xem xét về vấn đề tính giải nghĩa theo khía cạnh có dễ đọc không, có dễhiểu nội dung không Do đó, các tác giả trong [45-47] coi việc sử dụng mẫu câuchứa từ lượng hóa là đảm bảo tính hiểu được dựa trên độ phức tạp của cấu trúc câu

Do đó, dẫn dến việc nghiên cứu các tiêu chuẩn về độ phức tạp của câu như hạn chế

độ dài của câu, giới hạn về số lượng từ ngôn ngữ là đảm bảo tính dễ đọc Tuy nhiên,như đã phân tích ở trên, tính giải nghĩa cần được xem xét dựa trên việc đảm bảo giảinghĩa một cách đúng đắn nội dung thông tin của các câu LS Tức là, nội dung tínhtoán dựa trên các tập mờ trong một phương pháp LSMd gán cho câu LS phải tươngđồng (bằng nhau trong môi trường mờ) với nội dung mà các câu LS phản ánh khingười dùng giải nghĩa trong ngôn ngữ tự nhiên Tính giải nghĩa theo quan điểm nàychưa được đề cập đến trong các LSMd dựa trên lý thuyết tập mờ đã có

Thứ κhai, còn có những hạn chế không thỏa đáng trong thiết kế các tập mờ và

gán ngữ nghĩa cho chúng bởi các hạng từ ngôn ngữ trong miền hạng từ của cácthuộc tính Các nghiên cứu thường cố định số lượng tập mờ cho mỗi thuộc tínhtrong giới hạn 7 2 và các tập mờ thường tạo thành phân hoạch mạnh trên miền thamchiếu số Một số nghiên cứu còn lựa chọn phân hoạch mờ đều để dễ dàng trong thiết

kế các tập mờ [40, 42, 48] Khi giới hạn số lượng từ ngôn ngữ của các thuộc tính sẽdẫn đến giới hạn tập câu tóm tắt được trích rút từ cơ sở dữ liệu Điều này không phùhợp với thực tiễn sử dụng ngôn ngữ tự nhiên của con người Trong thực tế, tùy từngứng dụng, từng giai đoạn mà con người cần mở rộng tập hạng từ để mô tả tính chất,đặc điểm của thuộc tính Khi mở rộng tập hạng từ, tập tri thức ngôn ngữ cũng được

mở rộng để nhận thức tốt hơn về thế giới thực Do đó, tính mở rộng được của tậphạng từ và tập câu tóm tắt (được coi là tập tri thức ngôn ngữ) là vấn đề cần đượcnghiên cứu trong giải bài toán trích rút tóm tắt bằng ngôn ngữ

Trang 18

Thứ κba, khi khảo sát tập từ ngôn ngữ của mỗi thuộc tính với số lượng lớn

hơn sẽ dẫn đến bùng nổ số lượng câu tóm tắt Tuy nhiên, lúc này lại có thể thu đượcnhững câu tóm tắt diễn đạt các tri thức thú vị, bất ngờ, không tầm thường về tập dữliệu Từ đó đặt ra bài toán tìm kiếm một tập con các câu tóm tắt tối ưu từ không gianlớn chứa tất cả các câu tóm tắt Một số nghiên cứu đã áp dụng mô hình giải thuật ditruyền để giải bài toán tối ưu này [18, 38, 39, 41, 49] Ngoài các phép toán di truyền

cơ bản, một số nghiên cứu cũng đề xuất sử dụng thêm các phép toán mới để tăng

hiệu quả của việc tìm kiếm tập câu tóm tắt tối ưu, ví dụ như phép toán κ cleaning trong [38, 41], phép toán improver trong [38, 39] Tuy nhiên, trong kết quả thực

nghiệm [38, 41], tập câu tóm tắt tối ưu vẫn chứa các câu tóm tắt không có chất

lượng khi mà giá trị đúng đắn T = 0 hoặc T < 0.8 Do đó, vấn đề trích rút một tập

câu tóm tắt tối ưu vẫn cần phải tiếp tục nghiên cứu để có kết quả tốt hơn nữa

Từ những phân tích nêu trên, các nhiệm vụ nghiên cứu của luận án được xácđịnh là cần đề xuất một LSMd sao cho đảm bảo tính giải nghĩa nội dung thông tincủa các câu tóm tắt; phương pháp LSMd cũng cần tương tác được với khả năng mởrộng tập hạng từ của các thuộc tính Hơn nữa, luận án cần đề xuất cải tiến mới cho

mô hình giải thuật di truyền để tìm kiếm tập câu tóm tắt tối ưu từ cơ sở dữ liệu

Cùng với việc xác định nhiệm vụ cần nghiên cứu, tác giả đã tìm hiểu về lýthuyết Đại số gia tử (ĐSGT) do Nguyễn Cát Hồ và W Wechler đề xuất năm 1990

và 1992 [50, 51] Lý thuyết ĐSGT tiếp tục được phát triển trong các nghiên cứu[52-55] để mô hình hóa cấu trúc dựa trên quan hệ thứ tự ngữ nghĩa vốn có của miềnhạng từ của các biến ngôn ngữ Tính giải nghĩa ở mức thấp (mức từ vựng) của các

hệ dựa trên luật mờ trong nghiên cứu [56] đã được giải quyết dựa trên lý thuyếtĐSGT Điều này chứng tỏ lý thuyết ĐSGT có thể cung cấp một phương pháp luận

để thực hiện được các nhiệm vụ nghiên cứu trong luận án đã nêu trên

Từ những nghiên cứu về bài toán trích rút tóm tắt bằng ngôn ngữ và phương

pháp luận ĐSGT, tác giả đã lựa chọn đề tài “Tóm κtắt κdữ κliệu κbằng κngôn κngữ κtheo

cách κtiếp κcận κĐại κsố κgia κtử” làm đề tài nghiên cứu của luận án.

2 Mục tiêu, đối tượng, phạm vi nghiên cứu 2.1 Mục tiêu nghiên cứu

Trang 19

Mục tiêu của luận án là đề xuất cơ sở phương pháp dựa trên lý thuyết ĐSGT

để phát triển một phương pháp trích rút câu tóm tắt bằng ngôn ngữ để giải quyết bài

toán nội dung thông tin của các câu LS Hơn nữa, phương pháp đề xuất còn có khả

năng tương thích với tính mở rộng được của tập hạng từ của các thuộc tính Mục

tiêu nghiên cứu khác là đề xuất cải tiến cho mô hình giải thuật di truyền để trích rút

tập câu LS tối ưu, tức là một tập chứa các câu LS có chất lượng cao và cung cấp tri

thức ngôn ngữ phong phú, đa dạng hơn

Cụ thể, luận án nghiên cứu và thực hiện được các nhiệm vụ sau:

o Chỉ ra được điều kiện đảm bảo giải nghĩa đúng đắn nội dung thông tin của câu tómtắt trích rút bởi một LSMd dựa trên việc đảm bảo tính giải nghĩa được của cấu trúc các tập mờđược xây dựng trong mờ hóa miền giá trị của

các thuộc tính

o Phát triển phương pháp luận và đề xuất một thủ tục xây dựng các tập mờ biểu diễnđúng đắn ngữ nghĩa vốn có của các hạng từ được gán cho chúng Đồng thời, các tập mờ này cũng

mở rộng được tương ứng với tính mở rộng

được của miền ngôn ngữ thuộc tính

o Đề xuất phương pháp LSMd đảm bảo giải được bài toán nội dung thông tin câutóm tắt và tương thích được với tính mở rộng miền ngôn ngữ của các

thuộc tính Tức là, tập tri thức cũng được bổ sung thêm tri thức mới khi tập

từ ngôn ngữ được tăng trưởng nhưng vẫn duy trì ngữ nghĩa của các tri thức

đã được trích rút trước đó

o Phát triển phương pháp và xây dựng được mô hình giải thuật di truyền trích rút tậpcâu tóm tắt tối ưu có cải tiến so với các mô hình giải thuật di truyền đã có

2.2 Đối tượng nghiên cứu

Đối tượng nghiên cứu trong luận án bao gồm:

o Khung nhận thức mờ và khung nhận thức ngôn ngữ Tính giải nghĩa được củakhung nhận thức mờ trong biểu diễn ngữ nghĩa của khung nhận thức ngôn ngữ tương ứng

Trang 20

o Vấn đề nội dung thông tin của các câu tóm tắt ngôn ngữ từ dữ liệu Phương pháptrích rút câu tóm tắt bằng ngôn ngữ sử dụng tập mờ biểu diễn ngữ nghĩa cho hạng từ ngôn ngữ.

o Khung nhận thức ngôn ngữ dựa trên lý thuyết Đại số gia tử và vấn đề sinh

khung nhận thức mờ giải nghĩa được từ khung nhận thức ngôn ngữ đã cho

o Mô hình giải thuật di truyền trích rút tập câu tóm tắt tối ưu từ tập dữ liệu

2.3 Phạm vi nghiên cứu

Luận án nghiên cứu phương pháp mờ dựa trên lý thuyết ĐSGT và lý thuyết

tập mờ để trích rút tóm tắt bằng ngôn ngữ từ cơ sở dữ liệu Trong đó, tập dữ liệu

đầu vào là các cơ sở dữ liệu có các thuộc tính mà giá trị được lưu trữ ở dạng số, mẫu

câu tóm tắt có chứa từ lượng hóa ngôn ngữ

Luận án nghiên cứu về các mô hình của giải thuật di truyền áp dụng trong bài

toán trích rút một tập câu tóm tắt tối ưu từ không gian chứa tất cả các câu tóm tắt có

thể trích rút từ cơ sở dữ liệu

3 Phương pháp nghiên cứu

Các phương pháp nghiên cứu được sử dụng trong luận án gồm có:

o Phương κpháp κtổng κhợp, κphân κtích: được sử dụng khi tìm hiểu kiến thức cơ sở về

trích rút tóm tắt bằng ngôn ngữ, lý thuyết ĐSGT Từ đó tìm được các

hạn chế, tồn tại trong các nghiên cứu đã có, đặt ra các nhiệm vụ mới cầngiải quyết và đưa ra được phương hướng để thực hiện các nhiệm vụ nghiêncứu mới

o Phương κpháp κso κsánh: được sử dụng để tìm ra điểm khác biệt của bài toán trích rút

tóm tắt với các nhánh nghiên cứu khác trong lĩnh vực khai phá dữ liệu; so sánh phương pháp luậnkhi sử dụng lý thuyết tập mờ và lý thuyết ĐSGT trong vấn đề tính giải nghĩa của thiết kế tập mờbiểu diễn ngữ nghĩa các hạng từ trong miền giá trị của biến ngôn ngữ; các mô hình giải thuật ditruyền trong trích rút tóm tắt bằng ngôn ngữ

o Phương κpháp κthiết κkế κvà κchứng κminh: được sử dụng khi đưa ra phương pháp xây

dựng các tập mờ và thuật toán trích rút tóm tắt; phát biểu và chứng minh các định lý về đảm bảotính giải nghĩa của nội dung thông tin câu tóm tắt và tính mở rộng được của phương pháp đềxuất

Trang 21

o Phương κpháp κthực κnghiệm: thực hiện thực nghiệm để chứng tỏ tính khả thi và ưu

điểm của phương pháp đề xuất dựa trên lý thuyết ĐSGT; thực hiện cải tiến mô hình giải thuật ditruyền để so sánh với mô hình đã có trên cùng một tập dữ liệu đầu vào

4 Các đóng góp chính của luận án

Sau những nỗ lực nghiên cứu, luận án có những đóng góp chính như sau:

• Luận án đã chỉ ra điều kiện đảm bảo tính giải nghĩa của biểu diễn tập mờ cho miềnhạng từ của các thuộc tính dựa trên khái niệm giải nghĩa trong logic và toán học của Tarski Từ

đó, đưa ra tiêu chuẩn ràng buộc đối với tập các tập mờ cần xây dựng để biểu diễn ngữ nghĩa củacác từ ngôn ngữ gán cho chúng Một thủ tục HA-TFS-MG (Hedge Algebra – Trapezoid FuzzySet - Multiple Granularity) được đề xuất để sản sinh các tập mờ hình thang từ bộ tham số địnhlượng của một cấu trúc ĐSGT của thuộc tính Nó đảm bảo các tập mờ này trong cấu trúc đa thểđược thủ tục sinh ra là ảnh đẳng cấu ngữ nghĩa với các từ trong miền hạng từ của thuộc tính Khi

đó, một thuật toán trích rút câu tóm tắt tính toán với các hàm thuộc của hình thang này sẽ đượccoi như tương tác trực tiếp với ngữ nghĩa định tính của từ ngôn ngữ

• Luận án đã đề xuất một phương pháp trích rút câu tóm tắt (LSMd) tương tác trựctiếp, hiệu quả với ngữ nghĩa định tính của các hạng từ trong câu tóm tắt LSMd được đề xuất cókhả năng tương tác được với tính mở rộng các khung nhận thức ngôn ngữ của các thuộc tính để

mở rộng tập câu tóm tắt bằng bổ sung thêm các câu tóm tắt mới Tính khả thi và những ưu điểmcủa phương pháp đã đề xuất được chứng tỏ qua các kết quả thực nghiệm

• Luận án đề xuất sử dụng chiến lược tham lam trong hàm Random-Greedy-LS đểsinh câu tóm tắt hướng đến tăng độ đo tốt và độ đa dạng của tập câu tóm tắt Đồng thời, luận án

đã xây dựng mô hình giải thuật di truyền Greedy-GA có sử dụng hàm Random-Greedy-LS để tìmkiếm một tập câu tóm tắt tối ưu từ một cơ sở dữ liệu

5 Bố cục luận án

Luận án gồm phần mở đầu, 04 chương và phần kết luận:

Trang 22

Phần mở đầu: Trình bày về tính cấp thiết của đề tài và động lực nghiên cứu;mục tiêu, đối tượng, phạm vi nghiên cứu; phương pháp nghiên cứu; các đóng gópchính của luận án; bố cục luận án.

Chương 1: Một số kiến thức cơ sở

Trong chương này, luận án trình bày các kiến thức cơ sở liên quan đến cácbài toán cần nghiên cứu và phương pháp giải quyết các nhiệm vụ nghiên cứu Cụthể, các nội dung gồm có một số kiến thức cơ bản về tập mờ, khung nhận thức ngônngữ dựa trên tập mờ, tổng quan về trích rút tóm tắt bằng ngôn ngữ và vấn đề tríchrút tập câu tóm tắt tối ưu và tổng quan về lý thuyết ĐSGT Các nội dung trongchương 1 là cơ sở lý thuyết được sử dụng để đưa ra một số đề xuất mới giải quyếtcác nhiệm vụ nghiên cứu đã đặt ra

Chương 2: Vấn đề nội dung thông tin câu tóm tắt và biểu diễn tập mờ

của miền ngôn ngữ thuộc tính

Phần đầu chương 2, luận án trình bày và phân tích bài toán nội dung thôngtin của các câu tóm tắt được sinh ra bởi các thuật toán tính toán trên các tập mờ Ýtưởng giải bài toán này được gợi mở từ khái niệm giải nghĩa trong logic của Tarski.Phần tiếp theo, luận án trình bày phương pháp luận và đề xuất một thủ tục xây dựngcác tập mờ từ bộ tham số định lượng của ĐSGT dùng để mờ hóa miền tham chiếucủa các thuộc tính Phần cuối chương, luận án phát biểu và chứng minh các định lý

để chứng tỏ rằng các tập mờ được xây dựng từ thủ tục đề xuất đảm bảo biểu diễnđúng đắn ngữ nghĩa của các hạng từ trong miền ngôn ngữ của thuộc tính Đồng thời,các tập mờ này cũng có khả năng mở rộng được như tính mở rộng được của miềnngôn ngữ của thuộc tính

Chương 3: Phương pháp trích rút câu tóm tắt ngôn ngữ dựa trên Đại số

gia tử

Phần đầu chương 3, luận án trình bày đề xuất một phương pháp trích rút câutóm tắt ngôn ngữ Mls tính toán trên các tập mờ được sinh bởi thủ tục đã đề xuấttrong chương 2 Nội dung tiếp theo là một chuỗi các thực nghiệm với cơ sở dữ liệu

Bank κMarketing trên kho dữ liệu UCI để chứng tỏ tính hiệu quả và ưu điểm của

phương pháp Mls đã đề xuất Mỗi thực nghiệm cụ thể gồm có các kịch bản, kết quả

và phân tích ý nghĩa của kết quả nhận được

Trang 23

Chương 4: Trích rút tập câu tóm tắt tối ưu sử dụng giải thuật di truyền

kết hợp chiến lược tham lam

Phần đầu chương 4, luận án trình bày về mối liên hệ giữa bài toán trích rútluật kết hợp ngôn ngữ và trích rút tóm tắt ngôn ngữ; bài toán trích rút tập con câutóm tắt tối ưu Nội dung tiếp theo là phân tích các mô hình giải thuật di truyền đã cólàm cơ sở cho đề xuất cải tiến cho mô hình giải thuật di truyền mới giải bài toántrích rút tập câu tóm tắt tối ưu Các đề xuất mới trong chương này gồm có hàmRandom-Greedy-LS dựa trên chiến lược tham lam để sản sinh một câu tóm tắt tốt

và hướng đến tính đa dạng của tập câu tóm tắt tối ưu và mô hình giải thuật di truyềnGreedy-GA sử dụng hàm Random-Greedy-LS Phần cuối chương là thực nghiệm sosánh mô hình Greedy-GA đề xuất mới so với mô hình Hybrid-GA để chứng tỏ ưuđiểm của các đề xuất

Phần kết luận và hướng phát triển: Trình bày một số kết luận về ý nghĩa củanhững kết quả đã đạt được của luận án và một số hướng nghiên cứu tiếp theo

Trang 24

CHƯƠNG 1 MỘT SỐ KIẾN THỨC CƠ SỞ

Trong chương này, luận án trình bày một số kiến thức cơ sở trong lý thuyết

tập mờ, bài toán trích rút tóm tắt bằng ngôn ngữ dựa trên lý thuyết tập mờ và bài

toán tìm kiếm một tập câu tóm tắt tối ưu từ cở sở dữ liệu Phần cuối chương, luận án

trình bày những kiến thức cơ bản trong lý thuyết ĐSGT cơ sở và ĐSGT mở rộng

Những kiến thức cơ sở trong chương 1 sẽ được sử dụng khi trình bày các kết quả

nghiên cứu trong các chương tiếp theo

1.1 Một số kiến thức cơ bản về tập mờ

Lý thuyết tập mờ được Zadeh đề xuất năm 1965 trong [57] với ý tưởng làm

cho máy tính có thể hiểu và xử lý được những tri thức diễn đạt bằng ngôn ngữ tự

nhiên Khái niệm tập mờ là một mở rộng của khái niệm tập cổ điển hay tập rõ và

mỗi tập rõ là một trường hợp riêng của khái niệm tập mờ Tập cổ điển chỉ xem xét

một phần tử có thuộc hay không thuộc vào nó, với tập mờ thì bất kỳ phần tử nào

trong vũ trụ đều có thể thuộc về nó với mức độ thuộc được đo bởi một giá trị trong

đoạn [0, 1]

1.1.1 Định nghĩa tập mờ

Cho U là một tập hợp các điểm (đối tượng), một tập con mờ X trên miền

tham chiếu U được định nghĩa như sau:

Định nghĩa 1.1 [57-59]: Một tập mờ X trên U là một tập mà mỗi phần tử của

nó là một cặp các giá trị (x, κX (x)), trong đó x κU và X là ánh xạ:

Ánh xạ X được gọi là hàm thuộc (membership function) của tập mờ X Tập

U được gọi là tập cơ sở của tập mờ X Giá trị X (x) biểu thị mức độ thuộc của phần tử x vào tập mờ X Nếu giá trị X (x) càng gần 1 thì mức độ thuộc của x vào X càng cao Khi X (x) chỉ nhận giá trị 0 hoặc 1 thì tập X là tập con rõ của tập U Do đó, tập mờ là khái niệm mở rộng của tập rõ.

Khi xây dựng các tập mờ, giá trị hàm thuộc biến thiên trong khoảng [0,1]

Trong các ứng dụng lý thuyết tập mờ thường sử dụng các tập mờ có hình dạng phổ

biến như trong Hình 1.1 Các tập mờ này được gọi là các tập mờ chuẩn vì có giá trị

Trang 25

hàm thuộc lớn nhất bằng 1 Tập mờ tam giác và tập mờ hình thang được sử dụng

nhiều nhất do tính đơn giản và dễ hiểu với người dùng

(a) Tập mờ tam giác (b) Tập mờ hình thang (c) Tập mờ hình chuông

Hình 1.1: Ba kiểu tập mờ phổ biến

1.1.2 Biến ngôn ngữ

Theo Zadeh [57] “biến ngôn ngữ là biến mà các giá trị của nó là các từ hoặccâu trong ngôn ngữ tự nhiên hoặc ngôn ngữ nhân tạo” Ví dụ khi nhận xét về lươngcủa nhân viên tập sự, chúng ta có thể xem đây là biến ngôn ngữ có tên gọi LƯƠNG

và nhận các giá trị ngôn ngữ như ‘rất κthấp’, ‘thấp’, ‘trung κbình’, ‘cao’, ‘rất κcao’.

Với mỗi giá trị ngôn ngữ này, gán cho nó một hàm thuộc tương ứng xác định mộttập mờ trên miền giá trị số [0, 10] (đơn vị triệu đồng) của thuộc tính LƯƠNG (xemHình 1.2)

Rất thấp Thấp Trung bình Cao Rất cao 1

Hình 1.2: Ví dụ năm tập mờ biểu diễn ngữ nghĩa các giá trị ngôn ngữ của biến

LƯƠNG trong miền tham chiếu [0, 10] (đơn vị: triệu đồng)

Một cách hình thức, chúng ta có định nghĩa của biến ngôn ngữ như sau:

Định nghĩa 1.2 [58, 59]: Biến ngôn ngữ là một bộ năm thành phần ( , T( ),

U, R, M ), trong đó là tên biến, T( ) là tập các giá trị ngôn ngữ của biến , U là không gian tham chiếu, mỗi giá trị ngôn ngữ xem như là một tập mờ trên U, R là

Trang 26

một qui tắc cú pháp sinh các giá trị ngôn ngữ cho tập T( ), M là qui tắc ngữ nghĩa gán mỗi giá trị ngôn ngữ trong T( ) tương ứng với một tập mờ trên U.

1.1.3 Phân hoạch mờ

Phân hoạch mờ là một khái niệm được sử dụng để mờ hóa các miền xác địnhcủa các biến ngôn ngữ Chúng ta có định nghĩa phân hoạch mờ như sau

Định nghĩa 1.3 [60]: Cho m điểm cố định p1 < p2 < < pm thuộc tập U = [a,

b] R là không gian tham chiếu của biến cơ sở u của biến ngôn ngữ Khi đó, một tập

T gồm m tập mờ X1, X2, , X m định nghĩa trên U (với hàm thuộc tương ứng là

1) X k

( pk

Nếu phân hoạch mờ thỏa mãn thêm điều kiện 7), 8), 9) dưới đây thì được gọi

là phân hoạch đều

7) Với k κ κ κm thì h k = p k+1 - p k là hằng số

Trang 27

một thể hạt gọi là phân hoạch mờ đơn thể hạt (single κgranularity) như trong Hình

Trang 28

1.3-(a), một phân hoạch mờ gồm nhiều thể hạt gọi là phân hoạch mờ đa thể hạt

(multi κgranularity) như trong Hình 1.3-(b).

Hình 1.3 Ví dụ về phân hoạch mờ: (a) dạng đơn thể hạt; (b) dạng đa thể hạt

1.2 Khung nhận thức dựa trên lý thuyết tập mờ

1.2.1 Định nghĩa khung nhận thức

Theo Mencar và Fanelli trong [61], mỗi khung nhận thức (Frame of

Cognition - FoC) F của một biến ngôn ngữ A là tập hữu hạn các tập mờ có thứ tự trên miền tham chiếu của biến A và chúng được gán nhãn ngôn ngữ bởi các hạng từ trong miền hạng từ của thuộc tính A Trong mô hình lý thuyết tập mờ, mỗi FoC F

gán nhãn các tập mờ là các hạng từ ngôn ngữ mà con người có thể sử dụng để mô tảcác tính chất định tính của các thuộc tính của các đối tượng trong tự nhiên Do đó,việc gán nhãn ngôn ngữ cho các tập mờ cần phải thể hiện ngữ nghĩa của các nhãnngôn ngữ này

Từ đó, các tác giả trong [61] đưa ra một định nghĩa đầy đủ cho FoC như sau:

Định nghĩa 1.4 [61]: Khung nhận thức FoC là một cấu trúc gồm 5 thành

phần = 〈 , , ≤, ℒ, 〉 Trong đó:

o = { 1 , 2 , … , }, với là các tập mờ có thứ tự trên miền tham chiếu U của thuộc tính A.

o ≤ là quan hệ thứ tự giữa các tập mờ sao cho ≤ ⟹ ≤

o ℒ là tập các nhãn ngôn ngữ trong miền hạng từ của biến ngôn ngữ hoặc thuộc tính A có thứ tự tương ứng với các tập mờ trong = { 1 , 2 , … , }.

Trang 29

Quan hệ thứ tự giữa hai tập mờ ≤ phản ánh thứ tự giá trị hàm thuộc của chúng như trong khẳng định sau:

∀ , ∈ : ≤ ⟹ ∃ ∈ , ∀ ∈ :

( ≤ ⟹ ( ) ≥ ( )) ∧ ( ≥ ⟹ ( ) ≤ ( ))

Các hạng từ ngôn ngữ trong mỗi miền hạng từ của các thuộc tính có thứ tựdựa trên ngữ nghĩa vốn có của nó Ví dụ, trong nghiên cứu trích rút tóm tắt về bệnhnhân [42], các tác giả lựa chọn năm hạng từ trong miền hạng từ của thuộc tính

“heart rate” với thứ tự ngữ nghĩa tăng dần là ‘very κlow’, ‘low’, ‘medium’, ‘high’, và

‘very κhigh’ Khi đó các tập mờ biểu diễn ngữ nghĩa cho năm hạng từ này cũng có

thứ tự tăng dần như trong Hình 1.4-(a) Tương tự, năm từ lượng hóa có thứ tự ngữ

nghĩa tăng dần là ‘very κfew’, ‘few’, ‘half’, ‘most’, và ‘almost κall’ Các tập mờ biểu

diễn ngữ nghĩa cho các từ lượng hóa như trong Hình 1.4-(b) Trong ví dụ này, cáctập mờ hình thang tạo thành phân hoạch mạnh của miền tham chiếu số của thuộctính tương ứng

Hình 1.4: Ví dụ về các tập mờ trên miền tham chiếu số

1.2.2 Các ràng buộc về tính giải nghĩa được

Trong định nghĩa về khung nhận thức sử dụng tập mờ chỉ có một điều kiệnràng buộc về thứ tự của các tập mờ và thứ tự ngữ nghĩa của các hạng từ Tuy nhiêncác hạng từ lúc này chỉ được coi là nhãn bằng ngôn ngữ của các tập mờ Nếu việc

gán nhãn là các chuỗi ký tự không có ý nghĩa như A11, κA12, … sẽ gây khó hiểu cho

người sử dụng Nếu việc gán nhãn là từ có nghĩa nhưng không đảm bảo một số quan

hệ, tính chất ngữ nghĩa có thể gây nhầm lẫn khi người sử dụng giải nghĩa của cáchạng từ Ví dụ trong Hình 1.5 gồm ba tập mờ của một khung nhận thức, ngữ nghĩađược gán cho tập mờ có thứ tự ở giữa và tập mờ bên phải không phản ánh đúng về

ngữ nghĩa của hai hạng từ ‘high’ và ‘medium’ Quan hệ thứ tự ngữ nghĩa vốn có của

Trang 30

‘high’ và ‘medium’ trong ngôn ngữ tự nhiên có thứ tự ngữ nghĩa là ‘medium’ ≤

‘high’, tuy nhiên chúng được gán cho hai tập mờ có thứ tự ngược lại.

Hình 1.5: Khung nhận thức ngôn ngữ gồm 3 tập mờ và gán nhãn ngữ nghĩa

các hạng từ ‘very κfew’, ‘few’, ‘a κhalf’, ‘most’, ‘almost κall’ thì ràng buộc về thứ tự

ngữ nghĩa được đảm bảo Số lượng tập mờ là năm nên nó thỏa ràng buộc trongkhoảng 7 2 Vị trí giữa các tập mờ đảm bảo có sự phân biệt và chúng bao phủ toàn

bộ miền tham chiếu [0, 1] (bao gồm cả hai đầu mút 0 và 1) Các tập mờ thỏa điềukiện 6, 7, 8, 9 trong Định nghĩa 1.3 nên chúng tạo thành một phân hoạch mạnh đềutrên miền tham chiếu [0, 1]

Hình 1.6: Hai ví dụ về khung nhận thức được thiết kế có tính giải nghĩa tốt

Trang 31

1.3 Tổng quan về trích rút tóm tắt bằng ngôn ngữ dựa trên lý thuyết tập mờ

1.3.1 Bài toán trích rút tóm tắt bằng ngôn ngữ là một nhánh trong lĩnh vực khai phá dữ liệu

Nhờ kết quả của cuộc cách mạng kỹ thuật số, sự phát triển của phần cứng vàphần mềm, chúng ta dễ dàng thực hiện số hóa dữ liệu, thu thập và lưu trữ đượcnhững kho dữ liệu khổng lồ Các kho dữ liệu này ẩn chứa rất nhiều thông tin, trithức hữu ích cho con người Do đó, ngày càng có nhiều nhà nghiên cứu phát triểncác phương pháp phân tích dữ liệu tự động nhằm trích rút tri thức hữu ích cho conngười sử dụng để định hướng hành động thực tế

Mitra và cộng sự trong [1] đã đưa ra khái niệm về thuật ngữ khai phá tri thức

từ cơ sở dữ liệu (Knowledge Discovery in Database - KDD) là toàn bộ quá trìnhchuyển hóa từ dữ liệu ở mức thô thành tri thức ở mức cao Các tác giả đã chỉ ra quátrình KDD (xem Hình 1.7) gồm các bước chọn lọc dữ liệu, tiền xử lý dữ liệu,chuyển đổi dữ liệu, khai phá dữ liệu, đánh giá và diễn giải Trong đó, khai phá dữliệu là một bước quan trọng nhất, quyết định các bước khác trong quá trình KDD

Khai phá dữ liệu là lĩnh vực bao gồm nhiều hướng nghiên cứu khác nhau màmục tiêu chung là để đưa ra dự đoán kết quả hoặc phát hiện được các mối quan hệ

có nghĩa trong tập dữ liệu Khai phá dữ liệu sử dụng các công cụ tự động mà trong

đó chứa các thuật toán thông minh để phát hiện các mẫu bị ẩn, liên kết, sự bấtthường hoặc một cấu trúc từ một lượng lớn dữ liệu được lưu trong các kho dữ liệu

Dữ

liệu

thô

Dữ liệu được Dữ liệu đã

Tri thức

Dữ liệu đã chuyển đổi

Trang 32

network), tính toán mềm (soft computing) Trong đó, phương pháp tính toán mềm

Trang 33

dựa trên lý thuyết tập mờ là một hướng nghiên cứu đã được sử dụng và đạt được

nhiều kết quả ý nghĩa trong giải các bài toán thực tế [1, 2] Những kết quả nghiên

cứu đó cho thấy tính hiệu quả trong thực tế khi áp dụng lý thuyết tập mờ vào giải

các bài toán khai phá dữ liệu

Một nhánh trong khai phá dữ liệu có nhiều ý nghĩa ứng dụng trong thực tế là

trích rút tri thức diễn đạt bằng ngôn ngữ tự nhiên từ kho dữ liệu Một bài toán điển

hình trong nhánh nghiên cứu này là bài toán trích rút tóm tắt bằng ngôn ngữ từ dữ

liệu (linguistic κsummarization κof κdata) Bài toán này được đưa ra bởi Yager năm

1982 [3] khi cần mô tả cho một tập các giá trị số bằng các câu trong ngôn ngữ tự

nhiên Sau đó, hướng nghiên cứu này thu hút nhiều sự quan tâm của các nhóm

nghiên cứu khác để phát triển cả lý thuyết và ứng dụng như các nhóm Kacprzyk và

cộng sự [7-13], Castillo và cộng sự [18-22], Moyse và cộng sự [23-25], Wilbik và

cộng sự [26-34], Donis-Diaz và cộng sự [38, 39], … Kacprzyk và cộng sự [9, 10,

12-15, 17] đã nghiên cứu trích rút các câu tóm tắt từ một số cơ sở dữ liệu và coi

trích rút tóm tắt bằng ngôn ngữ như một công cụ để khai phá dữ liệu dựa trên lý

thuyết tập mờ, như là một nhánh trong nghiên cứu tính toán với từ [62] Các tác giả

Wilbik [27, 31, 32, 35-37], R Castillo Ortega và cộng sự [18, 20]; R M

Catillo-Ortega và cộng sự [22]; N Marín và D Sánchez [63]; G Moyse và cộng sự [23,

24]; R J Almeida và cộng sự [42] đã thực hiện các nghiên cứu trích rút tóm tắt

bằng ngôn ngữ từ các dữ liệu dạng chuỗi thời gian và ứng dụng trong một số vấn đề

của y tế, quản lý Một số nghiên cứu gần đây về ứng dụng của trích rút tóm tắt bằng

ngôn ngữ vẫn chứng tỏ khả năng ứng dụng lớn và mang lại hiệu quả cao trong các

vấn đề thực tế đặt ra Gilsing và cộng sự trong [64] sử dụng các câu tóm tắt để đánh

giá mô hình kinh doanh Bartczak và cộng sự trong [65] trích rút các câu mô tả mối

quan hệ giữa các khách hàng từ cơ sở dữ liệu dạng đồ thị Duraj và cộng sự trong

[66] sử dụng các câu tóm tắt với các từ lượng hóa ‘very κfew’, ‘few’ để xác định các thông tin

ngoại lai từ cơ sở dữ liệu Jain và cộng sự trong [48] trích rút câu tóm tắt từ dữ liệu thu được bởisensor tại gia đình để sử dụng cho việc hỗ trợ, chăm sóc người già Hai ứng dụng có hiệu quả tốttrong lĩnh vực y tế là phân tích việc tuân thủ quy trình lâm sàng kiểm soát lượng glucose [34],theo dõi luồng nhịp tim của bệnh nhân qua dữ liệu thu được từ thiết bị đeo trên tay bệnh nhân[43] Từ những

Trang 34

kết quả nghiên cứu đã chứng tỏ trích rút tóm tắt bằng ngôn ngữ là một bài toán

trong khai phá tri thức được sử dụng trong các hệ hỗ trợ ra quyết định hoặc các hệ

thống thông minh khác

Trong luận án này, tác giả tập trung nghiên cứu về bài toán trích rút câu tóm

tắt bằng ngôn ngữ như sau:

• Dữ κliệu κvào κcủa κbài κtoán: tập dữ liệu đầu vào là các bản ghi trong cơ sở dữ liệu quan

hệ, các trường có thể là giá trị phi số (như giới tính, nghề nghiệp,

…) hoặc giá trị số (như lương, tuổi, …) Kiểu dữ liệu này dễ dàng được thu

thập, lưu trữ, đồng thời đây cũng là dạng dữ liệu phổ biến được lưu trữ trong

các bài toán quản lý thực tế hàng ngày Mọi đối tượng người sử dụng như

nhà quản lý, doanh nhân, nhân viên y tế… luôn có nhu cầu trích rút các tri

thức ẩn dấu trong các kho dữ liệu này để sử dụng điều chỉnh hành vi, hỗ trợ

ra quyết định hợp lý

• Đầu κra κcủa κbài κtoán: các câu tóm tắt diễn đạt bằng ngôn ngữ tự nhiên (linguistic summaries - LS) thể hiện các tri thức trích rút được từ tập dữ liệu Các câu tóm tắt này được coi

là các mệnh κđề κmờ mô tả ngắn ngọn, súc tích về nội dung của tập dữ liệu Vì ngôn ngữ tự nhiên là

phương tiện giao tiếp hàng ngày của con người, nên dạng tri thức diễn đạt bằng ngôn ngữ tựnhiên này dễ dàng được hiểu và sử dụng trong thực tế cho mọi đối tượng người dùng Hơn nữa,dạng tri thức này cũng dễ dàng được phát thanh tự động thông qua các công cụ đọc văn bản tựđộng Trong thực tế, cách biểu diễn kết quả bằng các câu trong ngôn ngữ tự nhiên sẽ giúp choviệc đưa ra thông tin, tri thức

nhanh chóng và dễ dàng cho người dùng tiếp nhận

Để giải bài toán trích rút câu tóm tắt bằng ngôn ngữ, trước tiên cần xác định

cấu trúc cú pháp của câu tóm tắt Một ví dụ về mẫu câu tóm tắt là mệnh đề có chứa

từ lượng hóa như “Hầu κhết công nhân trẻ có mức lương khá κthấp” được trích rút từ

cơ sở dữ liệu về các công nhân Các trường thông tin tuổi và lương của công nhân

được lưu trữ ở dạng số trong cơ sở dữ liệu (đầu vào của bài toán) Các hạng từ ‘trẻ’,

‘khá κthấp’ được dùng trong câu tóm tắt (đầu ra của bài toán) để mô tả về tuổi và

lương của công nhân, từ lượng hóa ‘hầu κhết’ thể hiện một định lượng trong kết luận

về mối quan hệ giữa tuổi và lương của các công nhân.

Trang 35

Lý thuyết tập mờ đã cung cấp một phương pháp luận để phát triển cácphương pháp trích rút câu tóm tắt bằng ngôn ngữ tự nhiên (linguistic summarizationMethod - LSMd) từ các tập dữ liệu số Trong các phương pháp LSMd dựa trên lýthuyết tập mờ, miền tham chiếu số của các thuộc tính trong cơ sở dữ liệu được phânhoạch mềm bởi các tập mờ Mỗi tập mờ trong phân hoạch được gán nhãn là một từngôn ngữ trong miền ngôn ngữ của thuộc tính Các hàm thuộc của các tập mờ vàcác giá trị thuộc tính trong cơ sở dữ liệu được sử dụng để tính toán độ đo đánh giáchất lượng của các câu tóm tắt Dựa trên các độ đo này, một tập các câu tóm tắt cóchất lượng tốt được coi là tập tri thức ngôn ngữ trích rút từ cơ sở dữ liệu đã cho.

1.3.2 Dạng câu tóm tắt có từ lượng hóa ngôn ngữ và ứng dụng

Trong bài toán trích rút câu tóm tắt bằng ngôn ngữ từ tập dữ liệu, ta cần xácđịnh trước cấu trúc của câu tóm tắt, từ đó xây dựng thuật toán để quét tập dữ liệu vàđưa ra các câu tóm tắt theo cấu trúc đã chọn Trong phần này, luận án trình bày vềcấu trúc câu tóm tắt chứa từ lượng hóa được trích rút từ cơ sở dữ liệu quan hệ theohướng nghiên cứu được đề xuất bởi Yager [3, 5, 6] Mẫu câu này được sử dụngtrong nhiều nghiên cứu khác như nhóm Kacpryzk và cộng sự [9, 11, 12], nhómWilbik và cộng sự [32, 67], và một số nghiên cứu khác [13, 38-40] [41]… Có mộtvài dạng cấu trúc khác cũng được sử dụng như dạng luật IF-THEN [68, 69], dạngcâu mô tả xu hướng cho chuỗi thời gian [16, 49, 70], dạng câu có thêm định lượngthời gian [42], …

1.3.2.1 κCấu κtrúc κcâu κtóm κtắt κcó κtừ κlượng κhóa κngôn κngữ

Cho Y = {y 1 , κy 2 , κ…, κy n} là tập các đối tượng (bản ghi) trong cơ sở dữ liệu nhưtập các khách hàng của một ngân hàng; A = {A1 , κA2, …, A m} là tập các thuộc tính

cần xem xét của các đối tượng trong tập Y như tuổi, trình độ học vấn, tình trạng hôn nhân, … Ký hiệu A i (y j ) là giá trị thuộc tính A i của đối tượng y j Cơ sở dữ liệu đượccho bởi tập D = {{A1 (y 1 ), A 2 (y 1 ), …, A m (y 1 )}, …, {A 1 (y n ), A 2 (y n ), …, A m (y n)}}

Mỗi câu tóm tắt là một câu trong ngôn ngữ tự nhiên theo cấu trúc cú pháptổng quát của các câu chứa từ lượng hóa như sau:

Q κy are S

Q κF κy are S

Trong đó:

Trang 36

o Kết κluận (summarizer) S là một đánh giá diễn đạt bằng một từ trong miền hạng từ

(word-domain) của biến ngôn ngữ tương ứng với một thuộc tính Ví dụ: TUỔI = ‘trẻ’, LƯƠNG =

‘rất κcao’.

o Từ κlượng κhóa (quantifier) Q là một từ biểu diễn tỷ lệ các bản ghi thỏa kết luận S

trong toàn bộ cơ sở dữ liệu D như trong dạng (1.2) hoặc trong nhóm

mờ F như trong dạng (1.3) Ví dụ: ‘rất κít’, κ‘một κnửa’, κ‘hầu κhết’

o Giá κtrị κđúng κđắn κT (validity hoặc truth) là giá trị trong khoảng [0, 1] đánh

giá mức độ đúng đắn của câu tóm tắt Giá trị T được coi là giá trị chân lý

của mệnh đề mờ có từ lượng hóa theo cấu trúc trong (1.2) và (1.3)

o Điều κkiện κlọc κF (qualifier) là tùy chọn để xác định một nhóm con các đối tượng

trong tập Y được xem xét trong câu tóm tắt Một điều kiện lọc mờ có dạng như TUỔI = κ‘trẻ’ tức

là chỉ xét các đối tượng trong nhóm tuổi ‘trẻ’.

Câu tóm tắt (1.4) trích rút từ cơ sở dữ liệu bán hàng [15] là ví dụ cho mẫu

câu theo cấu trúc dạng (1.2), câu tóm tắt (1.5) trích rút từ cơ sở dữ liệu về các bệnh

viện tại Thổ Nhĩ Kỳ [41] là ví dụ cho mẫu câu theo cấu trúc dạng (1.3) Thành phần

“y are S” và “F κy are S” được xem như là thân của câu tóm tắt thể hiện các kết luận

bằng ngôn ngữ về tập đối tượng Y hoặc một nhóm đối tượng thỏa điều kiện F được

xem xét trong cơ sở dữ liệu Thành phần Q cho biết tỷ lệ các bản ghi thỏa phần thân

Các câu theo cấu trúc dạng (1.2), (1.3) được xem là các mệnh đề mờ có từ

lượng hóa Công thức tính giá trị chân lý của các mệnh đề này là công thức được đề

xuất bởi Zadeh [71] cho mệnh đề có từ lượng hóa như công thức (1.6) và (1.7)

Trong đó, Q , κF, κS là các hàm thuộc lần lượt biểu diễn ngữ nghĩa của các hạng từ

Q và hạng từ trong thành phần F, S; là phép giao mờ, thông thường phép giao mờ

được chọn là lấy giá trị nhỏ nhất, tức là ( ) ∧ ( ) = ( ( ), ( )).

n

κ i=1

Trang 37

Giá trị đúng đắn T là độ đo cơ bản được dùng để đánh giá chất lượng, độ tin

cậy của câu tóm tắt Các câu tóm tắt theo cấu trúc như (1.2) và (1.3) là các mệnh đề

mờ có từ lượng hóa được trích rút từ dữ liệu số mà trong đó ngữ nghĩa của các hạng

từ trong thành phần F, S và cả từ lượng hóa trong câu được biểu diễn bởi các tập

mờ Do đó, một số nghiên cứu đặt ra ngưỡng cho giá trị đúng đắn T để chỉ chọn lọc các câu tóm tắt có giá trị đúng đắn T lớn hơn ngưỡng cho trước như = 0.85 [39]

hoặc = 0.8 [18]

Tuy nhiên, độ đo giá trị đúng đắn T chưa phản ánh đầy đủ mọi khía cạnh về

chất lượng của một câu tóm tắt Các tác giả trong [12], [35] đã đề xuất một số độ đokhác để đánh giá trên các tiêu chí khác nhau về chất lượng của câu tóm tắt Một số

độ đo đã được đề xuất là độ đo tính mờ (imprecision), độ đo mức độ bao phủ(covering) đối với cơ sở dữ liệu, độ đo mức độ tập trung (focus), độ đo sự phù hợp(appropriateness) và độ dài của câu tóm tắt (length of summary) Công thức tính các

độ đo này cũng sử dụng các giá trị A i (y j) trong cơ sở dữ liệu D và các hàm thuộc củacác tập mờ biểu diễn ngữ nghĩa cho các hạng từ trong câu

Do vậy, khi cho trước một cơ sở dữ liệu D tức là xác định một tập các đốitượng được xem xét trong thực tế, cách thiết kế các tập mờ biểu diễn ngữ nghĩa chocác hạng từ trong miền hạng từ của các thuộc tính đóng vai trò quyết định đến kết

quả tính giá trị đúng đắn T, cũng như các độ đo đánh giá chất lượng khác Nếu sử

dụng các độ đo đánh giá này để lựa chọn các câu tóm tắt chất lượng thì việc thiết kếcác tập mờ này sẽ có vai trò quyết định đến tập các câu tóm tắt được chọn làm đầu

ra của thuật toán trích rút tóm tắt bằng ngôn ngữ

1.3.2.2 κVí κdụ κđơn κgiản

Giả sử bảng dữ liệu về 10 công việc được xem xét trên dựa trên hai thuộctính KHOẢNG CÁCH (KC) (km) và LƯƠNG (triệu đồng) trong Bảng 1.1 Thựchiện phân hoạch mờ miền tham chiếu số [0, 20] của biến KC bằng năm tập mờ biểu

diễn ngữ nghĩa lần lượt cho các từ ngôn ngữ trong Dom(KC) = {‘rất κgần’, ‘gần’,

Trang 38

‘trung κbình’, ‘xa’, ‘rất κxa’} như trong Hình 1.8 Tương tự với biến LƯƠNG, từ

lượng hóa tương đối, miền tham chiếu cũng được phân hoạch mờ bởi năm tập mờ

hình thang như trong Hình 1.8

Bảng 1.1: Dữ liệu ví dụ về 10 công việc

Chúng ta cần khảo sát để thống kê về số lượng công việc theo mức lương

khác nhau bằng các câu tóm tắt chứa từ định lượng dạng “Q công việc có mức

lương S” Trong đó, Q được chọn trong tập gồm năm từ lượng hóa Dom(Q) = {‘rất

ít’, ‘ít’, ‘một κnửa’, ‘nhiều’, ‘hầu κhết’}, S là một từ ngôn ngữ được chọn trong tập

Dom(LƯƠNG) = {‘rất κthấp’, ‘thấp’, ‘trung κbình’ (‘tb’), ‘cao’, ‘rất κcao’} Bảng 1.2

là kết quả độ thuộc của lương các công việc vào tập mờ biểu diễn ngữ nghĩa cho các

hạng từ diễn đạt các mức lương khác nhau trong Dom(LƯƠNG)

Hình 1.8: Mờ hóa miền tham chiếu của khoảng cách, lương/tháng và đoạn

[0,1] của từ lượng hóa tương đốiBảng 1.2: Tính độ thuộc của từng mức lương vào các tập mờ tương ứng

từ ngôn ngữ trong Dom(LƯƠNG)

Trang 39

tb 0 0.5 1 0 1 0 0 0 0 0

Theo công thức (1.6) để tính toán giá trị đúng đắn T cho các câu tóm tắt Từ đó, với mỗi từ S Dom(LƯƠNG)

chỉ chọn một từ lượng hóa Q để có T lớn nhất Ví dụ, khi S = ‘trung κbình’, ∑10 =1 ì ℎ ( ) /10 = 0.25, ta có í

(0.25) = 1, (0.25) = 0 khi Q ‘ít’ Do đó, chọn hạng từ lượng hóa ‘ít’ trong câu tóm tắt có S = ‘trung κbình’ Tương tự,

kết quả thu được 5 câu tóm tắt như sau:

Giả sử cần khảo sát về các mức lương khác nhau ‘trung κbình’, κ‘cao’, κ‘rất

cao’ trong nhóm công việc có khoảng cách ‘trung κbình’, chúng ta lựa chọn mẫu câu

mở rộng là “Q công việc với khoảng cách ‘trung κbình’ có mức lương S”, S {‘trung

bình’, κ‘cao’, κ‘rất κcao’} Thực hiện tính toán theo công thức (1.7) và với mỗi thân

câu tóm tắt, chọn một từ lượng hóa Q Dom(Q) mà giá trị T lớn nhất Chúng ta nhận

được ba câu tóm tắt như sau:

1) Một κnửa công việc với khoảng cách trung κbình có mức lương trung κbình κ(T =

0.89)

3) Ít công việc với khoảng cách trung κbình có mức lương rất κcao (T = 0.67) Với cơ

sở dữ liệu đơn giản như trong ví dụ này, giả sử trong các thành phần

lọc F, kết luận S chỉ có một thuộc tính hoặc KC hoặc LƯƠNG; miền hạng từ của

mỗi thuộc tính chỉ có 5 từ ngôn ngữ Chúng ta có thể trích rút được 10 câu tóm tắt

dạng cơ bản “Q y are S” với S Dom(KC) Dom(LƯƠNG) Với dạng câu mở rộng “Q

F y are S”, vì có 2 lựa chọn cho thuộc tính trong F, có 5 từ ngôn ngữ có thể chọn

cho thuộc tính trong F, tiếp đó có 5 từ ngôn ngữ trong miền hạng từ của thuộc tính

còn lại có thể chọn cho S Do đó, tất cả có 2 5 5 = 50 câu tóm tắt (vì mỗi miền

Trang 40

giá trị của biến ngôn ngữ KC, LƯƠNG có 5 từ, có 2 lựa chọn thuộc tính cho thành

phần F).

1.3.2.3 κMột κsố κứng κdụng κthực κtế κcủa κcâu κtóm κtắt κngôn κngữ κvới κtừ κlượng κhóa

Trong phần này, luận án tóm tắt một số ứng dụng của bài toán trích rút tómtắt bằng ngôn ngữ trong một số lĩnh vực như y tế, quản lý Từ đó cho thấy khả năng

và ý nghĩa trong giải quyết vấn đề thực tế của bài toán

Wilbik cùng các cộng sự [31] sử dụng mẫu câu tóm tắt (1.2) và (1.3) để mô

tả dữ liệu thu được từ hai sensor được gắn trong phòng của một người già tại trungtâm chăm sóc người cao tuổi Một sensor đo sự chuyển động khi người cao tuổinằm trên giường và một sensor đo sự di chuyển của người cao tuổi trong căn phòng

Một số câu tóm tắt được trích rút từ dữ liệu thu được trong 15 tháng là: “On most of the nights the resident had a medium level of restlessness (T =0.85, d foc=1.0)”;

“Before CABG, on most of the nights, when the resident had a high level of motion,

he had also a medium level of restlessness (T =1.0, d foc=0.82)”; “After CABG, on

most of the nights, when the resident had a low level of motion, he had also a low

level of restlessness (T =1.0, d foc=0.22)” Các câu tóm tắt bằng ngôn ngữ này rất dễhiểu đối với các nhân viên y tế Đồng thời chúng cũng phản ánh được có sự khácbiệt trong dữ liệu thu thập được trong các giai đoạn sức khỏe khác nhau trước vàsau thời điểm mà bệnh nhân phải cấp cứu Tiếp theo, nhóm nghiên cứu trích rút tậpcác câu tóm tắt từ dữ liệu của hai người bệnh khác nhau, thực hiện phân cụm cáccâu tóm tắt để tìm ra một tập câu tóm tắt mô tả cho một đêm sức khỏe ổn định, mộtđêm có dấu hiệu bất thường [72] Kết quả này được sinh tự động từ dữ liệu và diễnđạt dễ hiểu bằng ngôn ngữ tự nhiên Do đó, chúng có ý nghĩa trong thực tế đối vớicác nhân viên y tế chăm sóc người bệnh để có những đánh giá kịp thời tình trạngcủa người bệnh

Một ứng dụng khác của trích rút tóm tắt bằng ngôn ngữ đáng chú ý trong lĩnhvực y tế gần đây là của nhóm Peláez-Aguiler và cộng sự trong bài báo [43] Cácbệnh nhân tham gia chương trình theo dõi phục hồi chức năng tim của một trungtâm y tế sẽ đeo một thiết bị trên cổ tay để đo nhịp tim Dữ liệu được thu thập và lưutrữ, sau đó áp dụng phương pháp trích rút tóm tắt bằng ngôn ngữ dựa trên lý thuyếttập mờ để tự động sinh các kết luận tóm tắt bằng ngôn ngữ theo cấu trúc câu có từ

Tiêu đề	Tóm Tắt Dữ Liệu Bằng Ngôn Ngữ Theo Cách Tiếp Cận Đại Số Gia Tử
Tác giả	Phạm Thị Lan
Người hướng dẫn	PGS.TSKH Nguyễn Cát Hồ, PGS.TS Hồ Cẩm Hà
Trường học	Học viện Khoa học và Công nghệ
Chuyên ngành	Khoa học máy tính
Thể loại	luận án tiến sĩ
Năm xuất bản	2022
Thành phố	Hà Nội

Định dạng
Số trang	150
Dung lượng	1,35 MB