Khác với CSDL mờ trong đó giá trị ngôn ngữ được xem như là nhãn của tập mờ, theo cách tiếp cận của ĐSGT, các giá trị như vậy được xem chính là các phần tử của đại số gia tử, vì theo cách
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI ĐẠI HỌC CÔNG NGHỆ
HÀ NỘI - 2008
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI ĐẠI HỌC CÔNG NGHỆ
Người hướng dẫn khoa học: PGS,TSKH NGUYỄN CÁT HỔ
HÀ NỘI - 2008
Trang 3MỤC LỤC
LỜI CAM ĐOAN 1
LỜI CẢM ƠN 2
MỤC LỤC 3
DANH MỤC CÁC KÝ HIỆU CÁC CHỮ VIẾT TẮT 5
DANH MỤC CÁC HÌNH VẼ 6
MỞ ĐẦU 7
CHƯƠNG 1 – TỔNG QUAN 9
1.1 Lý thuyết mờ 9
1.1.1 Tập mờ 9
1.1.2 Lôgic mờ 10
1.1.3 Hạn chế của việc quản lý và thao tác thông tin mờ biểu thị bằng lý thuyết tập mờ trong CSDL 11
1.1.4 Giới thiệu đại số gia tử 12
1 1.4.1 Đại số gia tử 14
1 1.4.1.1 Những phát biểu cơ bản 15
1.1.4.1.2 Các khái niệm và tính tuyến tính 15
1.1.4.1.3 Topo và tính trù mật trong ĐSGT 17
1.1.4.1.4 Độ đo tính mờ 20
1.1.4.1.5 Hàm định lượng ngữ nghĩa của biến ngôn ngữ 24
1.1.4.1.6 Sự tương tự tô-pô của dữ liệu định nghĩa bởi ánh xạ định lượng ngữ nghĩa 28
CHƯƠNG 2 – XÂY DỰNG MÔ HÌNH CSDL QUAN HỆ VỚI THÔNG TIN NGÔN NGỮ 33
2.1 Giới thiệu chung về cơ sở dữ liệu với thông tin ngôn ngữ 33
2.2 Quản lý ngữ nghĩa dữ liệu dựa trên ĐSGT 41
2.3 Phụ thuộc hàm dựa trên độ tương tự trong CSDL ngôn ngữ 46
2.4 Các đặc điểm và tính chất của mô hình mới 56
CHƯƠNG 3- CÀI ĐẶT MỘT SỐ THỦ TỤC CỦA CSDL NGÔN NGỮ 58
3.1 Lập hàm sign 58
3.2 Lập hàm tính độ đo tính mờ fm 59
3.3 Lập hàm định lượng ngữ nghĩa QSF 61
3.4 Lập hàm ánh xạ giá trị các giá trị biến ngôn ngữ sang miền giá trị thực 62
3.5 Lập hàm xác định lân cận mức k 63
3.6 Sửa đổi các thao tác truyền thống trên cơ sở dữ liệu: insert, update, delete, select 63
3.6.1 Thao tác insert 64
3.6.2 Thao tác update 64
3.6.3 Thao tác delete 64
3.6.4 Thao tác select 65
3.7 Viết ứng dụng 65
Trang 43.7.2 Các báo cáo chính 71
KẾT LUẬN 74
TÀI LIỆU THAM KHẢO 75
PHỤ LỤC 78
Trang 5DANH MỤC CÁC KÝ HIỆU CÁC CHỮ VIẾT TẮT
CSDL: Cơ sở dữ liệu
ĐSGT: Đại số gia tử
Trang 6DANH MỤC CÁC HÌNH VẼ
Hình 1: Tập mờ và tập rõ 10
Hình 2: Mô tả cường độ dòng điện 12
Hình 3: Minh họa độ đo tính mờ 23
Hình 4: Một ví dụ về hệ lân cận 35
Hình 5: Ví dụ về hệ lân cận 40
Trang 7MỞ ĐẦU
Trong những năm gần đây, CSDL mờ đã được nhiều tác giả trong và ngoài nước quan tâm nghiên cứu và đã có những kết quả đáng kể [1,6,14,15] Có nhiều cách tiếp cận khác nhau như cách tiếp cận theo lý thuyết tập mờ [2,14], theo lý thuyết khả năng do Prade và Testemale năm 1983, tương tự [11] Tất cả các cách tiếp cận trên nhằm mục đích nắm bắt và xử lý một cách thỏa đáng trên một quan điểm nào
đó các thông tin không chính xác (Unexact), không chắc chắn (uncertainty) hay những thông tin không đầy đủ (Incomplete) Do sự đa dạng của những loại thông tin
này nên chúng ta gặp rất khó khăn trong biểu thị ngữ nghĩa và thao tác với chúng Trong những năm gần đây đại số gia tử được nhiều tác giả nghiên cứu trong [3,4,5,12,13] và đã có những ứng dụng đáng chú ý, đặc biệt trong lập luận xấp xỉ và trong một số bài toán điều khiển Vì vậy, mặc dù đã có nhiều kết quả nghiên cứu về CSDL mờ, theo chiều hướng đó cách tiếp cận nghiên cứu CSDL mờ với ngữ nghĩa dựa trên đại số gia tử vẫn có thể được xem là một vấn đề nghiên cứu mới
Khác với CSDL mờ trong đó giá trị ngôn ngữ được xem như là nhãn của tập
mờ, theo cách tiếp cận của ĐSGT, các giá trị như vậy được xem chính là các phần
tử của đại số gia tử, vì theo cách biểu thị ngữ nghĩa trong ĐSGT, chúng có thể được xem chính là các giá trị ngôn ngữ
Con người thường phải đối mặt với thông tin không chắc chắn và do đó có một nhu cầu tự nhiên đối với việc xây dựng CSDL mờ Việc quản lý và thao tác thông tin mờ biểu thị bằng lý thuyết tập mờ trong CSDL đã và đang được quan tâm nghiên cứu mạnh mẽ Tuy nhiên người ta vẫn gặp một số khó khăn trong biểu diễn
và quản lý thông tin mờ
Nhiệm vụ của đề tài là nghiên cứu tiếp mô hình CSDL với thông tin được biểu thị bằng ngôn ngữ tự nhiên với ngữ nghĩa dựa trên cấu trúc thứ tự của đại số gia tử và phân tích những ưu điểm của mô hình mới Nghiên cứu và cài đặt các thủ tục thao
Trang 8tác dữ liệu để bảo đảm tính trọn vẹn dữ liệu đối với mô hình CSDL mới này và chứng tỏ sự thuận tiện và đơn giản của loại mô hình này
Trang 9CHƯƠNG 1 – TỔNG QUAN
1.1 Lý thuyết mờ
1.1.1 Tập mờ
Các tập mờ hay tập hợp mờ (tiếng Anh: Fuzzy set) là một mở rộng của lý thuyết
tập hợp kinh điển và được dùng trong lôgic mờ Trong lý thuyết tập hợp kinh điển, quan hệ thành viên của các phần tử trong một tập hợp được đánh giá theo một điều kiện rõ ràng — một phần tử hoặc thuộc hoặc không thuộc về tập hợp Ngược lại, lý thuyết tập mờ cho phép đánh giá quan hệ thành viên giữa một phần tử và một tập
hợp; quan hệ này được mô tả bằng một hàm thuộc (membership function)
Các tập mờ được coi là một mở rộng của lý thuyết tập hợp kinh điển là vì, với một miền nhất định, một hàm thuộc có thể giữ vai trò của một hàm đặc trưng ánh xạ mỗi phần tử tới một giá trị 0 hoặc 1 như trong khái niệm kinh điển
Định nghĩa 1.1
Một tập hợp mờ trên một tập hợp kinh điển Χ được định nghĩa như sau:
Hàm thuộc μA (x) lượng hóa mức độ mà các phần tử x thuộc về tập cơ sở Χ Nếu
hàm cho kết quả 0 đối với một phần tử thì phần tử đó không có trong tập đã cho, kết quả 1 mô tả một thành viên toàn phần của tập hợp Các giá trị trong khoảng mở từ 0 đến 1 đặc trưng cho các thành viên mờ
Trang 10Hình 1: Tập mờ và tập rõ
Hàm thuộc μA (x) thỏa mãn các điều kiện sau
1.1.2 Lôgic mờ
Lôgic mờ (tiếng Anh: Fuzzy logic) được phát triển từ lý thuyết tập mờ để thực hiện
lập luận một cách xấp xỉ thay vì lập luận chính xác theo lôgic vị từ kinh điển Lôgic
mờ có thể được coi là mặt ứng dụng của lý thuyết tập mờ để xử lý các giá trị trong thế giới thực cho các bài toán phức tạp (Klir 1997)
Người ta hay nhầm lẫn khả năng đúng với xác suất Tuy nhiên, hai khái niệm này khác hẳn nhau; độ đúng đắn của lôgic mờ biểu diễn độ thuộc với các tập được định nghĩa không rõ ràng, không phải khả năng xảy ra một biến cố hay điều kiện nào đó
Để minh họa sự khác biệt, xét tình huống sau: Bảo đang đứng trong một ngôi nhà
có hai phòng thông nhau: phòng bếp và phòng ăn Trong nhiều trường hợp, trạng thái của Bảo trong tập hợp gồm những thứ "ở trong bếp" hoàn toàn đơn giản: hoặc
là anh ta "trong bếp" hoặc "không ở trong bếp" Nhưng nếu Bảo đứng tại cửa nối giữa hai phòng thì sao? Anh ta có thể được coi là "có phần ở trong bếp" Việc định lượng trạng thái "một phần" này cho ra một quan hệ thuộc đối với một tập mờ Chẳng hạn, nếu Bảo chỉ thò một ngón chân cái vào phòng ăn, ta có thể nói rằng Bảo
ở "trong bếp" đến 99% và ở trong phòng ăn 1% Một khi anh ta còn đứng ở cửa thì
Trang 11không có một biến cố nào (ví dụ một đồng xu được tung lên) quyết định rằng Bảo hoàn toàn "ở trong bếp" hay hoàn toàn "không ở trong bếp" Các tập mờ được đặt
cơ sở trên các định nghĩa mờ về các tập hợp chứ không phải dựa trên sự ngẫu nhiên Lôgic mờ cho phép độ thuộc có giá trị trong khoảng đóng ([0,1]), và ở hình thức ngôn từ, các khái niệm không chính xác như "hơi hơi", "gần như", "khá là" và "rất"
Cụ thể, nó cho phép quan hệ thành viên không đầy đủ giữa thành viên và tập hợp Tính chất này có liên quan đến tập mờ và lý thuyết xác suất Lôgic mờ đã được đưa
ra lần đầu vào năm 1965 bởi GS Lotfi Zadeh tại Đại học California, Berkeley
1.1.3 Hạn chế của việc quản lý và thao tác thông tin mờ biểu thị bằng lý thuyết tập mờ trong CSDL
Chúng ta có thể nhận thấy việc sử dụng tập mờ và mô hình quan hệ để xử lý thông tin mờ có một số hạn chế nhất định:
(i) Với các thuộc tính mà giá trị là dữ liệu kinh điển và dữ liệu mờ, (gọi là các thuộc
tính mờ), kiểu dữ liệu không đồng nhất, do đó, việc xử lý dữ liệu gặp nhiều khó khăn Chẳng hạn, do dữ liệu ngôn ngữ được biểu diễn dưới dạng các tập mờ, nghĩa
là được thể hiện bởi các hàm thuộc của U, miền thuộc tính cơ sở, vào khoảng đơn vị [0,1], định nghĩa các quan hệ đối sánh trên các dữ liệu này không phải là một vấn đề giản đơn và có nhiều cách giải quyết khác nhau Tất nhiên, sự thỏa mãn các mối quan hệ trong trường hợp này được định nghĩa dựa trên logic đa trị thay vì logic hai giá trị Chúng ta hãy xem xét một thí dụ, thuộc tính AGE (Tuổi) và giả thiết rằng dữ liệu rather young được thể hiện bằng một tập mờ R.young với hàm thuộc R.young Với trường hợp dữ liệu 34 và rather young, đẳng thức 34 = Rather young có thể được diễn giải là thỏa mãn mức độ chân lý R.young(34) Song có một câu hỏi khó hơn là làm sao ta có thể diễn giải điều kiện thỏa mãn logic của bất đẳng thức Rather young <
34? Có một cách là diễn giải bất đẳng thức này bằng cách tính tập mức R.young,
của tập mờ R.young và kiểm tra bất đẳng thức R.young, < 34, trong đó bất đẳng thức
có nghĩa rằng (
Trang 12chúng ta nói rằng mức độ thỏa mãn của bất đẳng thức này là giá trị chân lý của
Như vậy, tùy theo cách diễn giải của người sử dụng, ta cần thiết kế các thủ tục để quản lý dữ liệu có thuộc tính mờ
Hình 2: Mô tả cường độ dòng điện
(ii) Việc diễn giải về ngữ nghĩa của dữ liệu ngôn ngữ là một vấn đề cơ bản, tuy
nhiên, nó hoàn toàn phụ thuộc vào cách biểu thị quá chủ quan về ngữ nghĩa của ngôn ngữ biểu diễn bằng tập mờ Điều này có nghĩa là mọi người thường tự thiết kế các tập mờ cho mỗi ứng dụng, trừ khi chọn lựa các giá trị dựa trên ngữ nghĩa trong thực tế Không có ràng buộc chính thức nào cho thiết kế kiểu này Ví dụ như, để
diễn giải nghĩa của bảy thuật ngữ terms very very small, very small, small, medium, large, very large, very very large nhằm mô tả các giá trị của cường độ dòng điện
trong khoảng [0, 10] am-pe, người ta có thể dựng bảy tam giác cân như hình 2 Đó
là các tam giác bằng nhau trừ tam giác đầu và cuối, hai tam giác này bằng một nửa các tam giác hoàn chỉnh Vấn đề dường như rất kỹ thuật và chủ quan, và một câu hỏi phát sinh là vì sao các tam giác bằng nhau và các cạnh đáy của chúng nằm trùng lên nhau đúng một nửa Điều này có vẻ không phù hợp khi xem xét ngữ nghĩa tự nhiên của các thuật ngữ này
1.1.4 Giới thiệu đại số gia tử
Trong phần này, chúng ta sẽ tiếp cận đại số gia tử về ngữ nghĩa dựa trên quan hệ thứ tự của dữ liệu ngôn ngữ của biến ngôn ngữđể xây dựng mô hình CSDL quan hệ
và nghiên cứu các phép thao tác trên các dữ liệu của CSDL với thông tin ngôn ngữ Trong cách tiếp cận này, miền giá trị của thuộc tính được phép nhận giá trị ngôn
Trang 13ngữ và giả thiết tập các giá trị ngôn ngữ được nhúng vào một đại số gia tử Ngữ nghĩa của các quan hệ hai ngôi trên mỗi miền giá trị thuộc tính, bao gồm các giá trị kinh điển và các giá trị ngôn ngữ, sẽ được nghiên cứu và trên cơ sở đó các phép toán đại số quan hệ sẽ được định nghĩa phù hợp với ngữ nghĩa mới Việc tiếp cận dựa trên đại số gia tử chỉ ra rằng mô hình CSDL với thông tin mờ trở nên rõ ràng, nhất quán trong thao tác và thao tác dữ liệu đơn giản hơn
Trang 141 1.4.1 Đại số gia tử
Để xây dựng cách tiếp cận đại số gia tử đối với CSDL mờ, trong phần này xin trình bày tổng quan về một số nét cơ bản của đại số gia tử và khả năng biểu thị ngữ nghĩa dựa vào cấu trúc của đại số gia tử
Chúng ta xét miền ngôn ngữ của biến chân lý TRUTH gồm các từ sau:
Dom(TRUTH)={true, false, very true, very false, more-or-less true, more-or-less false, possibly true, possibly false, approximately true, approximately false, little true, little false, very possibly true, very possibly false }, trong đó true, false là
các từ nguyên thuỷ, các từ nhấn (mordifier hay intensifier) very, more-or-less, possibly, approximately true, little gọi là các gia tử (hedges) Khi đó miền ngôn ngữ
T=dom(TRUTH) có thể biểu thị như một đại số AH = ( X, C, H, ), trong đó C là
tập các từ nguyên thuỷ được xem là các phần tử sinh H là tập các gia tử được xem như là các phép toán một ngôi, quan hệ trên các từ (các khái niệm mờ) là quan hệ thứ tự được "cảm sinh" từ ngữ nghĩa tự nhiên Ví dụ dựa trên ngữ nghĩa, các quan
hệ thứ tự sau là đúng: falsetrue, more truevery true nhưng very false more false, possibly truetrue nhưng falsepossibly false Tập X được sinh ra từ C bởi các phép tính trong H Như vậy mỗi phần tử của X sẽ có dạng biểu diễn x=h n h n-
1 h 1 c, cC Tập tất cả các phần tử được sinh ra từ một phần tử x được ký hiệu là
H(x) Nếu C có đúng hai từ nguyên thuỷ mờ, thì một được gọi là phần tử sinh
dương ký hiệu là c+, một gọi là phần tử sinh âm ký hiệu là c
và ta có c- < c+ Trong
ví dụ trên True là dương còn False là âm
Nếu các tập các phép toán (hay gia tử) H+, H và tập C các phần tử sinh là tuyến tính thì tập nền X = H(G) cũng tuyến tính Tuy nhiên tập H(G) thiếu các phần
tử giới hạn, hay nói khác đi nó không đóng đối với phép “lấy giới hạn” Chính vì
thế, đại số gia tử đầy đủ AX = < X, C, H, , , > được xây dựng bằng cách bổ
sung vào tập X các phần tử giới hạn nhằm làm đẩy đủ miền giá trị của nó
Trang 151 1.4.1.1 Những phát biểu cơ bản
Cho X là một tập sắp thứ tự một phần (partially ordered set) và U, V là hai tập con của X Ta ký hiệu U V (phát biểu tương ứng cho U < V), nếu (x U)(y
V){x y} (tương ứng, {x < y})
Xét đại số gia tử đầy đủ AX = < X, G, LH, , , > Giả sử x X và nếu nó
có biểu diễn dưới dạng x = h n h 1 u, với u X, thì ta sẽ quy ước sử dụng ký pháp
sau: x (i) = h i-1 h 1 u, 1 i n, với quy ước khi i = 1 thì h 0 = I, phép toán đồng nhất
trên X
Định nghĩa 1.1: ĐSGT AX = < X, G, LH, , , > được gọi là tự do (hay sinh
tự do) nếu với mọi h LH mọi x LH(G) ta đều có hx x Về trực quan điều này
có nghĩa, mỗi gia tử (phép toán) khi tác động vào một phần tử bất kỳ trong LH(G)
đều được sinh (một cách tự do) ra phần tử mới
Những kết quả sau đây sẽ được tham chiếu đến trong các chứng minh sau này
Định lý 1.1: Xét ĐSGT AX = (X, G, LH, , , ) là đại số gia tử mở rộng đầy
đủ Với mọi y LH(x), x X ta có:
i/ y x và y x
ii/ x H(x) x
Mệnh đề 1.1: Xét ĐSGT mở rộng đầy đủ AX = (X, G, LH, s, , ) Với mọi h
LHic, mọi k LHci+1, nếu x, x lim(x) (hay x, x LH(G)) thì:
lưu ý rằng V là positive đối với cả hai toán tử đơn vị trong UOS và dãy {V n o+x: o+
UOS, o+x x, n = 1, 2, } đơn điệu tăng còn dãy {V n ox: o UOS, ox x, n = 1,
2, } đơn điệu giảm
1.1.4.1.2 Các khái niệm và tính tuyến tính
Định nghĩa 1.2 Đại số gia tử (mở rộng) đầy đủ AX = (X, G, H, , , ) được
gọi là tuyến tính nếu tập các phần tử sinh G = {0, c, W, c + , 1} và các dàn các gia tử
Trang 16giả sử h -1 < h -2 < < h -q ; h 1 < < h p Ký hiệu h 0 = I còn H c mà được hiểu là c {, +}
Định lý 1.2 Nếu đại số gia tử mở rộng đầy đủ AX = (X, G, H, , , ) là tuyến
tính thì tập nền X cũng là tuyến tính hay sắp toàn phần
Chứng minh: Ta có X = H(G) Lim(X) Vì theo Bổ đề 1.2, H(G) là tuyến tính,
nên ta chỉ cần chứng tỏ với mọi x và y, với ít nhất một trong hai phần tử này thuộc
tập Lim(X), chúng đều sánh được với nhau
Trước hết giả sử chỉ một trong hai phần tử x và y, chẳng hạn là y, thuộc Lim(X)
và chúng có biểu diễn sau: x = h n h 1 u , y = oy’ với y’ = k m k 1 u’ Vì H(G) sắp
toàn phần nên x và y’ phải sánh được với nhau và giả định x < y’ (đối với trường hợp ngược lại sẽ được chứng minh tương tự bằng đối ngẫu) Khi đó, nếu u và u’ được sinh từ hai từ nguyên thủy khác nhau thì ta có x H(c) và y’ H(c +) Suy ra
y = oy’ c + c x
Nếu cả hai u, u’ H(c), c {c, c + } và giả sử u = u’, x = h n h 1 u và y’ = k m k 1 u với h 1 k 1 Cũng như trên ta giả định x < y’ và do đó kéo theo h 1 u < k 1 u Lập luận tương tự như trên, ta thu được y = oy’ k 1 u h 1 u H(h 1 u) Vậy y > x
Một trong các khả năng khác có thể xảy ra là x = h n h 1 y’ Giả thiết x < y’ sẽ dẫn đến bất đẳng thức h 1 y’ < y’ Khi đó, y’ y’ H(h 1 y’) y’ Vì x H(h 1 y’) và
vì o {, }, từ các bất đẳng thức cuối ta suy ra y = oy’ và x luôn sánh được với
nhau
Một khả năng còn lại là y’ = k m k 1 x Cũng như trên, giả thiết x < y’ sẽ dẫn đến bất đẳng thức k 1 x > x và do đó H(k 1 x) > x Do H(k 1 x) H(y’), nên ta có H(y’) > x
Suy ra, y = oy’ x
Bây giờ ta giả thiết cả hai x và y cùng thuộc Lim(X) và chúng có dạng biểu diễn
x = ox’, y = o’y’ và giả sử x’ = h n h 1 u và y’ = k m k 1 u’ Vì H(G) sắp toàn phần
nên x’ và y’ phải sánh được với nhau và, chẳng hạn, x’ < y’ Do đó, tương tự như
Trang 17trên, nếu u và u’ được sinh ra từ hai từ nguyên thủy khác nhau thì ta phải có x’
H(c) còn y’ H(c + ) Suy ra, y = o’y’ c + = c ox’ = x
Trường hợp cả hai u, u’ H(c), c {c, c + } và giả sử u = u’, x’ = h n h 1 u và y’ = k m k 1 u, với h 1 k 1 Cũng như trên ta giả định x’ < y’ và do đó h 1 u < k 1 u Lập luận tương tự như trên, ta thu được y = o’y’ k 1 u h 1 u > ox’ = x
Trường hợp x’ = h n h 1 y’ Giả thiết x’ < y’ sẽ dẫn đến bất đẳng thức h 1 y’ < y’
Khi đó, y’ y’ H(h 1 y’) y’ Do H(x’) H(h 1 y’) và o, o’ {, }, ta có thể
nhận thấy y = o’y’ và x = ox’ phải sánh được với nhau
Trường hợp còn lại là y’ = k m k 1 x’ Giả thiết x’ < y’ sẽ dẫn đến bất đẳng thức
k 1 x’ > x’ và do đó H(k 1 x’) > x’ Do H(k 1 x’) H(y’) và H(G) sắp toàn phần nên ta
kết luận y = o’y’ và x = oy’ là sánh được
Như vậy định lý đã được hoàn toàn chứng minh
1.1.4.1.3 Tô-p và tính trù mật trong ĐSGT
Ta biết rằng X = H(G) Lim(X), nghĩa là Lim(X) là tập các điểm giới hạn của
H(G) Ta có thể có cảm nhận trực quan thấy rằng H(G) là tập trù mật trong X theo
nghĩa sau:
Định nghĩa 1.3 Cho X là tập sắp thứ tự một phần và U, V là các tập con của X,
U V Tập con U được gọi là trù mật trong V nếu (x,y V){ x < y (z U)[x
< z < y]} Với x < y, ta ký hiệu <x,y> = {z X : x < z < y} và cũng gọi là một
khoảng được xác định bởi x và y
Tuy nhiên như ta sẽ thấy trên cách nhìn topo, họ các tập H(u), u H(G), có tính chất khá đặc biệt và tính trù mật của H(G) có đặc trưng mạng hơn Định nghĩa 1.3
rất nhiều Tính chất này là cơ sở để chứng minh một số quả nghiên cứu tiếp theo Trước hết ta hãy khảo sát tính topo của họ = {H(u), u H(G)} Chúng ta biết
rằng một họ bất kỳ các tập con của X được gọi là một cơ sở topo trên X nếu
Mỗi cơ sở topo sẽ sinh ra một topo trên X, tức là họ tất cả các tập con mở của X
và X trở thành không gian topo Trong không gian topo ta có khái niệm điểm trong
như sau Xét một tập con V X Điểm u V được gọi là điểm trong của tập V nếu
Trang 18Ta có khái niệm mới về độ trù mật như sau gọi là độ đậm đặc
Định nghĩa 1.4 Cho một không gian topo X Tập V X, được gọi là đậm đặc trong X, nếu với mọi khoảng <x,y> của X đều chứa ít nhất một điểm trong u, t.l
(U ){U V & x < U < y}
Rõ ràng là nếu V là đậm đặc trong X thì V là trù mật trong X
Ta có bổ đề sau:
Bổ đề 1.3 Cho ĐSGT AX = (X, G, H, , , ), họ ’ = {} là một cơ sở
topo trên X
Chứng minh: Xét hai tập H(u) và H(v) bất kỳ Khi đó chỉ có hai khả năng Nếu
u và v là độc lập, t.l v H(u) và uH(v), thì H(u) H(v) = Nếu ngược lại,
chẳng hạn, u H(v) thì H(u) H(v) Từ đó dễ dàng suy ra họ ’ thỏa mãn điều kiện o2) trên
Nhằm thiết lập một tính chất quan trọng dưới đây để sử dụng trong nghiên cứu việc định lượng hóa ĐSGT ta cần bổ đề sau
Bổ đề 1.4 Cho ĐSGT (mở rộng) đầy đủ, tuyến tính và tự do AX = (X, G, H, ,
Lưu ý rằng trong cả hai trường hợp trên ta đều có H(z i) H(x) =
Chứng minh: Trước hết ta luôn nhớ rằng, theo Bổ đề 1.2, tập H(G) là tuyến
tính Đầu tiên ta xét trường hợp h 1 u < ox, x = h n h 1 u Theo Bổ đề 1.1, ta có h 1 u
= V n-2 oh 1 u < oh n h 1 u Khi đó tồn tại i sao cho z = V n-2 oh 1 u = k i x i-1 , x = h i x i-1, trong đó , là các xâu gia tử tiền tố tương ứng của z và x Lưu ý rằng, theo Bổ đề
1.1 ta có h 1 u = k i x i-1 = z Từ bất đẳng thức cuối cùng ta suy ra k i x i-1 < h i x i-1, vì
trong trường hợp ngược lại ta thu được bất đẳng thức oh n h 1 u h i x i-1 k i x i-1 =
h 1 u mâu thuẫn với giả thiết h 1 u < ox Do đó, H(k i x i-1 ) < H(h i x i-1) và điều này dẫn đến h 1 u = k i x i-1 < H(k i x i-1) < h i x i-1 ox, vì x H(h i x i-1 ), và H(z i) H(x) = với
z i = k i x i-1
Trang 19Đối với trường hợp h 1 u > ox, ta chứng minh tương tự bằng đối ngẫu
Định lý 1.4 Cho AX = (X, G, H, , , ) là đại số gia tử đầy đủ, tuyến tính và
(sinh) tự do Khi đó tập H(G) là đậm đặc trong X và hơn nữa ta có
x, y X , x < y (u H(G)){ x < H(u) < y }
Nhớ rằng ta luôn luôn có H(u) H(G)
Chứng minh: Như ta biết X = H(G) Lim(X) và H(G) Lim(X) = và do
đó ta sẽ chứng minh định lý theo từng trường hợp
(1) Trường hợp x, y H(G), x = h n h 1 u và y = k m k 1 u’ Đầu tiên ta giả sử x
H(c), y H(c + ) và giả định x = h n h 1 c và y = k m k 1 c + Ta biết rằng, vì AX
là ĐSGT tự do, nên luôn luôn tồn tại gia tử h H sao cho hx > x Khi đó ta thu được bất đẳng thức mong muốn là y > H(hx) > x và H(hx) H(x)
Bây giờ ta giả sử u = u’ và h 1 u k 1 u’ Vì x < y ta suy ra h 1 u < k 1 u’ và do vậy ta
có H(h 1 u) < H(k 1 u’) Cũng như trên ta chọn h H sao cho hx > x và khi đó, vì
H(hx) > x, hx H(h 1 u), y H(k 1 u’) và H(hx) H(h 1 u), ta có điều mong muốn y >
H(hx) > x Nếu việc sinh của x và y có dạng x = h n h 1 y thì x < y kéo theo h 1 y < y Khi đó cũng tồn tại h H sao cho hx > x và do đó ta cũng có y > H(hx) > x Một
cách hoàn toàn tương tự, nếu y = k m k 1 x thì x < y kéo theo k 1 x > x Ta chọn h H
sao cho y > hy H(k 1 x) > x Do đó y > H(hy) > x và H(hy) H(y)
(2) Trường hợp x H(G) và y = oy’ Lim(X), trong đó o {, }, x = h n
h 1 u và y’ = k m k 1 u’ Đối với cả hai khả năng u = c và u’ = c + hoặc u = u’ và h 1 u
k 1 u’, điều kiện x < y dẫn đến H(x) < H(y’) Ta cũng chọn h H sao cho hx > x và
do H(hx) H(x) ta suy ra y = oy’ y’ x > H(hx) > x, nghĩa là ta có bất đẳng
thức mong muốn Nếu x = h n h 1 y’ thì x H(h 1 y’) và x <y cùng với y’ H(h 1 y’)
y’ kéo theo y = y’ Vậy với hx > x ta cũng có y = y’ > H(hx) > x
Nếu y’ = k m k 1 x thì x < y kéo theo k 1 x > x và y = oy’ k 1 x x
Nếu oy’ = k 1 x thì y = k 1 x > x và khi đó k 1 không phải là atom (gia tử nhỏ nhất trong dàn I) Vậy có tồn tại k’ sao cho H(k 1 x) > H(k’x) > x và điều này dẫn đến y
= oy’ k 1 x > H(k’x) > x Ngoài ra ta cũng có H(u) H(x), với u = k’x
Nếu oy’ > k 1 x thì tồn tại u sao cho x k 1 x = z < H(z) < oy’ và H(z) H(y’)
=
(3) Trường hợp x = ox’ Lim(X) và y H(G), trong đó o {, } và x = h n
u’ được chứng minh tương tự như trong (2)
Trang 20(4) Trường hợp x = ox’ Lim(X) và y = o’y’ Lim(X), trong đó x’ = h n h 1 u
và y’ = k m k 1 u’ Lập luận như trong (2), cả hai khả năng đối với u và u’ đều dẫn đến h 1 u k 1 u’, và từ điều kiện x < y ta suy ra h 1 u < k 1 u’
Nếu h 1 u = k 1 u, thì có hai khả năng Thứ nhất là x = ox’ = h 1 u và khi đó x =
k 1 u < o’y’ Tồn tại u = z i sao cho x = ox’ = k 1 u = z i H(z i ) = H(k i ’x i-1 ) < o’y’ = y
Trong trường hợp này ta có H(z i) H(y’) = Giả sử h 1 u k 1 u Khi đó điều kiện x < y kéo theo h 1 u < k 1 u và do vậy ox’ h 1 u < k 1 u o’y’ Nếu h 1 , k 1 không
cùng thuộc tập gia tử Hc
thì h 1 u < u < k 1 u và nếu các gia tử này đều là nhỏ nhất thì
h 1 u = k 1 u Ta gặp mâu thuẫn Vậy một trong hai gia tử này không là nhỏ nhất, chẳng hạn đó là h 1 Khi đó có h’ sao cho h 1 < h’ và do đó ta có H(h 1 u) < H(h’u) <
H(k 1 u) Nếu h 1 , k 1 cùng thuộc tập gia tử Hc thì chúng không thể là hai gia tử kề
nhau, do đó cũng tồn tại h’ sao cho h 1 u < h’u < k 1 u và điều này cũng dẫn đến
H(h 1 u) < H(h’u) < H(k 1 u) Từ đây ta suy ra x = ox’ h 1 u < H(h’u) < k 1 u o’y’
= y, nghÜa lµ ta có các bất đẳng thức mong muốn và cũng có điều kiện H(h’u)
H(y’) =
Bây giờ ta giả định x’ và y’ có dạng liên hệ sau: x’ = h n h 1 y’ Khi đó vì x’
H(h 1 y’), bất đẳng thức x < y kéo theo h 1 y’ < y’ và H(h 1 y’) < y’ Do vậy, vì x’
H(y’), ta suy ra được các bất đẳng thức y’ x = ox’ x’ h 1 y’ y’ < k 1 u
y’ Vậy o’ = Lấy h’ sao cho y’ < h’y’ ta sẽ có x = ox’ < y’ < H(h’y’) y’ = y
và H(h’y’) H(y’)
Vì đối với trường hợp y’ = h n h 1 x’ sẽ được chứng minh tương tự nên định lý hoàn
toàn được chứng minh
1.1.4.1.4 Độ đo tính mờ
Cho đại số gia tử AX = (X, C, H, ), với X là tập nền, C ={c+, c-}trong đó c+
và c- tương ứng là phần tử sinh dương và âm H =H + H - vớiH = {h 1 , h 2 , , h p } và
H + = {h p+1 , , h p+q }, h 1 >h 2 > >h p và h p+1 < <h p+q
Để mô phỏng tính mờ của các khái niệm mờ trước hết ta hãy đưa ra một số tiêu chuẩn có tính đặc trưng trực quan thiết yếu dễ thừa nhận về tính mờ của ngôn ngữ (1) Tính mờ của một khái niệm rõ (crisp) phải bằng không;
(2) Một khái niệm mờ ’ thu được nhờ đặc tả cá thể hơn sẽ có tính mờ ít hơn
khái niệm mờ gốc Như vậy tính mờ của ’ phụ thuộc vào tính mờ của ;
Trang 21(3) Nếu hai khái niệm mờ và ’ có ngữ nghĩa không phụ thuộc vào nhau,
nghĩa là việc xác định ngữ nghĩa của từ này không ảnh hưởng đến việc xác định ngữ nghĩa của từ kia, thì tính mờ của chúng độc lập nhau Chẳng hạn tính mờ của “App true” và “Little true” là độc lập nhau
(4) Nếu các từ ’ và ’’ được sinh từ từ khi dùng các gia tử tác động vào, thì tính mờ của ’ và ’’ cũng góp phần tạo sinh ra tính mờ của từ ;
Trở lại ĐSGT AX* Nó được xem là cấu trúc của miền giá trị biến ngôn ngữ X
Hãy xét họ {H(x): x X*} Họ này có các tính chất sau:
Do vậy về trực quan kích cỡ của tập H(x) có liên quan đến tính mờ của từ x Với cách hiểu như vậy thì các tính chất trên của tập H(x) có nghĩa: Tính chất 1) thể hiện rằng nếu x là khái niệm chính xác thì tính mờ bằng không; Tính chất 2) thể hiệu rằng tính mờ của khái niệm đặc tả hơn có tính mờ ít hơn Biểu thức còn lại thể hiện rằng tính mờ của hai khái niệm độc lập được xác định (tạo ra) độc lập; Tính chất 3) thể hiện rằng tính mờ của khái niệm x chính là được tạo ra từ các tính mờ của các khai niệm thứ cấp được sinh ra nhờ việc biến chướng ngữ nghĩa của tất cả các gia
tử
Với những tính chất như vậy ta có thể xem tập H(x) mô phỏng tính mờ của khái niệm x Do vậy để xác định độ đo tính mờ của khái niệm x ta có thể dựa vào việc
Trang 22các định kích thước định lượng của tập H(x), chẳng hạn như nó là đường kính của tập H(x), được ký hiệu là d(H(x))
Để định lượng ta xét một ánh xạ bảo toàn thứ tự f : X* [a,b], trong đó đoạn [a,b] là miền giá trị của biến nền (base variable) của biến ngôn ngữ X Vì f bảo toàn thứ tự và nhận giá trị trong [a,b] nên ta có thể xem f là ánh xạ ngữ nghĩa định lượng
của X Theo truyền thống, để chuẩn hóa, ta luôn luôn giả thiết rằng hàm f nhận giá trị trong đoạn [0,1] Một cách chính xác ta có định nghĩa sau:
Định nghĩa 1.5 Một ánh xạ f được gọi là ánh xạ ngữ nghĩa định lượng của X
nếu nó thỏa mãn các điều kiện sau:
Q1) f là song ánh;
Q2) f bảo toàn thứ tự trên X*, tức là x < y f(x) < f(y), và f(0) = 0, f(1) = 1;
Q3) x X*, f(x) = infimum f(H(x)) và f(x) = supremum f(H(x))
Tính chất Q3) có thể xem là tính chất liên tục và cũng là một đòi hỏi tự nhiên
Với ánh xạ ngữ nghĩa f, kích cỡ của tập H(x), hay độ đo tính mờ của x, có thể định lượng bằng đường kính của tập f(H(x)) và kí hiệu là fm(x) Mục đích của
chúng ta là tìm phương pháp xây dựng ánh xạ ngữ nghĩa định lượng trên cơ sở độ
đo tính mờ Mặt khác việc tiên đề hóa độ đo tính mờ dễ hơn và trực quan hơn Vì vậy ta đưa ra hệ tiên đề hóa của độ đo tính mờ trong định nghĩa sau:
Trang 231/2 Little True Poss True True More True Very True 1
f(H(Little True)) f(H(More True) f(H(Very True)
ĐK của
f(H(Poss True)
ĐK của f(H(True))
Hình 3: Minh họa độ đo tính mờ
Hàm fm: X[0,1] được gọi là độ đo tính mờ trên X nếu thoả mãn các điều kiện sau:
i c fm c h
fm
1
) ( )
(3) Với x,yX, hH,
) c ( fm
) hc ( fm )
y ( fm
) hy ( fm )
x ( fm
) hx ( fm
, với c{c-,c+},
nghĩa là tỉ số này không phụ thuộc vào x và y, được kí hiệu là (h) gọi là độ đo tính
mờ (fuzziness measure ) của gia tử h
Một số tính chất của độ đo tính mờ fm
Trang 24i c fm c h
fm
1
) ( ) ( , trong đó c {c, c+}
(3)
q p i
i x fm x h
fm
1
) ( ) ( , với xX
(4)
p i i
(1) Sign(c) = -1 và Sign(hc) = +Sign(c) nếu hc < c
Sign(hc) = -Sign(c) nếu hc > c
Sign(c+) = +1 và Sign(hc+) = +Sign(c+) nếu hc+ > c+
Sign(hc+) = -Sign(c+) nếu hc+
< c+
(2) Sign(hhx) = -Sign(hx) nếu h' là negative đối với h và h'hx hx
(3) Sign(hhx) = +Sign(hx) nếu h' là positive đối với h và h'hx hx
(4) Sign(hhx) = 0 nếu h'hx = hx
Định nghĩa 1.8 [12] (Hàm định lượng ngữ nghĩa ) Giả sử cho trước độ đo tính mờ
của các gia tử (h), và các giá trị độ đo tính mờ của các phần tử sinh fm(c-), fm(c+)
và w là phần tử trung hòa Hàm định lượng ngữ nghĩa (Quantitatively semantic function) của X được xây dựng như sau với x=h im h i2 h i1c :
(1) (c) =w-.fm(c-) và (c+) = w+.fm(c+)
Trang 25j j
j
i x ) ( Sign ( h x ) Sign ( h h x )( )) fm ( h x ) h
(
2 1
j j
j
i x ) ( Sign ( h x ) Sign ( h h x )( )) fm ( h x ) h
( fm
1
1
1 2
Có thể hiểu cách xác định hàm v trong định nghĩa trên như sau: Trước hết ta đưa
vào khái niệm độ sâu của một từ trong một ĐSGT sinh tự do Thực ra nó chính là
độ dài của xâu x, nhưng khái niệm độ dài không mang nghĩa trực quan của độ sâu
khái niệm trong việc xây dựng hàm v Với mỗi x H(G), độ sâu của x, ký hiệu là
dp(x), là số lần xuất hiện các phần tử trong x
(v1) Bước 1: Với dp(x) = 1, tức là x {c, c+}, ta chia đoạn [0,1] thành hai đoạn, ký hiệu là I(c) và I(c+), theo thứ tự từ trái sang phải, tức là I(c) < I(c+) và
độ dài của đoạn I(c), l(I(c)) = fm(c), và l(I(c+)) = fm(c+) Khi đó giá trị v(c) là điểm chia đoạn I(c) thành hai đoạn con theo tỷ lệ : , vì Sign(c) = -1 Còn v(c+)
là điểm chia đoạn I(c+) thành hai đoạn theo tỷ lệ : , vì Sign(c+) = +1 Các đoạn
con thu được tương ứng với tất cả các từ có độ sâu dp(x) = 1 tạo thành một phân hoạch của đoạn [0,1] với tính chất l(I(x)) = fm(x)
(v2) Bước 2: Đối với đoạn I(c), vì Sign(c) = -1, ta phân hoạch đoạn đó thành q+p đoạn sao cho I(h i c) > I(h j c), với –q i < j p, và l(I(h i c)) = fm(h i c) Lưu ý
i i và điểm chia v(c) là điểm nút chung của hai đoạn
I(h -1 c) và I(h +1 c) Ngược lại, đối với đoạn I(c+),vì Sign(c+) = +1, ta phân hoạch đoạn I(c+) thành q+p đoạn sao cho I(h i c+) < I(h j c+), với –q i < j p, và l(I(h i c+)) =
Ta cũng thấy các đoạn con thu được tương ứng với tất cả các từ x (2) có độ sâu
Trang 26dp(x (2) ) = 2 tạo thành một phân hoạch của đoạn [0,1] với tính chất l(I(x (2) )) = fm(x (2))
và v(x (2)) là điểm trong của mỗi đoạn
(v3) Bước lặp: Giả sử quy nạp rằng các đoạn thằng con của tất cả các từ x (k-1) có
độ sâu k-1, tập các đoạn con thu được tương ứng với tất cả các từ có độ sâu dp(x (k-1)
)
= k-1 tạo thành một phân hoạch của đoạn [0,1] với tính chất l(I(x (k-1) )) = fm(x (k-1)) và
giá trị v(x (k-1)) là điểm chia đoạn I(x (k-1)) theo tỷ lệ : , nếu Sign(x (k-1)
1
) 1
: , nếu Sign(h i x (k-1) ) = +1 Ngược lại, nếu Sign(x (k-1)) = +1, ta phân hoạch đoạn
I(x (k-1)) thành q+p đoạn sao cho I(h i x (k-1)) < I(h j x (k-1) ), với –q i < j p, và l(I(h i x
(k-1)
)) = fm(h i x (k-1))
Định lý 1.5 Xét ánh xạ được xây dựng trong Định nghĩa 1.6 Tập ảnh v[H(x)] là
tập trù mật trong đoạn I(x) = [v(x), v(x)], x X*, với v(x) = infimum v[H(x)], v(x) = supremum v[H(x)] và fm(x) = v(x) - v(x), tức nó bằng độ dài của đoạn
tỷ lệ : hoặc : Tất nhiên ta có v(h j u)I(h j u) Việc chia này bao giờ cũng thực
hiện được. Bằng cách như vậy, ta chia đoạn thẳng xuất phát I(x) thành p+q đoạn
con và tương tự như vậy, với mọi y H(x), y = h n h 1 x, h 1, ,h n H, ta có thể chia
Trang 27đoạn con I(y) thành p+q đoạn con và đoạn con thứ i có độ dài là fm(h i y) =
(h i )fm(y) = (h i )(h n )(h n-1 ) (h 1 )fm(x) n+1
fm(x), trong đó = Max{(h j ): j
[-q^p]} < 1 Ta cũng có v(h j y)I(h j y)
Bây giờ ta có thể dễ dàng chứng minh rằng tập ảnh v[H(x)] là tập trù mật trong
đoạn I(x) Ta lấy một đoạn thẳng [a,b] có độ dài > 0 bất kỳ Với mọi phần tử
trong H(x) có dạng y = h n h 1 x, h 1, ,h n H và với n đủ lớn, đoạn thẳng I(x) được
chia thành các đoạn con có độ dài không vượt quá n+1
fm(x) < /2 Vậy có tồn tại
một đoạn con I(y’), y’ H(x), với v(y’)I(y’), thu được từ cách chia đoạn I(x) như trên nằm trọn trong đoạn [a,b] Điều này chứng tỏ tập ảnh v[H(x)] là tập trù mật
trong đoạn I(x)
Dễ dàng nhận thấy rằng v(h j x), v(h j x), được xác định trong 3) của Định nghĩa
1.6, là cận dưới đúng và cận trên đúng của đoạn thẳng I(h j x) Vậy ánh xạ v thỏa
mãn điều kiện Q3), Định nghĩa 1.5
Từ tính trù mật này ta suy ra I(x) = [v(x), v(x)] Do đó d(v(H(x))) = fm(x) = v(x) - v(x)
Ta có hệ qủa trực tiếp của mệnh đề trên như sau
Hệ quả 1.1 Cho AX* là đại số gia tử tuyến tính, đầy đủ và v là ánh xạ được xây
dựng như trong Định nghĩa 1.6 Khi đó tập ảnh v[H(G)] trù mật trong [0,1]
Định lý 1.6 v là ánh xạ ngữ nghĩa định lượng và thỏa mãn tính chất:
))) ( ( (
))) ( ( ( ))) (
(
(
))) (
(
(
y H v d
hy H v d x
Trang 28(fm(Small)= 0.5 , fm(Large)= 0.5), fm(Little) = 0.4, fm(Possibly) = 0.1, fm(More)= 0.1, fm(Very) = 0.4 Khi đó ta có bảng một số giá trị hàm như sau:
1.1.4.1.6 Sự tương tự tô-pô của dữ liệu định nghĩa bởi ánh xạ định lượng ngữ nghĩa
Chúng ta hãy cùng xem xét một biến ngôn ngữ và giả thiết rằng không gian tham chiếu là UA, nghĩa là các phần tử của UA là dữ liệu rõ Bộ dữ liệu ngôn ngữ mô tả giá trị trong UA hay miền ngôn ngữ của A được ký hiệu là LDom(A) Vì trong nhiều trường hợp, một biến A có thể nhận giá trị trong UA cũng như trong một tập
ngôn ngữ X = LDom(A) của biến ngôn ngữ A, chúng ta có thể xét một miền hỗn hợp của A và đặt D A = LDom(A) U A
Câu hỏi đặt ra là làm thế nào để chúng ta có thể định nghĩa sự tương tự của dữ liệu
trong một miền hỗn hợp D A?
Theo phương pháp kinh điển, mỗi dữ liệu ngôn ngữ đều được hiểu là một tập mờ
trong U A Rõ ràng theo cách thể hiện dữ liệu mờ này, việc xử l ý dữ liệu khó hơn so với xử lý dữ liệu rõ Đặc biệt việc xác định sự tương tự dữ liệu bằng một phương pháp hợp l ý không hề đơn giản
Trang 29Chúng ta sẽ trả lời câu hỏi này theo cách chúng ta có thể xử l ý dữ liệu trong các cơ
sở dữ liệu một cách dễ dàng và theo một phương pháp thống nhất
Đầu tiên, chúng ta thấy rằng trong trường hợp này các kiểu dữ liệu của thuộc tính A
không phải là duy nhất Để thống nhất các dạng dữ liệu, chúng ta sử dụng một ánh
xạ định lượng ngữ nghĩa A gắn với một biến A để biến đổi tuyến tính dữ liệu ngôn
ngữ sang dữ liệu thực, nghĩa là A : X → U A Như vậy, mỗi dữ liệu ngôn ngữ x của
A có thể được coi như là nhãn của một giá trị thực được định nghĩa bởi A Vì A (x)
U A, chúng ta có thể thiết lập một phương pháp xử l ý dữ liệu dạng thực và dạng ngôn ngữ bằng một phương pháp thống nhất
Vì giá trị thực A (x) chỉ là một đại diện của thuật ngữ không chắc chắn x, chúng ta
không thể đơn thuần sử dụng A (x) thay cho x khi so sánh với dữ liệu thực và các
giá trị ngôn ngữ của A Vì vậy, vấn đề quan trọng hiện nay là làm thế nào để chúng
ta có thể định nghĩa được một khái niệm về sự tương tự ngữ nghĩa của dữ liệu trong
D A
Chúng ta đã biết, tập ’ = {H(x): x H(G)}{X} được coi là cơ sở của một tô-pô
, nghĩa là (X, ) trở thành một không gian tô-pô được định nghĩa bởi ’, và H(x), tập tất cả các thuật ngữ xuất phát từ nghĩa của x, thể hiện một sự tương tự ngữ nghĩa
giữa các phần tử của nó Bên cạnh đó, vì A bảo toàn quan hệ thứ tự ngữ nghĩa trên
X, chúng ta có thể coi khoảng (x) = (A(x), A(x)] như một lân cận của phần tử
A (x) U A và gọi nó là lân cận ngữ nghĩa của thuật ngữ mờ x Nó phản ánh một mức độ tương đồng về ngữ nghĩa giữa x và giá trị thực trong khoảng (x)
Dựa trên phân tích này, chúng ta có thể xử l ý dữ liệu trong một cơ sở dữ liệu theo cách thông thông thường và thống nhất như được trình bày dưới đây Tuy nhiên,
vấn đề đặt ra là làm thế nào để chúng ta có thể tìm một lân cận của thuật ngữ x đủ
nhỏ ở mức mà chúng ta mong muốn? Chúng ta có thể tiến hành như sau:
Trang 30Cho trước một miền thuật ngữ X của một biến ngôn ngữ A K ý hiệu X k là tập tất
cả các thuật ngữ của x có độ dài k, nghĩa là X k = {x X: l(x) = k} Phần tử nhỏ nhất trong X k được k hiệu là x 0k Chú ý là A(x 0k) = 0 Ta hãy đưa ra các ký pháp như sau: Đặt (x) = (A(x), A(x)], với x X k và x x 0k , và (x 0k) = [A(x 0k ),
A(x 0k)] hoặc đặt (x) = [A(x), A(x)] nếu A(x) = 0 Bằng phương pháp quy
nạp, có thể thấy rằng:
(1) Đặt (X k) = {(x 0k) = [A(x 0k ), A(x 0k)]} {(x) = (A(x), A(x)]: x
X k & x x 0k } và gọi các thành phần của nó là lân cận mức k Khi đó (X k) là một
phân hoạch của khoảng U A, nghĩa là:
(i) Bất kỳ 2 lân cận khác nhau trong (X k) đều rời nhau; và
(ii) Hợp của tất cả các lân cận trong (X k ) bằng U A
(2) Phân hoạch (X k+1) mịn hơn (X k), nghĩa là mỗi khoảng của (X k+1) thuộc một khoảng của (X k) Nếu chúng ta gọi k là độ dài lớn nhất của các khoảng trong
(X k) và là độ mờ lớn nhất của các gia tử trong H, khi đó ta có k+1 ≤ k ≤ k1
Vì < 1, nên thuật ngữ x càng cụ thể (hoặc càng dài) thì khoảng (x) càng nhỏ
(3) Ánh xạ A (x) của mỗi thuật ngữ term x X j có độ dài j ≤ k luôn là điểm mút
chung của hai phân hoạch thuộc khoảng (X k+1)
Định nghĩa 1.9 Với mỗi thuật ngữ x = h k-1 h 1 c có độ dài k, c G, một tập hợp các khoảng, ký hiệu là NeiG d
(x), d ≥ k, được gọi là một hệ lân cận ngữ nghĩa cơ sở với độ dài d của x theo ánh xạ A, nếu nó bao gồm những phân hoạch sau:
1) k (x) = (x) = (A(x), A(x)], một khoảng với độ sâu k của x;
2) j (x), với d ≥ j > k, j (x) là khoảng được định nghĩa là hợp giữa hai khoảng với độ sâu j có giá trị A (x) là điểm mút chung Nó cũng được gọi là một lân cận có
độ sâu j của thuật ngữ x
Trang 31Rõ ràng A (x) luôn là một điểm trong của mọi lân cận ngữ nghĩa của NeiG d(x) Cần
lưu ý là cách định nghĩa các lân cận theo định nghĩa trên phụ thuộc vào quan hệ
giữa chỉ số biểu thị độ sâu của một lân cận của thuật ngữ x và độ dài của x
Ví dụ 1.2: Chúng ta hãy xem xét một đại số gia tử tuyến tính về AGE, AX = (X, G,
C, H, , , ), với G = {young, old}, H = {P, L} và H + = {M, V}, P, L, M và V là các chữ viết tắt tương ứng của Possibly, Little, More và Very Giả sử D A = [0, 120],
fm(old) = 0.55, fm(young) = 0.45, (P) = 0.32, (L) = 0.20, (M) = 0.30 và (V) =
0.18 Như vậy = 0.52 và = 0.48
1) Lân cận ngữ nghĩa của young: Theo định nghĩa A (young) = (0.45 – 0.45×0.52)×120 = 0.234×120 = 28.08 Hệ lân cận ngữ nghĩa cơ sở với độ sâu là 1 của từ young, NeiG 1
(young), bao gồm một phân hoạch duy nhất (young) =
[A(young), A(young)] = [0, fm(young)×120] = [0, 54.00];
Hệ lân cận ngữ nghĩa cơ sở với độ sâu 2 của từ young, NeiG 2
(young), bao gồm
phân hoạch (young) = [0, 54.00] và phân hoạch (A(Myoung), A(Myoung)] (A(Pyoung), A(Pyoung)] = (A(Myoung), A(Pyoung)] = (A (young) – fm(M young), A (young) + fm(Pyoung)] = (28.08 – 0.135×120, 28.08 + 0.144×120) = (11.88, 45.36], vì Myoung and Pyoung là các từ lân cận trái và phải với độ sâu 2 của
young và Myoung = Pyoung = young
Lân cận với độ sâu 3 của young theo A là phân hoạch 3 (young) = (A(LM young), A(LMyoung)] (A(VPyoung), A(VPyoung)] = (A(LMyoung),
A(VPyoung)] = (A (young) fm(LMyoung), A (young) + fm(VPyoung)] = (28.08
Trang 322) Các lân cận ngữ nghĩa của Possibly young: Theo định nghĩa, A (Pyoung)
chia khoảng (A (young), A (W)] theo tỷ lệ : và do vậy A (Pyoung) = 28.08 +
= (35.3376, 37.369728]
Trang 33CHƯƠNG 2 – XÂY DỰNG MÔ HÌNH CSDL QUAN HỆ VỚI
THÔNG TIN NGÔN NGỮ 2.1 Giới thiệu chung về cơ sở dữ liệu với thông tin ngôn ngữ
Xét một lược đồ CSDL quan hệ DB = {U, R 1 , R 2 , …, R m ; Const}, trong đó U = {A 1,
A 2 , …, A n } là tập vũ trụ các thuộc tính, R i lược đồ quan hệ, tức là một tập con của
U, Const là một tập các ràng buộc dữ liệu của CSDL Mỗi thuộc tính A j được gắn
với một miền giá trị thuộc tính, ký hiệu là Dom(A j), trong đó một số thuộc tính cho phép nhận các giá trị ngôn ngữ trong lưu trữ trong CSDL hay trong các câu hỏi truy
vấn và được gọi là thuộc tính ngôn ngữ Những thuộc tính còn lại được gọi là thuộc tính thực hay kinh điển Thuộc tính thực A được gắn với một miền giá trị kinh điển,
ký hiệu là D A Thuộc tính ngôn ngữ A sẽ được gắn một miền giá trị kinh điển D A và một miền giá trị ngôn ngữ LD A.
Giả sử một thuộc tính Ai gắn với một miền D(A i ) = D Ai LDom(Ai) Các thành
phần của D Ai được ký hiệu bởi a, b, c, với các chỉ số nếu cần, và các thành phần của LDom(A i ) được ký hiệu bằng x, y, z, u, v, cũng với các chỉ số nếu cần
Một bộ t trên U là một ánh xạ t: U → D(A 1 )D(A 2 ) D(A n ) sao cho t(A i ) D(A i ), với 1≤ i ≤ n Các bộ được ký hiệu bởi t, s với chỉ số khi cần t[A i] được hiểu là giá trị
của bộ t tại thuộc tính A i Với một tập con X bất kỳ thuộc U, t[X] biểu thị ánh xạ t giới hạn trên X và được gọi là bộ trên X
Chúng ta hãy xét một lược đồ quan hệ, tức tập R của U Một thể hiện của R là một
tập các bộ trên R và được gọi là quan hệ Các quan hệ của R được biểu diễn bởi
r[R], s[R], Nếu R không gây hiểu nhầm thì có thể bỏ đi trong ký pháp này
Vì t có thể nhận các giá trị thực và giá trị ngôn ngữ, ta cần có cách để thao tác dữ
liệu dựa trên ngữ nghĩa Nếu ta diễn giải dữ liệu ngôn ngữ như là nhãn các tập mờ thì có thể thao tác dữ liệu dựa trên lý thuyết tập mờ và ta có khái niệm cơ sở dữ liệu
mờ
Trang 34Trong phạm vi nghiên cứu của luận văn, miền ngôn ngữ LDom(A i) được giả định là
một tập con của tập nền ĐSGT tuyến tính đầy đủ AX Ai của biến ngôn ngữ A i Điều
đó có nghĩa là ta có thể quản lý ngữ nghĩa của dữ liệu dựa trên đại số gia tử và xem xét các thành phần của chúng như là các thuật ngữ Theo quan điểm này, mô hình
cơ sở dữ liệu được ra được gọi là một mô hình cơ sở dữ liệu quan hệ với dữ liệu ngôn ngữ
Một câu hỏi chính đưa ra là làm sao ta có thể thao tác dữ liệu của một cơ sở dữ liệu như vậy?
Thông thường, nền tảng của việc thao tác dữ liệu là ĐSGT, một số thao tác quan trọng như "select", "join", , được định nghĩa dựa trên ngữ nghĩa dữ liệu để đánh giá các quan hệ đối sánh = , ≤, ≥, < và > Như vậy, với kiểu dữ liệu ngôn ngữ mới, làm sao chúng ta có thể định nghĩa những quan hệ đối sánh này trên miền dữ liệu tương ứng?
Ta sẽ trả lời câu hỏi này sao cho có thể quản lý được dữ liệu trong CSDL theo một cách phù hợp về ngữ nghĩa và thuận tiện nhất
Cho t và s là hai bộ định nghĩa trên U Mỗi thuộc tính A i sẽ được trang bị một ánh xạ định lượng (A i ): LDom(A i ) → U Ai Câu hỏi đầu tiên là làm sao chúng ta có thể định
nghĩa được một quan hệ "bằng" trên D(A i), trong đó dữ liệu ngôn ngữ (dữ liệu không chắc chắn) tồn tại cùng dữ liệu thực? Định nghĩa quan hệ "bằng" dường như
là hợp lý nếu nó thỏa mãn các điều kiện sau:
1 Liên tục
2 Về nguyên tắc, nếu có "đủ" các bằng chứng chỉ ra rằng hai dữ liệu
trong D(A i) là khác nhau, chúng không thể thỏa mãn quan hệ "bằng" Trong trường hợp của chúng ta, hãy xem xét các chi tiết sau như là những bằng chứng đầy đủ cho sự khác nhau:
(i) Hai giá trị thực khác nhau;
(ii) Hai dữ liệu ngôn ngữ cụ thể nhất có trong CSDL
Trang 35Tuy nhiên, để khai thác ngữ nghĩa của dữ liệu ngôn ngữ trong CSDL, ta đưa ra một
ký pháp "bằng nhau mức k", với k là một số nguyên Vấn đề này dường như phụ thuộc vào cách chúng ta hiểu ngữ nghĩa của dữ liệu ngôn ngữ trong D(A i) một cách chính quy
Đầu tiên, chúng ta định nghĩa một quan hệ "bằng" mức k trên D(A i) Với mỗi số
nguyên dương k, đặt X(k) = { x LDom(A i ): l(x)≤ k} = X 1 X 2 X k có
nghĩa là X(k) là tập các dữ liệu ngôn ngữ có độ sâu không lớn hơn k
Xét hai phân hoạch (X k) và (X k+1 ) của khoảng D Ai Dựa trên nghiên cứu của phần trước, sự tương tự về tô-pô của dữ liệu định nghĩa theo ánh xạ định lượng ngôn ngữ,
chúng ta định nghĩa lân cận mức k của các thuật ngữ trong một CSDL như sau: (N1) Với mỗi x X(k-1), Ai (x) là một điểm mút của các khoảng nhất định
thuộc phân hoạch (X k) Ta đặt k (x) = k (x), lân cận mức k của thuật ngữ x được định nghĩa, như trong phần trước, là hợp của hai khoảng có độ sâu k+1
nằm phía trái và phía phải của điểm Ai (x);
(N2) Với mỗi y X k, đặt k (y) = (y) \ ( 1 ) ( )
k X
x k x ;
(N3) Với mỗi x = h j-1 … h 1 c X j , trong đó c G và j > k, đặt k (y) = k (h k-1 …
h 1 c), nghĩa là lân cận mức k của một thuật ngữ có độ sâu lớn hơn k chính là lân cận mức k của hậu tố của nó với độ sâu k
Trang 36Để minh họa, ta hãy xem xét một ví dụ cho trong hình 4 Với x có độ sâu nhỏ hơn k, nghĩa là x X(k-1), lân cận k (x) = k (x) mức k của x là hợp của hai khoảng của
(X k+1), hai tập con của các khoảng nhất định của (X k ) Chẳng hạn, xét y X k và
x, x’ X(k-1) trong hình, k (x) = (h -2 y) (h 2 u’) và k (x’) = (h 2 y) (h 2 u’’) Với x = h j y, trong đó l(y) = k, ta có k (x) = k (y) = (h -1 y) (h 1 y) Như được
chứng minh trong phần sau, chúng ta thấy rằng họ {k (x): x X(k)} là một phân hoạch của D Ai Ngoài ra, với mỗi x X(k), Ai (x) k (x) và, hơn nữa, đó là một
điểm trong tô-pô của k (x) Do vậy, chúng ta sẽ gọi nó là một hệ lân cận mức k của
các giá trị ngôn ngữ của A i theo Ai
Định lý 2.1 Cho một ĐSGT tuyến tính đầy đủ, trong đó tập các gia tử H and H +
có ít nhất hai phần tử Khi đó, họ các khoảng {k (x): x X}, lân cận mức k của dữ liệu ngôn ngữ của thuộc tính A i , là một phân hoạch của D Ai và do đó, mỗi thuật ngữ
x của A i có một lân cận mức k duy nhất Ngoài ra, với mỗi x X, Ai (x) là một điểm trong của k (x)
Chứng minh: Ai (x) là một ánh xạ một-một từ X vào D Ai và (X k+1) là một phân
hoạch của D Ai mịn hơn (X k ) Do H và H + có ít nhất hai phần tử, mỗi khoảng của
(X k ) định nghĩa theo x X k chứa ít nhất bốn khoảng con được định nghĩa bới các
phần tử theo dạng hx, h H = H H + Vì với mỗi x X(k-1), Ai (x) là một điểm
mút của một số khoảng của phân hoạch (X k ) và theo (N1), k (x) = k (x) là hợp của
hai khoảng trong (X k+1) nằm phía bên phải và trái của điểm Ai (x), suy ra {k (x): x
X(k-1)} là họ các khoảng rời nhau Rõ ràng rằng Ai (x) là một điểm trong của
k (x)
Ta cũng nhận thấy, (N2) cho thấy {k (x): x X(k)} = {k (x): x X(k-1)} {k (y):
y X k } là một họ các tập rời nhau Ta cần chứng minh rằng, với mỗi y X k, k (y)
và nó là một khoảng Thực ra, chúng ta cần xem xét khoảng (y) Dễ nhận thấy rằng nó được định nghĩa là ảnh của tập H e (y) theo ánh xạ Ai và (y) chứa các
Trang 37khoảng hữu hạn có độ sâu k+1 theo thứ tự sau: hoặc (h -q y) < (h -q+1 y) < … < (h
-1 y) ≤ Ai (y) < (h 1 y) < … < (h p y) hoặc (h p y) < (h p-1 y) < … < (h 1 y) ≤ Ai (y) <
(h -1 y) < … < (h -q y) Cần lưu ý rằng không phần tử nào của H(y) có độ sâu nhỏ hơn k hoặc nếu x H(y) có độ sâu nhỏ hơn k, thì Ai (x) phải là một điểm mút của
(y) Do đó, phụ thuộc vào việc các điểm mút của (y) có phải là ảnh của các phần
tử của X(k-1) hay không, k (y) sẽ không chứa một trong hai khoảng, (h -q y) và
(h p y) hoặc cả hai Rõ ràng là, trong mọi trường hợp, k (y) là một khoảng và Ai (y)
làm một điểm trong của k (y)
Vì với mỗi j > k, {k (y): y X j} {k (y): y X k}, ta dễ thấy từ định nghĩa rằng {k (x): x X} là một phân hoạch của D Ai.
Bây giờ chúng ta đã sẵn sàng đưa ra khái niệm “bằng không chắc chắn” trên D(A i)
của thuộc tính ngôn ngữ A i
Định nghĩa 2.1 Giả sử t và s là hai bộ trên U Ta sẽ viết t[A i] =,k s[A i] và gọi nó là
đẳng thức mức k, nếu các điều kiện sau được thỏa:
(i) Nếu t[A i ], s[A i] D Ai thì t[A i ] = s[A i];
(ii) Nếu chỉ có một trong hai bộ t[A i ], s[A i ], chẳng hạn t[A i], là dữ liệu ngôn ngữ, thì
s[A i] k (t[A i]);
(iii) Nếu cả hai t[A i ], s[A i] là dữ liệu ngôn ngữ, thì k (t[A i]) = k (s[A i])
Có thể dễ kiểm chứng rằng “đẳng thức” =,k mức k thỏa tất cả các điều kiện trên Ở
đây ta hiểu rằng nếu một trong những điều kiện trên không thỏa, ta xem như có đủ
bằng chứng (mức k) để chỉ ra rằng hai giá trị là khác nhau
Theo thông lệ, ký pháp ,k nghĩa là mệnh đề t[A i] ,k s[A i ] là đảo của t[A i] =,k
s[A i ], hay mệnh đề t[A i] =,k s[A i] là không đúng
Suy trực tiếp từ Định lý 2.1 and Định nghĩa 2.1, ta có:
Trang 38Hệ quả 2.1 Với hai bộ s và t bất kỳ định nghĩa trên U và thuộc tính A i , hoặc t[A i]
=,k s[A i ] hoặc t[A i] ,k s[A i ], ngoài ra, đẳng thức =,k mức k ở trên là liên tục trên miền D(A i)
Phát biểu này cho ta khả năng định nghĩa các quan hệ đối sánh mức k khác giữa các phần tử trong D(A i) một cách dễ dàng Để đơn giản hóa việc phát biểu trong các định nghĩa sau, chúng ta chấp nhận một quy ước về cách sử dụng k (t[A i]) như sau:
với t[A i] D Ai, k (t[A i ]) biểu thị giá trị thực t[A i ] và, với một dữ liệu ngôn ngữ t[A i],
k (t[A i]) biểu thị lân cận k (t[A i]) định nghĩa ở trên
Với hai lân cận bất kỳ k (x) và k (y), ta sẽ viết k (x) < k (y), nếu u < v, với u
k (x) và v k (y) bất kỳ
Định nghĩa 2.2 Cũng với giả thiết như trên,
(i) Ta sẽ viết t[A i] ≤,k s[A i ], nếu hoặc t[A i] =,k s[A i ] hoặc k (t[A i]) < k (s[A i]);
(ii) Ta sẽ viết t[A i] <,k s[A i ], nếu k (t[A i]) < k (s[A i]);
(iii) Ta sẽ viết t[A i] >,k s[A i ], nếu k (t[A i]) > k (s[A i])
Những quan hệ này được gọi là các quan hệ đối sánh mờ trên một CSDL với dữ liệu ngôn ngữ
Định lý 2.2 Với hai giá trị bất kỳ t[A i ], s[A i] D(A i ), chỉ một trong hai điều kiện sau thỏa:
(i) t[A i] =,k s[A i ]; (ii) t[A i] <,k s[A i ]; (iii) t[A i] >,k s[A i]
Chứng minh: Theo hệ quả 3.1, với hai bộ s và t bất kỳ ta có hoặc t[A i] =,k s[A i] hoặc
t[A i] ,k s[A i ] Trong trường hợp t[A i] ,k s[A i], có ba khả năng xảy ra:
1) Nếut[A i ] và s[A i] là các giá trị thực, định lý hiển nhiên đúng
2) Nếu chỉ một trong hai bộ t[A i ] và s[A i ] là giá trị thực, chẳng hạn t[A i], thì ta có
t[A i] k (s[A i ]) và do đó, hoặc t[A i] <,k k (s[A i ]) hoặc t[A i] >,kk (s[A i]) Các bất
Trang 39đẳng thức này chỉ ra theo (ii) và (iii) của Định nghĩa =23.2, rằng hoặc t[A i] <,k s[A i]
hoặc t[A i] >,k s[A i]
3) Nếu t[A i ] và s[A i] là các giá trị ngôn ngữ, thì suy ra các khoảng k (t[A i]) và
k (s[A i ]) là rời nhau và ta có hoặc t[A i] <,k s[A i ] hoặc t[A i] >,k s[A i], theo Định nghĩa 2.2.
Ví dụ 2.1 Giả thiết giống như trong ví dụ 1.2 Ta sẽ định nghĩa hệ lân cận mức 2
và các quan hệ đối sánh mức 2 theo A
1) Hệ lân cận mức 2 của các thuật ngữ thuộc X(2) không lớn hơn young: Tập X 1 với
các phần tử mức 1 không lớn hơn young chỉ chứa young Do vậy, nếu biểu thị young bởi y, ta có 2 (y) = 2 (y) = (LMy) (VPy) = (28.08 –
0.200.300.45120, 28.08 + 0.180.320.45120] = (24.84, 31.1904], trong đó như đã chỉ ra trong ví dụ 1.2, A (young) = 28.08
Các thuật ngữ mức 2 không lớn hơn young là “More young” và “Very young” Chúng ta có (Hình 5): 2 (Very young) = (Very young) = (A(Vy), A(Vy)] = [0,
A (y)-(My)] = [0, 28.08 – 0.300.45120] = [0, 11.88] and 2 (More young) =
(More young) \ (LMy) = (11.88, 28.08 – 0.200.300.45120] = (11.88, 24.84]
2) Ta đưa ra một số ví dụ về quan hệ đối sánh mức 2 trên D(A) định nghĩa bởi một
SQM : Theo định nghĩa 2.2, có thể thấy rằng MV young =,2 LV young =,2 V young và PM young =,2 M young; V young <,2 young và young <,2 54, vì
2 (young) < 54, nhưng 54 =,1 young suy ra từ 54 1 (y) = (y) = [0, 54])
Trang 40Hình 5: Ví dụ về hệ lân cận
Trong các ứng dụng, chúng ta thường sử dụng một số lượng nhất định các dữ liệu
ngôn ngữ Do đó, ta có thể giả thiết rằng số dữ liệu ngôn ngữ của A i là hữu hạn và
do vậy ta có thể giả thiết rằng có một độ dài lớn nhất k i cho những dữ liệu ngôn
ngữ Trong trường hợp này, các thao tác đối sánh mức k i có các tính chất sau:
Định lý 2.3 Giả thiết rằng tập LDom(A i ) các dữ liệu ngôn ngữ của một thuộc tính
A i , tập nền X của một ĐSGT tuyến tính đầy đủ AX, là hữu hạn và k i là độ sâu lớn nhất của dữ liệu thuộc LDom(A i ) Khi đó,
(i) Tất cả các quan hệ đối sánh mờ =,k, ,k, ≤,k, ≥,k, <,k và >,k với k > k i là trùng tương ứng với =,ki, ,ki, ≤,ki, ≥,ki, <,ki và >,ki và vì thế trong trường hợp này chúng ta sẽ sử dụng ký pháp =, , ≤, ≥, < và > thay cho =,ki, ,ki,
≤,ki, ≥,ki, <,ki và >,ki
(ii) Các quan hệ đối sánh mờ =, , ≤, ≥, < và > trên LDom(A i ) là trùng với =, , ≤, ≥, < và > định nghĩa trên X
Chứng minh: (i) Vì k i là độ sâu lớn nhất của dữ liệu ngôn ngữ trong X, ta có X(k) = X(k i ) với mỗi k > k i Chúng ta có {k (x): x X(k)} = {ki (x): x X(k i)}, điều này
chứng tỏ (i) là đúng
(ii) Để chứng minh (ii) chỉ cần chứng tỏ rằng ki (x) chứa một phần tử duy nhất của
Ai (X(k i)) Thực ra, vì mỗi lân cận ki (x) chứa một phần tử duy nhất của Ai (X(k i)),
ta suy ra, với x, y X, x = y nếu và chỉ nếu if Ai (x) = Ai (y), suy ra x = y Ta biết
rằng Ai bảo toàn thứ tự của X, tập {ki (x): x X(k i )} là một đẳng cấu vào X Điều
này chứng tỏ tính đúng đắn của phát biểu cho các quan hệ đối sánh còn lại
Bây giờ ta chỉ ra rằng mỗi lân cận ki (x) chứa một phần tử duy nhất của Ai (X(k i))
Ta biết rằng ảnh của phần tử bất kỳ của X(k i -1) theo ánh xạ Ai là điểm mút của họ