Biểu diễn dữ liệu mờ bằng ngôn ngữ XML và ứng dụng

Nhiều môhình CSDL mờ mở rộng từ mô hình CSDL quan hệ cổ điển do Codd đề xuất dựatrên cơ sở lý thuyết tập mờ của Zadeh được phát triển, tiêu biểu là mô hình tập con mờ, mô hình dựa trên q

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG

NGUYỄN ĐÌNH HUY

BIỂU DIỄN DỮ LIỆU MỜ BẰNG NGÔN NGỮ XML VÀ ỨNG DỤNG

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thái Nguyên - Năm 2013

Trang 2

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: PGS.TS Đoàn Văn Ban

Thái Nguyên - Năm 2013

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi dưới sự hướng dẫn trực tiếp của PGS.TS Đoàn Văn Ban.

Mọi trích dẫn sử dụng trong báo cáo này đều được ghi rõ nguồn tài liệu tham khảo theo đúng qui định.

Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi xin chịu hoàn toàn trách nhiệm.

Thái Nguyên, ngày tháng năm 2013

Tác giả

Nguyễn Đình Huy

Trang 4

MỤC LỤC

Trang

LỜI CAM ĐOAN i

MỤC LỤC ii

CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT iv

DANH MỤC BẢNG v

DANH MỤC HÌNH vi

MỞ ĐẦU 1

CHƯƠNG 1 CÁC MÔ HÌNH BIỂU DIỄN CƠ SỞ DỮ LIỆU MỜ 4

1.1 CƠ SỞ DỮ LIỆU MỜ 4

1.1.1 Một số khái niệm 4

1.1.2 Các mô hình cơ sở dữ liệu mờ 5

1.2 ĐẠI SỐ GIA TỬ 8

1.2.1 Một số khái niệm 8

1.2.2 Các tính chất của độ đo tính mờ trong ĐSGT 11

1.3 MÔ HÌNH BIỂU DIỄN CSDL MỜ THEO CÁCH TIẾP CẬN ĐSGT 12 1.3.1 Ngữ nghĩa dữ liệu dựa trên việc định lượng ĐSGT 13

1.3.2 Xấp xỉ dữ liệu mờ theo cách tiếp cận ĐSGT 16

1.3.3 Ngữ nghĩa dữ liệu dựa trên lân cận tôpô của ĐSGT 23

1.4 NGÔN NGỮ ĐÁNH DẤU MỞ RỘNG XML 26

1.4.1 Giới thiệu về ngôn ngữ XML 26

1.4.2 Cấu trúc tài liệu XML 28

Trang 5

1.4.3 Các thành phần cơ bản trong tài liệu XML 29

1.4.4 Định nghĩa kiểu tư liệu (DTD) 30

1.5 TỔNG KẾT CHƯƠNG 32

CHƯƠNG 2 BIỂU DIỄN DỮ LIỆU MỜ BẰNG NGÔN NGỮ XML 33

2.1 MÔ HÌNH TỔNG QUÁT 33

2.2 ĐỀ XUẤT GIẢI PHÁP 34

2.2.1 Mờ hóa cơ sở dữ liệu bằng đại số gia tử 34

2.2.2 Biểu diễn dữ liệu mờ hóa bằng XML 36

2.2.3 Truy vấn trên dữ liệu mờ 40

CHƯƠNG 3 XÂY DỰNG ỨNG DỤNG 55

3.1 MÔ TẢ ỨNG DỤNG 55

3.2 CÔNG CỤ LỰA CHỌN 55

3.3 PHÁT TRIỂN CÁC MODUL 55

3.3.1 Modul biểu diễn dữ liệu mờ 55

3.3.2 Modul biểu diễn truy vấn mờ 56

3.4 GIAO DIỆN CHƯƠNG TRÌNH 57

3.5 THỬ NGHIỆM VÀ ĐÁNH GIÁ 60

KẾT LUẬN 65

Trang 6

CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Tiếng Anh

DTD Doucument Type Definition Định nghĩa kiểu tài liệu

HTML Hypertext markup language Ngôn ngữ đánh dấu siêu văn bảnHTTP HyperText Transfer Protocol Giao thức truyền tải siêu văn bản

XML eXtensible Markup Language Ngôn ngữ đánh dấu mở rộngSQL Structured Query Language Ngôn ngữ truy vấn có cấu trúc

Tiếng Việt

Trang 7

DANH MỤC BẢNG

Tran

Trang 8

DANH MỤC HÌNH

Trang

Hình 2: Mô hình tổng quát của hệ thống 33

Hình 3: Cấu trúc một cơ sở dữ liệu mờ lylich đã được mờ hóa 56

Hình 4: Cấu trúc file lưu trữ câu truy vấn mờ bằng XML 57

Hình 5: Giao diện chính của chương trình 58

Hình 6: Giao diện chức năng lựa chọn các trường thuộc tính mờ 59

Hình 7: Giao diện chức năng cập nhật tập gia tử 59

Hình 8: Cơ sở dữ liệu nguồn 60

Hình 9: Xác định miền giá trị của thuộc tính Lương 61

Hình 10: Xác định tập phần tử sinh của thuộc tính Lương 61

Hình 11: Xác định tập gia tử 62

Hình 12: Cấu trúc của trường thuộc tính mờ 62

Trang 9

MỞ ĐẦU

1 Lý do chọn đề tài

Trong những năm gần đây, việc xây dựng và phát triển các hệ cơ sở dữ liệu(CSDL) mờ phục vụ cho việc thu thập, xử lý và khai thác những dữ liệu với thôngtin không chắc chắn, không đầy đủ - là những dạng dữ liệu mà con người vẫnthường xuyên xử lý trong thực tế - được nhiều nhà nghiên cứu quan tâm Nhiều môhình CSDL mờ mở rộng từ mô hình CSDL quan hệ cổ điển do Codd đề xuất dựatrên cơ sở lý thuyết tập mờ của Zadeh được phát triển, tiêu biểu là mô hình tập con

mờ, mô hình dựa trên quan hệ tương tự, mô hình dựa trên lý thuyết khả năng, Song song với việc phát triển các mô hình, nhiều công trình nghiên cứu việc xử lý

và khai thác dữ liệu mờ từ các mô hình CSDL mờ cũng được phát triển, tiêu biểu làcác nghiên cứu về các phụ thuộc dữ liệu mờ, các ngôn ngữ hỏi mềm dẻo, khai phátri thức từ dữ liệu, Những nghiên cứu về CSDL mờ đã và đang được tiếp tục pháttriển trong nước và trên thế giới

Trong luận văn này, chúng tôi tập trung nghiên cứu cách biểu diễn dữ liệu mờbằng ngôn ngữ XML Mô hình CSDL mờ được biểu diễn là mô hình dựa trên lýthuyết của đại số gia tử (ĐSGT) Mục đích nghiên cứu của đề tài là ứng dụng lýthuyết về mô hình cơ sở dữ liệu mờ, sử dụng ngôn ngữ XML để biểu diễn nhiềudạng dữ liệu mờ khác nhau, cho phép mờ hóa CSDL sẵn có nhằm thu thập, lưu trữ

và thực hiện các truy vấn trên cơ sở dữ liệu mờ ứng dụng trong việc khai phá dữliệu nhằm đưa ra các dự báo trong tương lai

2 Mục tiêu của đề tài

Mục đích nghiên cứu của đề tài là ứng dụng lý thuyết về mô hình cơ sở dữ liệu

mờ, sử dụng ngôn ngữ XML để biểu diễn nhiều dạng dữ liệu mờ khác nhau, chophép mờ hóa cơ sở dữ liệu sẵn có nhằm thu thập, lưu trữ và thực hiện các truy vấntrên cơ sở dữ liệu mờ ứng dụng trong việc khai phá dữ liệu nhằm đưa ra các dự báotrong tương lai

Trang 10

3 Đối tượng nghiên cứu

- Tìm hiểu về mô hình CSDL mờ

- Tìm hiểu về ngôn ngữ XML

- Tìm hiểu về lý thuyết đại số gia tử

- Cách biểu diễn dữ liệu mờ bằng ngôn ngữ XML dựa trên lý thuyết về ĐSGT

4 Phương pháp nghiên cứu

Đề tài thực hiện dựa trên nhiều phương pháp nghiên cứu khác nhau: khảo sáttình hình thực tế về các vấn đề về sử dụng những thông tin không đầy đủ, khôngchắc chắn trong thực tế, vấn đề về lưu trữ và xử lý những thông tin đó, tìm hiểu vềcách xử lý thông tin nhân sự, nghiên cứu lý thuyết về cơ sở dữ liệu mờ dựa trên lýthuyết về đại số gia tử và ngôn ngữ XML Từ đó đề xuất giải pháp xây dựng hệ

thống “Quản lý thông tin nhân sự” ứng dụng mô hình cơ sở dữ liệu mờ theo hướng

tiếp cận đại số gia tử và sử dụng ngôn ngữ XML để biểu diễn

5 Ý nghĩa khoa học và thực tiễn của đề tài

- Xây dựng chức năng cho phép thu thập, lưu trữ những thông tin không chắcchắn, không đầy đủ của hệ thống quản lý nhân viên

- Cho phép lưu trữ, xử lý và thực hiện truy vấn trên những thông tin không chắcchắn, không đầy đủ, góp phần quan trọng trong lĩnh vực khai thác thông tin đặc biệt

là những thông tin mờ

- Kết quả của đề tài còn tiếp tục phát triển cho các tính toán và khai thác tri thức

từ cơ sở dữ liệu mờ

6 Bố cục của luận văn

Cấu trúc của luận văn gồm 3 chương và phần kết luận

Chương 1: Trình bày các khái niệm, tính chất về cơ sở dữ liệu mờ, ngôn ngữ

XML và Đại số gia tử

Trang 11

Chương 2: Đề xuất hướng giải quyết và đưa ra các mô hình cơ sở dữ liệu mờ

dựa trên lý thuyết về đại số gia tử đã được phân tích để giải quyết các yêu cầu của

hệ thống, đồng thời trình bày phương pháp sử dụng ngôn ngữ XML để biểu diễn cơ

sở dữ liệu mờ đó

Chương 3: Ứng dụng các kết quả của chương hai để bổ sung thêm chức năng

ứng dụng logic mờ trong hệ thống “Quản lý thông tin học sinh, nhân viên” Chứcnăng này cho phép thực hiện mờ hóa dữ liệu đã có, thu thập, lưu trữ cơ sở dữ liệu

mờ để làm dữ liệu nguồn cho các hệ thống khai phá dữ liệu để đưa ra các dự báotrong tương lai và đừa các truy vấn mờ trên CSDL đã được mờ hóa

Kết luận và kiến nghị: Những nội dung đã đạt được trong luận văn và định

hướng phát triển

Trang 12

CHƯƠNG 1 CÁC MÔ HÌNH BIỂU DIỄN CƠ SỞ DỮ LIỆU MỜ

Trong những năm gần đây, CSDL mờ được nhiều tác giả trong và ngoài nướcquan tâm nghiên cứu và đã có những kết quả đáng kể Có nhiều cách tiếp cận khácnhau như cách tiếp cận quan hệ mờ, tiếp cận trên tính tương tự, theo lý thuyết khảnăng,… hay mô hình cơ sở dữ liệu mờ theo cách tiếp cận đại số gia tử Để hiểu rõhơn về các vấn đề này, trong chương này sẽ tập trung trình bày những kiến thức vềđại số gia tử, mô hình biểu diễn cơ sở dữ liệu mờ theo cách tiếp cận đại số gia tử vàngôn ngữ XML

1.1 CƠ SỞ DỮ LIỆU MỜ

1.1.1 Một số khái niệm

1.1.1.1 Cơ sở dữ liệu quan hệ mờ

Mô hình cơ sở dữ liệu quan hệ (rõ) sử dụng khái niệm lý thuyết tập hợp để biểudiễn và liên kết dữ liệu Trong mô hình cổ điển này, mỗi giá trị trong quan hệ là giátrị nguyên tố Ngoại trừ giá trị null, mỗi thuộc tính phải có một giá trị chính xác vàkhông thể có giá trị mờ hoặc không chắc chắn Tuy nhiên, theo một số phương pháptiếp cận được đề xuất để mở rộng mô hình cơ sở dữ liệu cổ điển sang cơ sở dữ liệuquan hệ mờ, mỗi giá trị trong quan hệ mờ có thể là một tập hợp có hơn 1 phần tửtương tự với nhau (theo một ngưỡng nào đó) Cơ sở dữ liệu quan hệ mờ là cơ cơ dữliệu có thể lưu trữ, xử lý dữ liệu mờ và không chắc chắn [14]

1.1.1.2 Quan hệ tương tự

Quan hệ đồng nhất (trên một miền D) sử dụng trong cơ sở dữ liệu quan hệ (rõ)

sẽ chia miền D thành nhiều lớp tương đương mà mỗi lớp ứng với một giá trị Quan

hệ đồng nhất là trường hợp đặc biệt của quan hệ tương tự

Một quan hệ tương tự s(x,y), cho một miền Dj, là phép ánh xạ của tất cả các cặpphần tử trong miền đơn vị vào khoảng [0,1], một quan hệ tương tự có tính phản xạ,đối xứng và bắc cầu, nó là quan hệ tương đương [14]

1.1.1.3 Cơ sở dữ liệu quan hệ mờ dựa trên sự tương tự

Mô hình quan hệ mờ dựa trên sự tương tự không phải là một mở rộng của quan

hệ ban đầu, nhưng thực sự là một mô hình tổng quát của nó Nó cho phép một tập

Trang 13

hợp giá trị cho một thuộc tính hơn là giá trị nguyên tố duy nhất và thay thế các kháiniệm đồng nhất với một khái niệm tương tự.

Mô hình quan hệ dựa trên sự tương tự cho phép một bộ tại một thuộc tính đượcnhận một tập các giá trị đủ tương tự với nhau Đặc tính này rất hữu ích cho việc xử

lý truy vấn và thao tác cập nhật Nếu giá trị thuộc tính là chính xác và chắc chắn, thìgiá trị là nguyên tố Trong trường hợp chấp nhận dữ liệu không chính xác, khôngchắc chắn thì giá trị một bộ tại một thuộc tính có thể là một tập hợp Mức độ tương

tự giữa các giá trị được xác định rõ bởi định nghĩa quan hệ tương tự cho miền giá trịthuộc tính

Mô hình ban đầu so sánh hai giá trị thuộc tính bằng cách kiểm tra xem hai giá trịbằng nhau hay không Đặc tả quan hệ thực tế này phản ánh: i(x,y)=1 khi và chỉ khi

x = y, ngoài ra i(x,y)=0 Mô hình quan hệ tương tự so sánh hai thuộc tính bằng cách

đo sự tương tự của các giá trị trong điều kiện của khai báo rõ ràng miền thuộc tính.Một bộ trong mô hình này được gọi là dư thừa nếu nó có thể sáp nhập với nhauthông qua việc thiết lập phép hợp các miền giá trị tương ứng

1.1.1.4 Cơ sở dữ liệu mờ theo cách tiếp cận ĐSGT

Xét một lược đồ CSDL FDB={U , R1, R2… , R m}, trong đó U = {A1, A2, …An} làtập vũ trụ các thuộc tính, R ilược đồ quan hệ, tức là một tập con của U Mỗi thuộctính A được gắn với một miền giá trị thuộc tính, trong đó một số thuộc tính chophép nhận các giá trị ngôn ngữ trong lưu trữ CSDL và được gọi là thuộc tính mờ,những thuộc tính còn lại được gọi là thuộc tính kinh điển Thuộc tính kinh điển Ađược gắn với một miền trị kinh điển, ký hiệu là D A và một miền giá trị ngôn ngữ

LD A hay là tập các phần tử của một ĐSGT Một CSDL như vậy được gọi là CSDL

mờ theo cách tiếp cận ĐSGT [2].[3].[4]

1.1.2 Các mô hình cơ sở dữ liệu mờ

Mô hình quan hệ đóng một vai trò quan trọng và được sử dụng rất phổ biến kể

từ khi Codd đề xuất vào năm 1970 [14] Tuy nhiên, những hệ thống như vậy chỉchấp nhận dữ liệu chính xác Trên thực tế, thông tin về thế giới thực cần xử lý phầnnhiều lại là thông tin không đầy đủ, không chắc chắn Có nhiều đề xuất về cách tiếpcận nhằm giải quyết vấn đề này Việc dùng lý thuyết mờ để mở rộng mô hình cơ sở

dữ liệu đã được nhiều nhà nghiên cứu quan tâm Kerre E.F và Chen G.Q đã chorằng có 5 cách tiếp cận trong việc biểu diễn dữ liệu tương ứng với việc làm mờ hóa

Trang 14

các mô hình cơ sở dữ liệu quan hệ để biểu diễn thông tin không chính xác Đó làcách tiếp cận như sau:

Mô hình dựa trên quan hệ mờ (the fuzzy ralation-based approach) [14]

Cách tiếp cận nà do Baldwin và Zhou đưa ra năm 1984, Zvieli đưa ra năm 1986với quan niệm rằng một quan hệ R  D1 x D2 x….Dn được đặc trưng bởi một hàmthuộc R : D1 x D2 x….Dn -> [0,1] Như vậy một bộ của R có dạng (u1, u2, …,un, R

(u1, u2, …,un)), trong đó ui  Di, với i=1,2,…n Kiểu biểu diễn dữ liệu như vậy đikèm với giả thiết khái niệm một bộ thuộc về một quan hệ là một khái niệm mờtrong khi các giá trị cụ thể của các thuộc tính lại là giá trị không mờ hoặc cũng cóthể là các biến ngôn ngữ nhưng được xử lý như một đơn giá trị

Mô hình dựa trên tính tương tự (the similarity-based approach) [14]

Cách tiếp cận này do Buckles và Petry đưa ra năm 1982, Anvari đưa ra năm

1984, với quan điểm cho phép sự thiếu chính xác ở giá trị của các thuộc tính cũngnhư ở mối quan hệ giữa các phần tử thuộc cùng một miền (miền trị của một thuộctính) Trong mô hình này, giá trị tại mỗi thuộc tính (của mỗi bộ) có thể là một tậpcon thực sự của miền và trên mỗi miền đều xác định một quan hệ tương tự Như vậymột quan hệ mờ R, là một tập con của tập tích đề các 2D1 x2D2 x 2D3 x…2Dm, ký hiệu

2Dj để chỉ tập các tập con khác rỗng của Dj, Dj là miền trị của thuộc tính thứ j, mộtn-bộ tR có dạng: t = (d1, d2, …,dn),   Dj

Với mỗi Dj, một quan hệ Si : Di x Di → [0,1] là một quan hệ mờ hai ngôi nên Di

thỏa tính chất:

* Phản xạ: (Si(x,x) = 1)

* Đối xứng: (Si(x,y) = S(y,x))

* Bắc cầu max-min: (Si(x, z)≥ Maxy(Min[Si(x,y), Si(y,z)]))

Mô hình dựa trên tính khả năng (the possbility-based approach) [14]

Cách tiếp cận này do Prade và Testemale đưa năm 1983, Umano đưa ra năm

1983 và Zemankova năm 1984 Các tác giả này đã làm mờ hóa các giá trị thuộctính Nghĩa là một quan hệ R là một tập con của  (D1) x  (D2) x…x (Dn) trong

đó  (Di) = {AiAi là một phân phối khả năng của Ai trêm Di} Một n_bộ tR códạng: (A1, A2,… An), Ai  (Di) Ngoài ra có một phần tử đặc biệt e dùng để chỉ

Trang 15

những giá trị “không thể áp dụng” Nói một cách khác, Ai được định nghĩa là một

hàm từ (D i  e) lên [0,1].

Năm 1986, Testemale đã mở rộng cách biểu diễn này cho trường hợp các thuộctính có đa giá trị bằng việc xem xét các phân phối khả năng trên 2D i

, và khi đó, mộtn_bộ có dạng (D, D,… D), D : 2D i -> [0,1] và D AiDi

Mở rộng mô hình trên tính khả năng (The extended possbility-based approach) [14]

Các tác giả Rundensteiner, Hawkes và Bandler (1989), Chen (1991) đã mở rộngcách tiếp cận dựa trên cơ sở tính khả năng bằng việc cho phép mỗi miền trị (củathuộc tính) đã được gắn kết với một quan hệ thể hiện sự gần gũi Cụ thể, một quan

hệ R là một tập con của  (D1) x  (D2) x…x  (Dn) Một n_bộ tR có dạng: (

π A1, π A2,… π An) π Ai (Di) Thêm vào đó một quan hệ ci xác định trên mỗi miền Di thểhiện mối quan hệ “gần nhau” giữa các phần tử của miền ci: Di x Di -> [0,1] là mộtquan hệ mờ hai ngôi trên Di thỏa các tính chất: phản xạ (ci(x,x)=1), đối xứng

ci(x,y)=ci(y,x) Có thể thấy rằng cách tiếp cận này cũng là tổng quát hóa của cáchtiếp cận trên cơ sở tính tương tự do phân phối khả năng là trường hợp tổng quát củacác tập con thông thường và quan hệ “gần gũi” là một tổng quát của hệ “tương tự”

Các mô hình tiếp cận kết hợp (the combined approach) [14]

Một số nhà nghiên cứu có ý định biểu diễn tính mờ cả trong sự thuộc vào mộtquan hệ của một bộ cũng như tính mờ trong các giá trị thuộc tính hay mối quan hệgiữa các phần tử của miền Trong các nghiên cứu của Van Schooten (1988) vàKerre (1988), các giá trị thuộc tính là các phân phối khả năng và mỗi bộ được gáncho một cặp (p,n) để biểu diễn một cách tương ứng khả năng có thể thuộc quan hệ

và khả năng không thể thuộc quan hệ của bộ này Như vậy một n_bộ có dạng (A1,

π A1, π A2,… π An, p1, nt), π Ai  (Di)

Có thể thấy rằng trong bất cứ một mô hình biểu diễn nào cho phép giá trị tại cácthuộc tính không cần phải là giá trị nguyên tố, không cần phải là một giá trị đơn thìtuy các giá trị này không buộc phải được đánh giá bằng nhau (hay không bằngnhau) nhưng phải được đánh giá “gần nhau” ở cấp độ tương tự của hai giá trị thuộctính di và d’I là min x , y ∈di ∪d 'i S i ( x , y ) Trong một mở rộng của cách tiếp cận trên cơ sở

Trang 16

tính khả năng do Rundensteiner và các cộng sự đưa ra năm 1989, sự giống nhau củahai giá trị thuộc tính Ai và Ai’ được đo bởi hai cấp độ.

(i) min Re ( , ),

Ai i

x y t S x y



Trong đó tAi = {wAi>0, wDi}, tAi’= {wAi’>0, wDi}, và Resi là một quan hệ

“giống nhau” của Ai trên Di (định nghĩa quan hệ giống nhau ở đây cũng trùng vớiđịnh nghĩa quan hệ gần nhau đã nêu ở trên)

(ii) min

z Di (1-Ai(z)- Ai’(z))

Cũng trong một mở rộng của cách tiếp cận trên cơ sở tính khả năng của Chen,Vandenbulcke và Kerre (1992), tính “gần nhau” của hai giá trị thuộc tính Ai và Ai’được đo bởi

Xét miền ngôn ngữ của biến chân lý TRUTH gồm các từ sau: Dom(TRUTH)

= {true, false, very true, very false, more-or-less true, more-or-less false, possiblytrue, possibly false, approximately true, approximately false, little true, little false,very possibly true, very possibly false }, trong đó true, false là các từ nguyênthủy, các từ nhấn (modifier or intensifier) very, more-or-less, possibly,approximately, little gọi là các gia tử (hedges) [2].[3].[8].[13]

Khi đó, miền ngôn ngữ T = Dom(TRUTH) có thể biểu thị như một đại số X =(X,

G, H, ), trong đó G là tập các từ nguyên thủy được xem là các phần tử sinh.

H = H - H + với H - và H + tương ứng là tập các gia tử âm, dương và được xem là các

phép toán một ngôi, quan hệ sắp thứ tự tuyến tính trên X cảm ngữ sinh từ ngữ

Trang 17

nghĩa của ngôn ngữ Ví dụ dựa trên ngữ nghĩa, các quan hệ thứ tự sau là đúng: false true, more true very true nhưng very false more false, possibly true true

nhưng false possibly false … Tập X được sinh ra từ G bởi các phép toán trong H Như vậy, mỗi phần tử của X sẽ có dạng biểu diễn x=h n h n-1 …h 1 c, c G Tập tất cả các phần tử được sinh ra từ một phần tử x được ký hiệu là H(x) Nếu G có đúng hai từ nguyên thủy mờ, thì một được gọi là phần tử sinh dương ký hiệu c + , một gọi là phần

tử sinh âm ký hiệu là c - và ta có c - c + Trong ví dụ trên true là phần tử sinh dương còn false là phần tử sinh âm.

Về mối quan hệ giữa các gia tử chúng ta có các khái niệm sau:

(1) : Mỗi gia tử hoặc là dương, hoặc là âm đối với bất kỳ một gia tử nào khác,

kể cả chính nó

(2) : Nếu hai khái niệm u và v độc lập, nghĩa là u H(v) và v H(u) thì

cũng không sánh được với bất kỳ yϵHH (u)

(3) : Nếu x ≠ hx thì x ∉ H (hx) và nếu h ≠ k và hx ≤ kx thì h ' hx ≤ k ' kx với mọi gia

tử h, k, h’, k’ Hơn nữa hx ≠ kx thì hx độc lập kx.

(4) : Nếu uϵHH (v ) và u ≤ v (u ≥ v) thì u ≤ hv (u ≥ hv ), đối với mọi gia tử h.

Định nghĩa trên mới chỉ dựa vào các tính chất ngữ nghĩa và di truyền ngữ nghĩacủa ngôn ngữ nhưng đã tạo ra cấu trúc đủ giàu để xây dựng các quan hệ đối sánhtrong mô hình CSDL mờ

Tiếp theo là định lý thể hiện ý nghĩa trực quan trong ngôn ngữ về tính chất ditruyền ngữ nghĩa của ngôn ngữ [2].[3].[8].[13]

Định lý 1.1: Giả sử x = h n …h 1 u và y = k m …k 1 u là các biểu diễn chính tắc của x

và y đối với u Khi đó tồn tại một chỉ số j ≤ min{m, n}+1 sao cho với mọi i < j ta có h i

Trang 18

Vì tất cả các thuộc tính có miền trị chứa giá trị số trong CSDL đều tuyến tính,nên một cách tự nhiên ta giả thiết trong chương này, ĐSGT được sử dụng là ĐSGT

tuyến tính, do đó tập H + và H - là tập sắp thứ tự tuyến tính Như vậy, cho X = (X, G,

H, ) với G = {0, c - , W, c + , 1}, H= H - H + với giả thiết H - = {h 1 , h 2 , …,h p }, H + = {h -1 , h -2 , …,h -q }, h 1 >h 2 > …>h p và h -1 < …<h -q là dãy các gia tử, ta có các định nghĩaliên quan như sau:

Định nghĩa 1.1: [5][6][7] Cho X = (X, G, H, ) là một ĐSGT, với mỗi x ∈ X,

độ dài của x được ký hiệu  x và xác định như sau:

(1) Nếu x = c + hoặc x = c - thì x=1

(2) Nếu x = hx’ thì x=1+x ', với mọi h H.

Định nghĩa 1.2: [1][2][4] Hàm fm: X →[0,1] được gọi là độ đo tính mờ trên X

nếu thỏa mãn các điều kiện sau:

(1) fm là độ đo mờ đầy đủ trên X, tức là ∑

−q ≤i ≤ p ,i ≠0

fm(h i u)=fm (u)

(2) Nếu x khái niệm rõ, tức là H(x) = {x} thì fm(x) = 0 Do đó

fm(0) = fm(W)= fm(1)=0.

(3) Với mọi x, y X và h H ta có fm(hx) fm(x) =fm(hy)

phụ thuộc vào x và y, được kí hiệu là μ(h) gọi là độ đo tính mờ (fuzziness measure) của gia tử h.

Trong đại số gia tử, mỗi phần tử x ∈ X đều mang dấu âm hay dương, được gọi là

PN-dấu và được định nghĩa đệ quy như sau:

Định nghĩa 1.3: [1][2][4][5] Hàm Sgn: X → {−1,0, 1 } là một ánh xạ được địnhnghĩa một các đệ quy như sau, với ∀ h , h ' ∈ H , c ∈{c+ ¿,c− ¿ } ¿

¿:

(1) Sgn(c - ) = -1 và Sgn(c + ) = +1.

(2) Sgn(h’hx) = -Sgn(hx) nếu h’ là negative với h và h’hx hx.

(3) Sgn(h’hx) = Sgn(hx) nếu h’ là positive với h và h’hx hx.

(4) Sgn(h’hx) = 0 nếu h’hx = hx.

Trang 19

Mệnh đề 1.1: Với ∀ x ∈ X, ta có: ∀ h ∈ H, nếu Sgn(hx) = +1 thì hx>x, nếuSgn(hx) = -1 thì hx<x và nếu Sgn(hx) = 0 thì hx=x.

Để chuyển đổi một giá trị trong ĐSGT (giá trị ngôn ngữ) thành một số [0, 1] ta

sử dụng hàm định lượng ngữ nghĩa

Định nghĩa 1.4: [3][5][9][10] Cho fm là độ đo tính mờ trên X, hàm định lượng

ngữ nghĩa υ trên X được định nghĩa như sau:

1.2.2 Các tính chất của độ đo tính mờ trong ĐSGT

Dựa trên cấu trúc của ĐSGT, trong đó quan hệ giữa các phần tử là quan hệ thứ

tự ngữ nghĩa, mô hình toán học của tính mờ và độ đo tính mờ của các khái niệm mờ

đã được định nghĩa trong các công trình của N.C.Ho và cộng sự, ở đây chúng tôi chỉ

trình bày một số mệnh đề và bổ đề liên quan đến hàm fm và hàm v.

Trang 20

đúng, ∀ x ∈ X : v(x) ∈ I (x ) thành hai đoạn con tỷ lệ α : β Và nếu Sgn(h 1 x) = 1 thì

đoạn con tương ứng với α lớn hơn đoạn con tương ứng với β và nếu Sgn(h 1 x) = -1

thì đoạn con tương ứng với α nhỏ hơn đoạn con tương ứng với β

Định lý 1.2: [5][9] Cho X = (X, G, H, ) là một ĐSGT tuyến tính Ta có các

phát biểu sau:

(1) Với ∀ xϵH X , H(x) là tập sắp thứ tự tuyến tính.

(2) Nếu G là tập sắp thứ tự tuyến tính thì H(G) cũng sắp thứ tự tuyến tính.

Trong ĐSGT tuyến tính, bổ sung thêm vào hai phép tính và với ngữ nghĩa

là cận trên đúng và cận dưới đúng của tập H(x), khi đó ĐSGT tuyến tính được gọi là

ĐSGT tuyến tính đầy đủ

Cho một ĐSGT tuyến tính đầy đủ AX=( X ,G , H , Σ , Φ , ≤) , trong đó Dom( X)

= X là miền các giá trị ngôn ngữ của thuộc tính ngôn ngữ X được sinh từ tập các

phần tử sinh G = {0, c - , W, c + , 1} bằng việc tác động các gia tử trong tập H, Σ, và

là hai phép tính với ngữ nghĩa là cận trên đúng và cận dưới đúng của tập H(x), tức

tuyến tính trên X cảm sinh từ ngữ nghĩa của ngôn ngữ.

1.3 MÔ HÌNH BIỂU DIỄN CSDL MỜ THEO CÁCH TIẾP CẬN ĐSGT

Xét một lược đồ CSDL trên miền vũ trụ U={A1, A2, …, An} Mỗi thuộc tính A i

được gắn với một miền trị thuộc tính, ký hiệu là Dom(A i), trong đó một số thuộctính cho phép nhận các giá trị ngôn ngữ trong lưu trữ hay trong các câu truy vấn vàđược gọi là thuộc tính mờ Các thuộc tính còn lại được gọi là thuộc tính kinh điển

Thuộc tính kinh điển A i sẽ được gắn một miền giá trị kinh điển D Aivà một miền giátrị ngôn ngữ LD Ai hay là tập các phần tử của một ĐSGT Xem giá trị ngôn ngữ như

là một phần tử của ĐSGT Để bảo đảm tính nhất quán trong xử lý ngữ nghĩa dữ liệutrên cơ sở thống nhất kiểu dữ liệu của thuộc tính mờ, mỗi thuộc tính mờ sẽ đượcgắn với một ánh xạ định lượng ngữ nghĩa ĐSGT

Theo cách tiếp cận này giá trị ngôn ngữ là dữ liệu, không phải là nhãn của cáctập mờ biểu diễn ngữ nghĩa của giá trị ngôn ngữ và ưu điểm cơ bản của nó là việccho phép tìm kiếm, đánh giá ngữ nghĩa của thông tin không chắc chắn chỉ bằng thao

Trang 21

các thao tác dữ liệu kinh điển thường dùng và do đó bảo đảm tính thuần nhất củakiểu dữ liệu trong xử lý ngữ nghĩa của chúng.

Vì tất cả các thuộc tính có miền trị chứa giá trị số trong CSDL đều tuyến tính,nên một cách tự nhiên ta giả thiết ĐSGT được sử dụng là ĐSGT tuyến tính, do đó

tập H + và H - là tập sắp thứ tự tuyến tính Như vậy, cho X = (X, G, H, ) với G = {0,

c - , W, c +, 1}, H=H− ¿∪ H+ ¿ ¿

¿ với giả thiết H-={h1, h2,…, hp}, H+ = {h-1, h-2,…, h -qq} thỏa

h1> h2>…> hp và h-1< h-2<…< h -q là dãy các gia tử

Cho một ĐSGT tuyến tính đầy đủ AX = (X, G, C, H, Φ , Σ ,), trong đó

tập các phần tử sinh G = {0, c - , W, c +, 1} bằng việc tác động các gia tử trong tập

H(x), tức là ∑x =supremum H (x) and Φx=infimum H ( x), quan hệ là quan hệ sắp

thứ tự tuyến tính trên X cảm sinh từ ngữ nghĩa của ngôn ngữ [5].

1.3.1 Ngữ nghĩa dữ liệu dựa trên việc định lượng ĐSGT

1.3.1.1 Đặt vấn đề

Cho một CSDL DB = {U; R1, R2, …, Rn ; Const}, với U = {A1, A2, …, An} là tập

vũ trụ các thuộc tính, R1, R2, …, Rn là lược đồ xác định trên U, Const là tập ràng buộc trong CSDL Mỗi thuộc tính A i được gắn với một miền trị, ký hiệu là D Ai

Thuộc tính mờ Ai sẽ được gắn với miền giá trị kinh điển D Ai và một miền giá trịngôn ngữ LD A i Như vậy, ta có Dom(A i)=D A i ∪ L D A i, với D A i là tập các giá trị kinh

điển của A i, LD Ai là tập các giá trị ngôn ngữ của A i Tuy nhiên, để rút gọn khi trình

bày, trong chương này nếu cho U = {A1, A2, …, An} thì ta cũng gọi U là một lược đồ

quan hệ

1.3.1.2 Ngữ nghĩa dữ liệu dựa trên việc định lượng ĐSGT

Trong phần này, các khái niệm như: bằng nhau theo mức k, khác nhau theo mức

k và bé hơn theo mức k được trình bày Về nguyên tắc, chúng ta có thể định nghĩa với mức k là số nguyên dương bất kỳ Tuy nhiên, trong ngôn ngữ tự nhiên, người ta

thường sử dụng một số gia tử tác động liên tiếp, điều này dẫn đến trong CSDL chỉ

Trang 22

có một số giới hạn các gia tử tác động liên tiếp vào phần tử sinh không vượt quá p cho trước Do đó, trong chương này, giá trị k được xét là 1 ≤ k ≤ p , với k, p nguyên.

Vì tính mờ của các giá trị trong ĐSGT là một đoạn con của [0, 1] cho nên họ cácđoạn con như vậy của các giá trị có cùng độ dài sẽ tạo thành phân hoạch của [0, 1].Phân hoạch ứng với các giá trị có độ dài từ lớn hơn sẽ mịn hơn và khi độ dài lớn vôhạn thì độ dài của các đoạn trong phân hoạch giảm dần về 0 Do đó, các phân hoạchđược xây dựng dựa trên tính mờ các giá trị trong ĐSGT hay là dựa trên tính mờ các

giá trị trong Dom(A i)

Với A i là thuộc tính mờ, để đối sánh hai giá trị trong Dom(A i) ta xây dựng phân

hoạch của Dom(A i) Nếu đặt miền giá trị kinh điển D Ai=[a , b], bằng một phép biếnđổi tuyến tính hoặc sử dụng một hàm chuyển đổi nào đó thì ta có thể xem mỗi

D Ai=[0, 1] Do đó, xây dựng phân hoạch của Dom(A i) trở thành xây dựng phânhoạch của [0, 1]

Định nghĩa 1.5: [5] Cho X k={x ∈ X :x=k }, xét P k

={I ( x ): x ∈ X k} là một phânhoạch của [0, 1] Gọi V là hàm định lượng ngữ nghĩa trên X.

(1) u bằng v theo mức k, được ký hiệu u= k v, khi và chỉ khi I(u) và I(v) cùng

chứa trong một khoảng mờ mức k Có nghĩa là với

của [0, 1]

Trang 23

(a) Ta có P 1 là phân hoạch của [0, 1] Do đó hơn trẻ= 1 rất trẻ vì

Bổ đề 1.2: Quan hệ =k là một quan hệ tương đương trong P k

Bổ đề 1.3: [5] Cho u=h n …h1x và v=h ' m … h '1x là biểu diễn chính tắc của u và v đối với x.

(1) : Nếu u = v thì u = k v với mọi k.

(2) : Nếu h1≠ h'1 thì u = |x| v.

Ví dụ 1.2: Cho u = rất hơn trẻ và v = hơn rất trẻ Ta có h1 = hơn, h’1= rất,

x = trẻ Vì h1≠ h'1 nên theo tính chất (2) của Bổ đề 1 3 ta có u = |trẻ| v, hay u =1 v.

Định lý 1.3: [5] Cho X k={x ∈ X :x=k }, xét P k={I ( x ): x ∈ X k} là một phân hoạch

của [0,1], u = h n …h1x và v= h’ m …h’1x là biểu diễn chính tắc của u và v đối với x (1) Nếu u = k v thì u = k’ v, ∀ 0<k '

<k.(2) Nếu tồn tại một chỉ số j ≤ min ⁡(m , n) lớn nhất sao cho mọi s=1 j ta có h s=h ' s

thì u¿j+x v

Ví dụ 1.3: Cho u = rất rất trẻ và v = hơn rất trẻ Ta có h1 = rất, h2 = rất, h’1= rất, h’2 =hơn, x = trẻ Ta thấy tồn tại chỉ số j = 1 lớn nhất sao cho h1=h'1, do đó

theo tính chất (2) của Định lý 1 3 ta có u = j+|trẻ| v, hay u =2 v.

Hệ quả 1.1: Nếu u ∈ H (v ) thì u= |v| v.

Trang 24

Ví dụ 1.4: Cho u = rất rất trẻ và v = rất trẻ Vì u ∈ H (v ) nên theo Hệ quả 1 1

ta có u = |rất trẻ| v, hay u =2 v.

Bổ đề 1.4: Cho X k={x ∈ X :x=k }, xét P k={I ( x ): x ∈ X k} là một phân hoạch của[0, 1], u=h n … h1x và v=h ' m … h '1x là biểu diễn chính tắc của u và v đối với x.

(1) Nếu tồn tại chỉ số k ≤ min ⁡(m, n) lớn nhất sao cho u = k v thif u ≠ k+ 1 v

(2) Nếu u¿k v hoặc u¿k v thì với ∀ a ∈ H (u), với ∀ b ∈ H (v) ta có a¿k b hoặc a¿k b

Ví dụ 1.5: Cho u = rất rất trẻ và v = hơn rất trẻ Theo Ví dụ 1 4 ta có u =2 v

nên theo bổ đề 1.3 ta có u ≠3v

1.3.2 Xấp xỉ dữ liệu mờ theo cách tiếp cận ĐSGT

Trong mục này, sẽ trình bày một phương pháp để xấp xỉ dữ liệu trên miền trị củathuộc tính mờ trong quan hệ của cơ sở dữ liệu mờ Việc đánh giá dữ liệu trên miềntrị thuộc tính mờ của quan hệ trong cơ sở dữ liệu mờ theo cách tiếp cận đại số gia tửđược xây dựng dựa trên phân hoạch tính mờ của các giá trị trong đại số gia tử (giá

trị ngôn ngữ) Như vậy, nếu gọi Dom(A i ) là miền trị tương ứng với thuộc tính mờ A i

và xem như một đại số gia tử thì khi đó Dom(A i ) = Num(A i )  LV(A i ), với Num(A i )

là tập các giá trị số của A i và LV(A i ) là tập các giá trị ngôn ngữ của A i Để xấp xỉ dữliệu, ta xét hai trường hợp sau:

1.3.2.1 Miền trị của thuộc tính trong quan hệ là giá trị ngôn ngữ

Trong trường hợp này chúng ta đi xây dựng các phân hoạch dựa vào tính mờ củacác giá trị ngôn ngữ

Vì tính mờ của các giá trị trong đại số gia tử là một đoạn con của [0,1] cho nên

họ các đoạn con như vậy của các giá trị có cùng độ dài sẽ tạo thành phân hoạch của[0,1] Phân hoạch ứng với các giá trị độ dài từ lớn hơn sẽ mịn hơn và khi độ dài lớn

vô hạn thì độ dài của các đoạn trong phân hoạch giảm dần về 0

Định nghĩa 1.6: [11].[12] Gọi fm là độ đo tính mờ theo ĐSGT X với mỗi x X,

ta ký hiệu I(x)  [0,1] và I(x) là độ dài của I(x).

Một họ các  = {I(x): xX} được gọi là phân hoạch của [0,1] gắn với x nếu: (1) {I(c + )), I(c - )} là phân hoạch của [0,1] sao cho I(c) = fm(c), với c  {c + ,c - }.

Trang 25

(2) Nếu đoạn I(x) đã được định nghĩa và I(x) = fm(x), thì {I(h i x) : i = 1…p+q} được định nghĩa là phân hoạch của I(x) sao cho thỏa mãn điều kiện I(h i x) = fm(h i x) và I(h i x) là tập sắp thứ tự tuyến tính.

Tập {I(h i x)} được gọi là phân hoạch gắn với phần tử x, ta có

Định nghĩa 1.7: [8] Cho P k { ( ) :I x x X k}với X k  {x X x: =k} là một phân

hoạch Ta nói rằng u xấp xỉ v theo mức k trong Pk được ký hiệu u  k v khi và chỉ khi I(u) và I(v) cùng thuộc một khoảng trong P k Có nghĩa là u, v  X, u  k v

k P k : I(u)  k và I(v) k

Ví dụ 1.6: Cho đại số gia tử X = (X, G, H, ), trong đó H = H+  H-, H+ ={hơn, rất}, hơn<rất, H- = {ít, khả năng}, ít>khả năng, G = {trẻ, già} Ta có P1 ={I(trẻ, I(già)} là một phân hoạch của [0,1] Tương tự, P2 = {I(hơn trẻ), I(rất trẻ), I(íttrẻ), I(ít trẻ), I(khả năng trẻ), I(hơn già), I(rất già), I(rất già), I(khả năng già)} làphân hoạch của [0,1]

Ví dụ 1.7: Theo Ví dụ 1 6, P1 là phân hoạch của [0,1] Ta có hơn trẻ 1 rất trẻ

vì 1 = I(trẻ)  P1 mà I(hơn trẻ)  1 và I(rất trẻ)  1 P2 là phân hoạch của [0,1],

ta có ít già 2 rất ít già vì 2 = I(ít già)  P2 mà I(ít già)  2 và I(rất ít già)  2.

Định nghĩa 1.8: Xét P k = {I(x) : x  X k với X k = {x X : x = k} là một phân hoạch Ta nói rằng u không xấp xỉ v mức k trong P k được ký hiệu u  k vk

 P k ; I(u)  k hoặc I(v)  k

Ví dụ 1.8: Theo Ví dụ 1 6, P2 = {I(hơn trẻ), I(rất trẻ), I(ít trẻ), I(khả năng trẻ),I(hơn già), I(rất già), I(ít già), I(khả năng già)} là phân hoạch của [0,1] Chọn

2 = I(rất trẻ)  P2, ta có I(ít trẻ)  2 và I(rất trẻ) 2(1’) Mặt khác với mọi

2  I(ít trẻ)  P2 ta có I(ít trẻ)  2 và I(rất trẻ))  2 (2’) Từ (1’) và (2’) ta suy ra

ít trẻ 2 rất trẻ

Định nghĩa 1.9: [8] Xét P k = {I(x) : x  X k } với X k = {x  X: x = k} là một phân hoạch Gọi v là hàm định lượng ngữ nghĩa trên X Ta nói rằng u nhỏ hơn v mức k trong P k được ký hiệu u< k v khi và chỉ khi I(u) và I(v) không cùng thuộc một

Trang 26

khoảng trong P k và v(u) < u(v) Có nghĩa là u,v  X, u < k  u  k v và u(v)

< v(u).

Ví dụ 1.9: Theo Ví dụ 1 6 và Ví dụ 1 8 ta có P2 = {I(hơn trẻ), I(rất trẻ), I(íttrẻ), I(khả năng trẻ), I(hơn già), I(rất già), I(ít già), I(khả năng già)} là phân hoạchcủa [0,1] Vì ít trẻ  2 rất trẻ và v(rất trẻ) < v(ít trẻ) nên rất trẻ <2 ít trẻ

Bổ đề 1.5: Quan hệ  k là một quan hệ tương đương trên Dom(A i ).

Chứng minh:

Ta chứng minh tính phản xạ bằng quy nạp

x  Dom(A i ) nếu x = 1 thì x = c + hoặc x = c -

Ta có 1 = I(c + )  P 1 : I(c + ) = I(x)  1 hoặc 1 = I(c - )  P 1 : I(c - ) = I(x)

 1 Vậy  k đúng với k = 1, hay x 1 x.

Giả sử x = n đúng, có nghĩa  k đúng với k = n, hay x  n x, ta cần chứng

minh  k đúng với k = n+1 Đặt x = h1x’, với x’ = n Vì x  n x nên theo định

nghĩa ta có n P n : I(x)  n Mặt khác ta có P n+1 = {I(h 1 x’), I(h 2 x’),…}, với h 1

h 2 …là một phân hoạch của I(x’) Do đó (n+1) = I(h 1 x’)  P (n+1) : I(x)  (n+1)

Vậy  k đúng với k = n+1, hay x n+1 x.

Tính đối xứng: x, y  Dom(Ai), nếu x  k y thì theo định nghĩa k  Pk: I(x)

 k và I(y)  k hay k  Pk: I(y)  k và I(x)  k Vậy y  k x và y  k x.Tính bắc cầu: Ta chứng minh bằng phương pháp quy nạp

Trường hợp k = 1:

Ta có P1 = {I(c+), I(c-)}, nếu x  k y và y  k z thì 1 = I(c+)  P1: I(x)  1 vàI(y) 1 và I(z) 1 hoặc 1 = I(c-)  P1: I(x)  1 và I(y)  1 và I(z)  1, cónghĩa là 1  P1: I(x)  1 và I(z)  1 hay x  k z Vậy k đúng với k=1

Giả sử quan hệ  k đúng với trường hợp k = n có nghĩa là ta có x, y,

z  Dom(Ai) nếu x  n y và y  n z thì x  n z

Ta cần chứng minh quan hệ  k đúng với trường hợp k = n+1 Tức là x, y,

z  Dom(Ai) nếu x  n+1 y và y  n+1 z thì x  n+1 z

Trang 27

Theo giả thiết nếu x  n+1 y và y n+1 z thì (n+1)  P(n+1): I(x)  (n+1) và I(y)

 (n+1) và I(z)  (n+1), có nghĩa là (n+1)  P(n+1): I(x)  (n+1) và I(z)  (n+1) vậy x

h nên u  v Ta có I(h 1 x)  I(x), I( h x1' )  I(x) và I(h 1 x)  I( h x1' ) nên 1 = I(x)  P 1 : I(h 1 x) 1 và I(

'

1

h x )  1 hay h 1 x 1

' 1

h x Vậy ux v.

Nếu u  v, do h 1

' 1

h nên I(h 1 x)  I( h x1' ) (1’) Giả sử k >1 sao cho u x

v thì k P k = {I(h k-1 h 1 x), I h( k'1 h x1' )}, với P k là một phân hoạch của I(x): I(u) 

I h h x và I h( m' h x1' )

 I h( k'1 h x1' ), điều này mâu thuẫn vì I(h n h 1 x)

' '

1 1 ( k )

I h h x do (1’) Vậy không

tồn tại k>1 sao cho uk v hay k = 1 Vậy u x v.

Định lý 1.4: Xét P k = {I(x): x  X k } với X k = {x  X : x = k} là một phân hoạch, u = h n …h 1 x và v h m' h x1' là biểu diễn chính tắc của u và v đối với x.

(1) Nếu u k v thì u k‘ v, 0 <k’ < k

(2) Nếu tồn tại một chỉ số j  min(m, n) lớn nhất sao cho với mọi s = 1…j, ta có

hs = h’

s thì u j+x v

Trang 28

Từ (1’) và (2’) ta có I(u) k  k-1…2  1và I(v)  k  k-1… 2

 1, có nghĩa là 0 <k’ < k luôn k’  Pk’: I(u)  k’ và I(v)  k’ Vậy 0 <k’

< k nếu u k v thì u k‘ v

(2) Nếu j = 1 ta có h1 = h’1, khi đó u = hn…h2h1x và v = h’m…h’2h’1x hay

Bổ đề 1 5 ta có u x’ v hay u k+ x v (do x’ = k, x = 1)

Hệ quả 1.2: Nếu u  H(v) thì u v v

Định lý 1.5: Xét Pk = {I(x) : x  Xk} với Xk ={x  X: x = k}, u = hn…h1x và v

= h’m…h’1x là biểu diễn chính tắc của u và v đối với x Nếu tồn tại chỉ số

k  min(m,n) lớn nhất sao cho u  k v thì u k+1 v

Hệ quả 1.3:

(1) Nếu u  H(v) thì u v+1 v.

(2) Nếu u  k v thì u k’ v 0< k < k’

Trang 29

Định lý 1.6: Xét Pk = {I(x) : x  Xk} với Xk ={x  X: x = k}, u = hn…hk+1 và

v = h’m…h’1x là biểu diễn chính tắc của u và v đối với x Nếu u<k v hoặc u>k v thìvới mọi a  H(u), với mọi b  H(v) ta có a<k b hoặc a>kb

1.3.2.2 Miền trị của thuộc tính trong quan hệ có chứa giá trị số

Trường hợp miền trị của thuộc tính có chứa giá trị số, chúng ta sẽ biến đổi cácgiá trị số thành các giá trị ngôn ngữ tương ứng theo một ngữ nghĩa xác định Trước

tiên, ta đi xây dựng 1 hàm IC chuyển một số về một giá trị thuộc [0, 1] và hàm k

để chuyển một giá trị trong [0,1] thành một giá trị ngôn ngữ x tương ứng trong một

 với Dom(A i ) = [max, min ] là miền trị kinh điển của Ai

Nếu Num(A i )  , LV(A i )   thì w  Dom(A i ) ta có IC(w) = {w * v(maxLV)

}/max, với LV(A i ) = [max, min ] là miền trị ngôn ngữ của Ai

Ví dụ 1.10: Cho Dom(Tuoi) = {0…100,…rất rất trẻ,…., rất rất già}.

Nếu Num(A i )   và LV(A i )   ta có Dom(Tuoi) =Num(Tuoi)  LV(Tuoi)

= {trẻ, rất trẻ, già, khá trẻ, khá già, ít già, rất già, rất rất trẻ, 20, 25, 30, 45, 60, 75,

Trang 30

I(khả năng lớn) = 0.08 I(hơn lớn) = 0.08

0.646, 0.784}

Nếu ta chọn các tham số W và độ đo tính mờ cho các gia tử sao cho v(maxLV)

1.0 thì ({w xv(maxLV)}/max

min w1

a  [0,1], k(a) = xkkhi và chỉ khi a  I(xk), với xk  Xk

Ví dụ 1.11: Cho đại số gia tử X = (X, G, H, ), trong đó H+ = {hơn, rất} vớihơn < rất và H- = {ít, khả năng} với ít>khả năng, G={nhỏ, lớn} Giả sử W=0.6,fm(hơn) = 0.2, fm(rất) = 0.3, fm(khả năng) = 0.2

Ta có P2 = {I(hơn lớn), I(rất lớn), I(ít lớn), I(khả năng lớn), I(hơn nhỏ), I(rấtnhỏ), I(ít nhỏ), I(khả năng nhỏ) là phân hoạch của [0,1] fm(nhỏ) = 0.6, fm(lớn

= 0.4, fm(rất lớn) = 0.12, fm(khả năng lớn) = 0.08 Ta có I(rất lớn) = fm(rất lớn)

= 0.12, hay I(rất lớn) = [0.88, 1] Do đó theo định nghĩa 2(0.9) = rất lớn vì0.9  I(rất lớn)

Tương tự ta có I(khả năng lớn) = fm(khả năng lớn) = 0.08, hay I(khả năng lớn)

= [0.72, 0.8] Do đó theo định nghĩa 2(0.75) = rất lớn vì 0.75  I(khả năng lớn).Trong phần này, giả sử chúng tôi chỉ xét các phần tử được sinh từ phần tử lớn

Trang 31

Chúng ta có thể lấy các khoảng mờ của các phần tử độ dài k làm độ tương tự

giữa các phần tử, nghĩa là các phần tử mà các giá trị đại diện của chúng thuộc cùng

một khoảng mờ mức k là tương tự mức k Tuy nhiên, theo cách xậy dựng các khoảng mờ mức k giá trị đại diện của các phần tử x có độ dài nhỏ hơn k luôn luôn là đầu mút của các khoảng mờ mức k Một cách hợp lý, khi định nghĩa lân cận mức k

chúng ta mong muốn các giá trị đại diện như vậy phải là điểm trong (theo nghĩa

tôpô) của lân cận mức k Vì vậy ta định nghĩa độ tương tự mức k như sau:

Chúng ta luôn luôn giả thiết rằng mỗi tập H - và H + chứa ít nhất 2 gia tử Xét X k

là tập tất cả các phần tử độ dài k Dựa trên các khoảng mờ mức k và các khoảng mờ mức k+1 chúng ta mô tả không hình thức việc xây dựng một phân hoạch của miền

[0,1] như sau:

Trang 32

Với k = 1, các khoảng mờ mức 1 gồm I(c-) và I(c+) Các khoảng mờ mức 2 trên

khoảng I(c-) là I¿ Khi đó, ta xây dựng phân hoạch về độ tương tự mức 1 gồm cáclớp tương đương sau: S (0)=I¿; S¿; S (W )=I¿; và một cách tương tự, S¿ và S (1)=I¿

Ta thấy, trừ hai điểm đầu mút V A(0 )=0 và V A(1)=1, các giá trị đại diện V A¿,

V A(W ) và V A¿ đều là điểm trong tương ứng của các lớp tương tự mức 1 S¿, S(W )

và S¿

Tương tự, với k =2, ta có thể xây dựng phân hoạch các lớp tương tự mức 2.

Chẳng hạn, trên một khoảng mờ mức 2, chẳng hạn, I¿ với hai khoảng mờ kề là I¿

và I¿ chúng ta sẽ có các lớp tương đương dạng sau: S¿, S¿ và S¿, với i sao cho

−q ≤ i≤ p và i 0.

Bằng cách tương tự như vậy ta có thể xây dựng các phân hoạch các lớp tương tự

mức k bất kỳ.

Các giá trị kinh điển và các giá trị ngôn ngữ được gọi là có độ tương tự mức k

nếu các giá trị đại diện của chúng (ở đây đại diện của giá trị thực là chính nó) cùng

nằm trong một lớp tương tự mức k.

1.3.3.2 Lân cận mức k của khái niệm mờ

Giả sử phân hoạch các lớp tương tự mức k là các khoảng S(x1), S(x2), … , S(x m)

Khi đó, mỗi giá trị ngôn ngữ u chỉ và chỉ thuộc về một lớp tương tự, chẳng hạn đó

là S(x i) và nó gọi là lân cận mức k của u và ký hiệu là Ω k(u) Dựa trên khái niệm độtương tự, các quan hệ đối sánh được định nghĩa như sau:

Định nghĩa 1.12: [5] Cho U là tập vũ trụ các thuộc tính, r là quan hệ xác định

trên U, giả sử t1 và t2 là hai bộ dữ liệu thuộc quan hệ r Ta ký hiệu t1[A i]¿k t2[A i] và

gọi chúng bằng nhau mức k, nếu một trong các điều kiện sau xảy ra:

(1) Nếu t1[A i], t2[A i]∈ D Ai thì t1[A i]=t2[A i];

(2) Nếu một trong hai giá trị t1[A i], t2[A i] là khái niệm mờ, chẳng hạn đó là

t1[A i], thì ta phải có t2[A i]∈ Ω k(t1[A i]);

Trang 33

(3) Nếu cả hai giá trị t1[A i], t2[A i] là khái niệm mờ, thì Ω k(t1[A i])=Ω k(t2[A i]).Như thông thường, nếu điều kiện t1[A i]¿k t2[A i] không xảy ra ta có

t1[A i]≠ k t2[A i]

Do quan hệ tương tự mức k được xây dựng bằng một phân hoạch của đoạn [0,1],

nên có thể thấy quan hệ ¿k là tương đương trên [0,1] Ngoài ra, ta cần nhấn mạnhrằng đẳng thức t1[A i]¿k t2[A i] có nghĩa L k ≤t1[A i], t2[A i]≤ R k, trong đó L k và R k là haiđiểm mút của khoảng Ω k(t1[A i]) hay Ω k(t2[A i]) Nghĩa là, việc kiểm chứng

t1[A i]¿k t2[A i] được đưa về việc kiểm chứng đối sánh kinh điển Hơn nữa, tính mềmdẻo trong thích nghi với các ứng dụng cụ thể có thể đạt được bằng việc điều chỉnhcác tham số của ánh xạ định lượng V Ai Đây chính là ưu điểm nổi bật của cách tiếpcận đại số đến thông tin mờ Dựa trên quan hệ tương đương này ta có thể dễ dàngđịnh nghĩa các quan hệ đối sánh khác Trước hết, để đơn giản ta quy ước là ký pháp

Ω k(t[A i]) có nghĩa cả khi t [ A i]∈ D A i Khi đó Ω k(t[A i]) được hiểu là tập bao gồm chỉđúng một giá trị thực t[A i] Với quy ước đó, với mọi cặp lân cận mức k, Ω k ( x ) and

Ω k ( y ), ta sẽ viết Ω k ( x )<Ω k ( y ) khi u<v, với mọi u ∈ Ω k ( x ) và mọi v ∈ Ω k ( y )

Định nghĩa 1.13: [5] Cho U là tập vũ trụ các thuộc tính, r quan hệ xác định

trên U, giả sử t1và t2 là hai bộ dữ liệu thuộc quan hệ r Khi đó

(1) Ta viết t1[A i]≤ k t2[A i], nếu t1[A i]¿k t2[A i] hoặc Ω k(t1[A i])<Ω k(t2[A i]);(2) Ta viết t1[A i]¿k t2[A i], nếu Ω k(t1[A i])<Ω k(t2[A i]);

(3) Ta viết t1[A i]¿k t2[A i], nếu Ω k(t1[A i])>Ω k(t2[A i]);

Sau đây là định lý khẳng định họ các khoảng Ω k ( x ) là một phân hoạch của

Dom(A i) và giá trị định lượng của x ∈ X luôn là điểm trong của lân cận mức k của x.

Định lý 1.8: [5] Cho một ĐSGT tuyến tính đầy đủ, tập các giả tử H - và H + có ítnhất hai phần tử Khi đó, họ các khoảng {Ω k ( x ) : x ∈ X} được gọi là lân cận mức k của miền trị ngôn ngữ của thuộc tính A i và là một phân hoạch của Dom(A i) Hơn nữa,

Trang 34

mỗi giá trị x của A i có duy nhất một lân cận mức k, V A i(x ) là điểm trong của Ω k ( x )

với mọi x ∈ X

Mệnh đề 1.3: Quan hệ ¿k là tương đương trên Dom(A i)

1.4 NGÔN NGỮ ĐÁNH DẤU MỞ RỘNG XML

1.4.1 Giới thiệu về ngôn ngữ XML

XML (viết tắt từ tiếng Anh eXtensible Markup Language, “Ngôn ngữ Đánh dấu

mở rộng”) ra đời vào tháng 2/1998, là ngôn ngữ kiến trúc gần giống HTML nhưngXML nhanh chóng trở thành một chuẩn phổ biến trong việc chuyển đổi thông tinqua các trang web sử dụng giao thức HTTP Trong khi HTML là ngôn ngữ chủ yếu

về hiển thị dữ liệu thì XML lại đang phát triển mạnh về chuyển tải, trao đổi và thaotác dữ liệu bằng XML XML đưa ra một định dạng chuẩn cho cấu trúc của dữ liệuhoặc thông tin bằng việc tự định nghĩa dạng của tài liệu Bằng cách này, dữ liệuđược lưu trữ bằng XML sẽ độc lập với việc xử lý Vì vậy, XML ra đời sẽ đáp ứngđược yêu cầu ngày càng cao của các lập trình trong vấn đề trao đổi và xử lý thôngtin [15]

Một tài liệu XML có hai phần: Document prolog: Chứa thông tin tài liệu XML(metadata) Phần này tùy chọn: Root element: Một element gọi là documentelement, chứa tất cả các element khác và nội dung của tài liệu XML, hình dung nhưmột cây tài liệu Phần này không thể thiếu

Một tài liệu XML phải tuân theo những quy tắc cũng như cú pháp định nghĩacác thành phần của nó Các trình diễn dịch XML thường yêu cầu rất nghiêm ngặt vềkiểm tra lỗi cú pháp Tài liệu XML được xem là đúng đắn khi nó hợp khuông dạng,tức phải tuân thủ theo một số yêu cầu sau:

- Các khai báo XML cần được đặt ở dòng đầu tiên của tài liệu

- Tài liệu XML chỉ có một phần tử gốc, các phần tử khác nếu có phải là con củaphần tử gốc

Trang 35

- Mọi phần tử XML khác rỗng phải bao gồm đầy đủ thẻ đóng và thẻ mở.

- Dùng phần tử rỗng với chuỗi đóng />

- Mọi phần tử khác phần tử gốc đều phải nằm giữa cặp thẻ gốc

- Các phần tử phải được lồng ghép đúng đắn: phải đóng các thành phần contrước khi đóng các thành phần cha (thẻ đóng, thẻ mở phải hợp vị trí)

- Tên thuộc tính trong thẻ không được trùng nhau

- Tên có phân biệt chữ hoa, chữ thường

1.4.2 Cấu trúc tài liệu XML

1.4.2.1 Tài liệu XML

Một tài liệu HTML có thể tồn tại một thẻ không đúng quy định (trình biên dịch

sẽ bỏ qua những thẻ này) Tuy nhiên, với một tài liệu XML thì điều này không thểxảy ra Khi xây dựng một tài liệu XML, nó phải tuân thủ theo một số quy luật nào

đó Những tài liệu XML tuân thủ đúng những quy luật này được gọi là well-formed(tạm dịch là định dạng đúng) Với một tài liệu không phải là well-formed, internetExplorer sẽ thông báo lỗi khi nạp tài liệu này

Một tài liệu XML well – formed chưa chắc là một tài liệu hợp lệ Một tài liệuXML được xem là hợp lệ nếu nó đảm bảo những quy tắc đặc tả trong tài liệuDocument Type Definition (DTD) hay giản đồ (schema) Một DTD hay schema sẽđịnh nghĩa mọi thứ từ cấu trúc dữ liệu tới kiểu dữ liệu, những thuộc tính được yêucầu và những ràng buộc về thành phần và thuộc tính được kết hợp trong tài liệu.Phương thức kiểm tra tài liệu này thường được sử dụng trong giao tiếp giữa ứngdụng - ứng dụng, đảm bảo dữ liệu trao đổi hợp lệ tránh dẫn tới những ảnh hưởngcủa dữ liệu không hợp lệ trên toàn hệ thống

Tài liệu XML có thể được viết bằng các trình soạn thảo thông thường như:Notepad,…hay các trình soạn thảo chuyên dụng của XML như: XML Notepad,XML Writer, XML Spy…

1.4.2.2 Cấu trúc của tài liệu XML

Tài liệu XML chỉ chứa đựng dữ liệu và cách lưu trữ dữ liệu mà không hề đề cậptới cách thức trình bày dữ liệu Một tài liệu XML sẽ chứa những đặc tả về cấu trúc

dữ liệu Mỗi cấu trúc gồm nhiều phần tử (element), mỗi thành phần được bắt đầu

Trang 36

với một thẻ bắt đầu (Start – tag) và kết thúc với một thẻ kết thúc (End – tag) GiữaStart – tag và End – tag là nội dung của phần tử này Nội dung có thể bao gồm dữliệu văn bản hay có thể là một phần tử khác.

Một tài liệu XML có thể được chia thành 2 thành phần chính, mỗi thành phần cóthể có các thành phần theo quy định khác nhau

Phần khởi đầu (PROLOG) chứa các khai báo trong tài liệu XML như khai báophiên bản sử dụng của XML, cách thức mã hóa dữ liệu, chỉ thị xử lý, định nghĩakiểu tư liệu cho tài liệu DTD, các chú thích, các khoảng trắng chuẩn XML khôngbắt buộc phải khai báo phần mở đầu của XML Tuy nhiên W3C khuyến khíchchúng ta nên sử dụng phần khai báo này, ít nhất cũng là phần khai báo phiên bản sửdụng XML

Phần thân (BODY) của tài liệu chứ nội dung của dữ liệu bao gồm một hay nhiềuthành phần (bắt buộc phải chứa ít nhất một thành phần), những thành phần này baogồm các phần tử (element) Mỗi phần tử bao gồm một cặp thẻ (thẻ bắt đầu và thẻkết thúc) Phần tử đầu tiên của tài liệu được coi là phần tử gốc (root element) Tất cảcác tài liệu XML được gọi là hợp khuôn dạng nếu chứa đựng duy nhất một phần tửgốc Phần tử gốc chứa đựng tất cả các phần tư và các cặp thẻ khác trong tài liệu

1.4.3 Các thành phần cơ bản trong tài liệu XML

1.4.3.1 Document Prolog (phần mở đầu tài liệu)

Document prolog là tùy chọn, nếu không có, XML parser sẽ dùng mặc định tùytheo kết quả dò tìm (detect) được Document prolog phải nằm ngay đầu tài liệutrước cả root element Có hai phần: XNL declaration (khai báo XML) và documenttype declaration (khai báo kiểu tài liệu)

1.4.3.2 Phần nội dung của tài liệu XML

Tài liệu XML được tạo nên bởi các phần tử (element): Phần tử thẻ và phần tử

dữ liệu) Mỗi phần tử dữ liệu (chứa dữ liệu thật sự) thường bao quanh bởi một cặp

phần tử thẻ: thẻ mở và thẻ đóng

* Thẻ:

Thẻ là các phần tử giữa các ký tự “<” và “>” Đặc tả XML, quy định rất rõ vềcách đặt tên thẻ: có thể bắt đầu bằng ký tự gạch chân (_) hoặc dấu hai chấm (:), các

Trang 37

ký tự kế tiếp có thể là ký tự, ký số, gạch nối, dấu chấm, dấu hai chấm nhưng khôngđược là khoảng trắng Tuy nhiên không nên dùng dấu hai chấm trong tên thẻ vì dấuhai chấm sau này được dùng để chỉ định không gian tên (namespace) của XML.Tên có phân biệt chữ hoa và chữ thường vì bộ phân tích và diễn dịch XML thườngphân biệt chữ hoa và chữ thường.

* Thẻ mở (thẻ bắt đầu) và thẻ đóng (thẻ kết thúc):

Thẻ mở bắt đầu bằng ký tự “<” và kết thúc bằng ký tự “>”, thẻ đóng bắt đầubằng ký tự “</” và kết thúc bằng ký tự “/>” Các thẻ luôn đi cặp với nhau, sao chomọi thẻ mở đều có một thẻ đóng tương ứng

* Thuộc tính:

Thuộc tính của các thẻ cho phép xác định thêm thông tin và ý nghĩa của thẻ,được kết hợp theo cặp name = value Thuộc tính được đặt bên trong thẻ mở và thẻrỗng Tên của thuộc tính cũng tuân thủ theo đúng quy tắc đặt tên thẻ, trị gán chothuộc tính luôn mang kiểu text Ngay cả khi gán một trị số cho thuộc tính, nó cũngchỉ được biểu diễn ở dạng text (bọc trong dấu nháy kép)

Ví dụ 1.12: Sau khi gán giá trị của các thuộc tính cho thẻ PATDOC

<PATDOC CY = ”EP” DNUM = ”1484585” DATE = ”20130608” FILE = ”04021672.3” KIND = ”A2” STATUS = ”N”>

Định dạng
Số trang	74
Dung lượng	653,38 KB