1. Trang chủ
  2. » Kinh Doanh - Tiếp Thị

Biểu diễn và xử lý các truy vấn trong cơ sở dữ liệu quan hệ mờ

15 238 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 15
Dung lượng 156,59 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Mở đầu Các hệ cơ sở dữ liệu CSDL kinh điển, phổ biến nhất là các hệ CSDL quan hệ, hầu nh- không có khả năng biểu diễn và xử lý có hiệu quả các thông tin không chính xác và không chắc chắ

Trang 1

§¹i häc quèc gia Hµ Néi

Tr-êng §¹i häc C«ng nghÖ

Lª Xu©n TuÊn

BiÓu diÔn vµ xö lý c¸c truy vÊn trong c¬ së d÷ liÖu quan hÖ mê

LuËn v¨n th¹c sÜ

Hµ Néi – 2006

Trang 2

§¹i häc quèc gia Hµ Néi

Tr-êng §¹i häc C«ng nghÖ

Lª Xu©n TuÊn

BiÓu diÔn vµ xö lý c¸c truy vÊn

trong c¬ së d÷ liÖu quan hÖ mê

Ngµnh: C«ng nghÖ th«ng tin M· sè: 1.01.10

LuËn v¨n th¹c sÜ

Ng-êi h-íng dÉn khoa häc

PGS TS Hå ThuÇn

Hµ Néi - 2006

Trang 3

Mục lục

Mục lục 3

Mở đầu 5

Ch-ơng 1 Khái quát về thông tin không chính xác và không chắc chắn trong các hệ CSDL 9

1.1 Khái niệm về các thông tin không hoàn hảo 9

1.1.1 Thông tin sai lệch 9

1.1.2 Thông tin không chính xác 9

1.1.3 Thông tin không chắc chắn 10

1.2 Biểu diễn thông tin không hoàn hảo Error! Bookmark not defined 1.2.1 Các giá trị null và các giá trị tuyển Error! Bookmark not defined 1.2.2 Các cơ sở dữ liệu xác suất Error! Bookmark not defined 1.2.3 CSDL mờ và CSDL khả năng Error! Bookmark not defined 1.3 Các thao tác xử lý thông tin không hoàn hảoError! Bookmark not defined

1.3.1 Các phép biến đổi (các câu hỏi) Error! Bookmark not defined 1.3.2 Các phép sửa đổi (cập nhật và cấu trúc lại)Error! Bookmark not defined.

1.3.3 Các ph-ơng pháp xử lý thông tin không hoàn hảoError! Bookmark not defined.

Ch-ơng 2 Các mô hình dữ liệu mờ và truy vấn mờ Error!

Bookmark not defined.

2.1 Các mô hình dữ liệu mờ Error! Bookmark not defined 2.1.1 Cách tiếp cận dựa trên quan hệ mờ Error! Bookmark not defined 2.1.2 Tiếp cận dựa trên sự t-ơng tự Error! Bookmark not defined 2.1.3 Tiếp cận trên cơ sở tính khả năng Error! Bookmark not defined.

Trang 4

2.1.4 Tiếp cận trên cơ sở khả năng mở rộngError! Bookmark not defined 2.1.5 Các tiếp cận tổ hợp Error! Bookmark not defined 2.2 Các truy vấn mờ Error! Bookmark not defined 2.3 Mô hình CSDL mờ dựa trên quan hệ t-ơng tựError! Bookmark not defined

2.4 Mô hình CSDL mờ dựa trên lý thuyết khả năngError! Bookmark not defined

Ch-ơng 3 CSDLQH mờ mở rộng và việc tính toán câu trả lời cho các truy vấn Error! Bookmark not defined 3.1 Mở rộng mờ của các CSDL quan hệ Error! Bookmark not defined 3.1.1 Các mô hình CSDLQH mờ kinh điểnError! Bookmark not defined 3.1.2 Các phép Chọn - Chiếu - Kết nối mờ kinh điểnError! Bookmark not defined.

3.2 Cấu trúc logic của mô hình CSDLQH mờError! Bookmark not defined 3.2.1 Lý thuyết quan hệ mờ mở rộng Error! Bookmark not defined 3.2.2 CSDLQH mờ mở rộng Error! Bookmark not defined 3.2.3 Quan hệ giống nhau mờ Error! Bookmark not defined 3.2.4 Các ràng buộc toàn vẹn trên CSDLQH mờ mở rộngError! Bookmark not defined.

3.3 Đánh giá chất l-ợng các câu trả lời Error! Bookmark not defined 3.3.1 Đánh giá độ không chắc chắn Error! Bookmark not defined 3.3.2 Đánh giá độ không chính xác Error! Bookmark not defined 3.3.3 Chất l-ợng cuối cùng của câu trả lờiError! Bookmark not defined 3.4 Các phép Chọn - Chiếu - Kết nối mở rộngError! Bookmark not defined 3.4.1 Phép Chọn mờ mở rộng Error! Bookmark not defined 3.4.2 Phép Chiếu mờ mở rộng Error! Bookmark not defined.

Trang 5

3.4.3 Phép Kết nối mờ mở rộng Error! Bookmark not defined 3.5 Vấn đề d- thừa Error! Bookmark not defined.

Kết luận chung Error! Bookmark not defined.

Tài liệu tham khảo 11

Trang 6

Mở đầu

Các hệ cơ sở dữ liệu (CSDL) kinh điển, phổ biến nhất là các hệ CSDL quan

hệ, hầu nh- không có khả năng biểu diễn và xử lý có hiệu quả các thông tin không chính xác và không chắc chắn Chẳng hạn, với câu hỏi: "Hãy cho biết họ tên các nhân viên trẻ tuổi và có l-ơng khá cao ?" một hệ quản trị cơ sở dữ liệu kinh điển d-ờng nh- không có cách gì để cho câu trả lời thoả đáng

Mặt khác, chúng ta luôn phải đối mặt với một thực tế là sự hiểu biết của chúng ta về thế giới thực th-ờng là không hoàn hảo và do đó việc duy trì tính toàn vẹn của các CSDL luôn là một thách thức Trong tình huống đó, để duy trì tính toàn vẹn của các cơ sở dữ liệu, có hai giải pháp:

+ Hoặc là ta giới hạn mô hình ở phần của thế giới thực tại đó có đ-ợc thông tin hoàn hảo (đầy đủ) Điều đó có nghĩa, trong mô hình dữ liệu quan hệ chẳng hạn, các bộ ứng với các nhân viên không có đủ thông tin (thí dụ về tuổi hoặc mức l-ơng)

sẽ hoàn toàn bị loại (không có mặt trong cơ sở dữ liệu)

+ Hoặc là phát triển các mô hình dữ liệu cho phép biểu diễn, thao tác và xử

lý các thông tin không hoàn hảo

Giả sử thông tin có đ-ợc về tuổi của một nhân viên là không chính xác, chỉ biết là ở trong khoảng từ 30 tới 40 Nếu mô hình dữ liệu có khả năng đặc tả và thao tác trên các khoảng thì loại thông tin không hoàn hảo đó có thể đ-ợc nắm bắt trong một cơ sở dữ liệu mà vẫn duy trì tính toàn vẹn của nó Vì giải pháp thứ hai cho phép mở rộng các ứng dụng cơ sở dữ liệu nên phần lớn các hệ cơ sở dữ liệu đều gắn kết với các mô hình dữ liệu có ít nhất một số đặc điểm nắm bắt thông tin không hoàn hảo, trong đó đặc điểm chung nhất là khả năng l-u trữ các giá trị

“ null” Cơ sở dữ liệu quan hệ (CSDLQH) mờ là một mô hình dữ liệu rất tốt cho việc biểu diễn, thao tác và xử lý các thông tin nh- thế

Trang 7

Mặt khác, trong công nghệ CSDL thì biểu diễn, xử lý và tối -u hoá truy vấn/câu hỏi luôn là một trong những thành phần then chốt nhất Thành phần này có trách nhiệm xử lý các câu hỏi của ng-ời dùng sao cho năng suất và hiệu quả nhất Nói cách khác, mục tiêu của việc xử lý và tối -u hoá câu truy vấn là tìm ra những dữ liệu ng-ời dùng mong muốn từ cơ sở dữ liệu th-ờng là rất lớn một cách hiệu quả với một độ chính xác chấp nhận đ-ợc

Trong các hệ CSDLQH kinh điển, cả dữ liệu và các câu truy vấn của ng-ời sử dụng đều đ-ợc giả sử là chính xác Trong thực tế, điều giả sử này có thể không đúng, nghĩa là có thể có sự không chính xác trong dữ liệu hay trong các câu hỏi Hãy xét dân số của một thành phố Sẽ không thể biết đ-ợc con số chính xác số dân c- ngụ trong thành phố tại một thời điểm cho tr-ớc Thậm chí ngay cả khi số dân đ-ợc xác định chính xác tại một thời điểm thì nó cũng sẽ thay đổi vì các nguyên nhân nh- là sinh đẻ hay di c-… T-ơng tự nh- thế, trọng l-ợng của con ng-ời cũng là đại l-ợng thay đổi theo thời gian Do vậy, việc xuất hiện của các dữ liệu không chính xác trong CSDL là điều tự nhiên Chúng

ta biết rằng ng-ời dùng thích đ-a ra những truy vấn không chính xác hơn là

những truy vấn chính xác Thí dụ, họ muốn tìm tất cả những ng-ời bạn trẻ mà không đ-a ra độ tuổi chính xác là bao nhiêu thì gọi là trẻ Nhìn chung, ta có

thể gặp ba dạng không chính xác sau:

i Truy vấn không chính xác nh-ng dữ liệu trong CSDL là chính xác

ii Truy vấn là chính xác nh-ng dữ liệu là không chính xác

iii Cả truy vấn và dữ liệu đều không chính xác

Tóm lại, việc biểu diễn và xử lý các thông tin không chính xác và không chắc chắn đã và đang là một đề tài thời sự và có ý nghĩa ứng dụng rõ rệt Có nhiều cách tiếp cận khác nhau để giải quyết vấn đề nêu trên Luận văn tập

Trang 8

trung vào cách tiếp cận sử dụng lý thuyết tập mờ với nội dung nhằm giải quyết các vấn đề chủ yếu sau:

- Biểu diễn và xử lý các thông tin không chắc chắn và không chính xác trong cơ sở dữ liệu quan hệ mờ

- Mở rộng đại số quan hệ để xây dựng ngôn ngữ hỏi trên cơ sở dữ liệu quan hệ mờ, tính toán và đánh giá chất l-ợng câu trả lời cho các truy vấn

Để thực hiện mục tiêu trên, ngoài phần mở đầu, phần kết luận và danh mục tài liệu tham khảo, luận văn đ-ợc bố cục nh- sau:

Ch-ơng 1, trình bày khái quát về thông tin không chính xác và không chắc chắn trong các hệ CSDL Nội dung cụ thể của ch-ơng này gồm các khái niệm ngắn gọn về thông tin không chính xác, không chắc chắn; cách biểu diễn chúng trong cơ sở dữ liệu cũng nh- các thao tác xử lý (các phép biến đổi - các câu hỏi và các phép sửa đổi - cập nhật và cấu trúc lại) trên những thông tin đó

Ch-ơng 2 giới thiệu tổng quan về các mô hình dữ liệu mờ nhằm biểu diễn các dữ liệu không chính xác, trong đó tập trung vào việc trình bày sâu, đầy đủ hơn về các CSDL mờ dựa trên quan hệ t-ơng tự và CSDL mờ dựa trên lý thuyết khả năng, đồng thời nghiên cứu về vấn đề xử lý các câu hỏi mờ t-ơng ứng

Ch-ơng 3 đề xuất một cách mở rộng kiến trúc logic của cơ sở dữ liệu quan hệ mờ nhằm đáp ứng một cách chặt chẽ hơn việc biểu diễn, xử lý các thông tin không chắc chắn và không chính xác, cụ thể là biểu diễn và xử lý cả các thông tin tuyển mờ (fuzzy disjunctive information) Trên cơ sở đó, ta dùng thêm hai độ đo, độ "thoả" (satisfactory degree) và độ "phụ trợ" (extra degree), nhằm xác định chất l-ợng các câu trả lời cho các câu truy vấn Chọn - Chiếu - Kết nối (Select - Project - Join: SPJ) Các độ đo này sẽ xác định thông tin thoả

đáng đ-ợc cung cấp là bao nhiêu và thông tin chân lý (truth) đòi hỏi đối với mỗi câu truy vấn là nhiều cỡ nào Các câu trả lời vì thế mà bao gồm các câu trả

Trang 9

lời chắc chắn (sure answers) và các câu trả lời có thể/khả năng (maybe answers) Quá trình đánh giá chất l-ợng các câu trả lời truy vấn cũng sẽ cho thấy cách mà đại số quan hệ đ-ợc mở rộng, cụ thể đ-ợc trình bày trong ch-ơng này là cách mở rộng các phép toán SPJ nhằm biểu diễn và xử lý một cách hiệu quả các câu truy vấn trên CSDLQH mờ

*

Luận văn đ-ợc hoàn thành d-ới sự h-ớng dẫn khoa học, tận t ình và nghiêm khắc của thầy PGS TS Hồ Thuần Em xin đ-ợc bày tỏ niềm kính trọng

và lòng biết ơn sâu sắc tới thầy, cô, gia đình và các bạn bè, đồng nghiệp, những ng-ời đã có nhiều giúp đỡ, đóng góp quý báu cho việc hoàn thiện luận văn trong thời gian qua

Trang 10

Ch-ơng 1

Khái quát về thông tin không chính xác

và không chắc chắn trong các hệ CSDL

1.1 Khái niệm về các thông tin không hoàn hảo

Có thể liệt kê ra nhiều loại thông tin không hoàn hảo, bao gồm cả thông tin mơ hồ và nhập nhằng Đối với các hệ cơ sở dữ liệu, ta quan tâm tới ba loại thông tin không hoàn hảo sau: [1]

1.1.1 Thông tin sai lệch

Thông tin sai lệch (Erroneous information) là loại thông tin không hoàn hảo

đơn giản nhất Thông tin của cơ sở dữ liệu là sai lệch khi nó khác với "thông tin thực"(1) (the true information)

Ta sẽ theo cách tiếp cận cho rằng mọi sai số lớn hay nhỏ đều làm ph-ơng hại tính toàn vẹn của cơ sở dữ liệu và không dung thứ đ-ợc Một loại thông tin sai

lệch quan trọng là sự không nhất quán Đôi khi, cùng một khía cạnh của thế

giới thực đ-ợc biểu diễn nhiều lần, trong cùng một cơ sở dữ liệu hay trong nhiều cơ sở dữ liệu khác nhau Khi các biểu diễn đó là đối lập quyết liệt không thể hoà hợp đ-ợc, thông tin là không nhất quán Trong việc tích hợp thông tin

từ nhiều cơ sở dữ liệu khác nhau, các vấn đề về sự không nhất quán của thông tin phải đ-ợc quan tâm thích đáng

1.1.2 Thông tin không chính xác

Thông tin trong cơ sở dữ liệu là không chính xác khi nó ký hiệu một tập các giá trị có thể, và giá trị thực là một phần tử của tập đó

(1) Còn gọi là thông tin đúng

Trang 11

Nh- vậy, thông tin không chính xác không là thông tin sai lệch và không làm ph-ơng hại tới tính toàn vẹn của cơ sở dữ liệu

Sau đây là một số loại thông tin không chính xác đặc tr-ng:

- Thông tin tuyển, chẳng hạn, tuổi của Giang hoặc là 35 hoặc là 36

- Thông tin âm, chẳng hạn, tuổi của Giang không là 30

- Thông tin khoảng/miền, chẳng hạn tuổi của Giang nằm giữa 35 và 40, hoặc tuổi của Giang là lớn hơn 35

- Thông tin với các cận sai số, chẳng hạn tuổi của Giang là 30+1

Hai loại thông tin không chính xác cực biên là thông tin chính xác (ứng với tr-ờng hợp tập các giá trị có thể là tập một phần tử) và các giá trị null (đ-ợc hiểu theo nghĩa là thông tin không chính xác, trong đó tập các giá trị có thể bao gồm toàn bộ miền các giá trị hợp lệ)

1.1.3 Thông tin không chắc chắn

Đôi khi, tri thức của chúng ta về thế giới thực (chính xác hay không chính xác) không thể đ-ợc phát biểu với niềm tin tuyệt đối, và đòi hỏi ta phải xác định niềm tin về thông tin đ-ợc phát biểu Thông tin với độ chắc chắn nhất

định cũng không là thông tin sai lệch và không làm ph-ơng hại tới tính nhất quán của cơ sở dữ liệu

Trong khi phát biểu "tuổi của Giang hoặc là 35 hoặc là 36" thể hiện tính không chính xác, phát biểu "tuổi của Giang có khả năng là 35" lại thể hiện tính không chắc chắn

Đôi khi, một giá trị chính xác có thể kéo theo sự kém chắc chắn, nh-ng chừng nào giá trị đó đ-ợc thay thế bằng các giá trị càng dần kém chính xác thì

độ chắc chắn sẽ tăng dần và cuối cùng đạt cực đại với một giá trị có độ "chính xác cực tiểu" (một giá trị null chẳng hạn)

Trang 12

Tµi liÖu tham kh¶o

TiÕng Anh

1 A.Motro, Imprecision and uncertainty in database systems; In P Bose and J.Kacprzyk, editors, Fuzziness in database management systems,

Physica, Verlag, 1995

2 E.F.Codd, Extending the database relational model to capture more

meaning, ACM Transactions on database systems, 4(A), December 1979

3 C.J.Date, NOT is not "not"! In Relational database writings 1985 -1989,

Additson Wesley, Reading, Massachusetts, 1990

4 S.Abiteboul and G.Grahne, Update semantics for incomplete databases, In

Proceedings of the 11th International Comference on very large data bases,

1985

5 T.Imielinski, Incomplete information in logical databases, Data

Engineering, 12(2), June 1989

6 D.Barbara, H.Garcia - Molina, and D.Porter, The management of

probabilistic data, IEEE Transactions on Knowledge and Data

Engineering, 4(5), October 1992

7 B.P Buckles and F.E.Petry, A fuzzy representation of data for relational

databases Fuzzy sets and systems, 7(3), May 1982

8 D.Dubois and H.Prade, Possibility theory: An approach to computerized

processing of Uncertainty, Plenum Press, New York, 1988

9 H Prade and C.Testemale, Generalizing database relational algebra for

the treatment of incomplete information and vague queries,

Information Sciences, 34(2), 1984

10 P.Bosc and H Prade, An introduction to fuzzy set and possibility theory -

based approaches to the treatment of uncertainty andimprecision in database management systems, In A.Motro and P.Smets, editors,

Proceeding of the Workshop on Uncertainty management in information systems: From needs to solutions, 1993

11 A.Motro, Intensional answers to database queries, IEEETransactions on

Knowledge and data Engineering, 6(3), June 1994

Trang 13

12 E Kerre and G.Chen, An overview of fuzzy data models, In P.Bosc and J

Kacprzyk, editors, Fuzziness in Database Management Systems, Physica - Verlag, 1995

13 A Zvieli, A fuzzy relational calculus, In: L.Kerschberg, eds, Expert

Database Systems, Proceedings of 1st International conference, April 1 -4, South Carolina, USA, 1986

14 J.Kacprzyk and A.Ziolkowski, Database queries with fuzzy linguistic

quantifiers, IEEE Trans on Sys Man and Cybern, 16, 1986

15 L.A Zadeh, The role of fuzzy logic in the management of uncertainty in

expert systems, Fuzzy sets and Systems, 11, 1983

16 P.Bose, M.Galibourg, Hamon G., Fuzzy querying with SQL extensions and

implementation aspects, Fuzzy sets and systems, Vol.28, 1988

17 P.Bosc, O Pivert, About equivalents in SQLf: a relational language

supporting imprecise querying, Proceeding of International Fuzzy

Engineering Symposium, Yokohama (Japan), 1991

18 R.R Yager, General multiple - objective decision functions and

linguistically quantified statements, Int J Man - Machine studies, Vol

2, 1984

19 Yager, On ordered weighted average aggregation operators in

multicriteria decision making, IEEE Trans on Systems, Man and

Cybernetics, Vol 18, No.1, 1988

20 F Petry, P.Bosc ,Fuzzy databases : Principles and Applications

Kluwer, Norwell, MA, 1996

21 H.Thuan, T.T.Thanh, Fuzzy functional dependencies with linguistic

Quantifiers, J.of Informatics and Cybernetics, vol.18(2), 2002

22 H.Thuan, H.C.Ha, An approach to extending the relational database model

for handling incomplete information and data dependencies, J of Informatics

and Cybernetiecs, vol.17(3), 2001

23 Codd EF, A relational model of data for large shared data banks Commun

ACM 1970; 13: 377-387

24 Dubois D, Prade H Possibility theory: An approach to computerized

processing of uncertainty New York: Plenum Press; 1986

25 Lipski W On database with incomplete information J ACM 1981; 28: 41-70

26 Lipski W On semantic issues connected with incomplete information

databases ACM Trans Database Syst 1981; 3: 262-296

Ngày đăng: 08/02/2017, 22:46

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm