1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phát triển một đại số để xử lý cơ sở đối tượng xác suất mờ

108 28 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 108
Dung lượng 682,67 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Trong luận văn này, mô hình cơ sở đối tượng xác suất của Eiter và các cộng sự 2001 đã được mở rộng để phát triển một đại số xử lý được cơ sở đối tượng không chắc chắn và không rõ ràng, t

Trang 1

Đại Học Quốc Gia Tp Hồ Chí Minh

TRƯỜNG ĐẠI HỌC BÁCH KHOA

-

NGUYỄN HÒA

PHÁT TRIỂN MỘT ĐẠI SỐ ĐỂ XỬ LÝ

CƠ SỞ ĐỐI TƯỢNG XÁC SUẤT MỜ

Chuyên Ngành: Công Nghệ Thông Tin Mã Số Ngành: 01-02-10

LUẬN VĂN THẠC SỸ

TP HỒ CHÍ MINH, Tháng 5 năm 2003

Trang 2

TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

Cán bộ hướng dẫn khoa học:

TS Cao Hoàng Trụ

Cán bộ chấm nhận xét 1:

TS Dương Tuấn Anh

Cán bộ chấm nhận xét 2:

PGS.TS Trần Văn Hạo

Luận văn thạc sĩ được bảo vệ tại HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ

TRƯỜNG ĐẠI HỌC BÁCH KHOA ngày 30 tháng 05 năm 2003

Trang 3

NHIỆM VỤ LUẬN VĂN THẠC SỸ

Họ và tên học viên: Nguyễn Hòa Phái: Nam

Ngày, tháng, năm sinh: 13-04-1962 Nơi sinh: Nghệ An

Chuyên ngành: CÔNG NGHỆ THÔNG TIN Mã số: 01-02-10

I- TÊN ĐỀ TÀI: Phát Triển Một Đại Số Để Xử Lý Cơ Sở Đối Tượng

Xác Suất Mờ

II- NHIỆM VỤ VÀ NỘI DUNG:

Mở rộng đại số xử lý cở sở đối tượng xác suất (POB) của Eiter và cộng sự

với giá trị tập mờ để thành đại số xử lý cơ sở đối tượng xác suất mờ

(FPOB)

III- NGÀY GIAO NHIỆM VỤ: 20-07-2002

IV- NGÀY HOÀN THÀNH NHIỆM VỤ: 20-04-2003

V- CÁN BỘ HƯỚNG DẪN: TS Cao Hoàng Trụ

VI- CÁN BỘ CHẤM NHẬN XÉT 1: TS Dương Tuấn Anh

VII- CÁN BỘ CHẤM NHẬN XÉT 2: PGS.TS Trần Văn Hạo

Nội dung và đề cương Luận án cao học đã được thông qua Hội Đồng Chuyên Ngành

Nội dung và đề cương luận văn thạc sĩ đã được Hội Đồng Chuyên Ngành thông qua

Ngày Tháng năm

CÁN BỘ CHẤM NHẬN XÉT 2

PGS.TS TRẦN VĂN HẠO

CÁN BỘ CHẤM NHẬN XÉT 1

TS DƯƠNG TUẤN ANH

CÁN BỘ HƯỚNG DẪN

TS CAO HOÀNG TRỤ

TRƯỞNG PHÒNG ĐÀO TẠO SAU ĐẠI HỌC CHỦ NHIỆM NGÀNH

Trang 4

Mục Lục

Danh mục các hình vẽ

Danh mục các bảng

Trang

Chương 1 Mở Đầu

1.1 Phạm vi, động cơ thúc đẩy và mục tiêu ……… 1

1.2 Những đóng góp chính của luận văn……… 3

1.3 Sơ lược cấu trúc luận văn……… 4

1.4 Qui ước ký hiệu vàviết tắt ……… 5

Chương 2 Các Định Nghĩa Xác Suất và Tập Mờ Cơ Bản 2.1 Giới thiệu ……… 6

2.2 Các chiến lược kết hợp xác suất ……… 7

2.3 Các hàm phân bố xác suất ……… 10

2.4 Tập mờ ……… 11

2.5 Phép gán khối ……….……… 13

2.6 Mô hình bầu cử ……… 14

2.7 Diễn dịch xác suất của các quan hệ trên các tập mờ……… 15

2.8 Kết luận ……… 18

Chương 3 Kiểu và Các Lược Đồ Cơ Sở Đối Tượng Xác Suất Mờ 3.1 Giới thiệu ……… 19

3.2 Khái quát về mô hình ýù niệm FPOB ……… 20

3.3 Các kiểu và các giá trị ……… 22

3.4 Lược đồ cơ sở đối tượng xác suất mờ ……… 25

3.5 Kết luận ……… 33

Chương 4 Thừa Kế và Các Thể Hiện của FPOB 4.1 Giới thiệu ……… 34

4.2 Thừa kế ……… 35

4.3 Thể hiện của cơ sở đối tượng xác suất mờ ……… 36

4.4 Phạm vi xác suất ……… 38

4.5 Kết luận ……… 40

Trang 5

Chương 5 Các Phép Toán Đại Số

5.1 Giới thiệu ……… 41

5.2 Phép chọn ……… 42

5.3 Phép chiếu và phép đổi tên ……… 53

5.4 Phép lấy tích Cartesian ……… 57

5.5 Phép kết ……… 61

5.6 Phép giao, hợp và trừ ……… 64

5.7 Tính chất của các phép toán đại số ……… 72

5.8 Kết luận ……… 75

Chương 6 Tổng Kết và Đề Nghị 6.1 Tổng kết ……… 77

6.2 Đề nghị ……… 78

Tài liệu tham khảo ……… 80

Phụ Lục A Hiện Thực FPOB

1 Tổ chức chương trình

2 Các thử nghiệm

3 Diễn giải các thủ tục hiện thực phép toán chọn

Phụ Lục B Chứng Minh Các Định Lý Chương 5

Trang 6

Danh mục các hình vẽ

Trang

Hình 1 Tập mờ các số gần 2……… 11

Hình 2 Giá trị mờ small……… 13

Hình 3 Một ví dụ phân cấp lớp trong FPOB……… 21

Hình 4 Các giá trị tập mờ của thuộc tính sun……… 23

Hình 5 Algorithm 3.4.1……… 32

Hình 6 Algorithm 3.4.2……… 32

Hình 7 Algorithm 3.4.3……… 33

Hình 8 Phân cấp lớp trong lược đồ tích Cartesian ……… ……… 59

Danh mục các bảng Trang Bảng 1 Các tiên đề về chiến lược hội ……… 9

Bảng 2 Các tiên đề về chiến lược tuyển……… 9

Bảng 3 Các ví dụ về các chiến lược kết hợp xác suất……… 10

Bảng 4 Một mô hình bầu cử kích thước 10 của tập mờ f ……… 14

Bảng 5 Một mô hình bầu cử kích thước 10 của tập mờ cao……… 15

Bảng 6 Sự gán kiểu τ……… 27

Bảng 7 Phép gán xác suất……… 27

Bảng 8 Diễn dịch ε của S……… 28

Bảng 9 Phép gán kiểu τ ′được thiết kế lại……… 36

Bảng 10 Aùnh xạ π và π*……… ……… 37

Bảng 11 Phép gán v……….……… 38

Bảng 12 Diễn dịch các biểu thức họn……….……… 46

Bảng 13 Diễn dịch các biểu thức chọn……….……… 50

Bảng 14 π′ kết quả của phép chọïn……… 52

Bảng 15 Phép gán v′ kết quả phép chọn.……… 52

Bảng 16 Sự gán kiểu τ ′kết quả của phép chiếu ………….……… 53

Bảng 17 v′ kết quả phép chiếu….……… 54

Trang 7

Bảng 18 τ ′ kết quả của phép đổi tên ……….……… 55

Bảng 19 π′ kết quả phép đổi tên ……… 56

Bảng 20 v′ kết quả phép đổi tên ……… 57

Bảng 21 π kết quả tích Cartesian ……… 60

Bảng 22 v kết quả tích Cartesian ……….……… 61

Bảng 23 π kết quả phép kết ……….……… 64

Bảng 24 v kết quả phép kết ……….……… 64

Bảng 25 Aùnh xạ π1 của I1 = (π1, v1)……… 65

Bảng 26 Aùnh xạ v1 của I1 = (π1, v1)……… 65

Bảng 27 Aùnh xạ π2 của I2 = (π2, v2)……… 66

Bảng 28 Aùnh xạ v2 của I2 = (π2, v2)……… 66

Bảng 29 π kết quả phép giao……….……… 67

Bảng 30 v kết quả phép giao……… 67

Bảng 31 π kết quả phép hợp……….……… 68

Bảng 32 v kết quả phép hợp…….……… 69

Bảng 33 π kếtquả phép trừ……… 70

Bảng 34 v kếtquả phép trừ ……… 70

Bảng 35 Aùnh xạ π2 của I2 = (π2, v2) ……… 71

Bảng 36 Aùnh xạ v2 của I2 = (π2, v2) ……… 71

Bảng 37 π kết quả phép trừ……… ……… 71

Bảng 38 v kết quả phép trừ……….……… 72

Trang 8

LỜI CẢM ƠN

Trong quá trình hoàn thành luận văn này, tôi đã được các thầy cô nơi cơ sở đào tạo giúp đỡ tận tình, cơ quan nơi công tác tạo mọi điều kiện thuận lợi và bạn bè cùng gia đình thường xuyên động viên khích lệ

Luận văn này không thể hoàn thành tốt nếu không có sự tận tình hướng dẫn và sự giúp đỡ quí báu của TS Cao Hoàng Trụ, Thầy hướng dẫn mà tôi tôn vinh và muốn được bày tỏ lòng biết ơn sâu sắc nhất

Tôi cũng muốn được bày tỏ lòng biết ơn đối với tập thể các thầy cô Khoa

CNTT- Đại học Bách Khoa TP Hồ Chí Minh đã giảng dạy tôi trong quá trình đào

tạo, đặc biệt thầy Dương Tuấn Anh đã có những chỉ dẫn và lời khuyên quí giá khi viết luận văn này; cảm ơn Phòng quản lý sau Đại học về sự hỗ trợ các thủ tục hòan thành luận văn

Tôi chân thành cảm ơn Trường Đại học Mở-Bán Công TP Hồ Chí Minh, đặc biệt khoa Tin học, đã hỗ trợ và tạo mọi điều kiện thuận lợi cho tôi trong quá trình hoàn thành khóa học Thạc sĩ

Cuối cùng tôi cảm ơn tất cả bạn bè và người thân đã góp nhiều ý kiến thiết thực và có những lời động viên khích lệ qúi báu giúp tôi vượt qua khó khăn và hoàn thành tốt luận văn

TP Hồ Chí Minh, ngày 6 tháng 4 năm 2003

Nguyễn Hòa

Trang 9

TÓM TẮT

Thực tế chứng tỏ hướng đối tượng đã và đang là một phương pháp hữu hiệu để mô hình hóa các vấn đề của thế giới thực cũng như để thiết kế các phần mềm lớn Trong mô hình hướng đối tượng cổ điển, mỗi đối tượng “là hoặc không là” thành viên của một lớp, mỗi giá trị thuộc tính của một đối tượng của một lớp là chắc chắn và rõ ràng Tuy nhiên, trong thực tiễn rất phổ biến là cả thành viên và giá trị đó đều không chắc chắn và không rõ ràng Kết quả là mặc dù đã có nhiều ứng dụng trong đó mô hình dữ liệu hướng đối tượng là một phương tiện tốt để biểu diễn và truy vấn dữ liệu, các hệ thống cơ sở dữ liệu hiện nay không có khả năng xử lý các đối tượng mà giá trị các thuộc tính và thành viên của nó không chắc chắn và không rõ ràng

Trong luận văn này, mô hình cơ sở đối tượng xác suất của Eiter và các cộng sự (2001) đã được mở rộng để phát triển một đại số xử lý được cơ sở đối tượng không chắc chắn và không rõ ràng, trong đó sử dụng tập mờ để biểu diễn và truy vấn các giá trị không rõ ràng và không chính xác của các thuộc tính Để đạt được mục đích đó, các diễn dịch xác suất của các quan hệ trên các giá trị tập mờ đã được đề xuất nhằm liên kết chúng vào trong một khung làm việc dựa trên

cơ sở xác suất Sau đó các khái niệm giá trị bộ xác suất mờ, lược đồ cơ sở đối tượng xác suất mờ, thừa kế, thể hiện và các phép toán đại số như chọn, chiếu,

đổi tên, tích Cartesian, kết, giao, hợp, trừ của các thể hiện được định nghĩa

Trong luận văn này, các tính chất của các phép toán đại số cũng được chứng minh đầy đủ Ngoài ra, một chương trình thử nghiệm cơ sở đối tượng xác suất mờ bằng ngôn ngữ C++ đã được cài đặt cho phép toán chọn

Trang 10

Abstract

It is witnessed that object orientation has been a very useful methodology for modeling real world problems and constructing large-scale software In the classical object-oriented model, each object is "to be or not to be" a member of a class, each attribute value of an object of a class is certain and precise However, in the real world, it is often that both such membership and value are uncertain and imprecise Consequently, although there are many applications where an object oriented data model is a very good way of representing and querying data, current object database systems are unable to handle objects whose values of attributes and membership are uncertain and imprecise

In this thesis, we extend the probabilistic object base model by Eiter et

al (2001) to develop an algebra for handling object bases with uncertainty and imprecision in which fuzzy sets are used for representing and querying vague and imprecise values of object attributes In order to achieve this purpose, a probabilistic interpretation of relations on fuzzy set values is proposed to integrate them into that probability-based framework Then the definitions of fuzzy-probabilistic tuple values, fuzzy-probabilistic object base schemas, inheritance, instances, and algebraic operations as selection, projection, rename, Cartesian product, join, intersection, union, and difference are presented In the thesis, we also prove all properties of the defined algebraic operations In addition, we have implemented in C++ a prototype of fuzzy and probabilistic object bases with the selection operation

Trang 11

Chương 1

Mở Đầu

1.1 Phạm vi, động cơ thúc đẩy và mục tiêu

Cho đến gần đây, rõ ràng mô hình dữ liệu hướng đối tượng cổ điển là công cụ rất mạnh cho phép mô hình hóa các áp dụng lớn trong thực tế Điều đó được thể hiện ở khả năng phân cấp lớp các đối tượng, cách thức biểu diễn và truy vấn dữ liệu trên mô hình này Tuy nhiên, trong các hệ thống cơ sở đối tượng cổ điển hiện nay, các mối quan hệ cũng như trạng thái của các đối tượng luôn luôn được thể hiện một cách duy nhất tại bất kỳ thời điểm nào mà đối tượng đang tồn tại trong hệ thống Nghĩa là, trong một hệ thống phân cấp các lớp đối tượng như vậy, mối quan hệ giữa các đối tượng với các lớp cũng như giá trị các thuộc tính của các đối tượng trong đó là xác định duy nhất tại bất kỳ thời điểm nào của hệ thống ([5], [22], [25])

Hệ quả là các áp dụng dựa trên mô hình dữ liệu hướng đối tượng cổ điển không cho phép biểu diễn và xử lý các đối tượng mà thuộc tính của nó là không chắc chắn và không rõ ràng, cũng như không biểu diễn được một cách đúng đắn hoàn toàn sự phân cấp lớp các đối tượng trong một hệ thống phân cấp lớp các đối tượng trong thực tế Các nhận xét trên chứng tỏ mô hình hướng đối tượng cổ điển không mềm dẻo và còn khiếm khuyết Điều đó làm hạn chế khả năng mô hình hóa và giải quyết các bài toán trong thế giới thực Chẳng hạn, hệ thống này không thể trả lời được các truy vấn kiểu như: Tìm tất cả SINH VIÊN mà 60%

Trang 12

đến 80% khả năng chiều cao của họ sẽ là 1.65m hoặc 1.67m Hay tìm tất cả SINH VIÊN mà ít nhất 60% khả năng chiều cao của họ là "trung bình" Hoặc tìm tất cả những HỌC SINH mà ít nhất 50% khả năng họ là SINH VIÊN v.v Để khắc phục được các hạn chế này, chúng ta cần phải mở rộng mô hình cơ sở đối tượng cổ điển sao cho nó có thể biểu diễn và xử lý được các thông tin không chắc chắn và không rõ ràng

Theo tinh thần đó, trong những năm qua đã có khá nhiều công trình đề xuất và nghiên cứu nhằm tích hợp các thông tin không chắc chắn và không rõ ràng vào mô hình hướng đối tượng sao cho phù hợp với thực tế hơn

Một trong những hướng nghiên cứu như vậy là tìm cách tích hợp các giá trị tập mờ, biến mờ vào trong mô hình Nghĩa là, giá trị thuộc tính của các đối tượng có thể được mở rộng để nhận các giá trị tập mờ, số mờ Một số mô hình hướng đối tượng mờ (fuzzy object-oriented models) đã xuất hiện theo hướng nghiên cứu này ([7], [8], [9], [14], [15], [16], [19], [28], [30], [31]) Tuy nhiên, các nghiên cứu như vậy chưa biểu diễn và xử lý được tính không chắc chắn (có tính xác suất) của thông tin

Vượt qua thiếu sót và hạn chế trong các mô hình vừa kể trên là các nghiên cứu trong ([10], [11], [12]) bằng cách xây dựng một mô hình hướng đối tượng dựa trên xác suất và logic mờ Tuy nhiên, định nghĩa về sự phân cấp lớp trong mô hình này là cổ điển, nghĩa là không quan tâm đến tính không chắc chắn trên các liên kết giữa các lớp

Gần đây, trong [17] các tác giả đã phát triển một đại số để xử lý các cơ sở đối tượng không chắc chắn được gọi là POB (Probabilistic Object Bases), trong đó xác suất có điều kiện cho một đối tượng của một lớp thuộc về một trong các lớp con của nó được chỉ ra trong sự phân cấp lớp của chúng Đồng thời, với mỗi thuộc tính của đối tượng, tính không chắc chắn về giá trị của chúng cũng được biểu diễn bởi các hàm phân bố xác suất cận trên và cận dưới trên một tập giá trị Tuy nhiên, thiếu sót chính của mô hình POB là không tích hợp các giá trị thuộc tính mờ, không rõ ràng vào trong đó Chẳng hạn, ở một ví dụ

về các cây trồng trong [17], các giá trị của thuộc tính sun được chọn chỉ là các giá trị liệt kê mild, medium và heavy mà không có bất kỳ diễn dịch nào Trong

khi dó, thực tế các giá trị như vậy có bản chất là mờ, không rõ theo mức độ ánh sáng của mặt trời Hơn nữa, nếu không có một sự diễn dịch, chúng không thể đo được và sự phân bố xác suất của chúng không thể tính toán được

Trang 13

Như vậy, mặc dù đã có nhiều nghiên cứu nhằm khắc phục các yếu điểm, thiếu sót và khiếm khuyết của mô hình hướng đối tượng cổ điển, nhưng cho đến nay vẫn chưa có mô hình nào được xây dựng có thể khắc phục được hoàn toàn các thiếu sót của mô hình hướng đối tượng cổ điển Nghĩa là, chưa có mô hình nào có thể trả lời được đầy đủ các truy vấn đã nêu ở trên

Từ các nhận xét và phân tích như trên, luận văn này đề ra mục tiêu là xây dựng một đại số xử lý cơ sở hướng đối tượng có thể khắc phục được các hạn chế mà cho đến nay các mô hình hướng đối tượng còn chưa vượt qua được, góp phần vào việc mô hình hóa và giải quyết tốt hơn các bài toán trong thực tế

Vì lý thuyết tập mờ và logic mờ cung cấp một cơ sở toán học cho định nghĩa ngữ nghĩa cũng như tính toán với các biến ngôn ngữ (linguistic variables) ([15], [20], [21], [32], [33]), để đạt được mục tiêu đề ra, chúng tôi áp dụng chúng để mở rộng mô hình POB sao cho các đối tượng có thể nhận các giá trị

thuộc tính mờ, không rõ ràng Chẳng hạn, các giá trị mild, medium và heavy của thuộc tính sun trong ví dụ cây trồng [17] có thể được định nghĩa bởi các tập mờ

Với việc mở rộng mô hình POB tích hợp các giá trị tập mờ như vậy, chúng ta có thể vượt qua các trở ngại và thiếu sót như đã trình bày ở trên để xây dựng một mô hình hướng đối tượng tốt hơn, mềm dẻo hơn để có thể mô hình hóa một cách thích hợp hơn các bài toán trong thế giới thực Mô hình mà chúng tôi xây dựng gọi là FPOB (Fuzzy and Probabilistic Object Bases)

1.2 Những đóng góp chính của luận văn

Sau đây là những đóng góp chính của luận văn này đối với lĩnh vực cơ sở dữ liệu nói chung cũng như lĩnh vực tính toán mềm (soft computing) nói riêng:

1 Ứng dụng mô hình bầu cử ([1], [2], [18]) để xây dựng diễn dịch

xác suất của các quan hệ hai ngôi trên các tập mờ làm cơ sở toán học cho quá trình xây dựng các phép toán đại số trên FPOB

2 Mở rộng mô hình POB với các giá trị tập mờ

3 Chứng minh các tính chất của các phép toán đại số trên FPOB là

mở rộng của các phép toán đại số trên POB

4 Viết chương trình minh họa (prototype) cho FPOB với phép toán

chọn

Trang 14

1.3 Sơ lược cấu trúc luận văn

Luận văn này được chia thành sáu chương và hai phụ lục Sau chương 1, các chương còn lại lần lượt được trình bày để đạt được các mục tiêu mở rộng POB trong [17] thành FPOB Các chương được tổ chức như sau:

Chương 2 giới thiệu cơ sở toán học để xây dựng FPOB Đó là các khái niệm cơ bản của lý thuyết xác suất và tập mờ Phần 2.2 và 2.3 trình bày các chiến lược kết hợp xác suất trên khoảng và các hàm phân bố xác suất Phần 2.6 giới thiệu mô hình bầu cử trong [1], phần 2.7 là một đề nghị diễn dịch xác suất các quan hệ tập mờ như trong [13] Các phần còn lại là các khái niệm liên quan đến tập mờ

Chương 3 trình bày về các niệm kiểu, giá trị và các lược đồ của cơ sở đối tượng xác suất mờ Phần 3.2 giới thiệu khái quát mô hình ý niệm FPOB Tiếp theo, phần 3.3 là sự mở rộng khái niệm về kiểu và giá trị của POB để có thể biểu diễn được giá trị thuộc tính mờ Phần 3.4 nêu lên cách xây dựng lược đồ cở sở đối tượng xác suất mờ và một số tính chất của nó

Chương 4 trình bày các khái niệm kế thừa trong FPOB và thể hiện của cơ sở đối tượng xác suất mờ trên một lược đồ, lần lượt được giới thiệu trong các phần 4.2 và 4.3 Phần còn lại 4.4 trình bày khái niệm phạm vi xác suất (probabilistic extent), đặc tả mối quan hệ xác suất giữa các đối tượng và lớp trong một FPOB, cho biết khả năng một đối tượng thuộc về một lớp nào đó

Chương 5 trình bày quá trình xây dựng các phép toán đại số trên FPOB bằng cách mở rộng các phép toán trong POB bao gồm phép chọn, chiếu, đổi tên, tích Cartesian, kết, giao, hợp và trừ tương ứng trong các phần 5.2 cho đến 5.6 Phần 5.7 còn lại là phát biểu các định lý về các tính chất của các phép toán đại số trên FPOB Các chứng minh của các tính chất này (tương tự như trong POB) cho thấy tính đúng đắn của các phép toán đại số được xây dựng trên FPOB, đồng thời cũng cho thấy tính nhất quán và tương thích của chúng với các phép toán tương ứng trên POB

Mỗi chương, từ chương 2 đến chương 5 có một phần giới thiệu và một phần kết luận Chương 6 gồm hai phần là tổng kết luận văn và đề nghị các hướng nghiên cứu trong tương lai Phụ lục A trình bày việc hiện thực và thử nghiệm chương trình minh họa FPOB Phụ lục B trình bày chứng minh các tính chất của các phép toán đại số trên FPOB

Trang 15

1.4 Qui ước ký hiệu và viết tắt

Các ký hiệu và qui ước chung sau đây được sử dụng trong suốt luận văn này:

⊆ : quan hệ tập con cổ điển / mờ

∩ : phép toán giao tập cổ điển / mờ

∪ : phép toán hợp tập cổ điển / mờ

≤ : quan hệ nhỏ hơn hoặc bằng trên trường các số thực / khoảng

⊗ : phép toán hội xác suất của hai khoảng ứng với hai biến cố

⊕ : phép toán tuyển xác suất của hai khoảng ứng với hai biến cố

Θ : phép toán trừ xác suất của hai khoảng ứng với hai biến cố

Pr : hàm tính xác suất của một quan hệ / sự kiện

min : hàm số thực trả về giá trị nhỏ nhất

max : hàm số thực trả về giá trị lớn nhất

Ν : tập tất cả các số tự nhiên

Z : tập tất cả các số nguyên

POB : Probabilistic Object Base

FPOB : Fuzzy and Probabilistic Object Base

Trang 16

Đầu tiên là các chiến lược kết hợp xác suất trên các khoảng trong phần 2.2 do Lakshmanan và các cộng sự đưa ra năm 1997 và được Eiter và các cộng sự bổ sung năm 2001 trong [17] Các chiến lược này được xây dựng dựa trên các tính chất cơ bản của lý thuyết xác suất cổ điển, chúng cung cấp cho chúng ta công cụ toán học thích hợp để biểu diễn và tính toán xác suất của giá trị các thuộc tính mà đối tượng có khả năng nhận cũng như xác suất mà đối tượng có thể thuộc về một lớp trong FPOB

Phần tiếp theo 2.3 giới thiệu khái niệm hàm phân bố xác suất và bộ ba xác suất trong [17] Các hàm phân bố xác suất và bộ ba xác suất là công cụ tốt cho khả năng biểu diễn giá trị không chắc chắn của đối tượng trong FPOB

Phần 2.4 giới thiệu về khái niệm tập mờ, biểu diễn tập mờ, lát cắt α cut) của tập mờ và giá trị thuộc tính mờ làm cơ sở cho việc định nghĩa hình thức khái niệm giá trị các đối tượng trong FPOB Hai phần 2.5, 2.6 là các khái niệm về phép gán khối và mô hình bầu cử trên một tập trong [1] Các khái niệm này

Trang 17

(α-được dùng làm cơ sở cho định nghĩa diễn dịch xác suất của các quan hệ trên các tập mờ trong phần 2.7 làm nền tảng cho việc tính toán xác suất của giá trị tập mờ của các đối tượng trong FPOB

Phần 2.7 giới thiệu các khái niệm diễn dịch xác suất của các quan hệ trên các tập mờ đã được đề nghị trong [13] dựa trên mô hình bầu cử Như trên đã nói, các diễn dịch này là cơ sở lý thuyết quan trọng để tính toán xác suất xuất hiện của giá trị mờ của một đối tượng, làm cơ sở cho việc xây dựng các phép toán đại số trên FPOB Cuối cùng, phần 2.8 là các kết luận đáng chú ý của chương này

2.2 Các chiến lược kết hợp xác suất

Giả sử, chúng ta biết xác suất của các sự kiện e1 và e2 Chẳng hạn, e1 có thể là sự kiện "Thực vật p1 trong ảnh A là cây Húng Tây" Tương tự, e2 có thể là sự kiện "Thực vật p2 trong ảnh A là cây Bạc Hà" Giả sử chúng ta đang quan tâm

đến xác suất của sự kiện phức hợp e1 ∧ e2 Xác suất của e1 ∧ e2 sẽ được tính theo những cách khác nhau phụ thuộc vào mối quan hệ giữa e1 và e2

• e 1 và e 2 là độc lập (independent) Điều này xẩy ra khi chúng ta biết rằng

các thực vật p1 và p2 đang sinh trưởng độc lập trong vùng nào đó Trong trường hợp này, Pr(e1 ∧ e2) = Pr(e1).Pr(e2) (nghĩa là, xác suất của e1 ∧ e2

là tích của các xác suất của e1 và e2)

• e 1 và e 2 là lọai trừ lẫn nhau (mutually exclusive) Giả sử chúng ta biết

rằng p1 và p2 là cùng một cây Khi đó các sự kiện e1 và e2 là lọai trừ lẫn nhau, chúng ta có thể khẳng định ngay rằng Pr(e1 ∧ e2) = 0

• Bỏ qua quan hệ giữa e 1 và e 2 (relationship ignorance) Trường hợp này

xẩy ra khi chúng ta không biết gì về quan hệ giữa thực vật p1 và p2 đang sinh trưởng trong trong cùng một vùng Như đã chỉ ra trong [17], cách tốt nhất chúng ta có thể nói về xác suất của e1 ∧ e2 là nó nằm trong khoảng [max(0, Pr(e1) + Pr(e2) -1), min(Pr(e1), Pr(e2))]

Như vậy, xác xuất của biến cố e1 ∧ e2 không chỉ phụ thuộc vào xác suất của e1 vàø e2 mà còn vào cả mối quan hệ giữa các sự kiện e1 vàe2 Tương tự, chúng ta cũng có thể tính toán xác suất của sự kiện e1 ∨ e2 tùy thuộc vào thông tin về mối quan hệ giữa chúng Trên đây, chỉ là ba ví dụ về các cách khác nhau để đánh giá về xác suất của các sự kiện phức hợp Một cách khái quát, tùy thuộc vào mức độ nắm bắt thông tin về sự phụ thuộc giữa các sự kiện tham gia, có nhiều sự lựa chọn để tính các xác suất này theo các thông tin đó

Trang 18

Trong phạm vi nghiên cứu này, các khoảng xác suất được sử dụng thay cho các giá trị xác suất vì hai lý do:

1 Trong nhiều áp dụng, xác suất của một sự kiện thường không được

cung cấp một cách rõ ràng

2 Như đã chỉ ra ([17]), khi chúng ta không biết các sự phụ thuộc giữa

hai sự kiện, chúng ta chỉ có thể nói xác suất của hội / tuyển của hai sự kiện thuộc về một khoảng

Sự thống kê hay tính toán xác suất trên các khoảng phải đảm bảo các khoảng xác suất của các sự kiện phù hợp với thực tế Định nghĩa sau đây có thể giúp chúng ta kiểm tra điều đó

Định nghĩa 2.2.1 Giả sử e1 và e2 tương ứng có các xác suất trong các khoảng Ι1

= [L 1 , U 1] và Ι2 = [L 2 , U 2] Một sự gán các khoảng xác suất như vậy được gọi là

nhất quán (consistent) nếu và chỉ nếu L 1 ≤ U 1 , L 2 ≤ U 2, và thỏa mãn các điều kiện sau đây:

1 Nếu e1 ∧ e2 là mâu thuẫn (contradictory) thì L 1 + L 2 ≤ 1

2 Nếu e1 ∧ ¬e2 là mâu thuẫn thì L 1 ≤ U 2

3 Nếu ¬e1 ∧ e2 là mâu thuẫn thì L 2 ≤ U 1

4 Nếu ¬e1 ∧ ¬e2 là mâu thuẫn thì U 1 + U 2 ≥ 1

Trong phạm vi nghiên cứu này, chúng ta giả thiết là tất cả các phép gán

các khoảng xác suất là nhất quán trừ phi phát biểu ngược lại Giả sử I 1 = [L 1 ,

U 1 ] và I 2 = [L 2 , U 2 ] Chúng ta sử dụng ký hiệu I 1 ≤ I 2 như là một sự viết gọn thay

cho L 1 ≤ L 2 và U 1 ≤ U 2 và I 1 ⊆ I 2 thay cho L 2 ≤ L 1 và U 1 ≤ U 2

Để thuận tiện cho việc biểu diễn các truy vấn trong FPOB trên cơ sở suy luận xác suất, chúng ta sử dụng các chiến lược hội và tuyển xác suất tổng quát

do Lakshmanan đưa ra năm 1997 Bất kỳ hàm nào thỏa mãn các tiên đề trong Bảng 1 và 2 sau đây đều được gọi là một chiến lược hội hoặc tuyển xác suất

Cho hai sự kiện e1 và e2 với các xác suất tương ứng trong các khoảng I 1 =

[L 1 , U 1 ] và I 2 = [L 2 , U 2], chúng ta ký hiệu I =I1 ⊗I2 và I =I1 ⊕I2 tương ứng thay cho (e1 ∧e2,I)=(e1,I1)⊗(e2,I2) và (e1∨e2,I) = (e1,I1) ⊕ (e2,I2).

Trang 19

Bảng 1 : Các tiên đề về chiến lược hội

Tên Tiên Đề Chiến Lược Hội (Conjunction strategy)

Bị chặn (Bottomline) (I1 ⊗I2)≤[min(L1,L2),min(U1,U2)]

Bỏ qua (Ignorance) (I1 ⊗I2)⊆[max(0,L1 +L2 −1),min(U1,U2)]

Đồng nhất (I1 ⊗[1,1])=I1

Giao hoán (I1 ⊗I2)=(I2 ⊗I1)

Kết hợp ((I1 ⊗I2)⊗I3)=(I1 ⊗(I2 ⊗I3))

Đơn điệu (I1 ⊗I2)≤(I1 ⊗I3) if I2 ≤I3

Bảng 2: Các tiên đề về chiến lược tuyển

Tên Tiên Đề Chiến Lược Tuyển (Disjunction strategy)

Bị chặn (I1 ⊕I2)≥[max(L1,L2),max(U1,U2)]

Bỏ qua (I1 ⊕I2)⊆[max(L1,L2),min(1,U1 +U2)]

Định nghĩa 2.2.2 Giả sử e1 và e2 tương ứng có các xác suất trong các khoảng Ι1

= [L 1 , U 1] và Ι2 = [L 2 , U 2] Một chiến lược hiệu xác suất là một phép toán hai ngôi (binary operation) Θ sử dụng thông tin này để tính một khoảng xác suất I

= (L, U) cho sự kiện e1 ∧ ¬e2 Chúng ta sử dụng ký hiệu I =II2thay cho

),(),()

,

(e1 ∧¬e2 I = e1 I1 Θ e2 I2 Các chiến lược hiệu thỏa mãn các tiên đề sau:

1 Bị chặn: (II2)≤[min(L1,1−U2),min(U1,1−L2)]

2 Bỏ qua: (II2)⊆[max(0,L1 −U2),min(U1,1−L2)]

3 Đồng nhất: nếu (¬e1 ∧ ¬e2)and (e1 ∧ ¬e2 ) là không mâu thuẫn thì

(I1 Θ [0, 0]) = I1 Bảng 3 sau đây là một số ví dụ về các chiến lược hội, tuyển và hiệu xác Trong ([17])

Trang 20

Bảng 3: Các ví dụ về các chiến lược kết hợp xác suất

Chiến lược Phép toán

Bỏ qua (Ignorance) ([L1,U1]⊗ig [L2,U2])≡[max(0,L1 +L2 −1),min(U1,U2)]

)]

,1min(

),,[max(

]),[],([L1 U1 ⊕ig L2 U2 ≡ L1 L2 U1 +U2

)]

1,min(

),,

0[max(

]),[],([L1 U1 Θig L2 U2 ≡ L1−U2 U1 −L2

Độc lập

(Independence)

],

[]),[],([L1 U1 ⊗in L2 U2 ≡ L1⋅L2 U1⋅U2

)](

),(

[]),[],([L1 U1 ⊕in L2 U2 ≡ L1 +L2 − L1⋅L2 U1+U2 − U1⋅U2

)]

1(),1([]),[],([L1 U1 Θin L2 U2 ≡ L1⋅ −U2 U1⋅ −L2

Tương quan thuận

(Positive correlation)

)]

,min(

),,[min(

]),[],([L1 U1 ⊗pc L2 U2 ≡ L1 L2 U1 U2

)]

,max(

),,[max(

]),[],([L1 U1 ⊕pc L2 U2 ≡ L1 L2 U1 U2

)]

,0max(

),,

0[max(

]),[],([L1 U1 Θpc L2 U2 ≡ L1−U2 U1−L2

Loại trừ nhau

(Mutual Exclusion)

]0,0[]),[],([L1 U1 ⊗me L2 U2 ≡

)],

1min(

),,

1[min(

]),[],([L1 U1 ⊕me L2 U2 ≡ L1 +L2 U1+U2

)]

1,min(

,[]),[],([L1 U1 Θme L2 U2 ≡ L1 U1 −L2

2.3 Các hàm phân bố xác suất

Các hàm phân bố xác suất (probability distribution functions) gán các xác suất cho các sự kiện hay biến cố cơ sở một cách thích hợp Chẳng hạn, nếu chúng ta biết thực vật p1 hiện đang sống tại một trong các vị trí a, b, c với xác xuất 60-70%, thì hàm phân bố cho phép chúng ta gán khoảng xác suất này cho các sự kiện " thực vật p1 sống tại vị trí a", " thực vật p1 sống tại vị trí b" và " thực vật p1 sống tại vị trí c"

Định nghĩa 2.3.1 Giả sử X là một tập hữu hạn Một hàm phân bố xác suất α

trên X là một hàm có dạng α: X →[0,1] sao cho ∑ ( ) 1

X x

x

αMột hàm phân bố xác suất quan trọng thường gặp là hàm phân bố chuẩn

(uniform distribution ) u(x) = 1/|X|, ∀ x∈ X

Định nghĩa 2.3.2 Một bộ ba xác suất (probabilistic triple) (X,α,β) bao gồm

một tập hữu hạn X, một hàm phân bố xác suất α trên X và một hàm

Trang 21

2 ∑

X x

(

Một cách không hình thức, một bộ ba xác suất gán mỗi x ∈ X cho một

khoảng xác suất [α(x), β(x)] Phép gán này là nhất quán (consistent) theo nghĩa mỗi x ∈ X được gán một xác suất p(x) ∈ [α(x), β(x)] sao cho ∑ ( ) 1

=

X x

x

p Chúng

ta cũng giả thiết rằng mọi bộ ba xác suất (X,α,β) là chặt, nghĩa là ∀ x ∈ X các

cận α(x) và β(x) là min và max của p(x) đối với mọi hàm phân bố đầy đủ p trên X sao cho p(x * ) ∈ [α(x *), β(x * )] ∀ x * ∈ X

2.4 Tập mờ

Định nghĩa 2.4.1 Giả sử X là một tập bất kỳ khác rỗng Một ánh xạ bất kỳ

]1,

3 0 <μA(x)=d < 1 thì số d cho biết khả năng, mức độ mà x ∈ A

Aùnh xạ μA (x) gọi là hàm thành viên (membership function) của tập mờ

A Như vậy, ta có thể coi mỗi tập mờ A trên X như là một hàm thành viên μA

trên X, nên ta cũng có thể ký hiệu tập mờ A là A:X →[0,1]

Ví dụ 2.4.1 Một ví dụ đơn giản về tập mờ là tập A các số gần số 2 được cho bởi

hàm thành viên của nó như sau:

]3,2(3

]2,1[1

)(

x

x khi x

x khi x

x A

và đồ thị biểu diễn hàm thành viên của A như trong Hình 1

Hình 1: Tập mờ các số gần 2

2 1

Trang 22

Trong các áp dụng, để tiện lợi, ngoài cách biểu diễn tập mờ như một hàm

A , còn có một số cách biểu diễn tập mờ như sau:

Đối với vũ trụ X hữu hạn, một tập mờ A trên X thường được biễu diễn

bằng một trong các dạng

1

/ hoặc A={x1:a1,x2 :a2, x n :a n}

Đối với vũ trụ X vô hạn đếm được, một tập mờ A trên X thường được

biễu diễn bằng một trong các dạng

A hoặc A={x1:a1,x2 :a2, x n :a n, }

Trong đó ai = A(xi ) ≠ 0

Đối với vũ trụ X vô hạn không đếm được, thường là tập số thực, một tập mờ A trên X có thể được biễu diễn

/ ) (

=

X A x x A

Chúng ta lưu ý dấu tích phân ở đây chỉ có ý nghĩa chỉ ra tất cả các cặp x và A(x) trong X định nghĩa nên A Ngoài ra, một tập mờ A trên tập vô hạn X có

thể được biểu diễn gần đúng theo một trong các dạng tập mờ trên vũ trụ hữu hạn

Định nghĩa 2.4.2 Giả sử A là một tập mờ trên X và α ∈ [0,1], lát cắt α (α-cut)

của tập mờ A, ký hiệu αA, là một tập cổ điển

}

)(,

Định nghĩa 2.4.3 Giả sử A là một thuộc tính được kết hợp với một kiểu T và

một miền dom(T) Một giá trị mờ (fuzzy value) V của thuộc tính kiểu T là một tập mờ trên dom(T) Khi đó ta cũng có thể viết V ∈ dom(T)

Ví dụ 2.4.3 Cho thuộc tính Age với dom(Age) = [0, 120], tuổi "nhỏ" là một giá

trị mờ của thuộc tính Age Hàm thành viên của nó có thể là:

=

] 15 , 0 [ 0

] 15 , 5 ( 1

) 5 ( 1 0

] 5 , 0 [ 1

) (

x

x khi x

x khi x

small

Trang 23

và đồ thị biểu diễn giá trị mờ small như trong Hình 2

2.5 PhépÏ gán khối

Trong phần này chúng ta sẽ giới thiệu một số khái niệm đã được nêu trong [1] nhằm hỗ trợ cho việc xây dựng FPOB sau này

Định nghĩa 2.5.1 Một phép gán khối (mass) trên một tập hữu hạn Ω là một hàm

]1,0[2: Ω →

Ví dụ 2.5.1 Giả sử Ω = {a, b, c, d, e}, một sự gán khối trên Ω có thể là m({a}) =

0.3, m({a,b}) = 0.5, m({a,b,c}) = 0.2 và m(S) = 0, với mọi tập con còn lại của Ω

Định nghĩa 2.5.2 Giả sử f là một tập mờ trên Ω có dạng

∑∑

= n

i m j

i j i

i

y x f

, / , trong đó n ∈ N, m i ∈ N ∀ i =1, 2, …, n và yi

[0,1], x i,j ∈ Ω ∀ j =1, 2,…, mi và ∀ i =1, 2,…, n sao cho y i > yj nếu và chỉ nếu i< j

và y1 =1 Phép gán khối tương ứng với tập mờ f được xác định bởi

U

j i

j j i

f x y x y y x y m

1 1

1 2

i x x

1 , }{

=

S x S

f S f x m

Ví dụ 2.5.2 Giả sử Ω = {a, b, c, d, e} và f = a / 1 + b / 0.7 + c / 0.2 thì

m f = {a}: 0.3, {a, b}: 0.5, {a, b, c}:0.2

Hình 2: Giá trị mờ small

1

0

Trang 24

2.6 Mô hình bầu cử

2.6.1 Khái niệm mô hình bầu cử Giả sử f là một tập mờ trên Ω và V là một tập

hữu hạn các cử tri Mỗi một cử tri được yêu cầu quyết định cho mỗi x trong Ω có tính chất f hay không Mỗi cử tri v sau đó được kết hợp với một tập cổ điển

F(v) tương ứng với những x trong Ω mà họ đã quyết định thỏa mãn f Khi đó, V

được gọi là một mô hình bầu cử kích thước n của tập mờ f nếu và chỉ nếu

n

V

v F x V v x

= Ω

Chúng ta lưu ý rằng, bất kỳ một tập mờ chuẩn nào trên Ω mà χf (x) hữu

tỉ ∀ x ∈ Ω đều tồn tại n ∈ N sao cho có một mô hình bầu cử kích thước n của f

Hơn nữa, một mô hình bầu cử cũng xác định một phép gán khối trên Ω như sau:

)}

(

| { ) ( ,

V

v F S V v S m

= Ω

Chúng ta cũng nhận thấy rằng, một mô hình bầu cử của một tập mờ sẽ phù hợp với thực tế hơn nếu nó thỏa mãn điều kiện xF(v)⇒ yF(v) với mỗi y mà χf(y)≥χf (x)

Ví dụ 2.6.1 Mô hình bầu cử kích thức 10 sau đây tương ứng với tập mờ f = a / 1

Trang 25

Để mở rộng mô hình các POB với các giá trị tập mờ, chúng ta áp dụng sự diễn dịch mô hình bầu cử của các tập mờ ([2], [18]) Nghĩa là, như đã giới thiệu

khái niệm mô hình bầu cử trong 2.6.1, đối với mỗi tập mờ A trên một miền U, mỗi cử tri đề cử một tập con của U như là một sự định nghĩa cổ điển của riêng họ về khái niệm mà A biểu diễn Chẳng hạn, một cử tri có thể đề cử khoảng [0,

35], 0 đến 35 tuổi, để biểu diễn cho khái niệm trẻ của con người, trong khi cử tri khác đề nghị khoảng [0, 25] mà không phải là [0, 35]

Khi đó giá trị hàm thành viên μA (u) là tỉ lệ với số cử tri đã định nghĩa

một cách cổ điển khái niệm A mà bao gồm u Như trên đã nói, tập mờ A định nghĩa một phép gán khối trên tập các tập con của U theo các cử tri, nghĩa là, một phân bố xác suất trên các tập con của U và do đó, một mệnh đề mờ x ∈ A định nghĩa một họ các phân bố xác suất của biến x trên U

Chúng ta xem ví dụ về trò chơi xúc xắc trong [2] Cho giá trị các mặt con

xúc xắc trong tập {1, 2, 3, 4, 5, 6}, giả sử rằng một điểm cao (high) được định

nghĩa bởi tập mờ rời rạc {3:0.2, 4:0.5, 5:0.9, 6:1}, nghĩa là, mức độ thành viên của giá trị 3 là 0.2 , của 4 là 0.5 v.v Một sự bầu cử của một nhóm 10 người

cho điểm cao này có thể như sau:

Bảng 5: Một mô hình bầu cử kích thước 10 của tập mờ cao

Nghĩa là, tất cả các cử tri P1 đến P10 bầu cho giá trị 6 như là một điểm

cao, trong khi chỉ có hai cử tri trong họ, P1 và P2, bầu cho 3 như là một điểm cao

v.v Nói cách khác sự định nghĩa cổ điển của P10 cho điểm cao là {6} trong khi

của P1 và P2 là {3, 4, 5, 6} Một giả định trong mô hình bầu cử này là bất kỳ một

người nào chấp nhận một giá trị như là một điểm cao cũng sẽ chấp nhận tất cả các giá trị có hàm thành viên lớn hơn trong tập mờ cao

Mô hình này định nghĩa một phép gán khối, nghĩa là một phân bố xác suất trên tập các tập con của {1, 2, 3, 4, 5, 6}:

{6}:0.1, {5, 6}:0.4, {4, 5, 6}:0.3, {3, 4, 5, 6}:0.2 trong đó khối (nghĩa là giá trị xác suất) được gán cho một tập con của {1, 2, 3, 4,

5, 6} (chẳng hạn m high( { }5,6 )=0.4) là tỉ lệ các cử tri đề cử tập con này như là một

Trang 26

sự định nghĩa cổ điển cho khái niệm mờ điểm cao Như đã chỉ ra trong [1], phép

gán khối này tương ứng với một họ các phân bố xác suất trên {1, 2, 3, 4, 5, 6}

Trên cơ sở mô hình bầu cử này, một sự diễn dịch xác suất của các quan

hệ hai ngôi sau đây trên các tập mờ đã được đề nghị ([13]) Ký hiệu Pr(E1 | E2)

được sử dụng để biểu diễn xác suất có điều kiện (conditional probability) của E1

khi đã có E2

Định nghĩa 2.7.1 Giả sử A là một tập mờ trên miền U, B là một tập mờ trên

miền V và θ là một quan hệ hai ngôi từ {=, ≤, <, ⊆, ∈} được giả định là hợp lệ

trên (U× V) Diễn dịch xác suất của quan hệ A θ B, ký hiệu prob(A θ B) là một

giá trị trong khoảng [0, 1] được định nghĩa bởi:

)

()(),Pr(

,

T m S m T v S u v

V T U S

Một cách trực quan, cho một mệnh đề mờ x ∈ A và y ∈ B, prob(A θ B) là

xác suất để x θ y là đúng Tính hợp lý của diễn dịch xác suất trên là, đối với mỗi

định nghĩa cổ điển S của A và T của B, xác suất có điều kiện u θ v khi đã biết u

∈ S và v ∈ T được tính toán và nhân với hệ số là tích của các khối được kết hợp

với S và T Khi đó prob(A θ B) là tổng của các giá trị xác suất có điều kiện được

tích tụ như vậy Ta cũng qui ước coi như prob(A ≥ B) = prob(B ≤ A), prob(A >

B) = prob(B < A), prob(A ⊇ B) = prob(B ⊆ A) và prob(A ∋ B) = prob(B ∈ A)

Ví dụ 2.7.1 Trong ví dụ về xúc xắc ở trên, giả sử about_5 được định nghĩa bởi

tập mờ {6: 0.3, 5:1, 4:0.3 }, phép gán khối ứng với nó là:

{5}:0.7, {4, 5, 6}:0.3

Cho x ∈ about_5 và y ∈ high, prob(about_5 = high) đo khả năng x = y

được tính như sau :

prob(about_5 = high)

= Pr(u = v⎪u ∈ {5}, v ∈{6}).m about ({5}).m high({6}) +

Pr(u = v⎪u ∈ {5}, v ∈ {5, 6}).m about ({5}).m high({5, 6}) +

Pr(u = v⎪u ∈ {5}, v ∈ {4, 5, 6}).m about ({5}).m high({4, 5, 6}) +

Pr(u = v⎪u ∈ {5}, v ∈ {3, 4, 5, 6}).m about ({5}).m high({3, 4, 5, 6}) +

Pr(u = v⎪u ∈ {4, 5, 6}, v ∈ {6}).m about ({4, 5, 6}).m high({6}) +

Pr(u = v⎪u ∈ {4, 5, 6}, v ∈ {5, 6}).m about ({4, 5, 6}).m high({5, 6}) +

Pr(u = v⎪u ∈ {4, 5, 6}, v ∈ {4, 5, 6}).m about ({4, 5, 6}).m high({4,5,6}) +

Pr(u = v⎪u ∈ {4, 5, 6}, v ∈ {3,4,5,6}).m about ({4,5,6}).m high({3, 4, 5, 6})+

=0 × 0.7 × 0.1 + 1/2 × 0.7 × 0.4 + 1/3 × 0.7 × 0.3 + 1/4 × 0.7 × 0.2 +

Trang 27

1/3 × 0.3 × 0.1 + 1/3 × 0.3 × 0.4 + 1/3 × 0.3 × 0.3 + 1/4 × 0.3 × 0.2 = 0.34

Chúng ta nhận xét rằng diễn dịch xác suất trên cũng có thể được làm tương thích cho các tập trên các miền liên tục, bằng cách sử dụng tích phân thay cho tổng như trong định nghĩa xác suất có điều kiện trong [3] Nghĩa là,

=

1

0 1

0

) ,

| Pr(

) (A B u v u yA v x B dxdy

lát cắt α của tập mờ A và B tương ứng với α = y và α = x

Định nghĩa 2.7.2 Giả sử A và B là hai tập mờ trên một miền U Diễn dịch xác

suất của quan hệ A → B, ký hiệu prob(A → B), là một giá trị trong [0, 1] được

định nghĩa bởi:

)

()()Pr(

,

T m S m S u T

U T S

Ví dụ 2.7.2 Trong ví dụ xúc xắc, ta có:

prob(high → about_5)

= Pr(u ∈ {5}⎪u ∈ {6}).m high ({6}) m about({5}) +

Pr(u ∈ {5}⎪u ∈ {5, 6}).m high ({5, 6}) m about({5}) +

Pr(u ∈ {5}⎪u ∈ {4, 5, 6}).m high ({4, 5, 6}) m about({5}) +

Pr(u ∈ {5}⎪u ∈ {3, 4, 5, 6}).m high ({3, 4, 5, 6}) m about({5}) +

Pr(u ∈ {4, 5, 6}⎪u ∈ {6}).m high ({6}) m about({4, 5, 6}) +

Pr(u ∈ {4, 5, 6}⎪u ∈ {5, 6}).m high ({5, 6}) m about({4, 5, 6}) +

Pr(u ∈ {4, 5, 6}⎪u ∈ {4, 5, 6}).m high ({4, 5, 6}) m about({4, 5, 6}) +

Pr(u ∈ {4, 5, 6}⎪u ∈ {3, 4, 5, 6}).m high ({3, 4, 5, 6}) m about({4, 5, 6}) + = 0 × 0.1× 0.7 + 1/2 × 0.4 × 0.7 + 1/3 × 0.3 × 0.7 + 1/4 × 0.2 × 0.7 + 1.0 × 0.1 × 0.3 + 1.0 × 0.4 × 0.3 + 1.0 × 0.3 × 0.3 + 3/4 × 0.2 × 0.3 = 0.53

Chúng ta nhận xét rằng diễn dịch xác suất trên cũng có thể được làm tương thích cho các tập mờ trên các miền liên tục, bằng cách sử dụng tích phân thay cho tổng như trong định nghĩa xác suất có điều kiện trong [3] Nghĩa là:

Trang 28

0 1

0 1

) Pr(

)

A

B A dxdy

A

B A B

A

x x

y

y y

y

và B x là các lát cắt α của tập mờ A và B tương ứng với α = y và α = x

2.8 Kết luận

Trong chương 2, các khái niệm cơ bản nhất về lý thuyết xác suất và tập mờ làm cơ sở toán học cho quá trình xây dựng FPOB đã được giới thiệu Trong các khái niệm đã được trình bày, đáng lưu ý nhất là các khái niệm về chiến lược xác suất trên các khoảng, giá trị thuộc tính mờ và diễn dịch xác suất của các quan hệ hai ngôi trên các tập mờ Trong đó, khái niệm giá trị thuộc tính mờ và diễn dịch xác suất của các quan hệ hai ngôi trên các tập mờ là công cụ mới để mở rộng từ POB sang FPOB Chương kế tiếp sẽ sử dụng các khái niệm này để xây dựng lược đồ cơ sở đối tượng xác suất mờ

Trang 29

Chương 3

Kiểu và Các Lược Đồ

Cơ Sở Đối Tượng Xác Suất Mờ

3.1 Giới thiệu

Trong chương 3 này, sau phần 3.2 giới thiệu khái quát mô hình ý niệm FPOB dựa trên một ví dụ trong [17], các khái niệm cơ bản như kiểu và giá trị sẽ được xây dựng trong phần 3.3 dựa trên cơ sở các khái niệm đã trình bày trong chương 2 làm nền tảng cho các định nghĩa kiểu dữ liệu của các lớp và giá trị của các đối tượng trong FPOB Kế đến, lược đồ cơ sở xác suất mờ sẽ được định nghĩa và cuối cùng là các tính chất và thuật toán kiểm tra lược đồ giả nhất quán và được cấu trúc tốt trong phần 3.4 Khái niệm lược đồ FPOB là phức tạp hơn khái niệm lược đồ cơ sở dữ liệu quan hệ và trong quá trình thiết kế nó có thể dẫn đến mất tính nhất quán Vì vậy, các thuật toán kiểm tra sự nhất quán của các lược đồ cũng sẽ được giới thiệu Các tính chất của lược đồ FPOB không khác gì so với các tính chất của lược đồ POB vì chúng không bị ảnh hưởng bởi giá trị thuộc tính mờ của các đối tượng được tích hợp vào trong FPOB Do đó, các chứng minh của các định lý phát biểu về tính chất của lược đồ POB trong

[17] vẫn còn giá trị trong FPOB

Trang 30

3.2 Khái quát về mô hình ýù niệm FPOB

Một cách khái quát, ta có thể coi một mô hình FPOB như là một đại số kết hợp cơ sở đối tượng cổ điển với lý thuyết xác suất, lý thuyết tập mờ và một

cơ chế phân cấp các lớp đối tượng sao cho xác suất có điều kiện để một đối tượng của một lớp thuộc về một trong các lớp con của nó được chỉ ra trong sự phân cấp lớp của chúng Một FPOB như vậy cho phép xử lý thông tin không chắc chắn và không rõ ràng trong thế giới thực, thông qua sự tích hợp giá trị thuộc tính không chắc chắn và mờ vào trong mô hình này

Dựa trên ví dụ về biểu diễn và phân loại các thực vật được tìm thấy trong rừng nhiệt đới Amazon để đặc tả mô hình ý niệm POB trong [17], chúng ta có thể phác họa mô hình ý niệm FPOB thông qua việc mô tả một cơ sở dữ liệu đểø biểu diễn và phân loại các thực vật trong rừng nhiệt đới nói chung

Rõ ràng, sẽ có rất nhiều khó khăn khi thu thập và xử lý các thông tin về các loại thực vật đang phát triển trong rừng nhiệt đới để thực hiện các yêu cầu đặc tả một mô hình cơ sở dữ liệu như vậy Bởi vì, chúng ta cần phải xem xét toàn thể các loại rau (vegetables), thảo dược (herbs) và các loại thực vật khác đang phát triển trong rừng này và cung cấp các thông tin về các điều kiện đất, nước và khí hậu v.v Khi mô tả các thực vật đang phát triển trong các rừng nhiệt đới như vậy có một số tác nhân, yếu tố không chắc chắn và không rõ ràng

Thứ nhất, một số loại thực vật có thể không có được một cách phân loại duy nhất bởi người điều tra trong vùng này Họ có thể phân loại một cây thảo dược cụ thể lúc thì French Thyme lúc thì Silver Thyme (đó là hai loài khác nhau của Thyme) mà không thể chỉ ra một cách chắc chắn chúng thuộc loài nào của cây Thyme Tuy nhiên bằng kinh nghiệm, họ có thể nói rằng xác suất để cây thảo dược là một Silver Thyme gấp hai lần xác suất nó là cây French Thyme

Một tình huống thứ hai có thể xẩy ra là người điều tra không chắc một thực vật là loại cây sống hàng năm (annual) hay cây lưu niên (perennial) và họ cũng chỉ biết xác suất thực vật đó là cây annual là 0.6 và thực vật đó là cây perennial là 0.4

Tình huống thứ ba là người điều tra không thể biết chính xác mức độ ánh sáng mặt trời (sunlight) cây Thyme cần mà họ chỉ có thể đưa ra một thông tin

gần với thực tế hơn là ít nhất 50% khả năng nó cần một lượng ánh sáng "trung

bình" để sinh trưởng, ở đây "trung bình" là một khái niệm mờ

Như chúng ta đã biết trong 1.1, các tình huống trên không thể mô hình hóa và xử lý bởi các cơ sở đối tượng cổ điển vì do sự hạn chế của chúng, các cơ

Trang 31

sở đối tượng cổ điển không thể biểu diễn và xử lý các thông tin không chắc chắn và không rõ ràng Điều đó buộc người thiết kế cơ sở dữ liệu này phải tìm kiếm một giải pháp mới Trong POB đã khắc phục được các hạn chế khi gặp các tình huống thứ nhất và thứ hai Đối với tình huống còn lại, để khắc phục, luận văn này sẽ mở rộng POB thành FPOB với các giá trị thuộc tính mờ

Một sự phân cấp lớp đơn giản về các loại thực vật trong rừng nhiệt đới dưới đây (Hình 3) cho ta hình ảnh về mô hình ý niệm của FPOB ([17]) Sự phân cấp lớp này cho ta thấy một lớp, chẳng hạn lớp plants, bao gồm năm lớp con annuals, perennials, vegetables, herbs và flowers được chia thành hai nhóm (cluster) các lớp là {annuals, perennials} và {vegetables, herbs, flowers} Nghĩa là plants được phân loại như là annuals hoặc perennials hay như là

vegetables, hehs hoặc flowers Mỗi nhóm được kết hợp với một node "d" gồm các lớp loại trừ lẫn nhau Ý nghĩa của node "d" là hai lớp bất kỳ của nhóm này

không có đối tượng chung tại cùng một thời điểm Các giá trị số trong [0,1] trên các cung liên kết giữa một lớp với lớp con trực tiếp của nó biểu diễn xác suất có điều kiện để một đối tượng thuộc lớp cha là thuộc lớp con của nó Chẳng hạn, sự phân cấp này chỉ ra rằng một đối tượng bất kỳ của plants có 60% khả năng thuộc về annuals trong khi chỉ có 40% khả năng còn lại thuộc về perennials Ngòai ra chúng ta cũng để ý rằng một thực vật có thể vừa là annual và herb chẳng hạn như một đối tượng thuộc lớp annuals_herbs

Cũng như trong mô hình hướng đối tương cổ điển, mỗi lớp trong POB được đặc trưng bởi một số thuộc tính mà các giá trị của chúng có các kiểu tương

Trang 32

ứng nào đó Đối với POB các kiểu có thể là các kiểu cơ sở, các kiểu tập hợp hoặc các kiểu bộ Trong FPOB ta mở rộng các kiểu tập thành các kiểu tập hợp mờ và giá trị các kiểu này thành giá trị tập hợp mờ như trong các định nghĩa ở phần tiếp theo

3.3 Các kiểu và các giá trị

Các khái niệm trong phần này là những viên gạch đầu tiên tạo dựng nên cấu trúc dữ liệu của các đối tượng cũng như mối quan hệ giữa chúng trong FPOB

Định nghĩa 3.3.1 Giả sử A là một tập các thuộc tính và T là một tập các kiểu cơ

sở (atomic types) Các kiểu được định nghĩa một cách qui nạp như sau:

1 Mọi kiểu cơ sở trong T là một kiểu

2 Nếu τ là một kiểu, thì {τ} là một kiểu tập hợp mờ (fuzzy set type) của τ, được gọi là kiểu tập hợp (set type);

3 Nếu A1,…, Ak là các thuộc tính đôi một khác nhau trong A và τ1,…,τk là các

kiểu, thì τ = [A1 : τ1,…, A k : τk] là một kiểu, được gọi là kiểu bộ (tuple

type) trên tập các thuộc tính {A1,…, Ak} Với một kiểu τ = [A1 : τ1,…, Ak :

τk], chúng ta sử dụng τ.Ai để biểu thị τi Chúng ta gọi A1,…, Ak là các thuộc tính mức cao nhất (top-level)

Ví dụ 3.3.1 Trong cơ sở đối tượng các thực vật đã giới thiệu ở phần 3.2, các

thuộc tính có thể là soil, sun, water mô tả các điều kiện cho một thực vật phát triển và một số thuộc tính khác như name, size, width và height v.v Một số

kiểu cơ sở trong T có thể là integer, real, string, soiltype và suntype Một số

kiểu tập mờ và kiểu bộ được mở rộng, ngoài các kiểu trong [17], có thể là {real}, [soil : soiltype, sun : {real}, water : integer] và [name : string, soil : soiltype, sun : {real}, water : integer, size : [height : integer, width : integer]]

Mỗi kiểu có một miền giá trị và được định nghĩa như sau:

Định nghĩa 3.3.2 Mỗi kiểu cơ bản τ ∈ T có một miền xác định dom(τ) kết hợp

với nó Giá trị được định nghĩa một cách qui nạp như sau:

1 Với mọi kiểu cơ bản τ ∈ T, thì mọi v ∈ dom(τ) là một giá trị kiểu τ

2 Với mỗi τ ∈ T, mọi tập mờ trên dom(τ) là một giá trị kiểu {τ}

Trang 33

3 Nếu A1,…, Ak là các thuộc tính đôi một khác nhau trong A và v1,…, vk là các giá trị tương ứng của các kiểu τ1,…, τk thì [A1 : v1,…, Ak : vk] là một giá

x ∈ U, v f (x) = 1 nếu x = v và v f (x) = 0 nếu x ≠ v

Ví dụ 3.3.2 Xét các kiểu trong ví dụ 3.3.1 Chúng ta gán các miền giá trị thông

thường cho các kiểu integer, real và string Giả sử soiltype là kiểu liệt kê mà

dom(soiltype) = {loamy, swampy, sandy} và mild, medium, heavy là các nhãn

ngôn ngữ (linguistic labels) của các tập mờ trên dom(real) như chỉ ra trong hình

4 Các tập giá trị kết hợp với các kiểu này là:

• soiltype: mỗi phần tử của {loamy, swampy, sandy} là một giá trị kiểu soiltype Chẳng hạn, loamy là một giá trị kiểu soiltype Khi được kết hợp với một thực vật cụ thể, ta có thể hiểu rằng thực vật này cần loamy soil để phát triển

• {soiltype}: Mỗi tập hợp các giá trị kiểu soiltype là một giá trị kiểu này Chẳng hạn, nếu một thực vật có thể phát triển tốt trên đất loamy hoặc swampy, thì {loamy, swampy} là một giá trị thích hợp kiểu này có thể được kết hợp với thực vật này

[soil : {soiltype}, sun : {real}, water : integer]: Mỗi bộ ba {v1, v2, v3}

là một giá trị kiểu này, trong đó v1 là một tập giá trị kiểu soiltype, v2

là một giá trị kiểu {real}, v3 là một giá trị kiểu integer Chẳng hạn,

[soil : {loamy, swampy}, sun : mild, water : 3] là một giá trị kiểu này

Ta có thể hiểu thực vật này cần loamy soil hoặc swampy soil, mild

sun và 3ø đơn vị nước trên ngày để phát triển

0 5 10 15 20 25

heavy medium

Trang 34

Trong POB, giá trị của mỗi thuộc tính có thể không chắc chắn và được ước lượng bởi các hàm phân bố xác suất cận dưới và cận trên trên một tập giá trị Đối với FPOB, chúng ta sẽ mở rộng định nghĩa giá trị bộ xác suất trong [17] để biểu diễn thông tin không chắc chắn cho các giá trị tập mờ

Định nghĩa 3.3.3 Nếu A1, …, Ak là các thuộc tính đôi một phân biệt trong A và

〈V1, α1, β1〉,…, 〈Vk, αk, βk〉 là các bộ ba xác suất, ở đó V1,…,Vk là tập các giá trị của các kiểu τ1,…, τk thì biểu thức [A1 : 〈V1, α1, β1〉,…, Ak : 〈Vk, αk, βk〉] là một giá

trị bộ xác suất mờ (fuzzy-probabilistic tuple value) của kiểu [A1 : τ1,…, Ak : τk]

trên tập thuộc tính {A1, …, Ak} Với mỗi giá trị bộ xác xuất ptv = [A1 : 〈V1, α1,

β1〉,…, Ak : 〈Vk, αk, βk〉] ta sử dụng ptv.Ai để biểu thị 〈Vi, αi, βi〉

Chúng ta cũng lưu ý trật tự các Ai : 〈Vi, αi, βi〉 trong ptv = [A1 : 〈V1, α1,

β1〉,…, Ak : 〈Vk, αk, βk〉] là không quan trọng Khái niệm ptv cho phép chúng ta biểu diễn một cách thích hợp trạng thái của các đối tượng trong POB cũng như trong FPOB

Ví dụ 3.3.3 Giả sử, chúng ta biết kiểu soil thích hợp của một thực vật là loamy

Hơn nữa chúng ta chắc chắn rằng thực vật này là Thyme, nhưng không chắc nó là French Thyme (french), Silver Thyme (silver) hay Wooly Thyme (wooly) Tuy nhiên, nếu chúng ta đảm bảo rằng 20-60% khả năng đó là một trong ba loại French Thyme, Silver Thyme hay Wooly Thyme thì chúng ta có thể biểu diễn thông tin này thông qua một giá trị bộ xác suất mờ kiểu [soil : soiltype, category : string] trên tập thuộc tính {soil, category}:

[soil : 〈{loamy}, u, u〉, category : 〈{french, silver, wooly}, 0.6u,1.8u〉] Trong đó 0.6u và 1.8u biểu diễn hàm phân bố xác suất α2 và hàm β2 sao cho

α2(x) = 0.6(1/3) = 0.2 và β2(x) = 1.8(1/3) = 0.6 ∀ x∈ {french, silver, wooly}

Trong định nghĩa trên, một bộ ba xác suất 〈Vi, αi, βi〉 có thể chỉ gán một

khoảng xác suất cho một số giá trị v của thuộc tính Ai trong Vi , không có gì bảo

đảm cho các giá trị khác theo thuộc tính Ai không thuộc Vi (do thiếu thông tin)

Vì vậy, cũng như trong cơ sở dữ liệu quan hệ, chúng ta chấp nhận giả thuyết thế

giới đóng (closed world assumption-CWA) Chúng ta giả sử rằng mọi giá trị v ∈

dom(τi) -Vi có xác suất bằng 0, nghĩa là coi như được gán khoảng xác suất [0, 0]

Theo giả thuyết này, "sự nhất quán" của thông tin xác suất cho bởi 〈Vi, αi, βi〉 được duy trì trong một ngữ cảnh khái quát hơn của dom(τi): tồn tại một hàm xác suất p trên dom(τi) tương thích với 〈Vi, αi, βi〉 sao cho ∑

=

) (

1)(

i

dom v

v p

τ

Đại số cơ sở đối tượng xác suất mờ được định nghĩa trong chương 5 sẽ dựa trên giả thuyết

Trang 35

CWA Chúng ta cũng lưu ý rằng một quan niệm thế giới mở vẫn có thể đối với

các giá trị cụ thể Chẳng hạn, chúng ta thêm v vào V và đặt α(v) = 0, β(v) = 1; biểu diễn cho xác suất của v là chưa được biết

Bây giờ mô hình toán học cho các cơ sở đối tượng xác suất mờ sẽ được xây dựng Để thực hiện điều đó, các khái niệm lược đồ cơ sở đối tượng xác suất mờ và lược đồ cơ sở đối tượng xác suất mờ nhất quán cần phải được định nghĩa Trước hết là định nghĩa lược đồ cơ sở đối tượng xác suất mờ

3.4 Lược đồ cơ sở đối tượng xác suất mờ

Một cách không hình thức, một cơ sở đối tượng xác suất mờ bao gồm một sự phân cấp lớp Mức độ thành viên của một đối tượng trong một lớp con trực tiếp của một lớp bất kỳ được biểu diễn bởi một giá trị xác suất Mỗi lớp tương ứng với một kiểu bộ, là sự mở rộng kiểu bộ trong POB, cho biết kiểu dữ liệu của nó Trước hết, lược đồ cơ sở đối tượng xác suất mờ (fuzzy and probabilistic object base schema) được định nghĩa bằng cách mở rộng khái niệm lược đồ cơ sở đối tượng xác xuất trong [17] như sau:

Định nghĩa 3.4.1 Một lược đồ cơ sở đối tượng xác suất mờ (FPOB-schema) là

một bộ năm S = (C, τ, ⇒, me, ℘), trong đó:

1 C là một tập hữu hạn các lớp (đó là các lớp được kết hợp với FPOB)

2 τ là ánh xạ từ C đến tập các kiểu bộ τ(c) (cho biết kiểu dữ liệu của mỗi

lớp)

3 ⇒ là một quan hệ hai ngôi trên C sao cho (C, ⇒) là một đồ thị có hướng không có chu trình (mỗi một node của (C, ⇒) là một lớp trong C, một cạnh c1 ⇒ c2 nếu c1 là lớp con trực tiếp của c2.

4 me là ánh xạ đặt tương ứng mỗi lớp c C với một phân hoạch của tập tất

cả các lớp con trực tiếp của c sao cho các lớp trong mỗi nhóm của me(c) là rời nhau loại trừ Chẳng hạn c có năm lớp con c1,…, c5 và me(c) =

{c1,c2 , c3,c4,c5 } Ở đây me(c) tạo ra hai nhóm Một đối tượng o có thể

thuộc một hoặc cả hai nhóm Tuy nhiên các lớp trong một nhóm là loại trừ lẫn nhau, nghĩa là, một đối tượng không thể thuộc cả hai lớp của một nhóm trong cùng một thời điểm

5 ℘ là ánh xạ đặt tương ứng mỗi cạnh trong (C, ⇒) với một số trong

khoảng [0,1] sao cho (d,c) 1, c C, P me(c)

P d

Trang 36

c1 ⇒ c2 là một cạnh thì ℘(c1, c2) cho biết xác suất có điều kiện để một

đối tượng của c2 là đối tượng của c1 Điều kiện tổng cho thấy rằng tổng của các xác suất của các cạnh trong một tập loại trừ lẫn nhau của các lớp con phải nhỏ hơn hoặc bằng 1

Một đường đi có hướng trong đồ thị có hướng không có chu trình (C, ⇒) là một dãy các lớp c1, c2, …, ck sao cho c1⇒ c2 ⇒ … ⇒ ck và k ≥ 1 Chúng ta sử

dụng ký hiệu c ⇒* d để biểu thị cho sự tồn tại một đường đi từ c đến d Rõ ràng

quan hệ ⇒* có tính phản xạ và bắc cầu Chúng ta cũng lưu ý rằng quan hệ ⇒*

dẫn đến một thứ tự bộ phận ≤ trên C theo đó c ≤ d khi và chỉ khi c ⇒* d với mọi c, d ∈ C

Chúng ta sử dụng S(c) = {d ∈ C | d ⇒ c} để biểu thị cho tập các lớp con trực tiếp của c ∈ C, và S*(c) = {d ∈ C | d ⇒* c} để biểu thị cho tập các lớp con của c ∈ C Lớp d là một lớp con của một nhóm P nếu và chỉ nếu d là một lớp con của một lớp c ∈ P

Ví dụ 3.4.1 Một lược đồ S = (C, τ, ⇒, me, ℘) cho cơ sở đối tượng các thực vật

đã giới thiệu trong phần 3.2 có thể bao gồm các thành phần sau:

• C = {plants, annuals, perennials, vegetables, herbs, flowers, annuals_herbs, perennials_flowers}

• τ được cho trong Bảng 6

(C, ⇒) là đồ thị có được từ Hình 3, bằng cách loại bỏ các d-node và các

xác suất

• me là sự phân hoạch theo các cạnh trong Hình 3, chẳng hạn, me(plants) =

{{annuals, perennials},{vegetables, herbs, flowers}}

• ℘ là phép gán xác suất trong Bảng 7

Tuy nhiên, lược đồ được định nghĩa như trên có thể là không nhất quán, nghĩa là không phải luôn luôn tìm được một tập các đối tượng thỏa mãn một

phép gán xác suất và phân loại các lớp được biểu diễn bởi đồ thị (C, ⇒) và

phân hoạch các cạnh Vì vậy, cần phải bổ sung vào định nghĩa trên các điều kiện để có một khái niệm về lược đồ FPOB đúng đắn và phù hợp với thực tế Khái niệm lược đồ nhất quán FPOB mở rộng từ lược đồ nhất quán POB ([17]) được định nghĩa như sau:

Trang 37

Bảng 6 : Sự gán kiểu τ

plants [name: string, soil: soiltype, water: integer]

annuals [name: string, soil: soiltype, water: integer, sun: {real}]perennilas [name: string, soil: soiltype, water: integer, sun: {real},

expyears: integer]

vegetables [name: string, soil: soiltype, water: integer, sun: {real},

expyears: integer]

herbs [name: string, soil: soiltype, water: integer, sun: {real},

expyears: integer, category: string]

flowers [name: string, soil: soiltype, water: integer, sun: {real},

expyears: integer, category: string]

annuals_herbs [name: string, soil: soiltype, water: integer, sun: {real},

expyears: integer, category: string]

perennials_flowers [name: string, soil: soiltype, water: integer, sun: {real},

expyears: integer, category: string]

Bảng 7: Phép gán xác suất

Định nghĩa 3.4.2 Giả sử S = (C, τ, ⇒, me, ℘) là một lược đồ Một diễn dịch

(interpretation) của S là bất kỳ một ánh xạ ε nào từ C đến tập các tập con hữu hạn của một tập O Một diễn dịch ε của S là một mô hình phân loại của S nếu

và chỉ nếu:

C1 ε(c) ≠ ∅, ∀ c ∈ C

C2 ε(c) ⊆ ε(d), ∀ c, d ∈ C với c ⇒ d

Trang 38

C3 ε(c) ∩ ε(d) = ∅, ∀ c, d ∈ C với c và d phân biệt và c, d thuộc về cùng

một nhóm P ∈ ∪me(C)

Hai lớp c, d ∈ C là rời nhau theo phân loại (taxonomically disjoint) nếu

và chỉ nếu ε(c) ∩ ε(d) = ∅ đối với mọi mô hình phân loại ε của S ε là một mô

hình xác suất và phân loại hoặc đơn giản là mô hình của S nếu và chỉ nếu nó là một mô hình phân loại của S và thỏa mãn điều kiện:

C4 ⏐ε(c)⏐= ℘(c, d).⏐ε(d)⏐ ∀ c, d ∈ C với c ⇒ d

Chúng ta nói S là nhất quán (consistent) nếu và chỉ nếu nó có một mô hình

Ví dụ 3.4.2 Giả sử S = (C, τ, ⇒, me, ℘) là một lược đồ cho trong ví dụ 3.4.1 và

O là một tập mà ⏐O⏐= 800, được phân hoạch thành 10 tập đôi một rời nhau

O 1 ,…,O 10 có số các phần tử tương ứng là 90, 27, 126, 45, 192, 21, 98, 35, 70 và

96 Một diễn dịch ε của S được cho trong Bảng 8, rõ ràng ε là một mô hình của

S Chẳng hạn, ε(plants) ≠ ∅, ε(annuals) ⊆ ε(plants), ε(annuals) ∩ ε(perennials)

= ∅ và ⏐ε(annuals)⏐ = 0.6.⏐ε(plants)⏐ Vì vậy S là nhất quán

Bảng 8: Diễn dịch ε của S

Để có thể tìm một thuật toán hiệu quả cho việc quyết định một lược đồ FPOB có nhất quán hay không, các đặc trưng của tính nhất quán của lược đồ cần được chỉ ra Khái niệm lược đồ FPOB giả nhất quán mở rộng từ khái niệm lược đồ POB giả nhất quán được định nghĩa như sau:

Định nghĩa 3.4.3 Một lược đồ S = (C, τ , ⇒, me,℘) là giả nhất quán nếu và chỉ

nếu thỏa mãn các điều kiện sau:

Trang 39

P1 Bất kỳ hai lớp c1, c2 ∈ C mà c1 ⇒* c2, tích xác suất của các cạnh là như nhau trên mọi đường đi từ c1 đến c2

P2 Với mọi nhóm P ∈ ∪ me(C), không có hai lớp phân biệt c1, c2 ∈P có một

lớp con chung

Ví dụ 3.4.3 Chúng ta dễ dàng thấy lược đồ S = (C, τ, ⇒, me, ℘) trong ví dụ

3.4.1 là giả nhất quán:

• Hai đường đi từ annuals_herbs đến plants và từ perennials_flowers đến plants đều có tích xác suất các cạnh tương ứng bằng 0.24 và 0.12

• Lớp annuals_herbs cũng như lớp perennials_flowers đều không phải là lớp con của hai lớp phân loại rời nhau

Chúng ta thấy giả nhất quán là điều kiện cần cho nhất quán như định lý sau:

Định lý 3.4.1 Mọi lược đồ FPOB nhất quán đều là giả nhất quán

Định lý 3.4.1 được chứng minh hoàn toàn tương tự định lý 5.1 ([17]) vì giá trị tập mờ không làm ảnh hưởng đến kiến trúc của lược đồ

Tuy nhiên, giả nhất quán là không đủ cho nhất quán Thậm chí việc quyết định tính nhất quán của một lược đồ giả nhất quán là một bài toán rất khó Chúng ta có kết quả sau đây:

Định lý 3.4.2 Bài toán quyết định một lược đồ S có nhất quán hay không là một

bài toán NP-complete Hơn nữa đó là bài toán NP-hard ngay cả khi S là giả nhất quán

Định lý tương ứng với định lý trên đối với lược đồ POB đã được chứng minh trong [17] Về kiến trúc lược đồ FPOB không có gì khác so với lược đồ POB nên việc chứng minh hai định lý là như nhau

Mặc dù vậy, nếu các lược đồ S = (C, τ, ⇒, me, ℘) có cấu trúc thích hợp

chúng ta có thể dùng một thuật toán có thời gian đa thức để quyết định tính nhất

Trang 40

quán của chúng Để thực hiện được điều đó, trước hết lược đồ FPOB cấu trúc tốt (well-structured) mở rộng của lược đồ POB cấu trúc tốt được định nghĩa như sau:

Định nghĩa 3.4.4 Một một lược đồ S = (C, τ, ⇒, me, ℘) là được cấu trúc tốt nếu

và chỉ nếu thỏa mãn các điều kiện sau:

W1 Tồn tại một lớp c ∈ C sao cho mọi lớp d ∈ C là lớp con của c (nghĩa là đồ

thị (C, ⇒) có phần tử cao nhất)

W2 Với mọi lớp c ∈ C và hai lớp phân biệt c1, c2 ∈ S(c), tập S = S*(c1) ∩

S*(c2) là rỗng hoặc có một phần tử duy nhất dm ≠ c1, c2 sao cho d ⇒* dmvới mọi d ∈ S (nghĩa là với mọi c ∈ C, hai lớp con trực tiếp, phân biệt c1,

c2 bất kỳ của c là không có lớp con chung hoặc có một lớp con chung lớn

nhất dm khác với chúng)

W3 Với mọi lớp c ∈ C, đồ thị vô hướng GS(c) = (V, ε) được định nghĩa bởi V

= me(c) và ε = {{P1, P2 }| P1, P2 ∈ V, P1 ≠ P2, ∪ S*(P1) ∩ ∪S*(P2) ≠ ∅}

là không có chu trình (nghĩa là với mọi c ∈ C, các nhóm trong me(c)

không được nối kết theo chu trình thông qua lớp con chung)

W4 Với mọi c ∈ C, nếu đồ thị GS(c) có một cạnh, nghĩa là hai nhóm phân biệt

P1, P2 ∈ me(c) có một lớp con chung, thì mọi đường đi từ một lớp con của

c đến phần tử cao nhất của (C, ⇒) đều đi qua c (nghĩa là đa thừa kế có

thể được cô lập cục bộ trong đồ thị (C, ⇒))

Một cách không hình thức, các điều kiện như vậy hạn chế đa thừa kế sao

cho một mô hình cho lược đồ S có thể được xây dựng từ dưới lên từ các mô hình

của các lược đồ con Đặc biệt, W2 và W3 đảm bảo rằng một mô hình cho một

lược đồ con theo một lớp c∈ C có thể được xây dựng từ các mô hình của các lược đồ con nhỏ hơn được liên kết với các nhóm trong me(c) Hơn nữa, W1 và

W4 đảm bảo rằng sự xây dựng các lược đồ con cục bộ như vậy không ảnh hưởng

lẫn nhau và rằng chúng sinh ra mô hình cho toàn bộ lược đồ S tương ứng Chúng

ta nhận xét rằng cấu trúc tốt là một sự hạn chế thích hợp tính đa thừa kế Đặc biệt, W1 và W2 có thể luôn luôn được thỏa mãn bằng cách thêm vào các phần tử cao nhất còn thiếu đối với các tập nào đó của các lớp trong khi thiết kế, trước khi chỉ ra sự gán xác suất ℘

Ví dụ 3.4.4 Lược đồ S trong ví dụ 3.4.1 là được cấu trúc tốt:

Ngày đăng: 18/02/2021, 08:04

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w