Phân lớp miền xác định thuộc tính trong bài toán khai phá dữ liệu mờ

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Các ký hiệu A X Đại số gia tử tuyến tính A X Đại số gia tử tuyến tính đầy đủ A X2

Trang 1

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

PHÙNG THỊ NGA

PHÂN LỚP MIỀN XÁC ĐỊNH THUỘC TÍNH TRONG BÀI TOÁN

KHAI PHÁ DỮ LIỆU MỜ

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

THÁI NGUYÊN - 2015

Trang 2

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

PHÙNG THỊ NGA

PHÂN LỚP MIỀN XÁC ĐỊNH THUỘC TÍNH TRONG BÀI TOÁN

KHAI PHÁ DỮ LIỆU MỜ

Chuyên ngành: Khoa học máy tính

Mã số: 60.48.01.01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: TS TRẦN THÁI SƠN

THÁI NGUYÊN - 2015

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi dưới sự

hướng dẫn trực tiếp của Ts Trần Thái Sơn

Mọi trích dẫn sử dụng trong báo cáo này đều được ghi rõ nguồn tài liệu tham khảo theo đúng qui định

Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi xin chịu hoàn toàn trách nhiệm

Thái Nguyên, ngày … tháng … năm 2014

Tác giả

Phùng Thị Nga

Trang 4

LỜI CẢM ƠN

Luận văn được viết dưới sự hướng dẫn tận tình và nghiêm khắc của

TS Trần Thái Sơn Lời đầu tiên, tác giả xin bày tỏ lòng kính trọng và biết

ơn sâu sắc tới thầy

Xin chân thành gửi lời cảm ơn tới thầy về những đóng góp quý báu trong quá trình nghiên cứu cũng như trong thời gian hoàn thành luận văn Tác giả xin chân thành gửi lời cảm ơn đến Phòng Đào tạo sau đại học đã tạo điều kiện thuận lợi trong quá trình học tập, nghiên cứu và hoàn thành luận văn, đảm bảo tiến độ

Cuối cùng, tác giả xin chân thành cảm ơn các thành viên trong gia đình, những người luôn dành cho tác giả những tình cảm nồng ấm và sẻ chia những lúc khó khăn trong cuộc sống, luôn động viên giúp đỡ tác giả trong quá trình nghiên cứu

Trang 5

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT iv

DANH MỤC CÁC HÌNH v

MỞ ĐẦU 1

CHƯƠNG 1 KHAI PHÁ TRI THỨC VỚI HỆ LUẬT MỜ 4

1.1 Khai phá tri thức từ cơ sở dữ liệu với hệ luật mờ 4

1.2 Khai phá tri thức theo cách tiếp cận của lý thuyết tập mờ 5

1.2.1 Kiến thức cơ sở về tập mờ 5

1.2.2 Khai phá tri thức với thông tin mờ 6

1.3 Khai phá tri thức theo cách tiếp cận của lý thuyết Đại số gia tử 12

1.3.1 Kiến thức cơ sở về ĐSGT 12

1.3.2 Khai phá tri thức với thông tin mờ theo cách tiếp cận ĐSGT 15

CHƯƠNG 2 BÀI TOÁN PHÂN CHIA MIỀN XÁC ĐỊNH THUỘC TÍNH 22

2.1 Bài toán phân chia miền xác định thuộc tính 22

2.2 Các phương pháp giải bài toán phân chia miền xác định thuộc tính 27

2.2.1 Phương pháp tiền định 27

2.2.2 Tối ưu hóa các hàm thuộc MF (Membership functions) 28

CHƯƠNG 3 ĐẠI SỐ GIA TỬ, CÁCH TIẾP CẬN MỚI CHO BÀI TOÁN PHÂN LỚP MIỀN XÁC ĐỊNH THUỘC TÍNH 41

3.1 Giải bài toán phân chia miền xác định thuộc tính sử dụng khoảng tính mờ và giá trị định lượng ngữ nghĩa 41

3.2 Thuật toán giải bài toán phân chia miền xác định thuộc tính theo cách tiếp cận của ĐSGT 41

KẾT LUẬN 49

TÀI LIỆU THAM KHẢO 49

PHỤ LỤC: CHƯƠNG TRÌNH TỐI ƯU HÓA THAM SỐ TẬP MỜ 52

Trang 6

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

Các ký hiệu

A X Đại số gia tử tuyến tính

A X Đại số gia tử tuyến tính đầy đủ

A X2 Đại số 2 gia tử

µ(h), fm(x) Độ đo tính mờ gia tử h và của hạng từ xυ Giá trị định

lượng theo điểm của giá trị ngôn ngữ

µA(v) Hàm định lượng của giá trị ngôn ngữ A (đo độ thuộc của v)

sm(x,y) Hàm xác định mức độ gần nhau của hai hạng từ x và y

ℑ Khoảng tính mờ của giá trị ngôn ngữ

Xk Tập các hạng từ có độ dài đúng k

X(k) Tập các hạng từ có độ dài không quá k

Ik Hệ khoảng tính mờ mức k của các giá trị ngôn ngữ

I(k) Hệ khoảng tính mờ từ mức 1 đến mức k của các giá trị

ngôn ngữ

Tg Khoảng tương tự bậc g của giá trị ngôn ngữ

S(k) Hệ khoảng tương tự ở mức k của các giá trị ngôn ngữ

Trang 7

MOGA Thuật giải di truyền đa đối tượng

NST Nhiễm sắc thể

DANH MỤC CÁC HÌNH

Hình 1.1 Độ đo tính mờ của biến TRUTH 17

Hình 1.2 Khoảng tính mờ của các hạng từ của biến TRUTH 20

Hình 2.1 Lưới phân hoạch mờ trên miền của 2 thuộc tính 25

Hình 2.2 Phương pháp phân hoạch mờ scatter-partitio 27

Hình 2.3 Tập các MF của thuộc tính Ij 30

Hình 2.4 Hai dạng không thích hợp của các MF 30

Hình 3.1 Tập hàm thuộc cho thuộc tính AGE 46

Hình 3.2 Tập hàm thuộc cho thuốc tính Hours 47

Hình 3.3 Tập hàm thuộc cho thuốc tính IncFam 47

Hình 3.4 Tập hàm thuộc cho thuốc tính IncHead 48

Hình 3.5 Tập hàm thuộc cho thuốc tính MARCHWGT 48

DANH MỤC BẢNG BIỂU Bảng 2.1: Dữ liệu mờ từ dữ liệu bảng 1 36

Bảng 2.2: Cơ sở dữ liệu 36

Bảng 3.1 Cơ sở dữ liệu 44

Trang 8

MỞ ĐẦU

1 Lý do chọn đề tài

Trong lĩnh vực khai phá dữ liệu, một khó khăn thường gặp là hệ thống phải xử lý khối lượng thông tin rất lớn, đòi hỏi phải có những thuật toán hữu hiệu để khai thác các tri thức ngầm chứa trong khối thông tin to lớn đó

Một trong những bài toán cơ bản đặt ra trong lĩnh vực nghiên cứu này

là cho trước một Cơ sở dữ liệu (thường là CSDL số, tức các giá trị của CSDL

là các số thực), từ đó, bằng các phương pháp xử lý nhất định, rút ra một hệ tri thức phản ánh các quy luật chứa trong CSDL số này Các quy luật này có thể biểu diễn dưới dạng hệ luật IF X is A and Y is B THEN Z is C, trong đó X, Y,

Z là các biến mờ (thường là các biến ngôn ngữ), A, B, C là các giá trị biến

ngôn ngữ (thường là các tập mờ) Thí dụ luật IF đường là xa và tốc độ di

chuyển là trung bình THEN thời gian đến đích sẽ là lâu Để có thể sinh ra

những luật như vậy, đầu tiên ta phải chuyển hóa miền giá trị của các thuộc tính “khoảng cách”, “tốc độ”, “thời gian” thành các miền mờ, hay nói cách khác là phân chia các miền giá trị đó thành các miền mờ cho các bước xử lý tiếp theo Chẳng hạn, có thể chia miền giá trị thuộc tính độ dài (có các giá trị min, max tương ứng chẳng hạn là 0km, 200km) thành các miền mờ “gần” (0km- 50km), “trung bình” (51km-100km), “xa” (100km-200km) Trong lý thuyết tập mờ, mỗi miền mờ như vậy được coi là một tập mờ và ứng với một hàm thuộc (MF- membership function) nhằm xác định độ “thuộc” của giá trị biến vào tập mờ đã cho Khi đó, một giá trị của một thuộc tính CSDL sẽ ứng với một tập các giá trị của các hàm thuộc ứng với với các tập mờ của thuộc tính đó Và ta sẽ xây dựng hệ luật mờ dựa trên việc xử lý tập giá trị độ thuộc này thay vì xử lý bản thân giá trị ban đầu của CSDL Việc xây dựng các MF phân chia miền xác định thuộc tính là bước đầu tiên nhưng rất quan trọng trong quy trình xây dựng hệ luật mờ vì chỉ có trên cơ sở phân chia hợp lý các miền xác định thuộc tính ta mới có thể có các tập mờ ngôn ngữ phản ánh

Trang 9

tương đối chính xác ngữ nghĩa định tính của nhãn ngôn ngữ dùng trong hệ luật được xây dựng tiếp theo.Phương pháp tiếp cận theo lý thuyết tập mờ cho

ta một cách xử lý dữ liệu khá mềm dẻo, nhanh chóng so với các phương pháp

xử lý số cổ điển Tuy vậy, vẫn còn nhiều vấn đề đặt ra như việc phân chia các miền mờ thế nào cho hợp lý, làm sao xây dựng được các hàm thuộc nhanh chóng, phù hợp và cách xử lý các hàm thuộc này thế nào để giữ được ngữ nghĩa gắn với chúng Đại số gia tử (ĐSGT) ra đời dựa trên một cấu trúc thứ

tự tốt trong tập các giá trị ngôn ngữ của biến ngôn ngữ có thể khắc phục phần nào những điểm yếu đó Luận văn đặt mục tiêu sử dụng cách tiếp cận ĐSGT trong việc xác định các MF tối ưu phân chia miền mờ cho các thuộc tính của CSDL, để có thể xây dựng được các hệ luật mờ tốt trong các bước tiếp theo nhằm giải quyết các bài toán quan tâm trong lĩnh vực khai phá dữ liệu hay điều khiển mờ

Được sự đồng ý của trường Đại học Công nghệ thông tin và Truyền

thông với sự hướng dẫn của Thầy giáo em xin mạnh dạn nhận đề tài: “Phân

lớp miền xác định thuộc tính trong bài toán khai phá dữ liệu mờ” làm đề

tài luận văn của mình

2 Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu của luận văn là cơ sở dữ liệu đầu vào dùng để khai phá dữ liệu Lý thuyết tập mờ và đại số gia tử cũng được nghiên cứu như

là công cụ để giải bài toán đặt ra

3 Hướng nghiên cứu của đề tài

Luận văn nghiên cứu các phương pháp giải bài toán phân lớp miền xác định thuộc tính của các tác giả trong nước cũng như trên thế giới, ưu, khuyết điểm của các phương pháp đã có và nghiên cứu cách giải bài toán theo cách tiếp cận của Đại số gia tử, sử dụng giá trị định lượng ngữ nghĩa của các giá trị biến ngôn ngữ, phân chia miền thuộc tính tiến hành khai phá dữ liệu

4 Phương pháp nghiên cứu

Trang 10

Tìm hiểu các lý thuyết về tập mờ, các dạng tập mờ, tìm hiểu cách biểu diễn tập giá trị chân lý ngôn ngữ cho tập mờ Tìm hiểu mối quan hệ giữa các dạng biểu diễn tập mờ với hàm định lượng ngữ nghĩa của đại số gia tử, tìm hiểu cách thức chuyển đổi giá trị chân lý ngôn ngữ thành một giá trị số

Phân tích, đối sánh, liệt kê, nghiên cứu tài liệu, tổng hợp các kết quả của các nhà nghiên cứu liên quan đến lĩnh vực nghiên cứu

5 Ý nghĩa khoa học

Bài toán phân chia miền xác định thuộc tính nói chung đóng vai trò quan trọng trong quá trình khai phá dữ liệu và do đó nó có ý nghĩa ứng dụng rộng lớn, đặc biệt loại bài toán liên quan đến thông tin mờ vì con người thường quyết định thông qua thông tin mờ ngôn ngữ Cho đến nay các phương pháp giải bài toán này chủ yếu dựa trên các tập mờ

Giải bài toán phân chia miền xác định thuộc tính theo cách tiếp cận Đại

số gia tử cho ta một phương pháp tương đối đơn giản nhưng khá hữu hiệu trong các cách mà Đại số gia tử nói riêng và lý thuyết tập mờ nói chung có thể

sử dụng

Trang 11

CHƯƠNG 1 KHAI PHÁ TRI THỨC VỚI HỆ LUẬT MỜ1.1 Khai phá tri thức từ cơ sở dữ liệu với hệ luật mờ

Từ nhu cầu cần xử lý một khối lượng thông tin lớn đặc biệt đối tượng thông tin chỉ mang tính định tính hay còn gọi là thông tin mờ thông thường người ta có thể chọn các cách tiếp cận theo lý thuyết tập mờ, xác suất thống kê

Trong thực tế khái niệm mờ luôn tồn tại, hiện hữu trong các bài toán, trong cách suy luận của con người Ví dụ như hiện nay thang điểm của học

sinh tiểu học được đánh giá không phải là con số mà là bài làm tốt, bài làm

khá tốt, bài làm rất tốt, Hơn nữa B.Russel đã viết: “Tất cả logic cổ điển

luôn giả sử rằng các đối tượng được sử dụng là rõ ràng Vì thế không thể áp dụng tốt trong cuộc sống trên trái đất này” Như vậy cần một hướng nghiên cứu mới

L A Zadeh đã đề xuất hình thức hóa toán học của khái niệm mờ vào năm 1965, từ đó lý thuyết tập mờ được hình thành và ngày càng thu hút nhiều nghiên cứu của các tác giả cũng như phát triển ứng dụng Bằng các phương pháp tiếp cận khác nhau, các nhà nghiên cứu như Dubois, Prade, Mamdani, Tagaki, Sugeno,Ishibuchi, Herrera… đã đưa ra những kết quả cả về lý thuyết

và ứng dụng trong các bài toán điều khiển mờ, khai phá dữ liệu mờ, cơ sở dữ liệu mờ, các hệ hỗ trợ quyết định

Bài toán đặt ra từ CSDL số chuyển sang CSDL mờ chuyển sang hệ luật

và hệ luật mờ được biểu diễn dưới dạng : IF X is A and Y is B THEN Z is C, trong đó X, Y, Z là các biến mờ (thường là các biến ngôn ngữ), A, B, C là các giá trị biến ngôn ngữ (thường là các tập mờ)

Ví dụ: If X1 is Large and X2 is Very Small then Y is Normal

If X1 is Small and X2 is Large then Y = “Iris-Setosa”

Hệ luật mờ áp dụng cho luật xấp xỉ sẽ được trình bày cụ thể hơn trong phần sau

Trang 12

Từ CSDL xây dựng hệ luật Mamdani để giải quyết bài toán hồi quy mờ, phân loại, điều khiển thông qua việc xử lý phân chia miền giá trị của các thuộc tính của CSDL theo cách tiếp cận của lý thuyết tập mờ và ĐSGT

1.2 Khai phá tri thức theo cách tiếp cận của lý thuyết tập mờ

1.2.1 Kiến thức cơ sở về tập mờ

Định nghĩa 1.1.[2] Cho một tập vũ trụ U với các phần tử ký hiệu bởi

x,U={x} Một tập mờ A trên U là tập được đặc trưng bởi một hàm A (x) mà nó

liên kết mỗi phần tử x U với một số thực trong đoạn [0,1] Giá trị hàm A (x) biểu diễn mức độ thuộc của x trong A A (x) là một ánh xạ từ U vào [0,1] và

được gọi là hàm thuộc của tập mờ A

Giá trị hàm A (x) càng gần tới 1 thì mức độ thuộc của x trong A càng cao Tập mờ là sự mở rộng của khái niệm tập hợp kinh điển Thật vậy, khi A

là một tập hợp kinh điển, hàm thuộc của nó, A (x), chỉ nhận 2 giá trị 1 hoặc 0, tương ứng với x có nằm trong A hay không

Một số hàm thuộc thông dụng trong ứng dụng của lý thuyết tập mờ:

- Dạng tam giác: A (x) = max(min((x-a)/(b-a),(c-x)/(c-b)),0),

- Dạng hình thang: A (x) = max(min((x-a)/(b-a),(d-x)/(d-c),1),0),

- Dạng Gauss: A (x) = exp(-(c-x)2/(2 2)), trong đó a, b, c, d, , là các

tham số của hàm thuộc tương ứng

Các khái niệm, tính chất, phép toán trong lý thuyết tập kinh điển cũng được

mở rộng cho các tập mờ Theo đó, các phép toán như t-norm,t-conorm, negation

và phép kéo theo (implication), trong lôgíc mờ được đề xuất, nghiên cứu chi

tiết cung cấp cho các mô hình ứng dụng giải các bài toán thực tế

Một khái niệm quan trọng trong việc tiếp cận giải bài toán phân lớp về

sau trong luận văn đó là phân hoạch mờ (fuzzy partition) Về hình thức, chúng

ta định nghĩa như sau

Trang 13

Định nghĩa 1.2 [2] Cho p điểm cố định m1<m2< <m p trong tập U= [a,

b] R Khi đó tập Ф gồm p tập mờ A1, A2, , A p(với , , , là các

hàm thuộc tương ứng) định nghĩa trên U được gọi là một phân hoạch mờ của

U nếu các điều kiện sau thỏa mãn, k=1, , p:

(1) (m k ) = 1 (m k được gọi là một điểm trong lõi của A k);

(2) Nếu x [m k-1 , m k+1], (x) = 0 (trong đó m0 = m1 = a và m p+1 = m p = b);

(3) (x) liên tục;

(4) (x) đơn điệu tăng trên [mk-1, mk] và đơn điệu giảm trên [mk,

mk+1];

(5) x U, k, sao cho (x) > 0 (tất cả mọi điểm trong U đều thuộc

một lớp của phân hoạch này với độ thuộc nào đó khác không)

Ngoài ra, các tác giả trong đưa thêm một số điều kiện để đảm bảo phân hoạch mờ là đều và mạnh

Như vậy, theo định nghĩa, tập các tập mờ là không gian Ƒ (U,[0,1]) các

hàm từ U vào đoạn [0,1], một không gian tương đối giàu về cấu trúc tính toán

mà nhiều nhà nghiên cứu đã sử dụng cho việc mô phỏng phương pháp lập luận của con người

Thực tế các khái niệm mờ trong các bài toán ứng dụng rất đa dạng và khó để xác định được các hàm thuộc của chúng một cách chính xác, thông thường dựa trên ngữ cảnh mà khái niệm mờ đó đang được sử dụng Một lớp rộng các khái niệm mờ có thể mô hình qua các tập mờ mà L A Zadeh đã đưa

ra gọi là biến ngôn ngữ

1.2.2 Khai phá tri thức với thông tin mờ

Biến ngôn ngữ

L.A.Zadeh viết “khi thiếu hụt tính chính xác bề ngoài của những vấn đề phức tạp, một cách tự nhiên là tìm cách sử dụng các biến ngôn ngữ, đó là các biến mà giá trị của chúng không phải là số mà là các từ hoặc các câu trong

Trang 14

ngôn ngữ tự nhiên hoặc nhân tạo Động lực cho việc sử dụng các từ, các câu hơn các số là đặc trưng ngôn ngữ của các từ, các câu thường là ít xác định hơn của số”(Zaddeh [9])

Trong cơ sở dữ liệu quan hệ, các quan hệ hay các bảng dữ liệu chứa các thuộc tính hay các tên cột Nó chỉ tính chất của đối tượng Các thuộc tính này cũng thể hiện trong ngôn ngữ như để mô tả tính chất đối tượng là con người, trong ngôn ngữ tự nhiên chúng ta có những thuộc tính TUỔI, CHIỀU CAO, LƯƠNG, NĂNG LỰC … Các thuộc tính này có thể được mô tả bằng giá trị

ngôn ngữ như trẻ, già, rất trẻ, … Vì lý do như vậy, Zadeh gọi các thuộc tính

kiểu như vậy là biến ngôn ngữ và miền giá trị của chúng là giá trị ngôn ngữ hay gọi là miền ngôn ngữ (linguistic domain) Tuy nhiên, như chúng ta đã đề cập trong Mục 1.1, vì bản thân giá trị ngôn ngữ không phải là đối tượng toán học, ngữ nghĩa của chúng được biểu thị bằng các tập mờ hay hàm thuộc Để khái niệm biến ngôn ngữ trở thành một khái niệm toán học, Zadeh hình thức hóa khái niệm này như sau:

Định nghĩa 1.3 [4] Biến ngôn ngữ là một bộ năm (X, T (X), U, R, M ),

trong đó X là tên biến, T(X) là tập các giá trị ngôn ngữ của biến X, U là không

gian tham chiếu của biến cơ sở u, mỗi giá trị ngôn ngữ xem như là một biến

mờ trên U kết hợp với biến cơ sở u, R là một qui tắc cú pháp sinh các giá trị ngôn ngữ của T(X), M là qui tắc ngữ nghĩa gán mỗi giá trị ngôn ngữ trong T(X) với một tập mờ trên U

Ví dụ 1.1 [4] Cho X là biến ngôn ngữ có tên là AGE, biến cơ sở u lấy

theo số điểm của học viên có thang điểm miền xác định là U = [0,100] Tập các giá trị ngôn ngữ T(AGE) = {good, very good, more or less bed, less bed,

very bed….} R là một qui tắc sinh các giá trị này M gán ngữ nghĩa mỗi tập

Trang 15

mờ với một giá trị ngôn ngữ Chẳng hạn, đối với giá trị nguyên thủy good, quy tắc gắn ngữ nghĩa M cho good bằng tập mờ sau:

M(good) ={(u, µgood(u))}: u∈[0,100]},

Trong đó µgood(u) = max(min(1,(u-50)/20),0), là một cách chọn hàm

thuộc cho khái niệm mờ good

Các đặc trưng của biến ngôn ngữ

Trong thực tế có rất nhiều biến ngôn ngữ khác nhau về các giá trị nguyên thuỷ, chẳng hạn như biến ngôn ngữ SỐ NGÀY LÀM VIỆC có giá trị nguyên thuỷ là ít, nhiều, biến ngôn ngữ LƯƠNG có giá trị nguyên thuỷ là thấp, cao… Tuy nhiên, những kết quả nghiên cứu đối với một miền trị của một biến ngôn ngữ cụ thể vẫn giữ được ý nghĩa về mặt cấu trúc đối với miền giá trị của các biến còn lại Đặc trưng này được gọi là tính phổ quát của biến ngôn ngữ Ngữ nghĩa của các gia tử và các liên từ hoàn toàn độc lập với ngữ cảnh, điều này khác với giá trị nguyên thủy của các biến ngôn ngữ lại phụ thuộc vào ngữ cảnh Ví dụ ta nói LƯƠNG của cán bộ An là rất cao, khi

đó được hiểu rằng LƯƠNG khoảng trên 8.000.000 đồng, nhưng ta nói CHIỀU CAO của cán bộ An là rất cao thì được hiểu rằng CHIỀU CAO khoảng trên 1.8 m Do đó khi tìm kiếm mô hình cho các gia tử và các liên

từ chúng ta không quan tâm đến giá trị nguyên thuỷ của biến ngôn ngữ đang xét Đặc trưng này được gọi là tính độc lập ngữ cảnh của gia tử và liên từ Các đặc trưng trên cho phép chúng ta sử dụng cùng một tập các gia

tử và xây dựng một cấu trúc toán học duy nhất cho miền giá trị của các

biến ngôn ngữ khác nhau

Xét một biến ngôn ngữ X như đã được định nghĩa ở trên Trước hết, chúng ta có nhận xét rằng, nhìn chung, tập ảnh của tập T(X) qua ánh xạ M(X)

không có cấu trúc đại số, trên đó chúng ta không định nghĩa được các phép u

Trang 16

∈ [0,50] u ∈ [50,100] Một lý do nữa làm cho chúng ta không quan tâm đến

điều này là cấu trúc đại số của tập gốc T(X) cũng chưa được phát hiện Trong khi chúng ta chưa phát hiện ra cấu trúc đại số của miền T(X), trong mục này chúng ta sẽ định nghĩa trên tập F(U, [0,1]) một cấu trúc đại số Cũng cần nhấn

mạnh rằng mục tiêu của lý thuyết tập mờ là mô hình hóa toán học ngữ nghĩa của các khái niệm mờ và, quan trọng nhất, là mô hình hóa phương pháp lập luận của con người Đây là một vấn đề cực kỳ khó và phức tạp vì những vấn

đề này thuộc loại có cấu trúc yếu, hay khó có thể có một cấu trúc toán duy nhất mô hình hóa trọn vẹn những vấn đề nêu trên Như là một hệ quả, khó lòng chúng ta tìm được một cấu trúc toán học chặt chẽ, đẹp của tập F(U, [0, 1]) Chính vì vậy chúng ta không có một ràng buộc chặt chẽ, minh bạch trong

định nghĩa các phép toán trong F(U, [0, 1]) Như chúng ta sẽ thấy dưới đây,

chúng ta có nhiều cách khác nhau để định nghĩa các phép tính và do đó nó tạo

ra tính mềm dẻo, đa dạng trong tiếp cận, thích nghi với các bài toán ứng dụng khác nhau, miễn là nó cho phép giải quyết được các bài toán ứng dụng, đặc biệt các bài toán thuộc lĩnh vực trí tuệ nhân tạo

Trước khi định nghĩa các phép tính trong F(U, [0, 1]), chúng ta hãy xem

đoạn [0, 1] như là một cấu trúc dàn L[0, 1] = ([0, 1], ∪, ∩, -) với thứ tự tự nhiên trên đoạn [0, 1] Khi đó, với mọi a, b ∈ [0, 1], ta có:

a ∪ b = max {a, b}, a ∩ b = min {a, b} và - a = 1 − b

Chúng ta có thể kiểm chứng rằng L[0, 1] = ([0, 1], ∪, ∩, -) là một đại số

De Morgan, hơn nữa nó có các tính chất sau:

- Các phép tính hợp ∪ và giao ∩ có tính giao hoán

Trang 17

- Tính chất nuốt đối ngẫu : a ∪(a ∩ b) = a

- Tính lũy đẳng : a ∪ a = a và a ∩ a = a

- Tính chất phủ phủ định : -(-a) = a

- Tính đơn điệu giảm : a ≤ b ⇒ -a ≥ -b

- Tính chất De Morgan : -(a ∪b)= -a∩-b; -(a ∩ b) = -a ∪ -b

Dựa trên cấu trúc L[0,1] chúng ta sẽ định nghĩa các phép tính trên tập

mờ thông qua các phép tính của dàn L[0,1]

Lập luận xấp xỉ

Hệ mờ áp dụng cho lập luận xấp xỉ được phát triển dựa trên lý thuyết tập

mờ, với những ràng buộc nhất định, được xem như là một bộ xấp xỉ vạn năng Hơn nữa, thế mạnh của hệ mờ là có thể xấp xỉ các hành vi hệ thống mà ở đó các hàm giải tích hoặc các quan hệ dạng số không tồn tại Vì vậy, hệ mờ có tiềm năng to lớn để ứng dụng vào việc giải quyết các vấn đề của các hệ thống phức tạp như hệ sinh học, hệ xã hội, hệ kinh tế và hệ thống chính trị Mặt khác, hệ mờ còn có thể ứng dụng trong các hệ thống ít phức tạp, ở đó không cần một giải pháp chính xác mà chỉ cần một giải pháp xấp xỉ nhưng nhanh hơn, hiệu quả hơn và giảm chi phí tính toán

Trong mô hình hệ mờ dạng luật, mỗi luật mờ thể hiện một tri thức của con người về một bài toán ứng dụng và được biểu diễn dưới dạng “If

Antecedents then Consequents”, trong đó Antecedents là các điều kiện chứa

các từ ngôn ngữ thường được liên kết bởi liên từ “and” và Consequents là

phần kết luận biểu thị qua các vị từ mờ chứa khái niệm mờ hoặc vị từ kinh điển Nếu kết luận của luật là khái niệm mờ thì hệ mờ ở dạng Mamdani, ngược lại kết luận là giá trị rõ thì hệ mờ dạng Sugeno.Ví dụ về hai dạng luật

mờ tương ứng [6]:

If X1 is Large and X2 is Very Small then Y is Normal,

If X1 is Small and X2 is Large then Y = “Iris-Setosa”

Trang 18

Dưới dạng tổng quát, một hệ mờ dạng luật có n đầu vào 1 đầu ra (MISO)

thường phát biểu như sau:

If x1 is A i 1 and and X n is A in then Y is Bi, (1.1)

Trong đó X1, X2, …, X n và Y là các biến ngôn ngữ thuộc không gian tham chiếu U1,U2, , U n và V, A ij , Bi (i = 1,…, M; j = 1,…, n) là các giá trị ngôn ngữ

tương ứng

Các luật mờ này được xây dựng hoặc dựa trên ý kiến chuyên gia về bài toán ứng dụng hoặc sử dụng các kỹ thuật học máy để sinh trực tiếp từ các mẫu dữ liệu thu thập được Tuy nhiên, không phải bài toán nào cũng có chuyên gia với các ý kiến đủ để xây dựng một hệ luật, thường phải kết hợp các phương pháp sinh luật đảm bảo tính đầy đủ cho hệ luật đó

Giải bài toán lập luận xấp xỉ theo mô hình (1.1) là xây dựng một phương pháp lập luận dựa trên các luật mờ để tính toán đầu ra từ các dữ liệu đầu vào

tương ứng, tức tìm kết quả B′ của Y khi biết giá trị A′1, A′2, , A′ n tương ứng

với các biến X1, X2, …, X n Vì chúng ta đang ở trong môi trường thông tin mờ, không chắc chắn, nên không có một phương pháp lập luận chính xác và duy nhất Mỗi phương pháp sẽ xuất phát từ một quan sát trực quan nào đó

Theo phương pháp truyền thống, quy tắc modus ponens tổng quát hóa

được áp dụng cho hệ mờ dạng (1.1) cùng với việc sử dụng các phép toán lôgíc

mờ đã được nhiều tác giả đề cập Ở đây tóm tắt như sau:

Xét mỗi luật mờ trong (1.1) là một quan hệ mờ R itrên miền tích Đề-các

U =U1 × U2 × × U n × V với hàm thuộc được xác định bởi:

µRi = I(T n(µAi,1, , µAi,n), µBi) (1.2) Trong đó µAi,j, µBi là các hàm thuộc tương ứng với A i,j , B i , T n là phép t-

norm n-ngôi và I là phép kéo theo Kết nhập các luật mờ R i (i = 1, , m) của hệ bằng phép t-conorm với hàm thuộc µ R và áp dụng quy tắc suy diễn hợp thành

ta có kết quả:

Trang 19

Ở đây

Công thức (1.3) cho thấy phương pháp lập luận này với những cách chọn

các phép t-norm, t-conorm hay kéo theo I dẫn đến những kết quả tính toán tập

mờ B′ khác nhau Điều này phù hợp với đặc trưng của lập luận xấp xỉ Câu

hỏi về cách chọn các phép trên như thế nào để có một phương pháp lập luận tốt nói chung không có câu trả lời khẳng định mà phụ thuộc vào từng tình huống ứng dụng cụ thể và được kiểm chứng qua kết quả thực nghiệm

Mặt khác, hệ luật mờ dạng Sugeno với phần kết luận của các luật là một mệnh đề kinh điển chứa hằng cá thể sẽ trở thành một trường hợp riêng của

dạng (1.1) khi chọn đầu ra B i có hàm thuộc ở dạng đơn tử Tuy nhiên, luật mờ dạng Sugeno với ưu điểm có thể thể hiện các hành vi cục bộ của hệ thống được ứng dụng và không cần giải mờ sau khi lập luận Hơn nữa, trong nhiều nghiên cứu của các tác giả như Ishibuchi H., Herrera F., Khotanzad A., Mansoori E.G., với việc sử dụng các luật mờ có phần kết luận chỉ chứa các giá trị hằng cá thể đã đem lại kết quả rất khả quan Đây là những lý do thúc đẩy những nghiên cứu hơn nữa về các mô hình ứng dụng hệ luật mờ, đặc biệt trường hợp luật

1.3 Khai phá tri thức theo cách tiếp cận của lý thuyết Đại số gia tử

Trang 20

gia cho nên dễ mất mát thông tin và còn nhiều vấn đề đặt ra như việc phân chia miền mờ thế nào cho hợp lý, làm sao xây dựng được các hàm thuộc nhanh chóng, phù hợp và cách xử lý các hàm thuộc này thế nào để giữ được ngữ nghĩa gắn với chúng Mặt khác, bản thân các giá trị ngôn ngữ có một cấu trúc thứ tự nhưng ánh xạ gán nghĩa sang tập mờ, không bảo toàn cấu trúc đó nữa Do đó, vấn đề đặt ra là có một cấu trúc toán học mô phỏng chính xác hơn cấu trúc ngữ nghĩa của một khái niệm mờ N.C.Ho và cộng sự đưa ra ĐSGT

và ĐSGT mở rộng và ĐSGT tuyến tính đầy đủ được giải đáp đầy đủ cho câu

hỏi này

Đại số gia tử được ra đời do đề xuất của N.C Ho và W Wechler vào năm 1990, đến nay đã có nhiều nghiên cứu phát triển và ứng dụng thành công của các tác giả

Các tác giả đã chứng minh miền ngôn ngữ X = Dom(X) của một biến

ngôn ngữ X có thể được tiên đề hóa và được gọi là đại số gia tử và được ký

hiệu là AX = (X, G, H, ) trong đó G là tập các phần tử sinh, H là tập các gia

tử (hedge) còn “ ” là quan hệ cảm sinh ngữ nghĩa trên X Giả thiết trong G có chứa các phần tử hằng 0, 1, W với ý nghĩa là phần tử bé nhất, phần tử lớn nhất

và phần tử trung hòa (neutral) trong X Ta gọi mỗi giá trị ngôn ngữ x X là

một hạng từ (term) trong ĐSGT [1]

Nếu tập X và H là các tập sắp thứ tự tuyến tính, khi đó AX = (X, G, H, )

là ĐSGT tuyến tính Hơn nữa, nếu được trang bị thêm hai gia tử tới hạn là ∑

và Ф với ngữ nghĩa là cận trên đúng và cận dưới đúng của tập H(x) khi tác động lên x, thì ta được ĐSGT tuyến tính đầy đủ, ký hiệu AX = (X, G, H, )

Ngoài ra, thông thường trong các ứng dụng, miền giá trị của biến ngôn ngữ bao gồm ccs từ sinh ra từ hai phần tử sinh đối xứng (như “cao” và “thấp”, “xa

và “gần” ) Vì trong luận văn chỉ quan tâm đến ĐSGT tuyến tính kể từ đây

Trang 21

nói ĐSGT cũng có nghĩa là ĐSGT tuyến tính ĐSGT tuyến tính có hai phần

tử sinh đối xứng ký hiệu là c+ và c- Như vậy, G={0, c+, W, c-,1}

Thí dụ ĐSGT có X là miền giá trị của biến ngôn ngữ “chiều cao”, là tập các từ như {“rất cao”, “thấp”, “rất rất thấp”, “tương đối thấp”, “tương đối rất

thấp” }, với G={0, cao, W, thấp,1} và H = {“rất”, “tương đối”, } có quan

hệ cảm sinh ngữ nghĩa như “rất cao” > “thấp” > “rất rất thấp”> “tương đối

thấp”> “tương đối rất thấp”

Khi tác động gia tử h H vào phần tử x X, thì thu được phần tử ký hiệu hx.Với mỗi x X, ký hiệu H(x) là tập tất cả các hạng từ u X sinh từ x bằng cách áp dụng các gia tử trong H và viết u = h n …h 1 x, với h n , …, h 1 H

Tập H gồm các gia tử dương H + và gia tử âm H - Các gia tử dương làm tăng ngữ nghĩa của một hạng từ mà nó tác động, còn gia tử âm làm giảm ngữ

nghĩa của hạng từ Không mất tính tổng quát, ta luôn giả thiết rằng H

= {h -1 <

h 2 < < h-q}và H + = {h 1 < h 2 < < h p}

Để ý rằng biểu thức h n h 1 u được gọi là một biểu diễn chính tắc của một

hạng từ x đối với u nếu x = h n h 1 u và h i h 1 u-1≠h i-1 h 1 u với i nguyên và i

n Ta gọi độ dài của một hạng từ x là số gia tử trong biểu diễn chính tắc của

nó đối với phần tử sinh cộng thêm 1, ký hiệu l(x)

Ví dụ 1.2 Cho biến ngôn ngữ TRUTH, có G = {0, FALSE, W, TRUE,

1}, H - = { Possible < Little } và H + = { More < Very } Khi đó TRUE <More

TRUE <Very TRUE, Little TRUE < TRUE,

Bây giờ chúng ta xét một số tính chất của đại số gia tử tuyến tính Định

lý sau cho thấy tính thứ tự ngữ nghĩa của các hạng từ trong ĐSGT

Trang 22

(2) Nếu X được sinh từ G bởi các gia tử và G là tập sắp thứ tự tuyến tính

thì X cũng là tập sắp thứ tự tuyến tính Hơn nữa nếu u < v, và u, v là độc lập

với nhau, tức là u H(v) và v H(u), thì H(u) H(v)

Định lý tiếp theo xem xét sự so sánh của hai hạng từ trong miền ngôn

ngữ của biến x

Định lý 1.2 [1] Cho x = hn…h1u và y = km…k1u là hai biểu diễn chính tắc

của x và y đối với u Khi đó tồn tại chỉ số j ≤ min{n, m} + 1 sao cho hj' = kj' với

mọi j' <j (ở đây nếu j = min {n, m} + 1 thì hoặc hj là toán tử đơn vị I, hj = I,

1.3.2 Khai phá tri thức với thông tin mờ theo cách tiếp cận ĐSGT

Trong phần này chúng ta xem xét ba vấn đề cơ bản đó là độ đo tính mờ của các giá trị ngôn ngữ (hạng từ), phương pháp định lượng ngữ nghĩa và khoảng tính mờ của các khái niệm mờ

Tính mờ của các giá trị ngôn ngữ xuất phát từ thực tế rằng một giá trị ngôn ngữ mang ý nghĩa mô tả cho nhiều sự vật và hiện tượng trong thế giới thực, với lý do tập hữu hạn các giá trị ngôn ngữ không đủ để phản ánh thế giới vô hạn các sự vật hiện tượng Như vậy khái niệm tính mờ và độ đo tính

mờ của một giá trị ngôn ngữ được hình thành và nó là một khái niệm rất khó xác định, đặc biệt trong lý thuyết tập mờ Tuy nhiên, trong ĐSGT các tác giả

đã cho thấy độ đo tính mờ được xác định một cách hợp lý: “tính mờ của một

Trang 23

hạng từ x được hiểu như là ngữ nghĩa của nó vẫn có thể được thay đổi khi tác động vào nó bằng các gia tử” Do đó, tập các hạng từ sinh từ x bằng các gia

tử sẽ thể hiện cho tính mờ của x và do đó, H(x) có thể sử dụng như là một mô hình biểu thị tính mờ của x và kích thước tập H(x) được xem như độ đo tính

mờ của x Ta có định nghĩa sau về độ đo tính mờ

Định nghĩa 1.4 [1] Cho AX = (X, G, H, Σ,Φ,µ,≤) là một ĐSGT tuyến tính đầy đủ Ánh xạ fm : X → [0,1] được gọi là một đo tính mờ của các hạng

từ trong X nếu:

(1) fm là đo mờ đầy đủ trên X, tức là fm(c-) + fm(c+) =1 và ∑h Hfm(hu) =

fm(u), u X;

(2) fm(x) = 0, với các x thỏa H(x) = {x} Đặc biệt, fm(0) = fm(W) = fm(1) = 0;

thuộc vào x và y, vì vậy nó được gọi là độ đo tính mờ của các gia tử và được

ký hiệu bởi μ(h)

Trong đó, điều kiện (1) thể hiện tính đầy đủ của các phần tử sinh và các gia tử cho việc biểu diễn ngữ nghĩa của miền thực đối với các biến (2) thể hiện tính rõ của các hạng từ và (3) có thể được chấp nhận vì chúng ta đã chấp nhận giả thiết rằng các gia tử là độc lập với ngữ cảnh và, do vậy, khi áp dụng một gia tử h lên các hạng từ thì hiệu quả tác động tương đối làm thay đổi ngữ nghĩa của các hạng từ đó là như nhau Hình vẽ sau (Hình 1.1) minh họa rõ hơn cho khái niệm độ đo tính mờ của biến ngôn ngữ TRUTH

Các tính chất của độ đo tính mờ của các hạng từ và gia tử được thể hiện qua mệnh đề sau:

Mệnh đề 1.1 Với độ đo tính mờ fm và m đã được định nghĩa trong Định

nghĩa 1.4, ta có:

(1) fm(c-) + fm(c+) = 1 và Σh H fm(hx) = fm(x);

Trang 24

(3) fm, trong đó X k là tập các hạng từ có độ dài đúng k;

(4) fm(hx) = µ(h).fm(x), và x X, fm(Σx) = fm(Φx) = 0;

(5) Cho fm(c - ), fm(c + ) và µ(h) với h H, khi đó với x = h n h 1 c , {-,+},

dễ dàng tính được độ đo tính mờ của x như sau:

fm(x) = µ(h n ) µ(h 1 )fm(c )

Hình 1.1 Độ đo tính mờ của biến TRUTH

Với ĐSGT, các khoảng tính mờ của tập các phần tử có cùng độ dài sẽ tạo nên một phân hoạch trên miền xác định của thuộc tính Các khoảng tính

mờ này có độ dài tương ứng với độ đo tính mờ của từng phần tử Ngoài ra, các khoảng tính mờ này được sắp xếp trên miền xác định theo thứ tự tự nhiên của các phần tử và trong mỗi khoảng tính mờ có một điểm đại diện cho khoảng tính mờ đó, gọi là giá trị định lượng ngữ nghĩa Tuy có nhiều phương pháp xác định giá trị định lượng của các hạng từ dựa trên các tham số này nhưng phải thỏa mãn một số ràng buộc nhất định và được thể hiện trong định nghĩa sau

Định nghĩa 1.5 Cho AX = (X, G, H, ∑, Φ, ≤) là một ĐSGT tuyến tính đầy đủ Ánh xạ υ : X → [0,1] được gọi là một hàm định lượng ngữ nghĩa (SQM) của AX nếu:

(1) υ là ánh xạ 1-1 từ tập X vào đoạn [0,1] và đảm bảo thứ tự trên X, tức

là x, y∈X, x < y⇒υ(x) <υ(y) và υ(0) = 0, υ(1) = 1

Trang 25

(2) υ liên tục: ∀x ∈X, υ(Φx) = infimumυ(H(x)) và υ(∑x) = supremum υ(H(x))

Điều kiện (1) là bắt buộc tối thiểu đối với bất kỳ phương pháp định

lượng nào, còn điều kiện (2) đảm bảo tính trù mật của H(G) trong X Dựa trên

những ràng buộc này, các tác giả trong đã xây dựng một phương pháp định lượng ngữ nghĩa của các hạng từ trong ĐSGT

Các gia tử dương làm tăng ngữ nghĩa của một hạng từ mà nó tác động, còn gia tử âm làm giảm ngữ nghĩa của hạng từ Để biểu diễn tính dương âm của một gia tử đối với một hạng từ Trước hết chúng ta xét định nghĩa về dấu của các hạng từ như sau

Định nghĩa 1.6.[1] Một hàm dấu Sign : X → {-1,0,1} là một ánh xạ

được định nghĩa đệ qui như sau, trong đó h, h'∈H và c ∈ {c -, c + }:

(1) Sign(c-) = -1, Sign(c+) = 1;

(2) Sign(hc) = -Sign(c) nếu h âm đối với c; Sign(hc) = Sign(c) nếu h dương đối với c;

(3) Sign(h'hx) = -Sign(hx), nếu h'hx ≠ hx và h' âm đối với h; Sign(h'hx) =

Sign(hx), nếu h'hx ≠ hx và h' dương đối với h;

(4) Sign(h'hx) = 0, nếu h'hx = hx

Dựa trên hàm dấu này, chúng ta có tiêu chuẩn để so sánh hx và x

Mệnh đề 1.2.[1] Với bất kỳ h và x, nếu Sign(hx) = 1 thì hx>x; nếu

Sign(hx) = -1 thì hx < x và nếu Sign(hx) = 0 thì hx = x

Định nghĩa 1.7.[1] Cho AX là một ĐSGT tuyến tính đầy đủ và fm là một độ đo tính mờ trên X Ta nói ánh xạ υ : X → [0,1] được cảm sinh bởi độ

đo tính mờ fm nếu được định nghĩa bằng đệ qui như sau:

(1) υ(W) = θ = fm(c-), υ(c-) = θ - α.fm(c-) = β fm(c

-), υ(c+) = θ +α.fm(c+

);

Trang 26

(2)

(ℎ ) (ℎ , với mọi j, -q ≤ j ≤ p và j ≠ 0, trong đó:

(3) υ(Φc - ) = 0, υ(∑c - ) = θ = υ(Φc + ), υ(∑c + ) = 1, và với mọi j thỏa -q

≤ j ≤ p, j ≠ 0, ta có:

υ(Φh j x) = υ(x) +

Với định nghĩa này, các tác giả trong đã chứng minh nó thỏa mãn các yêu cầu của một hàm định lƣợng ngữ nghĩa và đảm bảo tính trù mật của nó

đối với các hạng từ của A X trong đoạn [0,1] (xem Định lý 1.3)

Một khái niệm rất quan trọng làm cơ sở cho việc nghiên cứu và xây

dựng các mô hình ứng dụng về sau đó là khoảng tính mờ (fuzziness interval) của các khái niệm mờ Trong ĐSGT, dựa trên độ đo tính mờ fm, chúng ta sẽ định nghĩa khoảng tính mờ của các hạng từ Gọi Itv([0,1]) là họ các đoạn con

của đoạn [0,1], ký hiệu |•| là độ dài của đoạn “•”

Định nghĩa 1.8 [4] Khoảng tính mờ của các hạng từ x X, ký hiệu

ℑfm(x), là một đoạn con của [0,1], ℑfm(x) Itv([0,1]), nếu nó có độ dài bằng độ

đo tính mờ, |ℑfm (x)| = fm(x), và đƣợc xác định bằng qui nạp theo độ dài của x

nhƣ sau:

(1) Với độ dài của x bằng 1 (l(x)=1), tức là x {c-, c+}, khi đó |ℑfm(c-)|

= fm(c-), |ℑfm(c + )| = fm(c +) và ℑfm(c-) ≤ ℑfm(c +);

Trang 27

(2) Giả sử x có độ dài n(l(x)=n) và khoảng tính mờ ℑfm(x) đã được định

nghĩa với |ℑfm(x)| = fm(x) Khi đó tập các khoảng tính mờ {ℑfm(h j x): -q ≤ j ≤

p và j ≠ 0} ⊂Itv([0,1]) được xây dựng sao cho nó là một phân hoạch của

ℑfm(x), và thỏa mãn |ℑfm(h j x)| = fm(h j x) và có thứ tự tuyến tính tương ứng với

thứ tự của tập {h-qx, h-q+1x, , hpx}, tức là nếu h-qx > h-q+1x > > hpx thì

ℑfm(h-qx) >ℑfm(h-q+1x) > >ℑfm(hpx) và ngược lại (xem Hình 1.2) Dễ

dàng thấy rằng hệ phân hoạch như vậy luôn tồn tại dựa vào tính chất (1) trong Mệnh đề 1.1

Hình 1.2 Khoảng tính mờ của các hạng từ của biến TRUTH

Trường hợp độ dài của x bằng k, l(x) = k, ta ký hiệu ℑk(x) thay cho

ℑfm(x), khi đó ta nói khoảng tính mờ của x có độ sâu k (hay khoảng tính mờ

mức k) Để thuận tiện về sau, ta ký hiệu:

Xk là tập các hạng từ có độ dài đúng k,

X(k) = U l=1, ,k X l là tập tất cả các hạng từ có độ dài từ 1 đến k

Rõ ràng X = Xk, và

Ik = {ℑk (x): x ∈X k } là tập tất cả các khoảng tính mờ độ sâu k,

Tương tự ta cũng có tập I(k) = U l=1, ,k Il Tiếp theo chúng ta xem xét một

số tính chất của khoảng tính mờ cũng như cấu trúc của họ tất cả các khoảng tính mờ trong mệnh đề sau Họ các khoảng tính mờ đóng một vai trò quan trọng trong việc xem xét quan hệ tương tự đối với dữ liệu trong miền tham

Trang 28

chiếu của các biến Ở đây, ta sử dụng khái niệm tựa phân hoạch tức là phân hoạch mà hai tập bất kỳ của nó có nhiều nhất một điểm chung

Mệnh đề 1.3 Cho AX = (X, G, H, ∑, Φ, ≤) là một ĐSGT tuyến tính đầy đủ:

(1) Nếu Sign(hpx′) = 1, thì ta cóℑ(h-qx′) ≤ ℑ(h-q+1x′) ≤ ≤ ℑ(h-1x′) ≤ ℑ(h1x′) ≤ ℑ(h2x′) ≤ ≤ ℑ(hpx′), và nếu Sign(hpx′) = -1, thì ta cóℑ(hpx′) ≤ ℑ(hp-1x′) ≤ ≤ ℑ(h1x′) ≤ ℑ(h-1x′) ≤ ℑ(h-2x′) ≤ ≤ ℑ(h-qx′);

(2) Tập Ik = {ℑ(x): x Xk} là một tựa phân hoạch của đoạn [0,1];

(3) Cho một số m, tập {ℑ(y): y = km k1x, ∀km , , k1∈H} là một tựa phân

hoạch của khoảng tính mờ ℑ(x);

(4) Tập Ik = {ℑ(x): x∈Xk} “mịn” hơn tập Ik-1 = {ℑ(x): x∈Xk -1}, tức là bất kỳ

một khoảng tính mờ trong Ik chắc chắn được chứa bên trong một khoảng của Ik-1;

(5) Với x < y và l(x) = l(y), thì ℑ(x) ≤ ℑ(y) và ℑ(x) ≠ ℑ(y)

Chứng minh Các tính chất (2) đến (5) đã được chứng minh trong, ở đây

ta chứng minh (1) Theo Mệnh đề 1.2, nếu Sign(h p x′) = 1 thì ta có x′ ≤ h p x′ Vì

các gia tử trong H+ là so sánh được và H+ và H- là đối ngược nhau, nên h -q x′ ≤

h -q+1 x′ ≤ ≤ h -1 x′ ≤ x′ ≤ h 1 x′ ≤ h 2 x′ ≤ ≤ h p x′ Từ Định nghĩa 1.8 của khoảng

tính mờ ta suy ra ℑ(h -q x′) ≤ ℑ(h -q+1 x′) ≤ ≤ ℑ(h -1 x′) ≤ ℑ(h 1 x′) ≤ ℑ(h 2 x′) ≤ ≤

ℑ(h p x′) Chứng minh tương tự với trường hợp Sign(hpx′) = -1

Dễ dàng suy ra từ mệnh đề trên trong trường hợp các khoảng tính mờ được xét ở dạng nửa đóng, tức là ℑ(x) = (lmp(ℑ(x)), rmp(ℑ(x))], và khoảng

tính mờ của hạng từ bé nhất trong phân hoạch ở dạng đóng thì các tựa phân

hoạch trong (2), (3) trở thành các phân hoạch thực sự Trong đó, lmp và rmp

là điểm mút trái và điểm mút phải của khoảng tính mờ

Để ý rằng dựa trên cấu trúc thứ tự của X, phần tử x nằm ở giữa hai tập

{h -i x: -q ≤ i ≤ -1} và {h j x: 1 ≤ j ≤ p}, hơn nữa ta có

∑i [-q,-1] |ℑ(h i x)| = fm(x) ∑ i∈[-q,-1] µ(h i ) = α.fm(x) = α.|ℑ(x)|

Điều này cho thấy điểm cuối chung của hai khoảng tính mờ ℑ(h -1 x) và

ℑ(h 1 x) chính là giá trị định lượng ngữ nghĩa υ(x) của hạng từ x Giá trị này

Trang 29

chia đôi khoảng tính mờ ℑ(x) theo tỷ lệ α :β nếu Sign(h p x) = 1, hoặc tỷ lệ β :α

nếu Sign(h p x) = -1 (xem (1) của Mệnh đề 1.3)

Theo Định nghĩa 1.7 và 1.8, có một mối liên hệ giữa ánh xạ định lượng ngữ nghĩa và khoảng tính mờ của của hạng từ trong một ĐSGT, được thể hiện bằng định lý sau

Định lý 1.3 Cho AX = (X, G, H, ∑, Φ, ≤) là một ĐSGT tuyến tính đầy

đủ và hàm υ được định nghĩa trong Định nghĩa 1.7 Khi đó υ là một ánh xạ

định lượng ngữ nghĩa và tập các giá trị của υ đối với H(x), viết là υ(H(x)), trù

mật trong đoạn [υ(Φx), υ(∑x)], x∈X Hơn nữa,

υ(Φx) = infimum υ(H(x)),

υ(∑x) = supremum υ(H(x)) và fm(x) = υ(∑x) - υ(Φx),

và như vậy fm(x) = d(υ(H(x))), trong đó d(A) là đường kính của A⊆ [0,1] Kết quả, υ(H(G)) trù mật trong đoạn [0,1] Định lý này cũng khẳng định rằng ĐSGT AX cùng với hàm định lượng ngữ nghĩa υ có thể ứng dụng trong

mọi quá trình thực

Từ những kết quả trên cho thấy giá trị định lượng ngữ nghĩa υ(x) của một hạng từ x cũng như khoảng tính mờ ℑ(x), x ∈ X, phụ thuộc đầy đủ vào các tham số mờ gia tử fm (c - ), fm (c + ), µ(h) h ∈ H

CHƯƠNG 2 BÀI TOÁN PHÂN CHIA MIỀN XÁC ĐỊNH

THUỘC TÍNH 2.1 Bài toán phân chia miền xác định thuộc tính

Trong quá trình giải quyết các bài toán có liên quan đến xây dựng hệ luật

mờ (1.1), có hai công đoạn tuy liên quan với nhau nhưng có thể coi như xử lý tách biệt Công đoạn thứ nhất là là từ CSDL số tiến hành phân chia miền xác định của các thuộc tính thành các miền mờ Việc này tương đương với việc xây dựng các hàm thuộc (MF) cho thuộc tính vì mỗi miền mờ của thuộc tính được xác định thông qua hàm thuộc MF Khi xác định được xong tất cả các

Trang 30

MF, mỗi giá trị số của CSDL sẽ nhận một tập các giá trị là độ thuộc của giá trị

đó vào các miền mờ đã xây dựng của thuộc tính Cụ thể, thuộc tính Ai có thể được phân thành k miền mờ (thông thường, để đơn giản, người ta hay giới hạn k<4) là Ri1, Ri2, , Rik Khi đó một giá trị số xij (là giá trị thuộc cột i, tức thuộc tính Ai và hàng j trong CSDL) sẽ nhận một tập các giá trị

tương ứng là độ thuộc của xij vào các miền mờ Ri1, Ri2, , Rik phân chia thuộc tính Ai Thí dụ, ta có thuộc tính

“TUỔI” Có thể chia miền xác định của thuộc tính “TUỔI” (miền xác định là

[0,150] ) thành 3 (k=3) miền mờ có nhãn là “Trẻ”, “Trung niên” và “Già”

(tương ứng xác định 3 MF là μTrẻ, μTrungniên và μGià Khi đó, một giá trị nào đó của “TUỔI” thuộc CSDL, chẳng hạn 35 sẽ nhận 3 giá trị là 3 độ thuộc tương ứng, thí dụ (0.5, 0.6, 0.1) Có thể nhiều giá trị độ thuộc là 0, thí dụ nếu giá trị của TUỔI là 7 thì μGià(7)=0) Với việc xác định xong các MF, CSDL số ban

đầu sẽ chuyển thành CSDL mờ (Fuzzy Base - FB) Công đoạn thứ nhất coi

như hoàn thành

Công đoạn thứ hai là từ cơ sở dữ liệu mờ - CSDL đã chuyển đổi tiến hành xây dựng trực tiếp hệ luật mờ một cách tối ưu Công đoạn này mục tiêu

là xây dựng từ cơ sở dữ liệu mờ một hệ luật mờ (Rule Base - RB) tốt theo

nghĩa có độ chính xác của mô hình cao và dễ hiểu, tức số luật trong hệ luật là vừa phải cộng thêm yêu cầu số thuộc tính tham gia vào mỗi luật cũng có giới hạn Các hệ luật này, như đã nói, có thể sử dụng để giải quyết nhiều bài toán trong khai phá tri thức như phân lớp, hồi quy, điều khiển, Hai công đoạn nhắc đến trên đây, về mặt hình thức rõ ràng là tách biệt, ta phải tiến hành công đoạn xây dựng RB (tức các hàm mờ phân chia miền xác định) trước, sau

đó trên cơ sở RB mới tiến hành xây dựng hệ luật mờ FRBS (tập các luật dạng IF THEN ) sau Tuy nhiên, như đã nói, hai công đoạn này trong thực tế có mối quan hệ chặt chẽ vì có tiến hành bước đầu tốt thì mới có hy vọng xây

Trang 31

dựng được hệ luật mờ tốt ở bước sau Hiện có thể thấy 2 hướng nghiên cứu xây dựng hệ luật mờ như sau Hướng thứ nhất, xây dựng hệ luật mờ hoàn toàn tách biệt với việc xây dựng Cơ sở dữ liệu mờ, tức là bằng các cách khác nhau xây dựng FB một lần trước, sau đó trên cơ sở FB đó xây dựng hệ luật mờ Hướng thứ hai là kết hợp xây dựng hệ luật mờ cùng với việc điều chỉnh CSDL mờ theo một chu trình lặp để có được một hệ luật mờ tối ưu (theo một nghĩa nào đấy) Theo cách này, đầu tiên ta xây dựng một CSDL mờ, sau đó từ CSDL mờ này xây dựng một hệ luật mờ tối ưu (theo nghĩa cục bộ vì ở đây là

hệ tối ưu đa mục tiêu, không có tối ưu toàn bộ) Sau đó các bước này lại lặp lại, quay lại xây dựng một CSDL mờ mới rồi lại từ đó, xây dựng hệ luật mờ tối ưu Quá trình này lặp lại cho đến khi điều kiện dừng của thuật toán di truyền thỏa mãn và ta sẽ nhận được một họ các lời giải tối ưu cục bộ cho bài toán của ta (thường gọi là mặt Pareto) Các phương pháp này sẽ được nhắc đến cụ thể hơn trong mục sau của luận văn

Trong phần còn lại của mục này, để làm rõ hơn các công đoạn của bài toán xây dựng hệ luật mờ, sẽ trình bày vắn tắt ví dụ bài toán phân lớp để minh họa cho công đoạn 2 Hoàn toàn tương tự nếu trong bước 2 xây dựng hệ luật

mờ cho các bài toán còn lại, chỉ khác đôi chút về cách tính đầu ra cho hệ luật

mờ khác nhau cho từng bài toán, chẳng hạn bài toán phân lớp đầu ra là lớp mà giá trị đầu vào cần thuộc, bài toán hồi quy thì đầu ra là số thực mà giá trị đầu vào cần nhận được )

Đối với tập dữ liệu mẫu của bài toán phân lớp được cho dưới dạng số, tức

là U ⊂ Rn, thì việc xây dựng một hệ luật mờ S thường gồm hai bước sau: [3]

(Bước 1) Phân hoạch mờ (fuzzy partition) trên miền của các thuộc tính

bằng tập các giá trị ngôn ngữ của các biến ngôn ngữ - Dom(Xi), mỗi giá trị ngôn ngữ được gán một hàm thuộc tương ứng

(Bước 2) Xác định các luật mờ từ các phân hoạch ở trên tạo thành hệ S

Định dạng
Số trang	63
Dung lượng	1,34 MB