Zadeh các nhà khoa học đã phát triển theo nhiều hướng khác nhau, trong đó có các phương pháp xây dựng hệ mờ phân lớp dạng luật dựa trên ngữ nghĩa của đại số gia tử.. Để thực hiện được cá
Trang 1LỜI CAM ĐOAN
Với mục đích nghiên cứu, tìm hiểu để nâng cao kiến thức và trình độ chuyên môn để áp dụng trong các bài toán cụ thể trong tương lai nên tôi đã làm luận văn này một cách nghiêm túc và hoàn toàn trung thực Nội dung luận văn do tự tôi tìm hiểu và hoàn thành
Trong luận văn, tôi có sử dụng tài liệu tham khảo của một số tác giả trong
và ngoài nước để hoàn thành luận văn được nêu ở phần tài liệu tham khảo
Tôi xin cam đoan và chịu trách nhiệm về nội dung, sự trung thực trong luận văn tốt nghiệp Thạc sỹ của mình
Thái Nguyên, tháng 4 năm 2015
Học viên
Trang 2LỜI CẢM ƠN
Những kiến thức căn bản trong luận văn này là kết quả của quá trình tự nghiên cứu trong quá trình công tác và hai năm học Thạc sỹ (2012 - 2014) tại Trường Đại học Công nghệ thông tin và Truyền thông Thái Nguyên Dưới sự giảng dạy, đào tạo và dìu dắt trực tiếp của các thầy cô trong trường và Viện Công nghệ thông tin Việt Nam
Tôi xin bày tỏ lời cảm ơn chân thành tới các thầy cô trong Khoa Công nghệ thông tin, Phòng Đào tạo, Phòng Công tác học sinh sinh viên, Phòng Đào tạo sau đại học Trường Đại học Công nghệ thông tin và Truyền thông Thái Nguyên, đã tạo điều kiện thuận lợi cho tôi trong thời gian học tập tại trường
Tôi xin bày tỏ lòng biết ơn chân thành, lời cảm ơn sâu sắc nhất đối với
thầy giáo TS Dương Thăng Long đã trực tiếp hướng dẫn, định hướng cho tôi
giải quyết các vấn đề trong luận văn
Tôi cũng xin cảm ơn đến người thân, bạn bè và các bạn đồng môn lớp cao học khóa 11, đã ủng hộ và giúp đỡ tôi trong quá trình làm luận văn tốt nghiệp
Thái Nguyên, ngày 6 tháng 4 năm 2015
Học viên
Lê Cảnh Thơ
Trang 3MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
MỤC LỤC iii
DANH MỤC CÁC KÝ HIỆU, CHỮ CÁI VIẾT TẮT v
DANH MỤC HÌNH VẼ vii
LỜI NÓI ĐẦU 1
CHƯƠNG 1: CƠ SỞ VỀ HỆ MỜ DẠNG LUẬT DỰA TRÊN ĐẠI SỐ GIA TỬ 3
1.1 Khái quát về lập luận mờ 3
1.1.1 Định nghĩa tập mờ 3
1.1.2 Số mờ 3
1.1.3 Phân hoạch mờ 5
1.1.4 Các phép tính trên tập mờ Zadeh 6
1.1.4.5 Phép kéo theo 8
1.1.5 Biến ngôn ngữ 9
1.1.6 Suy luận mờ 11
1.2 Đại số gia tử trong lập luận mờ 12
1.2.1 Đại số gia tử (ĐSGT) 12
1.2.2 Tính chất của đại số gia tử tuyến tính 13
1.2.3 Đại số 2 gia tử 14
1.2.4 Định lượng ngữ nghĩa trong đại số gia tử 15
1.2.5 Hệ khoảng tính mờ 19
1.3 Kết luận chương 1 21
CHƯƠNG 2: PHƯƠNG PHÁP TINH CHỈNH THAM SỐ MỜ GIA TỬ CỦA HỆ MỜ DẠNG LUẬT PHÂN LỚP 22
2.1 Phương pháp xây dựng hệ mờ dạng luật phân lớp 22
2.1.1 Bài toán phân lớp 22
2.1.2 Mô hình hệ mờ dạng luật giải bài toán phân lớp 23
2.1.3 Thuật toán sinh luật mờ dựa trên hệ khoảng tính mờ 26
2.2 Sự ảnh hưởng của tham số mờ gia tử đối với bài toán phân lớp 34
2.3 Phương pháp tinh chỉnh bằng trực quan kinh nghiệm của người dùng 36
2.4 Tinh chỉnh bằng phương pháp tối ưu dựa trên giải thuật di truyền 46
Trang 42.4.1 Giải thuật di truyền 46
2.4.2 Sơ đồ tổng thể của giải thuật di truyền - GA 47
2.4.3Áp dụng GA tìm kiếm tham số tối ưu 48
2.5 Kết luận chương 2 55
CHƯƠNG 3: XÂY DỰNG CHƯƠNG TRÌNH 56
VÀ ỨNG DỤNG THỬ NGHIỆM 56
3.1 Xây dựng ứng dụng 56
3.2 Bài toán phân lớp hạt giống lúa mì (Seeds) 56
3.3 Bài toán phân loại người bị thoát vị đĩa đệm Vertebral Column 60
3.4 Kết luận chương 3 64
KẾT LUẬN 65
TÀI LIỆU THAM KHẢO 66
Trang 5DANH MỤC CÁC KÝ HIỆU, CHỮ CÁI VIẾT TẮT
Các ký hiệu:
AX Đại số gia tử tuyến tính
AX 2 Đại số 2 gia tử
(h), fm(x) Độ đo tính mờ gia tử h và của hạng từ x
Giá trị định lượng theo điểm của giá trị ngôn ngữ
A (v) Hàm định lượng của giá trị ngôn ngữ A (đo độ thuộc của v)
Khoảng tính mờ của giá trị ngôn ngữ
X k Tập các hạng từ có độ dài đúng k
X (k) Tập các hạng từ có độ dài không quá k
I k Hệ khoảng tính mờ mức k của các giá trị ngôn ngữ
I (k) Hệ khoảng tính mờ từ mức 1 đến mức k của các giá trị ngôn ngữ
Các chữ viết tắt:
ĐSGT Đại số gia tử
ĐS2GT Đại số 2 gia tử
SGA Simulated Annealing - Genetic Algorithm
IFRG1 Initial Fuzzy Rules Generation 1
HAFRG Hedge Algebras based Fuzzy Rules Generation
FPO-SGA Fuzzy Parameters Optimization - SGA
Trang 7DANH MỤC HÌNH VẼ
Hình 1.1: Phép giao của hai tập mờ
Hình 1.2: Phép hợp của hai tập mờ
Hình 1.3: Độ đo tính mờ của biến “NHIỆT ĐỘ”
Hình 1.4: Khoảng tính mờ của các hạng từ của biến “NHIỆT ĐỘ”
Hình 2.1: Hàm định lượng tam giác của các hạng từ
Hình 2.2: Hàm định lượng hình thang của các hạng từ
Hình 2.3: Sơ đồ các bước chính của thuật toán di truyền (GA)
Hình 3.1 Sơ đồ phân bố dữ liệu giữa các lớp của bài toán Seeds
Hình 3.2 Sơ đồ phân bố dữ liệu giữa các lớp của bài toán Vertebral Column
Trang 8LỜI NÓI ĐẦU
Ngôn ngữ của con người được hình thành một cách tự nhiên trong quá trình phát triển của loài người, trước hết nhằm mục đích giải quyết nhu cầu trao đổi thông tin giữa con người với con người, trong đó chúng ta dùng ngôn ngữ để giải thích các hiện tượng sự vật trong tự nhiên Tuy nhiên trước sự vô hạn của thế giới tự nhiên, ngôn ngữ lại có giới hạn nên khó tránh khỏi những
từ, cụm từ không chính xác hoặc mơ hồ, ví dụ như: hơi nóng, rất đẹp, hơi thấp, rất dài… Con người với khả năng tư duy, lập luận dựa trên sự hữu hạn của ngôn ngữ đã xây dựng, khám phá tri thức khoa học, cải tạo thế giới tự nhiên nhằm thúc đẩy sự phát triển của loài người ngày càng tốt đẹp, hoàn thiện hơn
Giáo sư Lotfi A Zadeh là người tiên phong trong lĩnh vực công nghệ logic mờ Từ những khái niệm mơ hồ, không rõ ràng không chắc chắn ông đã
đề xuất khái niệm mờ và tập mờ là hình thức hóa toán học được xác định bởi các hàm thuộc Dựa trên lý thuyết tập mờ của L.A Zadeh các nhà khoa học
đã phát triển theo nhiều hướng khác nhau, trong đó có các phương pháp xây dựng hệ mờ phân lớp dạng luật dựa trên ngữ nghĩa của đại số gia tử Phương pháp này nhằm mang đến tính trực quan, dễ hiểu của hệ luật cho người dùng, đồng thời để đạt được hai mục tiêu là: thứ nhất hiệu quả phân lớp của hệ càng cao càng tốt; thứ 2 là tính phức tạp của hệ càng nhỏ càng tốt Để thực hiện được các yêu cầu trên trong việc xây dựng hệ mờ phân lớp dạng luật dựa trên ngữ nghĩa của đại số gia tử, còn phải tinh chỉnh tham số mờ gia tử của hệ mờ dạng luật phân lớp sao cho phù hợp để đạt được kết quả tối ưu tức là đạt được hai mục tiêu trên
Vì vậy, tên đề tài được chọn là:
“Phương pháp tinh chỉnh tham số mờ gia tử của hệ mờ dạng luật
phân lớp và ứng dụng”
Trang 9Nội dung luận văn được bố cục như sau:
Chương 1: Cơ sở về hệ mờ dạng luật dựa trên đại số gia tử
Chương 2: Phương pháp tinh chỉnh tham số mờ gia tử của hệ mờ dạng
luật phân lớp
Chương 3: Xây dựng chương trình và ứng dụng thử nghiệm
Luận văn nghiên cứu những ứng dụng của đại số gia tử vào hệ mờ dạng
luật phân lớp, đồng thời tìm hiểu những ảnh hưởng của tham số mờ gia tử để
từ đó tinh chỉnh tham số trong hệ mờ dạng luật phân lớp để đạt đươc kết quả
tối ưu cho bài toán ứng dụng Đây là một vấn đề mới và khá phức tạp, mặt
khác do trình độ và thời gian có hạn nên luận văn không tránh khỏi những
thiếu sót Rất mong được sự đóng góp ý kiến của các thầy, cô để luận văn
được hoàn thiện hơn tạo tiền đề cho các nghiên cứu tiếp theo
Trang 10CHƯƠNG 1: CƠ SỞ VỀ HỆ MỜ DẠNG LUẬT DỰA TRÊN ĐẠI SỐ
GIA TỬ 1.1 Khái quát về lập luận mờ
Lý thuyết tập mờ được L A Zadeh đưa ra năm 1965, từ đó lý thuyết tập mờ, logic mờ được nhiều tác giả quan tâm nghiên cứu bằng các cách tiếp cận khác nhau và ứng dụng vào trong các lĩnh vực như lý thuyết điều khiển,
hệ thống xã hội, trí tuệ nhân tạo…
1.1.1 Định nghĩa tập mờ
Định nghĩa 1.1[1]: Cho tập vũ trụ U với các phần tử ký hiệu bởi x,
U={x} Một tập mờ A trên U là tập được đặc trưng bở một hàm (x) mà nó liên kết mỗi phần tử x∈U với một số thực trong đoạn [0,1] Giá trị hàm (x) biểu diễn mức độ thuộc của x trong A (x) là một ánh xạ từU vào [0,1] và được gọi là hàm thuộc của tập mờ A[1]
Hay A được gọi là tập mờ khi và chỉ khi:
A = {(x, (x) x∈U, (x): U→ [0,1]} (1.1) Trong đó (x) được gọi là hàm thuộc của tập mờ A
Giá trị hàm (x) càng gần tới 1 thì mức độ thuộc của x trong A càng cao Tập mờ là sự mở rộng của khái niệm tập hợp kinh điển Khi A là tập hợp kinh điển thì A có thể được biểu diễn như sau
A = {(x, (x) x ∈ U, (x): U→ {0,1}} (1.2) Khi đó hàm thuộc (x) chỉ nhận hai giá trị 0 và 1
1.1.2 Số mờ
Định nghĩa 1.2[1]: Tập mờ A trên đường thẳng số thực R là một số mờ, nếu:
1/ A chuẩn hóa, tức là có điểm x’ sao cho (x’) = 1
2/ Ứng với mỗi ∈ R, tập mức {x: (x) ≥ } là đoạn đóng trên R
3/ (x) là hàm liên tục
Trang 11Một số dạng số mờ thường được sử dụng là số mờ dạng tam giác, hình thang
và dạng hàm Gauss
a.Số mờ dạng tam giác được xác định bởi 3 tham số Khi đó hàm thuộc
của sô mờ tam giác A(a, b, c) cho bởi:
b.Số mờ hình thang A(a, b, c, d) được sác định bởi 4 tham số và hàm
thuộc cho bởi:
Trang 12Khái niệm về phân hoạch mờ (fuzzy partition) cũng là một trong khái niệm
quan trọng trong việc tiếp cận giải quyết bài toán phân lớp
1.1.3 Phân hoạch mờ
Định nghĩa 1.3[1]: Cho p điểm cố định m 1 <m 2 <…<m p trong tập U = [a, b]⊂R Khi đó tập gồm p tập mờ A 1 , A 2 ,…, A p(với , , …, là các hàm thuộc tương ứng) định nghĩa trên U được gọi là một phân hoạch mờ của
U nếu các điều kiện sau thỏa mãn, ∀k=1,…,p:
1) (m k ) = 1 (m k được gọi là một điểm trong nhân của A k);
Trang 13Hình 1.1 Phép giao của hai tập mờ Phép hợp (Union):
Hợp của hai tập mờ A và B là tập mờ C được định nghĩa như sau:
C = A∪B = {{(x, (x))| x ∈ U, (x) = max{ (x), (x)}}
Ví dụ:
Cho U = {1, 2, 3, 4, 5} và hai tập mờ A, B như sau:
Trang 14A = {(1,0), (2,0.4), (3,0.8), (4,0.3), (5,0.2), (6,0.5), (7,0.1)}
B = {(1,0.2), (2,0.5), (3,0.7), (4,0.2), (5,0.4), (6,0.3), (7,0.6)} Khi đó: C = A ∪ B = {(1,0.2), (2,0.5), (3,0.8), (4,0.3), (5,0.4), (6,0.5),(7, 0.6)}
Hình 1.2 Phép hợp của hai tập mờ Phép bù (Complement):
Bù của hai tập mờ A được định nghĩa như sau:
AC = {(x, (x)) x ∈ U, (x) = 1 - (x)}
Lưu ý:
1/ A∪AC≠U
2/ A∩AC≠ 0 3/ (AC)C = A
1.1.4.2 Phép phủ định
Phủ định (negation) là một trong những phép toán logic cơ bản Để suy
rộng chúng ta cần tới toán tử v(Not P) xác định giá trị chân lý của Not P đối với mệnh đề P
Định nghĩa 1.4 [4]: Hàm n: [0, 1] [0, 1] không tăng thoả mãn các
điều kiện n(0) = 1, n(1) =0 gọi là hàm phủ định
Hàm n là phép phủ định mạnh, nếu n giảm chặt và n(n(x)) = x với mỗi x
Trang 15Ví dụ: n(x) = 1- x, n(x) = 1- x2
1.1.4.3 Phép hội
Phép hội (vẫn quen gọi là phép AND – conjunction) là một trong những phép toán cơ bản nhất Nó cũng là cơ sở để định nghĩa phép giao của hai tập mờ
Định nghĩa 1.5[4]: Hàm T: [0, 1] x[0, 1] [0, 1] là một phép hội hay t –
chuẩn (t- norm) nếu thoả mãn các điều kiện sau:
Định nghĩa 1.6[1]: Hàm S : [0, 1]x[0, 1] [0, 1] gọi là phép tuyển hay
là t - đối chuẩn (t – conorm) nếu thoả mãn các tiên đề sau:
1) S(0, x) = x với mọi 0 x 1
2) S có tính giao hoán: S(x, y) = S(y, x) với mọi 0 x, y 1
3) S không giảm theo nghĩa s(x, y) s(u, v) với x u, y v
4) S có tính kết hợp S(x, S(y,z)) = S(S(x, y), z) với mọi 0 x, y, z 1
Trang 16Sau đây là một số dạng của phép kéo theo:
Cho:T là t-chuẩn; S là t-đối chuẩn; n là phép phủ định mạnh
Phép kéo theo thứ nhất:
Hàm IS(x,y) xác định trên [0, 1]2 bằng biểu thức IS(x,y) =S(n(x),y)
Phép kéo theo thứ hai:
Cho T là t-chuẩn, xác định IT(x,y) =Sup{z | 0 z 1 và T(x,y) y},x,y [0,1]
Phép kéo theo thứ ba:
Cho (T, S, n) là bộ 3 De Morgan, T là t-chuẩn, S là t-đối chuẩn, n là phép phủ định mạnh
Phép kéo theo thứ ba: Hàm ITS(x,y) xác định trên [0, 1]2 bằng biểu thức
ITS(x,y) =S(n(x),T(x,y))
1.1.5 Biến ngôn ngữ
Biến ngôn ngữ là một loại biến mà giá trị của nó không phải là số mà là
từ hay mệnh đề dưới dạng ngôn ngữ tự nhiên Biến ngôn ngữ được định nghĩa như sau:
Định nghĩa 1.6[1] : Biến ngôn ngữ được xác định bởi một bộ 5 thành
phần (X, T(X), U, R, M) trong đó:
X – là tên biến
T(X) – là tập các giá trị ngôn ngữ của biến X
U – là không gian tham chiếu hay còn gọi là miền cơ sở của biến X
R – là một số quy tắc cú pháp sinh các giá trị ngôn ngữ trong T(X)
Trang 17M – là quy tắc gán ngữ nghĩa biểu thị bằng tập mờ trên U cho các từ ngôn ngữ trong T(X)
Ví dụ: Cho biến ngôn ngữ: Nhiệt độ
X = Nhiệt độ
T(X) = {Rất lạnh, Lạnh, Hơi lạnh, Bình thường, Hơi nóng, Nóng, Rất
nóng}
U = [0,100] – miền đánh giá nhiệt độ
R = Nếu nhiệt độ u là X thì nhiệt độ có giá trị như sau:
Rất lạnh với hàm thuộc ấ ạ (u) Lạnh với hàm thuộc ạ (u) Hơi Lạnh với hàm thuộc ơ ạ (u) Bình thường với hàm thuộc ì ườ (u) Hơi nóng với hàm thuộc ơ ó (u) Rất nóng với hàm thuộc ấ ó (u)
M (*) (u) = {u, ( )(u)| u∈U = [1,100], ( )(u): U→ [0,1] }
Với (*) = Rất lạnh (hoặc Lạnh, Hơi Lạnh,Bình thường, Hơi nóng, Nóng, Rất nóng)
Một số đặc trưng cơ bản của biến ngôn ngữ [1]:
1/ Tính phổ quát: các biến ngôn ngữ khác nhau về các giá trị nguyên thủy nhưng ý nghĩa về mặt cấu trúc miền giá trị của chúng vẫn được giữ Nói cách khác, cấu trúc miền giá trị của hai biếnngôn ngữ cho trước tồn tại một
“đẳng cấu” sai khác nhau bởi giá trị sinh nguyên thủy
2/ Tính độc lập ngữ cảnh của gia tử và liên từ như AND, OR…: ngữ nghĩa của các gia tử và liên từ như AND, OR,… hoàn toàn độc lập với ngữ
cảnh, khác với giá trị nguyên thủy của các biến ngôn ngữ phụ thuộc vào ngữ
cảnh Do đó, khi tìm kiếm các mô hình cho các gia tử và liên từ như AND,
Trang 18OR… chúng ta không phải quan tâm đến giá trị nguyên thủy của biến ngôn
ngữ đang xét
Các đặc trưng này cho phép chúng ta sử dụng cùng một tập gia tử và xây dựng một cấu trúc toán học duy nhất cho miền giá trị của các biến ngôn ngữ khác nhau
1.1.6 Suy luận mờ
Suy luận mờ hay còn gọi là suy luận xấp xỉ là quá trình suy ra những kết luận dưới dạng các mệnh đề mờ trong điều kiện các quy tắc, các luật, các
dữ liệu đầu vào cho trước cũng không hoàn toàn xác định rõ ràng Mỗi luật
mờ được biểu diễn bởi một biểu thức “if – then”, được phát biểu dưới dạng ngôn ngữ tự nhiên thể hiện sự phụ thuộc nhân quả giữa các biến
Ví dụ: If chuồn chuồn bay thấp then trời mưa
Trong suy luận mờ, đầu ra thường phụ thuộc vào nhiều yếu tố đầu vào Lúc đó ta có thể biểu diễn luật này dưới dạng luật mờ tổng hợp
Gọi x1, x2, …, xn là các biến đầu vào và y là biến đầu ra (thường là các biến ngôn ngữ) Aki là các tập mờ ứng với các luật Rk trên không gian nền Ui
có hàm thuộc ký hiệu là Aki(xi) hoặc Aki(xi) Bk là tập mờ trên không gian nền
V có hàm thuộc Bk(y) hoặcBk(y) Luật mờ có dạng (theo chỉ số k):
Ví dụ:
IF (Ngoại ngữ giỏi) (Tin học giỏi) (Chuyên môn cao) THEN
(trúng tuyển việc làm rất cao)
Trang 19- y là trúng tuyển việc làm
- Bk là rất cao
1.2 Đại số gia tử trong lập luận mờ
Lý thuyết đại số gia tử đã cố gắng đưa các tập ngôn ngữ vào một cấu trúc thích hợp để mô phỏng các quá trình suy luận của con người mà chúng ta thường thực hiện trên ngôn ngữ tự nhiên
Trong đại số gia tử AX = (Dom(X), C, H, ≤) nếu Dom(X) và C là tập sắp thứ tự tuyến tính thì AX được gọi là đại số gia tử tuyến tính.Khi được thêm hai gia tử tới hạn là và với ngữ nghĩa là cận trên đúng và cận dưới đúng của tập H(x) khi tác động lên x, thì ta được ĐSGT tuyến tính đầy đủ, ký hiệu AX = (X, G, H, , , ≤)
Khi tác động gia tử h∈H vào phần tử x ∈X, thì thu được phần tử ký hiệu hx Với mỗi x ∈X, ký hiệu H(x) là tập tất cả các hạng từ u ∈X sinh từ x
bằng cách áp dụng các gia tử trong H và viết u = h n …h 1x , với h n , …, h 1 ∈H
Tập H gồm các gia tử dương H + và gia tử âm H - Các gia tử dương làm tăng ngữ nghĩa của một hạng từ mà nó tác động, còn gia tử âm làm giảm ngữ
nghĩa của hạng từ Không mất tính tổng quát, ta luôn giả thiết rằng H - = {h -1 <
h -2 < < h -q } và H + = {h 1 < h 2 < < h p}
Để ý rằng biểu thức h n h 1 u được gọi là một biểu diễn chính tắc của một hạng từ x đối với u nếu x = h n h 1 u và h i h 1 u ≠ h i-1 h 1 u với i nguyên và i
Trang 20≤ n Ta gọi độ dài của một hạng từ x là số gia tử trong biểu diễn chính tắc của
nó đối với phần tử sinh cộng thêm 1, ký hiệu l(x)
Ví dụ: Cho biến ngôn ngữ HOT, có G = {0, COLD, W, HOT, 1}, H - =
{Possible<Little} và H + = {More<Very} Khi đó ta có các hạng từ là:HÓT, More HOT , Very HOT, Little HOT ,HOT,…
1.2.2 Tính chất của đại số gia tử tuyến tính
a Tính thứ tự ngữ nghĩa của các hạng từ
Định lý 1.1 [1]: Cho tập H- và H + là các tập sắp thứ tự tuyến tính của ĐSGT AX= (X, G, H, ≤) Khi đó ta có các khẳng định sau:
1/ Với mỗi u∈X thì H(u) là tập sắp thứ tự tuyến tính
2/ Nếu X được sinh từ G bởi các gia tử và G là tập sắp thứ tự tuyến tính
thì X cũng là tập sắp thứ tự tuyến tính Hơn nữa nếu u<v, và u, v là độc lập với nhau, tức là u H(v) và v H(u), thì H(u) ≤ H(v)
Ví dụ: Cho biến ngôn ngữ WEIGHT, có G ={0, THIN, W, FAT, 1}, H +
= {More < Very }; Khi đó các hạng từ được sắp xếp theo thứ tự như sau:
FAT <More FAT <Very FAT
b So sánh hai hạng từ trong miền ngôn ngữ
Định lý 1.2: [1] Cho x = h n …h 1 u và y = k m …k 1 u là hai biểu diễn chính tắc của x và y đối với u Khi đó tồn tại chỉ số j ≤ min{n, m} + 1 sao cho h j' = k j' với mọi j' < j (ở đây nếu j = min {n, m} + 1 thì hoặc h j là toán tử đơn vị I, h j =
Trang 211.2.3 Đại số 2 gia tử
Đại số 2 gia tử ký hiệu là AX2 chỉ bao gồm hai gia tử, một gia tử dương
và một gia tử âm, nó có những đặc trưng quan trọng trong quá trình ứng dụng
Ta sẽ khảo sát các đặc trưng của đại số 2 gia tử, để không mất tính tổng
quát đặt gia tử âm H- ={L} và gia tử dương H+ = {V}, khi đó hàm dấu là:
Sign(x) = Sign(h n h1c) = (-1) NL(x) Sign(c)
trong đó h n , h n-1 , ., h1 {L, V} và NL(x) là số lượng các gia tử L có trong hạng từ x
Trong [1] tác giả đã chứng minh tính đúng đắn về kích thước của các tập Xk(tập các hạng từ có độ dài đúng k), X(k)(tập tất cả các hạng từ có độ dài
từ 1 đến k), Ik(tập tất cả các khoảng tính mờ độ sâu k)và I(k)(tập các khoảng
tính mờ độ sâu từ 1 đến k)trong đại số hai gia tử như sau:
1/ |Xl| = 5 2/ |Xk| = 2k, với k>1
3/ X(k) = 1+ 2k+1Một trong những đặc trưng quan trọng của đại số 2 gia tử chính là có thể xây dựng hệ phân hoạch hệ các khoảng tính mờ, hệ các khoảng tương tự một cách nhanh tróng và chính xác Trên cơ sở đó, phương pháp sinh hệ luật
mờ được xây dựng với ngữ nghĩa gồm các hạng từ có độ dài không quá k, khắc phục được nhược điểm của đại số gia tử tuyến tính thông thường là chỉ
áp dụng cho tập các hạng từ có độ dài đúng bằng k
Mặt khác đại số 2 gia tử khi áp dụng các phương pháp tìm kiếm tối ưu tham số mờ gia tử có lợi thế giảm không gian tìm kiếm, vì ta chỉ định nghĩa không gian tìm kiếm cho các tham số độ đo tính mờ của phần tử sinh âm
Trang 22fm(c-) và độ đo tính mờ của gia tử L là (L) (với fm(c+) = 1- fm(c-)
và (V)=1- (L)) dẫn tới tốc độ tìm kiếm sẽ nhanh hơn và đạt hiệu quả cao trong ứng dụng
1.2.4Định lượng ngữ nghĩa trong đại số gia tử
Hàm H(x) có thể được sử dụng như là một mô hình biểu thị tính mờ của x và kích thước tập H(x) được xem như độ đo tính mờ của x, và được
định nghĩa như sau:
Định nghĩa 1.7[1]:AX = (X, G, H, , , ≤) là một ĐSGT tuyến tính
đầy đủ Ánh xạ fm: X → [0,1] được gọi là một độ đo tính mờ của các hạng từ
( ) , tỷ số này không phụ thuộc vào x và
y, vì vậy nó được gọi là độ đo tính mờ của các gia tử và được ký hiệu bởi (h)
Trong định nghĩa trên, điều kiện (1) thể hiện tính đầy đủ của các phần
tử sinh và các gia tử cho việc biểu diễn ngữ nghĩa của miền thực đối với các biến Điều kiện (2) thể hiện tính rõ của các hạng từ và điều kiện (3) có thể thể được chấp nhận vì chúng ta đã chấp nhận giả thiết rằng các gia tử độc lập với
ngữ cảnh, do vậy khi áp dụng một gia tử h lên các hạng từ thì hiệu quả tác
động tương đối làm thay đổi ngữ nghĩa của các hạng từ đó là như nhau
Hình vẽ sau sẽ minh họa rõ hơn cho khái niệm độ đo tính mờ của biến ngôn ngữ “NHIỆT ĐỘ”
Trang 23Hình 1.3: Độ đo tính mờ của biến “NHIỆT ĐỘ”
Một số tính chất của độ đo tính mờ của các hạng từ và gia tử đã được[1] chứng minh tính đúng đắn qua mệnh đề sau:
Mệnh đề 1.1: [1] Với độ đo tính mờ fm và đã được định nghĩa, ta có: 1/ fm(c-) + fm(c+) = 1 và ∑ ∈ ( ) = fm(x);
2/ ∑ ( ) = , ∑ ( ) = với , > 0 và + = 1;
3/ ∑ ∈ ( )= 1, trong đó X k là tập các hạng từ có độ dài đúng k; 4/ fm(hx) = ( ).fm(x) và ∀x∈X, fm( x) = fm( x) = 0;
5/Cho fm(c-), fm(c+) và = ( ) với ∀h∈H,khi đó với x = h n …h 1 ,
∈{-,+}, dễ dàng tính được độ do tính mờ của x như sau:
fm(x) = ( )… ( )fm( )
Để tiện cho việc tính toán và xử lý trong nhiều ứng dụng chúng ta cần xác định giá trị định lượng của các hạng từ này Việc định lượng hóa các khái niệm mờ theo phương pháp tiếp cận của tập mờ được thực hiện qua các phương pháp khử mờ Đối với ĐSGT, giá trị định lượng của các hạng từ được
fm(HNóng)
fm(Nóng)
fm(RNóng) fm(RLạnh)
W
Rất nóng Hơi nóng
Hơi Lạnh Rất Lạnh
fm(RRNóng)
Trang 24định nghĩa dựa trên cấu trúc thứ tự ngữ nghĩa của miền giá trị của các biến ngôn ngữ, cụ thể là độ đo tính mờ của cáchạng từ và gia tử
Định nghĩa 1.8 [1]:Cho AX = (X, G, H, , , ≤) là một ĐSGT tuyến
tính đầy đủ Ánh xạ v: X→ [0,1] được gọi là một định lượng ngữ nghĩa của
AX nếu:
1/ v là ánh xạ 1-1 từ tập X vào đoạn [0,1] và đảm bảo thứ tự trên X, tức
là∀x,y∈X, x<y ⇒v(x) <v(y) và v(0) = 0, v(1) = 1
2/ v liên tục: x ∈ X, v( x) = infimumv(H(x)) và v( x) =
supremumv(H(x))
Điều kiện (1) là bắt buộc tối thiểu đối với bất kỳ phương pháp định
lượng nào, điều kiện (2) đảm bảo tính trù mật của H(G) trong X Trước hết ta cần phải định nghĩa về dấu của các hạng từ
Định nghĩa 1.9[1]: Một hàm dấu Sign: X → {-1,0,1} là một ánh xạ được định nghĩa đệ quy như sau:
1/ Sign(c-) = -1, Sign(c+) = 1;
2/ Sign(hc) = -Sign(c) nếu h âm đối với c; Sign(hc) = Sign(c) nếu h dương đối với c
3/ Sign(h’hx) = -Sign(hx), nếu h’hx≠hx và h’ âm đối với h; Sign(h’hx)
= Sign(hx) nếu h’hx≠hx và h’ dương đối với h
4/ Sign(h’hx) = 0, nếu h’hx = hx
Mệnh đề 1.2: Với mọi gia tử h và phần tử x∈X nếu Sign(hx) = +1 thì hx>x;nếu Sign(hx) = -1 thì hx<x và nếu Sign(hx) = 0 thì hx = x
Định nghĩa 1.10 [1]: Khoảng tính mờ của các hạng từ x∈X, ký hiệu
fm(x), là một đoạn con của [0,1], fm(x) ∈ tv([0,1]), nếu nó có độ dài bằng
độ đo tính mờ, | fm (x)| = fm(x), và được xác định bằng qui nạp theo độ dài của x như sau:
Trang 251/ Với độ dài của x bằng 1 (l(x)=1), tức là x∈ {c-, c+}, khi đó | fm(c-)| =
fm(c-), | fm(c+)| = fm(c+) và fm(c-) ≤ fm(c+);
(2) Giả sử x có độ dài n (l(x) = n) và khoảng tính mờ fm (x) đã được
định nghĩa với | fm (x)| = fm(x) Khi đó tập các khoảng tính mờ { fm(h j x): -q
≤ j ≤ p và j ≠ 0} ⊂ Itv([0,1]) được xây dựng sao cho nó là một phân hoạch
của fm (x), và thỏa mãn | fm (h j x)| = fm(h j x) và có thứ tự tuyến tính tương ứng
với thứ tự của tập {h-qx, h-q+1x, , hpx}, tức là nếu h-qx > h-q+1x > > hpx thì
fm(h-qx) >fm(h-q+1x) > > fm(hpx) và ngược lại:
Hình 1.4:Khoảng tính mờ của các hạng từ của biến “NHIỆT ĐỘ”
Ví dụ:
Với biến NHIỆT ĐỘ gồm 2 hạng từ nóng (N) và lạnh (L), hai gia tử
“hơi” và “rất” với độ đo tính mờ của 2 hạng từ được cho như sau:
fm(Lạnh) = fm(L)= 0.4 fm(Nóng) =fm(N) = 1 – fm(Lạnh) = 0.6 fm(Hơi) = fm(h) = 0.7 fm(Rất) = fm(r) = 1 – fm(hơi) = 0.3
Độ đo tính mờ của biến “NHIỆT ĐỘ” với các mức phân hoạch:
+ Với mức phân hoạch k =1:
Trang 26+ Với mức phân hoạch k = 2:
Khi đó độ đo tính mờ của các hạng từ và gia tử được tính như sau :
Trong phần trước chúng ta đã định nghĩa Xk là tập các hạng từ có độ
dài k, I k là tập các khoảng tính mờ của các hạng từ trong Xkvà Ik = { (x): x ∈
Xk} Ta gọi Ik là hệ phân hoạch khoảng tính mờ mức k, nếu đặt xk,0 là hạng từ
bé nhất trong tập Xk thì thì (x k,0) = 0 Theo định nghĩa 1.10 và định lý
fm(rN) fm(rL) fm(hL) fm(hN)
Trang 271.3[1], chúng ta có (xk,0) = [(x k,0), (∑ , )] và (x) = ((x), (∑ )]
cho ∀ ∈ Xk, x ≠ x k,0 , trong đó khoảng tính mờ luôn đóng ở điểm mút phải
Ví dụ: Cho fm(c - ) = 0.3, fm(c + ) = 0.7, µ(L) = 0.4, µ(V) = 0.6, mức phân hoạch k = 2 Khi đó ta có
Độ đo tính mờ gia tử của thuộc tính DT:
(VC - )
0.58 0.3
0.18
Trang 28về khoảng mờ của các giá trị ngôn ngữ
Trong chương tiếp theo của luận văn sẽ phân tích sự ảnh hưởng của tham số mờ gia tử đối với bài toán phân lớp và phương pháp tinh chỉnh tham
số mờ gia tử dựa trên giải thuật di truyền để áp dụng cho bài toán cụ thể
Trang 29CHƯƠNG 2: PHƯƠNG PHÁP TINH CHỈNH THAM SỐ MỜ GIA TỬ
CỦA HỆ MỜ DẠNG LUẬT PHÂN LỚP 2.1 Phương pháp xây dựng hệ mờ dạng luật phân lớp
2.1.1 Bài toán phân lớp
Trong các bài toán về lĩnh vực khai phá dữ liệu thì bài toán phân lớp là một trong những bài toán đặc trưng được nhiều tác giả nghiên cứu, với các phương pháp khác nhau để đạt được hiệu quả phân lớp cao nhất Trong đó có
phương pháp dựa trên hệ mờ dạng luật (fuzzy rule-base classification systems
- FRBCS), ngoài việc đạt được hiệu quả phân lớp cao phương pháp này còn
được nghiên cứu để đáp ứng cho người dùng một mô hình phân lớp dễ hiểu trực quan, được người dùng sử dụng như là các tri thức của mình để áp dụng trong thực tế
Bài toán phân lớp mờ có thể được phát biểu như sau: cho một tập các
dữ liệu mẫu D = {(P, C)}, trong đó P = {pi = (di,1,…,di,n)| i=1,…,N} là tập dữ liệu, C = {C1,…,Cm} là tập các nhãn của các lớp, pi ∈ U là dữ liệu thứ i với U
= U1 × × Un là tích Đề-các của các miền của n thuộc tính X1, , Xn tương
ứng, m là số lớp và N là số mẫu dữ liệu, để ý rằng P ⊂ U Mỗi dữ liệu pi∈ P thuộc một lớp ci∈ C tương ứng tạo thành từng cặp (pi, ci) ∈ D Giải bài toán
bằng FRBCS chính là xây dựng một hệ các luật mờ, ký hiệu S, để phân lớp
đóng vai trò như một ánh xạ từ tập dữ liệu vào tập nhãn:
Như vậy, hệ S phải đạt được các mục tiêu như hiệu quả phân lớp cao, tức là sai số phân lớp cho các dữ liệu ít nhất có thể, số lượng các luật nhỏ cũng như số điều kiện tham gia trong vế trái mỗi luật ít Mục tiêu về hiệu quả phân lớp nhằm đáp ứng tính đúng đắn của của hệ đối với tập dữ liệu mẫu được cho của bài toán, các luật mờ trong S phải đơn giản và dễ hiểu đối với người dùng Khi đó mục tiêu xây dựng hệ luật sao cho có dạng:
Trang 30số điều kiện ít sẽ làm tăng tính phổ quát và ngược lại Tính phổ quát sẽ làm tăng khả năng dự đoán của luật nhưng nguy cơ gây sai số lớn, khi tính cá thể giảm thì khả năng dự đoán lại tăng tính Vì vậy, các phương pháp giải quyết bài toán đều phải thỏa hiệp giữa các mục tiêu để đạt được kết quả cuối cùng
2.1.2 Mô hình hệ mờ dạng luật giải bài toán phân lớp
Dưới dạng tổng quát của hệ mờ dạng luật có n đầu vào và đầu ra của nó
là cũng là một tập mờ, khi đó chúng ta cần giải mờ để xác định nhãn phân lớp cho mẫu dữ liệu tương ứng Để đơn giản hơn thì ta sử dụng các luật mờ có phần kết luận của mỗi luật là một giá trị hằng tương ứng với nhãn của một lớp
có dạng như sau:
If x1 is Aq1 and …and xn is Aqn then Class Cq with CFq (2.3) trong đó Aqj là giá trị ngôn ngữ của các biến ngôn ngữ tương ứng với các thuộc tính, Cq là nhãn phân lớp và CFq là trọng số của mỗi luật, q= 1,…, M với M là số luật, j=1…n Thông thường CFq∈[0,1]
Luật mờ dạng (2.3) có thể được viết gọn lại như sau:
Trong đó Aq = (Aq,1,…,Aq,n)
Trang 31Luật mờ (2.4) được đánh giá qua độ tin cậy c(Aq⇒Cq) kí hiệu cq và độ
hỗ trợ s(Aq⇒Cq) kí hiệu sq bằng các công thức:
(pi) = , (di,1) , (di,2) … , (di,n) (2.7)
Để đánh giá trọng số của luật dạng (2.4), một số tác giả đã đề xuất phương pháp đánh giá trọng số luật như sau:
CF1(Aq ⇒ Cq) = cq (2.8)
CF2(Aq ⇒ Cq) = cq – cq,Ave, (2.9)
CF3(Aq ⇒Cq) = cq – cq,2nd, (2.10)
CF4(Aq ⇒ Cq) = cq – cq,Sum (2.11) trong đó :
cq,Ave là độ tin cậy trung bình của các luật có cùng điều kiện Aq nhưng kết luận khác Cq:
Trang 32Với hệ luật mờ S dạng (2.4) ta thường sử dụng phương pháp chọn luật
có mức đốt cháy lớn nhất đối với dữ liệu để đưa vào và phân lớp tương ứng với kết luận của luật đó (SWR – single winner rule):
có thể áp dụng với trọng số đồng nhất bằng 1 cho mọi luật, kí hiệu CF0 = 1
Trong không gian các siêu hộp Hs(là không gian tích Đề-các của các miền thuộc tính được chia bởi lưới phân hoạch mờ) của phương pháp sinh luật dựa trên lưới phân hoạch mờ của các miền thuộc tính, mỗi (Aq,1, …, Aq,n)
∈ Hs sẽ dùng để xây dựng một luật mờ bằng cách đặt điều kiện của luật tương ứng với siêu hộp đó Aq= (Aq,1, …, Aq,n), phần kết luận được chọn là nhãn phân lớp sao cho luật đạt độ tin cậy lớn nhất:
arg max{ (A C )| s(A C ) 0, 1, , }
Một phương pháp khác được sử dụng là thiết kết các thuật toán tìm kiếm hệ luật tối ưu dựa trên giải thuật di truyền (GA) Trong đó các luật mờ được mã hóa bằng các cá thể trong GA bởi một trong 2 phương pháp là Michigan hoặc Pittsburgh mã hóa tập các luật mờ thành một cá thể
Trang 332.1.3 Thuật toán sinh luật mờ dựa trên hệ khoảng tính mờ
Dựa trên hệ khoảng tính mờ của tập X(kj), chúng ta áp dụng lưới phân
hoạch để sinh hệ luật mờ Mỗi hạng từ trong tập X (kj) = { x j,0 , x j,1 , , x j,i-1 , x j,i,
x j,i+1 , , x j,1+2kj+1} được thiết kế hàm định lượng ngữ nghĩa theo dạng tam giác
(xj,i) (v) sao cho giá trị hàm càng gần tâm (x j,i) thì càng cao và bằng 1 tại tâm,
nó sẽ bằng 0 nếu vượt ra ngoài tâm của hai hạng từ láng giềng của x j,i trong
tập X (kj) (hình 2.1):
Hình 2.1: Hàm định lượng dạng tam giác của các hạng từ
Theo cách thiết kế này thì mỗi tam giác sẽ có 3 đỉnh gồm bên trên (Top – T), bên phải (Right – R) và bên trái (Left – L) Với tọa độ của điểm Top
chính là vị trí của điểm tâm ((x j,i ), 1), tọa độ điểm Right là tọa độ tâm của từ
bên phải đó((x j,i+1 ), 0), tọa độ của điểm Left là tọa độ tâm của từ bên trái
((x j,i-1), 0) Khi đó hàm định lượng ngữ nghĩa theo dạng tam giác được tính như sau:
+ Nếu di ≤ L hoặc di ≥ R thì:
, (v) 0
j i x
1
X (kj)
) (
i x
) (
i x
Trang 34+ Nếu di<T thì:
, (v)
j i
i x
T L
+ Nếu di ≥ T thì :
, (v)
j i
i x
R d
R T
Trên thực tế hai giá trị 0 và 1 ở hai đầu mút là các giá trị min và max nên không có ý nghĩa trong việc phân loại, do vậy ta sẽ không xét khoảng tính mờ của hai giá trị này, khi đó hàm định lượng ngữ nghĩa của từ cạnh hai giá trị này là hình thang, bên cạnh giá trị 0 là hình thang trái và cạnh giá trị 1
là hình thang phải Nếu di< T (với hình thang trái) hoặc di ≥ T (với hình thang phải) thì:
, (v) 1
j i
x
Hình 2.2: Hàm định lượng ngữ nghĩa dạng hình thang
Thuật toán sinh luật mờ từ tập dữ liệu mẫu dựa trên phân hoạch các
khoảng tính mờ trong đại số gia tử (IFRG1)[1] Thuật toán này với đầu vào
(x j,i )
(x j,i )
(x j,i-1 ) (x j,i+1 )
(x j,i+1 ) (x j,i-1 )
1
) (
, v i x
, v i x
Trang 35là mẫu dữ liệu D,với N số dữ liệu mẫu, n thuộc tính và m lớp và hệ khoảng
tính mờ với mức phân hoạch k j cho các thuộc tính Đầu ra là tập luật mờ S
Ví dụ 2.1:
Minh họa phương pháp sinh luật của thuật toán IFRG1 để sinh luật cho
bài toán phân lớp với bài toán phân loại sản phẩm sau:
Bài toán: “Một công ty sản xuất sản phẩm đắt tiền chất lượng cao, sản phẩm được đặc trưng bởi hai thuộc tính Curvature – CT(độ cong) và Diameter – DT(đường kính), với 5 các sản phẩm được phân thành hai loại: thông qua –
T và không thông qua – F ”
+ Bước 1: Xác định dữ liệu của thuộc tính
Trang 36+ Thuộc tính CT: độ đo tính mờ của phần tử sinh là fm CT (Small)= 0.4fm CT (Large) = 0.6, độ đo tính mờ của gia tử là µ CT (L) =0.3; µ CT (V) = 0.7, mức phân hoạch k CT=1
+ Thuộc tính DT: độ đo tính mờ của phần tử sinh là fm DT (Small) =0.3 ,fm DT (Large)= 0.7, độ đo tính mờ của gia tử là µ DT (L)=0.4,µ DT (V)=0.6, mức phân hoạch k DT = 2
+ Bước 3: Tính hệ khoảng tính mờ
+ Thuộc tính CT với mức phân hoạch k CT = 1
Hệ khoảng tính mờ của thuộc tính CT: