Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Các ký hiệu A X Đại số gia tử tuyến tính A X Đại số gia tử tuyến tính đầy đủ A X2
Trang 1Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
PHÙNG THỊ NGA
PHÂN LỚP MIỀN XÁC ĐỊNH THUỘC TÍNH TRONG BÀI TOÁN
KHAI PHÁ DỮ LIỆU MỜ
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
THÁI NGUYÊN - 2015
Trang 2Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
PHÙNG THỊ NGA
PHÂN LỚP MIỀN XÁC ĐỊNH THUỘC TÍNH TRONG BÀI TOÁN
KHAI PHÁ DỮ LIỆU MỜ
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01.01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Người hướng dẫn khoa học: TS TRẦN THÁI SƠN
THÁI NGUYÊN - 2015
Trang 3Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi dưới sự
hướng dẫn trực tiếp của Ts Trần Thái Sơn
Mọi trích dẫn sử dụng trong báo cáo này đều được ghi rõ nguồn tài liệu tham khảo theo đúng qui định
Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi xin chịu hoàn toàn trách nhiệm
Thái Nguyên, ngày … tháng … năm 2014
Tác giả
Phùng Thị Nga
Trang 4Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
LỜI CẢM ƠN
Luận văn được viết dưới sự hướng dẫn tận tình và nghiêm khắc của
TS Trần Thái Sơn Lời đầu tiên, tác giả xin bày tỏ lòng kính trọng và biết
ơn sâu sắc tới thầy
Xin chân thành gửi lời cảm ơn tới thầy về những đóng góp quý báu trong quá trình nghiên cứu cũng như trong thời gian hoàn thành luận văn Tác giả xin chân thành gửi lời cảm ơn đến Phòng Đào tạo sau đại học đã tạo điều kiện thuận lợi trong quá trình học tập, nghiên cứu và hoàn thành luận văn, đảm bảo tiến độ
Cuối cùng, tác giả xin chân thành cảm ơn các thành viên trong gia đình, những người luôn dành cho tác giả những tình cảm nồng ấm và sẻ chia những lúc khó khăn trong cuộc sống, luôn động viên giúp đỡ tác giả trong quá trình nghiên cứu
Trang 5Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT iv
DANH MỤC CÁC HÌNH v
MỞ ĐẦU 1
CHƯƠNG 1 KHAI PHÁ TRI THỨC VỚI HỆ LUẬT MỜ 4
1.1 Khai phá tri thức từ cơ sở dữ liệu với hệ luật mờ 4
1.2 Khai phá tri thức theo cách tiếp cận của lý thuyết tập mờ 5
1.2.1 Kiến thức cơ sở về tập mờ 5
1.2.2 Khai phá tri thức với thông tin mờ 6
1.3 Khai phá tri thức theo cách tiếp cận của lý thuyết Đại số gia tử 12
1.3.1 Kiến thức cơ sở về ĐSGT 12
1.3.2 Khai phá tri thức với thông tin mờ theo cách tiếp cận ĐSGT 15
CHƯƠNG 2 BÀI TOÁN PHÂN CHIA MIỀN XÁC ĐỊNH THUỘC TÍNH 22
2.1 Bài toán phân chia miền xác định thuộc tính 22
2.2 Các phương pháp giải bài toán phân chia miền xác định thuộc tính 27
2.2.1 Phương pháp tiền định 27
2.2.2 Tối ưu hóa các hàm thuộc MF (Membership functions) 28
CHƯƠNG 3 ĐẠI SỐ GIA TỬ, CÁCH TIẾP CẬN MỚI CHO BÀI TOÁN PHÂN LỚP MIỀN XÁC ĐỊNH THUỘC TÍNH 41
3.1 Giải bài toán phân chia miền xác định thuộc tính sử dụng khoảng tính mờ và giá trị định lượng ngữ nghĩa 41
3.2 Thuật toán giải bài toán phân chia miền xác định thuộc tính theo cách tiếp cận của ĐSGT 41
KẾT LUẬN 49
TÀI LIỆU THAM KHẢO 49
PHỤ LỤC: CHƯƠNG TRÌNH TỐI ƯU HÓA THAM SỐ TẬP MỜ 52
Trang 6Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Các ký hiệu
A X Đại số gia tử tuyến tính
A X Đại số gia tử tuyến tính đầy đủ
A X2 Đại số 2 gia tử
µ(h), fm(x) Độ đo tính mờ gia tử h và của hạng từ xυ Giá trị định
lượng theo điểm của giá trị ngôn ngữ
µA(v) Hàm định lượng của giá trị ngôn ngữ A (đo độ thuộc của v)
sm(x,y) Hàm xác định mức độ gần nhau của hai hạng từ x và y
ℑ Khoảng tính mờ của giá trị ngôn ngữ
Xk Tập các hạng từ có độ dài đúng k
X(k) Tập các hạng từ có độ dài không quá k
Ik Hệ khoảng tính mờ mức k của các giá trị ngôn ngữ
I(k) Hệ khoảng tính mờ từ mức 1 đến mức k của các giá trị
ngôn ngữ
Tg Khoảng tương tự bậc g của giá trị ngôn ngữ
S(k) Hệ khoảng tương tự ở mức k của các giá trị ngôn ngữ
Trang 7Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
MOGA Thuật giải di truyền đa đối tượng
NST Nhiễm sắc thể
DANH MỤC CÁC HÌNH
Hình 1.1 Độ đo tính mờ của biến TRUTH 17
Hình 1.2 Khoảng tính mờ của các hạng từ của biến TRUTH 20
Hình 2.1 Lưới phân hoạch mờ trên miền của 2 thuộc tính 25
Hình 2.2 Phương pháp phân hoạch mờ scatter-partitio 27
Hình 2.3 Tập các MF của thuộc tính Ij 30
Hình 2.4 Hai dạng không thích hợp của các MF 30
Hình 3.1 Tập hàm thuộc cho thuộc tính AGE 46
Hình 3.2 Tập hàm thuộc cho thuốc tính Hours 47
Hình 3.3 Tập hàm thuộc cho thuốc tính IncFam 47
Hình 3.4 Tập hàm thuộc cho thuốc tính IncHead 48
Hình 3.5 Tập hàm thuộc cho thuốc tính MARCHWGT 48
DANH MỤC BẢNG BIỂU Bảng 2.1: Dữ liệu mờ từ dữ liệu bảng 1 36
Bảng 2.2: Cơ sở dữ liệu 36
Bảng 3.1 Cơ sở dữ liệu 44
Trang 8Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
MỞ ĐẦU
1 Lý do chọn đề tài
Trong lĩnh vực khai phá dữ liệu, một khó khăn thường gặp là hệ thống phải xử lý khối lượng thông tin rất lớn, đòi hỏi phải có những thuật toán hữu hiệu để khai thác các tri thức ngầm chứa trong khối thông tin to lớn đó
Một trong những bài toán cơ bản đặt ra trong lĩnh vực nghiên cứu này
là cho trước một Cơ sở dữ liệu (thường là CSDL số, tức các giá trị của CSDL
là các số thực), từ đó, bằng các phương pháp xử lý nhất định, rút ra một hệ tri thức phản ánh các quy luật chứa trong CSDL số này Các quy luật này có thể biểu diễn dưới dạng hệ luật IF X is A and Y is B THEN Z is C, trong đó X, Y,
Z là các biến mờ (thường là các biến ngôn ngữ), A, B, C là các giá trị biến
ngôn ngữ (thường là các tập mờ) Thí dụ luật IF đường là xa và tốc độ di
chuyển là trung bình THEN thời gian đến đích sẽ là lâu Để có thể sinh ra
những luật như vậy, đầu tiên ta phải chuyển hóa miền giá trị của các thuộc tính “khoảng cách”, “tốc độ”, “thời gian” thành các miền mờ, hay nói cách khác là phân chia các miền giá trị đó thành các miền mờ cho các bước xử lý tiếp theo Chẳng hạn, có thể chia miền giá trị thuộc tính độ dài (có các giá trị min, max tương ứng chẳng hạn là 0km, 200km) thành các miền mờ “gần” (0km- 50km), “trung bình” (51km-100km), “xa” (100km-200km) Trong lý thuyết tập mờ, mỗi miền mờ như vậy được coi là một tập mờ và ứng với một hàm thuộc (MF- membership function) nhằm xác định độ “thuộc” của giá trị biến vào tập mờ đã cho Khi đó, một giá trị của một thuộc tính CSDL sẽ ứng với một tập các giá trị của các hàm thuộc ứng với với các tập mờ của thuộc tính đó Và ta sẽ xây dựng hệ luật mờ dựa trên việc xử lý tập giá trị độ thuộc này thay vì xử lý bản thân giá trị ban đầu của CSDL Việc xây dựng các MF phân chia miền xác định thuộc tính là bước đầu tiên nhưng rất quan trọng trong quy trình xây dựng hệ luật mờ vì chỉ có trên cơ sở phân chia hợp lý các miền xác định thuộc tính ta mới có thể có các tập mờ ngôn ngữ phản ánh
Trang 9Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
tương đối chính xác ngữ nghĩa định tính của nhãn ngôn ngữ dùng trong hệ luật được xây dựng tiếp theo.Phương pháp tiếp cận theo lý thuyết tập mờ cho
ta một cách xử lý dữ liệu khá mềm dẻo, nhanh chóng so với các phương pháp
xử lý số cổ điển Tuy vậy, vẫn còn nhiều vấn đề đặt ra như việc phân chia các miền mờ thế nào cho hợp lý, làm sao xây dựng được các hàm thuộc nhanh chóng, phù hợp và cách xử lý các hàm thuộc này thế nào để giữ được ngữ nghĩa gắn với chúng Đại số gia tử (ĐSGT) ra đời dựa trên một cấu trúc thứ
tự tốt trong tập các giá trị ngôn ngữ của biến ngôn ngữ có thể khắc phục phần nào những điểm yếu đó Luận văn đặt mục tiêu sử dụng cách tiếp cận ĐSGT trong việc xác định các MF tối ưu phân chia miền mờ cho các thuộc tính của CSDL, để có thể xây dựng được các hệ luật mờ tốt trong các bước tiếp theo nhằm giải quyết các bài toán quan tâm trong lĩnh vực khai phá dữ liệu hay điều khiển mờ
Được sự đồng ý của trường Đại học Công nghệ thông tin và Truyền
thông với sự hướng dẫn của Thầy giáo em xin mạnh dạn nhận đề tài: “Phân
lớp miền xác định thuộc tính trong bài toán khai phá dữ liệu mờ” làm đề
tài luận văn của mình
2 Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu của luận văn là cơ sở dữ liệu đầu vào dùng để khai phá dữ liệu Lý thuyết tập mờ và đại số gia tử cũng được nghiên cứu như
là công cụ để giải bài toán đặt ra
3 Hướng nghiên cứu của đề tài
Luận văn nghiên cứu các phương pháp giải bài toán phân lớp miền xác định thuộc tính của các tác giả trong nước cũng như trên thế giới, ưu, khuyết điểm của các phương pháp đã có và nghiên cứu cách giải bài toán theo cách tiếp cận của Đại số gia tử, sử dụng giá trị định lượng ngữ nghĩa của các giá trị biến ngôn ngữ, phân chia miền thuộc tính tiến hành khai phá dữ liệu
4 Phương pháp nghiên cứu
Trang 10Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
Tìm hiểu các lý thuyết về tập mờ, các dạng tập mờ, tìm hiểu cách biểu diễn tập giá trị chân lý ngôn ngữ cho tập mờ Tìm hiểu mối quan hệ giữa các dạng biểu diễn tập mờ với hàm định lượng ngữ nghĩa của đại số gia tử, tìm hiểu cách thức chuyển đổi giá trị chân lý ngôn ngữ thành một giá trị số
Phân tích, đối sánh, liệt kê, nghiên cứu tài liệu, tổng hợp các kết quả của các nhà nghiên cứu liên quan đến lĩnh vực nghiên cứu
5 Ý nghĩa khoa học
Bài toán phân chia miền xác định thuộc tính nói chung đóng vai trò quan trọng trong quá trình khai phá dữ liệu và do đó nó có ý nghĩa ứng dụng rộng lớn, đặc biệt loại bài toán liên quan đến thông tin mờ vì con người thường quyết định thông qua thông tin mờ ngôn ngữ Cho đến nay các phương pháp giải bài toán này chủ yếu dựa trên các tập mờ
Giải bài toán phân chia miền xác định thuộc tính theo cách tiếp cận Đại
số gia tử cho ta một phương pháp tương đối đơn giản nhưng khá hữu hiệu trong các cách mà Đại số gia tử nói riêng và lý thuyết tập mờ nói chung có thể
sử dụng
Trang 11Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
CHƯƠNG 1 KHAI PHÁ TRI THỨC VỚI HỆ LUẬT MỜ1.1 Khai phá tri thức từ cơ sở dữ liệu với hệ luật mờ
Từ nhu cầu cần xử lý một khối lượng thông tin lớn đặc biệt đối tượng thông tin chỉ mang tính định tính hay còn gọi là thông tin mờ thông thường người ta có thể chọn các cách tiếp cận theo lý thuyết tập mờ, xác suất thống kê
Trong thực tế khái niệm mờ luôn tồn tại, hiện hữu trong các bài toán, trong cách suy luận của con người Ví dụ như hiện nay thang điểm của học
sinh tiểu học được đánh giá không phải là con số mà là bài làm tốt, bài làm
khá tốt, bài làm rất tốt, Hơn nữa B.Russel đã viết: “Tất cả logic cổ điển
luôn giả sử rằng các đối tượng được sử dụng là rõ ràng Vì thế không thể áp dụng tốt trong cuộc sống trên trái đất này” Như vậy cần một hướng nghiên cứu mới
L A Zadeh đã đề xuất hình thức hóa toán học của khái niệm mờ vào năm 1965, từ đó lý thuyết tập mờ được hình thành và ngày càng thu hút nhiều nghiên cứu của các tác giả cũng như phát triển ứng dụng Bằng các phương pháp tiếp cận khác nhau, các nhà nghiên cứu như Dubois, Prade, Mamdani, Tagaki, Sugeno,Ishibuchi, Herrera… đã đưa ra những kết quả cả về lý thuyết
và ứng dụng trong các bài toán điều khiển mờ, khai phá dữ liệu mờ, cơ sở dữ liệu mờ, các hệ hỗ trợ quyết định
Bài toán đặt ra từ CSDL số chuyển sang CSDL mờ chuyển sang hệ luật
và hệ luật mờ được biểu diễn dưới dạng : IF X is A and Y is B THEN Z is C, trong đó X, Y, Z là các biến mờ (thường là các biến ngôn ngữ), A, B, C là các giá trị biến ngôn ngữ (thường là các tập mờ)
Ví dụ: If X1 is Large and X2 is Very Small then Y is Normal
If X1 is Small and X2 is Large then Y = “Iris-Setosa”
Hệ luật mờ áp dụng cho luật xấp xỉ sẽ được trình bày cụ thể hơn trong phần sau
Trang 12Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
Từ CSDL xây dựng hệ luật Mamdani để giải quyết bài toán hồi quy mờ, phân loại, điều khiển thông qua việc xử lý phân chia miền giá trị của các thuộc tính của CSDL theo cách tiếp cận của lý thuyết tập mờ và ĐSGT
1.2 Khai phá tri thức theo cách tiếp cận của lý thuyết tập mờ
1.2.1 Kiến thức cơ sở về tập mờ
Định nghĩa 1.1.[2] Cho một tập vũ trụ U với các phần tử ký hiệu bởi
x,U={x} Một tập mờ A trên U là tập được đặc trưng bởi một hàm A (x) mà nó
liên kết mỗi phần tử x U với một số thực trong đoạn [0,1] Giá trị hàm A (x) biểu diễn mức độ thuộc của x trong A A (x) là một ánh xạ từ U vào [0,1] và
được gọi là hàm thuộc của tập mờ A
Giá trị hàm A (x) càng gần tới 1 thì mức độ thuộc của x trong A càng cao Tập mờ là sự mở rộng của khái niệm tập hợp kinh điển Thật vậy, khi A
là một tập hợp kinh điển, hàm thuộc của nó, A (x), chỉ nhận 2 giá trị 1 hoặc 0, tương ứng với x có nằm trong A hay không
Một số hàm thuộc thông dụng trong ứng dụng của lý thuyết tập mờ:
- Dạng tam giác: A (x) = max(min((x-a)/(b-a),(c-x)/(c-b)),0),
- Dạng hình thang: A (x) = max(min((x-a)/(b-a),(d-x)/(d-c),1),0),
- Dạng Gauss: A (x) = exp(-(c-x)2/(2 2)), trong đó a, b, c, d, , là các
tham số của hàm thuộc tương ứng
Các khái niệm, tính chất, phép toán trong lý thuyết tập kinh điển cũng được
mở rộng cho các tập mờ Theo đó, các phép toán như t-norm,t-conorm, negation
và phép kéo theo (implication), trong lôgíc mờ được đề xuất, nghiên cứu chi
tiết cung cấp cho các mô hình ứng dụng giải các bài toán thực tế
Một khái niệm quan trọng trong việc tiếp cận giải bài toán phân lớp về
sau trong luận văn đó là phân hoạch mờ (fuzzy partition) Về hình thức, chúng
ta định nghĩa như sau
Trang 13Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
Định nghĩa 1.2 [2] Cho p điểm cố định m1<m2< <m p trong tập U= [a,
b] R Khi đó tập Ф gồm p tập mờ A1, A2, , A p(với , , , là các
hàm thuộc tương ứng) định nghĩa trên U được gọi là một phân hoạch mờ của
U nếu các điều kiện sau thỏa mãn, k=1, , p:
(1) (m k ) = 1 (m k được gọi là một điểm trong lõi của A k);
(2) Nếu x [m k-1 , m k+1], (x) = 0 (trong đó m0 = m1 = a và m p+1 = m p = b);
(3) (x) liên tục;
(4) (x) đơn điệu tăng trên [mk-1, mk] và đơn điệu giảm trên [mk,
mk+1];
(5) x U, k, sao cho (x) > 0 (tất cả mọi điểm trong U đều thuộc
một lớp của phân hoạch này với độ thuộc nào đó khác không)
Ngoài ra, các tác giả trong đưa thêm một số điều kiện để đảm bảo phân hoạch mờ là đều và mạnh
Như vậy, theo định nghĩa, tập các tập mờ là không gian Ƒ (U,[0,1]) các
hàm từ U vào đoạn [0,1], một không gian tương đối giàu về cấu trúc tính toán
mà nhiều nhà nghiên cứu đã sử dụng cho việc mô phỏng phương pháp lập luận của con người
Thực tế các khái niệm mờ trong các bài toán ứng dụng rất đa dạng và khó để xác định được các hàm thuộc của chúng một cách chính xác, thông thường dựa trên ngữ cảnh mà khái niệm mờ đó đang được sử dụng Một lớp rộng các khái niệm mờ có thể mô hình qua các tập mờ mà L A Zadeh đã đưa
ra gọi là biến ngôn ngữ
1.2.2 Khai phá tri thức với thông tin mờ
Biến ngôn ngữ
L.A.Zadeh viết “khi thiếu hụt tính chính xác bề ngoài của những vấn đề phức tạp, một cách tự nhiên là tìm cách sử dụng các biến ngôn ngữ, đó là các biến mà giá trị của chúng không phải là số mà là các từ hoặc các câu trong
Trang 14Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
ngôn ngữ tự nhiên hoặc nhân tạo Động lực cho việc sử dụng các từ, các câu hơn các số là đặc trưng ngôn ngữ của các từ, các câu thường là ít xác định hơn của số”(Zaddeh [9])
Trong cơ sở dữ liệu quan hệ, các quan hệ hay các bảng dữ liệu chứa các thuộc tính hay các tên cột Nó chỉ tính chất của đối tượng Các thuộc tính này cũng thể hiện trong ngôn ngữ như để mô tả tính chất đối tượng là con người, trong ngôn ngữ tự nhiên chúng ta có những thuộc tính TUỔI, CHIỀU CAO, LƯƠNG, NĂNG LỰC … Các thuộc tính này có thể được mô tả bằng giá trị
ngôn ngữ như trẻ, già, rất trẻ, … Vì lý do như vậy, Zadeh gọi các thuộc tính
kiểu như vậy là biến ngôn ngữ và miền giá trị của chúng là giá trị ngôn ngữ hay gọi là miền ngôn ngữ (linguistic domain) Tuy nhiên, như chúng ta đã đề cập trong Mục 1.1, vì bản thân giá trị ngôn ngữ không phải là đối tượng toán học, ngữ nghĩa của chúng được biểu thị bằng các tập mờ hay hàm thuộc Để khái niệm biến ngôn ngữ trở thành một khái niệm toán học, Zadeh hình thức hóa khái niệm này như sau:
Định nghĩa 1.3 [4] Biến ngôn ngữ là một bộ năm (X, T (X), U, R, M ),
trong đó X là tên biến, T(X) là tập các giá trị ngôn ngữ của biến X, U là không
gian tham chiếu của biến cơ sở u, mỗi giá trị ngôn ngữ xem như là một biến
mờ trên U kết hợp với biến cơ sở u, R là một qui tắc cú pháp sinh các giá trị ngôn ngữ của T(X), M là qui tắc ngữ nghĩa gán mỗi giá trị ngôn ngữ trong T(X) với một tập mờ trên U
Ví dụ 1.1 [4] Cho X là biến ngôn ngữ có tên là AGE, biến cơ sở u lấy
theo số điểm của học viên có thang điểm miền xác định là U = [0,100] Tập các giá trị ngôn ngữ T(AGE) = {good, very good, more or less bed, less bed,
very bed….} R là một qui tắc sinh các giá trị này M gán ngữ nghĩa mỗi tập
Trang 15Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
mờ với một giá trị ngôn ngữ Chẳng hạn, đối với giá trị nguyên thủy good, quy tắc gắn ngữ nghĩa M cho good bằng tập mờ sau:
M(good) ={(u, µgood(u))}: u∈[0,100]},
Trong đó µgood(u) = max(min(1,(u-50)/20),0), là một cách chọn hàm
thuộc cho khái niệm mờ good
Các đặc trưng của biến ngôn ngữ
Trong thực tế có rất nhiều biến ngôn ngữ khác nhau về các giá trị nguyên thuỷ, chẳng hạn như biến ngôn ngữ SỐ NGÀY LÀM VIỆC có giá trị nguyên thuỷ là ít, nhiều, biến ngôn ngữ LƯƠNG có giá trị nguyên thuỷ là thấp, cao… Tuy nhiên, những kết quả nghiên cứu đối với một miền trị của một biến ngôn ngữ cụ thể vẫn giữ được ý nghĩa về mặt cấu trúc đối với miền giá trị của các biến còn lại Đặc trưng này được gọi là tính phổ quát của biến ngôn ngữ Ngữ nghĩa của các gia tử và các liên từ hoàn toàn độc lập với ngữ cảnh, điều này khác với giá trị nguyên thủy của các biến ngôn ngữ lại phụ thuộc vào ngữ cảnh Ví dụ ta nói LƯƠNG của cán bộ An là rất cao, khi
đó được hiểu rằng LƯƠNG khoảng trên 8.000.000 đồng, nhưng ta nói CHIỀU CAO của cán bộ An là rất cao thì được hiểu rằng CHIỀU CAO khoảng trên 1.8 m Do đó khi tìm kiếm mô hình cho các gia tử và các liên
từ chúng ta không quan tâm đến giá trị nguyên thuỷ của biến ngôn ngữ đang xét Đặc trưng này được gọi là tính độc lập ngữ cảnh của gia tử và liên từ Các đặc trưng trên cho phép chúng ta sử dụng cùng một tập các gia
tử và xây dựng một cấu trúc toán học duy nhất cho miền giá trị của các
biến ngôn ngữ khác nhau
Xét một biến ngôn ngữ X như đã được định nghĩa ở trên Trước hết, chúng ta có nhận xét rằng, nhìn chung, tập ảnh của tập T(X) qua ánh xạ M(X)
không có cấu trúc đại số, trên đó chúng ta không định nghĩa được các phép u
Trang 16Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
∈ [0,50] u ∈ [50,100] Một lý do nữa làm cho chúng ta không quan tâm đến
điều này là cấu trúc đại số của tập gốc T(X) cũng chưa được phát hiện Trong khi chúng ta chưa phát hiện ra cấu trúc đại số của miền T(X), trong mục này chúng ta sẽ định nghĩa trên tập F(U, [0,1]) một cấu trúc đại số Cũng cần nhấn
mạnh rằng mục tiêu của lý thuyết tập mờ là mô hình hóa toán học ngữ nghĩa của các khái niệm mờ và, quan trọng nhất, là mô hình hóa phương pháp lập luận của con người Đây là một vấn đề cực kỳ khó và phức tạp vì những vấn
đề này thuộc loại có cấu trúc yếu, hay khó có thể có một cấu trúc toán duy nhất mô hình hóa trọn vẹn những vấn đề nêu trên Như là một hệ quả, khó lòng chúng ta tìm được một cấu trúc toán học chặt chẽ, đẹp của tập F(U, [0, 1]) Chính vì vậy chúng ta không có một ràng buộc chặt chẽ, minh bạch trong
định nghĩa các phép toán trong F(U, [0, 1]) Như chúng ta sẽ thấy dưới đây,
chúng ta có nhiều cách khác nhau để định nghĩa các phép tính và do đó nó tạo
ra tính mềm dẻo, đa dạng trong tiếp cận, thích nghi với các bài toán ứng dụng khác nhau, miễn là nó cho phép giải quyết được các bài toán ứng dụng, đặc biệt các bài toán thuộc lĩnh vực trí tuệ nhân tạo
Trước khi định nghĩa các phép tính trong F(U, [0, 1]), chúng ta hãy xem
đoạn [0, 1] như là một cấu trúc dàn L[0, 1] = ([0, 1], ∪, ∩, -) với thứ tự tự nhiên trên đoạn [0, 1] Khi đó, với mọi a, b ∈ [0, 1], ta có:
a ∪ b = max {a, b}, a ∩ b = min {a, b} và - a = 1 − b
Chúng ta có thể kiểm chứng rằng L[0, 1] = ([0, 1], ∪, ∩, -) là một đại số
De Morgan, hơn nữa nó có các tính chất sau:
- Các phép tính hợp ∪ và giao ∩ có tính giao hoán
Trang 17Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
- Tính chất nuốt đối ngẫu : a ∪(a ∩ b) = a
- Tính lũy đẳng : a ∪ a = a và a ∩ a = a
- Tính chất phủ phủ định : -(-a) = a
- Tính đơn điệu giảm : a ≤ b ⇒ -a ≥ -b
- Tính chất De Morgan : -(a ∪b)= -a∩-b; -(a ∩ b) = -a ∪ -b
Dựa trên cấu trúc L[0,1] chúng ta sẽ định nghĩa các phép tính trên tập
mờ thông qua các phép tính của dàn L[0,1]
Lập luận xấp xỉ
Hệ mờ áp dụng cho lập luận xấp xỉ được phát triển dựa trên lý thuyết tập
mờ, với những ràng buộc nhất định, được xem như là một bộ xấp xỉ vạn năng Hơn nữa, thế mạnh của hệ mờ là có thể xấp xỉ các hành vi hệ thống mà ở đó các hàm giải tích hoặc các quan hệ dạng số không tồn tại Vì vậy, hệ mờ có tiềm năng to lớn để ứng dụng vào việc giải quyết các vấn đề của các hệ thống phức tạp như hệ sinh học, hệ xã hội, hệ kinh tế và hệ thống chính trị Mặt khác, hệ mờ còn có thể ứng dụng trong các hệ thống ít phức tạp, ở đó không cần một giải pháp chính xác mà chỉ cần một giải pháp xấp xỉ nhưng nhanh hơn, hiệu quả hơn và giảm chi phí tính toán
Trong mô hình hệ mờ dạng luật, mỗi luật mờ thể hiện một tri thức của con người về một bài toán ứng dụng và được biểu diễn dưới dạng “If
Antecedents then Consequents”, trong đó Antecedents là các điều kiện chứa
các từ ngôn ngữ thường được liên kết bởi liên từ “and” và Consequents là
phần kết luận biểu thị qua các vị từ mờ chứa khái niệm mờ hoặc vị từ kinh điển Nếu kết luận của luật là khái niệm mờ thì hệ mờ ở dạng Mamdani, ngược lại kết luận là giá trị rõ thì hệ mờ dạng Sugeno.Ví dụ về hai dạng luật
mờ tương ứng [6]:
If X1 is Large and X2 is Very Small then Y is Normal,
If X1 is Small and X2 is Large then Y = “Iris-Setosa”
Trang 18Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
Dưới dạng tổng quát, một hệ mờ dạng luật có n đầu vào 1 đầu ra (MISO)
thường phát biểu như sau:
If x1 is A i 1 and and X n is A in then Y is Bi, (1.1)
Trong đó X1, X2, …, X n và Y là các biến ngôn ngữ thuộc không gian tham chiếu U1,U2, , U n và V, A ij , Bi (i = 1,…, M; j = 1,…, n) là các giá trị ngôn ngữ
tương ứng
Các luật mờ này được xây dựng hoặc dựa trên ý kiến chuyên gia về bài toán ứng dụng hoặc sử dụng các kỹ thuật học máy để sinh trực tiếp từ các mẫu dữ liệu thu thập được Tuy nhiên, không phải bài toán nào cũng có chuyên gia với các ý kiến đủ để xây dựng một hệ luật, thường phải kết hợp các phương pháp sinh luật đảm bảo tính đầy đủ cho hệ luật đó
Giải bài toán lập luận xấp xỉ theo mô hình (1.1) là xây dựng một phương pháp lập luận dựa trên các luật mờ để tính toán đầu ra từ các dữ liệu đầu vào
tương ứng, tức tìm kết quả B′ của Y khi biết giá trị A′1, A′2, , A′ n tương ứng
với các biến X1, X2, …, X n Vì chúng ta đang ở trong môi trường thông tin mờ, không chắc chắn, nên không có một phương pháp lập luận chính xác và duy nhất Mỗi phương pháp sẽ xuất phát từ một quan sát trực quan nào đó
Theo phương pháp truyền thống, quy tắc modus ponens tổng quát hóa
được áp dụng cho hệ mờ dạng (1.1) cùng với việc sử dụng các phép toán lôgíc
mờ đã được nhiều tác giả đề cập Ở đây tóm tắt như sau:
Xét mỗi luật mờ trong (1.1) là một quan hệ mờ R itrên miền tích Đề-các
U =U1 × U2 × × U n × V với hàm thuộc được xác định bởi:
µRi = I(T n(µAi,1, , µAi,n), µBi) (1.2) Trong đó µAi,j, µBi là các hàm thuộc tương ứng với A i,j , B i , T n là phép t-
norm n-ngôi và I là phép kéo theo Kết nhập các luật mờ R i (i = 1, , m) của hệ bằng phép t-conorm với hàm thuộc µ R và áp dụng quy tắc suy diễn hợp thành
ta có kết quả:
Trang 19Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
Ở đây
Công thức (1.3) cho thấy phương pháp lập luận này với những cách chọn
các phép t-norm, t-conorm hay kéo theo I dẫn đến những kết quả tính toán tập
mờ B′ khác nhau Điều này phù hợp với đặc trưng của lập luận xấp xỉ Câu
hỏi về cách chọn các phép trên như thế nào để có một phương pháp lập luận tốt nói chung không có câu trả lời khẳng định mà phụ thuộc vào từng tình huống ứng dụng cụ thể và được kiểm chứng qua kết quả thực nghiệm
Mặt khác, hệ luật mờ dạng Sugeno với phần kết luận của các luật là một mệnh đề kinh điển chứa hằng cá thể sẽ trở thành một trường hợp riêng của
dạng (1.1) khi chọn đầu ra B i có hàm thuộc ở dạng đơn tử Tuy nhiên, luật mờ dạng Sugeno với ưu điểm có thể thể hiện các hành vi cục bộ của hệ thống được ứng dụng và không cần giải mờ sau khi lập luận Hơn nữa, trong nhiều nghiên cứu của các tác giả như Ishibuchi H., Herrera F., Khotanzad A., Mansoori E.G., với việc sử dụng các luật mờ có phần kết luận chỉ chứa các giá trị hằng cá thể đã đem lại kết quả rất khả quan Đây là những lý do thúc đẩy những nghiên cứu hơn nữa về các mô hình ứng dụng hệ luật mờ, đặc biệt trường hợp luật
1.3 Khai phá tri thức theo cách tiếp cận của lý thuyết Đại số gia tử
Trang 20Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
gia cho nên dễ mất mát thông tin và còn nhiều vấn đề đặt ra như việc phân chia miền mờ thế nào cho hợp lý, làm sao xây dựng được các hàm thuộc nhanh chóng, phù hợp và cách xử lý các hàm thuộc này thế nào để giữ được ngữ nghĩa gắn với chúng Mặt khác, bản thân các giá trị ngôn ngữ có một cấu trúc thứ tự nhưng ánh xạ gán nghĩa sang tập mờ, không bảo toàn cấu trúc đó nữa Do đó, vấn đề đặt ra là có một cấu trúc toán học mô phỏng chính xác hơn cấu trúc ngữ nghĩa của một khái niệm mờ N.C.Ho và cộng sự đưa ra ĐSGT
và ĐSGT mở rộng và ĐSGT tuyến tính đầy đủ được giải đáp đầy đủ cho câu
hỏi này
Đại số gia tử được ra đời do đề xuất của N.C Ho và W Wechler vào năm 1990, đến nay đã có nhiều nghiên cứu phát triển và ứng dụng thành công của các tác giả
Các tác giả đã chứng minh miền ngôn ngữ X = Dom(X) của một biến
ngôn ngữ X có thể được tiên đề hóa và được gọi là đại số gia tử và được ký
hiệu là AX = (X, G, H, ) trong đó G là tập các phần tử sinh, H là tập các gia
tử (hedge) còn “ ” là quan hệ cảm sinh ngữ nghĩa trên X Giả thiết trong G có chứa các phần tử hằng 0, 1, W với ý nghĩa là phần tử bé nhất, phần tử lớn nhất
và phần tử trung hòa (neutral) trong X Ta gọi mỗi giá trị ngôn ngữ x X là
một hạng từ (term) trong ĐSGT [1]
Nếu tập X và H là các tập sắp thứ tự tuyến tính, khi đó AX = (X, G, H, )
là ĐSGT tuyến tính Hơn nữa, nếu được trang bị thêm hai gia tử tới hạn là ∑
và Ф với ngữ nghĩa là cận trên đúng và cận dưới đúng của tập H(x) khi tác động lên x, thì ta được ĐSGT tuyến tính đầy đủ, ký hiệu AX = (X, G, H, )
Ngoài ra, thông thường trong các ứng dụng, miền giá trị của biến ngôn ngữ bao gồm ccs từ sinh ra từ hai phần tử sinh đối xứng (như “cao” và “thấp”, “xa
và “gần” ) Vì trong luận văn chỉ quan tâm đến ĐSGT tuyến tính kể từ đây
Trang 21Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
nói ĐSGT cũng có nghĩa là ĐSGT tuyến tính ĐSGT tuyến tính có hai phần
tử sinh đối xứng ký hiệu là c+ và c- Như vậy, G={0, c+, W, c-,1}
Thí dụ ĐSGT có X là miền giá trị của biến ngôn ngữ “chiều cao”, là tập các từ như {“rất cao”, “thấp”, “rất rất thấp”, “tương đối thấp”, “tương đối rất
thấp” }, với G={0, cao, W, thấp,1} và H = {“rất”, “tương đối”, } có quan
hệ cảm sinh ngữ nghĩa như “rất cao” > “thấp” > “rất rất thấp”> “tương đối
thấp”> “tương đối rất thấp”
Khi tác động gia tử h H vào phần tử x X, thì thu được phần tử ký hiệu hx.Với mỗi x X, ký hiệu H(x) là tập tất cả các hạng từ u X sinh từ x bằng cách áp dụng các gia tử trong H và viết u = h n …h 1 x, với h n , …, h 1 H
Tập H gồm các gia tử dương H + và gia tử âm H - Các gia tử dương làm tăng ngữ nghĩa của một hạng từ mà nó tác động, còn gia tử âm làm giảm ngữ
nghĩa của hạng từ Không mất tính tổng quát, ta luôn giả thiết rằng H
= {h -1 <
h 2 < < h-q}và H + = {h 1 < h 2 < < h p}
Để ý rằng biểu thức h n h 1 u được gọi là một biểu diễn chính tắc của một
hạng từ x đối với u nếu x = h n h 1 u và h i h 1 u-1≠h i-1 h 1 u với i nguyên và i
n Ta gọi độ dài của một hạng từ x là số gia tử trong biểu diễn chính tắc của
nó đối với phần tử sinh cộng thêm 1, ký hiệu l(x)
Ví dụ 1.2 Cho biến ngôn ngữ TRUTH, có G = {0, FALSE, W, TRUE,
1}, H - = { Possible < Little } và H + = { More < Very } Khi đó TRUE <More
TRUE <Very TRUE, Little TRUE < TRUE,
Bây giờ chúng ta xét một số tính chất của đại số gia tử tuyến tính Định
lý sau cho thấy tính thứ tự ngữ nghĩa của các hạng từ trong ĐSGT
Trang 22Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
(2) Nếu X được sinh từ G bởi các gia tử và G là tập sắp thứ tự tuyến tính
thì X cũng là tập sắp thứ tự tuyến tính Hơn nữa nếu u < v, và u, v là độc lập
với nhau, tức là u H(v) và v H(u), thì H(u) H(v)
Định lý tiếp theo xem xét sự so sánh của hai hạng từ trong miền ngôn
ngữ của biến x
Định lý 1.2 [1] Cho x = hn…h1u và y = km…k1u là hai biểu diễn chính tắc
của x và y đối với u Khi đó tồn tại chỉ số j ≤ min{n, m} + 1 sao cho hj' = kj' với
mọi j' <j (ở đây nếu j = min {n, m} + 1 thì hoặc hj là toán tử đơn vị I, hj = I,
1.3.2 Khai phá tri thức với thông tin mờ theo cách tiếp cận ĐSGT
Trong phần này chúng ta xem xét ba vấn đề cơ bản đó là độ đo tính mờ của các giá trị ngôn ngữ (hạng từ), phương pháp định lượng ngữ nghĩa và khoảng tính mờ của các khái niệm mờ
Tính mờ của các giá trị ngôn ngữ xuất phát từ thực tế rằng một giá trị ngôn ngữ mang ý nghĩa mô tả cho nhiều sự vật và hiện tượng trong thế giới thực, với lý do tập hữu hạn các giá trị ngôn ngữ không đủ để phản ánh thế giới vô hạn các sự vật hiện tượng Như vậy khái niệm tính mờ và độ đo tính
mờ của một giá trị ngôn ngữ được hình thành và nó là một khái niệm rất khó xác định, đặc biệt trong lý thuyết tập mờ Tuy nhiên, trong ĐSGT các tác giả
đã cho thấy độ đo tính mờ được xác định một cách hợp lý: “tính mờ của một
Trang 23Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
hạng từ x được hiểu như là ngữ nghĩa của nó vẫn có thể được thay đổi khi tác động vào nó bằng các gia tử” Do đó, tập các hạng từ sinh từ x bằng các gia
tử sẽ thể hiện cho tính mờ của x và do đó, H(x) có thể sử dụng như là một mô hình biểu thị tính mờ của x và kích thước tập H(x) được xem như độ đo tính
mờ của x Ta có định nghĩa sau về độ đo tính mờ
Định nghĩa 1.4 [1] Cho AX = (X, G, H, Σ,Φ,µ,≤) là một ĐSGT tuyến tính đầy đủ Ánh xạ fm : X → [0,1] được gọi là một đo tính mờ của các hạng
từ trong X nếu:
(1) fm là đo mờ đầy đủ trên X, tức là fm(c-) + fm(c+) =1 và ∑h Hfm(hu) =
fm(u), u X;
(2) fm(x) = 0, với các x thỏa H(x) = {x} Đặc biệt, fm(0) = fm(W) = fm(1) = 0;
thuộc vào x và y, vì vậy nó được gọi là độ đo tính mờ của các gia tử và được
ký hiệu bởi μ(h)
Trong đó, điều kiện (1) thể hiện tính đầy đủ của các phần tử sinh và các gia tử cho việc biểu diễn ngữ nghĩa của miền thực đối với các biến (2) thể hiện tính rõ của các hạng từ và (3) có thể được chấp nhận vì chúng ta đã chấp nhận giả thiết rằng các gia tử là độc lập với ngữ cảnh và, do vậy, khi áp dụng một gia tử h lên các hạng từ thì hiệu quả tác động tương đối làm thay đổi ngữ nghĩa của các hạng từ đó là như nhau Hình vẽ sau (Hình 1.1) minh họa rõ hơn cho khái niệm độ đo tính mờ của biến ngôn ngữ TRUTH
Các tính chất của độ đo tính mờ của các hạng từ và gia tử được thể hiện qua mệnh đề sau:
Mệnh đề 1.1 Với độ đo tính mờ fm và m đã được định nghĩa trong Định
nghĩa 1.4, ta có:
(1) fm(c-) + fm(c+) = 1 và Σh H fm(hx) = fm(x);
Trang 24Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
(3) fm, trong đó X k là tập các hạng từ có độ dài đúng k;
(4) fm(hx) = µ(h).fm(x), và x X, fm(Σx) = fm(Φx) = 0;
(5) Cho fm(c - ), fm(c + ) và µ(h) với h H, khi đó với x = h n h 1 c , {-,+},
dễ dàng tính được độ đo tính mờ của x như sau:
fm(x) = µ(h n ) µ(h 1 )fm(c )
Hình 1.1 Độ đo tính mờ của biến TRUTH
Với ĐSGT, các khoảng tính mờ của tập các phần tử có cùng độ dài sẽ tạo nên một phân hoạch trên miền xác định của thuộc tính Các khoảng tính
mờ này có độ dài tương ứng với độ đo tính mờ của từng phần tử Ngoài ra, các khoảng tính mờ này được sắp xếp trên miền xác định theo thứ tự tự nhiên của các phần tử và trong mỗi khoảng tính mờ có một điểm đại diện cho khoảng tính mờ đó, gọi là giá trị định lượng ngữ nghĩa Tuy có nhiều phương pháp xác định giá trị định lượng của các hạng từ dựa trên các tham số này nhưng phải thỏa mãn một số ràng buộc nhất định và được thể hiện trong định nghĩa sau
Định nghĩa 1.5 Cho AX = (X, G, H, ∑, Φ, ≤) là một ĐSGT tuyến tính đầy đủ Ánh xạ υ : X → [0,1] được gọi là một hàm định lượng ngữ nghĩa (SQM) của AX nếu:
(1) υ là ánh xạ 1-1 từ tập X vào đoạn [0,1] và đảm bảo thứ tự trên X, tức
là x, y∈X, x < y⇒υ(x) <υ(y) và υ(0) = 0, υ(1) = 1
Trang 25Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
(2) υ liên tục: ∀x ∈X, υ(Φx) = infimumυ(H(x)) và υ(∑x) = supremum υ(H(x))
Điều kiện (1) là bắt buộc tối thiểu đối với bất kỳ phương pháp định
lượng nào, còn điều kiện (2) đảm bảo tính trù mật của H(G) trong X Dựa trên
những ràng buộc này, các tác giả trong đã xây dựng một phương pháp định lượng ngữ nghĩa của các hạng từ trong ĐSGT
Các gia tử dương làm tăng ngữ nghĩa của một hạng từ mà nó tác động, còn gia tử âm làm giảm ngữ nghĩa của hạng từ Để biểu diễn tính dương âm của một gia tử đối với một hạng từ Trước hết chúng ta xét định nghĩa về dấu của các hạng từ như sau
Định nghĩa 1.6.[1] Một hàm dấu Sign : X → {-1,0,1} là một ánh xạ
được định nghĩa đệ qui như sau, trong đó h, h'∈H và c ∈ {c -, c + }:
(1) Sign(c-) = -1, Sign(c+) = 1;
(2) Sign(hc) = -Sign(c) nếu h âm đối với c; Sign(hc) = Sign(c) nếu h dương đối với c;
(3) Sign(h'hx) = -Sign(hx), nếu h'hx ≠ hx và h' âm đối với h; Sign(h'hx) =
Sign(hx), nếu h'hx ≠ hx và h' dương đối với h;
(4) Sign(h'hx) = 0, nếu h'hx = hx
Dựa trên hàm dấu này, chúng ta có tiêu chuẩn để so sánh hx và x
Mệnh đề 1.2.[1] Với bất kỳ h và x, nếu Sign(hx) = 1 thì hx>x; nếu
Sign(hx) = -1 thì hx < x và nếu Sign(hx) = 0 thì hx = x
Định nghĩa 1.7.[1] Cho AX là một ĐSGT tuyến tính đầy đủ và fm là một độ đo tính mờ trên X Ta nói ánh xạ υ : X → [0,1] được cảm sinh bởi độ
đo tính mờ fm nếu được định nghĩa bằng đệ qui như sau:
(1) υ(W) = θ = fm(c-), υ(c-) = θ - α.fm(c-) = β fm(c
-), υ(c+) = θ +α.fm(c+
);
Trang 26Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
(2)
(ℎ ) (ℎ , với mọi j, -q ≤ j ≤ p và j ≠ 0, trong đó:
(3) υ(Φc - ) = 0, υ(∑c - ) = θ = υ(Φc + ), υ(∑c + ) = 1, và với mọi j thỏa -q
≤ j ≤ p, j ≠ 0, ta có:
υ(Φh j x) = υ(x) +
Với định nghĩa này, các tác giả trong đã chứng minh nó thỏa mãn các yêu cầu của một hàm định lƣợng ngữ nghĩa và đảm bảo tính trù mật của nó
đối với các hạng từ của A X trong đoạn [0,1] (xem Định lý 1.3)
Một khái niệm rất quan trọng làm cơ sở cho việc nghiên cứu và xây
dựng các mô hình ứng dụng về sau đó là khoảng tính mờ (fuzziness interval) của các khái niệm mờ Trong ĐSGT, dựa trên độ đo tính mờ fm, chúng ta sẽ định nghĩa khoảng tính mờ của các hạng từ Gọi Itv([0,1]) là họ các đoạn con
của đoạn [0,1], ký hiệu |•| là độ dài của đoạn “•”
Định nghĩa 1.8 [4] Khoảng tính mờ của các hạng từ x X, ký hiệu
ℑfm(x), là một đoạn con của [0,1], ℑfm(x) Itv([0,1]), nếu nó có độ dài bằng độ
đo tính mờ, |ℑfm (x)| = fm(x), và đƣợc xác định bằng qui nạp theo độ dài của x
nhƣ sau:
(1) Với độ dài của x bằng 1 (l(x)=1), tức là x {c-, c+}, khi đó |ℑfm(c-)|
= fm(c-), |ℑfm(c + )| = fm(c +) và ℑfm(c-) ≤ ℑfm(c +);
Trang 27Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
(2) Giả sử x có độ dài n(l(x)=n) và khoảng tính mờ ℑfm(x) đã được định
nghĩa với |ℑfm(x)| = fm(x) Khi đó tập các khoảng tính mờ {ℑfm(h j x): -q ≤ j ≤
p và j ≠ 0} ⊂Itv([0,1]) được xây dựng sao cho nó là một phân hoạch của
ℑfm(x), và thỏa mãn |ℑfm(h j x)| = fm(h j x) và có thứ tự tuyến tính tương ứng với
thứ tự của tập {h-qx, h-q+1x, , hpx}, tức là nếu h-qx > h-q+1x > > hpx thì
ℑfm(h-qx) >ℑfm(h-q+1x) > >ℑfm(hpx) và ngược lại (xem Hình 1.2) Dễ
dàng thấy rằng hệ phân hoạch như vậy luôn tồn tại dựa vào tính chất (1) trong Mệnh đề 1.1
Hình 1.2 Khoảng tính mờ của các hạng từ của biến TRUTH
Trường hợp độ dài của x bằng k, l(x) = k, ta ký hiệu ℑk(x) thay cho
ℑfm(x), khi đó ta nói khoảng tính mờ của x có độ sâu k (hay khoảng tính mờ
mức k) Để thuận tiện về sau, ta ký hiệu:
Xk là tập các hạng từ có độ dài đúng k,
X(k) = U l=1, ,k X l là tập tất cả các hạng từ có độ dài từ 1 đến k
Rõ ràng X = Xk, và
Ik = {ℑk (x): x ∈X k } là tập tất cả các khoảng tính mờ độ sâu k,
Tương tự ta cũng có tập I(k) = U l=1, ,k Il Tiếp theo chúng ta xem xét một
số tính chất của khoảng tính mờ cũng như cấu trúc của họ tất cả các khoảng tính mờ trong mệnh đề sau Họ các khoảng tính mờ đóng một vai trò quan trọng trong việc xem xét quan hệ tương tự đối với dữ liệu trong miền tham
Trang 28Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
chiếu của các biến Ở đây, ta sử dụng khái niệm tựa phân hoạch tức là phân hoạch mà hai tập bất kỳ của nó có nhiều nhất một điểm chung
Mệnh đề 1.3 Cho AX = (X, G, H, ∑, Φ, ≤) là một ĐSGT tuyến tính đầy đủ:
(1) Nếu Sign(hpx′) = 1, thì ta cóℑ(h-qx′) ≤ ℑ(h-q+1x′) ≤ ≤ ℑ(h-1x′) ≤ ℑ(h1x′) ≤ ℑ(h2x′) ≤ ≤ ℑ(hpx′), và nếu Sign(hpx′) = -1, thì ta cóℑ(hpx′) ≤ ℑ(hp-1x′) ≤ ≤ ℑ(h1x′) ≤ ℑ(h-1x′) ≤ ℑ(h-2x′) ≤ ≤ ℑ(h-qx′);
(2) Tập Ik = {ℑ(x): x Xk} là một tựa phân hoạch của đoạn [0,1];
(3) Cho một số m, tập {ℑ(y): y = km k1x, ∀km , , k1∈H} là một tựa phân
hoạch của khoảng tính mờ ℑ(x);
(4) Tập Ik = {ℑ(x): x∈Xk} “mịn” hơn tập Ik-1 = {ℑ(x): x∈Xk -1}, tức là bất kỳ
một khoảng tính mờ trong Ik chắc chắn được chứa bên trong một khoảng của Ik-1;
(5) Với x < y và l(x) = l(y), thì ℑ(x) ≤ ℑ(y) và ℑ(x) ≠ ℑ(y)
Chứng minh Các tính chất (2) đến (5) đã được chứng minh trong, ở đây
ta chứng minh (1) Theo Mệnh đề 1.2, nếu Sign(h p x′) = 1 thì ta có x′ ≤ h p x′ Vì
các gia tử trong H+ là so sánh được và H+ và H- là đối ngược nhau, nên h -q x′ ≤
h -q+1 x′ ≤ ≤ h -1 x′ ≤ x′ ≤ h 1 x′ ≤ h 2 x′ ≤ ≤ h p x′ Từ Định nghĩa 1.8 của khoảng
tính mờ ta suy ra ℑ(h -q x′) ≤ ℑ(h -q+1 x′) ≤ ≤ ℑ(h -1 x′) ≤ ℑ(h 1 x′) ≤ ℑ(h 2 x′) ≤ ≤
ℑ(h p x′) Chứng minh tương tự với trường hợp Sign(hpx′) = -1
Dễ dàng suy ra từ mệnh đề trên trong trường hợp các khoảng tính mờ được xét ở dạng nửa đóng, tức là ℑ(x) = (lmp(ℑ(x)), rmp(ℑ(x))], và khoảng
tính mờ của hạng từ bé nhất trong phân hoạch ở dạng đóng thì các tựa phân
hoạch trong (2), (3) trở thành các phân hoạch thực sự Trong đó, lmp và rmp
là điểm mút trái và điểm mút phải của khoảng tính mờ
Để ý rằng dựa trên cấu trúc thứ tự của X, phần tử x nằm ở giữa hai tập
{h -i x: -q ≤ i ≤ -1} và {h j x: 1 ≤ j ≤ p}, hơn nữa ta có
∑i [-q,-1] |ℑ(h i x)| = fm(x) ∑ i∈[-q,-1] µ(h i ) = α.fm(x) = α.|ℑ(x)|
Điều này cho thấy điểm cuối chung của hai khoảng tính mờ ℑ(h -1 x) và
ℑ(h 1 x) chính là giá trị định lượng ngữ nghĩa υ(x) của hạng từ x Giá trị này
Trang 29Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
chia đôi khoảng tính mờ ℑ(x) theo tỷ lệ α :β nếu Sign(h p x) = 1, hoặc tỷ lệ β :α
nếu Sign(h p x) = -1 (xem (1) của Mệnh đề 1.3)
Theo Định nghĩa 1.7 và 1.8, có một mối liên hệ giữa ánh xạ định lượng ngữ nghĩa và khoảng tính mờ của của hạng từ trong một ĐSGT, được thể hiện bằng định lý sau
Định lý 1.3 Cho AX = (X, G, H, ∑, Φ, ≤) là một ĐSGT tuyến tính đầy
đủ và hàm υ được định nghĩa trong Định nghĩa 1.7 Khi đó υ là một ánh xạ
định lượng ngữ nghĩa và tập các giá trị của υ đối với H(x), viết là υ(H(x)), trù
mật trong đoạn [υ(Φx), υ(∑x)], x∈X Hơn nữa,
υ(Φx) = infimum υ(H(x)),
υ(∑x) = supremum υ(H(x)) và fm(x) = υ(∑x) - υ(Φx),
và như vậy fm(x) = d(υ(H(x))), trong đó d(A) là đường kính của A⊆ [0,1] Kết quả, υ(H(G)) trù mật trong đoạn [0,1] Định lý này cũng khẳng định rằng ĐSGT AX cùng với hàm định lượng ngữ nghĩa υ có thể ứng dụng trong
mọi quá trình thực
Từ những kết quả trên cho thấy giá trị định lượng ngữ nghĩa υ(x) của một hạng từ x cũng như khoảng tính mờ ℑ(x), x ∈ X, phụ thuộc đầy đủ vào các tham số mờ gia tử fm (c - ), fm (c + ), µ(h) h ∈ H
CHƯƠNG 2 BÀI TOÁN PHÂN CHIA MIỀN XÁC ĐỊNH
THUỘC TÍNH 2.1 Bài toán phân chia miền xác định thuộc tính
Trong quá trình giải quyết các bài toán có liên quan đến xây dựng hệ luật
mờ (1.1), có hai công đoạn tuy liên quan với nhau nhưng có thể coi như xử lý tách biệt Công đoạn thứ nhất là là từ CSDL số tiến hành phân chia miền xác định của các thuộc tính thành các miền mờ Việc này tương đương với việc xây dựng các hàm thuộc (MF) cho thuộc tính vì mỗi miền mờ của thuộc tính được xác định thông qua hàm thuộc MF Khi xác định được xong tất cả các
Trang 30Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
MF, mỗi giá trị số của CSDL sẽ nhận một tập các giá trị là độ thuộc của giá trị
đó vào các miền mờ đã xây dựng của thuộc tính Cụ thể, thuộc tính Ai có thể được phân thành k miền mờ (thông thường, để đơn giản, người ta hay giới hạn k<4) là Ri1, Ri2, , Rik Khi đó một giá trị số xij (là giá trị thuộc cột i, tức thuộc tính Ai và hàng j trong CSDL) sẽ nhận một tập các giá trị
tương ứng là độ thuộc của xij vào các miền mờ Ri1, Ri2, , Rik phân chia thuộc tính Ai Thí dụ, ta có thuộc tính
“TUỔI” Có thể chia miền xác định của thuộc tính “TUỔI” (miền xác định là
[0,150] ) thành 3 (k=3) miền mờ có nhãn là “Trẻ”, “Trung niên” và “Già”
(tương ứng xác định 3 MF là μTrẻ, μTrungniên và μGià Khi đó, một giá trị nào đó của “TUỔI” thuộc CSDL, chẳng hạn 35 sẽ nhận 3 giá trị là 3 độ thuộc tương ứng, thí dụ (0.5, 0.6, 0.1) Có thể nhiều giá trị độ thuộc là 0, thí dụ nếu giá trị của TUỔI là 7 thì μGià(7)=0) Với việc xác định xong các MF, CSDL số ban
đầu sẽ chuyển thành CSDL mờ (Fuzzy Base - FB) Công đoạn thứ nhất coi
như hoàn thành
Công đoạn thứ hai là từ cơ sở dữ liệu mờ - CSDL đã chuyển đổi tiến hành xây dựng trực tiếp hệ luật mờ một cách tối ưu Công đoạn này mục tiêu
là xây dựng từ cơ sở dữ liệu mờ một hệ luật mờ (Rule Base - RB) tốt theo
nghĩa có độ chính xác của mô hình cao và dễ hiểu, tức số luật trong hệ luật là vừa phải cộng thêm yêu cầu số thuộc tính tham gia vào mỗi luật cũng có giới hạn Các hệ luật này, như đã nói, có thể sử dụng để giải quyết nhiều bài toán trong khai phá tri thức như phân lớp, hồi quy, điều khiển, Hai công đoạn nhắc đến trên đây, về mặt hình thức rõ ràng là tách biệt, ta phải tiến hành công đoạn xây dựng RB (tức các hàm mờ phân chia miền xác định) trước, sau
đó trên cơ sở RB mới tiến hành xây dựng hệ luật mờ FRBS (tập các luật dạng IF THEN ) sau Tuy nhiên, như đã nói, hai công đoạn này trong thực tế có mối quan hệ chặt chẽ vì có tiến hành bước đầu tốt thì mới có hy vọng xây
Trang 31Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
dựng được hệ luật mờ tốt ở bước sau Hiện có thể thấy 2 hướng nghiên cứu xây dựng hệ luật mờ như sau Hướng thứ nhất, xây dựng hệ luật mờ hoàn toàn tách biệt với việc xây dựng Cơ sở dữ liệu mờ, tức là bằng các cách khác nhau xây dựng FB một lần trước, sau đó trên cơ sở FB đó xây dựng hệ luật mờ Hướng thứ hai là kết hợp xây dựng hệ luật mờ cùng với việc điều chỉnh CSDL mờ theo một chu trình lặp để có được một hệ luật mờ tối ưu (theo một nghĩa nào đấy) Theo cách này, đầu tiên ta xây dựng một CSDL mờ, sau đó từ CSDL mờ này xây dựng một hệ luật mờ tối ưu (theo nghĩa cục bộ vì ở đây là
hệ tối ưu đa mục tiêu, không có tối ưu toàn bộ) Sau đó các bước này lại lặp lại, quay lại xây dựng một CSDL mờ mới rồi lại từ đó, xây dựng hệ luật mờ tối ưu Quá trình này lặp lại cho đến khi điều kiện dừng của thuật toán di truyền thỏa mãn và ta sẽ nhận được một họ các lời giải tối ưu cục bộ cho bài toán của ta (thường gọi là mặt Pareto) Các phương pháp này sẽ được nhắc đến cụ thể hơn trong mục sau của luận văn
Trong phần còn lại của mục này, để làm rõ hơn các công đoạn của bài toán xây dựng hệ luật mờ, sẽ trình bày vắn tắt ví dụ bài toán phân lớp để minh họa cho công đoạn 2 Hoàn toàn tương tự nếu trong bước 2 xây dựng hệ luật
mờ cho các bài toán còn lại, chỉ khác đôi chút về cách tính đầu ra cho hệ luật
mờ khác nhau cho từng bài toán, chẳng hạn bài toán phân lớp đầu ra là lớp mà giá trị đầu vào cần thuộc, bài toán hồi quy thì đầu ra là số thực mà giá trị đầu vào cần nhận được )
Đối với tập dữ liệu mẫu của bài toán phân lớp được cho dưới dạng số, tức
là U ⊂ Rn, thì việc xây dựng một hệ luật mờ S thường gồm hai bước sau: [3]
(Bước 1) Phân hoạch mờ (fuzzy partition) trên miền của các thuộc tính
bằng tập các giá trị ngôn ngữ của các biến ngôn ngữ - Dom(Xi), mỗi giá trị ngôn ngữ được gán một hàm thuộc tương ứng
(Bước 2) Xác định các luật mờ từ các phân hoạch ở trên tạo thành hệ S