Phát triển một số phương pháp thiết kế hệ phân lớp trên cơ sở lý thuyết tập mờ và đại số gia tử

Dựa trên quanđiểm người dùng là trọng tâm, việc giải bài toán phân lớp dựa trên luật mờ là xâydựng bài toán trích rút tự động hệ luật mờ từ dữ liệu cho bài toán phân lớp sao cho hệ luật

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

PHẠM ĐÌNH PHONG

PHÁT TRIỂN MỘT SỐ PHƯƠNG PHÁP THIẾT KẾ

HỆ PHÂN LỚP TRÊN CƠ SỞ LÝ THUYẾT TẬP MỜ

VÀ ĐẠI SỐ GIA TỬ

LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH

Hà Nội - 2017

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Phạm Đình Phong

PHÁT TRIỂN MỘT SỐ PHƯƠNG PHÁP THIẾT KẾ

HỆ PHÂN LỚP TRÊN CƠ SỞ LÝ THUYẾT TẬP MỜ

VÀ ĐẠI SỐ GIA TỬ

Chuyên ngành: Khoa học máy tính

Mã số: 62 48 01 01

LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC:

1 GS TS Nguyễn Thanh Thủy

2 PGS TSKH Nguyễn Cát Hồ

Hà Nội – 2017

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan rằng, ngoại trừ các nội dung được trích từ tài liệu tham khảohoặc các công trình khác như đã được ghi rõ trong luận án, các kết quả được trìnhbày trong luận án này là công trình nghiên cứu của tôi và được hoàn thành dưới sựhướng dẫn của GS TS Nguyễn Thanh Thủy và PGS TSKH Nguyễn Cát Hồ.Các kết quả nghiên cứu là trung thực, chưa từng được công bố trước đó Các kếtquả được viết chung với các tác giả khác đã được sự đồng ý của các đồng tác giảtrước khi đưa vào luận án

Tác giả luận án

Phạm Đình Phong

Trang 4

LỜI CẢM ƠN

Với lòng biết ơn sâu sắc, tôi xin chân thành cảm ơn các thầy GS TS NguyễnThanh Thủy và PGS TSKH Nguyễn Cát Hồ đã trực tiếp chỉ bảo và tận tình hướngdẫn tôi hoàn thành luận án này Tôi chân thành cảm ơn thầy TS Trần Thái Sơn đã

có nhiều hỗ trợ trong quá trình nghiên cứu và có những nhận xét, đánh giá trong quátrình hoàn thiện luận án

Tôi xin được bày tỏ lòng biết ơn đối với các thầy giáo, cô giáo Bộ môn Khoahọc máy tính, Khoa Công nghệ thông tin, Phòng đào tạo, Ban giám hiệu TrườngĐại học Công nghệ đã tận tình chỉ bảo, giảng dạy và tạo điều kiện thuận lợi trongsuốt thời gian học tập, nghiên cứu và hoàn thành luận án

Tôi xin được cảm ơn tất cả những người thân, bạn bè và các đồng nghiệp đã tạođiều kiện, động viên và hỗ trợ tôi về mọi mặt

Cuối cùng, tôi xin được được bày tỏ tình cảm và lòng biết ơn vô hạn tới bố mẹ

và những người thân trong gia đình, đặc biệt là vợ tôi – Phan Thị Quế Anh, người

đã luôn động viên, khích lệ, chia sẻ và gánh vác công việc để tôi có thời gian họctập, nghiên cứu và hoàn thành luận án

Trang 5

M C Ụ L C Ụ

LỜI CAM ĐOAN i

LỜI CẢM ƠN iii

MỤC LỤC iv

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT vii

DANH MỤC CÁC BẢNG ix

DANH MỤC CÁC HÌNH VẼ, BIỂU ĐỒ xiii

MỞ ĐẦU .1

CHƯƠNG 1 TỔNG QUAN VỀ HỆ DỰA TRÊN LUẬT NGÔN NGỮ MỜ .9

1.1 MỘT SỐ KHÁI NIỆM CƠ BẢN 9

1.1.1 Tập mờ 9

1.1.2 Biến ngôn ngữ 9

1.1.3 Phân hoạch mờ 10

1.1.4 Luật ngôn ngữ mờ và hệ luật ngôn ngữ mờ 11

1.1.5 Bài toán phân lớp dữ liệu 12

1.2 HỆ DỰA TRÊN LUẬT NGÔN NGỮ MỜ 12

1.2.1 Cấu trúc của hệ dựa trên luật ngôn ngữ mờ 13

1.2.2 Bài toán thiết kế hệ phân lớp dựa trên luật ngôn ngữ mờ 14

1.2.3 Những vấn đề tồn tại 19

1.3 ĐẠI SỐ GIA TỬ 19

1.3.1 Đại số gia tử của biến ngôn ngữ 20

1.3.2 Lượng hóa đại số gia tử 22

1.3.3 Ý nghĩa ứng dụng của đại số gia tử 25

1.3.4 Những vấn đề còn tồn tại 28

1.4 KẾT LUẬN CHƯƠNG 1 29

CHƯƠNG 2 LÕI NGỮ NGHĨA VÀ NGỮ NGHĨA HÌNH THANG CỦA KHUNG NHẬN THỨC NGÔN NGỮ VÀ ỨNG DỤNG GIẢI BÀI TOÁN PHÂN LỚP 30 2.1 MỞ RỘNG ĐẠI SỐ GIA TỬ CHO VIỆC MÔ HÌNH HÓA LÕI NGỮ

Trang 6

NGHĨA CỦA CÁC TỪ NGÔN NGỮ 30

Trang 7

2.2 MỞ RỘNG KHÁI NIỆM ĐỘ ĐO TÍNH MỜ 372.3 HỆ KHOẢNG TÍNH MỜ LIÊN KẾT VỚI ĐỘ ĐO TÍNH MỜ CỦA CÁC

TỪ NGÔN NGỮ 402.4 ÁNH XẠ ĐỊNH LƯỢNG NGỮ NGHĨA KHOẢNG 44

2.5 MỞ RỘNG ĐỘ ĐO TÍNH MỜ CỦA CÁC PHẦN TỬ 0 VÀ 1 46

2.6 ỨNG DỤNG LÕI NGỮ NGHĨA VÀ NGỮ NGHĨA HÌNH THANG TRONG THIẾT KẾ HỆ PHÂN LỚP DỰA TRÊN LUẬT NGÔN NGỮ MỜ 49

2.6.1 Thiết kế ngữ nghĩa tính toán dựa trên tập mờ của các từ ngôn ngữ 502.6.2 Sinh tập luật khởi đầu từ dữ liệu dựa trên ngữ nghĩa ĐSGT mở rộng 562.6.3 Tối ưu các tham số ngữ nghĩa và tìm kiếm hệ luật tối ưu 592.6.4 Đánh giá kết quả ứng dụng lõi ngữ nghĩa và ngữ nghĩa hình thang trong thiết kế hệ phân lớp dựa trên luật ngôn ngữ mờ 612.6.4.1 Dữ liệu và phương pháp thực nghiệm 612.6.4.2 So sánh đánh giá hai cấu trúc phân hoạch mờ đơn và đa thể hạt

632.6.4.3 So sánh đánh giá hai phương pháp lập luận single winner rule

và weigted vote 692.6.4.4 So sánh đánh giá các phương pháp thiết kế hệ phân lớp theo tiếp cận đại số gia tử 712.6.4.5 So sánh đánh giá với một số phương pháp theo tiếp cận lý thuyết tập mờ 732.6.4.6 So sánh đánh giá với một số tiếp cận khác 772.6.5 Biểu diễn ngữ nghĩa tính toán dựa trên tập mờ hình thang đảm bảo tính giải nghĩa được của khung nhận thức ngôn ngữ 792.7 KẾT LUẬN CHƯƠNG 2 84CHƯƠNG 3 THIẾT KẾ HIỆU QUẢ HỆ PHÂN LỚP DỰA TRÊN LUẬT NGÔN NGỮ MỜ SỬ DỤNG KỸ THUẬT TÍNH TOÁN MỀM 853.1 THIẾT KẾ HIỆU QUẢ HỆ PHÂN LỚP DỰA TRÊN LUẬT NGÔN NGỮ

MỜ SỬ DỤNG CÁC THUẬT TOÁN TỐI ƯU 853.1.1 Đánh giá tính hiệu quả của thuật toán MOPSO so với thuật toán GSA

88

Trang 8

3.1.1.1 Thuật toán tối ưu bầy đàn đa mục tiêu 88

3.1.1.2 Ứng dụng thuật toán MOPSO tối ưu các tham số ngữ nghĩa và tìm kiếm hệ luật tối ưu .92

3.1.1.3 Thực nghiệm so sánh thuật toán MOPSO so với thuật toán GSA 94

3.1.2 Đánh giá tính hiệu quả của thuật toán MOPSO-SA so với thuật toán MOPSO 96

3.1.2.1 Thuật toán tối ưu đa mục tiêu lai MOPSO-SA 96

3.1.2.2 Ứng dụng thuật toán MOPSO-SA tối ưu các tham số ngữ nghĩa và tìm kiếm hệ luật tối ưu 99

3.1.2.3 Thực nghiệm so sánh thuật toán MOPSO-SA so với thuật toán MOPSO .101

3.2 NÂNG CAO HIỆU QUẢ SINH LUẬT MỜ VỚI NGỮ NGHĨA DỰA TRÊN ĐẠI SỐ GIA TỬ SỬ DỤNG KỸ THUẬT LỰA CHỌN ĐẶC TRƯNG103 3.2.1 Một số khái niệm cơ bản về lý thuyết thông tin 104

3.2.2 Kỹ thuật lựa chọn đặc trưng sử dụng trọng số động 105

3.2.3 Ứng dụng thuật DWFS trong thiết kế FLRBC trên cơ sở ĐSGT 107

3.2.4 Kết quả thực nghiệm và thảo luận 109

3.3 KẾT LUẬN CHƯƠNG 3 113

KẾT LUẬN CỦA LUẬN ÁN 115

DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN 117

TÀI LIỆU THAM KHẢO 119 PHỤ LỤC A

Trang 9

AX mrtp Đại số gia tử mở rộng toàn phần

μ(h) Độ đo tính mờ của gia tử h

fm(x) Độ đo tính mờ của từ ngôn ngữ x

μ A(x) Hàm xác định độ thuộc của giá trị x vào tập mờ A

|x| Độ dài của từ ngôn ngữ x

X k Tập các các từ có độ dài đúng bằng k

X (k) Tập các các từ có độ dài nhỏ hơn hoặc bằng k

X Biến ngôn ngữ

H Tập các gia tử

|H| Số lượng gia tử trong H.

H mr Tập các gia tử mở rộng (bổ sung thêm gia tử h 0)

DB Database (Cơ sở dữ liệu)

FLRBC Fuzzy linguistic rule-based classifier (Hệ phân lớp dựa trên luật

ngôn ngữ mờ)

Trang 10

FLRBS fuzzy linguistic rule-based system (Hệ dựa trên luật ngôn ngữ

mờ)FURIA Fuzzy unordered rules induction algorithm (Giải thuật cảm

sinh các luật mờ không có thứ tự)GSA Genetic simulated annealing (Tôi luyện mô phỏng di truyền)

KB Knowledge base (Cơ sở tri thức)

LFoC Linguistic frames of cognition (Khung nhận thức ngôn ngữ)MOO Multi-objective optimization (Tối ưu đa mục tiêu)

MOPSO Multi-objective particle swarm optimization (Giải thuật tối ưu

bầy đàn đa mục tiêu)PAES Pareto archived evolution strategy (Chiến lược tiến hóa lưu trữ

Pareto)

PI Power set of intervals (Tập các khoảng con có thể)

PSO Particle swarm optimization (Tối ưu bầy đàn)

RCS Rule and condition selection (Lựa chọn luật và điều kiện luật)RIPPER Repeated incremental pruning to produce error reduction

(Giảm lỗi bằng lặp lại cắt tỉa gia tăng)SVM Support vector machine (Máy véc-tơ hỗ trợ)

SWR Single winner rule (Luật thắng đơn)

WV Weighted vote (Bầu cử có trọng số)

Trang 11

DANH M C Ụ CÁC BẢNG TRONG NỘI DUNG

CHÍNH

Bảng 2.3 So sánh độ chính xác giữa các hệ phân lớp sử dụng cấu trúc đa thể hạt và

đơn thể hạt sử dụng kiểm định Wilcoxon Signed Rank với α = 0,05 ………… 68

Bảng 2.4 So sánh độ phức tạp của các hệ phân lớp sử dụng cấu trúc đa thể hạt và

đơn thể hạt sử dụng kiểm định Wilcoxon Signed Rank với α = 0,05 ………… 68

Bảng 2.6 So sánh độ chính xác của các hệ phân lớp được thiết kế trên cơ sở ĐSGT

AX mr và AX mrtp giữa sử dụng phương pháp lập luận SWR và WV bằng phương

pháp kiểm định Wilcoxon Signed Rank với α = 0,05 ………

…… 70

Bảng 2.7 So sánh độ phức tạp của các hệ phân lớp được thiết kế trên cơ sở ĐSGT

AX mr và AX mrtp giữa sử dụng phương pháp lập luận SWR và WV bằng phương

pháp kiểm định Wilcoxon Signed Rank với α = 0,05

……… 70

Bảng 2.9 So sánh độ chính xác của FRBC_AX mrtp, FRBC_AX mr và FRBC_AX sử

dụng phương pháp kiểm định Wilcoxon Signed Rank với α = 0,05 ……… 72

Bảng 2.10 So sánh độ phức tạp của FRBC_AX mrtp, FRBC_AX mr và FRBC_AX sử

dụng phương pháp kiểm định Wilcoxon Signed Rank với α = 0,05 ……… 72

Bảng 2.11 So sánh độ chính xác của FRBC_AX mrtp và FRBC_AX mr so với All

Granularities và Product-1-ALL TUN sử dụng kiểm định Wilcoxon Signed Rank

với α = 0,05 …… ……… 74

Bảng 2.12 So sánh độ phức tạp của FRBC_AX mrtp và FRBC_AX mr so với All

Granularities và Product-1-ALL TUN sử dụng kiểm định Wilcoxon Signed Rank

với α = 0,05 ……… 75

Bảng 2.14 So sánh độ chính xác của FRBC_AX mrtp và FRBC_AX mr so với hệ phân

lớp PAES-RCS sử dụng kiểm định Wilcoxon Signed Rank với α = 0,05 …… 77

Bảng 2.15 So sánh độ phức tạp của FRBC_AX mrtp và FRBC_AX mr so với hệ phân

lớp PAES-RCS sử dụng kiểm định Wilcoxon Signed Rank với α = 0,05 ……… 77

Bảng 2.16 So sánh độ chính xác của FRBC_AX mrtp và FRBC_AX mr so với FURIA

và C4.5 sử dụng kiểm tra Wilcoxon Signed Rank với α = 0,05 ……… 79

Bảng 2.17 So sánh độ phức tạp của FRBC_AX mrtp và FRBC_AX mr so với FURIA

và C4.5 sử dụng kiểm tra Wilcoxon Signed Rank với α = 0,05 ……… 79

Bảng 2.18 So sánh các kết quả thực nghiệm giữa hai hệ phân lớp FRBC_AX mrtp _k0

Trang 12

10

Trang 13

Bảng 2.19 So sánh độ chính xác giữa hai hệ phân lớp FRBC_AX mrtp _k0 và

FRBC_AX mrtp bằng Wilcoxon Signed Rank test với mức α = 0,05 ……… 83

Bảng 2.20 So sánh độ phức tạp của hai hệ phân lớp FRBC_AX mrtp _k0 và

FRBC_AX mrtp bằng Wilcoxon Signed Rank test với mức α = 0,05 ……… 83

Bảng 3.1 Các kết quả thực nghiệm của hệ phân lớp dựa trên ĐSGT truyền thống

AX

sử dụng thuật toán MOPSO so với sử dụng GSA đối với 17 tập dữ liệu mẫu … 95Bảng 3.2 So sánh độ chính xác của hệ phân lớp dựa trên ĐSGT truyền thống AX

sử dụng thuật toán MOPSO so với GSA sử dụng phương pháp kiểm định Wilcoxon

Signed Rank với mức α = 0,05 ……… 96

Bảng 3.3 So sánh độ phức tạp của hệ phân lớp dựa trên ĐSGT truyền thống AX sử dụng thuật toán MOPSO so với GSA sử dụng phương pháp kiểm định Wilcoxon

Signed Rank với mức α = 0,05……… 96

Bảng 3.5 So sánh độ chính xác giữa MOPSO-SA AX và MOPSOAX, giữa

MOPSO- SAAX mrtp và MOPSO AX mrtp sử dụng kiểm định Wilcoxon Signed Rank

với α = 0,05

……… ………….………… 102

Bảng 3.6 So sánh độ phức tạp của hệ phân lớp giữa MOPSO-SA AX và

MOPSOAX, giữa MOPSO-SAAX mrtp và MOPSO AX mrtp sử dụng kiểm định

Wilcoxon Signed

Rank với α = 0,05 ……… ……… ………… 102

Bảng 3.7 Các tập dữ liệu có số chiều lớn được sử dụng trong thực nghiệm … 110Bảng 3.8 Số thuộc tính được lựa chọn sau tiến trình lựa chọn đặc trưng … … 110Bảng 3.9 So sánh thời gian sinh tập luật khởi đầu trên cơ sở ĐSGT AX có áp dụng

và không áp dụng kỹ thuật lựa chọn đặc trưng ……… 111

Bảng 3.10 So sánh thời gian sinh tập luật khởi đầu trên cơ sở ĐSGT AX mrtp có áp dụng và không áp dụng kỹ thuật lựa chọn đặc trưng ……… 111Bảng 3.11 So sánh kết quả của các hệ phân lớp dựa trên ĐSGT AX đối với tập dữ

liệu gốc N và các tập dữ liệu đã áp dụng kỹ thuật lựa chọn đặc trưng Sn và S2n 112

Bảng 3.12 So sánh kết quả của các hệ phân lớp dựa trên ĐSGT AX mrtp đối với tập

dữ liệu gốc N và các tập dữ liệu đã áp dụng kỹ thuật lựa chọn đặc trưng S n và S 2n112

Trang 14

Bảng 3.13 So sánh độ phức tạp của các hệ phân lớp dựa trên ĐSGT AX và AX mrtp

giữa không áp dụng và có áp dụng kỹ thuật lựa chọn đặc trưng sử dụng kiểm định

Wilcoxon Signed Rank với mức α = 0,05 ……… 113

Trang 15

Bảng 3.14 So sánh độ chính xác của các hệ phân lớp dựa trên ĐSGT AX và

AX mrtp giữa không áp dụng và có áp dụng kỹ thuật lựa chọn đặc trưng sử dụng

kiểm định Wilcoxon Signed Rank với mức α = 0,05 ……….

………… 113

Trang 16

DANH M C Ụ CÁC BẢNG TRONG PHỤ

LỤC

Bảng 2.1 Các tập dữ liệu mẫu được sử dụng trong các thực nghiệm ……… C

Bảng 2.2 Các kết quả thực nghiệm và so sánh giữa hai cấu trúc đa thể hạt và đơn

thể hạt được thiết kế trên cơ sở ĐSGT ……… F

Bảng 2.5 Các kết quả thực nghiệm và so sánh giữa các hệ phân lớp được thiết kế trên cơ sở ĐSGT AX mr và AX mrtp sử dụng phương pháp lập luận SWR và WV

G

Bảng 2.8 Các kết quả thực nghiệm và so sánh giữa các hệ phân lớp FRBC_AX mrtp,

FRBC_AX mr, FRBC_AX, All Granularities và Product-1-ALL TUN …………

H

Bảng 2.13 Các kết quả thực nghiệm và so sánh giữa các hệ phân lớp FRBC_AX mrtp,

Bảng 3.4 Các kết quả thực nghiệm và so sánh giữa hai hệ phân lớp MOPSO-SA AX

J

Trang 17

Mammographic ……… 27

Hình 2.1 Mối quan hệ giữa từ “nhanh” và “rất nhanh” của biến ngôn ngữ TOCDO

và các giá trị của tập nền U được biểu diễn dưới dạng các tập mờ … ………… 31 Hình 2.2 Hệ khoảng độ đo tính mờ của các từ ngôn ngữ của X mr(3) được sinh từ c+,

trong đó H mr = {h0, L, V}, (W) = (h0W) và (1) = 0 ……… 42

Hình 2.3 Hệ khoảng tính mờ của các từ ngôn ngữ của AX mr với k j = 2 ………… 51Hình 2.4 Ngữ nghĩa dựa trên tập mờ hình thang của các từ ngôn ngữ ………… 53

Hình 2.5 Các tập mờ hình thang của các hạng từ mức kj = 2 được thiết kế theo cấu

trúc đơn thể hạt được sinh bởi ĐSGT AX mr ……….………… 54

Hình 2.6 Các tập mờ hình thang của các hạng từ mức kj = 2 được thiết kế theo cấu

trúc đơn thể hạt được sinh bởi ĐSGT AX mrtp ……… 54

Hình 2.7 Các tập mờ được thiết kế theo cấu trúc đa thể hạt được sinh bởi ĐSGT

Hình 2.8 Cấu trúc phân hoạch mờ đơn thể hạt được thiết kế cho thuộc tính thứ 3của tập dữ liệu Haberman ……… 64Hình 2.9 Cấu trúc phân hoạch mờ đa thể hạt được thiết kế cho thuộc tính thứ 2 củatập dữ liệu Haberman ……… 66

Hình 2.10 Biểu đồ so sánh độ chính xác giữa các hệ phân lớp FRBC_AX mrtp,

FRBC_AX mr, All Granularities, Product/1-ALL TUN và PAES-RCS ……… 76

Trang 18

Hình 2.13 Thiết kế đa thể hạt với mức k = 1 được tách thành hai mức 0 và 1 … 81

Hình 3.1 Mối liên hệ giữa độ phức tạp và tỷ lệ phân lớp sai ……… 86Hình 3.2 Sơ đồ mô phỏng thuật toán MOPSO trong [77] ……… 90

Hình 3.3 Sơ đồ kỹ thuật phân cụm mờ c-means với hàm PBMF ……… 108

Trang 19

M Đ Ở ẦU

Phân lớp là một cơng việc ra quyết định phổ biến nhất của con người Bài tốnphân lớp các đối tượng nhằm gán các đối tượng vào các lớp được xác định trướcdựa trên một số thuộc tính quan sát được của các đối tượng đĩ Bài tốn này địi hỏitiêu chuẩn quyết định một đối tượng cần phân lớp thuộc vào lớp đang xét haykhơng Bài tốn phân lớp thường gặp trong các lĩnh vực khác nhau của đời sốngkinh tế xã hội, như y tế [73, 111, 115], kinh tế [17, 125], nhận dạng lỗi [49], xử lýảnh [95, 118], năng lượng hạt nhân [101], xử lý dữ liệu văn bản, lọc dữ liệu Web,loại bỏ thư rác [126], … Trong kỷ nguyên thơng tin số hiện nay, các kho dữ liệukhổng lồ ẩn chứa rất nhiều thơng tin hữu ích mà con người cần khai phá và trích rútthơng tin, phục vụ cho quá trình ra quyết định Phân lớp là quá trình phân tích dữliệu nhằm trích rút các mơ hình biểu diễn các lớp dữ liệu, giúp chúng ta hiểu đượccác kho dữ liệu và dự đốn các dữ liệu phát sinh trong tương lai Để nâng cao độchính xác của hệ phân lớp, nhiều phương pháp đã được nghiên cứu và phát triển, từ

đĩ nhiều hệ phân lớp quan trọng đã được đề xuất như hệ phân lớp thống kê(statistical techniques) [45, 80, 118], mạng nơ-ron (neural networks) [42, 72, 85, 96,

97, 114, 120], phân lớp dựa trên luật mờ [14, 16, 26, 29, 34-41, 61-71, 74, 86, 88,

91, 92]

Các hệ phân lớp thống kê bao gồm giản đồ bầu cử cĩ trọng số [71], NạveBayes [80, 118], phân lớp theo láng giềng gần nhất [45], cây quyết định (ID3, C4.5)[102], máy véc-tơ hỗ trợ (support vector machine - SVM) [20] Hầu hết các kỹ thuậtphân lớp thống kê truyền thống đều dựa trên lý thuyết quyết định Bayesian, trong

đĩ một mơ hình xác suất được giả định, nhằm tính tốn xác suất hậu nghiệm(posterior probability) Quyết định phân lớp được thực hiện dựa vào xác suất này.Các tiếp cận này chỉ cho kết quả tốt khi mơ hình xác suất được chọn phù hợp với dữliệu và do đĩ, cần đến các chuyên gia hiểu về dữ liệu Mạng nơ-ron được xem làmột cơng cụ quan trọng để giải bài tốn phân lớp với độ chính xác cao Tuy cĩnhiều hệ phân lớp mạng nơ-ron cho độ chính xác phân lớp tốt [42, 72, 85, 96, 97,

114, 118, 120], nhưng vẫn tồn tại những khĩ khăn khi sử dụng hệ phân lớp mạngnơ-ron Chẳng hạn, một lượng lớn các tham số trong hệ phân lớp mạng nơ-ron cầnphải ước lượng Mặt khác, mạng nơ-ron là một hộp đen nên khơng dễ hiểu đối vớingười sử dụng [122]

Các hệ dựa trên luật mờ (fuzzy rule-based systems - FRBS) được sử dụng rộngrãi trong các lĩnh vực khác nhau trong đời sống xã hội như điều khiển tối ưu và tự

Trang 20

Nhằm biến các từ ngôn ngữ thành các đối tượng có thể tính toán được, năm

1965 Zadeh đã đề xuất gán cho ngữ nghĩa của mỗi từ ngôn ngữ (linguistic term)một cấu trúc hàm chỉ mức độ thuộc của một phần tử vào một tập các phần tử đượcgọi là tập mờ [123] Khi đó, các thao tác trên cấu trúc hàm được xem là các thao táctrên ngữ nghĩa của các từ ngôn ngữ Năm 1975, Zadeh đưa ra khái niệm biến ngônngữ với miền giá trị của biến là các từ trong ngôn ngữ tự nhiên và ngữ nghĩa củamỗi từ ngôn ngữ được biểu diễn bởi một tập mờ, gọi là ngữ nghĩa tính toán dựa trêntập mờ [124] Vì vậy, miền giá trị của biến ngôn ngữ trở nên tính toán được

Một FRBS cơ bản bao gồm cơ sở tri thức (knowledge base - KB) và hệ suy luận(inference system) Cơ sở tri thức bao gồm cơ sở dữ liệu (database – DB) và cơ sởluật (rule base – RB) Cơ sở dữ liệu bao gồm tập các giá trị ngôn ngữ được dùngtrong biểu diễn cơ sở luật và các hàm thuộc biểu diễn ngữ nghĩa của các giá trị ngônngữ Cơ sở luật biểu diễn tri thức liên quan đến bài toán cần giải quyết dưới dạng

các luật mờ if-then với các từ ngôn ngữ (như “chậm”, “nhanh”, “thấp”, “cao”,

“xấu”, “tốt”, ) được sử dụng thường xuyên trong cuộc sống hàng ngày của chúng

ta Do đó, việc sử dụng các luật mờ là cách tự nhiên biểu diễn tri thức dạng ngônngữ FRBS được thiết kế dựa vào tri thức chuyên gia và được ứng dụng thành côngtrong điều khiển tự động vào năm 1974 bởi Mamdani [89, 90] Tuy nhiên, khôngphải lúc nào cũng có sẵn các chuyên gia và tri thức của họ thường không đầy đủ Vìvậy, bài toán thiết kế tự động các FRBS từ dữ liệu được phát sinh từ các sự kiệntrong thế giới thực được đặt ra và thu hút nhiều nhà khoa học quan tâm nghiên cứu.Đây là một lĩnh vực rộng lớn và có nhiều ứng dụng thực tiễn Nhờ ứng dụng lýthuyết tập mờ [123], khái niệm biến ngôn ngữ [124] và logic mờ vào bài toán điều

Trang 21

khiển tự động nhằm trích rút các hệ luật mờ từ dữ liệu, các FRBS được ứng dụngrộng rãi trong lĩnh vực điều khiển mờ, điển hình như King và Mamdani [77],Takagi và Sugeno [117], Berenji và Khedkar [19], Battaini và các cộng sự [18], Rao

và Sivasubramanian [105]

Khi FRBS được ứng dụng để giải bài toán phân lớp thì được gọi là hệ phân lớpdựa trên luật mờ (fuzzy rule-based classifier - FRBC) Ưu điểm của hệ phân lớp loạinày là: 1) Lợi dụng tính xấp xỉ vạn năng của các hệ dựa trên luật mờ; 2) Ngườidùng cuối có thể sử dụng những tri thức dạng luật, được trích rút từ dữ liệu có tính

dễ hiểu, dễ sử dụng đối với con người, như là những tri thức của họ Dựa trên quanđiểm người dùng là trọng tâm, việc giải bài toán phân lớp dựa trên luật mờ là xâydựng bài toán trích rút tự động hệ luật mờ từ dữ liệu cho bài toán phân lớp sao cho

hệ luật thu được có tính dễ hiểu (interpretability), tức là số luật và số điều kiện tạo

nên luật phải đủ nhỏ; ngữ nghĩa tính toán của các từ ngôn ngữ (linguistic terms) haynhãn ngôn ngữ (linguistic labels) xuất hiện trong cơ sở luật phản ánh được đúng

ngữ nghĩa vốn có của chúng trong ngôn ngữ tự nhiên, nhưng vẫn đạt độ chính xác

(accuracy) cao Với các yêu cầu về FRBC được đặt ra ở trên, việc trích rút hệ luật

mờ từ dữ liệu cho FRBC là một nhiệm vụ nghiên cứu phức tạp với các mục tiêu của

bài toán (độ chính xác và tính dễ hiểu) xung khắc nhau, tức muốn tăng mục tiêu này thì phải giảm mục tiêu kia Độ chính xác của FRBC phụ thuộc vào các yếu tố như:

1) Các nhãn ngôn ngữ là cơ sở ngữ nghĩa của các luật ngôn ngữ mờ; 2) Việc biểudiễn ngữ nghĩa của các nhãn ngôn ngữ; 3) Dạng của các luật ngôn ngữ mờ và ngữnghĩa của chúng; 4) Phương pháp suy luận mờ được lựa chọn; 5) Các đặc trưng của

dữ liệu như độ phức tạp, sự phân bố dữ liệu hay dữ liệu có số chiều lớn, dữ liệuthiếu thông tin

Để đáp ứng các yêu cầu được đặt ra về FRBC ở trên, bài toán thiết kế tự độngFRBC từ dữ liệu cần giải quyết các bài toán nhỏ hơn do mỗi bài toán cần các kỹthuật xử lý khác nhau: thiết kế hệ phân hoạch mờ cho các thuộc tính và trích rút tậpluật mờ tối ưu

Với hầu hết các hướng tiếp cận dựa trên lý thuyết tập mờ, các luật mờ đượctrích rút từ các phân hoạch mờ được thiết kế trước bởi các chuyên gia, tức số từngôn ngữ được sử dụng trong các phân hoạch mờ là cố định và được gán cho cáctập mờ trong các phân hoạch mờ bằng cảm nhận trực giác của người thiết kế nhưIshibuchi và các cộng sự [61-70], Cordon và các cộng sự [26], Alcalá và các cộng

sự [13, 14], Fazzolari và các cộng sự [35, 36] Một số nghiên cứu đề xuất phươngpháp xây dựng các phân hoạch mờ rời rạc dựa trên sự phân tích dữ liệu bằng công

Trang 22

dữ liệu được thu thập từ thực tiễn, người thiết kế phải thận trọng lựa chọn các từ cụthể từ bảng từ vựng của anh ta sao cho phù hợp với mẩu tri thức cần biểu diễn đó.Trong quá trình này, các từ ngôn ngữ với ngữ nghĩa vốn có của chúng được tươngtác với dữ liệu thu thập được và do đó, về nguyên tắc, tất cả các từ trong bảng từvựng đều có thể được lựa chọn bởi người thiết kế Tuy nhiên, với các tiếp cận dựatrên lý thuyết tập mờ, ngữ nghĩa vốn có của các từ trong ngôn ngữ tự nhiên khôngđược xem xét dựa trên một cơ sở hình thức Do đó, các phương pháp thiết kế FRBSdựa trên lý thuyết tập mờ không có khả năng mô phỏng quá trình tương tác trongviệc lựa chọn các từ ngôn ngữ phù hợp với dữ liệu thực tiễn của bài toán ứng dụng.Đại số gia tử (ĐSGT) [50-55] đã có những ứng dụng thành công trong một sốlĩnh vực như điều khiển mờ [1, 4, 7, 31, 56, 81, 82], ra quyết định [6, 53], xử lý thaotác cơ sở dữ liệu mờ [2], khai phá dữ liệu [3, 5, 9, 10, 32, 57, 58] ĐSGT cung cấpmột cách tiếp cận cho việc xử lý miền giá trị của biến ngôn ngữ, bổ sung một cơ sởđại số cho logic mờ Zadeh [123, 124] và tính toán trên các từ [8], cung cấp một cơ

sở hình thức để liên kết ngữ nghĩa tính toán dựa trên tập mờ với ngữ nghĩa định tínhvốn có của các từ ngôn ngữ, trong đó ngữ nghĩa của các từ ngôn ngữ được diễn đạttrên cơ sở thứ tự ngữ nghĩa, đã hình thành một cơ sở hình thức cho phép các tập mờđược sinh từ ngữ nghĩa định tính vốn có của các từ ngôn ngữ Điều này cho phép

mô phỏng quá trình chuyển hóa thành các tập mờ từ thế giới thực của con người.Dựa trên cơ chế này, Nguyễn Cát Hồ và các cộng sự [5, 57] đã ứng dụng ĐSGTmột cách hiệu quả vào quá trình thiết kế tập giá trị ngôn ngữ cùng với ngữ nghĩatính toán dựa trên tập mờ tam giác cho bài toán xây dựng tự động cơ sở luật choFRBC Các từ ngôn ngữ được sử dụng trong biểu diễn cơ sở luật của FRBC là các

từ trong ngôn ngữ tự nhiên, do đó, hệ phân lớp dựa trên luật mờ còn được gọi là hệphân lớp dựa trên luật ngôn ngữ mờ (fuzzy linguistic rule based classifier - FLRBC)

và luật mờ là luật ngôn ngữ mờ

Trang 23

sự [61-70], López và các cộng sự [86] Với cách sinh luật này, số luật ngôn ngữ mờđược sinh ra rất lớn, đặc biệt đối với các tập dữ liệu có số chiều lớn do số luật ngônngữ mờ được sinh ra tăng theo hàm mũ đối với số chiều của tập dữ liệu Một số đềxuất sinh luật dựa trên cây tìm kiếm như Fernández và các cộng sự [41], Fazzolari

và các cộng sự [35] Với phương pháp này, các thuộc tính được sắp xếp theo mộtthứ tự nào đó và một cây tìm kiếm được xây dựng nhằm liệt kê tất cả các tập mục

mờ thường xuyên cho mỗi nhãn lớp và sinh các luật kết hợp cho bài toán phân lớp,tức các luật được lọc theo tiêu chuẩn độ hỗ trợ (support) và độ tin cậy (confidence)trong khai phá luật kết hợp Tuy vậy, số luật ngôn ngữ mờ được sinh ra vẫn có thểrất lớn Một số đề xuất khác thực hiện sinh luật dựa trên cây quyết định (decisiontree) như Abonyi và các cộng sự [12], Pulkkinen và Koivisto [103] Phương phápnày đã làm giảm đáng kể số lượng luật nhưng do dựa vào chiến lược tìm kiếm thamlam, nên dễ dẫn đến các quyết định tối ưu địa phương Mặt khác, khi chuyển đổi từcây quyết định sang mô hình mờ thường làm giảm chất lượng của hệ phân lớp vàquá trình hiệu chỉnh mô hình thường làm tăng độ phức tạp của hệ phân lớp Với tiếpcận dựa trên ĐSGT [5, 57], Nguyễn Cát Hồ và các cộng sự đã đề xuất phương phápsinh các luật ngôn ngữ mờ trực tiếp từ các mẫu dữ liệu, theo đó, mỗi mẫu dữ liệusinh ra một luật có độ dài bằng số thuộc tính của tập dữ liệu và các luật có độ dàinhỏ hơn được sinh ra bằng cách bỏ bớt một số điều kiện luật Phương pháp sinh luậtnày hạn chế được số luật ngôn ngữ mờ được sinh ra và không phụ thuộc vào số từngôn ngữ được sử dụng Đây là phương pháp sinh luật tốt nên luận án sử dụng đểsinh luật trong các thực nghiệm

Hệ dựa trên luật mờ với các luật mờ được trích xuất từ dữ liệu cho bài toánphân lớp được Ishibuchi và các cộng sự đề xuất năm 1992 [61] Tuy nhiên, hệ luật

mờ thu được còn phức tạp (số luật và số điều kiện lớn) và có độ chính xác chưa cao.

Các FRBS cung cấp cho người dùng cuối một mô hình dễ hiểu, nhưng chúng lạikhông có khả năng học Do đó, các hệ thông minh lai giữa FRBS với các giải thuậthọc được đề xuất, trong đó có mạng nơ-ron và các giải thuật tiến hóa (evolutionaryalgorithm) được nghiên cứu rộng rãi Khi FRBS được tích hợp với mạng nơ-ron thì

hệ lai thu được gọi là hệ mờ nơ-ron (neuro-fuzzy systems - NFSs) và khi FRBS

Trang 24

được tích hợp với một giải thuật tiến hóa thì được gọi là hệ dựa trên luật mờ tiến hóa (evolutionary fuzzy rule based system - EFRBS)

Do không chỉ xét đến độ chính xác mà còn xét đến tính dễ hiểu của FRBC trong

thiết kế và quá trình tối ưu, để mô hình phân lớp thu được đảm bảo sự cân bằng

giữa các tiêu chuẩn tối ưu là độ chính xác và tính dễ hiểu, các thuật toán tối ưu đa

mục tiêu được sử dụng để tối ưu FRBC như tìm kiếm hệ luật tối ưu bởi Ishibuchi vàcác cộng sự [62, 63, 67], Gonzáler và Perez [46-48], Ji-lin và các cộng sự [74]; hiệuchỉnh các tham số của hàm thuộc bởi Shi và các cộng sự [113], Roubos và các cộng

sự [107], Zhou và các cộng sự [127]; hiệu chỉnh các tham số của hàm thuộc kết hợpvới tìm kiếm hệ luật tối ưu bởi Setnes và Roubos [112], Alcalá và các cộng sự [14],Fazzolari và các cộng sự [35, 36]; hiệu chỉnh trọng số luật bởi Nauck và Kruse [98],Cordon và các cộng sự [26], Ishibuchi và các cộng sự [61, 68], Mansoori và cáccộng sự [91], Jahromi và Taheri [71], Fakhrahmad và Jahromi [34], DelaOssa vàcác cộng sự [29] Một số nghiên cứu khác tập trung vào thiết kế tối ưu FRBC chocác tập dữ liệu có số chiều lớn bởi Fernández và các cộng sự [41], Fazzolari và cáccộng sự [35], cho tập dữ liệu có số mẫu dữ liệu không cân bằng đối với các nhãnlớp (imbalanced datasets) bởi Fernández và các cộng sự [37-40], Lopéz và các cộng

sự [87] và cho các tập dữ liệu thiếu thông tin (datasets with missing values) bởiLuengo và các cộng sự [88] Cùng chung với các hướng nghiên cứu trên, hướngnghiên cứu trích xuất hệ luật mờ Mamdani tối ưu cho bài toán hồi quy cũng đượcthực hiện, đại diện là Antonelli và các cộng sự [15], Gacto và các cộng sự [44] Hầuhết các đề xuất trên sử dụng các chiến lược tìm kiếm tối ưu các tham số của hàmthuộc, không tối ưu ngữ nghĩa của các từ ngôn ngữ, do đó, số tham số cần hiệuchỉnh thích nghi lớn và không bảo toàn được ngữ nghĩa của các từ ngôn ngữ Vớitiếp cận dựa trên ĐSGT [5, 57], các tham số ngữ nghĩa chỉ phụ thuộc vào bản thâncác biến ngôn ngữ của chúng, nên khi các tham số ngữ nghĩa được tối ưu cho cácthuộc tính của một tập dữ liệu cụ thể, tập giá trị ngôn ngữ của các thuộc tính cũngđược thiết kế tối ưu cho tập dữ liệu đó

Từ những nhận định trên luận án thấy rằng, phương pháp thiết kế FLRBC trên

cơ sở ứng dụng ĐSGT đã khắc phục được một số hạn chế của các tiếp cận dựa trên

lý thuyết tập mờ Tuy nhiên, hướng tiếp cận này vẫn tồn tại những hạn chế trongbiểu diễn ngữ nghĩa, chẳng hạn, hiện tại mới chỉ sử dụng ngữ nghĩa định lượngđiểm (lõi ngữ nghĩa điểm) và do đó, ngữ nghĩa tính toán dựa trên tập mờ có lõi làmột điểm (tập mờ tam giác) Trong ứng dụng lý thuyết tập mờ cũng thường đòi hỏilõi của tập mờ là một khoảng do ngữ nghĩa của từ ngôn ngữ chứa một miền có giátrị phù hợp với ngữ nghĩa của từ nhất Ngữ nghĩa dựa trên tập mờ của các từ ngôn

Trang 25

ngữ được xem là dạng hạt (granule) và có lõi (core) Như vậy, ngữ nghĩa của mỗi từngôn ngữ đều có lõi và được gọi là lõi ngữ nghĩa (semantics core) Trong xu thếnghiên cứu ĐSGT, một cơ sở hình thức toán học cần được phát triển để sinh lõikhoảng của tập mờ biểu diễn ngữ nghĩa của từ ngôn ngữ Luận án nghiên cứutrường hợp cụ thể sinh lõi khoảng của tập mờ hình thang do lõi của hình thang códạng khoảng nên chúng có thể được sử dụng để biểu diễn lõi ngữ nghĩa được biểuthị bằng tập mờ của các từ ngôn ngữ Mặt khác, vấn đề tối ưu các tham số ngữnghĩa, sinh luật và tìm kiếm hệ luật tối ưu vẫn cần những nghiên cứu cải tiến

Mục tiêu đặt ra của luận án: Thứ nhất là mở rộng ĐSGT để làm cơ sở hình

thức toán học cho việc sinh lõi của các tập mờ gán cho các từ ngôn ngữ, cụ thể là lõicủa tập mờ hình thang và ứng dụng giải bài toán thiết kế tự động cơ sở luật cho hệphân lớp dựa trên luật ngôn ngữ mờ Thứ hai là nghiên cứu thiết kế hiệu quả hệphân lớp dựa trên luật ngôn ngữ mờ với ngữ nghĩa tính toán của từ ngôn ngữ đượcxác định dựa trên ĐSGT dựa trên kỹ thuật tính toán mềm

Với các mục tiêu đặt ra của luận án, các đóng góp của luận án là:

 Đề xuất mở rộng lý thuyết đại số gia tử biểu diễn lõi ngữ nghĩa của các từ

ngôn ngữ nhằm cung cấp một cơ sở hình thức cho việc sinh tự động ngữnghĩa tính toán dựa trên tập mờ có lõi là một khoảng Luận án nghiên cứutrường hợp cụ thể là ngữ nghĩa dựa trên tập mờ hình thang Đóng góp này

của luận án đã được công bố ở Tạp chí Tin học và Điều khiển học năm 2012

và 2013 (công trình [CT1] và [CT4]); Tạp chí Knowledge-Based Systems

(công trình [CT5])

Ứng dụng lõi ngữ nghĩa và ngữ nghĩa tính toán dựa trên tập mờ hình thang của khung nhận thức ngôn ngữ trong việc phát triển các phương pháp, thuậttoán thiết kế tối ưu các hệ phân lớp dựa trên luật ngôn ngữ mờ đảm bảo tínhgiải nghĩa được (interpretability) của chúng So sánh đánh giá kết quả củacác đề xuất so với một số kết quả được công bố trước đó Đóng góp này của

luận án đã được công bố ở Kỷ yếu Hội nghị Quốc gia lần thứ VI về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR) năm 2013 (công trình [CT3]); Tạp chí Tin học và Điều khiển học năm 2013 (công trình [CT4]); Tạp chí Knowledge-Based Systems (công trình [CT5]).

Nghiên cứu các yếu tố ảnh hưởng đến hiệu quả của các phương pháp thiết

kế hệ phân lớp dựa trên luật ngôn ngữ mờ với ngữ nghĩa tính toán của từngôn ngữ được xác định dựa trên ĐSGT và đề xuất các phương pháp nângcao hiệu quả thiết kế hệ phân lớp dựa trên luật ngôn ngữ mờ sử dụng kỹ

Trang 26

thuật tính toán mềm Đóng góp này của luận án đã được công bố ở Kỷ yếu hội thảo quốc tế RIVF năm 2013 (công trình [CT2]); Tạp chí Khoa học, Đại học Quốc gia Hà Nội năm 2014 (công trình [CT6]); Tạp chí Tin học và Điều khiển học năm 2015 (công trình [CT7]); Tạp chí Khoa học và Công nghệ, VAST năm 2015 (công trình [CT8]).

Các nội dung và kết quả nghiên cứu được trình bày trong luận án đã được công

bố trong 8 công trình khoa học, bao gồm: 1 bài báo quốc tế trong danh mục SCI; 3bài báo ở Tạp chí Tin học và Điều khiển học; 1 bài báo ở Tạp chí khoa học, Đại họcQuốc gia Hà Nội; 1 bài báo ở Tạp chí Khoa học và Công nghệ, Viện Hàn lâm Khoahọc và Công ngệ Việt Nam; 1 báo cáo trong kỷ yếu hội thảo quốc tế có phản biệnđược xuất bản bởi IEEE và 1 báo cáo tại hội thảo quốc gia có phản biện

Cấu trúc của luận án Luận án được bố cục thành các phần: Mở đầu, 3 chương, kết

luận, tài liệu tham khảo và các phụ lục

Chương 1 giới thiệu tổng quan về hệ dựa trên tri thức luật ngôn ngữ mờ và

ĐSGT, bao gồm: các khái niệm cơ bản, cấu trúc của hệ dựa trên tri thức luật ngônngữ mờ và ứng dụng giải bài toán phân lớp, giới thiệu các khái niệm cơ bản và vaitrò ứng dụng của ĐSGT

Chương 2 trình bày phương pháp mở rộng lý thuyết ĐSGT nhằm cung cấp một

cơ sở hình thức sinh lõi ngữ nghĩa và ngữ nghĩa tính toán dựa trên tập mờ hìnhthang của khung nhận thức ngôn ngữ và ứng dụng trong thiết kế hệ dựa trên tri thứcluật ngôn ngữ mờ cho bài toán phân lớp Các kết quả thực nghiệm và so sánh đánhgiá các phương pháp thiết kế hệ phân lớp dựa trên luật ngôn ngữ mờ với ngữ nghĩatính toán của từ ngôn ngữ được xác định dựa trên ĐSGT mở rộng với các phươngpháp khác cũng được đề xuất trong chương này

Chương 3 trình bày đề xuất thiết kế hiệu quả hệ phân lớp dựa trên luật ngôn

ngữ mờ với ngữ nghĩa tính toán của từ ngôn ngữ được xác định dựa trên ĐSGTbằng kỹ thuật tính toán mềm Cụ thể, đề xuất ứng dụng thuật toán tối ưu bầy đàn đamục tiêu và thuật toán tối ưu đa mục tiêu lai giữa thuật toán tối ưu bầy đàn với thuậttoán mô phỏng tôi luyện để tối ưu hệ dựa trên tri thức luật ngôn ngữ mờ, đề xuất ápdụng phương pháp lựa chọn đặc trưng nhằm làm giảm thời gian sinh luật ngôn ngữ

mờ đối với các tập dữ liệu có số chiều lớn

Trang 27

1.1 M T Ộ SỐ KHÁI NIỆM CƠ BẢN

1.1.1 Tập mờ

Lý thuyết tập mờ được Zadeh giới thiệu vào năm 1965 [123], mở rộng kháiniệm tập hợp kinh điển, nhằm biểu diễn mức độ thuộc của các phần tử vào một tậphợp

Định nghĩa 1.1 [123] Tập mờ A xác định trên tập kinh điển U là một tập mà mỗi

phần tử của nó là một cặp giá trị (x, μA(x)), trong đó ∋  với U là tập kinh điển

hay tập nền của tập mờ A và hàm μ A : U → [0, 1] là hàm thuộc với giá trị μ A (x) thể hiện mức độ thuộc của x vào tập mờ A □

Như vậy, hàm μA(x) nhận giá trị trong khoảng [0, 1] Với một tập mờ A trên U,

hàm  A (x) biểu diễn mức độ thuộc của x vào tập mờ A và giá trị của  A (x) càng gần

1 thì mức độ thuộc của x vào A càng cao Khi μA(x) = 1, x sẽ thuộc hoàn toàn vào

Trang 28

Định nghĩa 1.2 [124] Biến ngôn ngữ là một bộ 5 thành phần (X , T( X ), U, R, M),

trong đó X : tên biến, T( X): tập các giá trị ngôn ngữ của biến X , U: không gian các giá trị (số) của biến, R: quy tắc cú pháp sinh ra các giá trị ngôn ngữ T( X ), M: tập

các

Trang 29

luật ngữ nghĩa nhằm gán ngữ nghĩa của mỗi giá trị ngôn ngữ cho một tập mờ trên

nền U □

Khái niệm biến ngôn ngữ cung cấp một phương thức đặc tả tính gần đúng củacác hiện tượng được coi là quá phức tạp hay quá mập mờ theo cách mô tả dưới dạngđịnh lượng thông thường

Ví dụ 1.1 Biến ngôn ngữ và giá trị ngôn ngữ:

Câu 1: I am not tall

Biến ngôn ngữ: Height

Giá trị ngôn ngữ: Tall

Câu 2: I am heavy

Biến ngôn ngữ: Weight

Trang 30

Giá trị ngôn ngữ: Heavy Hình 1.1 Biến ngôn ngữ, các giá trị

ngôn ngữ và các tập mờ tương ứng

Trên Hình 1.1, các tập mờ biểu diễn ngữ nghĩa của các giá trị ngôn ngữ của

biến ngôn ngữ Height là “tall”, “medium”, “short”; của các giá trị ngôn ngữ của biến ngôn ngữ Weight là “heavy”, “medium”, “light”.

Một phân hoạch mờ A = {Ai | i = 1, …, n} bao phủ toàn bộ không gian X, nghĩa

là mỗi phần tử của X thuộc vào ít nhất một tập mờ Do đó: ∀ ∋  , ∃ ∈[1, ],  () > ߝ, trong đó, 0 < ߝ biểu thị mức phủ của X □

Mỗi phân hoạch mờ trong Định nghĩa 1.3 được gọi là một thể hạt (granularity)

và mỗi tập mờ trong phân hoạch được gọi là một hạt (granule) Một phân hoạch mờchỉ gồm một thể hạt được gọi là cấu trúc phân hoạch mờ đơn thể hạt (singlegranularity structure), gọi tắt là cấu trúc đơn thể hạt Ngược lại, một phân hoạch mờgồm nhiều thể hạt được gọi là cấu trúc phân hoạch mờ đa thể hạt (multiplegranularity structure), gọi tắt là cấu trúc đa thể hạt

Trang 31

a Cấu trúc phân hoạch mờ đơn thể hạt b Cấu trúc phân hoạch mờ đa thể hạt

Hình 1.2 Hai phân hoạch mờ đơn thể hạt và đa thể hạt

Ví dụ 1.2 Hình 1.2.a thể hiện phân hoạch mờ được phân hoạch bởi 6 tập mờ

được thiết kế dưới dạng cấu trúc đơn thể hạt và được gán các nhãn ngôn ngữ {“Rất trẻ”, “Trẻ”, “Ít trẻ”, “Ít già”, “Già”, “Rất già”} Hình 1.2.b thể hiện cấu trúc phân

hoạch mờ đa thể hạt (hai thể hạt) được phân hoạch bởi 9 tập mờ Thể hạt thứ nhất

bao gồm 4 tập mờ được gán các nhãn ngôn ngữ {“01” = “Vô cùng trẻ”, “trẻ”, “già”,

“11” = “Vô cùng già”}, thể hạt thứ hai bao gồm 5 tập mờ được gán các nhãn ngôn ngữ {“02” = “Vô cùng trẻ”, “rất trẻ”, “trung niên”, “rất già”, “12” = “Vô cùng già”} □

1.1.4 Luật ngôn ngữ mờ và hệ luật ngôn ngữ mờ

Luật ngôn ngữ mờ hay luật mờ if-then, được gọi tắt là luật mờ, là một phát biểu

có điều kiện dưới dạng if A then B Phần if của luật được gọi là giả thuyết hay tiền

đề luật, phần then của luật được gọi là kết luận Có hai loại luật mờ được sử dụng

phổ biến trong các mô hình mờ là Mamdani và Takagi-sugeno Đối với các luật mờMamdani, phần kết luận của luật được biểu diễn bằng các biến ngôn ngữ Đối vớicác luật mờ Takagi-Sugeno, phần kết luận của luật được biểu diễn bởi một hàm rõcủa các biến đầu vào Ngoài ra, còn có luật mờ Tsukamoto với phần kết luận đượcbiểu diễn bởi một tập mờ có hàm thuộc đơn điệu và kết quả suy luận của luật là giátrị rõ

Tập luật mờ hay hệ luật mờ là sự kết hợp của nhiều luật mờ Một hệ luật mờphải đảm bảo:

- Tính đủ: một điểm đầu vào phải có ít nhất một luật hoạt động.

- Tính nhất quán: không có hai luật nào có cùng phần if nhưng phần then lại

khác nhau

- Tính liên tục: không có phần then nào trống.

Trang 32

1.1.5 Bài toán phân lớp dữ liệu

Phân lớp nhằm xếp các mẫu dữ liệu hay các đối tượng vào một trong các lớp đãđược định nghĩa trước

Bài toán phân lớp dữ liệu là một bài toán kinh điển trong khai phá dữ liệu đượcnhiều tác giả nghiên cứu và thiết kế mô hình phân lớp nhằm đáp ứng các ứng dụngthực tế Bài toán phân lớp dữ liệu P được phát biểu như sau: cho một tập dữ liệu

mẫu D = {(dl, Cl), l = 1, …, m}, trong đó m là số mẫu dữ liệu, dl = [dl,1 , d l,2 , , d l,n]

là dòng thứ l trong m mẫu dữ liệu có n thuộc tính, C = {Cs | s = 1, …, M} là một tập gồm M nhãn lớp.

Giải bài toán phân lớp dữ liệu P là xây dựng mô hình phân lớp dựa trên tập dữ

liệu mẫu để phân lớp cho các dữ liệu với mục tiêu đạt độ chính xác phân lớp caonhất nhưng mô hình thu được phải thật đơn giản và dễ hiểu với người dùng Cácphương pháp học máy, mạng nơ-ron, hệ dựa trên luật mờ, … được sử dụng để xâydựng mô hình phân lớp đáp ứng mục tiêu trên

Quá trình xây dựng mô hình phân lớp thường được chia thành hai bước:

Bước 1 Huấn luyện: một mô hình phân lớp được xây dựng dựa trên các tập dữ

liệu mẫu đã được gán nhãn, được gọi là các tập dữ liệu huấn luyện Tùy thuộc vàophương pháp luận được sử dụng để xây dựng mô hình mà đầu ra của bước này là

một mô hình được biểu diễn bởi các quy tắc phân lớp dưới dạng các luật if-then,

mạng nơ-ron, cây quyết định, công thức logic, …

Bước 2 Thử nghiệm mô hình: sử dụng mô hình đã được xây dựng tại bước 1 để

phân lớp trên tập dữ liệu được gán nhãn khác được chọn ngẫu nhiên và độc lập vớitập dữ liệu huấn luyện Tập dữ liệu này được gọi là tập dữ liệu kiểm tra Nếu độchính xác của mô hình là chấp nhận được thì mô hình được dùng để phân lớp dữliệu tương lai

1.2 HỆ DỰA TRÊN LUẬT NGÔN NGỮ MỜ

Các công cụ toán học truyền thống không phù hợp đối với việc mô hình hóa và

xử lý các hệ không rõ ràng và không chắc chắn Với việc khai thác tri thức được

biểu diễn dưới dạng các luật ngôn ngữ mờ dạng if-then, một hệ dựa trên luật ngôn

ngữ mờ có thể mô hình hóa được khía cạnh định tính của tri thức và các quá trìnhsuy luận của con người mà không cần phân tích định lượng một cách chính xác

Trang 33

1.2.1 Cấu trúc của hệ d a ự trên luật ngôn ngữ mờ

Các hệ dựa trên luật ngôn ngữ mờ được ứng dụng trong nhiều lĩnh vực khácnhau như điều khiển tự động, nhận dạng mẫu, chuẩn đoán lỗi, … Chúng có cấu trúc

và tên gọi khác nhau gắn với lĩnh vực ứng dụng như hệ chuyên gia mờ, bộ nhớ liênhợp mờ hay hệ điều khiển mờ Chia theo kiểu luật ngôn ngữ mờ được sử dụng đểbiểu diễn cơ sở tri thức thì có hệ dựa trên luật ngôn ngữ mờ Mamdani (mô hình mờMamdani), hệ dựa trên luật ngôn ngữ mờ Takagi-Sugeno (mô hình mờ Takagi-Sugeno), hệ dựa trên luật ngôn ngữ mờ Tsukamoto (mô hình mờ Tsukamoto là mộtbiến thể của mô hình mờ Takagi-Sugeno với phần kết luận là một hàm đơn điệu) vàmột biến thể của mô hình mờ Mamdani sử dụng toán tử nhân là mô hình mờLarsen

Mỗi mô hình mờ cụ thể có cấu trúc khác nhau, nhưng về cơ bản bao gồm haithành phần chính: cơ sở tri thức (knowledge base) và hệ suy luận (inferencesystem) Cơ sở tri thức được cấu tạo bởi hai thành phần chính là cơ sở dữ liệu và cơ

sở luật Cơ sở dữ liệu bao gồm tập các giá trị ngôn ngữ được dùng trong biểu diễn

cơ sở luật và các hàm thuộc biểu diễn ngữ nghĩa của các giá trị ngôn ngữ Cơ sởluật biểu diễn tri thức liên quan đến bài toán cần giải quyết dưới dạng các luật ngônngữ mờ Hệ suy luận áp dụng một phương pháp suy luận mờ trên các đầu vào và cơ

sở tri thức nhằm tạo sinh kết quả sau quá trình suy luận Trên Hình 1.3 là cấu trúc

cơ bản của một hệ dựa trên luật ngôn ngữ mờ Mamdani [27]

Hình 1.3 Cấu trúc cơ bản của một hệ dựa trên luật ngôn ngữ mờ Mamdani [27]

Cả cơ sở tri thức và hệ suy luận cần được thiết kế để xây dựng một hệ dựa trênluật ngôn ngữ mờ cho các ứng dụng cụ thể Cơ sở tri thức có thể được thu nhận từtri thức của các chuyên gia hoặc bằng các phương pháp học máy (machinelearning) Với các tiếp cận dựa trên lý thuyết tập mờ và logic mờ, hệ suy luận đượcthiết lập bởi các toán tử mờ đối với các phép hợp thành, suy dẫn và giải mờ Cáctoán tử này có thể được tham số hóa và được hiệu chỉnh thích nghi bởi các phươngpháp tối ưu Những yếu tố ảnh hưởng đến kết quả tính toán trong quá trình suy luậnbao gồm:

Trang 34

- Việc chọn các hàm thuộc dùng để biểu diễn ngữ nghĩa của các tập mờ.

- Việc chọn các toán tử suy dẫn (implication) để tính toán các quan hệ mờ

- Việc chọn phép hợp thành

- Việc chọn phương pháp giải mờ

Các lựa chọn trên chủ yếu dựa vào trực giác kinh nghiệm và qua thực nghiệmtrên các bài toán thực tế Các lựa chọn khác nhau có thể cho kết quả đối nghịch

1.2.2 Bài toán thiết kế hệ phân lớp d a ự trên luật ngôn ngữ

Từ những năm 1990, một số phương pháp trích rút hệ luật ngôn ngữ mờ từ dữ liệucho bài toán phân lớp đã được đề xuất [11, 61] Các nghiên cứu sau này về cơ bản

đề xuất các kỹ thuật nhằm cải tiến các phương pháp này Ưu điểm của mô hình này:

- Vì các hệ dựa trên luật ngôn mờ là công cụ xấp xỉ vạn năng các hàm phituyến nên chúng có thể giải quyết hiệu quả các bài toán phân lớp phi tuyến

- Người dùng cuối có thể sử dụng những tri thức dạng luật được trích rút từ dữliệu số có tính dễ hiểu, dễ sử dụng đối với con người như là những tri thức của họ.Luật ngôn ngữ mờ được sử dụng trong FLRBC được gọi là luật mờ phân lớp

Luật mờ phân lớp dạng if-then với các điều kiện mờ nằm trong phần if và một nhãn lớp kết luận nằm trong phần then được nghiên cứu rộng rãi do không cần quá trình

giải mờ Hệ các luật mờ phân lớp bao gồm một tập luật mờ có trọng số dạng:

Luật R q : if X 1 is A q,1 and and X n is A q,n then C q with CF q , với q=1 N (1.1)

trong đó X = {X j , j = 1, , n} là tập n biến ngôn ngữ (thuộc tính) và A q,j (j=1, , n)

là các giá trị ngôn ngữ của các điều kiện mờ trong tiền đề, Cq là nhãn lớp kết luận

của R q và N là số luật mờ, CF q là trọng số của luật thứ q Luật R q có thể được viết tắtdưới dạng  ⟹  with CF q , trong đó A q là tiền đề của luật thứ q.

Hệ các luật mờ phân lớp, ký hiệu là S, biểu diễn tri thức về bài toán nên nó

không chỉ phản ảnh tính đúng đắn đối với tập dữ liệu mẫu mà còn có khả năng dựđoán giúp cho người dùng phán đoán, ra quyết định Do đó, hệ luật phải xúc tích, dễhiểu và có thể mở rộng đối với người dùng

Trang 35

Giải bài toán thiết kế FLRBC là xây dựng bài toán trích rút tự động hệ luậtngôn ngữ mờ từ dữ liệu sao cho hệ luật thu được phải dễ hiểu, tức là số luật và sốđiều kiện tạo nên luật phải đủ nhỏ, ngữ nghĩa tính toán của các giá trị ngôn ngữ củacác biến ngôn ngữ xuất hiện trong hệ luật phải phản ánh được đúng ngữ nghĩa củabản thân chúng nhưng vẫn đảm bảo hiệu quả phân lớp cao.

Ký hiệu fp(S), fn(S) và fa(S) lần lượt là hàm đánh giá độ chính xác phân lớp của

hệ S đối với tập dữ liệu huấn luyện, số luật trong hệ S và độ dài trung bình hay số điều kiện trung bình của vế trái của các luật trong hệ S Khi đó, mục tiêu xây dựng

hệ phân lớp thỏa các mục tiêu:

f p(S) → max, fn(S) → min và fa(S) → min (1.2)

Các mục tiêu trên mâu thuẫn nhau Khi số luật tăng lên thì lượng tri thức về bàitoán tăng lên, nhưng lại tăng tính khó hiểu của hệ luật Ngược lại, khi số luật giảmthì lượng tri thức về bài toán giảm đi dẫn đến sai số phân lớp tăng lên Mặt khác, sốđiều kiện trung bình của hệ luật phản ảnh tính phổ quát và tính cá biệt của hệ luật

Do đó, khi số điều kiện trung bình của hệ luật giảm đi sẽ làm tăng tính phổ quát của

hệ luật nhưng lại dẫn đến nguy cơ sai số phân lớp tăng lên Ngược lại, khi số điềukiện trung bình của hệ luật tăng lên làm tăng tính cá biệt của hệ luật Các phươngpháp giải bài toán phân lớp dựa trên luật mờ phải cân bằng các mục tiêu trên

Các bước của bài toán thiết kế FLRBC theo tiếp cận lý thuyết tập mờ bao gồm:

Bước 1 Phân hoạch miền giá trị của các thuộc tính của tập dữ liệu thành các

vùng mờ bằng các tập mờ tương ứng với các giá trị ngôn ngữ của biến ngôn ngữ

Bước 2 Trích rút các luật mờ từ các phân hoạch mờ được tạo ở bước 1 sao cho

hệ luật mờ S thu được nhỏ gọn, dễ hiểu và có độ chính xác phân lớp cao.

Hai phương pháp phân hoạch mờ thường được sử dụng cho FLRBC là phânhoạch lưới (grid partition) được Ishibuchi và các cộng sự đề xuất trong [61] và phânhoạch rời rạc (scatter partition) rạc được Abe và Lan đề xuất trong [11]

- Phương pháp phân hoạch lưới chia miền giá trị của các thuộc tính thành cácsiêu hộp mờ và mỗi luật mờ được hình thành từ một tổ hợp của các giá trị ngôn ngữtrong không gian phân hoạch tương ứng với một siêu hộp mờ có chứa dữ liệu Nếuphân hoạch lưới quá thưa thì khả năng các mẫu dữ liệu của các lớp khác nhau có thểthuộc cùng một siêu hộp mờ và độ chính xác có thể thấp vì nhiều mẫu bị phân lớpsai Ngược lại, nếu phân hoạch quá mịn thì nhiều luật có thể không được sinh ra dothiếu các mẫu dữ liệu huấn luyện trong các không gian mờ con tương ứng Để cânbằng giữa tính thưa và mịn của lưới phân hoạch Ishibuchi đã đề xuất phân hoạch đa

Trang 36

lưới, tức dùng nhiều lưới dữ liệu từ thưa đến mịn Tuy nhiên, nhược điểm chính củacách phương pháp phân hoạch đa lưới là số luật mờ được sinh ra rất lớn, đặc biệtđối với các tập dữ liệu có số chiều lớn [61-63].

Hình 1.4 Phân hoạch lưới trên miền của hai thuộc tính

Hình 1.4 thể hiện một phân hoạch lưới mờ đối với tập dữ liệu có hai thuộc tính

sử dụng ba tập mờ tam giác ứng với các giá trị ngôn ngữ là “nhỏ”, “trung bình” và

“lớn” Ba lớp được biểu thị bằng dấu tròn, vuông và tam giác.

Hình 1.5 Phân hoạch rời rạc trên miền của hai thuộc tính

- Phương pháp phân hoạch rời rạc thực hiện phân hoạch mờ dựa trên sự phân

bố dữ liệu và thường áp dụng các phương pháp học máy (machine learning) gắn vớiphương pháp hiệu chỉnh các tham số mờ của hệ mờ Phương pháp phân hoạch nàythường cho độ chính xác phân lớp cao nhưng các tập mờ trong phân hoạch thường

Trang 37

bị biến dạng và chồng lấn lên nhau gây khó hiểu đối với người sử dụng Ta dễ dàng nhận thấy nhược điểm này trong Hình 1.5.

Trong bước trích rút các luật mờ từ các phân hoạch mờ, một số lượng khổng lồcác luật mờ có thể được tạo ra, trong đó có nhiều luật không có ý nghĩa quyết địnhvào quá trình phân lớp [61] Nhóm tác giả Ishibuchi đã đề xuất ý tưởng sử dụng cácthước đo đánh giá luật dựa trên độ tin cậy (confidence) và độ hỗ trợ (support) trongkhai phá dữ liệu theo công thức (1.3) và (1.4) làm tiêu chuẩn sàng (prescreeningcriteria) để sàng lọc ra các luật ứng viên cho tiến trình lựa chọn luật [67]:

∑∈   

Trang 38

kiện Aq của luật Rq và thường được tính bằng biểu thức toán tử nhân (productoperator) như sau:

luật cho độ chính xác phân lớp tốt hơn các tiêu chuẩn còn lại

- Nhãn lớp của từng điều kiện tiền đề Aq được xác định như sau:

 = {( ⇒  )|ℎ = 1, … , } (1.6)

- Nhằm cải thiện độ chính xác phân lớp, nhóm tác giả H Ishibuchi đã đề xuấtcác phương pháp tính trọng số luật [61, 68] như sau:

 =  ⟹  , (1.7)

 =  ⟹   − , , (1.8)

 =  ⟹   − , , (1.9)

 =  ⟹   − , , (1.10)

trong đó, cq,Ave là độ tin cậy trung bình của các luật có cùng điều kiện Aq nhưng

Trang 39

c q,2nd là độ tin cậy lớn nhất của các luật có cùng điều kiện Aq nhưng khác kết luận

khác Cq.

ܿ, = max ⟹  ℎ | ℎ = 1, … , ; ℎ ≠   , (1.12)

c q,Sum là tổng độ tin cậy của các luật có cùng tiền đề Aq nhưng khác phần kết luận

C q.

Trang 40

Qua các kết quả thực nghiệm các tác giả thấy rằng, việc sử dụng công thức tính

quả tốt hơn các công thức còn lại Công thức  có nhược điểm là có thể cho giá

trị âm do giá trị , lớn hơn độ tin cậy  ⟹   Trong trường hợp này, các

luật có trọng số âm bị loại bỏ khỏi tập luật ứng viên

Có thể áp dụng một trong hai phương pháp lập luận đối với hệ luật S để phân lớp cho một mẫu dữ liệu d p = [d p,1 , d p,2 , , d p,n]

- Phương pháp lập luận là Single Winner Rule: chọn luật thắng (winner rule)

R w là luật có tích của độ tương thích hay độ đốt cháy ߤ   và trọng số luật CFq

là lớn nhất và phân lớp tương ứng với nhãn lớp C w của luật đó:

ߤ



   ×  = argmax  ߤ

   ×   ∈  (1.14)

- Phương pháp lập luận bầu cử có trọng số (weighted vote) chọn lớp có tổng

mức đốt cháy lớn nhất của các luật có cùng kết luận đối với mẫu dữ liệu dp:

tối ưu đa mục tiêu được sử dụng để trích chọn ra một số luật từ mỗi lớp cho hệ phânlớp sao cho hệ luật thu được nhỏ gọn và đạt độ chính xác phân lớp cao

Định dạng
Số trang	220
Dung lượng	4,6 MB