Hình 11 Biểu đồ phân cấp chức năng hệ thống Hình 12 Biểu đồ luồng dữ liệu mức khung cảnh Hình 13 Biểu đồ luồng dữ liệu mức đỉnh Hình 14 Biểu đồ luồng dữ liệu mức dưới đỉnh cho chức nă
Trang 1B Ộ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
Trang 2Tôi – Vũ Thị Kim Hoan -
cam kết Luận văn tốt nghiệp là công trình nghiên cứu của bản thân tôi dưới sự hướng dẫn của GS.TS Trần Đình Khang, Viện CNTT-TT, Trường Đại
học Bách Khoa Hà Nội
Các kết quả nêu trong Luận văn tốt nghiệp là trung thực, không sao chép toàn văn của bất kỳ công trình nào khác
Hà Nội, ngày 28 tháng 5 năm 2013
Học viên: Vũ Thị Kim Hoan
Lớp : Cao học 10BCNTTHV
Trang 3thầy , PGS.TS Trần Đình Khang
thầy
Trang 4M ỤC LỤC
2
3
MỤC LỤC 4
DANH MỤC CHỮ VIẾT TẮT 6
DANH MỤC HÌNH VẼ 7
PHẦN MỞ ĐẦU 8
CHƯƠNG I: TỔNG QUAN 10
1.1 Giới thiệu đề tài 10
1.2 Mục tiêu và giải pháp 10
1.2.1 Mục tiêu 10
1.2.2 Giải pháp 10
1.3 Nội dung của luận văn 11
CHƯƠNG II: CÁC KHÁI NIỆM CƠ BẢN 12
2.1 Tập mờ, các phép toán trên tập mờ 12
2.1.1 Tập mờ, các đặc trưng của tập mờ 12
2.1.2 Các phép toán trên tập mờ 13
2.2 Quan hệ mờ 16
2.3 Suy luận mờ 17
2.3.1 Biến ngôn ngữ và mệnh đề mờ 17
2.3.2 Luật hợp thành mờ 19
2.4 Mô hình hóa mờ 21
2.4.1 Cấu trúc và hoạt động của một mô hình mờ 21
2.4.2 Phân loại mô hình mờ 24
2.4.3 Kỹ thuật mô hình hóa mờ 26
2.5 Khám phá tri thức và khai phá dữ liệu 28
2.5.1 Quá trình khám phá tri thức 29
2.5.2 Các hư ớng tiếp cận cơ bản và kỹ thuật áp dụng trong khai phá dữ liệu 30
2.6 Mô hình mờ dựa trên phân cụm dữ liệu 31
CHƯƠNG III: XÂY DỰNG MÔ HÌNH MỜ DỰA TRÊN PHÂN TÍCH PHÂN CỤM DỮ LIỆU MỜ 32
3.1 Mô hình hóa mờ dựa trên phân tích phân cụm dữ liệu 32
3.2 Định nghĩa biến mờ và hàm thuộc 34
3.3 Nhận dạng cấu trúc và lựa chọn các tham số khởi tạo 35
3.3.1 Giải thuật 1: Giải thuật sinh luật mờ từ một bộ dữ liệu vào-ra 35
3.3.2 Giải thuật 2: Giải thuật xác định số luật C và các giá trị tham số khởi tạo 36
Trang 53.4 Nhận dạng tham số 38
3.4.1 Giải thuật 3: Tối ưu hóa các tham số mô hình 39
CHƯƠNG IV: BÀI TOÁN ỨNG DỤNG 41
4.1 Phát biểu bài toán 41
4.2 Đề xuất phương pháp giải quyết 42
4.2.1 Bước tiền xử lý 42
4.2.2 Bước nhận dạng ký tự 43
4.3 Giới thiệu về công cụ cài đặt 44
4.3.1 Image Processing Toolbox 44
4.3.2 Fuzzy Logic Toolbox 45
4.4 Phân tích và thiết kế hệ thống 46
4.4.1 Phân tích hệ thống 46
4.4.2 Thiết kế 56
4.4.3 Kết quả thu được 62
KẾT LUẬN 63
1 Các nội dung đã hoàn thành 63
2 Hướng phát triển luận văn 63
TÓM TẮT LUẬN VĂN 64
THESIS SUMARY 65
DANH MỤC TÀI LIỆU THAM KHẢO 66
Trang 6DANH M ỤC CHỮ VIẾT TẮT
T ừ viết tắt T ừ đầy đủ
ERD Euclidean Relative Distance
Trang 7Hình 10 Biểu đồ luồng của thuật toán nhận dạng
Hình 11 Biểu đồ phân cấp chức năng hệ thống
Hình 12 Biểu đồ luồng dữ liệu mức khung cảnh
Hình 13 Biểu đồ luồng dữ liệu mức đỉnh
Hình 14 Biểu đồ luồng dữ liệu mức dưới đỉnh cho chức năng 1
Hình 15 Chức năng tách vùng thẻ nhân viên
Hình 16 Chức năng tách ký tự
Hình 17 Trích chọn đặc trưng
Hình 18 Chức năng trích chọn đặc trưng
Hình 19 Biểu đồ luồng dữ liệu mức dưới đỉnh ứng với chức năng 2
Hình 20 Biểu đồ luồng dữ liệu mức 3 với chức năng nhận dạng ký tự
Hình 21 Chức năng sinh luật và khởi tạo tham số hệ thống
Hình 22 Chức năng tối ưu hóa tham số hệ thống
Hình 23 Lưu đồ giải thuật nhận dạng
Hình 24 Chức năng tạo mới một FIS
Hình 25 Chức năng suy diễn mờ
Hình 26 Chức năng khử mờ
Hình 27 File training data
Hình 28 File rule base
Hình 29 Các biến mờ đầu ra
Hình 30 File đầu ra chứa kết quả nhận dạng
Hình 31 Giao diện chính của chương trình
Hình 32 Chức năng Show FIS
Hình 33 Chức năng Show MF
Hình 34 Chức năng Show Rules
Trang 8PH ẦN MỞ ĐẦU
Ngày nay Việt Nam bước vào thời kỳ hội nhập và chủ động hội nhập với nền kinh tế toàn cầu và khu vực đã làm cho đời sống xã hội có nhiều biến đổi, nhất là sự
biến đổi về chất lượng cuộc sống Nhiều doanh nghiệp lớn nhỏ lần lượt ra đời đòi hỏi
phải có sự quản lý chặt chẽ Nhu cầu tin học hóa sẽ giúp các doanh nghiệp rất nhiều trong việc quản lý
Trong những năm gần đây, mô hình hóa hệ thống mờ là một trong những công
cụ mô hình hóa hệ thống nổi bật được sử dụng trong việc phân tích các dữ liệu theo
dạng không chắc chắn, không rõ ràng
Kỹ thuật mô hình hóa trải qua thời gian đã chứng tỏ được thế mạnh và tầm quan
trọng của mình, nó giúp con người mô phỏng lại hệ thống thực, có thể bắt chước đủ chính xác hành vi của hệ thống đó, thể hiện qua phản ứng đầu ra của mô hình khi có tác động phía đầu vào so với thực nghiệm Mô hình được xây dựng có ý nghĩa rất quan
trọng trong thực tiễn, nó giúp con người tiết kiệm được chi phí cũng như hạn chế
những tổn thất so với thực nghiệm trong thế giới thực Bằng việc tiến hành kiểm thử trên mô hình chúng ta sẽ tiêu tốn ít thời gian hơn, công việc phải làm đơn giản hơn
Trước nền kinh tế với xu thế hội nhập, mở cửa, các doanh nghiệp luôn luôn vận động và chuyển mình theo xu thế đó Mỗi bước tiến dù lớn hay nhỏ, nhưng cũng là một đóng góp vào sự phát triển của doanh nghiệp Chấm công là phần công việc quan trọng không thể bỏ qua và cực kỳ quan trọng trong công tác quản lý nhân sự Đây là công
việc dễ gây nhiều sai sót nhất, gây lãng phí thời gian, con người của bất kỳ doanh nghiệp nào
Mô hình nhận dạng mã số nhân viên tự động giúp môi trường làm việc chuyên nghiệp hơn, nâng cao ý thức kỷ luật đối với nhân viên, tạo nên sự công bằng trong việc
chấm công nhân viên Mặt khác, đó còn là xu thế hiện đại hoá công tác quản trị hành chính trong Công ty, giúp giảm thiểu những sai sót và giúp người quản lý đánh giá một cách chính xác, tạo ra hệ thống khen thưởng, kỷ luật và môi trường lao động tin cậy
Trang 9Trong khuân khổ luận văn này, em xin được trình bày một số kiến thức về lý thuyết tập mờ, mô hình hóa mờ và sử dụng kỹ thuật mô hình hóa mờ dựa trên phân tích phân cụm dữ liệu ứng dụng vào nhận dạng mã số nhân viên trong quản lý nhân sự tại Công ty phanh NISSIN Nghiên cứu đã tập trung vào đối tượng là các thẻ nhân viên của nhà máy được thu thập bằng hình ảnh làm cơ sở dữ liệu cho việc xử lý
Trang 10CHƯƠNG I: TỔNG QUAN 1.1 Gi ới thiệu đề tài
Luận văn "Mô hình hóa mờ và ứng dụng" là một trong những công cụ mô hình hóa hệ thống nổi bật được sử dụng trong việc phân tích các dữ liệu theo dạng không
chắc chắn, không rõ ràng Luận văn giúp hiểu rõ hơn về lý thuyết tập mờ, mô hình hóa
mờ và ứng dụng vào nhận dạng mã số nhân viên trong qu ản lý nhân sự tại Công ty phanh NISSIN
Luận văn không chỉ giúp ta hiểu được về lý thuyết tập mờ nâng cao, xây dựng được mô hình hóa mờ mà còn giúp ta có thể mở rộng hướng phát triển, xây dựng được
mô hình với độ chính xác cao hơn có thể áp dụng được vào bài toán thực tế
1.2 M ục tiêu và giải pháp
1.2.1 M ục tiêu
Mục tiêu của Luận văn là nghiên cứu và tìm hiểu về hệ mờ, mô hình hóa mờ sử
dụng kỹ thuật mô hình hóa mờ dựa trên phân tích phân cụm dữ liệu nhằm nhận dạng
mã số nhân viên tự động
Nghiên cứu này tập trung giải quyết tất cả các vấn đề nảy sinh từ việc xử lý các ảnh thẻ nhân viên cho đến việc đưa ra chính xác mã số nhân viên Cụ thể hơn, yêu cầu của bài toán là áp dụng các thuật toán thích hợp tìm vùng chứa mã số nhân viên, trích vùng mã
số nhân viên, tách các ký tự trên vùng mã số nhân viên đó, và cuối cùng là áp dụng một
giải thuật nhận dạng mã số nhân viên
1.2.2 Gi ải pháp
1.2.2.1 Tìm hi ểu về logic mờ và mô hình hóa mờ
Tìm hiểu các lý thuyết cơ bản về logic mờ, tổng quan về mô hình hóa mờ và kỹ thuật mô hình hóa mờ
1.2.2.2 Mô hình hóa m ờ dựa trên phân tích phân cụm dữ liệu
Mục này trình bày một phương pháp luận giúp nhận dạng hệ mờ Trong bước đầu tiên, xác định một hàm khoảng cách (distance function) để tiến hành sinh tự động các luật
Trang 11mờ Đồng thời, thuật toán cũng chỉ ra một sự lựa chọn cho việc ước lượng tham số hệ
thống Những tham số này về sau được sử dụng làm giá trị khởi tạo cho vòng lặp tối ưu hóa tham số Phương pháp phân tích phân cụm được đề xuất để tối ưu hóa tham số tiền nghiệm và phương pháp bình phương nhỏ nhất sẽ được sử dụng để tối ưu hóa các tham số
hậu nghiệm Số lượng các luật sinh ra được điều khiển bởi hiệu năng của hệ thống
Công cụ dự kiến sử dụng Fuzzy logic toolbox của Matlab
1.3 N ội dung của luận văn
Luận văn chia làm năm chương, phụ lục các hình vẽ và kết quả tập luật thu được từ thuật toán Nội dung gồm có:
- Chương 1: Tổng quan
Chương này nhằm giới thiệu nội dung của đề tài, mục tiêu và giải pháp cho đề tài, giới thiệu công cụ phát triển
- Chương 2: Các khái niệm cơ bản
Chương này trình bày các khái niệm cơ bản về logic mờ, phân cụm dữ liệu cũng như mô hình hóa mờ
- Chương III: Xây dựng mô hình mờ dựa trên phân tích phân cụm dữ liệu
Đưa các giải thuật xây dựng tập các mô hình mờ sử dụng kỹ thuật mô hình hóa
mờ dựa trên phân tích phân cụm dữ liệu
- Chương IV: Bài toán ứng dụng
Sử dụng kỹ thuật mô hình hóa mờ dựa trên phân tích phân cụm dữ liệu nhằm
nhận dạng mã số nhân viên tự động tại Công ty phanh NISSIN
Thực hiện mô phỏng hệ thống bằng công cụ Matlab
- Chương V: Kết luận
Đưa ra kết quả của Luận văn, những kết quả hướng tới từ đó đề xuất phương hướng nghiên cứu tiếp theo
Trang 12CHƯƠNG II: CÁC KHÁI NIỆM CƠ BẢN
Kỹ thuật mô hình hóa mờ là một hướng tiếp cận của bài toán mô hình hóa Để trình bày một cách có hệ thống, luận văn đưa ra các khái niệm cơ bản trong lý thuyết
tập mờ có liên quan Tiếp theo sẽ trình bày các vấn đề về mô hình hóa nói chung và xoay quanh vấn đề chính- mô hình hóa mờ
2.1 T ập mờ, các phép toán trên tập mờ
2.1.1 T ập mờ, các đặc trưng của tập mờ
Có thể nói cho đến nay, phần lớn các thành tựu của khoa học của loài người đều
dựa trên lập luận logic rất chặt chẽ mà nền tảng của các lập luận này là đại số logic Bool Trong đại số logic Bool mọi toán hạng, biểu thức chỉ có giá trị 0 (false) hoặc 1 (true) Tuy nhiên trên thực tế điều này không luôn luôn đúng, nhiều hiện tượng trong tự nhiên và xã hội không thể biểu diễn rõ ràng như vậy Để có thể phản ánh đúng bản chất
của các sự vật, hiện tượng diễn ra trong thực tế, buộc người ta phải mở rộng đại số Bool để sao cho các toán hạng, các biểu thức có thể nhận giá trị không chỉ là 0 hoặc 1
mà chúng có thể nhận giá trị nào đó nằm giữa 0 và 1
Một cách tự nhiên để xây dựng lí thuyết mờ, người ta phải đi từ những khái niệm nguyên thuỷ nhất Trong toán học, tập hợp được coi là khái niệm nguyên thủy, là cơ sở
của nền toán học, còn trong lý thuyết mờ khái niệm cơ bản nhất là khái niệm tập mờ
2.1.1.1 Định nghĩa:
Tập mờ là một tập hợp mà mỗi phần tử cơ bản của nó được gán thêm một giá trị
thựcµ (x) ∈[0, 1] để chỉ độ phụ thuộc của nó vào tập đã cho Độ phụ thuộc càng lớn thì phần tử thuộc về tập càng lớn Khi độ phụ thuộc bằng 0 thì phần tử đó sẽ không hoàn toàn thuộc về tập đã cho Ngược lại với độ phụ thuộc bằng 1 phần tử cơ bản sẽ thuộc tập hợp với xác suất 100%
F là tập mờ trên không gian nền X nếu F được xác định bởi hàm: µF: X [0, 1]
F
µ là hàm thuộc và µF(x) là độ thuộc của x vào tập mờ F
Trang 13Có thể ký hiệu F = {(µF(x ), x): x ∈X}
ViệcµF(x ) có giá trị bất kỳ trong khoảng [0, 1] là điều khác biệt cơ bản giữa tập
rõ và tập mờ Ở tập rõ hàm thuộc chỉ có hai giá trị:
+ µF(x ) = 1 nếu x ∈ F
+ µF(x ) ≠1 nếu x ∉ F
2.1.1.2 Các đặc trưng của tập mờ
Những đặc trưng hữu ích nhất của một tập mờ F của X là những đặc trưng nhằm
chỉ rõ tập mờ F khác với một tập con thông thường của X ở điểm nào
Đặc trưng thứ nhất là giá của F, là tập những phần tử của x ít nhất có thuộc F
Định nghĩa 1.1: Giá của tập mờ F, ký hiệu supp(F), là một bộ phận của X trên
đó hàm thuộc của F khác không: supp(F) = { x ∈ X | µF(x) ≠0}
Đặc trưng thứ hai của F là độ cao của nó, ký hiệu h(F), là độ thuộc lớn nhất mà
một phần tử của X thuộc F
Định nghĩa 1.2: Độ cao của tập mờ F, ký hiệu h(F), của tập con mờ F cuả X là
giá trị lớn nhất mà hàm thuộc có thể lấy được: h(F) = Sup {µF(x) | x ∈ X }
Đặc trưng thứ ba của F là tập mờ chuẩn hóa, là có ít nhất một phần tử của X thuộc tuyệt đối vào F
Định nghĩa 1.3: Tập con mờ F của X là chuẩn hóa nếu chiều cao h(F) = 1
Đặc trưng thứ tư là hạt nhân của F, là tập những phần tử thuộc F tuyệt đối
Định nghĩa 1.4: Hạt nhân của F, ký hiệu ker(F), là tập các phần tử của X mà tại
đó hàm thuộc của F có giá trị 1: Ker(F) = {x ∈ X | µF(x) = 1 }
Khi một tập X hữu hạn, ta còn đặc trưng tập mờ F của X bởi lực lượng của nó,
chỉ rõ độ thuộc tổng thể mà các phần tử của X thuộc F
2.1.2 Các phép toán trên t ập mờ
2.1.2.1 S ự bằng nhau và sự bao hàm của các tập mờ
Trang 14Trước hết cần phải định nghĩa sự bằng nhau của hai tập mờ A và B của cùng
một tập tham chiếu X Trong lý thuyết tập hợp cổ điển, hai tập con A và B của X là
bằng nhau với điều kiện là một phần tử x của X thuộc A nếu và chỉ nếu nó thuộc B, có nghĩa là µA(x) = µB(x) với mọi x Tương tự như vậy trong lý thuyết tập mờ hai tập mờ được gọi là bằng nhau nếu:
Định nghĩa 1.5: Hai tập mờ A và B của X là bằng nhau nếu các hàm thuộc của
chúng lấy cùng giá trị với mọi phần tử của X: ∀ x ∈ X | µA(x) = µB(x)
Tập được chứa trong (bao hàm trong) tập B nếu mọi phần tử x của X thuộc A
cũng thuộc B, có nghĩa là µA(x) ≤ µB(x) với mọi x Bằng cách mở rộng, ta nói rằng tập
A của x bao hàm trong tập mờ B của X nếu mọi phần tử x của X thuộc A, thì cũng thuộc B
Định nghĩa 1.6: Cho hai tập mờ A và B của X, ta nói rằng A bao hàm trong B,
ký hiệu A⊆ B, nếu các hàm thuộc của chúng thỏa mãn điều kiện: ∀ x ∈ X | µA(x) ≤ µB(x)
2.1.2.2 Giao c ủa hai tập hợp mờ
Giả sử A và B là hai tập con mờ với các hàm thuộc tương ứng µA(x), µB(x) Giao của hai tập con mờ A, B trên cùng một không gian nền X là 1 tập con mờ trên X
1 µA∩B(x) = min { µA(x), µB(x)}
2 µA∩B(x) =
min ( µA(x), µB(x)) nếu max ( µA(x), µB(x))=1
0 trong các trường hợp còn lại
Trang 15A và B là hai tập con mờ với các hàm thuộc tương ứng µA(x), µB(x) Hợp của hai tập
mờ A và B kí hiệu là A ∪ B là một tập mờ với hàm thuộc kí hiệu µA ∪ B(x) xác đ ịnh bởi:
1 µA ∪ B(x) = max { µA(x), µB(x)}
2 µA ∪ B(x) =
max ( µA(x), µB(x)) nếu min ( µA(x), µB(x))=0
1 trong các trường hợp còn lại
Phần bù Ac
của tập con mờ A của X là một tập con mờ sao cho một phần tử x
của X càng thuộc nhiều vào Ac
chừng nào nó càng ít thuộc vào A
Trang 16Cho hai tập tham chiếu U và V Nếu ta biết một quan hệ R giữa U và V, ta có
thể biểu diễn nó bằng một hàm đặc trưng μRxác định trên tích Descartes UxV, với μR(u, v) = 1 nếu u và v có quan hệ qua trung gian của R, μR(u, v) = 0 trong trường hợp ngược lại
Nếu tồn tại một mối liên hệ giữa các phần tử của U và V được biết không chính xác,
gần đúng hoặc có cấp độ, hoặc là một mối liên hệ giữa chính các phần tử được nhận
biết không chính xác của U và V thì khó mà biểu diễn bằng quan hệ cổ điển Vì vậy quan hệ mờ R được đưa ra để mềm dẻo các hàm đặc trưng cổ điển
Quan hệ mờ đóng vai trò quan trọng trong Logic mờ và lập luận xấp xỉ Khái
niệm quan hệ mờ là sự tổng quát hoá trực tiếp của khái niệm quan hệ (quan hệ rõ)
Trước hết ta nhắc lại về khái niệm quan hệ
Giả sử U và V là hai tập Một quan hệ R từ U đến V (sẽ được gọi là quan hệ 2 ngôi, hoặc quan hệ nhị nguyên ) là một tập con của tích đề các U×V Trong trường hợp
U = V, ta nói R là quan hệ trên U Chẳng hạn, tập R bao gồm tất cả các cặp người (a, b) trong đó a là chồng của b, xác định quan hệ “vợ _ chồng” trên tập người nào đó
Khi U và V là các tập hữu hạn, chúng ta sẽ biểu diễn quan hệ R từ U đến V bởi
ma trận, trong đó các dòng được đánh dấu bởi các phần tử x ∈ U và các cột được đánh
dấu bởi các phần tử y ∈ V Phần tử của ma trận nằm ở dòng x, cột y là λR(x,y)
1 nếu (x,y) ∈R
0 nếu (x,y) ∉R
Định nghĩa 2.1: Quan hệ mờ trên tích Đề-các
Cho U, V là hai tập và u ∈ U, v ∈ V Ký hiệu (u, v) là cặp thứ tự nằm trong tích Đề-các UxV Tập mờ R = {(u, v), µR(u, v)| (u, v) ∈ UxV} được gọi là một quan hệ mờ trên UxV với hàm thuộc: µR(u, v): UxV→ [0,1]
λR(x,y) =
Trang 17Nếu R là một tập mờ trong U = U1×U2×….×Un thì R được gọi là một quan hệ
mờ n ngôi
Định nghĩa 2.2: Quan hệ mờ trên tập mờ
Cho U, V là hai t ập và u ∈ U, v ∈ V Ký hi ệu (u, v) là cặp thứ tự nằm trong tích Đề-các UxV R = {(u, v), µR(u, v)| (u, v) ∈ UxV} đư ợc gọi là một quan hệ mờ trên tập mờ A, B nếu:
µR(u, v) ≤ µA(u, v), ∀ UxV và µR(u, v) ≤µB(u, v) ∀ UxV
Nhận xét: Các quan hệ mờ là những trường hợp riêng của các tập mờ Tất cả các tính chất và định nghĩa liên quan đến tập mờ đều áp dụng cho quan hệ mờ, chẳng hạn
có thể định nghĩa chiều cao, giá hay hạt nhân của một quan hệ mờ Bằng cách đổi U và
V cho nhau, ta có thể định nghĩa nghịch đảo của một quan hệ mờ
Định nghĩa 2.3: Nghịch đảo của một quan hệ mờ
Nghịch đảo của một quan hệ mờ R giữa U và V là quan hệ mờ R-1
giữa V và U được định nghĩa bởi:
∀ v ∈ V, ∀ u ∈ U, μR-1(v, u) = μR(u, v)
Trường hợp riêng: Nếu U và V hữu hạn, ma trận M(R-1
) liên kết với nghịch đảo
của quan hệ mờ R là chuyển vị của ma trận M(R)
2.3 Suy lu ận mờ
2.3.1 Bi ến ngôn ngữ và mệnh đề mờ
Định nghĩa 3.1: Biến ngôn ngữ là một bộ ba (V, X, T) trong đó V là biến xác
định trên một tập tham chiếu X Tập T={A1, A2, …}hữu hạn hay vô hạn chứa các tập con mờ chuẩn hóa của X, được dùng để đặc trưng cho biến V
Một số tập con mờ của X được dùng trong T có thể là những tập con thông thường và chẳng hạn, là những tập một phần tử của X, là những trường hợp riêng của các tập con mờ, với các hàm thuộc lấy giá trị 0 và 1 Tổng quát hơn, các tập con mờ đó xác định các thu hẹp (hạn chế) của những giá trị biến V lấy trong X
Ví dụ: Xem tuổi của một người như một biến V, xác định trên tập X ∈ [0,150] Khi đó
T sẽ nhận giá trị như sau:
Trang 18Tất cả những mô tả không chính xác của cùng một biến V không thể được mô tả
bởi danh sách T Bắt nguồn từ lý thuyết tập mờ, từ những đặc trưng cơ sở được cho trong tập T kết hợp với các biến ngôn ngữ (V, X, T) ta tìm cách xây dựng những đặc trưng trung gian, nhờ vào biểu thị của các gia tử như “rất”, “hơi”, “quá” để giảm nhẹ
hoặc tăng cường các đặc trưng mờ của biến ngôn ngữ
Định nghĩa 3.2: Một gia tử ngôn ngữ là một toán tử mod cho phép từ mọi đặc
trưng mờ A của V, tạo ra một đặc trưng mờ mới mod(A) Nếu hàm thuộc của A là µA, hàm thuộc của mod(A) sẽ là µmod(A) = tmod(µA) có được qua trung gian của một phép
biến đổi toán học tmod kết hợp với mod
Ký pháp: Với một tập M các gia tử ngôn ngữ, ta ký hiệu M(T) là tập những đặc trưng mờ được sinh bởi M xuất phát từ T
Định nghĩa 3.3: Mệnh đề mờ: Cho một tập L các biến ngôn ngữ và một tập M
các gia tử Mệnh đề mờ sơ cấp được định nghĩa từ một biến ngôn ngữ (V, X, T) của L bởi
Hình 1 Thí d ụ về biến ngôn ngữ (V, X, T) được dùng để mô tả tuổi thọ của
m ột người
Trang 19mệnh đề có dạng “V là A” Trong đó A là một đặc trưng mờ của T hoặc M(T) Giá trị chân lý của mệnh đề mờ sơ cấp “V là A” được xác định bởi hàm thuộc µA của A
Một mệnh đề mờ tổng quát có được bằng cách dùng đồng thời các mệnh đề mờ
kết hợp với các phép toán logic Các phép toán trong logic mờ cũng được sử dụng ngôn
ngữ diễn tả như trong logic kinh điển
Một mệnh đề mờ tổng quát có được bằng cách dùng đồng thời các mệnh đề sơ
cấp “V là A”, “W là B”, … cho các biến V, W, …, được giả thiết là không tương tác
Dạng đơn giản nhất là hội của các mệnh đề mờ sơ cấp “V là A và W là B” Trong đó V và W được xác định trên các tập tham chiếu U và V Mệnh đề hội đó được liên kết với tích Descartes A x B đặc trưng cho biến (V, W) trên tập U x V Giá trị chân
lý của nó được xác định bởi min (µA (u), µB (v) ) tại mọi điểm (u, v) của U x V Ví dụ
hội của 2 mệnh đề mờ sơ cấp: “Giá thành rẻ và chất lượng tốt”
Ta cũng có thể có được một mệnh đề mờ với tuyển của các mệnh đề mờ sơ cấp
“V là A hoặc W là B”(chẳng hạn, khoảng cách tới bãi biển là trung bình hoặc giá không cao) Giá trị chân lý của mệnh đề mờ thu được xác định bởi max ( µA(u), µB(v))
tại mọi điểm (u, v) của U x V
Phép kéo theo giữa hai mệnh đề mờ sơ cấp cũng xác định một mệnh đề mờ được
diễn tả bởi “V là A kéo theo W là B” (chẳng hạn, khoảng cách tới bãi biển là nhỏ kéo theo giá rất cao) Giá trị chân lý được cho bởi hàm thuộc µR của một quan hệ R giữa U
và V được xác định, với mọi (u, v) của U x V bởi:
µR (u, v) = θ (µA(u), µB(v) ), với hàm θ từ [0, 1]2
2.3.2 Lu ật hợp thành mờ
→ [0, 1] Hàm θ được chọn đồng
nhất với phép kéo theo cổ điển, nếu A và B được định nghĩa chính xác và chắc chắn
Luật hợp thành mờ là tên gọi chung của mô hình biểu diễn một hay nhiều hàm thuộc cho một hay nhiều mệnh đề hợp thành
Định nghĩa 3.4 - Định nghĩa mệnh đề hợp thành mờ: X và Y là hai biến ngôn
ngữ Một mệnh đề hợp thành mờ có dạng “Nếu X là A thì Y là B” Trong đó A, B là
Trang 20những tập con mờ đặc trưng cho các biến ngôn ngữ X và Y gọi là một hợp thành mờ
Mệnh đề “X là A” được gọi là mệnh đề điều kiện, mệnh đề “Y là B” được gọi là mệnh
2.3.2.1 Thu ật toán xây dựng mệnh đề hợp thành cho hệ SISO
Luật mờ cho hệ SISO có dạng “IF X là A THEN Y là B”
∗ Chia hàm thuộc µA(x) thành n điểm xi, i = 1, 2, …, n
∗ Chia hàm thuộc µB(y) thành m điểm yj, j = 1, 2, …, m
Trong trường hợp đầu vào là giá trị mờ A’ thì µB’(y) là :
µB’(y) = {l1, l2, l3, …, lm} với lk = maxmin{ai, rik}
Luật mờ cho hệ MISO có dạng:
“IF (X1 là A1) and (X2 là A2) … and (Xk là Ak) THEN Y là B”
Các bước xây dựng luật hợp thành R:
∗ Rời rạc các hàm thuộc µA1(x1), µA2(x2), µA3(x3), …, µAn(xn), µB(y)
Trang 21∗ Xác định độ thỏa mãn H cho từng véctơ giá trị rõ đầu vào x = {c1, c2, …, cn} trong đó ci là một trong các đ iểm mẫu của µAi(xi) Từ đó suy ra H = Min{µA1(c1),
µA2(c2), µA3(c3), …, µAn(cn) }
∗ Lập ma trận R gồm các hàm thuộc giá trị mờ đầu ra cho từng véctơ giá trị
mờ đầu vào: µB’(y) = Min{ H,µB(y)} hoặc µB’(y) = H*µB(y)
2.4 Mô hình hóa m ờ
Mô hình m ờ là cơ cấu tính toán dựa trên các khái niệm của lý thuyết tập mờ,
các tập luật if-then mờ, cùng với cơ chế suy diễn mờ Lý thuyết tập mờ lần đầu tiên
được Lotfi.A.Zadeh, một giáo sư thuộc trường Đại học Caliornia, Berkley, giới thiệu trong một công trình nghiên cứu vào năm 1965 Lý thuyết tập mờ bao gồm logic mờ,
s ố học mờ, quy hoạch toán học mờ, hình học tôpô mờ, lý thuyết đồ thị mờ, và phân tích
d ữ liệu mờ, mặc dù thuật ngữ logic mờ thường được dùng chung cho tất cả
Bản chất của mô hình là một hình thái mô phỏng của hệ thống thực, có thể bắt
chước đủ chính xác hành vi của một hệ thống, thể hiện qua phản ứng đầu ra của mô hình khi có tác động từ phía đầu vào so với thực nghiệm
Mô hình hoá hay nh ận dạng hệ thống là quá trình đi từ việc xác lập các tham số mô
hình cho tới khi điều chỉnh được mô hình " ăn khớp " với hoạt động của hệ thống thực
2.4.1 C ấu trúc và hoạt động của một mô hình mờ
2.4.1.1 C ấu trúc của mô hình mờ
Một hệ mờ gồm các thành phần cơ bản sau:
- Cơ sở luật (rule base) các luật mờ IF-THEN, thực chất là một tập các phát biểu hay quy tắc mà con người có thể hiểu được, mô tả hành vi của hệ thống
Tương ứng với mỗi luật ta có một độ tin cậy luật Cij ∈(0.0;1.0) Độ tin cậy của
luật phản ánh sự đúng đắn của luật khi tham gia vào mô hình Nếu độ tin cậy bằng 0.0 tương ứng với việc luật đó không tham gia vào mô hình Mỗi cơ sở luật là sự kết hợp
bằng phép tuyển mờ (fuzzy or) của tất cả các luật mờ
Trang 22Các luật có thể hình thành từ tri thức chuyên gia hay rút ra từ các mẫu thực nghiệm Cơ sở luật là phần quan trọng nhất của tất cả các mô hình
- Bộ tham số mô hình: Bộ tham số mô hình quy định hàm thuộc của các giá trị ngôn ngữ được dung để biểu diễn các biến mờ và luật mờ Giá trị các tham số có thể đánh giá bằng kinh nghiệm các chuyên gia hay kết quả của quá trình khai phá tri thức
từ thực nghiệm Thông thường cơ sở luật và bộ tham số mô hình được gọi chung là cơ
Hoạt động suy diễn của một mô hình mờ có thể tóm tắt thành các bước như sau:
- Mờ hoá: Các giá trị rõ đầu vào mô hình được dùng làm đối số cho các hàm thuộc ứng với các giá trị ngôn ngữ tương ứng xuất hiện trong phần giả thiết mỗi luật
mờ IF-THEN Kết quả, mô hình thu được độ thuộc của giá trị rõ đối với mỗi giá trị
(giá trị rõ)
(giá tr ị mờ) (giá tr ị mờ)
Cơ sở tri thức
B ộ tham số Cơ sở luật
Cơ chế suy diễn
Giao di ện mờ hoá Giao di ện khử
m ờ
Trang 23ngôn ngữ (mà thực chất là một tập mờ) tương ứng trong phần giả thiết mỗi luật Sau bước này, xét về mặt suy diễn mờ, mô hình đã xác định được giá trị chân lý của các
tiền đề nằm trong phần giả thiết của mỗi luật (ứng với bộ số rõ cụ thể đầu vào) Giá trị chân lý của toàn bộ phần giả thiết mỗi luật được xác định thông qua phép Hội mờ giữa
giá trị chân lý của các tiền đề thành phần
- Suy diễn: Giá trị chân lý của phần giả thiết mỗi luật được áp dụng lên phần kết
luận của luật đó thông qua phép Kéo theo mờ Theo đó, với mỗi luật, mô hình thu được
ở phần kết luận một tập con mờ Phép Kéo theo mờ thông thường dựa trên hai toán tử
là Min ho ặc Product Khi suy diễn theo toán tử Min, tập mờ kết quả suy diễn được hình
thành từ hàm thuộc của giá trị ngôn ngữ phần kết luận bị cắt bởi một đường ngang mà
độ cao tương ứng với mức chân lý phần giả thiết Trong khi đó, với toán tử Product ,
tập mờ kết quả suy diễn có hàm thuộc dựa trên hàm thuộc đầu ra của kết luận được co giãn theo một tỉ lệ ứng với mức chân lý của phần giả thiết
- Kết nhập: Tất cả các tập con mờ ứng với đầu ra của mỗi luật được kết hợp với nhau ( thông qua phép H ợp mờ ) tạo thành một tập con mờ duy nhất biểu diễn biến mờ
đầu ra cơ chế suy diễn Quá trình tính toán kết nhập thông thường dựa trên hai toán tử
là Max ho ặc Sum Với Max, tập mờ tổng hợp đầu ra có giá trị hàm thuộc tại mỗi điểm
trên tập nền bằng giá trị hàm thuộc lớn nhất của tất cả các tập con mờ tương ứng ở đầu
ra mỗi luật tại điểm đó Trong khi đó, với Sum, tập mờ tổng hợp đầu ra có giá trị hàm
thuộc tại mỗi điểm trên tập nền bằng tổng giá trị hàm thuộc của tất cả các tập con mờ tương ứng ở đầu ra mỗi luật tại điểm đó
- Khử mờ: Công đoạn này là tuỳ chọn và được sử dụng khi cần chuyển đổi giá
trị biến ngôn ngữ đầu ra thành một giá trị số rõ ( điều này thường gặp với các mô hình
hệ thống điều khiển) Có rất nhiều kỹ thuật khử mờ nhưng phổ biến được sử dụng là
phương pháp xác định trọng tâm và phương pháp xác định vùng cực đại ở phương
pháp xác định trọng tâm, giá trị rõ của biến đầu ra được tính toán bằng cách tìm giá trị
trọng tâm hàm thuộc của giá trị mờ Còn đối với phương pháp tìm cực đại, giá trị rõ
Trang 24được chọn là giá trị mà tại đó tập con mờ đạt giá trị chân lý cực đại Nói chung, các phương pháp khử mờ này đòi hỏi nhiều chi phí tính toán và không có cách nào để phân tích chúng một cách chính xác ngoại trừ việc thông qua các nghiên cứu thực nghiệm
2.4.2 Phân lo ại mô hình mờ
Dựa trên loại cơ chế suy diễn mờ và các dạng luật mờ được sử dụng, phần lớn các mô hình mờ có thể được xếp vào một trong ba loại mô hình sau: Mô hình mờ Mamdani, mô hình mờ Takagi-Sugeno, mô hình mờ Tsukamoto
2.4.2.1 Mô hình m ờ Mamdani:
Mô hình Mandani được đề xuất với mục tiêu ban đầu là điều khiển tổ hợp nồi hơi và động cơ hơi nước thông qua một tập luật dạng ngôn ngữ thu được từ những thao tác viên con người có kinh nghiệm
Là dạng mô hình điển hình nhất, với bộ luật bao gồm các luật mà phần tiền đề
và ph ần kết luận đều là các tập mờ Hình 3 minh họa mô hình Mamdani hai luật điển
hình với một đầu ra z, chịu tác động của hai đầu vào rõ x và y với phép hợp thành Product - Max
Hình 3- Mô hình m ờ Mamdani sử dụng tích và max lần lượt cho phép toán AND mờ và
OR m ờ
Rõ ràng, khả năng diễn đạt luật bằng ngôn ngữ tự nhiên đối với mô hình mamdani rất dễ dàng và tường minh Tuy nhiên, kết quả của mô hình Mamdani lại là
Trang 25tập mờ tổ hợp từ mỗi luật được sử dụng, do đó, khi muốn chiết xuất một giá trị rõ ở đầu
ra mô hình, ta cần chọn một cơ chế khử mờ phù hợp Điều này ít nhiều ảnh hưởng tới chi phí tính toán
2.4.2.2 Mô hình m ờ Takagi – Sugeno:
Mô hình mờ Takagi- Sugeno được cấu thành từ một tập các luật mờ mà phần kết
lu ận của mỗi luật này là một hàm (không mờ) ánh xạ từ các tham số đầu vào của mô
hình tới tham số đầu ra mô hình Cụ thể, một luật mờ điển hình trong mô hình Takagi - Sugeno có dạng:
Trong mô hình mờ Tsukamoto phần kết luận của mỗi luật mờ if-then được biểu
diễn bằng một tập mờ với một hàm thuộc đơn điệu như đã thấy ở Hình 5 Giá trị đầu ra
tổng thể là trung bình có trọng số của đầu ra rõ của mỗi luật Theo đó, đầu ra của mỗi
Trang 26luật được xác định là một giá trị rõ được suy ra từ triển vọng của luật Đầu ra tổng hợp thu được từ giá trị trung bình có trọng số của đầu ra của mỗi luật Hình 5 minh họa toàn
bộ thủ tục suy diễn của hệ hai đầu vào hai luật
Hình 5 - Mô hình m ờ Tsukamoto
2.4.3 K ỹ thuật mô hình hóa mờ
Quá trình mô hình hoá mờ liên quan tới ba giai đoạn, như trong hình sau:
Giai đoạn đầu tiên thực hiện việc lựa chọn cấu trúc mô hình Cấu trúc mô hình
chứa đựng đặc tả cơ bản của mô hình mờ bao gồm các thông tin về đầu vào, đầu ra mô hình, các giá trị ngôn ngữ biểu diễn mỗi biến mờ, các định nghĩa hàm thuộc đặc trưng cho mỗi giá trị ngôn ngữ, định nghĩa toán tử hợp thành sử dụng trong suy diễn, cơ chế
mờ hoá và khử mờ, vân vân
Giai đoạn thứ hai gắn liền với thuật toán học áp dụng cho mô hình Trên cơ sơ cấu
trúc mô hình cơ bản hình thành trong giai đoạn một, giai đoạn hai thực hiện quá trình biên
dịch các mẫu học và chuyển đổi chúng thành các luật mờ trong cơ sở tri thức (cơ sở luật)
Giai đoạn ba thực hiện quá trình suy diễn dựa trên các luật mờ đã được đúc rút,
với đầu vào là chính tập dữ liệu mẫu, và tạo ra một “tác động” nào đó ở đầu ra của mô
hình lên môi trường hoạt động của hệ thống, và như vậy đã khép lại một chu trình kín
Trang 27Hình 6 - Sơ đồ quá trình mô hình hoá mờ và ba giai đoạn chính của nó
Hình 6 cho thấy đằng sau tất cả các giai đoạn nói trên là tập mẫu học (training set) Bằng việc xử lý trước tập mẫu học, có thể xác định được các biến quan trọng nhất
của hệ thống, ước lượng sơ bộ về các phân đoạn mờ mô tả mỗi biến Thêm vào đó, tập
mẫu học tốt còn cho phép giảm thời gian hội tụ của các thuật toán mô hình hoá mờ để đạt tới cấu trúc mô hình đích thực Do vậy, lựa chọn tập mẫu học là một khâu quan
trọng trong quá trình mô hình hoá mờ
- Các yếu tố thực nghiệm phải được lựa chọn thích đáng, nghĩa là các đầu vào được lựa chọn phải có ảnh hưởng tương đối rõ tới đầu ra Ngược lại, nếu như tồn tại các yếu tố không tác động hoặc tác động không đáng kể tới đầu ra, thì: thứ nhất, làm tăng chi phí thực nghiệm; thứ hai, làm tăng không gian đầu vào bài toán và do đó, làm
M ột tập mẫu học tốt phải hội đủ các yếu tố sau:
Trang 28tăng thời gian tính toán của quá trình mô hình hoá Rõ ràng, điều này đòi hỏi phải có các tri thức tiên nghiệm về hệ thống
- Các thực nghiệm phải bao trùm mọi dải hành vi của hệ thống thực Điều này ảnh hưởng tới tính toàn diện của cơ sở tri thức của mô hình Chỉ khi được trang bị một tri thức đầy đủ, mô hình thu được mới có khả năng phản ứng đúng đắn với mọi tác động có thể từ phía đầu vào
- Số lần thực nghiệm phải đủ lớn Điều này sẽ góp phần hạn chế ảnh hưởng của các yếu tố nhiễu trong quá trình học
2.5 Khám phá tri th ức và khai phá dữ liệu
Nh ững vấn đề chính đặt ra trong quá trình mô hình hoá mờ
Để xây dựng một mô hình mờ mới cho một hệ thống cho trước, người thiết kế
cần trả lời những câu hỏi sau đây:
- Phải định nghĩa các hàm thuộc như thế nào? Làm sao để mô tả một biến cho trước bằng các giá trị ngôn ngữ? Mỗi giá trị ngôn ngữ được xác lập thế nào là phù hợp?
- Làm thế nào để xây dựng nên cơ sở luật mờ? Trong mô hình hoá hệ thống kỹ thuật, thông thường, không chuyên gia con người nào có đủ kinh nghiệm để cung cấp
một cơ sở tri thức toàn diện về một hệ thống phức tạp Hơn thế nữa, dưới tác động của
yếu tố chủ quan, các tri thức do con người thường gây bàn cãi và phần lớn không hoàn toàn được công nhận
- Cơ chế khử mờ nào là thích hợp đối với một bài toán cho trước?
- Làm cách nào đê nâng cao tính chính xác về mặt tính toán của mô hình?
Vì một mô hình mờ không có nghĩa là một mô hình không chính xác Ít nhất, độ
chính xác phải là chấp nhận được xét về bản chất của bài toán
Khám phá tri thức hay phát hiện tri thức trong CSDL là một quy trình nhận biết các mẫu hoặc các mô hình trong dữ liệu với các tính năng: Phân tích, tổng hợp, hợp
thức, khả ích và có thể hiểu được
Trang 29Khai phá dữ liệu là một bước trong quá trình khám phá tri thứ c, gồm các thuật toán khai thác dữ liệu chuyên dùng dưới một số qui định về hiệu quả tính toán chấp
nhận được để tìm ra các mẫu hoặc các mô hình trong dữ liệu Nói cách khác, mục tiêu
của khai phá dữ liệu là tìm kiếm các mẫu hoặc mô hình tồn tại trong CSDL nhưng ẩn trong khối lượng lớn dữ liệu
Đánh giá mẫu
Patterns
Hình 7: Quá trình khám phá tri th ức
Trang 30Quá trình khám phá tri thức bao gồm các bước sau:
- Làm sạch dữ liệu (Data Cleaning): Loại bỏ dữ liệu nhiễu và dữ liệu không nhất quán
- Tích hợp dữ liệu (Data Intergation): Dữ liệu của nhiều nguồn có thể được tổ hợp lại
- Lựa chọn dữ liệu (Data Selection): Lựa chọn những dữ liệu phù hợp với nhiệm
vụ phân tích trích rút từ cơ sở dữ liệu
- Chuyển đổi dữ liệu (Data Transformation): Dữ liệu được chuyển đổi hay được
hợp nhất về dạng thích hợp cho việc khai phá
- Khai phá dữ liệu (Data Mining): Đây là một tiến trình cốt yếu trong đó các phương pháp thông minh được áp dụng nhằm trích rút ra mẫu dữ liệu
- Đánh giá mẫu (Pattern Evaluation): Dựa trên một độ đo nào đó xác định lợi ích
thực sự, độ quan trọng của các mẫu biểu diễn tri thức
- Biểu diễn tri thức (Knowledge Presentation): Ở giai đoạn này các kỹ thuật biểu
diễn và hiển thị sử dụng để đưa tri thức lấy ra cho người dùng
2.5 2 Các hư ớng tiếp cận cơ bản và kỹ thuật áp dụng trong khai phá d ữ liệu
Vấn đề khai phá dữ liệu có thể được phân chia theo lớp các hướng tiếp cận chính sau:
- Phân lớp và dự đoán (classification &prediction): Là quá trình xếp một đối tượng vào một trong những lớp đã biết trước (ví dụ: phân lớp các bệnh nhân theo dữ
liệu hồ sơ bệnh án, phân lớp vùng địa lý theo dữ liệu thời tiết ) Đối với hướng tiếp
cận này thường sử dụng một số kỹ thuật của học máy như cây quyết định (decision tree), mạng nơron nhân tạo (neural network), Hay lớp bài toán này còn được gọi là
học có giám sát learning)
- Phân cụm (clustering/segmentation): Sắp xếp các đối tượng theo từng cụm dữ
liệu tự nhiên, tức là số lượng và tên cụm chưa được biết trước Các đối tượng được gom cụm sao cho mức độ tương tự giữa các đối tượng trong cùng một cụm là lớn nhất
Trang 31và mức độ tương tự giữa các đối tượng nằm trong các cụm khác nhau là nhỏ nhất Lớp bài toán này còn được gọi là học không giám sát
- Luật kết hợp (association rules): Là dạng luật biểu diễn tri thức ở dạng khá đơn giản (Ví dụ: 80% sinh viên đăng ký học CSDL thì có tới 60% trong số họ đăng ký
học Phân tích thiết kế hệ thống thông tin) Hướng tiếp cận này được ứng dụng nhiều trong lĩnh vực kinh doanh, y học, tin sinh học, giáo dục, viễn thông, tài chính và thị
chứng khoán,
- Phân tích chuỗi theo thời gian (sequential/temporal patterns): Cũng tương tự như khai phá dữ liệu bằng luật kết hợp nhưng có thêm tính thứ tự và tính thời gian Một
luật mô tả mẫu tuần tự có dạng tiêu biểu X -> Y, phản ánh sự xuất hiện của biến cố X
sẽ dẫn đến việc xuất hiện biến cố Y
2.6 Mô hình m ờ dựa trên phân cụm dữ liệu:
Phân c ụm dữ liệu là một kỹ thuật trong Dataminning (khai phá dữ liệu), nhằm
tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn, quan tâm trong tập dữ
liệu lớn, từ đó cung cấp thông tin, trí thức hữu ích cho việc ra quyết định
Giải thuật phân cụm FCM đóng một vai trò quan trọng trong việc xây dựng mô hình mờ sử dụng tập mờ loại rời rạc Nó giúp chúng ta xác định các tâm cụm dữ liệu và
độ thuộc của từng dữ liệu đối với từng cụm mờ Từ đó chúng ta có thể gán nhãn được cho mỗi cụm mờ để có thể sinh tập luật cơ sở khi cho dữ liệu luyện tập để huấn luyện
mô hình
Phân cụm mờ là một sự mở rộng của phân cụm dữ liệu bằng cách thêm vào yếu
tố quan hệ giữa các phần tử và các cụm dữ liệu thông qua các trọng số trong ma trận
Bằmg cách này, chúng ta có thể khám phá ra các cụm dữ liệu phức tạp theo cách mềm
dẻo từ một tập dữ liệu đã cho Thuật toán phân cụm mờ là một cách thức mở rộng cho các thuật toán phân cụm rõ nhằm khám phá ra các cụm dữ liệu chồng lên nhau
Trang 32CHƯƠNG III: XÂY DỰNG MÔ HÌNH MỜ
D ỰA TRÊN PHÂN TÍCH PHÂN CỤM DỮ LIỆU MỜ
Chương này trình bày một phương pháp luận giúp nhận dạng hệ mờ Phương pháp phân tích phân cụm được đề xuất để tối ưu hóa tham số tiền nghiệm và phương pháp bình phương nhỏ nhất sẽ được sử dụng để tối ưu hóa các tham số hậu nghiệm Số lượng các
luật sinh ra được điều khiển bởi hiệu năng của hệ thống
3.1 Mô hình hóa m ờ dựa trên phân tích phân cụm dữ liệu
Xét một hệ thống cho trước, biết rằng tồn tại một yếu tố (đầu ra) mà giá trị của
nó phụ thuộc chủ yếu vào một số yếu tố độc lập xác định (các đầu vào) (ngoài ra có thể
có các tác động phụ) Các yếu tố liên quan đều đo đạc được bằng thực nghiệm, thể hiện
ở tập cơ sở dữ liệu thực nghiệm Mỗi bản ghi lưu lại độ đo của các biến độc lập và giá
trị biến phụ thuộc trong lần thực nghiệm tương ứng
Giả sử chúng ta có một hệ thống với m đầu vào và N cặp giá trị vào – ra có dạng
(x k,y k) (k = 1, 2, )N trong đó x k =x k1,x k2, ,x kmT (ma trận nghịch đảo của hệ số x ) ki
Các luật được biểu diễn dưới dạng tường minh như sau:
l
R : nếu x1là A và 1l x2 là A và và 2l x m là cthì y là l
B (1) trong đó x i i( =1, )m là m biến ngôn ngữ đầu vào, y là bi i ến ngôn ngữ đầu ra, ,
Trang 33Từ đó mô hình mờ của chúng ta được biểu diễn bằng các luật ở dạng (2) Chúng
ta có thể sản sinh ra một C -partition mờ của không gian đầu vào bằng cách biểu diễn
hàm thuộc V l(x k) của vector đầu vào xk = xk1, xk2, xk3, , xkm T, trong không gian
con thứ l là l
V :
1 1
1 ( )
( ) / ( )
l
C k
với ||.|| là vector 2-norm và j
v là điểm trung tâm của không gian con l
V
Tham số m 1 ảnh hưởng đến mức độ chồng chéo giữa các không gian con
Hệ mờ có thể được suy ra bởi phương trình:
1
ˆ C l l
k l
V b
y
=
= ∑ (5) Trong đó l
k
V là dạng viết tắt của V l(x k) và bl là phần tử trung tâm (centerel ement) của tập mờ đầu ra ứng với phân vùng trong luật mờ thứ l
Muốn tính được biểu thức (5), ta cần xác định các bl Một thuật toán được sử
dụng để tìm ra giá trị tối ưu của b với 1 2
,b , ,b C T
b=b Việc tối ưu hóa này được tiến hành bằng cách sử dụng vòng lặp và so sánh:||b b− p||2< (6) ε1
trong đó bp là trạng thái liền ngay trước đó của b (tất nhiên ban đầu giá trị của
b phải được khởi tạo, giá trị khởi tạo này chính là điểm trung tâm của các không gian
mờ đầu ra ứng với từng luật đã biết, chi tiết sẽ nêu trong phần trình bày sau)
Trong trường hợp (6) đúng, xét biểu thức: ( )2