Tóm tắt luận văn: Họ và tên học viên: Nguyễn Đình Dũng Chuyên ngành: Hệ Thống Thông Tin Khóa: 21 Cán bộ hướng dẫn: TS Ngô Thành Long Tên đề tài: Nghiên cứu thuật toán C-mean mờ loại hai và ứng dụng trong phân đoạn ảnh. Tóm tắt: Luận văn giới thiệu thuật toán phân cụm C-mean mờ loại hai nhằm thực hiện phân cụm chính xác bằng cách sử dung hai tham số mờ m1 và m2. Đồng thời tiến hành cải tiến thuật toán nhằm xác định tâm cụm khởi tạo và không cần xác định trước số cụm ban đầu. Điều này đạt được bằng cách cực tiểu hóa hàm sai số và mật độ xác suất. Các thử nghiệm trên ảnh cho thấy thuật toán C-mean mờ loại hai thực hiện phân đoạn tốt. .
Trang 1NGUYỄN ĐÌNH DŨNG
NGHIÊN CỨU THUẬT TOÁN C-MEAN MỜ LOẠI HAI VÀ
ỨNG DỤNG TRONG PHÂN ĐOẠN ẢNH
Chuyên ngành: Hệ Thống Thông Tin
LUẬN VĂN THẠC SĨ KỸ THUẬT
Hà Nội - Năm 2011
Trang 2NGUYỄN ĐÌNH DŨNG
NGHIÊN CỨU THUẬT TOÁN C-MEAN MỜ LOẠI HAI VÀ
ỨNG DỤNG TRONG PHÂN ĐOẠN ẢNH
Chuyên ngành: Hệ Thống Thông Tin
Mã số: 60 48 05
LUẬN VĂN THẠC SĨ KỸ THUẬT
Hà Nội - Năm 2011
Trang 3C¸n bé híng dÉn chÝnh: Tiến sĩ Ngô Thành Long
Cán bộ chấm phản biện 1:
Cán bộ chấm phản biện 2:
Luận văn thạc sĩ được bảo vệ tại:
HỘI ĐỒNG CHẤM LUẬN VĂN THẠC SĨ
HỌC VIỆN KỸ THUẬT QUÂN SỰNgày tháng năm 2011
Trang 4Hà Nội, ngày tháng năm 2011
NHIỆM VỤ LUẬN VĂN THẠC SĨ
I- TÊN ĐỀ TÀI: “NGHIÊN CỨU THUẬT TOÁN C-MEAN MỜ LOẠI HAI
VÀ ỨNG DỤNG TRONG PHÂN ĐOẠN ẢNH”
II- NHIỆM VỤ VÀ NỘI DUNG:
Ứng dụng thuật toán phân cụm C-mean mờ loại hai vào phân đoạn ảnh.
+ Phân cụm ảnh bằng thuật toán FCM, C-mean mờ loại hai
+ Hiển thị, lưu trữ các cụm của ảnh và ảnh sau khi được phân đoạn.
III- NGÀY GIAO NHIỆM VỤ:
IV- NGÀY HOÀN THÀNH NHIỆM VỤ:
V- CÁN BỘ HƯỚNG DẪN: Tiến sĩ Ngô Thành Long
CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN
Trang 5Trang phụ bìa
Nhiệm vụ luận văn
Mục lục
Tóm tắt luận văn
Danh mục các ký hiệu
Danh mục các hình vẽ
MỞ ĐẦU 1
Chương 1 TỔNG QUAN VỀ LOGIC MỜ 1.1 Tập mờ loại một 3
1.1.1 Định nghĩa tập mờ loại một 3
1.2.2 Biểu thức và tham số của một số hàm thuộc 5
1.1.3 Các phương pháp giải mờ 10
1.2 Tập mờ loại hai 12
1.2.1 Các định nghĩa cơ bản 12
1.2.2 Trọng tâm của tập mờ loại hai 18
1.3 Tập logic mờ loại hai khoảng 24
1.4 Mô hình hóa bài toán phân đoạn ảnh sử dụng phân cụm mờ 27
1.5 Kết luận 28
Chương 2 PHƯƠNG PHÁP PHÂN CỤM DỮ LIỆU 2.1 Khái niệm và mục tiêu của phân cụm dữ liệu 29
2.2 Những kỹ thuật cơ bản trong phân cụm dữ liệu 30
2.2.1 Phương pháp phân cụm phân hoạch 30
Trang 62.2.4 Phương pháp phân cụm dựa trên lưới 36
2.2.5 Phương pháp phân cụm dựa trên mô hình 37
2.2.6 Phương pháp phân cụm có dữ liệu ràng buộc 38
2.3 Kỹ thuật phân cụm dữ liệu mờ loại một 40
2.3.1 Tổng quan về phân cụm mờ 40
2.3.2 Thuật toánFuzzy C-means (FCM) 41
2.3.3 Thuật toán FCM cải tiến 48
2.3.4 Thuật toán ε- Insensitive Fuzzy C-means (εFCM) 50
Chương 3 KỸ THUẬT PHÂN CỤM DỮ LIỆU MỜ LOẠI 2 3.1 Thuật toán phân cụm mờ loại hai khoảng (IT2FCM) 56
3.1.1 Cơ sở thuật toán IT2FCM 56
3.2.2 Thuật toán IT2FCM 59
3.3 Thuật toán IT2FCM cải tiến 63
3.3.1 Thuật toán khởi tạo tâm cụm ban đầu 63
3.3.2 Thuật toán tự động xác định số cụm 65
3.3.3 Thuật toán IT2FCM cải tiến 67
Chương 4 CÀI ĐẶT THỬ NGHIỆM VÀ ỨNG DỤNG 4.1 Mô hình hóa bài toán phân đoạn ảnh và cài đặt 70
4.1.1 Mô hình hóa bài toán phân đoạn ảnh 70
4.1.2 Cài đặt chương trình 70
4.2 Kết quả ứng dụng phân đoạn trên ảnh không gian màu RGB 72
4.2.1 So sánh kết quả FCM và IT2FCM 72
4.2.2 So sánh kết quả IT2FCM và IT2FCM cải tiến 74
Trang 7TÀI LIỆU THAM KHẢO 81
Trang 8Họ và tên học viên: Nguyễn Đình Dũng
Chuyên ngành: Hệ Thống Thông Tin Khóa: 21
Cán bộ hướng dẫn: TS Ngô Thành Long
Tên đề tài: Nghiên cứu thuật toán C-mean mờ loại hai và ứng dụngtrong phân đoạn ảnh
Tóm tắt: Luận văn giới thiệu thuật toán phân cụm C-mean mờ loại hainhằm thực hiện phân cụm chính xác bằng cách sử dung hai tham số mờ m1 và
m2 Đồng thời tiến hành cải tiến thuật toán nhằm xác định tâm cụm khởi tạo
và không cần xác định trước số cụm ban đầu Điều này đạt được bằng cáchcực tiểu hóa hàm sai số và mật độ xác suất Các thử nghiệm trên ảnh cho thấythuật toán C-mean mờ loại hai thực hiện phân đoạn tốt
Trang 10
Hình 1.1: Đồ thị mô tả MF 5
Hình 1.2: Các ví dụ của bốn loại hàm thuộc 6
Hình 1.3: Tập mờ cơ sở A và Mở rộng trụ C(A) của A 9
Hình 1.4: Tập mờ hai chiều R 9
Hình 1.5: Hàm thuộc loại một và Hàm thuộc loại một được mờ hóa 13
Hình 1.6: Minh họa hàm thuộc loại hai 13
Hình 1.7: Mô tả các FOUs 16
Hình 1.8: Mô tả IT2FS với tập nền rời rạc 24
Hình 1.9: Mặt phẳng đứng của IT2FS 25
Hình 1.10 Mô tả UMF và LMF 26
Hình 2.1: Chiến lược phân cụm phân cấp 34
Hình 2.2: Mô tả tập dữ liệu một chiều 46
Hình 2.3: Hàm thuộc với trọng tâm của cụm A trong K-means 46
Hình 2.4: Hàm thuộc với trọng tâm cụm A trong FCM 47
Hình 2.5: Các cụm được khám phá bởi thuật toán FCM 48
Hình 3.1 Mô tả vị trí độ thuộc mờ cực đại 56
Hình 3.2 Vùng độ thuộc mờ cực đại cho hai cụm cùng kích thước 57
Hình 3.3 Vùng độ thuộc mờ cực đại cho hai cụm khác kích thước 57
Hình 3.4 Vùng độ thuộc mờ cực đại mong muốn 58
Hình 3.5 Vùng độ thuộc mờ cực đại với hai tham số mờ m1 và m2 59
Hình 4.1 Giao diện chính chương trình phân đoạn ảnh 71
Trang 11MỞ ĐẦU
Logic mờ được công bố lần đầu tiên tại Mỹ vào năm 1965 bởi giáo sưL.Zadeh Kể từ đó, Logic mờ đã có bước phát triển mạnh mẽ trong nhiều lĩnhvực và các ứng dụng thực tế khác nhau Đặc biệt, việc ứng dụng Logic mờtrong lĩnh vực xử lý ảnh đã đem lại những hiệu quả rõ rệt Bởi vì, với việc ápdụng Logic mờ vào trong xử lý ảnh, ta đã phần nào xử lý được những yếu tốkhông chắc chắn thường xuyên xảy ra trong xử lý ảnh, bởi vì đầu vào ảnhthường có nhiễu và các đối tượng trong ảnh thường không rõ ràng và nằmchồng lên nhau Chính vì vậy, việc ứng dụng Logic mờ vào xử lý ảnh đã trởthành hướng nghiên cứu và quan tâm của rất nhiều nhà khoa học cũng nhưngười sử dụng
Với đề tài “Nghiên cứu thuật toán C-mean mờ loại hai và ứng dụng trong phân đoạn ảnh”, Luận văn sẽ trình bày một số vấn đề về Phân cụm dữ
liệu (PCDL) và việc ứng dụng Logic mờ vào PCDL Trong đó, Luận văn tậptrung vào việc sử dụng các thuật toán PCDL để thực hiện Phân đoạn ảnh, đặcbiệt là thuật toán C-Mean mờ loại hai
Đây là hướng nghiên cứu có triển vọng vì Phân đoạn ảnh là một ứngdụng đóng vai trò cơ sở, nền tảng để việc thực hiện các ứng dụng xử lýảnh như nhận dạng, giải mã…
Có nhiều phương pháp khác nhau để phân đoạn ảnh song mỗi phươngpháp đều có những ưu điểm và nhược điểm riêng tùy thuộc vào từng bàitoán cụ thể
Với bài toán phân đoạn ảnh, ta sẽ tiến hành mô hình hóa dữ liệu ảnhđầu vào, sau đó áp dụng phương pháp phân cụm dữ liệu để chia dữ liệuthành các các vùng có nghĩa Bởi vì ảnh đầu vào thường có các dữ liệukhông rõ ràng và nhiễu nên các thuật toán phân cụm thông thường luôn
Trang 12gặp khó khăn Tuy nhiên, thuật toán C-mean mờ loại hai đã đưa raphương pháp xử lý dữ liệu với hàm thuộc và các tham số mờ để giải quyếtcác vấn đề về dữ liệu không rõ ràng và nhiễu.
Ngoài ra, các thuật toán phân cụm thường gặp khó khăn trong việc khởitạo tâm cụm ban đầu, cũng như việc xác định số tâm cụm một cách chính xác.Điều này làm cho việc sử dụng các thuật toán phân cụm hoặc là không ổnđịnh hoặc đạt kết quả không mong muốn
Trong luận văn này, tôi cũng giới thiệu thuật toán phân cụm C-mean mờloại 2 khoảng cải tiến nhằm giải quyết vấn đề tâm cụm khởi tạo ban đầu vàviệc xác định số cụm Điều này đạt được bằng cách cực tiểu hóa hàm sai số
và mật độ xác suất Thuật toán cải tiến bao gồm hai bước phân biệt Bước thứnhất là bước tiền xử lý thực hiện việc khởi tạo tâm cụm và gán ít nhất mộtmẫu dữ liệu vào trong một cụm Bước thứ hai gán các mẫu dữ liệu vào cáccụm sao cho tối thiểu hóa hàm mục tiêu Thuật toán sẽ tự động loại bỏ cáctâm cụm không chính xác Khi hàm mục tiêu đặt tới giá trị cực tiểu toàn cục
số cụm chính xác được xác định và các mẫu dữ liệu được đặt vào các cụmthực Thuật toán cho kết quả trong việc phân đoạn ảnh khá tốt và ổn định.Ngoài ra, việc điều chỉnh số cụm cũng dễ dàng hơn
Luận văn được trình bày trong 4 chương:
Chương 1: Giới thiệu tổng quan về Logic mờ
Chương 2: Giới thiệu các phương pháp phân cụm dữ liệu và các thuật toántiêu biểu
Chương 3: Trình bày thuật toán phân cụm dữ liệu mờ loại hai và so sánh vớicác thuật toán phân cụm dữ liệu khác
Chương 4: Thử nghiệm và ứng dụng vào phân đoạn ảnh màu
Kết luận : Tóm tắt các vấn đề được tìm hiểu trong luận văn và các vấn đề liênquan trong luận văn, đưa ra phương hướng nghiên cứu tiếp theo
Trang 13Chương 1 TỔNG QUAN VỀ LOGIC MỜ
Ví dụ: định nghĩa lại tập A trong ví dụ 1.1, tập A là tập các người cao và x làchiều cao Như vậy, với miêu tả biểu thức toán học ở ví dụ 1.1 thì nhữngngười có chiều cao lớn hơn 1.8 m mới được gọi là người cao Điều này khônghợp lý trong thực tế vì nếu người nào có chiều cao 1.7999 m thì không đượcgọi là người cao Do vậy, để miêu tả tập người cao thì không thể dùng tập cổđiển
Như vậy tập mờ là tập không có biên xác định, đây là một đặc điểm tráingược với tập cổ điển
1.1.1 Định nghĩa tập mờ loại một
Cho X là không gian của các đối tượng x, x là một đối tượng (phần tử)thuộc X Một tập cổ điển A, A X , là tập gồm các phần tửA X , như vậyvới mỗi x X có thể thuộc tập A hoặc không thuộc tập A
Trang 14Hàm đặc tính (characteristic funtions) cho mỗi đối tượng x X có quan
hệ với tập A như sau: Tập cổ điển A là một tập của các cặp phần tử có bậc(x,0) với x A hoặc (x, 1) với x A Với cách định nghĩa trên, có thể miêu tảtập cổ điển A thông qua hàm đặc tính:
A { x, A x | x X}Trong đó: A x là hàm đặc tính được xác định:
1,
A
x A x
được đưa về chỉ có 0 và 1, khi đó A chính là tập cổ điển và A x là một hàmđặc tính của A
Thông thường X được xem như là tập nền X có thể là các đối tượng rờirạc (có thứ tự hoặc không thứ tự) hoặc không gian liên tục
Trang 15Và đồ thị của nó có dạng như hình 1.1 dưới đây:
Hình 1.1 Đồ thị MF trên tập B = “Khoảng 50 tuổi”
1.2.2 Biểu thức và tham số của một số hàm thuộc.
1.2.2.1 Hàm thuộc một chiều
Hàm thuộc một chiều là hàm chỉ có một đầu vào Do vậy, các hàm đưa
ra dưới đây sẽ được hiểu ngầm định là luôn luôn có một đầu vào
Định nghĩa 1.2: Hàm thuộc Triangular
Một hàm thuộc triangular được đưa ra bởi 3 tham số {a, b, c}
(với a < b < c) như sau:
0, , , , ,
Trang 16Bằng cách dùng min và max, người ta đã đưa biểu diễn biểu thức trênnhư sau:
Một hàm thuộc trapezoidal được đưa ra bởi 4 tham số {a, b, c, d} (với a
d
x d
c x b
b x a
b
a x
a x
d c b a x trapezoid
d , 0
c ,
, 1
a ,
, 0
) , , ,
; (
Trang 17Bằng cách dùng min và max, người ta đã đưa ra biểu diễn biểu thức trênnhư sau:
;(
c d
x d a b
a x d
c b a x trapezoid
Ở đây: Các tham số {a, b, c, d} xác định tọa độ x của bốn góc của hàmthuộc Trapezoidal
Hình 1.2(b) minh họa hàm thuộc Trapezoidal được định nghĩa bởitrapezoidal(x; 10, 20, 60, 95)
Định nghĩa 1.4: Hàm thuộc Gaussian
Hàm thuộc Gaussian được đưa ra bởi 2 tham số c :,
2
1 2
Định nghĩa 1.5: Hàm thuộc bell – hình chuông
Hàm thuộc bell – hình chuông được đưa ra bởi 3 tham số {a, b, c}:
Định nghĩa 1.6: Hàm thuộc sigmoidal
Hàm thuộc sigmoidal được định nghĩa bởi:
Trang 18 ( )exp
1
1)
,
;(
c x a c
a x sig
Hàm này phụ thuộc vào dấu của tham số a, có tính mở trái và phải Dovậy, nó gần như miêu tả các khái niệm “ ” và ” ” Hàm này được khaithác rộng rãi Tuy nhiên để khai thác được cần biết cách kết hợp các hàmsigmoidal lại với nhau Ví dụ dưới đây đưa ra hai cách kết hợp các hàmsigmoidal để tạo ra các hàm thuộc có tính đóng và tính không đối xứng
Định nghĩa 1.7: Hàm thuộc left - right
Hàm thuộc left – right được đưa ra bởi 3 tham số , ,c :
1.2.2.2 Một số hàm thuộc hai chiều
Hàm thuộc hai chiều là hàm có hai đầu vào Cách cơ bản để mở rộnghàm thuộc một chiều thành hàm hai chiều là thông qua mở rộng trụ(cylindrical extension), được định nghĩa như sau:
Định nghĩa 1.8: Mở rộng trụ của hàm thuộc một chiều
Nếu A là tập mờ trong X, khi đó mở rộng trụ của A trong X Y là tập
mờ C(A) được định nghĩa:
Y
X A x x y A
C( ) ( ) ( , )Hình 1.3 dưới đây minh họa mở rộng trụ của tập mờ A
Trang 19Hình 1.3 (a) Tập mờ cơ sở A; (b) Mở rộng trụ C(A) của A.
Định nghĩa 1.9: Các phép chiếu của tập mờ
Cho R là tập mờ hai chiều trên X Y Khi đó các phép chiếu trên X và
Y được định nghĩa tương ứng:
Ví dụ 1.5: Hàm thuộc hai chiều thuộc nhóm kết hợp và không kết hợp
Giả sử tập mờ A = “(x, y) is near (3, 4)” được định nghĩa bởi:
3exp
),
A
Trang 20Đây là hàm thuộc hai chiều thuộc nhóm kết hợp Do vậy nó có thể đượcphân tích thành hai hàm thuộc một chiều như sau:
1
4 exp
2
3 exp
) ,
A
gaussian(x;3,2)gaussian(y;4,1)Với cách tách như trên thì bây giờ ta có thể biểu diễn tập mờ A như là sựkết nối giữa hai câu lệnh “x is near 3 AND y is near 4” Ở đây câu lệnh đầutiên được định nghĩa: near3 x gaussian(x;3,2)
câu lệnh thứ hai được định nghĩa: near4 x gaussian(x;4,1)
Và tích giữa hai hàm thuộc trên được định nghĩa như là toán tử ANDgiữa câu lệnh
Một loại hàm thuộc hai chiều khác là không kết hợp, ví dụ như tập mờ
1,
mờ để lấy một giá trị đầu ra từ tập mờ
Nhiều kỹ thuật giải mờ đã được công bố nhưng thông dụng nhất vẫn làphương pháp trọng tâm (Centroid) Ngoài ra một số phương pháp khác nhưmaxima, trung bình maxima, cao độ (heigh), cao độ cải tiến
1.1.3.1 Phương pháp giải mờ trọng tâm
Phương pháp này xác định trọng tâm y’ của của vùng mờ B và đây chính
là đầu ra của hệ logic mờ
Với tập nền liên tục, phương pháp này như sau:
Trang 21( )'
( )
B S B S
y y dy y
Trong đó S là miền xác định của B y
Với các biến rời rạc ta có công thức tính như sau:
1
1
( )'
( )
N
i B i i
N
B i i
y y y
Phương pháp giải mờ trọng tâm xác định điểm được cân bằng của vùng
mờ kết quả bằng cách tính trung bình trọng số của các vùng mờ đầu ra Đây là
kỹ thuật được sử dụng rộng rãi nhất vì giá trị giải mờ có xu hướng dịchchuyển quanh vùng mờ đầu ra
1.1.3.2 Phương pháp giải mờ maxima
Bộ giải mờ ước lượng tập mờ đầu vào và chọn giá trị giải mờ y sao cho
là cực đại Không giống như phương pháp trọng tâm, phương phápmaxima chỉ được áp dụng vào một lớp hẹp các bài toán Giá trị đầu ra củaphương pháp này dễ bị thay đổi khi một luật có hàm thuộc hơn hẳn các luậtkhác Vì vậy, kết quả có xu hướng nhảy từ khoảng này sang khoảng khác khihình dạng vùng mờ thay đổi
Phương pháp này tìm hai khoảng cao nhất, sau đó lấy điểm giữa của tâmhai khoảng này Đó là kết quả đầu ra cần xác định
Trang 221.1.3.3 Phương pháp giải mờ cao độ
Trước hết, bộ giải mờ tính B i y tại yi, sau đó xác định đầu ra cho hệlogic mờ, với yi là trọng tâm của tập mờ Bi Đầu ra yh được xác định:
1
1
' ( ) ( )
với m là số tập mờ đầu ra sau quá trình suy diễn Phương pháp này dễ sử dụng
và trọng tâm của các hàm thuộc mờ thông dụng được biết trước
1.2 Tập mờ loại hai
Như chúng ta đã nghiên cứu trong 1.1 về tập mờ loại một, từ khi ra đời(1965) lý thuyết tập mờ và hệ logic mờ đã có những đóng góp quan trọngtrong nhiều ứng dụng có ý nghĩa thực tiễn cao Tuy nhiên nó cũng thể hiệnđược những nhược điểm khi giới hạn khả năng xử lý các dữ liệu, thông tinkhông chắc chắn, tức là khả năng mô hình hóa và tối thiểu hóa ảnh hưởng củacác thông tin không chắc chắn Chính vì thế khái niệm về tập mờ loại hai đãđược Zadeh đưa ra vào năm 1975, theo đó tập mờ loại hai được đặc trưng bởihàm thuộc mờ, nghĩa là giá trị hàm thuộc tại mỗi phần tử của không giantham chiếu là tập mờ trên [0,1], khác với tập mờ loại một là giá trị rõ trên[0,1]
Trong mục này, chúng ta sẽ nghiên cứu một số vấn đề quan trọng của tập
mờ loại hai, so sánh giữa tập logic mờ loại một và loại hai
1.2.1 Các định nghĩa cơ bản
1.2.1.1 Các định nghĩa cơ bản của tập mờ loại hai
Trong phần này, chúng ta định nghĩa tập mờ loại hai và một vài kháiniệm quan trọng Hãy tưởng tượng khoảng mờ của hàm thuộc loại một được
vẽ trong hình 1.5 (a) bằng cách di chuyển các điểm trên tam giác hoặc tới bên
Trang 23trái hoặc tới bên phải, và không cần thiết phải có số lượng các điểm giốngnhau, như hình 1.5 (b) Sau đó, ở một giá trị rõ x ta gọi là x’, nó không còn làgiá trị đơn cho hàm thuộc u’, thay thế vào đó hàm thuộc nhận các giá trị ở bất
kỳ đâu trên đường thẳng giao với vùng mờ Các giá trị này không nhất thiếtphải có các trọng số giống nhau Vì vậy chúng ta có thể chỉ định các biênphân bố đến tất các điểm đó Để làm như vậy với tất cả các điểm x X Chúng ta tạo ra một hàm thuộc 3 chiều – (hay gọi là hàm thuộc loại hai) – làđặc trưng cho tập mờ loại hai (hình 1.6)
Hình 1.5 (a) Hàm thuộc loại một và (b) Hàm thuộc loại một được mờ hóa
Hình 1.6 Minh họa hàm thuộc loại hai
Trang 24Định nghĩa 1.10: Một tập mờ loại hai, ký hiệu là A, được đặc trưng bởi hàmthuộc loại hai A( , )x u , trong đó x X và u J x [0,1], …
A {(( , ),x u A( , )) |x u x X u J , x [0,1]} (1.1)Trong đó: 0A( , ) 1x u
Hoặc A cũng có thể được miêu tả như sau:
Trong đó ký hiệu hợp của tất cả các giá trị có thể có của x và u Trong
công thức trên nếu tập nền X là rời rạc thì sẽ được thay thế bằng
Trong công thức (1.1), ràng buộc đầu tiên là u J x [0,1] phù hợp với ràngbuộc loại một đó là 0A( , ) 1x u , …, khi thông tin không chắc chắn khôngxuất hiện trong hàm thuộc loại hai thì chúng ta sẽ có hàm thuộc loại một, khi
đó biến u sẽ bằng A( , )x u và 0A( , ) 1x u , chiều thứ ba sẽ không xuấthiện Giới hạn thứ hai 0A( , ) 1x u phù hợp với thực tế A( , )x u luôn nằmtrong đoạn [0,1]
Định nghĩa 1.11: Với mỗi giá trị của x, tại x = x’, mặt phẳng 2D mà có haitrục là u và A( ', )x u được gọi là nhát cắt đứng (vertical slice) của A( , )x u
Một hàm thuộc phụ (secondary membership function) là một nhát cắt đứng
của A( , )x u Nó chính là A( , )x u tại x = x’, hay A(x x u ', ) với x X và u
Trang 25Chúng ta có thể viết lại A theo các nhát cắt đứng như sau:
A {( ,x A( )) |x x X } (1.4)Hoặc
x
x A
Định nghĩa 1.12: Miền của hàm thuộc phụ được gọi là hàm thuộc chính
(primary membership) của x Trong (1.5) J là hàm thuộc chính của x, trong x
đó J x [0,1] với x X .
Định nghĩa 1.13: Biên (amplitude) của hàm thuộc phụ được gọi là độ thuộc
phụ (secondary grade) Trong công thức (1.5) ( ) f u là độ thuộc phụ, còn x
trong (1.1) A( ', ')( 'x u x X u, 'J x') là độ thuộc phụ
Nếu cả X và J đều rời rạc (hoặc được rời rạc hóa từ các tập nền liên tục) thì x
vế phải của (1.5) có thể được miêu tả như sau:
M
N k
Định nghĩa 1.14: Sự không chắc chắn trong hàm thuộc chính của tập mờ loạihai A bao gồm một vùng bao (bounds region) mà chúng ta sẽ dùng thuật ngữ
FOU (footprint of uncertainty) để gọi tên nó Nó chính là hợp của tất cả các
hàm thuộc chính
Trang 26sự chú ý vào sự không chắc chắn vốn có của hàm thuộc loại hai mà nó còn làkết quả trực tiếp của sự không chắc chắn này Nó cũng cung cấp một miêu tảtiện lợi toàn bộ miền của hàm thuộc phụ Nó cũng cho ta vẽ tập mờ loại haitrên đồ thị hai chiều thay vì ba chiều
Khi mà tất cả các độ thuộc phụ bằng 1, chúng ta có tập mờ loại haikhoảng Phần này sẽ được nghiên cứu kỹ hơn trong phần sau
Định nghĩa 1.15: Cho các tập nền X và U, một tập nhúng loại hai ký hiệu là
e
A có N thành phần, trong đó A chứa chính xác một thành phần từ e J , x J , x
Trang 27…,J , đó là x N u ,1 u ,…,2 u , mỗi thành phần được kết hợp với độ thuộc phụ, đó N
A gọi là tập nhúng trong A
Định nghĩa 1.16: Cho tập nền rời rạc X và U, tập nhúng loại một ký hiệu là A e
A gọi là hợp của tất cả các hàm thuộc chính của tập A trong (1.8) e
1.2.1.2 Các phép toán cơ bản trên tập mờ loại hai
Chúng ta biết rằng độ thuộc của tập mờ loại hai là tập mờ loại một, vìvậy để thực hiện các phép toán như phép hợp, phép giao trên tập mờ loại hai,chúng ta cần thực hiện các phép toán t-norm và t-conorm giữa các tập mờ loạimột
Tập mờ E có không gian nền là miền giá trị của toán tử *
Với là toán tử t-norm Chúng ta sử dụng toán tử min t-norm và toán tử maxt-conorm để mở rộng cho tập mờ loại một như sau:
( ) ( ) / ( )
v u
F G f v fg u v u
Trang 28Đây chính là phép toán Join và ký hiệu là , tương tự như vậy với việc
mở rộng toán tử t-norm cho tập mờ loại một chúng ta có toán tử Meet.
( ) ( ) / ( )
v u
F G f v fg u v uTrong đó là ký hiệu của phép toán Meet
Xét hai tập mờ loại hai là A và B trong tập nền X, A, B là hai hàm
thuộc tương ứng của nó Với mỗi x X , A( ) x( ) /
Trong đó v = u w, là ký hiệu của toán tử min hay toán tử nhân là ký
hiệu của phép toán Meet.
Phần bù của tập mờ loại hai
Phần bù của tập mờ loại hai được miêu tả như sau:
( ) ( ) / (1 ) ( )
u x
Trang 29Trọng tâm của tập mờ loại một trong trường hợp miền xác định của nóđược rời rạc hóa thành N điểm, x x1, , ,2 x như sau: N
1
1
( )( )
N
i N A
Để tính toán trọng tâm C A ta phải tính các bộ (a,b) nhiều lần Giả sử là
bộ (a,b) được tính toán lần thì chúng ta có thể coi việc tính toán C A như làviệc tính toán bộ ( , )a b , 1 1 ( , )a b , …, ( , )2 2 a b Công thức (1.11) có thể diễn
đạt bằng lời như sau: Để tìm trọng tâm, chúng ta xét mỗi các hợp có thể cócủa { , , }1 N với i J x i, với mỗi hợp chúng ta tính trọng tâm loại một theocông thức (1,10) ở trên bằng cách thay i cho A( )x , và với mỗi điểm thuộc
Trang 30tâm chúng ta gán một độ thuộc tương đương với phép toán t-norm của độthuộc của i trong J , nếu có nhiều hơn một kết hợp sẽ cho chúng ta những x i
điểm giống nhau ở tâm, chúng ta chỉ cần giữ lại điểm mà có độ thuộc là lớnnhất
Mỗi bộ { , , }1 N có thể liên tưởng tới dạng của một vài tập mờ loại một A’
có cùng miền như A, chúng ta gọi A’ là tập nhúng loại một trong A, trọngtâm C A là tập loại một mà các thành phần của nó là trọng tâm của tất cả tậpnhúng loại một trong A Trọng tâm của mỗi tập nhúng thành viên trong C A
đã được tính toán theo t-norm của độ thuộc tương ứng với bộ { , , }1 N cấutạo nên tập nhúng đó
Thứ tự tính toán trọng tâm C A như sau:
1 Rời rạc hóa miền x thành N điểm: x x1, , ,2 x N
2 Rời rạc mỗi J (hàm thuộc chính của x j x ) với số điểm phù hợp, đó j
là M j (j1, , )N
3 Liệt kê tất cả các tập nhúng, có tổng cộng
1
N j j
M
, trong đó ,a b được cho trong công i i
Trang 31thức (1.12) và (1.13), trong trường hợp này =
1
N j j
Trong bước thứ 3 ở trên,
1
N j j
M
có thể rất lớn thậm chí M jvà N nhỏ Khihàm thuộc phụ có dạng chuẩn tắc (như tập khoảng, tập Gaussian, …), chúng
ta có thể thu được chính xác hoặc xấp xỉ trọng tâm mà không phải thực hiệntất cả các tính toán
1.2.2.2 Tính toán trọng tâm sử dụng product t-norm
Tính toán trọng tâm của tập mờ loại hai có miền liên tục và không phải
tất cả các hàm thuộc phụ của nó bằng 1, sử dụng product t norm cho chúng ta
một kết quả ngạc nhiên Chúng ta sẽ thảo luận và đề xuất một phương phápcho vấn đề này
Chúng ta tập trung vào tập loại hai có miền liên tục, chỉ có hàm thuộcchính có độ thuộc phụ bằng 1 Gọi A là một tập như vậy, trong công thức(1.11) chúng ta giả sử rằng miền của A được rời rạc hóa thành N điểm Trọngtâm chính xác của A là giới hạn của C A trong (1.11) khi N Khi chúng ta
sử dụng product t-norm lim 1 ( ) lim 1 ( )
1
1
( )( )
N
i N B
Trang 32N
l l l N
l l
để tổng quát hóa công thức (1.10) và (1.11) thành sự mở rộng của (1.17) Kết
quả của việc này chúng ta được trọng tâm tổng quát (generalized centroid),
Trong đó và cho biết phép toán t-norm sử dụng min Giả sử rằng
GC là tập mờ loại một, trong trường hợp này chúng ta gọi
Trang 33N
l l l N l l
Thứ tự các bước tính trọng tâm GC như sau:
1 Rời rạc hóa miền của mỗi tập mờ loại một Z l thành các điểm thích hợp,gọi chúng là N l (l 1,2, , )N
2 Rời rạc hóa miền của mỗi tập mờ loại một Wl thành các điểm thích hợp,gọi chúng là M l (l 1,2, , )N
3 Liệt kê tất cả các kết hợp có thể có của [ , , , , w , w , , w ]1 2 1 2 T
z z z
với z lZ l và wlWl, tổng số các hợp sẽ là 1
M
, trong đó ,a b được cho trong công thức (1.19) i i
và (1.20), trong trường hợp này =
1
N
j j j
lý song song tùy thuộc vào tỷ lệ mẫu trong miền x và miền hàm thuộc chính
Trang 34Độ phức tạp tính toán cho a trong công thức (1.12) gồm có phép nhân, phépcộng, phép chia, và tính toán cho b trong (1.13) là số lượng các phép toán t-norm Số lượng bộ vi xử lý tương đương với số bộ ( , )a b i i
Đối với trọng tâm của tập loại hai, nếu x là miền được rời rạc thành Nđiểm, và mỗi hàm thuộc chính lại được rời rạc thành M điểm, thì sẽ có N -1phép toán t-norm N phép nhân, 2(N-1) phép cộng và 1 phép chia, và sẽ cần
1.3 Tập logic mờ loại hai khoảng
Trong phần 1.2, chúng ta đã nghiên cứu về tập mờ loại hai, ở đây chúng
ta sẽ nghiên cứu một trường hợp đặc biệt của tập mờ loại hai – tập mờ loại haikhoảng, chúng được sử dụng rộng rãi vì không phức tạp trong tính toán nhưtrong tập mờ loại hai
Định nghĩa 1.17: Khi tất cả Ax u, 1 thì tập mờ loại hai A ở trênđược gọi là tập mờ loại hai khoảng (IT2 FS) Đó là:
{(( , ), A( , )) | , x [0,1], A( , ) 1}
A x u x u x X u J x u Hoặc A cũng có thể được miêu tả như sau:
Trang 35Hình 1.8 Mô tả IT2FS với tập nền rời rạc, Vùng tô đậm bên dưới mặt phẳng u-x là FOU
Định nghĩa 1.18: Tại mỗi giá trị của x, x = x’, mặt phẳng hai chiều (2D) có
trục là u và A( ', )x u được gọi là mặt phẳng đứng của A( , )x u Một hàmthuộc phụ là một mặt phẳng đứng của A( , )x u Đó là A(x x u ', ) với x X
như là hàm thuộc phụ, nó là một tập mờ loại một, một tập mờ khoảng,
và chúng ta cũng coi nó như là tập phụ (secondary set)
Mặt phẳng đứng (vertical slice) – hàm thuộc phụ của IT2 FS được vẽ như sau:
Hình 1.9.Mặt phẳng đứng của IT2FS
Trang 36Hàm thuộc loại hai được vẽ như hình 1.9, có 5 mặt phẳng đứng kết hợpvới nó, một là tại x = 2 được vẽ như trên hình tiếp theo (J ), hàm thuộc tại đó2
1/
M k k
UMF là biên trên của vùng FOU(A) và ký hiệu là A x , còn LMF làbiên dưới của FOU(A) được ký hiệu là A x với x X
Trang 37Vùng đậm là FOU, đường nét liền là UMF, đường nét rời là LMF,đường sóng là tập nhúng
Định nghĩa 1.20: Cho các tập nền rời rạc X và U, một tập nhúng khoảng loại
hai ký hiệu là A có N thành phần, trong đó e A chỉ chứa duy nhất một thành e
Tập A là tập nhúng trong e A và có tổng i N1M A i e
1.4 Mô hình hóa bài toán phân đoạn ảnh sử dụng phân cụm mờ
Phân đoạn ảnh giữ một vai trò rất quan trọng trong nhiều ứng dụng nhưcác bài toán nhận dạng hay các bài toán xử lý ảnh Phân đoạn ảnh là một bước
cơ bản để có thể thực hiện việc phân tích các ảnh thu được Một cách tổngquát, phân đoạn ảnh được định nghĩa như việc chia hình ảnh thành các đốitượng độc lập với nhau dựa trên các đặc tính của ảnh như mức xám hay kếtcấu của ảnh Có rất nhiều các thuật toán phân đoạn ảnh được đề xuất, chúng
ta có thể chia ra làm 4 loại sau đây :
- Phương pháp cơ bản: phân ngưỡng, phát triển vùng, tách biên…
- Phương pháp thống kê: Maximum Likelihood Classifier (MLC)…
- Phương pháp dựa trên mạng Neural
- Phương pháp dựa trên logic mờ (Fuzzy Clustering)
Chúng ta sẽ tập trung vào phương pháp trên logic mờ dựa trên mô hình phâncụm mờ Fuzzy C-means (FCM)
Phân lớp Fuzzy C-Means (FCM) là một trong những phương pháp đượcứng dụng rộng rãi nhất trong Logic mờ Được đưa ra bởi Bezdek bằng cách
mở rộng thuật toán Dunn năm 1973, FCM là một trong những thuật toán hiệu
Trang 38quả trong bài toán phân lớp và đặc biệt là trong các bài toán phân đoạn ảnh.Với cách tiếp cận này, mỗi hình ảnh với nhiều đặc trưng sẽ được phân lớpthành các nhóm mà tại đó các điểm ảnh có cùng đặc trưng với nhau Như vậy,bài toán phân lớp sẽ dẫn đến việc giải bài toán xác định giá trị min của tổngkhoảng cách của các điểm ảnh đến tâm của mỗi phân đoạn trên miền đặctrưng của ảnh
Giả sử rằng X:= {x1, x2, , xn} định nghĩa tập các điểm ảnh của một ảnh cầnphải phân thành c (0<c<n) phân đoạn {C1, C2, , Cc} trong đó d
k
x R vớik=1,2 n biểu diễn các đặc tính của điểm ảnh Trong các ảnh thông thường,chúng ta thường hay xét đến giá trị mức xám, giá trị màu RGB của các điểmảnh
Xét ma trận phân lớp mờ (Fuzzy Partition Matrix) U u ik cxn trong đómỗi phần tử u chỉ ra khả năng thuộc phân lớp i của một điểm ảnh ik x Khi đó, k
bài toán phân lớp chính là tối ưu hoá hàm mục tiêu:
Trong đó ||.|| chính là giá trị chuẩn Euclidean trên không gian tương ứng
và ma trận V biểu diễn tập hợp các điểm tâm của các phân lớp trong khônggian này còn tham số m được gọi là tham số mờ của các tập dữ liệu Khi đó,
mô hình của bài toán phân đoạn ảnh được biểu diễn:
1 1
1
,[0,1], 1 , 1 , 1
Trang 391.5 Kết luận
Trong chương này chúng ta đã nghiên cứu các vấn đề cơ bản về sự mởrộng của tập mờ loại một – tập mờ loại hai Các phép toán cơ bản trên tập mờloại một được phát triển cho tập mờ loại hai và mở rộng cho tập loại hai Cácphép toán trên tập mờ loại hai như các thuật toán tính trọng tâm, giải mờ…được giới thiệu để phục vụ việc thực hiện các thuật toán phân đoạn ảnh đượctrình bày trong các chương sau Đồng thời, trong chương này cũng giới thiệumột cách khái quát mô hình hóa thuật toán phân đoạn ảnh sử dụng thuật toánFCM-thuật toán chính trong việc phân đoạn ảnh
Chương 2 PHƯƠNG PHÁP PHÂN CỤM DỮ LIỆU
2.1 Khái niệm và mục tiêu của phân cụm dữ liệu
Phân cụm là một công cụ toán học dùng để phát hiện cấu trúc hoặc cácmẫu nào đó trong tập dữ liệu, theo đó có đối tượng bên trong cụm dữ liệu thểhiện bậc tương đồng nhất định
Nói cách khác, Phân cụm dữ liệu là quá trình nhóm một tập các đốitượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượngthuộc cùng một cụm là tương đồng còn các đối tượng thuộc các cụm khácnhau sẽ không tương đồng
Ngoài ra phân cụm dữ liệu còn có thể được sử dụng như một bước tiền
xử lí cho các thuật toán khai phá dữ liệu khác như là phân loại và mô tả đặcđiểm, có tác dụng trong việc phát hiện ra các cụm
Kỹ thuật phân cụm được áp dụng trong rất nhiều lĩnh vực như khai phá dữliệu, nhận dạng mẫu, xử lý ảnh…
Trang 40Với tư cách là một chức năng khai phá dữ liệu, phân tích phân cụm cóthể được sử dụng như một công cụ độc lập chuẩn để quan sát đặc trưng củamỗi cụm thu được bên trong sự phân bố của dữ liệu và tập trung vào một tậpriêng biệt của các cụm để giúp cho việc phân tích đạt kết quả.
Thuật toán phân cụm có nhiều dạng khác nhau từ phân cụm rõ đơn thuầnnhư k-Means và phát triển đến thuật toán phân cụm mờ loại một Fuzzy c-Means (Bezdek, 1981) và gần đây là thuật toán phân cụm mờ loại hai khoảng
- Interval Type II Fuzzy c-Means (Cheul Hwang và Frank Chung-Hoon Rhee,2007)
Theo các nghiên cứu cho thấy thì hiện nay chưa có một phương phápphân cụm tổng quát nào có thể giải quyết trọn vẹn cho tất cả các dạng cấu trúc
dữ liệu Hơn nữa, các phương pháp phân cụm cần có cách thức biểu diễn cấutrúc của các dữ liệu, với mỗi cách thức biểu diễn khác nhau sẽ có tương ứngmột thuật toán phân cụm phù hợp Vì vậy phân cụm dữ liệu vẫn đang là mộtvấn đề khó và mở, vì phải giải quyết nhiều vấn đề cơ bản một cách trọn vẹn
và phù hợp với nhiều dạng dữ liệu khác nhau, đặc biệt là đối với dữ liệu hỗnhợp đang ngày càng tăng trong các hệ quản trị dữ liệu và đây cũng là mộttrong những thách thức lớn trong lĩnh vực KPDL
2.2 Những kỹ thuật cơ bản trong phân cụm dữ liệu
Các kỹ thuật phân cụm có rất nhiều cách tiếp cận và các ứng dụng trongthực tế, nó đều hướng tới hai mục tiêu chung đó là chất lượng của các cụmkhám phá được và tốc độ thực hiện của thuật toán Hiện nay, các kỹ thuậtphân cụm có thể phân loại theo các cách tiếp cận chính sau :
2.2.1 Phương pháp phân cụm phân hoạch
2.2.1.1 Giới thiệu