1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân cụm mờ sử dụng lý thuyết đại số gia tử

18 464 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân cụm mờ sử dụng lý thuyết đại số gia tử
Tác giả Nguyễn Thị Phương
Người hướng dẫn TS. Nguyễn Mạnh Hùng
Trường học Học viện Công nghệ Bưu chính Viễn thông
Chuyên ngành Khoa học máy tính
Thể loại Luận văn thạc sĩ kỹ thuật
Năm xuất bản 2012
Thành phố Hà Nội
Định dạng
Số trang 18
Dung lượng 580,22 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Với ý nghĩa như vậy mục tiêu của luận văn đặt ra cụ thể như sau: - Trình bày về tập mờ, logic mờ - Trình bày thuật toán FCM - Trình bày về Đại số gia tử - Ứng dụng đại số gia tử - Giải t

Trang 1

-NGUYỄN THỊ PHƯƠNG

PHÂN CỤM MỜ SỬ DỤNG LÝ THUYẾT

ĐẠI SỐ GIA TỬ

Chuyên ngành: KHOA HỌC MÁY TÍNH

Mã số: 60.48.01

TÓM TẮT LUẬN VĂN THẠC SỸ KĨ THUẬT

HÀ NỘI – NĂM 2012

Trang 2

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Người hướng dẫn khoa học : TS NGUYỄN MẠNH HÙNG

Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học

viện Công nghệ Bưu chính Viễn thông Vào lúc: giờ ngày tháng năm

Có thể tìm hiểu luận văn tại:

- Thư viện của Học viện Công nghệ Bưu chính Viễn thông

Vào lúc: giờ ngày tháng năm

Có thể tìm hiểu luận văn tại:

- Thư viện của Học viện Công nghệ Bưu chính Viễn thông

Trang 3

I MỞ ĐẦU

Công nghệ Logic mờ được giáo sư Lotfi Zadeh công bố lần đầu tiên tại Mỹ vào năm 1965 Sự bùng nổ của thời đại thông tin như hiện nay, lượng thông tin được tạo ra hàng ngày là rất lớn Nhu cầu cần thiết đến các quá trình tự động tìm kiếm thông tin hữu ích, các quan hệ phát hiện các tri thức Để làm được điều đó các nhà nghiên cứu đã đề xuất và nghiên cứu lĩnh vực này như phân lớp và nhận dạng mẫu, hồi quy và dự báo, phân cụm… dựa trên tâp mờ

Lý thuyết tập mờ được coi là nền tảng của lập luận xấp xỉ, nhưng lý thuyết tập

mờ vẫn chưa mô phỏng đầy đủ, hoàn chỉnh cấu trúc ngôn ngữ mà con người vẫn sử dụng Vì thế năm 1990 N.C.Ho & W.Wechler đã khởi xướng phương pháp tiếp cận đại số dựa trên miền giá trị của biến ngôn ngữ

Với ý nghĩa như vậy mục tiêu của luận văn đặt ra cụ thể như sau:

- Trình bày về tập mờ, logic mờ

- Trình bày thuật toán FCM

- Trình bày về Đại số gia tử

- Ứng dụng đại số gia tử

- Giải thuật di truyền để tối ưu bộ số gia tử

Về bố cục luận văn được chia làm 4 chương:

Chương 1: Trình bày các vấn đề về logic mờ và bài toán phân cụm Trong đó

sẽ đi tìm hiểu giải thuật Fuzzy C-Means, so sánh với K-Means để thấy được

ưu/nhược điểm của thuật toán

Chương 2: Trong chương này sẽ trình bày về đại số gia tử, tìm hiểu cấu trúc,

định lý, tính mờ của một ngôn ngữ Sử dụng đại số gia tử sẽ sửa đổi khoảng cách từ mẫu tới tâm cụm, đo độ mờ của giá trị ngôn ngữ

Chương 3: Là chương phân tích thiết kế và cài đặt thử nghiệm Bộ hoa Iris là

tập dữ liệu đầu vào, qua chương trình sẽ đánh giá tính hiệu năng của thuật toán, thấy được tỉ lệ nhận dạng đúng khi phân loại bộ hoa Iris

Chương 4: Đánh giá kết quả và cài đặt tối ưu Để có được tỉ lệ nhận dạng cao,

sử dụng giải thuật di truyền để tối ưu bộ số gia tử

Trang 4

II NỘI DUNG Chương 1: LOGIC MỜ VÀ BÀI TOÁN PHÂN CỤM

Thực tế cho thấy khái niệm mờ luôn luôn luôn tồn tại, ứng dụng trong các bài toán và ngay cả trong cách thức suy luận của con người Bằng các phương pháp tiếp cận khác nhau các nhà nghiên cứu đã đưa ra kết quả về lý thuyết cũng như ứng dụng trong các bài toán điều khiển mờ, hệ hỗ trợ quyết định… Vậy để làm được những điều đó luận văn sẽ đi trình bày những ngữ nghĩa của thông tin mờ, tìm cách biểu diễn chúng bằng khái niệm toán học là tập mờ và xét bài toán phân cụm

1.1 Logic mờ

1.1.1 Lý thuyết tập mờ

Lý thuyết tập mờ lần đầu tiên được Lotfi.A.Zadeh, một giáo sư thuộc trường Đại học Caliornia, Berkley giới thiệu trong một công trình nghiên cứu vào năm 1965

Lý thuyết tập mờ bao gồm logic mờ, số học mờ, quy hoạch toán học mờ, hình học tôpô mờ, lý thuyết đồ thị mờ, và phân tích dữ liệu mờ, mặc dù thuật ngữ logic mờ thường được dùng chung cho tất cả

Không giống như tập rõ mà ta đã biết trước đây, mỗi phần tử luôn xác định hoặc thuộc hoặc không thuộc nó, thì với tập mờ chỉ có thể xác định một phần tử liệu thuộc vào nó là nhiều hay ít, tức mỗi một đối tượng chỉ là phần tử của tập mờ với một khả năng nhất định mà thôi

Trọng tâm của lý thuyết tập mờ là việc đề xuất khái niệm tập mờ (fuzzy sets)

Về mặt toán học, một tập mờ A là một hàm số (gọi là hàm thuộc ( membership function)) xác định trên khoảng giá trị số mà đối số x có thể chấp nhận (gọi là tập vũ trụ (universe of discourse)) X, cho bởi:

A (x) : X  [0.0;1.0]

Trong đó, A là nhãn mờ của biến x, thường mang một ý nghĩa ngôn ngữ nào đó, mô

tả định tính thuộc tính của đối tượng, chẳng hạn như cao, thấp, nóng, lạnh, sáng, tối

Một khái niệm cơ bản khác được đưa ra - biến ngôn ngữ (linguistic variables) Biến ngôn ngữ là biến nhận các giá trị ngôn ngữ (linguistic terms) chẳng hạn như

Trang 5

"già ", " trẻ " và "trung niên ", trong đó, mỗi giá trị ngôn ngữ thực chất là một tập mờ xác định bởi một hàm thuộc và khoảng giá trị số tương ứng, chẳng hạn giá trị ngôn ngữ "trung niên" là một tập mờ có hàm thuộc dạng hình tam giác cân xác định trong khoảng độ tuổi [25 , 55] Logic mờ cho phép các tập này có thể xếp phủ lên nhau (chẳng hạn, một người ở tuổi 50 có thể trực thuộc cả tập mờ " trung niên ” lẫn tập

mờ " già ", với mức độ trực thuộc với mỗi tập là khác nhau)

1.1.2 Logic mờ

Trong logic rõ thì mệnh đề là một câu phát biểu đúng, sai Trong logic mờ thì mỗi mệnh đề mờ là một câu phát biểu không nhất thiết là đúng hoặc sai Mệnh đề mờ được gán cho một giá trị trong khoảng từ 0 đến 1 để chỉ mức độ đúng (độ thuộc) của nó

Các phép toán mệnh đề trong logic mờ được định nghĩa nhưsau:

- Phép phủ định : v(Pphủ định) = 1 - v(P)

- Phép tuyển :v(P1∨P2) = max(v(P1), v(P2))

- Phép hội :v(P1∧P2) = min(v(P1), v(P2))

- Phép kéo theo: v(P→Q) = v(Pphủ định∨Q) = max(v( Pphủ định), v(Q)) Xét cho cùng, tập mờ là một công cụ toán học cho phép chuyển đổi từ giá trị định lượng sang giá trị định tính

Như vậy có thể nói, sự ra đời của lý thuyết tập mờ đã mở ra một nhánh quan trọng trong việc biểu diễn tri thức và ý nghĩ của con người Đây chính là công cụ toán học và logic để tiến hành xây dựng ứng dụng phân cụm mờ sẽ được cụ thể hóa trong các chương tiếp theo

1.2 Bài toán phân cụm mờ

Bài toán phân cụm mờ được ứng dụng rất nhiều như trong việc nhận dạng mẫu (vân tay, ảnh), xử lí ảnh, y học (phân loại bệnh lí, triệu chứng)…

Tuy nhiên với giải thuật thứ 2, tức là sử dụng logic mờ để phân cụm dữ liệu mềm dẻo hơn rất nhiều (so với giải thuật K-means) Nó cho phép một đối tượng có thể thuộc vào một hay nhiều phân vùng khác nhau được biểu diễn thông qua khái niệm hàm thuộc hay mức độ thuộc

Trang 6

D(x,y) = d22(x,y) = x − y 2 =1(

vi = 1 xk ∈Gi xk

1.2.1 Phân cụm rõ

Phương pháp đơn giản và dễ hiểu này vẫn được dùng khá phổ biến trong nhiều ứng dụng Với giải thuật này, việc phân cụm sẽ được thực hiện qua 2 bước:

- Tính toán tâm cụm

- Sắp xếp lại các đối tượng sao cho gần với tâm vùng nhất

1.2.2 Phân cụm mờ

Tập các đối tượng sẽ được phân vùng

X={x1,…,xN} ; (k=1,2,…,N)

Việc đánh giá quan hệ không đồng dạng trong 1 không gian cho trước thường sử dụng nhiều đến khái niệm metric, metric giữa 2 đối tượng x,y là m(x,y) cần thỏa mãn:

Khái niệm gần gũi chúng ta nhất là khoảng cách Euclid:

D2(x,y) = p j − yj )2 = x − y 2 Với những ứng dụng xây dựng trong không gian Euclid, hàm quan hệ đánh giá mức độ không đồng dạng D(X,Y) chúng ta dùng (được mô tả dưới đây) được xác định bằng bình phương khoảng cách Euclid :

Tiến hành phân chia X={x1,…, xN} vào c phân vùng Gi (i=1,2,…,c) Trong mỗi vùng, giá trị tâm vùng là xác định

Thuật toán có thể được mô tả như sau :

- Bước 1: tạo ngẫu nhiên c phân vùng với c tâm vùng Vi tương ứng

- Bước 2: sắp xếp các đối tượng sao cho gần tâm vùng nhất, điều này có nghĩa là:

xk ∈ Gi D(xk , vi ) = min1≤j≤c D(xk , vj )

- Bước 3: Tính toán lại tâm vùng:

Gi

- Bước 4: Dừng nếu vùng hội tụ, quay lại bước 2 trong trường hợp khác Như vậy với việc đưa vào G,V và hàm mục tiêu J, ta có thể mô tả lại việc xác định tâm vùng và gom cụm như sau:

Trang 7

Uki = 1 xk ∈ Gi

,

- Bước 2 : Tối thiểu hàm J với G trong khi V được cố định

- Bước 3 : Tối thiểu J với V trong khi G được cố định

Bằng việc xây dựng ma trận U (NxC)

U = (Uki )

0 (xk ∉ Gi ) Trong đó N là số đối tượng, C là số phân vùng, chúng ta viết lại hàm mục tiêu J như sau:

0 , = ( , )

=1 =1

Nhược điểm lớn nhất của Fuzzy C- Means là việc xử lí gặp khó khăn khi tập

dữ liệu lớn, tập dữ liệu nhiều chiều, nhạy cảm đối với nhiễu và phần tử ngoại lai trong dữ liệu, tức là các trung tâm cụm có thể sẽ nằm xa so với trung tâm thực của cụm Để giải quyết vấn đề này, đã có nhiều phương pháp được đề xuất như phân cụm dựa trên xác suất (Keller, 1993), phân cụm nhiễu mờ (Dave, 1991), thuật toán Є – Intensitive Fuzzy C- Means và FCM cải tiến

1.3 Kết luận chương 1

Như vậy qua chương 1 luận văn đã trình bày cơ sở lý thuyết về logic mờ cũng như khái niệm ban đầu về giải thuật phân cụm.Trong chương tiếp theo luận văn sẽ đề cập tới lý thuyết đại số gia tử và áp dụng lý thuyết này vào bài toán phân cụm dữ liệu

Trang 8

Chương 2: PHÂN CỤM MỜ SỬ DỤNG ĐẠI SỐ GIA TỬ

Trong chương này luận văn sẽ trình bày:

- Lý thuyết về đại số gia tử

- Phân cụm mờ sử dụng lý thuyết đại số gia tử

2.1 Lý thuyết đại số gia tử

Một đặc điểm quan trọng nữa cần chú ý khi cải thiện giải thuật FCM là hình dạng của cụm Trong trường hợp tâm cụm là một điểm, hình dạng của cụm phụ thuộc hoàn toàn vào việc tính toán khoảng cách Vì vậy thay đổi cách tính toán khoảng cách cho phép ta xử lí với nhiều hình dạng phân cụm Ví dụ như giải thuật Gustafson-Kessel (GK) xử lí tốt với những phân cụm dạng elip Trong một số nghiên cứu, các tác giả trong [12] đã chỉ ra khả năng của đại số gia tử với việc biểu diễn giá trị của các biến ngôn ngữ dựa trên cấu trúc ngữ nghĩa của chúng Việc ứng dụng đại số gia

tử trong thực hiện thông qua các bước:

- Sử dụng cấu trúc đại số gia tử thay đổi ước lượng khoảng cách từ mẫu

dữ liệu tới tâm cụm

- Mẫu dữ liệu chắc chắn thuộc vào một phân cụm nếu như mức độ thuộc của nó không nhỏ hơn giá trị phần tử trung lập của đại số gia tử (w) Chỉ những mẫu

dữ liệu rơi trên ngưỡng w mới có thể tham gia tiếp vào quá trình tính toán tâm cụm trong quá trình cập nhật lại tâm cụm, do vậy sẽ chịu ít ảnh hưởng của nhiễu

2.1.1 Định nghĩa đại số gia tử

Một cấu trúc đại số AT = (T, G, H, ≤) với H được phân hoặch thành H+ và H-các gia tử ngược nhau được gọi là một đại số gia tử nếu nó thỏa mãn H-các tiên đề sau: (1) Mỗi gia tử hoặc là dương hoặc là âm đối với bất kỳ một gia tử nào khác, kể cả với chính nó

(2) Nếu hai khái niệm u và v là độc lập nhau, nghĩa là u∉H(v) và v∉H(u), thì (∀x

∈H(u)) {x∉H(v)} Ngoài ra nếu u và v là không sánh được thì bất kỳ x∈H(u) cũng không sánh được với bất kỳ y∈H(v) (H(u) là tập các giá trị được sinh ra do tác động của các gia tử của H vào u)

(3) Nếu x ≠ hx thì x∉H(hx) và nếu h ≠ k và hx ≤ kx thì h’hx ≤ k’kx, với mọi gia tử h,

k, h’ và k’ Hơn nữa nếu hx ≠ kx thì hx và kx là độc lập

Trang 9

(4) Nếu u∉H(v) và u ≤ v (hoặc u ≥ v) thì u ≤ hv (hoặc u ≥ hv) đối với mọi gia tử h.

Xét đại số gia tử AT có đúng 3 phần tử sinh: dương, âm và một phần tử trung hòa w nằm giữa hai phần tử sinh kia và có tính chất hw = w, với mọi h∈H Một phần

tử y được gọi là phần tử đối nghịch của phần tử x nếu có tồn tại một biểu diễn của x

có dạng x = hn…h1g, w ≠ g ∉ G, sao cho y = hn…h1g’, với w ≠ g’∈G và g’ ≠ g (nói cách khác: hai phần tử của đại số gia tử được gọi là đối nghịch nhau nếu chúng có dạng biểu diễn với cùng một dãy các gia tử nhưng phần tử sinh của chúng khác nhau, một cái là dương và một cái là âm)

Đặc biệt phần đối nghịch của w được định nghĩa chính là w Phần tử đối nghịch của x được ký hiệu là –x với chỉ số nếu cần thiết Nhìn chung một phần tử có thể có nhiều phần tử đối nghịch

2.1.2 Các định lý

Định lý 1 :

Một đại số gia tử AT là đối xứng nếu với mọi x, x là điểm dừng khi và chỉ khi –x cũng là điểm dừng

Định lý 2 :

Nếu tập các toán tử (gia tử) H+ và H- có quan hệ thứ tự sắp xếp tuyến tính thì

có tồn tại một đẳng cấu từ đại số gia tử đối xứng AT = (T, G, H, -, ∪, ∩, ⇒, ≤) vào cấu trúc logic đa trị tựa trên đoạn [0, 1]

Định lý 3 :

Có tồn tại một hệ tiên đề hoá sao cho mỗi miền ngôn ngữ AT của biến ngôn ngữ trở thành dàn đầy đủ (complete lattice) có một phần tử 0, một phần tử đơn vị 1 và một phần tử trung hoà

2.1.3 Tính mờ của một giá trị ngôn ngữ

Cho trước một hàm định lượng ngữ nghĩa f của X Xét bất kỳ x∈X, tính mờ của x khi đó được đo bằng đường kính tập f(H(x)) ⊆ [0, 1]

Trang 10

2.2 Phân cụm mờ sử dụng lý thuyết đại số gia tử

Việc cải tiến giải thuật gồm những nội dung chính sau:

 Sử dụng lí thuyết đại số gia tử cho việc sửa đổi khoảng cách từ mẫu tới tâm cụm Độ đo mờ của giá trị ngôn ngữ được dùng như trọng số tương ứng với mỗi mẫu

 Một mẫu thuộc về một phân vùng được xác định khi mức độ thuộc của

nó đối với cụm đó có giá trị lớn hơn phần tử trung gian w của đại số gia tử Theo đó chỉ có những mẫu có giá trị độ thuộc vượt trên w mới được tham gia vào quá trình tính toán lại tâm cụm sau này Việc này sẽ làm hạn chế tầm ảnh hưởng của các phần

tử nhiễu

Do vậy việc sử dụng đại số gia tử cho phép ta tạo lập các trọng số phù hợp với mỗi mẫu dữ liệu dựa trên khoảng cách từ nó đến tâm vùng Tâm cụm mới thu được qua phép biểu diễn có sử dụng đại số gia tử này ta tạm gọi là tâm cụm ngôn ngữ (LCC-linguistic cluster center) Việc xác định LCC được thực hiện qua 3 bước:

1 Xác định giá trị level ngôn ngữ và độ đo mờ của chúng (Ở đây, một k-level ngôn ngữ được xác định thông qua số lượng gia tử đi kèm theo phần tử sinh, lấy

ví dụ Very very True là một 3-level, tuy nhiên trong suốt đồ án này sẽ chỉ làm việc liên quan tới 2-level linguistic tức là các giá trị ngôn ngữ có dạng Very True Độ đo

mờ của chúng được tính toán dựa trên giá trị biến gia tử(Very) và giá trị phần tử sinh(True))

2 Xác định khoảng cách lớn nhất có thể từ mẫu dữ liệu bất kì tới tâm cụm

cj kí hiệu là dmax

Sau khi hoàn thành việc xây dựng tâm cụm ngôn ngữ, tiếp theo chúng ta cần xác định giải thuật tính toán trọng số cho mỗi mẫu dữ liệu tương ứng với các tâm cụm ngôn ngữ này

Đầu vào: các mẫu xi, 1<=i<=N, tâm cụm cj, các tham số đại số gia tử gồm có k-level linguistic (ở đây cố định k=2), giá trị trung gian w, độ đo mờ của các biến gia tử fm(hi)

Đầu ra: trọng số tương ứng cho khoảng cách tương ứng dij từ xi tới cj

Trang 11

2.3 So sánh hướng tiếp cận mờ với sử dụng đại số gia tử

Như vậy với việc tìm hiểu đại số gia tử ở trên dễ thấy được ưu điểm của đại số gia tử so với tiếp cận mờ theo hướng truyền thống Nếu như phương pháp luận mờ phụ thuộc vào yếu tố là hàm thuộc, mà xác định hàm thuộc với các bài toán lớn là rất khó khăn dẫn đến nhiều sai số thì phương pháp lập luận mờ sử dụng đại số gia tử chỉ cần tập trung đến độ đo tính mờ hay tối ưu được bộ số gia tử

Có rất nhiều các nghiên cứu đã so sánh và đưa ra các kết quả tối ưu khi áp dụng đại số gia tử

2.4 Kết luận chương 2

Như vậy, luận văn đã trình bày các vấn đề về đại số gia tử và phân cụm mờ sử dụng lý thuyết đại số gia tử

Trong chương tiếp theo sẽ tiến hành phân tích thiết kế và cài đặt giải thuật để làm rõ hơn bài toán đã nêu, cũng như đánh giá được hiệu năng của thuật toán

Ngày đăng: 17/02/2014, 09:38

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w