1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tiểu luận môn toán học cho khoa học máy tính Ứng dụng logic mờ trong phân cụm dữ liệu

25 486 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 25
Dung lượng 175,5 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nội dung của bài thu hoạch này tập trung nghiên cứu tìm hiểu về logic mờ,quan hệ mờ và thuật toán Fuzzy C-Means, thuật toán này sử dụng logic mờ để gomcụm dữ liệu.. Không giống như tập r

Trang 1

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

BÀI THU HOẠCH MÔN TOÁN HỌC CHO KHOA HỌC MÁY TÍNH

ĐỀ TÀI: ỨNG DỤNG LOGIC MỜ TRONG

PHÂN CỤM DỮ LIỆU

GVHD : PGS TS Nguyễn Văn Nhơn SVTH : Bùi Lê Thuận

MSSV : CH1301062 Lớp : Cao học khóa 8

Tháng 01/2014

Trang 2

NHẬN XÉT CỦA GIẢNG VIÊN

Trang 3

MỤC LỤC

Trang 4

CHƯƠNG I : MỞ ĐẦU

Với sự phát triển mạnh mẽ của ngành Công nghệ thông tin, việc xây dựng cơ

sở dữ liệu và ứng dụng các chương trình máy tính đang trở nên quan trọng hơn nhiều

so với thời gian trước đây, đặc biệt là trong thương mại và các ngành khoa học kỹthuật

Do áp lực cạnh tranh nên các doanh nghiệp hiện nay hầu hết đều tập trung đầu

tư mạnh cho các ứng dụng Công nghệ thông tin vào việc xây dựng hình ảnh cho đếnquản lý điều hành Bên cạnh đó thì khối lượng dữ liệu thu thập và lưu trữ cũng rất lớn,như hóa đơn mua hàng tại siêu thị, các trung tâm mua sắm, dữ liệu giao dịch tại ngânhàng, thẻ tín dụng Đối với các ngành khoa học kỹ thuật, các công nghệ thu thập dữliệu đã được cải thiện đáng kể, có thể lên đến hàng triệu terabyte (TB/h) như thiết bịremote sensor trên vệ tinh, kính thiên văn quan sát bầu trời, microarray tạo dữ liệubiểu diễn gien, các thử nghiệm khoa học tạo hàng terabyte

Các nhiệm vụ phân tích thông tin ở nghĩa rộng có ý nghĩa ngày càng to lớntheo đà phát triển của các hệ thông tin Hiện nay, khối lượng thông tin ở các cơ sở dữliệu, Internet v.v… đã vượt giới hạn rất nhiều, xét về khả năng nhận thức của conngười, do vậy, giải quyết vấn đề tách rút từ khối lượng khổng lồ đó lượng thông tinthực sự cần thiết cho ứng dụng cụ thể, đã trở nên tuyệt đối cần thiết

Với khối lượng dữ liệu thu thập rất lớn như vậy thì các kỹ thuật truyền thốngkhông đủ khả năng làm việc với dữ liệu thô Khai thác dữ liệu ra đời trong bối cảnh

“Giàu dữ liệu, nghèo tri thức”, đây là giải pháp giúp phân tích và hỗ trợ ra quyết định

Khai phá dữ liệu gồm nhiều hướng tiếp cận, các kỹ thuật chính phần lớn được

kế thừa từ các lĩnh vực cơ sở dữ liệu, máy học, trí tuệ nhân tạo, lý thuyết thông tin,xác suất thống kê Vấn đề gom cụm, phân lớp là một trong những bài toán quan trọngcốt lõi trong khai thác dữ liệu

Với sự ra đời và phát triển của lý thuyết tập mờ, ngành công nghệ thông tin đã

có cái nhìn gần với thực tiễn hơn, các công cụ của logic mờ cho phép xử lý nhữngthông tin không đầy đủ, không chính xác Do đó, việc sử dụng logic mờ trong việcphân vùng dữ liệu sẽ mềm dẻo, linh hoạt hơn rất nhiều Nó cho phép một lượng dữliệu có thể thuộc vào một hoặc nhiều phân vùng khác nhau tùy vào mức độ hàm thuộc.Như vậy có thể nói, sự ra đời của lý thuyết tập mờ đã mở ra một nhánh quan trọngtrong việc biểu diễn tri thức và ý nghĩ của con người

Nội dung của bài thu hoạch này tập trung nghiên cứu tìm hiểu về logic mờ,quan hệ mờ và thuật toán Fuzzy C-Means, thuật toán này sử dụng logic mờ để gomcụm dữ liệu Bên cạnh đó, thuật toán gom cụm rõ K-Means cũng sẽ được trình bày đểlàm rõ sự khác nhau giữa phân cụm mờ và phân cụm rõ

Trang 5

Em xin gửi lời cám ơn sâu sắc đến PGS TS Nguyễn Văn Nhơn đã tận tìnhgiảng dạy, truyền đạt kiến thức, giúp em hiểu hơn về ứng dụng của toán học trongmáy tính, đặc biệt là logic mờ Đối với em, đây là kiến thức rất hay và bổ ích, tạo cho

em định hướng để thực hiện bài thu hoạch này Tuy nhiên do thời gian nghiên cứu cóhạn nên bài thu hoạch này không thể tránh khỏi những thiếu sót nhất định, em rấtmong nhận được sự góp ý của Thầy để có thể hoàn thiện bài thu hoạch một cách tốtnhất

Trang 6

CHƯƠNG II : TẬP MỜ

2.1 Đặt vấn đề

Xét tập X là tập hợp các sinh viên của một trường đại học

A là tập hợp các sinh viên của lớp CLASS Như vậy với một sinh viên bất kỳcủa trường thì có thể khẳng định sinh viên đó có thuộc A hay không Ta thấy mỗi tậphợp có thể đặt tương ứng hàm một hàm đặc trưng:

Tuy nhiên trong cuộc sống người ta vẫn dùng những khái niệm mặc dù không

rõ ràng nhưng vẫn hiểu được Chẳng hạn nói “một người cao” Mặc dù không biếtđích xác người đó cao bao nhiêu người ta đều hình dung được người cao là gì? Từ đó,nếu ta xét tập B = {các sinh viên cao} thì một sinh viên thuộc vào tập B với một mức

độ nào đó Chẳng hạn nếu sinh viên đó cao 1,8m thì có thể nói sinh viên đó chắc chắnthuộc B, còn một sinh viên cao 1,65m thì có thể 60% là thuộc B

Thực tế cho thấy khái niệm mờ luôn luôn tồn tại, ứng dụng trong các bài toán

và ngay cả trong cách suy luận của con người Bằng các phương pháp tiếp cận khácnhau các nhà nghiên cứu đã đưa ra kết quả về lý thuyết cũng như ứng dụng trong cácbài toán điều khiển mờ, hệ hỗ trợ ra quyết định

 µA là hàm liên thuộc (membership function)

 µA(x) là độ liên thuộc của x vào tập mờ A

Không giống như tập rõ, mỗi phần tử luôn xác định hoặc thuộc hoặc khôngthuộc nó, thì với tập mờ chỉ có thể xác định một phần tử liệu thuộc vào nó là nhiềuhay ít, tức mỗi một đối tượng chỉ là phần tử của tập mờ với một khả năng nhất định

Trang 7

2.3 Các phép toán trên tập mờ

a Giao của hai tập mờ

Cho X là tập hợp, A, B là hai tập mờ trong X và có các hàm thuộc lần luợt là µ

A , µ B Giao của hai tập mờ A và B, ký hiệu A∩B, là một tập mờ có hàm thuộc µA∩B xác định như sau:

µA∩B (x) = min(µ A (x), µB (x)) ∀x∈X

b Hợp của hai tập mờ

Cho X là tập hợp, A, B là hai tập mờ trong X và có các hàm thuộc lần luợt là

µA , µB Hợp của hai tập mờ A và B trong X, ký hiệu A∪B, là một tập mờ có hàmthuộc µ A∪B xác định như sau:

µA∪B (x) ) = max(µ A (x), µ B (x)) ∀x∈X

c Tích đại số của hai tập mờ

Cho X là tập hợp, A, B là hai tập mờ trong X và có các hàm thuộc lần lượt là µ

A (x), µ B (x) Tích đại số của hai tập mờ A và B trong X, ký hiệu A.B là một tập mờ

có hàm thuộc được xác định như sau:

µA.B (x) = µA (x).µB (x) ∀x∈X

d Tổng đại số của hai tập mờ

Cho X là tập hợp, A, B là hai tập mờ trong X và có các hàm thuộc lần lượt là

µA , µB Tổng đại số của hai tập mờ A và B trong X, ký hiệu A+B là một tập mờ cóhàm thuộc được xác định như sau:

µA+B (x) = µA (x) + µB(x) - µA(x).µB(x) ∀x∈X

Trang 8

Cho X là tập hợp, A và B là hai tập mờ trong X Tổng rời của hai tập mờ A và

B trong X, ký hiệu A⊕B định nghĩa như sau:

A⊕B = (A∩B) ∪ (A∩B)

g Phép trừ hai tập mờ

Cho X là tập hợp, A, B là hai tập mờ trong X và có các hàm thuộc lần lượt là

µA, µB Phép trừ của hai tập mờ A và B trong X ký hiệu A\B được định nghĩa nhưsau:

A\B = A∩B

h Cho X là tập hợp, A và B là hai tập mờ trong X, có các hàm thuộc lần lượt là

µA, µB A gọi là nằm trong B, ký hiệu A⊂B nếu hàm thuộc thỏa mãn:

µA(x) ≤ µB (x) ∀x∈X

i Cho X là tập hợp, A và B là hai tập mờ trong X, có các hàm thuộc lần lượt là

µA , µB A gọi là bằng B, ký hiệu A=B nếu và chỉ nếu:

µA(x) = µB (x) ∀x∈X

j Tập hợp mức α của tập mờ

Cho α ∈[0,1], X là tập hợp, A là một tập mờ trong X có hàm thuộc µ A Tậphợp Aα thoả mãn Aα={x∈X | µ A (x) ≥ α} gọi là tập hợp mức α của tập mờ A

k Khoảng cách Euclid trên tập mờ

X là tập hợp có hữu hạn n phần tử, A và B là hai tập mờ trên X Khoảng cáchEuclid (trong không gian n chiều) trên tập mờ được tính như sau:

Khoảng cách e2 (A,B) được gọi là một chuẩn Euclid

Trang 9

2.4 Biểu diễn tập mờ

Khi X = {x1,x2,…,xn} thì tập con mờ A có thể được biểu diễn bằng cách liệt

kê A = {(x1, µA(x1)), (x2, µA(x2)), …, (xn, µA(xn))}

Nếu X là một tập liên tục thì hàm thuộc của A thường được biểu diễn bằng đồthị Người ta thường chọn các hàm thuộc có hình tam giác, hình bậc thang hay hìnhchuông…

Ví dụ:

Cho X là tập các sinh viên một trường đại học, B là tập các sinh viên cao Khi

đó hàm thuộc của B được xác định bởi hình vẽ sau

 Nếu µA(x) = 0 thì có thể nói x chắc chắn không thuộc B

 Nếu µA(x) = 1 thì có thể nói x chắc chắn thuộc B

Trang 10

CHƯƠNG III : QUAN HỆ MỜ

3.1 Khái niệm

Quan hệ mờ đóng vai trò quan trọng trong logic mờ và lập luận xấp xỉ Kháiniệm quan hệ mờ là sự tổng quát hóa trực tiếp của khái niệm quan hệ (quan hệ rõ)

Giả sử U và V là hai tập hợp và một quan hệ R từ U đến V (quan hệ hai ngôi)

là một tập con của tích đề-các UV Trong trường hợp U = V, ta nói R là quan hệ trênU

Khi U và V là các tập hữu hạn, chúng ta sẽ biểu diễn quan hệ R từ U đến V bởi

ma trận, trong đó các dòng được đánh dấu bởi các phần tử xU và các cột được đánhdâu bởi các phần tử yV Phần tử của ma trận nằm ở dòng x, cột y là R(x,y)

3.2 Định nghĩa

3.2.1 Quan hệ mờ trên tích đề-các

Cho X,Y là hai tập và x∈X, y∈Y Ký hiệu (x,y) là cặp thứtựnằm trong tíchĐề-các XY Tập mờR = {(x,y), µR(x,y)|(x,y) ∈XxY} được gọi là một quan hệ mờtrên X×Y với hàm thuộc: µR(x,y): X×Y →[0,1]

Nếu R là một tập mờtrong X = X1×X2×….×Xnthì R được gọi là một quan hệ

mờ n ngôi

3.2.2 Quan hệ mờ trên tập mờ

Cho X,Y là hai tập mờvà x∈X, y∈Y Ký hiệu (x,y) là cặp thứtựnằm trong tíchĐề-các X×Y R = {(x,y), µR(x,y)|(x,y) ∈X×Y} được gọi là một quan hệmờtrên tậpmờA, B nếu: µR(x,y)≤µA(x,y), ∀X×Y và µR(x,y) ≤µB(x,y) ∀X×Y

3.3 Các phép toán trên quan hệ mờ

Ngoài một số phép toán giống như trên tập mờ trong tích Đề-các: Phép hợp,giao, tổng đại số, tích đại số…, người ta còn đưa ra thêm một số phép toán khác trongquan hệ mờ như sau:

Trang 11

Phép hợp thành max-min

Giả sử R1 là quan hệ mờ trong X×Y, R2 là quan hệ mờ trong Y×Z Phéphợpthành max-min của hai quan hệ mờ R1, R2 (kí hiệu R1 o R2) là một quan hệ mờtrong X×Zthoả mãn:

Phép hợp thành max-tích

Giả sử R1 là quan hệ mờ trong X×Y, R2 là quan hệ mờ trong Y×Z Phéphợpthành max-tích của hai quan hệ mờ R1, R2 (kí hiệu R1.R2) là một quan hệ mờtrong X×Z thoả mãn:

Phép hợp thành max-trung bình

Giả sử R1 là quan hệ mờ trong X×Y, R2 là quan hệ mờ trong Y×Z Phép hợpthành max-trung bình của hai quan hệ mờ R1, R2 (R1avR2) là quan hệ mờ trong X×Zthoả mãn:

 Phép hợp thành max-*.(max-* composition) (* là toán tử hai ngôi bất kỳ)Giả sử R 1 là quan hệ mờ trong X×Y, R 2 là quan hệ mờ trong Y×Z Phéphợp thành max-* của hai quan hệ mờ R1 , R2 (R1 * R2 ) là một quan hệ mờ trongX×Z thoả mãn:

 Hàm tích hợp mờ

Khi có một tập các tập mờ và tích hợp các hàm thuộc của chúng lại, ta sẽ thuđược một tập mờ là một hàm tích hợp mờ

Một hàm tích hợp mờ được định nghĩa là một toán tử n ngôi như sau:

F: [0,1] n → [0,1] thỏa mãn điều kiện:

Nếu 0, 1 là hai điểm cực trị thì: F(0,…,0) = 0 và F(1,…,1)=1 và ∀a trong [0,1]thì: F(a,…,a)=a

Nếu ai’ > aithì: F(a1,…,ai’,…,an) ≥ F(a1,…,ai,…,an) (tính đơn điệu tăng của hàmtích hợp mờ)

Trang 12

CHƯƠNG IV : GOM NHÓM DỮ LIỆU

4.1 Gom nhóm là gì?

Gom nhóm là quá trình nhóm các đối tượng thànhnhững nhóm/cụm/lớp có ýnghĩa Các đối tượng trong cùng một nhóm có nhiều tính chất chung và có những tínhchất khác với các đối tượng ở nhóm khác

Đây là quá trình xử lý một tập các đối tượng vào trong các lớp các đối tượnggiống nhau được gọi là phân cụm Một cụm là một tập hợp các đối tượng dữ liệugiống nhau trong phạm vi cùng một cụm và không giống nhau với các đối tượng trongcác cụm khác Số các cụm dữ liệu được phân ở đây có thể được xác định trước theokinh nghiệm hoặc có thể được tự động xác định của phương pháp gom nhóm

Cho CSDL D={t1,t2,…,tn} và số nguyên k, gom nhóm là bài toán xác định ánh

xạ f: Dg{1,…,k}sao cho mỗi ti được gán vào một nhóm (lớp) Kj,1 ≤ j ≤ k

c Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu

d Chuyển đổi dữ liệu

e Khai phá dữ liệu

f Đánh giá các luật và biểu diễn tri thức

Phân biệt gom nhóm và phân lớp

Phân lớp : học có giám sát (Supervised learning): tìm phương pháp để dự đoánlớp của mẫu mới từ các mẫu đã gán nhãn lớp (phân lớp) trước

Trang 13

 Ứng dụng:

 Nhận dạng

 Phân tích dữ liệu không gian

 Xử lý ảnh

 Khoa học kinh tế ( đặc biệt nghiên cứu tiếp thị)

 Gom nhóm tài liệu liên quan để dễ tìm kiếm

 Gom dữ liệu Weblog thành nhóm để tìm các nhóm có cùng kiểu truycập

 Giảm kích thước dữ liệu lớn

Bảo hiểm : tìm nhóm khách hàng có khả năng hay gặp tai nạn

Nghiên cứu động đất : gom nhóm các tâm chấn động đất quan sát được theovết nứt lục địa

4.2 Các tiêu chuẩn và độ đo khoảng cách

 Các tiêu chuẩn gom nhóm

- Phương pháp gom nhóm tốt là phương pháp sẽ tạo các nhóm có chất lượng :

 Sự giống nhau giữa đối tượng trong cùng một nhóm cao

 Giữa các nhóm thì sự giống nhau thấp

- Chất lượng của kết quả gom nhóm dựa trên 2 yếu tố :

 Độ đo sự giống nhau dùng trong phương pháp gom nhóm và

 Sự thi hành nó

- Một số độ đo chất lượng :

 Bình phương sai (Sum of Squared Error -SSE)

 Entropy

Trang 14

Nếu q=1, d là khoảng cách Manhattan :

d(i,j) = Nếu q=2, d là khoảng cách Euclide :

Phân cụm phân vùng (phân cụm phẳng)

Xây dựng từng bước phân hoạch các cụm và đánh giá chúng theo các tiêu chítương ứng

Tiếp cận: từ dưới lên (gộp dần), từ trên xuống (chia dần)

Độ đo tương tự / khoảng cách

Hạn chế: Không điều chỉnh được lỗi

Thuật toán: K-mean, k-mediod, CLARANS, …

Phân cụm phân cấp

Trang 15

Xây dựng hợp (tách) dần các cụm tạo cấu trúc phân cấp và đánh giá theo cáctiêu chí tương ứng

Độ đo tương tự / khoảng cách

HAC: Hierarchical agglomerative clustering

CHAMELEON, BIRRCH và CURE, …

Phân cụm dựa theo mật độ

Hàm mật độ: Tìm các phần tử chính tại nơi có mật độ cao

Hàm liên kết: Xác định cụm là lân cận phần tử chính

Thuật toán: DBSCAN, OPTICS…

Phân cụm dựa theo lưới

Sử dụng lưới các ô cùng cỡ: tuy nhiên cụm là các “ô” phân cấp

Tạo phân cấp ô lưới theo một số tiêu chí: số lượng đối tượng trong ô

Thuật toán: STING, CLIQUE, WaweCluster…

Phân cụm dựa theo mô hình

Giải thiết: Tồn tại một số mô hình dữ liệu cho phân cụm

Xác định mô hình tốt nhất phù hợp với dữ liệu

Thuật toán: MCLUST…

Phân cụm mờ

Giả thiết: không có phân cụm “cứng” cho dữ liệu và đối tượng có thể thuộcmột số cụm

Sử dụng hàm mờ từ các đối tượng tới các cụm

Thuật toán: FCM (Fuzzy CMEANS),…

Trang 16

CHƯƠNG V : THUẬT TOÁN K-MEANS

5.1 Tổng quan

Đây là một giải thuật gom nhóm đơn giản không tham số Ý tưởng chính củagiải thuật này đơn giản chỉ là xem mỗi mẫu dữ liệu là một điểm trên không gian Nchiếu, trong đó các điểm gần nhau sẽ được gom vào thành một nhóm

Ban đầu giải thuật sẽ sinh ngẫu nhiên K điểm và xem như đó là trọng tâm của

K nhóm tương ứng Sau đó các điểm sẽ được lần lượt phân vào các nhóm có trọngtâm gần nó nhất Cuối cùng, các trọng tâm nhóm sẽ được tính lại dựa trên các điểm dữliệu thuộc nhóm đó Quá trình trên sẽ được lặp lại liên tục cho đến khi phạm vi daođộng của các trọng tâm nhỏ hơn một ngưỡng nào đó (hội tụ)

Ở đây, tiêu chuẩn gần nhất sẽ được xác định dựa theo một tiêu chuẩn độ đokhoảng cách nào đó như Euclide, Minkowsky Ngưỡng hội tụ sẽ được thiết lập dựatrên bản chất của dữ liệu

Nhìn chung, đây là một thuật giải dễ cài đặt, dễ hiểu có khả năng ứng dụngtrong thực tế nhưng cũng có nhiều hạn chế Đầu tiên, thuật giải này có hạn chế ở chỗ

ta phải biết trước K Ngoài ra, nếu trong tập dữ liệu có nhiều mẫu “cá biệt” (outlier)thì giải thuật sẽ xử lý không được hiệu quả

5.2 Thuật toán

Cho số k, mỗi nhóm được biểu diễn bằng giá trị TB của DL trong nhóm

B1: Chọn ngẫu nhiên k đối tượng như là những trung tâm của các nhóm

B2 : Gán từng đối tượng còn lại vào nhóm có trung tâm nhóm gần nó nhất (dựatrên độ đo khoảng cách Euclide)

B3 : Tính lại giá trị trung tâm của từng nhóm

+ Di chuyển trung tâm nhóm về = giá trị TB mới của nhóm

+ Cho nhóm Ki = {ti1,ti2, …,tim}, giá trị trung bình của nhóm là mi = (1/m)(ti1 +

… + tim)

B4: Nếu các trung tâm nhóm không có gì thay đổi thì dừng lại, ngược lại quaylại B2

Trang 17

 Một thuật toán phân cụm phổ biến nhất

 Thường cho tối ưu cục bộ Tối ưu toàn cục rất khó tìm

 Nhược điểm

 Phải “tính trung bình được”: dữ liệu phân lớp thì dựa theo tần số

 Cần cho trước k : số cụm

 Nhạy cảm với ngoại lệ (cách xa so với đại đa số dữ liệu còn lại): ngoại

lệ thực tế, ngoại lệ do quan sát sai (làm sạch dữ liệu)

 Nhạy cảm với mẫu ban đầu: cần phương pháp chọn mẫu thô tốt

 Không thích hợp với các tập dữ liệu không siêu-ellip hoặc siêu cầu (cácthành phần con không ellip/cầu hóa)

5.4 Bài toán minh họa

Cho bảng dữ liệu (đã chuẩn hóa) như sau

Ta sẽ sử dụng thuật toán K-means (k=2) để gom nhóm

Bước 1 Chọn Thiện và Ngọc làm trung tâm của nhóm/cụm A và B

Ngày đăng: 23/05/2015, 10:16

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w