Ứng dụng của tập thô tolerant trong phân loại dữ liệu môn cơ sở tri thức và ứng dụng

Chương 1 TẬP THÔ TOLERANT1.1 Giới thiệu Vấn đề của việc phân loại dữ liệu đó là phân chia một không gian dữ liệu n vào trong các lớp và sau khi xác định một điểm x n tới một điểm thuộ

Trang 1

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

LỚP CAO HỌC QUA MẠNG – KHÓA 6

BÀI THU HOẠCH MÔN HỌC: CƠ SỞ TRI THỨC

ỨNG DỤNG CỦA TẬP THÔ TOLERANT

TRONG PHÂN LOẠI DỮ LIỆU

Giảng viên: GS TSKH Hoàng Kiếm Sinh viên thực hiện: Nguyễn Hoàng Hạc MSHV: CH1101081

TP HCM, NĂM 2012

Trang 2

LỜI CÁM ƠN!



Tôi xin trân trọng dành nhưng lời cảm ơn đầu tiên tới GS TSKH Hoàng Kiếm, người trực tiếp hướng dẫn và giảng dạy môn Công nghệ tri thức này.

Xin chân thành cám ơn các thầy cô khác trong trường Đại Học Công nghệ Thông tin Thành phố Hồ Chí Minh.

Xin gởi lời cảm tới các bạn và những người đã hổ trợ và tạo điều kiện cho tôi hoàn thành đề tài này.

Một lần nữa, xin chân thành cảm ơn mọi người bằng cả tấm lòng!.

Học viên thực hiện:

Nguyễn Hoàng Hạc

Trang 3

MỤC LỤC

MỞ ĐẦU 4

Chương 1 TẬP THÔ TOLERANT 5

1.1 Giới thiệu 5

1.2 Tập thô tolerant 7

1.3 Quan hệ tương tự 8

1.4 Tập xấp xỉ trên và tập xấp xỉ dưới 9

1.5 Độ đo tương tự và ngưỡng tương tự 9

Chương 2 XÁC ĐỊNH NGƯỠNG TƯƠNG TỰ BẰNG THUẬT GIẢI DI TRUYỀN.11 2.1 Giải thuật chung cho thuật giải di truyền 11

2.2 Biểu diễn nhiễm sắc thể cho thuật giải di truyền 13

2.3 Khởi tạo quần thể ban đầu 13

2.4 Hàm thích nghi 13

2.5 Các phép toán di truyền 16

2.5.1 Phép chọn lọc tái sinh 16

2.5.2 Phép lai ghép 18

2.5.3 Phép đột biến 18

Chương 3 PHÂN LOẠI DỮ LIỆU DỰA TRÊN TẬP THÔ TOLERANT 20

3.1 Giai đoạn 1: dùng xấp xỉ dưới 21

3.2 Giai đoạn 2: dùng xấp xỉ trên 21

3.3 Ứng dụng tập thô tolerant trong phân loại dữ liệu IRIS 24

3.3.1 Bộ dữ liệu IRIS 24

3.3.2 Xác định tập thô tolerant 26

3.3.3 Phân loại dữ liệu 27

3.3.4 So sánh kết quả phân loại với các phương pháp phân loại khác 30

3.4 Kết luận 31

Chương 4 CÀI ĐẶT VÀ KẾT QUẢ THỰC HIỆN 33

4.1 Cấu trúc dữ liệu 33

4.1.1 Lớp CUniverse 33

4.1.2 Lớp CObjects 34

4.1.3 Lớp CChromosome 35

4.1.4 Lớp CSimilarity 36

4.1.5 Lớp CApproximation 37

4.1.6 Lớp CTolerant 37

4.2 Thử nghiệm với bộ dữ liệu IRIS 38

4.2.1 Bộ dữ liệu IRIS 38

4.2.2 Các tham số cho chương trình 38

4.2.3 Kết quả thực hiện phân loại 39

4.3 Thử nghiệm với bộ dữ liệu gồm 25 ký tự 39

4.3.1 Bộ dữ liệu của 25 ký tự 39

4.3.2 Các tham số cho chương trình 42

4.3.3 Kết quả thực hiện 42

4.4 Đánh giá 43

Trang 4

MỞ ĐẦU

Ngày nay, cùng với sự phát triển không ngừng của Công nghệ thông tin kèmtheo đó là dữ liệu về thế giới thực được lưu trữ nhiều hơn Với nguồn dữ liệu đượclưu trữ ngày càng lớn làm cho việc phân loại dữ liệu trở nên hết sức khó khăn, đôikhi là bất khả thi

Để thực hiện việc phân loại dữ liệu, các nhà Trí tuệ nhân tạo đã đưa ra cácphương pháp phân loại như: thuật toán Quinland, cây định danh, thuật toán Apriori,thuật toán Apriori Tid… Nhưng các phương pháp này có nhược điểm không phânloại được phần dữ liệu mơ hồ (không chắn chắn, không xác định) Sau này, cácphương pháp mới hơn được đưa ra như: Back-propagation neural networks(BPNN), the Object function-based unsupervised neural networks (OFUNN),Fuzzy C-means (FCM),…giải quyết vấn đề phân loại dữ liệu mơ hồ nhưng với độchính xác không cao và thời gian xử lý khá lâu

Đề tài “Ứng dụng của tập thô tolerant trong phân loại dữ liệu” tập trung chủyếu vào lý thuyết tập thô, tập thô tolerant, các bài toán sử dụng tập thô phân loại dữliệu và ứng dụng của tập thô tolerant trong phân loại dữ liệu Đây là phương phápthực hiện phân loại dữ liệu chính xác hơn và thời gian xử lý nhanh hơn so với cácphương pháp đã đưa ra trước đó

Trang 5

Chương 1 TẬP THÔ TOLERANT

1.1 Giới thiệu

Vấn đề của việc phân loại dữ liệu đó là phân chia một không gian dữ liệu n

vào trong các lớp và sau khi xác định một điểm x n tới một điểm thuộc các lớpkhác Nhiều ứng dụng đã được tìm thấy trong các ngành khoa học như: nhận dạngdấu vân tay, phần phân loại trong sự quan sát của máy tính, phân tích máu,…và hơnthế nữa Các phương pháp phân loại dữ liệu được phân loại thành 3 cách khác nhau:Phân loại dữ liệu thống kê, phân loại dữ liệu cú pháp và phân loại dữ liệu mạngnơron cơ sở (neural network-based) Một vài thuộc tính đã có bởi quan niệm củangười phân loại dữ liệu được đề cập như sau:

1 Thích nghi tức thì (On-line adaptation):

Chương trình phân loại dữ liệu cần học những lớp mới và tinh chếnhững lớp đang tồn tại nhanh chóng mà không phá hủy thông tin của lớp

cũ

2 Phân chia không định hướng (Nonlinear separation):

Chương trình phân loại dữ liệu cần xây dựng những ranh giới quyếtđịnh đó là những lớp ngăn cách giữa hình dạng và kích thước

3 Các lớp chồng chéo (Overlapping classes):

Chương trình phân loại dữ liệu cần có khả năng định dạng một ranhgiới quyết định đó là việc giảm tối thiểu số lượng lớp không được phânloại đối với tất cả các lớp chồng chéo nhau

4 Thời gian huấn luyện (Training time):

Chương trình phân loại dữ liệu cần có khoảng thời gian học ngắn choviệc tạo những ranh giới quyết định

5 Các quyết định dễ và khó (Soft and hard decisions):

Chương trình phân loại dữ liệu cần cung cấp cả hai loại quyết địnhphân loại dễ và khó

6 Kiểm tra và xác nhận (Verification and validation):

Trang 6

Chương trình phân loại dữ liệu cần có kỹ thuật để kiểm tra và xácnhận lại sự thực hiện của chương trình bằng nhiều cách.

7 Tham số điều chỉnh (Tuning parameters):

Chương trình phân loại dữ liệu nên có càng nhiều tham số điều chỉnh

hệ thống càng tốt

8 Sự phân loại không giới hạn (Nonparametric classification):

Chương trình phân loại dữ liệu sẽ hoạt động tối ưu mà không cần biếtđến sự phân phối dữ liệu bên dưới

Như đã đề cập ở trên, nhiều nhà nghiên cứu đã từng thực hiện bằng nhiềucách khác nhau Carpenter và Grossberg đã phát triển nhanh chóng và đáng tin cậycác bộ mẫu tuần tự của hệ thống gọi là lý thuyết Fuzzy Adaptive Resonance (ART)

nó liên kết logic mờ với ART1, Lin và Lee giới thiệu tổng quát mạng nơron choviệc điều khiển logich mờ và các hệ thống ra quyết định nó có thể thành lập cácluật logich mờ và tối ưu chức năng nhập / xuất của các thành viên Simpson đã pháttriển sự phân loại min_max không rõ ràng của mạng nơron nó sử dụng các tập mờnhư là những lớp mẫu, việc học trong mạng nơron được thực hiện tại một nơi nhấtđịnh và sự điều chỉnh hyberboxes trong không gian mẫu

Bởi vì, các lý thuyết phân loại trên có một cấu trúc kết nối giữa logic mờ vàmạng nơron nên họ dự tính sẽ gặp những khó khăn giống như mạng nơron như sau:

 Khả năng có giải pháp không hội tụ bởi vì sự chọn lựa sai các giá trịtrọng số ban đầu

 Có liên quan đến thời gian học dài

 Khả năng có những giải pháp không tối ưu vì những vấn đề cục bộ.Gần đây Banzan đề xuất hai ứng dụng của logich cho việc phân loại các đối

tượng bằng cách sử dụng multi-modal logics cho việc tự động lấy các đặc trưng ban

đầu và sử dụng sự phương pháp qui nạp của tập thô để khám phá các tập đặc trưngtối ưu nhất đối với chất lượng của việc phân loại Phương pháp của họ nhấn mạnh

sự tối ưu các lựa chọn của những thuộc tính liên quan từ việc linh động thu nhỏ.Nhưng số lượng những đối tượng không thể phân biệt được thì quá hạn chế để xác

Trang 7

định sự tương tự của nó, bởi vì sự giao nhau không luôn luôn đúng trong trườnghợp của vấn đề phân loại mẫu Nguyễn đề xuất việc sử dụng số lượng mối quan hệtolerant của các đối tượng cho việc phân loại mẫu Nhưng phương pháp này không

đề cập như thế nào xác định ngưỡng khởi tạo tối ưu của các thuộc tính cho việcphân loại tốt nhất của một vấn đề được đưa ra

Những yêu cầu đã gặp ở trên đã cho ra ý tưởng của người phân loại càngnhiều càng tốt khắc phục một số trở ngại của các phương pháp đã đề xuất trước đó,

đó là lý do cho việc đề xuất một phương pháp phân loại mới dựa trên tập thôtolerant

1.2 Tập thô tolerant

Tập thô được Z Pawlak giới thiệu vào đầu thập niên 80 là công cụ tính toánmới giải quyết tính gần đúng và không chắc chắn trong các lĩnh vực: máy học, thunhận tri thức, phân tích quyết định, khám phá tri thức từ cơ sở dữ liệu, lập luận quinạp và nhận dạng mẫu Khi một số đối tượng không phân biệt từ những đối tượng

khác với các thuộc tính đã cho có một mối quan hệ không phân I biệt thoả mãn các

tính chất:

Phản xạ (Reflexive):xIx

Đối xứng (Symmetric): xIy  yIx

Bắc cầu (Transitive): xIy yIz  xIz Với x, y và z là các đối tượng trong vũ trụ của đối tượng U Vì vậy mối quan

hệ không phân biệt là mối quan hệ tương đương nó sẽ phân chia tập U vào những

2

3

Trang 8

Rõ ràng, điểm 1 gần điểm 2 và điểm 2 gầ điểm 3, nhưng điểm 1 không gần điểm 3 Trong trường hợp này tính chất bắc cầu không còn đúng.

Bởi vì 2 đối tượng dữ liệu x và z không thể được bảo đảm trong cùng một lớp thậm chí khi một cặp dữ liệu x và y được chứa trong cùng một lớp và cặp dữ liệu y

và z cũng được chứa trong cùng một lớp thì chưa hẳn x và z thuộc về cùng một lớp

(tính chất bắc cầu không thoả mãn) Vì vậy, tập thô Tolerant mở rộng quan hệkhông phân biệt thành quan hệ tolerant (quan hệ tương tự) cho phù hợp với các bàitoán phân lớp mà quan hệ giữa các đối tượng chỉ thoả mãn hai tính chất: phản xạ vàđối xứng

1.3 Quan hệ tương tự

Cho A = (U, Ad) là một bảng quyết định

U là một tập gồm các yếu tố (các đối tượng, các mẫu)

A là tập những thuộc tính điều kiện, aA tập những giá trị của thuộc tính a

là V a , và {d} là một tập quyết định với d = {1, 2, …, r(d)}, r(d) là số các lớp quyết

định

Cho A = {R a : R a  V a x V a  aA} là một tập của mối quan hệ tolerant Mỗi

mối quan hệ tolerant thoả mãn:

Phản xạ (Reflexive): v 1 V a , v 1 R a v 1 , Đối xứng (Symmetric): v 1 R a v 2 v 2 R a v 1

Với v 1 và v 2 là các thuộc tính giá trị trong V a

Hai đối tượng x và y là tương tự nhau đối với thuộc tính a Khi giá trị a(x) và

a(y) thoả mãn a(x)R a a(y) Hơn nữa, chúng ta nói hai đối tượng x và y là tương tự đối

với trong toàn bộ thuộc tính A khi nó thoả mãn mối quan hệ tolerant với việc thừanhận tất cả các thuộc tính nghĩa là:

a  A, a(x)R a a(y) Một tập thô tolerant (tolerance rough set) TS(x) của một đối tượng x được

định nghĩa bởi một tập của tất cả các đối tượng có mối quan hệ tolerant với đối

tượng x đối với tất cả các thuộc tính như sau:

Trang 9

TS(x) = {yU | xA y}

1.4 Tập xấp xỉ trên và tập xấp xỉ dưới

Xấp xỉ dưới A (Y) và xấp xỉ trên  A (Y) của tập YU nó có mối quan hệ

tolerant đối với tất cả cá thuộc tính của A được định nghĩa như sau:

A

 (Y) = U

U x {TS(x) | TS(x)Y}

A

 (Y) = U

U x {TS(x) | TS(x)Y  }

Ý nghĩa của 2 tập xấp xỉ trong mối quan hệ tolerant là như nhau đó là mốiquan hệ tương tự

Để thành lập một mối quan hệ tolerant giữa dữ liệu với nhau chúng ta cần xácđịnh một độ đo tương tự, nó xác định số lượng tính chặt chẽ giữa những giá trịthuộc tính của các đối tượng

1.5 Độ đo tương tự và ngưỡng tương tự

Để xác định độ đo tương tự S a (x,y) đối với thuộc tính a giữa hai đối tượng x

và y Hai đối tượng là tương tự với thuộc tính a khi S a (x,y)  t(a), với t(a) là một ngưỡng tương tự khởi tạo của thuộc tính a, giá trị của a nằm trong khoảng t(a)[0,1] Vì vậy, chúng ta có thể liên hệ mối quan hệ tolerant với độ đo tương tự

như sau:

a(x)R a a(y)  S a (a,y)  t(a)

Trong vấn đề phân loại dữ liệu, thông thường sử dụng độ đo tương tự đượcdựa trên cơ sở một khoảng cách:

S a (x,y) =

max

)) ( ), ( ( 1

d

y a x a d



Với d max là giá trị khoảng cách tối đa giữa hai giá trị thuộc tính a(x) và a(y).

Sự chọn lựa hàm khoảng cách phụ thuộc vào loại ứng dụng Trong trường hợp này,chúng ta chọn sự khác nhau hoàn toàn giữa các giá trị thuộc tính như sau:

d(a(x),a(y))=|a(x) - a(y)|.

Trang 10

Tiếp theo, chúng ta có thể mở rộng độ đo tương tự S A (x,y) giữa hai đối tượng

x và y đối với tất cả các thuộc tính bởi một phép tính trung bình của các độ đo tương

a

a x y S

A Với |A| là số các thuộc tính trong A

Trong trường hợp xét tất cả các thuộc tính của A cùng lúc, chúng ta có thể

liên hệ mối quan hệ tolerant với độ đo tượng tự như sau:

xA y  S A (x,y)  t(A) Với t(A)[0,1] là một ngưỡng tương tự khởi tạo cho sự phân loại dữ liệu dựa trên tất cả các thuộc tính A Vấn đề ở đây là làm thế nào để xác định ngưỡng một

cách tối ưu có thể Bởi lẻ ngưỡng tương tự ảnh hưởng trực tiếp đến quan hệ tolerant

từ đó ảnh hưởng đến việc xác định các tập thô tolerant, và kết quả phân lớp sau này.Nói cách khác việc xác định ngưỡng đóng vai trò rất quan trọng đến kết quả phânlớp như sẽ thấy ở các phần sau Có nhiều cách để xác định bộ ngưỡng tối ưu như:vét cạn, heuristic, thuật giải di truyền… Trong đó thuật giải di truyền thích hợpnhất Bởi vì không gian tìm kiếm tương đối lớn, các miền giá trị của ngưỡng liêntục do đó chúng ta sử dụng thuật giải di truyền để giải quyết vấn đề này Lúc nàyhàm thích nghi sẽ được xây dựng sao cho kết quả phân lớp là tốt nhất

Trang 11

Chương 2 XÁC ĐỊNH NGƯỠNG TƯƠNG TỰ BẰNG

THUẬT GIẢI DI TRUYỀN

Thuật giải di truyền (GA - Genetic Algorithm) hình thành dựa trên quan niệmcho rằng quá trình tiến hoá tự nhiên là quá trình hoàn hảo nhất, hợp lý nhất và tự nó

đã mang tính tối ưu Quan niệm này có thể xem như một tiền đề đúng, không chứngminh được, nhưng phù hợp với thực tế khách quan Quá trình tiến hoá thể hiện tínhtối ưu ở chổ, thế hệ sau bao giờ cũng tốt hơn (phát triển hơn, hoàn thiện hơn) thế hệtrước Tiến hoá tự nhiên được duy trì nhờ hai quá trình cơ bản: sinh sản và chọn lọc

tự nhiên Xuyên suốt quá trình tiến hoá tự nhiên, các cá thể mới luôn được sinh ra

để bổ sung thay thế thế hệ cũ Cá thể nào phát triển hơn, thích ứng hơn với môitrường sẽ tồn tại Cá thể nào không thích ứng được với môi trường sẽ bị đào thải

Sự thay đổi môi trường là động lực thúc đẩy quá trình tiến hoá Ngược lại, tiến hoácũng tác động trở lại góp phần làm thay đổi môi trường

Các cá thể mới sinh ra trong quá trình tiến hoá nhờ sự lai ghép ở thế hệ

cha-mẹ Một cá thể mới có thể mang những tính trạng của cha-mẹ (di truyền), cũng cóthể mang những tính trạng hoàn toàn mới (đột biến) Di truyền và đột biến là hai cơchế có vai trò quan trọng như nhau trong tiến trình tiến hoá, dù rằng đột biến vớixác suất nhỏ hơn nhiều so với hiện tượng di truyền Thuật giải di truyền là thuậttoán lặp đi lặp lại khả năng thích ứng của quần thể cơ sở, sử dụng các phép toán ditruyền (chọn lựa tái sinh, phép lai ghép và phép đột biến) dựa trên sự lựa chọn tựnhiên Thuật giải di truyền đã được chứng minh là một phương pháp hữu dụngtrong việc tìm kiếm, quan sát và máy học Nó mã hoá một giải pháp tiềm tàng đếnmột vấn đề chi tiết trên một cấu trúc dữ liệu đơn giản giống nhiễm sắc thể và cácphép toán liên kết

2.1 Giải thuật chung cho thuật giải di truyền

Thuật giải di truyền làm việc như sau:

- Cho P là một quần thể của các nhiễm sắc thể |P|

Trang 12

- P(0) là quần thể khởi tạo được phát sinh ngẫu nhiên

- P(t) là quần thể tại thời điểm t

- Quần thể mới P(t+1) được tạo ra bằng cách sử dụng một tập các toán tử phát sinh (tái sinh, lai ghép, đột biến) trên P(t)

- Mỗi nhiễm sắc thể trong P(t+1) được tái sinh theo tỷ lệ giá trị thích nghi của nó tại thời điểm t.

- Lai ghép là tổ hợp lại 2 nhiễm sắc thể từ việc cắt chúng ở những vị trí ngẫunhiên và sự thay đổi những thông tin di truyền bằng cách ghép một hay nhiều đoạngien của hai (hay nhiều) nhiễm sắc thể cha-mẹ với nhau

- Đột biến là hiện tượng cá thể con mang một (số) tính trạng không có trong

mã di truền của cha-mẹ

Nói chung, hiệu quả của thuật giải di truyền là một quần thể mới được tạo vàcho ra các giải pháp tốt hơn với các giá trị cao hơn của hàm thích nghi Hình 3-1 là

mã giả thể hiện cách làm việc của thuật giải di truyền

Khi chúng ta sử dụng thuật giải di truyền để tìm một ngưỡng tương tự khởitạo tốt nhất cho vấn đề phân loại dữ liệu Chúng ta cần phải xem xét 5 vấn đề chínhsau:

1 Lược đồ trình bày mối kết hợp của các nhiễm sắc thể cho việc phân loại

2 Phương pháp tạo ra quần thể khởi tạo

Begin

t=0 Initialize P(t);

Evaluate fitness functions in P(t);

while ~(stop_condition) do Begin

t=t+1;

Select P(t) from P(t-1) Recombine chromosomes in P(t) Evaluate fitness functions in P(t) End

End

Hình 3-1 Thủ tục chung của thuật toán di truyền

Trang 13

3 Hàm thích nghi cho các cá thể (nhiễm sắc thể).

4 Các toán tử phát sinh quần thể mới

5 Tham số khởi tạo được cung cấp cho thuật giải di truyền

2.2 Biểu diễn nhiễm sắc thể cho thuật giải di truyền

Chúng ta sử dụng thuật giải di truyền để xác định các ngưỡng tương tự khởitạo tối ưu nhất

Đầu vào là bảng A = (U, Ad) có độ đo sự tương tự S a : V a xV a [0,1]

Đầu ra là một tập các ngưỡng tương tự khởi tạo tối ưu {t(A)  {t(a): aA}} Như vậy, khi một đối tượng được thể hiện bằng n thuộc tính thì nhiễm sắc thể cho thuật giải di truyền bao gồm n+1 số thực liên tiếp của các điểm tương tự khởi tạo {t(a 1 ), t(a 2 ), …, t(a n ), t(A)}, với t(a i ) / (i=1,2,…,n) thể hiện ngưỡng tương tự khởi tạo cho thuộc tính i và giá trị cuối cùng t(A) là ngưỡng tương tự khởi tạo xác định mối quan hệ tolerant khi tất cả các thuộc tính A được xem xét cùng lúc

Chúng ta chấp nhận một sự trình bày dạng số thực của các nhiễm sắc thể vìmỗi giá trị của gien trong nhiễm sắc thể là một số thực

2.3 Khởi tạo quần thể ban đầu

Các giá trị của gien khởi tạo trong nhiễm sắc thể có được bởi sự phát sinh

n+1 số giá trị thực ngẫu nhiên trong khoảng [0.5, 1.0] Lý do cho việc chọn khoảng

[0.5,1.0] để khởi tạo các ngưỡng tương tự khởi tạo là hai đối tượng được xem làtương tự nhau khi giá trị tương tự khởi tạo giữa hai đối tượng tối thiểu lớn hơn 0.5

Chúng ta hoàn thành khởi tạo quần thể bằng cách lặp lại phép toán |P| ở trên nhiều lần Khi đó |P| là kích thước của quần thể.

2.4 Hàm thích nghi 1

Trước khi xem xét hàm thích nghi cho việc xác định tốt nhất những ngưỡngtương tự khởi tạo, chúng ta xem xét một khái niệm của các mối kết hợp để diễn tả

sự không phân biệt của các đối tượng Khái niệm mối liên kết dựa trên một quan sát

rất đơn giản đó là nếu xTS(y)  yTS(x) chúng ta có thể nói đó là mối liên kết giữa

1 Fitness function

Trang 14

hai đối tượng x và y Từ đó, chúng ta xác định hai loại liên kết giữa hai đối tượng x

và y như sau:

x và y có mối liên kết tốt  xTS(y)  d(x) = d(y)

x và y có mối liên kết xấu  xTS(y)  d(x)  d(y) Với d(x), d(y) là các quyết định tương ứng của hai lớp đối tượng x và y,

chúng sẽ có mối liên kết tốt (hoặc xấu) Hình 3-2 minh hoạ hai loại của mối liên kếtgiữa các đối tượng

Hình 3-2 Các mối liên kết tốt và mối liên kết xấuKhi chúng ta chọn hàm thích nghi cho việc xác định ngưỡng tương tự khởitạo tối ưu chúng ta cần xem xét hai yêu cầu sau:

 Nếu hai đối tượng x, yU có quan hệ tolerant thì chúng nằm trong

d1

d2

d3

Mối liên kết tốt Mối liên kết xấu

Trang 15

Cho một tập của những đối tượng được chứa trong cùng một lớp Y i ={xU / d(x) = d i , i=1, 2, …, r(d)}, với r(d) là số các lớp quyết định Xét tập thô tolerant TS(x) được chứa trong cùng lớp d i, nghĩa là:

{TS(x) | i TS(x)  Y i }

Sự liên kết trong tập tolerant đối với tất cả các lớp đối tượng U được gọi là

một vùng rõ ràng A của phân hoạch {Y i ,i=1,2,…,r(d)} được định nghĩa như sau:

U x

d r

i

i A i

Chất lượng xấp xỉ của sự phân loại A,   d được xác định bởi tỷ số của tất cả

A -corectly phân loại đối tượng từ U như sau:

 

U card

POS

A A

)

d ,

tố trong tập thô tolerant được chứa trong cùng một lớp do đó kết quả phân loại cho

ra kích thước của các phần được chia trở nên nhỏ hơn Đôi khi, kết quả phân loạilàm cho phần được chia nhiều nhất chỉ chứa duy nhất một đối tượng đơn

Vì vậy, để thoả mãn yêu cầu thứ hai là các đối tượng được chứa trong cùngmột lớp có quan hệ tolerant càng nhiều càng tốt Với yêu cầu này chúng ta xác định

tỷ lệ mối liên kết tốt là A,  d , xác định tỷ lệ các đối tượng nằm trong cùng một lớp

có quan hệ với nhau trên tổng số các đối tượng trong cùng một lớp:

,

y d x d y x card

y d x d y x

Trang 16

Bởi vì, giá trị ngưỡng tương tự khởi tạo tăng lên, tỉ lệ của các mối liên kết tốt

Do đó, vấn đề đặt ra là cần phải kết hợp hài hoà hai tỷ lệ này Hàm thích nghidựa trên việc kết hợp hai tỷ lệ này sẽ có dạng như sau:

 d   A d

F   1 Với  và ( - 1) là các hằng số trọng lượng có thể được thay đổi theo mục

đích phân loại Ở đây, giới hạn thứ nhất là tạo một vài đối tượng có quan hệ tolerantđược chứa trong cùng một lớp và giới hạn thứ hai là tạo các đối tượng trong cùngmột lớp trở nên có quan hệ tolerant

2.5 Các phép toán di truyền 2

Quần thể khởi tạo của ngưỡng tương tự khởi tạo được suy ra từ mối kết hợpcủa các phép toán phát sinh để tìm một tập ngưỡng tương tự khởi tạo tối ưu cho việcphân loại dữ liệu Giải thích chi tiết về các phép toán phát sinh được sử dụng choviệc xác định các giá tri tương tự khởi tạo được đưa ra như sau:

2.5.1 Phép chọn lọc tái sinh 3

Chúng ta sử dụng một sự pha trộn của các phương pháp chọn lọc cho việctái sinh các nhiễm sắc thể

Phương pháp chọn lọc đầu tiên là một nhiễm sắc thể tốt nhất (elitism) có

hàm thích nghi cao nhất sẽ được đưa vào quần thể mới

2 Genetic Operations

3 Reproduction

Trang 17

Phương pháp chọn lọc thứ hai là phương pháp chọn lọc đấu loại k phần tử

(k-tournament) Trong phương pháp này, một nhiễm sắc thể có hàm thích nghi tốt nhất trong số k nhiễm sắc thể được chọn ngẫu nhiên từ quần thể Hai nhiễm sắc thể

C1 và C2 có được từ việc lập lại thủ tục ở trên liên tiếp tạo ra một nhiễm sắc thể mới

Cc+m bằng cách sử dụng các phép toán lai ghép và đột biến sẽ được giải thích sau

Thủ tục tái sinh ở trên được lập lại nhiều lần bằng pSelect  |P|, với |P| là kích thước

quần thể

Cuối cùng, phần còn lại của tập quần thể mới được làm đầy bằng cách phátsinh ngẫu nhiên các nhiễm sắc thể Hình 3-3 cho thấy một phương pháp lai ghép táisinh dựa trên một hổn hợp của ba phương pháp tái sinh khác nhau

Hình 3-3: Lược đồ phương pháp chọn lọc tái sinh

Trang 18

2.5.2 Phép lai ghép 4

Lai ghép giữa hai nhiễm sắc thể đã chọn C 1 và C 2 được thực hiện như sau:

Cho các ngưỡng tương tự khởi tạo thứ i của 2 nhiễm sắc thể đã chọn C 1 và C 2 là

t 1 (a i ) và t 2 (a i ) Hàm thích nghi của 2 nhiễm sắc thể đã chọn C 1 và C 2 là F 1 và F 2

Ngưỡng tương tự khởi tạo thứ i là t c (a i ) của nhiễm sắc thể mới C c được tạo ra bằngphép toán lai ghép được tính bằng một số trung bình:

2 1

2 2 1

1

F F

a t F a t F a

i c

Phép toán này được áp dụng cho toàn bộ những ngưỡng tương tự khởi tạo

của hai nhiễm sắc thể đã chọn với xác suất lai ghép P c.

2.5.3 Phép đột biến 5

Đột biến được thực hiện như sau: Đầu tiên, một nhiễm sắc thể C ’ được

chọn ngẫu nhiên từ quần thể với xác suất của sự đột biến P m Tiếp theo, giá trị

ngưỡng tương tự khởi tạo t ’ (a i ) của nhiễm sắc thể C’ được chọn ngẫu nhiên và nóđược đột biến theo cách sau:

t m (a i ) = 1.5 - t ’ (a i ) Với t ’ (a i ) và t m (a i ) tương ứng là giá trị ngưỡng tương tự khởi tạo đã chọn và

ngưỡng tương tự khởi tạo đột biến Sự thực hiện liên tiếp của phép toán lai ghép và

đột biến hoàn thành phép toán di truyền và nó tạo ra nhiễm sắc thể mới C c+m Dướiđây là tóm tắt việc xác định giá trị tương tự khởi tạo tối ưu bằng cách sử dụng thuậttoán di truyền

Thuật toán: (Đầu vào: A=(U, Ad), Sa: Va x Va  [0,1] aA;

Đầu ra: {t{t(a): aA}})}}))

Trang 19

- Phát sinh quần thể khởi tạo: ngưỡng tương tự khởi tạo nằmtrong khoảng [0,1].

- Đánh giá hàm thích nghi của quần thể khởi tạo

2 Thực hiện thuật toán di truyền

while (stop_condition) {

Reproduction();

Crossover();

Mutation();

Đánh giá hàm thích nghi của quần thể mới;

(Evalute fitness function of new population)

Trang 20

Chương 3 PHÂN LOẠI DỮ LIỆU DỰA TRÊN TẬP THÔ

TOLERANT

Cho rằng, đó là một tập của những mẫu huấn luyện được chuẩn bị cho việcphân loại dữ liệu Chúng ta xác định tối ưu các giá trị của các ngưỡng tương tự khởitạo bằng phương pháp tiến hoá dựa trên thuật toán di truyền sử dụng tập của nhữngmẫu huấn luyện Sau khi xác định những ngưỡng tương tự khởi tạo tối ưu, chúng tacần phải thu được tập xấp xỉ dưới và tập xấp xỉ trên của các mẫu huấn luyện Mộtthủ tục xác định hai tập xấp xỉ được đưa ra như sau:

Sử dụng các ngưỡng khởi tạo ta có được một tập tolerant TS(x) của mỗi mẫu

x trong tập huấn luyện Tiếp theo, Ta thu được tập xấp xỉ dưới A x và tập xấp xỉtrên A x của mỗi mẫu x trong các mẫu huấn luyện Các tập A x và A x củamỗi đối tượng trong các mẫu huấn luyện có được bằng cách sử dụng các tập tolerat

tương ứng Một mẫu x sẽ thuộc vào tập xấp xỉ dưới hoặc tập xấp xỉ trên cho dù tất

cả các mẫu trong tập tolerant TS(x) của mẫu x có cùng một lớp hay không.

Khi một mẫu x thuộc vào tập xấp xỉ dưới, các mẫu khác trong tập tolerant TS(x) của mẫu x có thể có các lớp quyết định khác nhau từ những mẫu khác Như

vậy, chúng ta cần một kỹ thuật để đo lường sự không chắc chắn của lớp bao phủ của

một mẫu x Cho một lớp quyết định của một đối tượng y trong tập tolerant TS(x) là d(y) và lớp quyết định thứ i là d i (i=1, 2, …, r(d)), với r(d) là số các lớp quyết định.

Chúng ta cần xác định một hàm thành viên thô di(x) biểu diễn mức độ phổ biến của

mẫu x trong lớp quyết định d i như sau:

x di

sử dụng tập xấp xỉ dưới ở giai đoạn đầu và sau đó những mẫu thử này không thể

Trang 21

được phân loại trong giai đoạn 1 sẽ được phân loại bằng cách sử dụng tập xấp xỉtrên trong giai đoạn 2 Giải thích chi tiết của mỗi giai đoạn sẽ được đưa ra dưới đây.

3.1 Giai đoạn 1: dùng xấp xỉ dưới

Chúng ta thu được một tập tolerant TS l (x) của mẫu thử x, với chỉ số dưới dòng l chỉ ra là tập xấp xỉ dưới:

TS l (x) = {yTS(x) : i{1, 2, , r(d)}, di = 1}

Nếu tập tolerant TS l (x) của mẫu x chỉ có chính nó, nghĩa là TS l (x)={x} Chúng

ta không thể phân loại mẫu thử x trong giai đoạn đầu và chúng ta chuyển sự phân

loại một mẫu thử như vậy sang giai đoạn 2

Nếu tập tolerant TS(x) của mẫu thử x bao gồm nhiều mẫu huấn luyện, ta thu

được tần số quan hệ trong cùng một lớp của các mẫu huấn luyện trong tập tolerant

TS(x) Khi các mẫu huấn luyện trong tập tolerant TS(x) phân hoá các quyết định,

chúng ta quy cho mẫu thử x trong lớp có giá trị tần số quan hệ lớn nhất Khi sự khácnhau giữa các giá trị lớn nhất và giá trị tần số quan hệ lớn thứ hai không nhiều,nghĩa là:

) (

1

2 1

d r freq

freq freq





Với freq 1 = card({yTS l (x )| d(y)=d(x)})

freq 1 = card({yTS l (x )| d(y)=d(i), i{1, 2, …, r(d)})

r(d) là số các lớp quyết định.

Chúng ta cũng chuyển sự phân loại của mẫu thử như vậy sang giai đoạn 2 bởi

vì lớp bao phủ là không chắc chắn (mờ) căn cứ vào tập xấp xỉ dưới

3.2 Giai đoạn 2: dùng xấp xỉ trên

Bởi vì tập xấp xỉ trên bao gồm tất cả các mẫu thử trong tập xấp xỉ dưới và cácmẫu thử trong tập xấp xỉ dưới đã được xem xét trong giai đoạn 1 Chúng ta sử dụngcác mẫu huấn luyện trong vùng biên (the boundary region) , không phải tất cả cácmẫu trong tập xấp xỉ trên, trong giai đoạn 2 của việc phân loại Vì vậy, thời gianước lượng cho việc phân loại trong giai đoạn 2 là không lâu vì chỉ có các mẫu trongvùng biên mới được lấy và số các mẫu trong vùng biên là không quá nhiều Tương

Trang 22

tự trong giai đoạn đầu, chúng ta thu được một tập tolerant TS b (x) của dữ liệu thử chưa phân loại x, với chỉ số dưới dòng b có nghĩa là vùng biên

TS b (x) = {yTS(x) : i{1, 2, , r(d)}, di < 1}

Sau đó, chúng ta xác định hàm thành viên thô của tất cả các mẫu trong tập

tolerant TS b (x) của mẫu thử x chưa phân loại đối với các lớp quyết định Cho tập tolerant TS b (x) của mẫu thử chưa phân loại x là {1 ,2 ,…,M }, với M là số các mẫu thử trong vùng biên có quan hệ tolerant đối với mẫu thử x và thừa nhận mỗi mẫu j

có hàm thành viên thô {di (i )|i=1,2,…,r(d)} Ta có công thức tính hàm thành viên thô trung bình của mẫu thử x đối với mỗi lớp quyết định như sau:

j di

1





Chúng ta quy mẫu chưa phân loại x vào lớp có hàm thành viên thô trung bình

lớn nhất Khi sự khác nhau giữa các hàm thành viên thô trung bình lớn nhất và hàmthành viên thô trung bình lớn thứ hai không nhiều, nghĩa là:

1 max

2

d

dmaz dmaz  



Với dmax 1 là hàm thành viên thô trung bình lớn nhất và dmax 2 là hàm

thành viên thô trung bình lớn thứ hai và r(d) là số các lớp quyết định thì chúng ta loại bỏ mẫu thử x trong xử lý phân loại Hình 4-1 minh hoạ cho phương pháp phân

loại 2 giai đoạn

Định dạng
Số trang	44
Dung lượng	507,5 KB