Chương 1 TẬP THÔ TOLERANT1.1 Giới thiệu Vấn đề của việc phân loại dữ liệu đó là phân chia một không gian dữ liệu n vào trong các lớp và sau khi xác định một điểm x n tới một điểm thuộ
Trang 1ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
LỚP CAO HỌC QUA MẠNG – KHÓA 6
BÀI THU HOẠCH MÔN HỌC: CƠ SỞ TRI THỨC
ỨNG DỤNG CỦA TẬP THÔ TOLERANT
TRONG PHÂN LOẠI DỮ LIỆU
Giảng viên: GS TSKH Hoàng Kiếm Sinh viên thực hiện: Nguyễn Hoàng Hạc MSHV: CH1101081
TP HCM, NĂM 2012
Trang 2LỜI CÁM ƠN!
Tôi xin trân trọng dành nhưng lời cảm ơn đầu tiên tới GS TSKH Hoàng Kiếm, người trực tiếp hướng dẫn và giảng dạy môn Công nghệ tri thức này.
Xin chân thành cám ơn các thầy cô khác trong trường Đại Học Công nghệ Thông tin Thành phố Hồ Chí Minh.
Xin gởi lời cảm tới các bạn và những người đã hổ trợ và tạo điều kiện cho tôi hoàn thành đề tài này.
Một lần nữa, xin chân thành cảm ơn mọi người bằng cả tấm lòng!.
Học viên thực hiện:
Nguyễn Hoàng Hạc
Trang 3MỤC LỤC
MỞ ĐẦU 4
Chương 1 TẬP THÔ TOLERANT 5
1.1 Giới thiệu 5
1.2 Tập thô tolerant 7
1.3 Quan hệ tương tự 8
1.4 Tập xấp xỉ trên và tập xấp xỉ dưới 9
1.5 Độ đo tương tự và ngưỡng tương tự 9
Chương 2 XÁC ĐỊNH NGƯỠNG TƯƠNG TỰ BẰNG THUẬT GIẢI DI TRUYỀN.11 2.1 Giải thuật chung cho thuật giải di truyền 11
2.2 Biểu diễn nhiễm sắc thể cho thuật giải di truyền 13
2.3 Khởi tạo quần thể ban đầu 13
2.4 Hàm thích nghi 13
2.5 Các phép toán di truyền 16
2.5.1 Phép chọn lọc tái sinh 16
2.5.2 Phép lai ghép 18
2.5.3 Phép đột biến 18
Chương 3 PHÂN LOẠI DỮ LIỆU DỰA TRÊN TẬP THÔ TOLERANT 20
3.1 Giai đoạn 1: dùng xấp xỉ dưới 21
3.2 Giai đoạn 2: dùng xấp xỉ trên 21
3.3 Ứng dụng tập thô tolerant trong phân loại dữ liệu IRIS 24
3.3.1 Bộ dữ liệu IRIS 24
3.3.2 Xác định tập thô tolerant 26
3.3.3 Phân loại dữ liệu 27
3.3.4 So sánh kết quả phân loại với các phương pháp phân loại khác 30
3.4 Kết luận 31
Chương 4 CÀI ĐẶT VÀ KẾT QUẢ THỰC HIỆN 33
4.1 Cấu trúc dữ liệu 33
4.1.1 Lớp CUniverse 33
4.1.2 Lớp CObjects 34
4.1.3 Lớp CChromosome 35
4.1.4 Lớp CSimilarity 36
4.1.5 Lớp CApproximation 37
4.1.6 Lớp CTolerant 37
4.2 Thử nghiệm với bộ dữ liệu IRIS 38
4.2.1 Bộ dữ liệu IRIS 38
4.2.2 Các tham số cho chương trình 38
4.2.3 Kết quả thực hiện phân loại 39
4.3 Thử nghiệm với bộ dữ liệu gồm 25 ký tự 39
4.3.1 Bộ dữ liệu của 25 ký tự 39
4.3.2 Các tham số cho chương trình 42
4.3.3 Kết quả thực hiện 42
4.4 Đánh giá 43
Trang 4MỞ ĐẦU
Ngày nay, cùng với sự phát triển không ngừng của Công nghệ thông tin kèmtheo đó là dữ liệu về thế giới thực được lưu trữ nhiều hơn Với nguồn dữ liệu đượclưu trữ ngày càng lớn làm cho việc phân loại dữ liệu trở nên hết sức khó khăn, đôikhi là bất khả thi
Để thực hiện việc phân loại dữ liệu, các nhà Trí tuệ nhân tạo đã đưa ra cácphương pháp phân loại như: thuật toán Quinland, cây định danh, thuật toán Apriori,thuật toán Apriori Tid… Nhưng các phương pháp này có nhược điểm không phânloại được phần dữ liệu mơ hồ (không chắn chắn, không xác định) Sau này, cácphương pháp mới hơn được đưa ra như: Back-propagation neural networks(BPNN), the Object function-based unsupervised neural networks (OFUNN),Fuzzy C-means (FCM),…giải quyết vấn đề phân loại dữ liệu mơ hồ nhưng với độchính xác không cao và thời gian xử lý khá lâu
Đề tài “Ứng dụng của tập thô tolerant trong phân loại dữ liệu” tập trung chủyếu vào lý thuyết tập thô, tập thô tolerant, các bài toán sử dụng tập thô phân loại dữliệu và ứng dụng của tập thô tolerant trong phân loại dữ liệu Đây là phương phápthực hiện phân loại dữ liệu chính xác hơn và thời gian xử lý nhanh hơn so với cácphương pháp đã đưa ra trước đó
Trang 5Chương 1 TẬP THÔ TOLERANT
1.1 Giới thiệu
Vấn đề của việc phân loại dữ liệu đó là phân chia một không gian dữ liệu n
vào trong các lớp và sau khi xác định một điểm x n tới một điểm thuộc các lớpkhác Nhiều ứng dụng đã được tìm thấy trong các ngành khoa học như: nhận dạngdấu vân tay, phần phân loại trong sự quan sát của máy tính, phân tích máu,…và hơnthế nữa Các phương pháp phân loại dữ liệu được phân loại thành 3 cách khác nhau:Phân loại dữ liệu thống kê, phân loại dữ liệu cú pháp và phân loại dữ liệu mạngnơron cơ sở (neural network-based) Một vài thuộc tính đã có bởi quan niệm củangười phân loại dữ liệu được đề cập như sau:
1 Thích nghi tức thì (On-line adaptation):
Chương trình phân loại dữ liệu cần học những lớp mới và tinh chếnhững lớp đang tồn tại nhanh chóng mà không phá hủy thông tin của lớp
cũ
2 Phân chia không định hướng (Nonlinear separation):
Chương trình phân loại dữ liệu cần xây dựng những ranh giới quyếtđịnh đó là những lớp ngăn cách giữa hình dạng và kích thước
3 Các lớp chồng chéo (Overlapping classes):
Chương trình phân loại dữ liệu cần có khả năng định dạng một ranhgiới quyết định đó là việc giảm tối thiểu số lượng lớp không được phânloại đối với tất cả các lớp chồng chéo nhau
4 Thời gian huấn luyện (Training time):
Chương trình phân loại dữ liệu cần có khoảng thời gian học ngắn choviệc tạo những ranh giới quyết định
5 Các quyết định dễ và khó (Soft and hard decisions):
Chương trình phân loại dữ liệu cần cung cấp cả hai loại quyết địnhphân loại dễ và khó
6 Kiểm tra và xác nhận (Verification and validation):
Trang 6Chương trình phân loại dữ liệu cần có kỹ thuật để kiểm tra và xácnhận lại sự thực hiện của chương trình bằng nhiều cách.
7 Tham số điều chỉnh (Tuning parameters):
Chương trình phân loại dữ liệu nên có càng nhiều tham số điều chỉnh
hệ thống càng tốt
8 Sự phân loại không giới hạn (Nonparametric classification):
Chương trình phân loại dữ liệu sẽ hoạt động tối ưu mà không cần biếtđến sự phân phối dữ liệu bên dưới
Như đã đề cập ở trên, nhiều nhà nghiên cứu đã từng thực hiện bằng nhiềucách khác nhau Carpenter và Grossberg đã phát triển nhanh chóng và đáng tin cậycác bộ mẫu tuần tự của hệ thống gọi là lý thuyết Fuzzy Adaptive Resonance (ART)
nó liên kết logic mờ với ART1, Lin và Lee giới thiệu tổng quát mạng nơron choviệc điều khiển logich mờ và các hệ thống ra quyết định nó có thể thành lập cácluật logich mờ và tối ưu chức năng nhập / xuất của các thành viên Simpson đã pháttriển sự phân loại min_max không rõ ràng của mạng nơron nó sử dụng các tập mờnhư là những lớp mẫu, việc học trong mạng nơron được thực hiện tại một nơi nhấtđịnh và sự điều chỉnh hyberboxes trong không gian mẫu
Bởi vì, các lý thuyết phân loại trên có một cấu trúc kết nối giữa logic mờ vàmạng nơron nên họ dự tính sẽ gặp những khó khăn giống như mạng nơron như sau:
Khả năng có giải pháp không hội tụ bởi vì sự chọn lựa sai các giá trịtrọng số ban đầu
Có liên quan đến thời gian học dài
Khả năng có những giải pháp không tối ưu vì những vấn đề cục bộ.Gần đây Banzan đề xuất hai ứng dụng của logich cho việc phân loại các đối
tượng bằng cách sử dụng multi-modal logics cho việc tự động lấy các đặc trưng ban
đầu và sử dụng sự phương pháp qui nạp của tập thô để khám phá các tập đặc trưngtối ưu nhất đối với chất lượng của việc phân loại Phương pháp của họ nhấn mạnh
sự tối ưu các lựa chọn của những thuộc tính liên quan từ việc linh động thu nhỏ.Nhưng số lượng những đối tượng không thể phân biệt được thì quá hạn chế để xác
Trang 7định sự tương tự của nó, bởi vì sự giao nhau không luôn luôn đúng trong trườnghợp của vấn đề phân loại mẫu Nguyễn đề xuất việc sử dụng số lượng mối quan hệtolerant của các đối tượng cho việc phân loại mẫu Nhưng phương pháp này không
đề cập như thế nào xác định ngưỡng khởi tạo tối ưu của các thuộc tính cho việcphân loại tốt nhất của một vấn đề được đưa ra
Những yêu cầu đã gặp ở trên đã cho ra ý tưởng của người phân loại càngnhiều càng tốt khắc phục một số trở ngại của các phương pháp đã đề xuất trước đó,
đó là lý do cho việc đề xuất một phương pháp phân loại mới dựa trên tập thôtolerant
1.2 Tập thô tolerant
Tập thô được Z Pawlak giới thiệu vào đầu thập niên 80 là công cụ tính toánmới giải quyết tính gần đúng và không chắc chắn trong các lĩnh vực: máy học, thunhận tri thức, phân tích quyết định, khám phá tri thức từ cơ sở dữ liệu, lập luận quinạp và nhận dạng mẫu Khi một số đối tượng không phân biệt từ những đối tượng
khác với các thuộc tính đã cho có một mối quan hệ không phân I biệt thoả mãn các
tính chất:
Phản xạ (Reflexive):xIx
Đối xứng (Symmetric): xIy yIx
Bắc cầu (Transitive): xIy yIz xIz Với x, y và z là các đối tượng trong vũ trụ của đối tượng U Vì vậy mối quan
hệ không phân biệt là mối quan hệ tương đương nó sẽ phân chia tập U vào những
2
3
Trang 8Rõ ràng, điểm 1 gần điểm 2 và điểm 2 gầ điểm 3, nhưng điểm 1 không gần điểm 3 Trong trường hợp này tính chất bắc cầu không còn đúng.
Bởi vì 2 đối tượng dữ liệu x và z không thể được bảo đảm trong cùng một lớp thậm chí khi một cặp dữ liệu x và y được chứa trong cùng một lớp và cặp dữ liệu y
và z cũng được chứa trong cùng một lớp thì chưa hẳn x và z thuộc về cùng một lớp
(tính chất bắc cầu không thoả mãn) Vì vậy, tập thô Tolerant mở rộng quan hệkhông phân biệt thành quan hệ tolerant (quan hệ tương tự) cho phù hợp với các bàitoán phân lớp mà quan hệ giữa các đối tượng chỉ thoả mãn hai tính chất: phản xạ vàđối xứng
1.3 Quan hệ tương tự
Cho A = (U, Ad) là một bảng quyết định
U là một tập gồm các yếu tố (các đối tượng, các mẫu)
A là tập những thuộc tính điều kiện, aA tập những giá trị của thuộc tính a
là V a , và {d} là một tập quyết định với d = {1, 2, …, r(d)}, r(d) là số các lớp quyết
định
Cho A = {R a : R a V a x V a aA} là một tập của mối quan hệ tolerant Mỗi
mối quan hệ tolerant thoả mãn:
Phản xạ (Reflexive): v 1 V a , v 1 R a v 1 , Đối xứng (Symmetric): v 1 R a v 2 v 2 R a v 1
Với v 1 và v 2 là các thuộc tính giá trị trong V a
Hai đối tượng x và y là tương tự nhau đối với thuộc tính a Khi giá trị a(x) và
a(y) thoả mãn a(x)R a a(y) Hơn nữa, chúng ta nói hai đối tượng x và y là tương tự đối
với trong toàn bộ thuộc tính A khi nó thoả mãn mối quan hệ tolerant với việc thừanhận tất cả các thuộc tính nghĩa là:
a A, a(x)R a a(y) Một tập thô tolerant (tolerance rough set) TS(x) của một đối tượng x được
định nghĩa bởi một tập của tất cả các đối tượng có mối quan hệ tolerant với đối
tượng x đối với tất cả các thuộc tính như sau:
Trang 9TS(x) = {yU | xA y}
1.4 Tập xấp xỉ trên và tập xấp xỉ dưới
Xấp xỉ dưới A (Y) và xấp xỉ trên A (Y) của tập YU nó có mối quan hệ
tolerant đối với tất cả cá thuộc tính của A được định nghĩa như sau:
A
(Y) = U
U x {TS(x) | TS(x)Y}
A
(Y) = U
U x {TS(x) | TS(x)Y }
Ý nghĩa của 2 tập xấp xỉ trong mối quan hệ tolerant là như nhau đó là mốiquan hệ tương tự
Để thành lập một mối quan hệ tolerant giữa dữ liệu với nhau chúng ta cần xácđịnh một độ đo tương tự, nó xác định số lượng tính chặt chẽ giữa những giá trịthuộc tính của các đối tượng
1.5 Độ đo tương tự và ngưỡng tương tự
Để xác định độ đo tương tự S a (x,y) đối với thuộc tính a giữa hai đối tượng x
và y Hai đối tượng là tương tự với thuộc tính a khi S a (x,y) t(a), với t(a) là một ngưỡng tương tự khởi tạo của thuộc tính a, giá trị của a nằm trong khoảng t(a)[0,1] Vì vậy, chúng ta có thể liên hệ mối quan hệ tolerant với độ đo tương tự
như sau:
a(x)R a a(y) S a (a,y) t(a)
Trong vấn đề phân loại dữ liệu, thông thường sử dụng độ đo tương tự đượcdựa trên cơ sở một khoảng cách:
S a (x,y) =
max
)) ( ), ( ( 1
d
y a x a d
Với d max là giá trị khoảng cách tối đa giữa hai giá trị thuộc tính a(x) và a(y).
Sự chọn lựa hàm khoảng cách phụ thuộc vào loại ứng dụng Trong trường hợp này,chúng ta chọn sự khác nhau hoàn toàn giữa các giá trị thuộc tính như sau:
d(a(x),a(y))=|a(x) - a(y)|.
Trang 10Tiếp theo, chúng ta có thể mở rộng độ đo tương tự S A (x,y) giữa hai đối tượng
x và y đối với tất cả các thuộc tính bởi một phép tính trung bình của các độ đo tương
a
a x y S
A Với |A| là số các thuộc tính trong A
Trong trường hợp xét tất cả các thuộc tính của A cùng lúc, chúng ta có thể
liên hệ mối quan hệ tolerant với độ đo tượng tự như sau:
xA y S A (x,y) t(A) Với t(A)[0,1] là một ngưỡng tương tự khởi tạo cho sự phân loại dữ liệu dựa trên tất cả các thuộc tính A Vấn đề ở đây là làm thế nào để xác định ngưỡng một
cách tối ưu có thể Bởi lẻ ngưỡng tương tự ảnh hưởng trực tiếp đến quan hệ tolerant
từ đó ảnh hưởng đến việc xác định các tập thô tolerant, và kết quả phân lớp sau này.Nói cách khác việc xác định ngưỡng đóng vai trò rất quan trọng đến kết quả phânlớp như sẽ thấy ở các phần sau Có nhiều cách để xác định bộ ngưỡng tối ưu như:vét cạn, heuristic, thuật giải di truyền… Trong đó thuật giải di truyền thích hợpnhất Bởi vì không gian tìm kiếm tương đối lớn, các miền giá trị của ngưỡng liêntục do đó chúng ta sử dụng thuật giải di truyền để giải quyết vấn đề này Lúc nàyhàm thích nghi sẽ được xây dựng sao cho kết quả phân lớp là tốt nhất
Trang 11Chương 2 XÁC ĐỊNH NGƯỠNG TƯƠNG TỰ BẰNG
THUẬT GIẢI DI TRUYỀN
Thuật giải di truyền (GA - Genetic Algorithm) hình thành dựa trên quan niệmcho rằng quá trình tiến hoá tự nhiên là quá trình hoàn hảo nhất, hợp lý nhất và tự nó
đã mang tính tối ưu Quan niệm này có thể xem như một tiền đề đúng, không chứngminh được, nhưng phù hợp với thực tế khách quan Quá trình tiến hoá thể hiện tínhtối ưu ở chổ, thế hệ sau bao giờ cũng tốt hơn (phát triển hơn, hoàn thiện hơn) thế hệtrước Tiến hoá tự nhiên được duy trì nhờ hai quá trình cơ bản: sinh sản và chọn lọc
tự nhiên Xuyên suốt quá trình tiến hoá tự nhiên, các cá thể mới luôn được sinh ra
để bổ sung thay thế thế hệ cũ Cá thể nào phát triển hơn, thích ứng hơn với môitrường sẽ tồn tại Cá thể nào không thích ứng được với môi trường sẽ bị đào thải
Sự thay đổi môi trường là động lực thúc đẩy quá trình tiến hoá Ngược lại, tiến hoácũng tác động trở lại góp phần làm thay đổi môi trường
Các cá thể mới sinh ra trong quá trình tiến hoá nhờ sự lai ghép ở thế hệ
cha-mẹ Một cá thể mới có thể mang những tính trạng của cha-mẹ (di truyền), cũng cóthể mang những tính trạng hoàn toàn mới (đột biến) Di truyền và đột biến là hai cơchế có vai trò quan trọng như nhau trong tiến trình tiến hoá, dù rằng đột biến vớixác suất nhỏ hơn nhiều so với hiện tượng di truyền Thuật giải di truyền là thuậttoán lặp đi lặp lại khả năng thích ứng của quần thể cơ sở, sử dụng các phép toán ditruyền (chọn lựa tái sinh, phép lai ghép và phép đột biến) dựa trên sự lựa chọn tựnhiên Thuật giải di truyền đã được chứng minh là một phương pháp hữu dụngtrong việc tìm kiếm, quan sát và máy học Nó mã hoá một giải pháp tiềm tàng đếnmột vấn đề chi tiết trên một cấu trúc dữ liệu đơn giản giống nhiễm sắc thể và cácphép toán liên kết
2.1 Giải thuật chung cho thuật giải di truyền
Thuật giải di truyền làm việc như sau:
- Cho P là một quần thể của các nhiễm sắc thể |P|
Trang 12- P(0) là quần thể khởi tạo được phát sinh ngẫu nhiên
- P(t) là quần thể tại thời điểm t
- Quần thể mới P(t+1) được tạo ra bằng cách sử dụng một tập các toán tử phát sinh (tái sinh, lai ghép, đột biến) trên P(t)
- Mỗi nhiễm sắc thể trong P(t+1) được tái sinh theo tỷ lệ giá trị thích nghi của nó tại thời điểm t.
- Lai ghép là tổ hợp lại 2 nhiễm sắc thể từ việc cắt chúng ở những vị trí ngẫunhiên và sự thay đổi những thông tin di truyền bằng cách ghép một hay nhiều đoạngien của hai (hay nhiều) nhiễm sắc thể cha-mẹ với nhau
- Đột biến là hiện tượng cá thể con mang một (số) tính trạng không có trong
mã di truền của cha-mẹ
Nói chung, hiệu quả của thuật giải di truyền là một quần thể mới được tạo vàcho ra các giải pháp tốt hơn với các giá trị cao hơn của hàm thích nghi Hình 3-1 là
mã giả thể hiện cách làm việc của thuật giải di truyền
Khi chúng ta sử dụng thuật giải di truyền để tìm một ngưỡng tương tự khởitạo tốt nhất cho vấn đề phân loại dữ liệu Chúng ta cần phải xem xét 5 vấn đề chínhsau:
1 Lược đồ trình bày mối kết hợp của các nhiễm sắc thể cho việc phân loại
2 Phương pháp tạo ra quần thể khởi tạo
Begin
t=0 Initialize P(t);
Evaluate fitness functions in P(t);
while ~(stop_condition) do Begin
t=t+1;
Select P(t) from P(t-1) Recombine chromosomes in P(t) Evaluate fitness functions in P(t) End
End
Hình 3-1 Thủ tục chung của thuật toán di truyền
Trang 133 Hàm thích nghi cho các cá thể (nhiễm sắc thể).
4 Các toán tử phát sinh quần thể mới
5 Tham số khởi tạo được cung cấp cho thuật giải di truyền
2.2 Biểu diễn nhiễm sắc thể cho thuật giải di truyền
Chúng ta sử dụng thuật giải di truyền để xác định các ngưỡng tương tự khởitạo tối ưu nhất
Đầu vào là bảng A = (U, Ad) có độ đo sự tương tự S a : V a xV a [0,1]
Đầu ra là một tập các ngưỡng tương tự khởi tạo tối ưu {t(A) {t(a): aA}} Như vậy, khi một đối tượng được thể hiện bằng n thuộc tính thì nhiễm sắc thể cho thuật giải di truyền bao gồm n+1 số thực liên tiếp của các điểm tương tự khởi tạo {t(a 1 ), t(a 2 ), …, t(a n ), t(A)}, với t(a i ) / (i=1,2,…,n) thể hiện ngưỡng tương tự khởi tạo cho thuộc tính i và giá trị cuối cùng t(A) là ngưỡng tương tự khởi tạo xác định mối quan hệ tolerant khi tất cả các thuộc tính A được xem xét cùng lúc
Chúng ta chấp nhận một sự trình bày dạng số thực của các nhiễm sắc thể vìmỗi giá trị của gien trong nhiễm sắc thể là một số thực
2.3 Khởi tạo quần thể ban đầu
Các giá trị của gien khởi tạo trong nhiễm sắc thể có được bởi sự phát sinh
n+1 số giá trị thực ngẫu nhiên trong khoảng [0.5, 1.0] Lý do cho việc chọn khoảng
[0.5,1.0] để khởi tạo các ngưỡng tương tự khởi tạo là hai đối tượng được xem làtương tự nhau khi giá trị tương tự khởi tạo giữa hai đối tượng tối thiểu lớn hơn 0.5
Chúng ta hoàn thành khởi tạo quần thể bằng cách lặp lại phép toán |P| ở trên nhiều lần Khi đó |P| là kích thước của quần thể.
2.4 Hàm thích nghi 1
Trước khi xem xét hàm thích nghi cho việc xác định tốt nhất những ngưỡngtương tự khởi tạo, chúng ta xem xét một khái niệm của các mối kết hợp để diễn tả
sự không phân biệt của các đối tượng Khái niệm mối liên kết dựa trên một quan sát
rất đơn giản đó là nếu xTS(y) yTS(x) chúng ta có thể nói đó là mối liên kết giữa
1 Fitness function
Trang 14hai đối tượng x và y Từ đó, chúng ta xác định hai loại liên kết giữa hai đối tượng x
và y như sau:
x và y có mối liên kết tốt xTS(y) d(x) = d(y)
x và y có mối liên kết xấu xTS(y) d(x) d(y) Với d(x), d(y) là các quyết định tương ứng của hai lớp đối tượng x và y,
chúng sẽ có mối liên kết tốt (hoặc xấu) Hình 3-2 minh hoạ hai loại của mối liên kếtgiữa các đối tượng
Hình 3-2 Các mối liên kết tốt và mối liên kết xấuKhi chúng ta chọn hàm thích nghi cho việc xác định ngưỡng tương tự khởitạo tối ưu chúng ta cần xem xét hai yêu cầu sau:
Nếu hai đối tượng x, yU có quan hệ tolerant thì chúng nằm trong
d1
d2
d3
Mối liên kết tốt Mối liên kết xấu
Trang 15Cho một tập của những đối tượng được chứa trong cùng một lớp Y i ={xU / d(x) = d i , i=1, 2, …, r(d)}, với r(d) là số các lớp quyết định Xét tập thô tolerant TS(x) được chứa trong cùng lớp d i, nghĩa là:
{TS(x) | i TS(x) Y i }
Sự liên kết trong tập tolerant đối với tất cả các lớp đối tượng U được gọi là
một vùng rõ ràng A của phân hoạch {Y i ,i=1,2,…,r(d)} được định nghĩa như sau:
U x
d r
i
i A i
Chất lượng xấp xỉ của sự phân loại A, d được xác định bởi tỷ số của tất cả
A -corectly phân loại đối tượng từ U như sau:
U card
POS
A A
)
d ,
tố trong tập thô tolerant được chứa trong cùng một lớp do đó kết quả phân loại cho
ra kích thước của các phần được chia trở nên nhỏ hơn Đôi khi, kết quả phân loạilàm cho phần được chia nhiều nhất chỉ chứa duy nhất một đối tượng đơn
Vì vậy, để thoả mãn yêu cầu thứ hai là các đối tượng được chứa trong cùngmột lớp có quan hệ tolerant càng nhiều càng tốt Với yêu cầu này chúng ta xác định
tỷ lệ mối liên kết tốt là A, d , xác định tỷ lệ các đối tượng nằm trong cùng một lớp
có quan hệ với nhau trên tổng số các đối tượng trong cùng một lớp:
,
y d x d y x card
y d x d y x
Trang 16Bởi vì, giá trị ngưỡng tương tự khởi tạo tăng lên, tỉ lệ của các mối liên kết tốt
Do đó, vấn đề đặt ra là cần phải kết hợp hài hoà hai tỷ lệ này Hàm thích nghidựa trên việc kết hợp hai tỷ lệ này sẽ có dạng như sau:
d A d
F 1 Với và ( - 1) là các hằng số trọng lượng có thể được thay đổi theo mục
đích phân loại Ở đây, giới hạn thứ nhất là tạo một vài đối tượng có quan hệ tolerantđược chứa trong cùng một lớp và giới hạn thứ hai là tạo các đối tượng trong cùngmột lớp trở nên có quan hệ tolerant
2.5 Các phép toán di truyền 2
Quần thể khởi tạo của ngưỡng tương tự khởi tạo được suy ra từ mối kết hợpcủa các phép toán phát sinh để tìm một tập ngưỡng tương tự khởi tạo tối ưu cho việcphân loại dữ liệu Giải thích chi tiết về các phép toán phát sinh được sử dụng choviệc xác định các giá tri tương tự khởi tạo được đưa ra như sau:
2.5.1 Phép chọn lọc tái sinh 3
Chúng ta sử dụng một sự pha trộn của các phương pháp chọn lọc cho việctái sinh các nhiễm sắc thể
Phương pháp chọn lọc đầu tiên là một nhiễm sắc thể tốt nhất (elitism) có
hàm thích nghi cao nhất sẽ được đưa vào quần thể mới
2 Genetic Operations
3 Reproduction
Trang 17Phương pháp chọn lọc thứ hai là phương pháp chọn lọc đấu loại k phần tử
(k-tournament) Trong phương pháp này, một nhiễm sắc thể có hàm thích nghi tốt nhất trong số k nhiễm sắc thể được chọn ngẫu nhiên từ quần thể Hai nhiễm sắc thể
C1 và C2 có được từ việc lập lại thủ tục ở trên liên tiếp tạo ra một nhiễm sắc thể mới
Cc+m bằng cách sử dụng các phép toán lai ghép và đột biến sẽ được giải thích sau
Thủ tục tái sinh ở trên được lập lại nhiều lần bằng pSelect |P|, với |P| là kích thước
quần thể
Cuối cùng, phần còn lại của tập quần thể mới được làm đầy bằng cách phátsinh ngẫu nhiên các nhiễm sắc thể Hình 3-3 cho thấy một phương pháp lai ghép táisinh dựa trên một hổn hợp của ba phương pháp tái sinh khác nhau
Hình 3-3: Lược đồ phương pháp chọn lọc tái sinh
Trang 182.5.2 Phép lai ghép 4
Lai ghép giữa hai nhiễm sắc thể đã chọn C 1 và C 2 được thực hiện như sau:
Cho các ngưỡng tương tự khởi tạo thứ i của 2 nhiễm sắc thể đã chọn C 1 và C 2 là
t 1 (a i ) và t 2 (a i ) Hàm thích nghi của 2 nhiễm sắc thể đã chọn C 1 và C 2 là F 1 và F 2
Ngưỡng tương tự khởi tạo thứ i là t c (a i ) của nhiễm sắc thể mới C c được tạo ra bằngphép toán lai ghép được tính bằng một số trung bình:
2 1
2 2 1
1
F F
a t F a t F a
i c
Phép toán này được áp dụng cho toàn bộ những ngưỡng tương tự khởi tạo
của hai nhiễm sắc thể đã chọn với xác suất lai ghép P c.
2.5.3 Phép đột biến 5
Đột biến được thực hiện như sau: Đầu tiên, một nhiễm sắc thể C ’ được
chọn ngẫu nhiên từ quần thể với xác suất của sự đột biến P m Tiếp theo, giá trị
ngưỡng tương tự khởi tạo t ’ (a i ) của nhiễm sắc thể C’ được chọn ngẫu nhiên và nóđược đột biến theo cách sau:
t m (a i ) = 1.5 - t ’ (a i ) Với t ’ (a i ) và t m (a i ) tương ứng là giá trị ngưỡng tương tự khởi tạo đã chọn và
ngưỡng tương tự khởi tạo đột biến Sự thực hiện liên tiếp của phép toán lai ghép và
đột biến hoàn thành phép toán di truyền và nó tạo ra nhiễm sắc thể mới C c+m Dướiđây là tóm tắt việc xác định giá trị tương tự khởi tạo tối ưu bằng cách sử dụng thuậttoán di truyền
Thuật toán: (Đầu vào: A=(U, Ad), Sa: Va x Va [0,1] aA;
Đầu ra: {t{t(a): aA}})}}))
Trang 19- Phát sinh quần thể khởi tạo: ngưỡng tương tự khởi tạo nằmtrong khoảng [0,1].
- Đánh giá hàm thích nghi của quần thể khởi tạo
2 Thực hiện thuật toán di truyền
while (stop_condition) {
Reproduction();
Crossover();
Mutation();
Đánh giá hàm thích nghi của quần thể mới;
(Evalute fitness function of new population)
Trang 20Chương 3 PHÂN LOẠI DỮ LIỆU DỰA TRÊN TẬP THÔ
TOLERANT
Cho rằng, đó là một tập của những mẫu huấn luyện được chuẩn bị cho việcphân loại dữ liệu Chúng ta xác định tối ưu các giá trị của các ngưỡng tương tự khởitạo bằng phương pháp tiến hoá dựa trên thuật toán di truyền sử dụng tập của nhữngmẫu huấn luyện Sau khi xác định những ngưỡng tương tự khởi tạo tối ưu, chúng tacần phải thu được tập xấp xỉ dưới và tập xấp xỉ trên của các mẫu huấn luyện Mộtthủ tục xác định hai tập xấp xỉ được đưa ra như sau:
Sử dụng các ngưỡng khởi tạo ta có được một tập tolerant TS(x) của mỗi mẫu
x trong tập huấn luyện Tiếp theo, Ta thu được tập xấp xỉ dưới A x và tập xấp xỉtrên A x của mỗi mẫu x trong các mẫu huấn luyện Các tập A x và A x củamỗi đối tượng trong các mẫu huấn luyện có được bằng cách sử dụng các tập tolerat
tương ứng Một mẫu x sẽ thuộc vào tập xấp xỉ dưới hoặc tập xấp xỉ trên cho dù tất
cả các mẫu trong tập tolerant TS(x) của mẫu x có cùng một lớp hay không.
Khi một mẫu x thuộc vào tập xấp xỉ dưới, các mẫu khác trong tập tolerant TS(x) của mẫu x có thể có các lớp quyết định khác nhau từ những mẫu khác Như
vậy, chúng ta cần một kỹ thuật để đo lường sự không chắc chắn của lớp bao phủ của
một mẫu x Cho một lớp quyết định của một đối tượng y trong tập tolerant TS(x) là d(y) và lớp quyết định thứ i là d i (i=1, 2, …, r(d)), với r(d) là số các lớp quyết định.
Chúng ta cần xác định một hàm thành viên thô di(x) biểu diễn mức độ phổ biến của
mẫu x trong lớp quyết định d i như sau:
x di
sử dụng tập xấp xỉ dưới ở giai đoạn đầu và sau đó những mẫu thử này không thể
Trang 21được phân loại trong giai đoạn 1 sẽ được phân loại bằng cách sử dụng tập xấp xỉtrên trong giai đoạn 2 Giải thích chi tiết của mỗi giai đoạn sẽ được đưa ra dưới đây.
3.1 Giai đoạn 1: dùng xấp xỉ dưới
Chúng ta thu được một tập tolerant TS l (x) của mẫu thử x, với chỉ số dưới dòng l chỉ ra là tập xấp xỉ dưới:
TS l (x) = {yTS(x) : i{1, 2, , r(d)}, di = 1}
Nếu tập tolerant TS l (x) của mẫu x chỉ có chính nó, nghĩa là TS l (x)={x} Chúng
ta không thể phân loại mẫu thử x trong giai đoạn đầu và chúng ta chuyển sự phân
loại một mẫu thử như vậy sang giai đoạn 2
Nếu tập tolerant TS(x) của mẫu thử x bao gồm nhiều mẫu huấn luyện, ta thu
được tần số quan hệ trong cùng một lớp của các mẫu huấn luyện trong tập tolerant
TS(x) Khi các mẫu huấn luyện trong tập tolerant TS(x) phân hoá các quyết định,
chúng ta quy cho mẫu thử x trong lớp có giá trị tần số quan hệ lớn nhất Khi sự khácnhau giữa các giá trị lớn nhất và giá trị tần số quan hệ lớn thứ hai không nhiều,nghĩa là:
) (
1
1
2 1
d r freq
freq freq
Với freq 1 = card({yTS l (x )| d(y)=d(x)})
freq 1 = card({yTS l (x )| d(y)=d(i), i{1, 2, …, r(d)})
r(d) là số các lớp quyết định.
Chúng ta cũng chuyển sự phân loại của mẫu thử như vậy sang giai đoạn 2 bởi
vì lớp bao phủ là không chắc chắn (mờ) căn cứ vào tập xấp xỉ dưới
3.2 Giai đoạn 2: dùng xấp xỉ trên
Bởi vì tập xấp xỉ trên bao gồm tất cả các mẫu thử trong tập xấp xỉ dưới và cácmẫu thử trong tập xấp xỉ dưới đã được xem xét trong giai đoạn 1 Chúng ta sử dụngcác mẫu huấn luyện trong vùng biên (the boundary region) , không phải tất cả cácmẫu trong tập xấp xỉ trên, trong giai đoạn 2 của việc phân loại Vì vậy, thời gianước lượng cho việc phân loại trong giai đoạn 2 là không lâu vì chỉ có các mẫu trongvùng biên mới được lấy và số các mẫu trong vùng biên là không quá nhiều Tương
Trang 22tự trong giai đoạn đầu, chúng ta thu được một tập tolerant TS b (x) của dữ liệu thử chưa phân loại x, với chỉ số dưới dòng b có nghĩa là vùng biên
TS b (x) = {yTS(x) : i{1, 2, , r(d)}, di < 1}
Sau đó, chúng ta xác định hàm thành viên thô của tất cả các mẫu trong tập
tolerant TS b (x) của mẫu thử x chưa phân loại đối với các lớp quyết định Cho tập tolerant TS b (x) của mẫu thử chưa phân loại x là {1 ,2 ,…,M }, với M là số các mẫu thử trong vùng biên có quan hệ tolerant đối với mẫu thử x và thừa nhận mỗi mẫu j
có hàm thành viên thô {di (i )|i=1,2,…,r(d)} Ta có công thức tính hàm thành viên thô trung bình của mẫu thử x đối với mỗi lớp quyết định như sau:
j di
1
Chúng ta quy mẫu chưa phân loại x vào lớp có hàm thành viên thô trung bình
lớn nhất Khi sự khác nhau giữa các hàm thành viên thô trung bình lớn nhất và hàmthành viên thô trung bình lớn thứ hai không nhiều, nghĩa là:
1 max
2
d
dmaz dmaz
Với dmax 1 là hàm thành viên thô trung bình lớn nhất và dmax 2 là hàm
thành viên thô trung bình lớn thứ hai và r(d) là số các lớp quyết định thì chúng ta loại bỏ mẫu thử x trong xử lý phân loại Hình 4-1 minh hoạ cho phương pháp phân
loại 2 giai đoạn