NGHIÊN CỨU THUẬT GIẢI DI TRUYỀN VÀ ỨNG DỤNG ĐỂ PHÂN LỚP DỮ LIỆU BẰNG TẬP THÔ DUNG SAI

NGHIÊN CỨU THUẬT GIẢI DI TRUYỀN VÀ ỨNG DỤNG ĐỂ PHÂN LỚP DỮ LIỆU BẰNG TẬP THÔ DUNG SAI Tìm kiếm lời giải tối ưu cho các bài toán thực tiễn luôn là vấn đề quan trọng trong khoa học công nghệ nói chung và tin học nói riêng. Các thuật giải tiến hóa dựa trên nguyên tắc những gì tự nhiên đã thực hiện để tìm kiếm lời giải tối ưu, khắc phục được các nhược điểm của các kỹ thuật tìm kiếm truyền thống trong các vấn đề tìm kiếm có không gian tìm kiếm lớn và nhiều ràng buộc phức tạp.

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

-

PHẠM VĂN TUẤN

NGHIÊN CỨU THUẬT GIẢI DI TRUYỀN VÀ ỨNG DỤNG ĐỂ PHÂN LỚP DỮ LIỆU BẰNG TẬP THÔ DUNG SAI

Chuyên ngành: Khoa học máy tính

Mã số: 60.48.01

TÓM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI - 2013

Trang 2

Luận văn được hoàn thành tại:

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Người hướng dẫn khoa học: PGS.TS NGUYỄN BÁ TƯỜNG

Phản biện 1: ………

Phản biện 2: ………

Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông

Vào lúc: giờ ngày tháng năm…

Có thể tìm hiểu luận văn tại:

- Thư viện của Học viện Công nghệ Bưu chính Viễn thông

Trang 3

MỞ ĐẦU

Tìm kiếm lời giải tối ưu cho các bài toán thực tiễn luôn là vấn đề quan trọng trong khoa học công nghệ nói chung và tin học nói riêng Các thuật giải tiến hóa dựa trên nguyên tắc những gì tự nhiên đã thực hiện để tìm kiếm lời giải tối ưu, khắc phục được các nhược điểm của các kỹ thuật tìm kiếm truyền thống trong các vấn đề tìm kiếm có không gian tìm kiếm lớn và nhiều ràng buộc phức tạp

Thuật giải di truyền là thuật giải tìm kiếm dựa trên quá trình chọn lọc tự nhiên, di truyền và tiến hóa Thuật giải di truyền được xem như một phương pháp tìm kiếm có bước chuyển ngẫu nhiên mang tính tổng quát để giải các bài toán tối ưu hoá

Hiện nay, thuật giải di truyền được ứng dụng rộng rãi trong các lĩnh vực phức tạp ở thực tế Việc tiếp cận thuật giải

di truyền để giải quyết bài toán tìm ngưỡng tối ưu nhằm tăng cường hiệu quả cho thuật toán phân lớp dữ liệu là một ứng

dụng như vậy Do đó, tôi đã chọn đề tài “Nghiên cứu thuật

giải di truyền và ứng dụng để phân lớp dữ liệu bằng tập thô dung sai”

Trang 4

 Cấu trúc luận văn

Ngoài các phần mở đầu, mục lục, danh mục hình vẽ, danh mục từ viết tắt, kết luận, tài liệu tham khảo, luận văn được chia làm 2 phần như sau:

Chương 1: Tổng quan về thuật giải di truyền Trình

bày các khái niệm về thuật giải di truyền, nền tảng toán học cùng các cải tiến nhằm khắc phục hạn chể và ứng dụng của thuật giải di truyền trong thực tế

Chương 2: Ứ n g d ụ n g thuật giải di truyền nhằm

tăng cường hiệu quả phân lớp dữ liệu bằng tập thô dung sai Trình bày khái niệm về tập thô, tập thô dung sai, áp dụng thuật giải di truyền xác định ngưỡng tương tự tối ưu nhằm tăng cường hiệu quả phân lớp dữ liệu bằng tập thô dung sai

Trang 5

CHƯƠNG I: TỔNG QUAN VỀ THUẬT GIẢI

DI TRUYỀN

1.1 Tổng quan thuật giải di truyền

1.1.1 Nội dung thuật giải di truyền

Thuật giải di truyền sử dụng các thuật ngữ vay mượn của di truyền học Mỗi kiểu (nhóm) gen (ta gọi là một nhiễm sắc thể) sẽ biểu diễn một lời giải của bài toán, một tiến trình tiến hoá được thực hiện trên một quần thể các nhiễm sắc thể tương ứng với một quá trình tìm kiếm trong không gian lời giải Thuật giải di truyền duy trì một quần thể các lời giải có thể của bài toán tối ưu hóa Mỗi lời giải gọi là một cá thể hay một nhiễm sắc thể, thường được mã hóa dưới dạng một chuỗi các gen

Quần thể mới được tạo ra bằng cách sử dụng các quá trình chọn lọc, lai ghép và đột biến Quá trình chọn lọc sao chép các cá thể có độ phù hợp tốt vào một quần thể tạm thời được gọi là quần thể bố mẹ Các cá thể trong quần thể bố mẹ được ghép đôi một cách ngẫu nhiên và tiến hành lai ghép tạo

ra các cá thể con Sau khi tiến hành quá trình lai ghép, thuật giải di truyền mô phỏng một quá trình khác trong tự nhiên là

Trang 6

quá trình đột biến, trong đó các gen của các cá thể con tự thay đổi giá trị với một xác xuất nhỏ

Như vậy, thuật giải di truyền xuất phát với tập lời giải ban đầu, thông qua nhiều bước trong quá trình tiến hoá hình thành các tập lời giải mới tốt hơn, và cuối cùng tìm ra lời giải

đủ tốt chấp nhận được

1.1.2 Các bước chính trong việc áp dụng thuật giải

di truyền

Bước 1 : Chọn tập lời giải ban đầu cho bài toán

Bước 2 : Mã hoá các lời giải dưới dạng các chuỗi nhị

phân

Bước 3 : Tìm hàm số thích nghi (hàm phù hợp) cho

bài toán và tính giá trị thích nghi cho mỗi lời giải

Bước 4 : Dựa trên giá trị thích nghi của mỗi lời giải để

thực hiện chọn lọc và tiến hóa các lời giải Các phương pháp tiến hóa gồm lai ghép và đột biến

Bước 5 : Tính các giá trị thích nghi cho các lời giải

mới và loại bỏ các lời giải kém nhất

Bước 6 : Nếu chưa tìm được lời giải tối ưu hay chưa

hết hạn chu kỳ xác định thì trở lại Bước 4 để tìm lời giải mới

Trang 7

Bước 7 : Tìm được lời giải tối ưu chấp nhận được

hoặc nếu chu kỳ cho phép đã chấm dứt thì báo cáo kết quả tính được

1.2 Thuật giải di truyền đơn giản

J H Holland sử dụng mã hóa nhị phân để biểu diễn các cá thể Mỗi lời giải được mã hóa thành một chuỗi bít, mỗi chuỗi bít sau đó được giải mã để lấy lại giá trị thực và giá trị hàm mục tiêu được tính theo giá trị thực này Quần thể chuỗi ban đầu được khởi động ngẫu nhiên và sau đó được tiến hóa từ thế hệ này sang thế hệ khác bằng cách sử dụng ba

toán tử : Chọn lọc; Lai tạo;Đột biến

1.2.1 Toán tử chọn lọc (Selection)

Chọn lọc là việc lựa chọn các cá thể để tham gia vào các pha tiếp theo của quá trình tiến hóa

1.2.2 Toán tử lai ghép (Crossover)

Toán tử tác động trên các cá thể cha và mẹ để tạo ra các con lai tốt được gọi là lai ghép

1.2.3 Toán tử đột biến (Mutation)

Các toán tử đột biến nhằm tạo ra các thông tin mới trong quần thể thu được sau khi lai ghép tại các vị trí bít nào

đó

Trang 8

Tóm lại, ba toán tử nêu trên được tiến hành trong một

vòng lặp cho đến khi các chuỗi con chiếm toàn bộ quần thể mới

1.2.4 Hàm thích nghi (Fitness)

Hàm thích nghi giống như là một hàm đánh giá độ tốt của cá thể Nó dùng để so sánh giữa hai cá thể để xét xem cá thể nào tốt hơn Giá trị thích nghi được xác định dựa vào một hàm mục tiêu cho trước

1.2.5 Thuật giải SGA

Cá thể có giá trị hàm mục tiêu tốt nhất của mọi thế hệ

là lời giải cuối cùng của thuật giải SGA Quần thể đầu tiên được khởi tạo một cách ngẫu nhiên

1.3 Nền tảng toán học của thuật giải di truyền

1.3.1 Khái niệm và ký hiệu

Nền tảng lý thuyết của thuật giải di truyền dựa trên biểu diễn chuỗi nhị phân và lý thuyết lược đồ Một lược đồ là một chuỗi, dài bằng chuỗi NST, các thành phần của nó có thể

có thể nhận một trong các giá trị trong tập ký tự biểu diễn gen hoặc một ký tự đại diện ’*’

Trang 9

1.3.2 Định lý giản đồ

Định lý: Trong thuật giải SGA, nếu số thể hiện của

giản đồ H tại thế hệ t là m(H,t) thì số thể hiện của giản đồ H tại thế hệ tiếp theo được ước lượng như sau:

H f t H m

t

H

11

.,1

(1.1)

Định lý này được biết đến như nền tảng toán học của thuật giải di truyền và được gọi là định lý giản đồ

1.3.3 Giả thuyết về khối xây dựng

Từ biều thức (1.1), dễ thấy các giản đồ bậc nhỏ với độ dài ngắn và có giá trị độ phù hợp trung bình lớn hơn giá trị

độ phù hợp trung bình của toàn quần thể sẽ có số thể hiện tăng và có vai trò quan trọng trong thuật giải di truyền Các

giản đồ như vậy được gọi là các khối xây dựng

J.H.Holland đã đưa ra giả thuyết về khối xây dựng

như sau: Thuật giải di truyền tối ưu hoá (tối thiểu hoá) hàm mục tiêu bằng việc kết hợp các khối xây dựng tạo ra các cá thể dần tốt hơn từ các phần tử tốt nhất của các điểm đã thăm

dò trước đấy

1.4 Các nguyên nhân dẫn đến thất bại trong quá trình áp dụng các thuật giải di truyền

Trang 10

- Những vấn đề dễ nhầm lẫn

- Lỗi trong việc lấy mẫu

- Tình trạng phá vỡ lược đồ

1.5 Các cải tiến của thuật giải di truyền

1.5.1 Vấn đề tạo ra quần thể ban đầu

1.5.2 Sử dụng nhiều quần thể con

1.5.3 Những cải tiến trong chiến lược chọn lọc

- Ưu tiên cá thể tốt (elitism)

- Lấy mẫu tiền định (deterministic sampling)

- Lấy mẫu xác suất phần dư và thay thế (remainder stochastic sampling with replacement)

- Lấy mẫu xác suất phần dư và không thay thế (remainder stochastic sampling with replacement)

- Thủ tục phân hạng (ranking procedure)

Trang 11

Chiến lược thay thế sản sinh ra quần thể trong thế hệ tiếp theo từ quần thể hiện tại và quần thể con được tạo ra từ quần thể hiện tại thông qua ba toán tử là chọn lọc, lai ghép và đột biến

Thuật giải SGA sử dụng chiến lược thay thế không tinh hoa, nghĩa là quần thể con thay thế hoàn toàn quần thể hiện tại và trở thành quần thể hiện tại của thế hệ tiếp theo

Nhằm khắc phục nhược điểm trên, thuật giải di truyền cải tiến sử dụng chiến lược thay thế tinh hoa do De Jong đề xuất Với chiến lược thay thế này, một số cá thể tốt nhất trong quần thể hiện tại được lưu trữ lại cho thế hệ tiếp theo

1.5.6 Các thuật giải di truyền lai

Thuật giải SGA, mặc dù mạnh và hiệu quả, nói chung không phải là thuật giải tìm kiếm tối ưu tốt nhất trong một số lĩnh vực Lai hóa thuật giải SGA với các thuật giải truyền thống đang sử dụng sẽ có thể tạo ra những thuật giải tốt hơn

so với cả thuật giải SGA và thuật giải truyền thống

1.6 Các ứng dụng của thuật giải di truyền

- Đầu tiên phải kể đến là các bài toán tối ưu

Trang 12

- Ứng dụng thuật giải di truyền trong lĩnh vực sáng tác

Trang 13

CHƯƠNG II: ỨNG DỤNG THUẬT GIẢI DI TRUYỀN NHẰM TĂNG CƯỜNG HIỆU QUẢ PHÂN LỚP DỮ

LIỆU BẰNG TẬP THÔ DUNG SAI

2.1 Các khái niệm về tập thô

Xét một không gian các đối tượng U, P = {p1, p2,

pk} là một phân hoạch của U, khi đó trong họ các tập con 2U

của U sẽ có một số tập là những tập rõ, số còn lại là những tập thô ứng với phân hoạch P Về mặt trực quan tập thô là

tập những đối tượng không phân loại được Tập rõ là những tập phân loại được

Cho tập U hữu hạn, khác rỗng bất kỳ, U được gọi là tập các đối tượng E = {E1, E2, , Ek} là phân hoạch của U Trong lý thuyết tập thô các nhóm E1, E2, ., Ek được gọi là

các tập sơ cấp hay các tập mô tả được

Cặp U và phân hoạch E tạo nên không gian được gọi

là không gian xấp xỉ hay không gian nền Pawlak: Vậy Apr=( U, E) là không gian nền hay không gian xấp xỉ Pawlak

Trang 14

2.1.1 Xấp xỉ tập hợp

Cho không gian xấp xỉ Apr = (U, E) Giả sử X  U

Định nghĩa 2.1: Xấp xỉ của tập X trong không gian

Apr = (U, E) Xấp xỉ trên của X trong Apr = (U, E), ký hiệu

XE ( hoặc X (E) ) là hợp của các nhóm Ei có phần tử chung với X hay XE

= X (E) ) = {Ei E : Ei X} Xấp xỉ dưới của X trong Apr = (U, E), ký hiệu XE ( hoặc X(E)) là hợp của các nhóm Ei mà Ei là tập con của X hay X E = X(E)

= {Ei E: Ei X }

2.1.2 Định nghĩa tập thô, tập rõ theo xấp xỉ

Cho không gian xấp xỉ Apr = (U, E); X U

Định nghĩa 2.2 Định nghĩa tập thô, tập rõ theo xấp

xỉ

Tập X 2U được gọi là thô trong không gian Apr= (

U, E) ( hay X là thô ứng với phân hoạch E ) nếu XE XE

Tập X 2U được gọi là rõ trong không gian Apr= ( U, E) ( hay X là rõ ứng với phân hoạch E ) nếu XE = XE Hoặc

Tập X được gọi là thô trong Apr = ( U, E) nếu  XE

< 1

Tập X được gọi là rõ trong Apr = ( U, E) nếu  XE

=

1

Trang 15

2.1.3 Định nghĩa tập thô, tập rõ theo tập hợp

Định nghĩa 2.3 Định nghĩa tập thô, tập rõ theo tập

hợp

Cho không gian Apr = (U, E )

X  2U là tập rõ trong Apr = ( U, E) nếu X {, E1,

E2, , Ek, Ei, U} = RO

X  2U là tập thô trong Apr = ( U, E) nếu X  THO =

2U \ RO

Trong đó Ei là hợp của một số nhóm Ei nào đó

2.1.4 Sự tương đương của hai định nghĩa tập thô, tập rõ

2.2 Các phép toán tập hợp trên các tập thô, tập rõ

2.2.1 Các phép toán tập hợp trên các tập rõ

Bổ đề 2.3

Cho không gian Apr = (U, E); X  U

X là tập rõ khi và chỉ khi X =  hoặc X =  Ei

Bổ đề 2.4

Cho không gian Apr = (U, E); X, Y  U

a Nếu X, Y  RO thì XY là tập rõ

b Nếu X, Y  RO thì X  Y là tập rõ

Trang 16

c Nếu X, Y  RO thì X \ Y là tập rõ

d Nếu X  RO thì - X (phần bù của X) là tập rõ

2.2.2 Các phép toán tập hợp trên các tập thô

Bổ đề 2.5

Cho không gian Apr = (U, E ) và X  U

X là tập thô khi và chỉ khi X chứa tập con thực sự (khác rỗng, khác Ei) của một nhóm Ei nào đó

Bổ đề 2.6

Cho không gian Apr = (U, E); X, Y  U

a Nếu X, Y  THO thì XY là tập thô hoặc tập rõ

b Nếu X, Y  THO thì X  Y là tập thô hoặc tập rõ

c Nếu X, Y  THO thì X \ Y là tập thô hoặc tập rõ

d Nếu X  THO thì - X (phần bù của X) là tập thô

2.3 Phủ và tập thô dung sai

2.3.1 Phủ và phân hoạch

a Phân hoạch

Cho tập đối tượng U = { o1, o2, , om}

Họ các tập con của U, P = { p1, , pk} được gọi là

phân hoạch của U nếu P thỏa 3 điều kiện:

(1) pi  với mọi i

(2) pi  Pj =  với i  j

Trang 17

2.4 Tập thô dung sai (TRS-Tolerance Rough Set)

Cho U= { o1, o2, om};

2.4.1 Quan hệ tương đương

Định nghĩa 2.6

Trang 18

Quan hệ R  UU được gọi là quan hệ tương đương

trên U nếu R thỏa mãn ba điều kiện

2.4.2 Quan hệ dung sai ( TR-Tolerance Relation)

Định nghĩa 2.7 Quan hệ R  UU được gọi là

quan hệ dung sai trên U nếu R thỏa mãn hai điều kiện

Độ đo tương tự của x và y trên thuộc tính a, ký hiệu là

Sa(x,y), được tính bởi công thức sau:

Sa(x,y) = 1-

d

y a x

a( ) ( )

Trang 19



),( ; trong đó A là số các phần tử của A

Ngưỡng của độ tương tự

t a  , t A  [0,1] là các ngưỡng tương ứng do người sử dụng chọn trước để giải quyết bài toán

2.6 Phân lớp dữ liệu bằng tập thô dung sai

2.6.1 Phân tích thuật giải

2.6.2 Sơ đồ thuật giải

Trang 20

Hình 2.2: Sơ đồ mô tả phương pháp phân lớp 2 giai đoạn

dựa vào tập thô dung sai

2.6.3 Mô tả thuật giải

2.6.4 Minh họa thuật giải

2.7 Cải tiến thuật giải phân lớp dữ liệu

Trong phần này, ta cải tiến thuật giải 1 bằng cách tìm một xấp xỉ trên của d(x) thực sự nhỏ hơn   x

Trang 21

2.8 Áp dụng thuật giải di truyền xác định ngưỡng tương

tự tối ưu

Ta cần giải quyết các vấn đề sau :

 Biểu diễn các biến của vấn đề

 Tạo quần thể ban đầu

 Xác định hàm thích nghi của vấn đề, xác định giá trị thích nghi của các cá thể

 Thực hiện các phương thức tiến hoá

Mô tả thuật giải :

1 Khởi tạo :

Đọc bảng quyết định ;

Định nghĩa độ đo tương tự ;

Tạo quần thể ban đầu : Lấy các ngưỡng ban đầu trong khoảng [0,1];

Tính độ thích nghi của quần thể ban đầu ;

2 Tiến hành thuật giải di truyền

while ( not( điều kiện kết thúc )) { Tạo sinh; Lai ghép; Đột biến;

Tính hàm thích nghi của quần thể mới }

3 Xác định giá trị ngưỡng tương tự tối ưu

Trang 22

2.8.1 Đặt vấn đề

2.8.2 Biểu diễn các biến

2.8.3 Phát sinh quần thể ban đầu

2.8.7 Minh họa thuật giải

2.9 Phân lớp dữ liệu vào thuật giải di truyền và tập thô dung sai

Đó là sự áp dụng thuật giải di truyền để tìm giá trị ngưỡng tương tự tối ưu, sau đó sử dụng thuật giải phân lớp gồm 2 giai đoạn để phân lớp dữ liệu Tiến trình mô tả như sau: Bước 1 :Dùng thuật giải di truyền để xác định ngưỡng tương tự tối ưu

Bước 2 : Sử dụng thuật giải phân lớp gồm 2 giai đoạn

để chia phân lớp dữ liệu

Trang 23

Sơ đồ sau mô tả phương pháp phân lớp 2 giai đoạn dựa vào thuật giải di truyền và tập thô dung sai :

Hình 2.4 : Sơ đồ mô tả phương pháp phân lớp 2 giai đoạn dựa vào thuật giải di truyền và tập thô dung sai

Trang 24

2.9.2 Nhận xét :

Khi sử dụng giá trị ngưỡng tối ưu tìm được bằng thuật giải di truyền để làm đầu vào cho thuật giải phân lớp, chưa chắc ta đã có kết quả phân lớp tốt theo nghĩa có ít phân tử không phân lớp được Tuy nhiên bằng cách xử lý tiếp theo là chọn giá trị lớn nhất cho mỗi thành phần trong bộ ngưỡng tối

ưu trong nhiều lần thực hiên, kết quả thu được thường tốt

Định dạng
Số trang	26
Dung lượng	396,93 KB