NGHIÊN CỨU THUẬT GIẢI DI TRUYỀN VÀ ỨNG DỤNG ĐỂ PHÂN LỚP DỮ LIỆU BẰNG TẬP THÔ DUNG SAI Tìm kiếm lời giải tối ưu cho các bài toán thực tiễn luôn là vấn đề quan trọng trong khoa học công nghệ nói chung và tin học nói riêng. Các thuật giải tiến hóa dựa trên nguyên tắc những gì tự nhiên đã thực hiện để tìm kiếm lời giải tối ưu, khắc phục được các nhược điểm của các kỹ thuật tìm kiếm truyền thống trong các vấn đề tìm kiếm có không gian tìm kiếm lớn và nhiều ràng buộc phức tạp.
Trang 1HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
-
PHẠM VĂN TUẤN
NGHIÊN CỨU THUẬT GIẢI DI TRUYỀN VÀ ỨNG DỤNG ĐỂ PHÂN LỚP DỮ LIỆU BẰNG TẬP THÔ DUNG SAI
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI - 2013
Trang 2Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học: PGS.TS NGUYỄN BÁ TƯỜNG
Phản biện 1: ………
Phản biện 2: ………
Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông
Vào lúc: giờ ngày tháng năm…
Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông
Trang 3MỞ ĐẦU
Tìm kiếm lời giải tối ưu cho các bài toán thực tiễn luôn là vấn đề quan trọng trong khoa học công nghệ nói chung và tin học nói riêng Các thuật giải tiến hóa dựa trên nguyên tắc những gì tự nhiên đã thực hiện để tìm kiếm lời giải tối ưu, khắc phục được các nhược điểm của các kỹ thuật tìm kiếm truyền thống trong các vấn đề tìm kiếm có không gian tìm kiếm lớn và nhiều ràng buộc phức tạp
Thuật giải di truyền là thuật giải tìm kiếm dựa trên quá trình chọn lọc tự nhiên, di truyền và tiến hóa Thuật giải di truyền được xem như một phương pháp tìm kiếm có bước chuyển ngẫu nhiên mang tính tổng quát để giải các bài toán tối ưu hoá
Hiện nay, thuật giải di truyền được ứng dụng rộng rãi trong các lĩnh vực phức tạp ở thực tế Việc tiếp cận thuật giải
di truyền để giải quyết bài toán tìm ngưỡng tối ưu nhằm tăng cường hiệu quả cho thuật toán phân lớp dữ liệu là một ứng
dụng như vậy Do đó, tôi đã chọn đề tài “Nghiên cứu thuật
giải di truyền và ứng dụng để phân lớp dữ liệu bằng tập thô dung sai”
Trang 4 Cấu trúc luận văn
Ngoài các phần mở đầu, mục lục, danh mục hình vẽ, danh mục từ viết tắt, kết luận, tài liệu tham khảo, luận văn được chia làm 2 phần như sau:
Chương 1: Tổng quan về thuật giải di truyền Trình
bày các khái niệm về thuật giải di truyền, nền tảng toán học cùng các cải tiến nhằm khắc phục hạn chể và ứng dụng của thuật giải di truyền trong thực tế
Chương 2: Ứ n g d ụ n g thuật giải di truyền nhằm
tăng cường hiệu quả phân lớp dữ liệu bằng tập thô dung sai Trình bày khái niệm về tập thô, tập thô dung sai, áp dụng thuật giải di truyền xác định ngưỡng tương tự tối ưu nhằm tăng cường hiệu quả phân lớp dữ liệu bằng tập thô dung sai
Trang 5CHƯƠNG I: TỔNG QUAN VỀ THUẬT GIẢI
DI TRUYỀN
1.1 Tổng quan thuật giải di truyền
1.1.1 Nội dung thuật giải di truyền
Thuật giải di truyền sử dụng các thuật ngữ vay mượn của di truyền học Mỗi kiểu (nhóm) gen (ta gọi là một nhiễm sắc thể) sẽ biểu diễn một lời giải của bài toán, một tiến trình tiến hoá được thực hiện trên một quần thể các nhiễm sắc thể tương ứng với một quá trình tìm kiếm trong không gian lời giải Thuật giải di truyền duy trì một quần thể các lời giải có thể của bài toán tối ưu hóa Mỗi lời giải gọi là một cá thể hay một nhiễm sắc thể, thường được mã hóa dưới dạng một chuỗi các gen
Quần thể mới được tạo ra bằng cách sử dụng các quá trình chọn lọc, lai ghép và đột biến Quá trình chọn lọc sao chép các cá thể có độ phù hợp tốt vào một quần thể tạm thời được gọi là quần thể bố mẹ Các cá thể trong quần thể bố mẹ được ghép đôi một cách ngẫu nhiên và tiến hành lai ghép tạo
ra các cá thể con Sau khi tiến hành quá trình lai ghép, thuật giải di truyền mô phỏng một quá trình khác trong tự nhiên là
Trang 6quá trình đột biến, trong đó các gen của các cá thể con tự thay đổi giá trị với một xác xuất nhỏ
Như vậy, thuật giải di truyền xuất phát với tập lời giải ban đầu, thông qua nhiều bước trong quá trình tiến hoá hình thành các tập lời giải mới tốt hơn, và cuối cùng tìm ra lời giải
đủ tốt chấp nhận được
1.1.2 Các bước chính trong việc áp dụng thuật giải
di truyền
Bước 1 : Chọn tập lời giải ban đầu cho bài toán
Bước 2 : Mã hoá các lời giải dưới dạng các chuỗi nhị
phân
Bước 3 : Tìm hàm số thích nghi (hàm phù hợp) cho
bài toán và tính giá trị thích nghi cho mỗi lời giải
Bước 4 : Dựa trên giá trị thích nghi của mỗi lời giải để
thực hiện chọn lọc và tiến hóa các lời giải Các phương pháp tiến hóa gồm lai ghép và đột biến
Bước 5 : Tính các giá trị thích nghi cho các lời giải
mới và loại bỏ các lời giải kém nhất
Bước 6 : Nếu chưa tìm được lời giải tối ưu hay chưa
hết hạn chu kỳ xác định thì trở lại Bước 4 để tìm lời giải mới
Trang 7Bước 7 : Tìm được lời giải tối ưu chấp nhận được
hoặc nếu chu kỳ cho phép đã chấm dứt thì báo cáo kết quả tính được
1.2 Thuật giải di truyền đơn giản
J H Holland sử dụng mã hóa nhị phân để biểu diễn các cá thể Mỗi lời giải được mã hóa thành một chuỗi bít, mỗi chuỗi bít sau đó được giải mã để lấy lại giá trị thực và giá trị hàm mục tiêu được tính theo giá trị thực này Quần thể chuỗi ban đầu được khởi động ngẫu nhiên và sau đó được tiến hóa từ thế hệ này sang thế hệ khác bằng cách sử dụng ba
toán tử : Chọn lọc; Lai tạo;Đột biến
1.2.1 Toán tử chọn lọc (Selection)
Chọn lọc là việc lựa chọn các cá thể để tham gia vào các pha tiếp theo của quá trình tiến hóa
1.2.2 Toán tử lai ghép (Crossover)
Toán tử tác động trên các cá thể cha và mẹ để tạo ra các con lai tốt được gọi là lai ghép
1.2.3 Toán tử đột biến (Mutation)
Các toán tử đột biến nhằm tạo ra các thông tin mới trong quần thể thu được sau khi lai ghép tại các vị trí bít nào
đó
Trang 8Tóm lại, ba toán tử nêu trên được tiến hành trong một
vòng lặp cho đến khi các chuỗi con chiếm toàn bộ quần thể mới
1.2.4 Hàm thích nghi (Fitness)
Hàm thích nghi giống như là một hàm đánh giá độ tốt của cá thể Nó dùng để so sánh giữa hai cá thể để xét xem cá thể nào tốt hơn Giá trị thích nghi được xác định dựa vào một hàm mục tiêu cho trước
1.2.5 Thuật giải SGA
Cá thể có giá trị hàm mục tiêu tốt nhất của mọi thế hệ
là lời giải cuối cùng của thuật giải SGA Quần thể đầu tiên được khởi tạo một cách ngẫu nhiên
1.3 Nền tảng toán học của thuật giải di truyền
1.3.1 Khái niệm và ký hiệu
Nền tảng lý thuyết của thuật giải di truyền dựa trên biểu diễn chuỗi nhị phân và lý thuyết lược đồ Một lược đồ là một chuỗi, dài bằng chuỗi NST, các thành phần của nó có thể
có thể nhận một trong các giá trị trong tập ký tự biểu diễn gen hoặc một ký tự đại diện ’*’
Trang 91.3.2 Định lý giản đồ
Định lý: Trong thuật giải SGA, nếu số thể hiện của
giản đồ H tại thế hệ t là m(H,t) thì số thể hiện của giản đồ H tại thế hệ tiếp theo được ước lượng như sau:
H f t H m
t
H
11
.,1
(1.1)
Định lý này được biết đến như nền tảng toán học của thuật giải di truyền và được gọi là định lý giản đồ
1.3.3 Giả thuyết về khối xây dựng
Từ biều thức (1.1), dễ thấy các giản đồ bậc nhỏ với độ dài ngắn và có giá trị độ phù hợp trung bình lớn hơn giá trị
độ phù hợp trung bình của toàn quần thể sẽ có số thể hiện tăng và có vai trò quan trọng trong thuật giải di truyền Các
giản đồ như vậy được gọi là các khối xây dựng
J.H.Holland đã đưa ra giả thuyết về khối xây dựng
như sau: Thuật giải di truyền tối ưu hoá (tối thiểu hoá) hàm mục tiêu bằng việc kết hợp các khối xây dựng tạo ra các cá thể dần tốt hơn từ các phần tử tốt nhất của các điểm đã thăm
dò trước đấy
1.4 Các nguyên nhân dẫn đến thất bại trong quá trình áp dụng các thuật giải di truyền
Trang 10- Những vấn đề dễ nhầm lẫn
- Lỗi trong việc lấy mẫu
- Tình trạng phá vỡ lược đồ
1.5 Các cải tiến của thuật giải di truyền
1.5.1 Vấn đề tạo ra quần thể ban đầu
1.5.2 Sử dụng nhiều quần thể con
1.5.3 Những cải tiến trong chiến lược chọn lọc
- Ưu tiên cá thể tốt (elitism)
- Lấy mẫu tiền định (deterministic sampling)
- Lấy mẫu xác suất phần dư và thay thế (remainder stochastic sampling with replacement)
- Lấy mẫu xác suất phần dư và không thay thế (remainder stochastic sampling with replacement)
- Thủ tục phân hạng (ranking procedure)
Trang 11Chiến lược thay thế sản sinh ra quần thể trong thế hệ tiếp theo từ quần thể hiện tại và quần thể con được tạo ra từ quần thể hiện tại thông qua ba toán tử là chọn lọc, lai ghép và đột biến
Thuật giải SGA sử dụng chiến lược thay thế không tinh hoa, nghĩa là quần thể con thay thế hoàn toàn quần thể hiện tại và trở thành quần thể hiện tại của thế hệ tiếp theo
Nhằm khắc phục nhược điểm trên, thuật giải di truyền cải tiến sử dụng chiến lược thay thế tinh hoa do De Jong đề xuất Với chiến lược thay thế này, một số cá thể tốt nhất trong quần thể hiện tại được lưu trữ lại cho thế hệ tiếp theo
1.5.6 Các thuật giải di truyền lai
Thuật giải SGA, mặc dù mạnh và hiệu quả, nói chung không phải là thuật giải tìm kiếm tối ưu tốt nhất trong một số lĩnh vực Lai hóa thuật giải SGA với các thuật giải truyền thống đang sử dụng sẽ có thể tạo ra những thuật giải tốt hơn
so với cả thuật giải SGA và thuật giải truyền thống
1.6 Các ứng dụng của thuật giải di truyền
- Đầu tiên phải kể đến là các bài toán tối ưu
Trang 12- Ứng dụng thuật giải di truyền trong lĩnh vực sáng tác
Trang 13CHƯƠNG II: ỨNG DỤNG THUẬT GIẢI DI TRUYỀN NHẰM TĂNG CƯỜNG HIỆU QUẢ PHÂN LỚP DỮ
LIỆU BẰNG TẬP THÔ DUNG SAI
2.1 Các khái niệm về tập thô
Xét một không gian các đối tượng U, P = {p1, p2,
pk} là một phân hoạch của U, khi đó trong họ các tập con 2U
của U sẽ có một số tập là những tập rõ, số còn lại là những tập thô ứng với phân hoạch P Về mặt trực quan tập thô là
tập những đối tượng không phân loại được Tập rõ là những tập phân loại được
Cho tập U hữu hạn, khác rỗng bất kỳ, U được gọi là tập các đối tượng E = {E1, E2, , Ek} là phân hoạch của U Trong lý thuyết tập thô các nhóm E1, E2, ., Ek được gọi là
các tập sơ cấp hay các tập mô tả được
Cặp U và phân hoạch E tạo nên không gian được gọi
là không gian xấp xỉ hay không gian nền Pawlak: Vậy Apr=( U, E) là không gian nền hay không gian xấp xỉ Pawlak
Trang 142.1.1 Xấp xỉ tập hợp
Cho không gian xấp xỉ Apr = (U, E) Giả sử X U
Định nghĩa 2.1: Xấp xỉ của tập X trong không gian
Apr = (U, E) Xấp xỉ trên của X trong Apr = (U, E), ký hiệu
XE ( hoặc X (E) ) là hợp của các nhóm Ei có phần tử chung với X hay XE
= X (E) ) = {Ei E : Ei X} Xấp xỉ dưới của X trong Apr = (U, E), ký hiệu XE ( hoặc X(E)) là hợp của các nhóm Ei mà Ei là tập con của X hay X E = X(E)
= {Ei E: Ei X }
2.1.2 Định nghĩa tập thô, tập rõ theo xấp xỉ
Cho không gian xấp xỉ Apr = (U, E); X U
Định nghĩa 2.2 Định nghĩa tập thô, tập rõ theo xấp
xỉ
Tập X 2U được gọi là thô trong không gian Apr= (
U, E) ( hay X là thô ứng với phân hoạch E ) nếu XE XE
Tập X 2U được gọi là rõ trong không gian Apr= ( U, E) ( hay X là rõ ứng với phân hoạch E ) nếu XE = XE Hoặc
Tập X được gọi là thô trong Apr = ( U, E) nếu XE
< 1
Tập X được gọi là rõ trong Apr = ( U, E) nếu XE
=
1
Trang 152.1.3 Định nghĩa tập thô, tập rõ theo tập hợp
Định nghĩa 2.3 Định nghĩa tập thô, tập rõ theo tập
hợp
Cho không gian Apr = (U, E )
X 2U là tập rõ trong Apr = ( U, E) nếu X {, E1,
E2, , Ek, Ei, U} = RO
X 2U là tập thô trong Apr = ( U, E) nếu X THO =
2U \ RO
Trong đó Ei là hợp của một số nhóm Ei nào đó
2.1.4 Sự tương đương của hai định nghĩa tập thô, tập rõ
2.2 Các phép toán tập hợp trên các tập thô, tập rõ
2.2.1 Các phép toán tập hợp trên các tập rõ
Bổ đề 2.3
Cho không gian Apr = (U, E); X U
X là tập rõ khi và chỉ khi X = hoặc X = Ei
Bổ đề 2.4
Cho không gian Apr = (U, E); X, Y U
a Nếu X, Y RO thì XY là tập rõ
b Nếu X, Y RO thì X Y là tập rõ
Trang 16c Nếu X, Y RO thì X \ Y là tập rõ
d Nếu X RO thì - X (phần bù của X) là tập rõ
2.2.2 Các phép toán tập hợp trên các tập thô
Bổ đề 2.5
Cho không gian Apr = (U, E ) và X U
X là tập thô khi và chỉ khi X chứa tập con thực sự (khác rỗng, khác Ei) của một nhóm Ei nào đó
Bổ đề 2.6
Cho không gian Apr = (U, E); X, Y U
a Nếu X, Y THO thì XY là tập thô hoặc tập rõ
b Nếu X, Y THO thì X Y là tập thô hoặc tập rõ
c Nếu X, Y THO thì X \ Y là tập thô hoặc tập rõ
d Nếu X THO thì - X (phần bù của X) là tập thô
2.3 Phủ và tập thô dung sai
2.3.1 Phủ và phân hoạch
a Phân hoạch
Cho tập đối tượng U = { o1, o2, , om}
Họ các tập con của U, P = { p1, , pk} được gọi là
phân hoạch của U nếu P thỏa 3 điều kiện:
(1) pi với mọi i
(2) pi Pj = với i j
Trang 172.4 Tập thô dung sai (TRS-Tolerance Rough Set)
Cho U= { o1, o2, om};
2.4.1 Quan hệ tương đương
Định nghĩa 2.6
Trang 18Quan hệ R UU được gọi là quan hệ tương đương
trên U nếu R thỏa mãn ba điều kiện
2.4.2 Quan hệ dung sai ( TR-Tolerance Relation)
Định nghĩa 2.7 Quan hệ R UU được gọi là
quan hệ dung sai trên U nếu R thỏa mãn hai điều kiện
Độ đo tương tự của x và y trên thuộc tính a, ký hiệu là
Sa(x,y), được tính bởi công thức sau:
Sa(x,y) = 1-
d
y a x
a( ) ( )
Trang 19
),( ; trong đó A là số các phần tử của A
Ngưỡng của độ tương tự
t a , t A [0,1] là các ngưỡng tương ứng do người sử dụng chọn trước để giải quyết bài toán
2.6 Phân lớp dữ liệu bằng tập thô dung sai
2.6.1 Phân tích thuật giải
2.6.2 Sơ đồ thuật giải
Trang 20Hình 2.2: Sơ đồ mô tả phương pháp phân lớp 2 giai đoạn
dựa vào tập thô dung sai
2.6.3 Mô tả thuật giải
2.6.4 Minh họa thuật giải
2.7 Cải tiến thuật giải phân lớp dữ liệu
Trong phần này, ta cải tiến thuật giải 1 bằng cách tìm một xấp xỉ trên của d(x) thực sự nhỏ hơn x
Trang 212.8 Áp dụng thuật giải di truyền xác định ngưỡng tương
tự tối ưu
Ta cần giải quyết các vấn đề sau :
Biểu diễn các biến của vấn đề
Tạo quần thể ban đầu
Xác định hàm thích nghi của vấn đề, xác định giá trị thích nghi của các cá thể
Thực hiện các phương thức tiến hoá
Mô tả thuật giải :
1 Khởi tạo :
Đọc bảng quyết định ;
Định nghĩa độ đo tương tự ;
Tạo quần thể ban đầu : Lấy các ngưỡng ban đầu trong khoảng [0,1];
Tính độ thích nghi của quần thể ban đầu ;
2 Tiến hành thuật giải di truyền
while ( not( điều kiện kết thúc )) { Tạo sinh; Lai ghép; Đột biến;
Tính hàm thích nghi của quần thể mới }
3 Xác định giá trị ngưỡng tương tự tối ưu
Trang 222.8.1 Đặt vấn đề
2.8.2 Biểu diễn các biến
2.8.3 Phát sinh quần thể ban đầu
2.8.6 Mô tả thuật giải
2.8.7 Minh họa thuật giải
2.9 Phân lớp dữ liệu vào thuật giải di truyền và tập thô dung sai
2.9.1 Mô tả thuật giải
Đó là sự áp dụng thuật giải di truyền để tìm giá trị ngưỡng tương tự tối ưu, sau đó sử dụng thuật giải phân lớp gồm 2 giai đoạn để phân lớp dữ liệu Tiến trình mô tả như sau: Bước 1 :Dùng thuật giải di truyền để xác định ngưỡng tương tự tối ưu
Bước 2 : Sử dụng thuật giải phân lớp gồm 2 giai đoạn
để chia phân lớp dữ liệu
Trang 23Sơ đồ sau mô tả phương pháp phân lớp 2 giai đoạn dựa vào thuật giải di truyền và tập thô dung sai :
Hình 2.4 : Sơ đồ mô tả phương pháp phân lớp 2 giai đoạn dựa vào thuật giải di truyền và tập thô dung sai
Trang 242.9.2 Nhận xét :
Khi sử dụng giá trị ngưỡng tối ưu tìm được bằng thuật giải di truyền để làm đầu vào cho thuật giải phân lớp, chưa chắc ta đã có kết quả phân lớp tốt theo nghĩa có ít phân tử không phân lớp được Tuy nhiên bằng cách xử lý tiếp theo là chọn giá trị lớn nhất cho mỗi thành phần trong bộ ngưỡng tối
ưu trong nhiều lần thực hiên, kết quả thu được thường tốt