Giải thuật di truyền và ứng dụng đối với bài toán xác định công thức hồi quy trong thí nghiệm hóa sinh

Về mặt toán học việc xác định quan hệ thống kê này thường đưa đến việc xác định các tham số chưa biết thông qua một bài toán cực trị được mô tả bằng phương pháp bình phương tối thiểu và

Trang 1

LỜI CAM ĐOAN Sau quá trình học tập tại Trường Đại học công nghệ thông tin & truyền thông, với những kiến thức lý thuyết và thực hành đã tích lũy được, với việc vận

dụng các kiến thức vào thực tế, em đã tự nghiên cứu các tài liệu, các công trình nghiên cứu, đồng thời có sự phân tích, tổng hợp, đúc kết và phát triển để hoàn thành luận văn thạc sĩ của mình

Em xin cam đoan luận văn này là công trình do bản thân em tự tìm hiểu,

nghiên cứu và hoàn thành dưới sự hướng dẫn của thầy giáo TS Vũ Vinh Quang

Thái Nguyên, tháng 5 năm 2015

Học viên

Lương Thị Thu Hà

Trang 2

LỜI CÁM ƠN

Trong thời gian hai năm của chương trình đào tạo thạc sỹ, trong đó gần một nửa thời gian dành cho các môn học, thời gian còn lại dành cho việc lựa chọn đề tài, giáo viên hướng dẫn, tập trung vào nghiên cứu, viết, chỉnh sửa và hoàn thiện đề tài Với quỹ thời gian như vậy và với vị trí công việc đang phải đảm nhận, không riêng bản thân em mà hầu hết các sinh viên cao học muốn hoàn thành tốt luận văn của mình trước hết đều phải có sự sắp xếp thời gian hợp lý, có sự tập trung học tập và nghiên cứu với tinh thần nghiêm túc, nỗ lực hết mình; tiếp đến cần có sự ủng hộ về tinh thần,

sự giúp đỡ về chuyên môn một trong những điều kiện không thể thiếu quyết định đến việc thành công của đề tài

Để hoàn thành được đề tài này trước tiên em xin gửi lời cảm ơn đến thầy

giáo hướng dẫn TS Vũ Vinh Quang, người đã có những định hướng cho em về

nội dung và hướng phát triển của đề tài, người đã có những đóng góp quý báu cho em về những vấn đề chuyên môn của đề tài, giúp em tháo gỡ kịp thời những vướng mắc trong quá trình làm luận văn

Em xin gửi lời cảm ơn tới các Cán bộ nghiên cứu thuộc Viện Hóa sinh biển thuộc Viện Hàn lâm khoa học và Công nghệ Việt Nam đã cung cấp đầy đủ các số liệu thu được từ các phòng thí nghiệm tại Viện để giúp đỡ Em tiến hành các thí nghiệm thành công

Em cũng xin cảm ơn các Thầy Cô giáo Trường Đại học Công nghệ thông tin và Truyền thông Thái Nguyên, cũng như bạn bè cùng lớp đã có những ý kiến đóng góp bổ sung cho đề tài luận văn của em Xin cảm ơn gia đình, người thân cũng như đồng nghiệp luôn quan tâm, ủng hộ hỗ trợ về mặt tinh thần trong suốt thời gian từ khi nhận đề tài đến khi hoàn thiện đề tài này

Trong nội dung của luận văn chắc chắn còn nhiều thiếu sót Em rất mong các Thầy Cô cùng bạn bè đóng góp để bản luận văn của Em được hoàn thiện hơn

Em xin trân trọng cảm ơn

Thái Nguyên, tháng 5 năm 2015

Học viên

Lương Thị Thu Hà

Trang 3

MỤC LỤC

LỜI MỞ ĐẦU 6

Chương 1 CÁC KIẾN THỨC CƠ BẢN VỀ HÀM HỒI QUY THỰC NGHIỆM 8 1.1 Khái niệm cơ bản về hàm nội suy 8

1.1.1 Đa thức nội suy 9

1.1.2 Đa thức nội suy Lagrange 10

1.1.3 Hàm ghép trơn (Spline) 11

1.1.4 Nội suy bằng hàm hữu tỉ 13

1.2 Bài toán hồi quy 13

1.2.1 Phương pháp bình phương cực tiểu 14

1.2.2 Hàm hồi quy tuyến tính 15

1.2.3 Hàm hồi quy bậc 2 16

1.2.4 Các phương pháp đưa về dạng tuyến tính 16

1.2.5 Hồi quy nhiều chiều (hồi quy bội) 17

Chương 2 MỘT SỐ KIẾN THỨC CƠ BẢN VỀ GIẢI THUẬT DI TRUYỀN 19

2.1 Các khái niệm cơ bản 20

2.1.1 Cá thể, nhiễm sắc thể 20

2.1.2 Quần thể 20

2.1.3 Chọn lọc 20

2.1.4 Lai ghép (Cross-over) 21

2.1.5 Đột biến (Mutation) 21

2.1.6 Các tham số của GA 22

2.2 Cơ chế thực hiện của thuật toán di truyền 23

2.2.1 Mã hóa 23

2.2.2 Khởi tạo quần thể ban đầu 25

2.2.3 Xác định hàm thích nghi 25

2.2.4 Cơ chế lựa chọn 25

2.2.5 Các toán tử di truyền 27

2.3 Thuật toán di truyền kinh điển (GA) 28

2.3.1 Mã hóa 28

Trang 4

2.3.2 Toán tử chọn lọc 29

2.3.3 Toán tử lai ghép 30

2.3.4 Toán tử đột biến 31

2.4 Thuật toán di truyền mã hoá số thực (RCGA) 33

2.5 Một số ứng dụng của GA 39

Chương 3 BÀI TOÁN MÔ PHỎNG QUÁ TRÌNH CHIẾT XUẤT DUNG MÔI 42

3.1 Mô hình bài toán 42

3.2 Xây dựng mô hình GA 45

3.2.1 Phương pháp biểu diễn cá thể 45

3.2.2 Xác định hàm thích nghi 46

3.2.3 Các toán tử di truyền 46

3.2.4 Quá trình khởi tạo quần thể 47

3.3 Kết quả thực nghiệm 48

KẾT LUẬN 53

TÀI LIỆU THAM KHẢO 54

PHẦN PHỤ LỤC 55

Trang 5

DANH MỤC HÌNH

Hình 2.1 Sơ đồ mô tả GA 21

Hình 2.2 Lai ghép CMX 37

Hình 2.3 Phân bố của ci j x 37

Hình 2.4 Toán tử lai ghép SX 38

Hình 3.1 Thiết bị thí nghiệm chiết xuất dung môi 42

Hình 3.2 Biểu đồ biểu diễn giá trị của hàm 50

Hình 3.3 Biểu đồ biểu diễn giá trị của hàm 52

Trang 6

LỜI MỞ ĐẦU Trong khoa học thực nghiệm, thông qua các kết quả thực nghiệm một vấn

đề rất quan trọng là xuất phát từ các bộ số liệu thực nghiệm hay còn gọi là các mốc hồi quy, ta cần phải xác định một quan hệ thống kê giữa các đối tượng sao cho quan hệ này là xấp xỉ tốt nhất ứng với các mốc hồi quy đã xác định Về mặt toán học việc xác định quan hệ thống kê này thường đưa đến việc xác định các tham số chưa biết thông qua một bài toán cực trị được mô tả bằng phương pháp bình phương tối thiểu và chuyển bài toán về việc giải các hệ phương trình đại số tuyến tính hoặc các hệ phi tuyến tính Đối với các bài toán này thì khối lượng tính toán là tương đối lớn đối với các hệ đại số tuyến tính còn đối với các hệ phi tuyến thì đại đa số chúng ta không thể xác định được nghiệm của hệ

Thuật giải di truyền GA (Genetic Algorithm) là một trong những kỹ thuật tìm kiếm lời giải tối ưu đã đáp ứng được yêu cầu của nhiều bài toán và ứng dụng Điểm mạnh của GA là cho phép xác định lời giải gần tối ưu của các bài toán cực trị thông qua các phép toán lai ghép và chọn lọc các phương án của bài toán với

cơ chế hết sức đơn giản nhưng rất hiệu quả Trong công nghệ thông tin hiện nay, giải thuật GA kết hợp với logic mờ, mạng Nơron đã được ứng dụng nhiều trong lớp các bài toán NP

Xuất phát từ lý do đó, đề tài đặt vấn đề nghiên cứu về GA và ứng dụng trong việc xác định các công thức hàm hồi quy, ứng dụng vào bài toán xác định công thức gần đúng trong thí nghiệm hóa sinh

Với những lý do trên, em chọn đề tài: “Giải thuật di truyền và ứng dụng đối với bài toán xác định công thức hồi quy trong thí nghiệm hóa sinh” làm

luận văn tốt nghiệp

Nội dung chính của luận văn gồm 3 chương bao gồm:

Chương 1: Trình bày cơ sở toán học trong việc xác định công thức hàm

nội suy và hàm hồi quy cùng các thuật toán tương ứng, đây là một lĩnh vực quan trọng của toán học đối với lớp các bài toán thực nghiệm nhằm xây dựng các công thức gần đúng miêu tả mối ràng buộc giữa các số liệu xuất hiện trong các thí

Trang 7

nghiệm tại các phòng thí nghiệm Các kiến thức này là rất cần thiết làm cơ sở để nghiên cứu các nội dung trong luận văn

Chương 2: Trình bày các kiến thức cơ bản về giải thuật di truyền, một

trong những giải thuật đã và đang được phát triển trong công nghệ thông tin giải quyết các bài toán tối ưu hóa theo tư tưởng quần thể ngẫu nhiên Thuật toán GA chính là cơ sở để xây dựng thuật toán giải bài toán thực tế được đưa ra trong

Trong luận văn, các kết quả thực nghiệm được lập trình trên môi trường

Matlab version 7.0

Trang 8

Chương 1 CÁC KIẾN THỨC CƠ BẢN VỀ HÀM HỒI QUY THỰC NGHIỆM

Trong chương này, luận văn trình bày một số kiến thức cơ bản về cơ sở toán học trong việc xây dựng các hàm công thức hàm nội suy và hàm hồi quy Các kiến thức này làm cơ sở trong việc nghiên cứu các chương tiếp sau của luận văn, các kết quả trong chương 1 được tham khảo trong các tài liệu [ 1, 2, 3, 4, 5]

1.1 Khái niệm cơ bản về hàm nội suy

Chúng ta xét một dạng bài toán xuất phát từ các số liệu thực nghiệm sau: Cho trước (n + 1) cặp các giá trị thực nghiệm ( , ),x y i i i = 0,1, ,n

Tức là đồ thị của hàm ( ) cần đi qua tất cả các mốc nội suy

Nếu hàm ( ) tồn tại thì hàm số đó được gọi là hàm hồi quy và bài toán xác định ( ) được gọi là bài toán nội suy

Bài toán này rất có ý nghĩa trong thực tế vì nếu xác định được hàm ( ) thì ta có thể xác định được mọi giá trị của y ứng với mọi x Î êéëx x0, nùúû - các giá trị đó được gọi là các giá trị nội suy

Trong toán học, người ta thường xác định dạng hàm ( ) bởi một trong các dạng công thức hàm số sau đây:

Trang 9

Sau đây chúng ta sẽ xét cơ sở toán học của các phương pháp xác định hàm hồi quy trong từng trường hợp cụ thể

1.1.1 Đa thức nội suy

dễ thấy rằng các hệ số a k k, = 0, 1, ,n sẽ được xác định thông qua hệ phương trình đại số tuyến tính sau đây:

Nhận xét: Để xác định đa thức nội suy theo phương pháp đại số, ta cần

phải giải hệ phương trình đại số tuyến tính với n 1 ẩn a k k, = 0,1, ,n Khi

đó về mặt toán học, chúng ta cần phải sử dụng các phương pháp giải các hệ phương trình đại số tuyến tính như phương pháp Krame, phương pháp khử Gauss, … với độ phức tạp tính toán rất cao Điều này sẽ bất lợi trong việc xác định đa thức nội suy với số mốc nội suy là rất lớn

Sau đây chúng ta sẽ tìm hiểu các phương pháp xác định đa thức nội suy tránh được việc giải hệ đại số tuyến tính

Trang 10

1.1.2 Đa thức nội suy Lagrange

Định nghĩa: Đa thức bậc n thỏa mãn tính chất

1,( )

0,

k k

Trang 11

Trong đó giá trị của nhân tử L x k( ) được xác định bởi công thức (1.4)

Dễ thấy rằng đối với thuật toán trên thì độ phức tạp của thuật toán là O(n2) Nếu kí hiệu ( ) là hàm nghiệm đúng thì bằng cơ sở của toán học giải tích, chúng ta có thể chứng minh rằng sai số của phép nội suy được đánh giá bằng công thức

1.1.3 Hàm ghép trơn (Spline)

Khi sử dụng đa thức nội suy, khi số mốc nội suy là lớn thì dẫn tới bậc của

đa thức là rất lớn, điều này không thuận tiện cho quá trình tính toán và sai số có thể là tăng lên Để khắc phục nhược điểm này, người ta có thể sử dụng phương pháp ghép các đa thức bậc thấp lại với nhau để thu được một đường cong trơn Hàm trơn trên toàn đoạnéêx x0, nùú

ë û được gọi là hàm ghép trơn (Spline)

Sau đây chúng ta sẽ trình bày phương pháp hàm ghép trơn bằng việc sử dụng các đa thức bậc ba S3(x) để xây dựng hàm ghép trơn bậc 3

Xét đoạn D = êi éëx i-1,x iùúû, chúng ta xét các đa thức bậc 3 được biểu diễn dưới dạng

Trang 12

2 1

Như vậy các hệ thức (1.10) - (1.12) lập thành hệ 4n-2 phương trình với 4n

ẩn số Để thêm vào 2 phương trình nữa, người ta đặt thêm điều kiện đạo hàm của ( )

S x tại 2 mút biên x x0, n

Chẳng hạn xét điều kiện S”(x1 ) = S ” (x n ) = 0 được gọi là điều kiện biên tự

nhiên, khi đó ta có

c 1 = 0, c n + 3d n h n = 0 (1.13) Như vậy ta có đủ 4n phương trình để xác định 4n ẩn

Do các hệ số ai đã được xác định bởi phương trình (1.10) nên ta chỉ cần xác định các ẩn bi, ci, di qua hệ 3n phương trình Qua các phép biến đổi ta có hệ sau đây:

1

( 1, 2, , )3

Trang 13

Đánh giá sai số: Nếu kí hiện ( ) là hàm nghiệm đúng S x( )là hàm ghép trơn thì có thể chứng minh rằng sai số được đánh giá qua công thức

Nhận xét: Việc xác định hàm hồi quy bằng phương pháp hàm ghép trơn

có ưu điểm là việc tính toán được chuyển về việc giải hệ đại số bằng thuật toán truy đuổi 3 đường chéo Tuy nhiên độ phức tạp của thuật toán chỉ tương đương với O h( 3)

1.1.4 Nội suy bằng hàm hữu tỉ

k k k

a x x

Hệ phương trình đại số trên là hệ phương trình đối với các ẩn a0,a1, …,

am,b0,b1,…,bn-2 Như vậy, để xác định hàm nội suy hữu tỉ thì ta phải giải hệ phương trình đại số tuyến tính với (n+m+1) ẩn

1.2 Bài toán hồi quy

Đặt vấn đề:

Trang 14

Khi xét bài toán nội suy, ta đã giả thiết rằng mối quan hệ giữa đại lượng

0 1

( , , , n)

x x x x và y y y( , , ,0 1 y n) là tồn tại với quan hệ y = f x( ) Việc xác định đa thức nội suy chẳng hạn P x n( ) thỏa mãn điều kiện P x n( k) f x( k)k Tuy nhiên trong trường hợp khi x và y là các đại lượng ngẫu nhiên, chẳng hạn là các kết quả của các phương pháp đo đạc trọng địa chất hay các số liệu quan trắc môi trường hoặc số liệu của các thí nghiệm hóa sinh, mối quan hệ giữa x và y (Hay còn gọi là mối tương quan) là chưa đánh giá được thì việc xác định đa thức nội suy là không thực tế và khó thực hiện Trong những trường hợp như vậy, người

ta thường sử dụng phương pháp dự đoán tức là mong muốn xác định một hàm gần đúng với quy luật của các số liệu thực nghiệm tức là giá trị của hàm cần đảm bảo lệch ít nhất so với các số liệu thực nghiệm, các hàm như vậy được gọi là các hàm hồi quy

Sau đây chúng ta đưa ra một số kết quả về mặt toán học thực nghiệm đối với lớp các hàm hồi quy

1.2.1 Phương pháp bình phương cực tiểu

Giả sử chúng ta có n cặp các giá trị thực nghiệm ( , ),x y i i i = 1, 2, ,n

đối với các đối tượng ngẫu nhiên x và y

Trang 15

1.2.2 Hàm hồi quy tuyến tính

Chúng ta tìm hàm hồi quy dưới dạng tuyến tính bậc nhất

Trang 16

2 1

k n

Hệ (1.22) chính là hệ phương trình đại số cho phép xác định ra các hệ số

a, b, c Hoàn toàn tương tự, chúng ta có thể xác định được các hàm hồi quy bậc 3, bậc 4, bậc 5 …

1.2.4 Các phương pháp đưa về dạng tuyến tính

1/ Dạng hàm mũ f ae bx, (c 0 )

Trang 18

Kết luận chương 1

Nội dung chính của chương 1 luận văn trình bày cơ sở lý thuyết về bài toán nội suy, các phương pháp xây dựng các hàm nội suy cơ bản như hàm nội suy Lagrange, nội suy bằng hàm ghép trơn cũng như phân tích độ phức tạp tính toán trong việc xây dựng các hàm nội suy Luận văn cũng đưa ra khái niệm về hàm hồi quy thực nghiệm cũng như cơ sở toán học của phương pháp bình phương cực tiểu trong việc xác định hàm hồi quy Đây là các kiến thức quan trọng làm cơ sở cho việc nghiên cứu các kết quả trong chương 2 và chương 3 của luận văn

Trang 19

Chương 2 MỘT SỐ KIẾN THỨC CƠ BẢN VỀ GIẢI THUẬT DI TRUYỀN

Trong công nghệ thông tin, GA là một thành phần của Tính toán tiến hóa (Evolutionary computation - EC), một lĩnh vực được coi là có tốc độ phát

triển nhanh của trí tuệ nhân tạo Có thể chia EC thành 5 hướng nghiên cứu sau:

- GA (Genetic Algorithm - GA): Dựa vào quá trình di truyền trong tự

nhiên để cải tiến lời giải qua các thế hệ bắt nguồn từ một tập các lời giải ban đầu

- Quy hoạch tiến hoá (Evolutionary Programming - EP): Dựa vào quy

luật tiến hoá, tìm phương pháp kết hợp đủ khả năng giải quyết trọn vẹn một bài toán từ một lớp các phương pháp giải quyết được một số phần của bài toán

- Các chiến lược tiến hoá (Evolutionary Strategies - ES): Dựa trên một số

chiến lược ban đầu, tiến hoá để tạo ra những chiến lược mới phù hợp với môi trường thực tế một cách tốt nhất

- Lập trình Gen (Genetic Programming - GP): Mở rộng GA trong lĩnh

vực các chương trình của máy tính Mục đích của nó là để sinh ra một cách tự động các chương trình máy tính giải quyết một cách tối ưu một vấn đề cụ thể

- Các hệ thống phân loại (Classifier Systems- CS): Các GA đặc biệt được

dùng trong việc học máy và việc phát hiện các quy tắc trong các hệ dựa trên các quy tắc

GA cũng như các thuật toán tiến hoá đều được hình thành dựa trên một quan niệm được coi là một tiên đề phù hợp với thực tế khách quan Đó là quan

niệm “Quá trình tiến hoá tự nhiên là quá trình hoàn hảo nhất, hợp lý nhất và tự

nó đã mang tính tối ưu” Quá trình tiến hoá thể hiện tính tối ưu ở chỗ thế hệ sau

bao giờ cũng tốt hơn thế hệ trước

Sự hình thành và phát triển của GA trên thế giới có thể được điểm qua các mốc thời gian quan trọng như sau:

Năm 1960, ý tưởng đầu tiên về Tính toán tiến hoá được Rechenberg giới

thiệu trong công trình “Evolution Strategies” (Các chiến lược tiến hoá) Ý tưởng này sau đó được nhiều nhà nghiên cứu phát triển

Trang 20

Năm 1975, Giải thuật gen do John Holland phát minh và được phát triển

bởi ông cùng với các đồng nghiệp và những sinh viên Cuốn sách “Adaption in Natural and Artificial Systems" (Sự thích nghi trong các hệ tự nhiên và nhân tạo)

đã tổng hợp các kết quả của quá trình nghiên cứu và phát triển đó

Năm 1992, John Koza đã dùng GA để xây dựng các chương trình giải

quyết một số bài toán và gọi phương pháp này là “Lập trình gen”

Ngày nay GA càng trở nên quan trọng, đặc biệt là trong lĩnh vực tối ưu hoá, một lĩnh vực có nhiều bài toán thú vị, được ứng dụng nhiều trong thực tiễn nhưng thường khó và chưa có giải thuật hiệu quả để giải

Sau đây luận văn sẽ trình bày các kiến thức cơ bản về GA

2.1 Các khái niệm cơ bản

Bài toán: Cho f(x1, x2,…,xn) tiến về min hoặc max Trong đó (x1, x2,…,xn) thuộc vào miền D của không gian Rn

GA chính là cách chọn các cá thể có độ thích nghi tốt để đưa vào thế hệ tiếp theo

Trang 21

hoặc để cho lai ghép, với mục đích là sinh ra các cá thể mới tốt hơn Có nhiều cách để lựa chọn nhưng cuối cùng đều nhằm đáp ứng mục tiêu là các cá thể tốt

sẽ có khả năng được chọn cao hơn

2.1.4 Lai ghép (Cross-over)

Lai ghép trong tự nhiên là sự kết hợp các tính trạng của bố mẹ để sinh ra thế hệ con Trong GA, lai ghép được coi là một sự tổ hợp lại các tính chất (thành phần) trong hai lời giải cha mẹ nào đó để sinh ra một lời giải mới mà có đặc tính mong muốn là tốt hơn thế hệ cha mẹ Đây là quá trình xảy ra chủ yếu trong GA

2.1.5 Đột biến (Mutation)

Đột biến là một sự biến đổi tại một (hay một số) gen của NST ban đầu để tạo ra một NST mới Đột biến có xác suất xảy ra thấp hơn lai ghép Đột biến có thể tạo ra một cá thể mới tốt hơn hoặc xấu hơn cá thể ban đầu Tuy nhiên trong

GA thì ta luôn muốn tạo ra những phép đột biến cho phép cải thiện lời giải qua từng thế hệ

Với các khái niệm được giới thiệu ở trên, GA được mô tả bởi sơ đồ sau:

Hình 2.1 Sơ đồ mô tả GA

Trang 22

1 Xác lập các tham số ban đầu của bài toán

2 Khởi tạo: Sinh ngẫu nhiên một quần thể gồm n cá thể (là n lời giải ban

đầu của bài toán)

3 Xác lập quần thể mới: tạo quần thể mới bằng cách lặp lại các bước sau

cho đến khi quần thể mới hoàn thành, bao gồm:

3.1 Tính độ thích nghi của mỗi cá thể

3.2 Kiểm tra điều kiện kết thúc giải thuật

3.3 Chọn lọc các cá thể bố mẹ từ quần thể cũ theo độ thích nghi của chúng (cá thể có độ thích nghi càng cao thì càng có nhiều khả năng được chọn)

3.4 Tiến hành lai ghép các cặp bố-mẹ với một xác suất lai ghép được chọn

để tạo ra một cá thể mới hoặc nhiều cá thể mới

3.5 Tiến hành đột biến với xác suất đột biến được chọn xác định là cá thể đột biến

4 Kiểm tra điều kiện dừng: Nếu điều kiện được thỏa mãn thì thuật toán

kết thúc và trả về lời giải tốt nhất chính là quần thể hiện tại

2.1.6 Các tham số của GA

Kích thước quần thể

Kích thước quần thể cho biết có bao nhiêu cá thể trong một quần thể (trong một thế hệ) Qua các nghiên cứu cũng như các thử nghiệm đã cho thấy kích thước quần thể không nên quá bé cũng như không quá lớn Nếu có quá ít cá thể thì ít có khả năng thực hiện lai giống và chỉ một phần nhỏ không gian tìm kiếm được dùng Như vậy sẽ dễ xảy ra trường hợp bỏ qua các lời giải tốt Nhưng quá nhiều cá thể cũng không tốt vì GA sẽ chạy chậm đi, ảnh hưởng đến hiệu quả của giải thuật Các nghiên cứu cũng đã chỉ ra không có lợi khi tăng kích thước quần thể lên quá một giới hạn cho phép

Xác suất lai ghép

Xác suất lai ghép cho biết việc lai ghép tạo ra thế hệ mới được thực hiện

thường xuyên như thế nào Nếu xác suất lai ghép là p c, khi đó khả năng để một

cá thể được lai ghép là p c Nếu không thực hiện lai ghép, con sinh ra sẽ giống

Trang 23

hoàn toàn bố mẹ Nếu được lai ghép, con sinh ra sẽ có một phần giống bố và một phần giống mẹ

Xác suất đột biến

Xác suất đột biến cho biết các gen của NST thay đổi thường xuyên như thế

nào Nếu xác suất đột biến là p m, khi đó khả năng để mỗi gen của một NST bất kỳ

bị đột biến là p m Toán tử đột biến có tác dụng ngăn ngừa GA rơi vào tình trạng cực trị địa phương, tuy nhiên nếu thực hiện đột biến với xác suất quá cao sẽ biến

GA thành giải thuật tìm kiếm ngẫu nhiên

Nhận xét:

Xuất phát từ sơ đồ thực hiện GA, chúng ta có thể có một số nhận xét sau: + GA lập luận mang tính chất ngẫu nhiên để tìm giải pháp tối ưu cho những vấn đề phức tạp, thay vì xác định như toán học giải tích Tuy nhiên đây là hình thức ngẫu nhiên có hướng dẫn bởi trị số thích nghi Chính hàm thích nghi giúp GA tìm giải pháp tối ưu trong rất nhiều giải pháp có thể có

+ GA không để ý đến chi tiết vấn đề, trái lại chỉ chú ý đến giải pháp cho vấn đề, hay tìm điều kiện tối ưu cho việc điều hành và phân nhóm những giải pháp có được

+ GA được sử dụng đặc biệt cho những bài toán yêu cầu tìm kiếm tối ưu toàn cục với không gian tìm kiếm lớn và không thể kiểm soát nhờ khả năng duyệt qua không gian tìm kiếm đại diện mà không thực sự đi qua từng điểm của toàn

Trang 24

+ Mã hoá nhị phân

Mã hoá nhị phân là phương pháp mã hoá NST phổ biến nhất Trong mã hoá nhị phân, mỗi NST là một chuỗi nhị phân, mỗi bit trong nó có thể biểu diễn một đặc tính của nghiệm

Mã hoá nhị phân thường hay dùng trong các bài toán tối ưu các hàm một biến hay nhiều biến Khi đó, mỗi chuỗi nhị phân sẽ biểu diễn hàm tại một tập giá trị của các biến Ngoài ra nó còn được áp dụng trong nhiều loại bài toán khác

Mã hoá nhị phân tuy là phổ biến nhưng nó có một nhược điểm là có thể tạo ra không gian mã hoá lớn hơn so với không gian giá trị của NST Do đó, với nhiều bài toán thì biểu diễn nhị phân là không hữu hiệu

+ Mã hoá hoán vị

Trong mã hoá hoán vị, mỗi NST là một chuỗi các số biểu diễn một thứ tự sắp xếp Mã hoá hoán vị phù hợp cho các bài toán liên quan đến thứ tự Đối với các bài toán này, việc thao tác trên các NST chính là hoán vị các số trong chuỗi

đó làm thay đổi thứ tự của nó Mã hoá hoán vị có thể được sử dụng trong các bài toán liên quan đến thứ tự như bài toán du lịch hay bài toán lập lịch

+ Mã hoá số thực

Mã hoá trực tiếp theo giá trị có thể được dùng trong các bài toán sử dụng giá trị phức tạp như trong số thực Trong đó, mỗi NST là một chuỗi các giá trị Các giá trị có thể là bất cứ cái gì liên quan đến bài toán, từ số nguyên, số thực, kí

tự cho đến các đối tượng phức tạp hơn

Mã hoá số thực thường dùng cho các bài toán đặc biệt Trong cách mã hoá này ta thường phải phát triển các toán tử đột biến và lai ghép cho phù hợp với từng bài toán Thông thường mỗi NST được mã hóa là một vector trong không gian Cách mã hóa này thường sử dụng đối với các bài toán tối ưu số và được phát triển mạnh trong giai đoạn hiện nay

+ Mã hóa dạng cây

Phương pháp này được sử dụng trong các biểu thức toán học Mỗi NST là

một cây của một nhóm đối tượng nào đó

Trang 25

2.2.2 Khởi tạo quần thể ban đầu

Khởi tạo quần thể ban đầu là bước đầu tiên trong GA Thông thường để khởi tạo quần thể trong bài toán tối ưu, ta tạo ra một cách ngẫu nhiên các lời giải

có thể (thường là các lời giải thỏa mãn ràng buộc của bài toán nhưng chưa biết là đại lượng cần tối ưu đã là tối ưu hay chưa) Tuỳ vào từng bài toán cụ thể mà ta có các phương pháp khởi tạo khác nhau Chất lượng của quần thể ban đầu càng cao thì lời giải mà GA đưa ra càng tốt

2.2.3 Xác định hàm thích nghi

Theo các nghiên cứu và các thử nghiệm của nhiều nhà nghiên cứu về GA thì hàm tính độ thích nghi là một trong hai yếu tố quan trọng nhất quyết định sự thành công hay thất bại của GA Hàm thích nghi được xây dựng sao cho giá trị thích nghi phải phản ánh được giá trị thực của NST trong việc đáp ứng yêu cầu của bài toán

2.2.4 Cơ chế lựa chọn

Cơ chế lựa chọn được áp dụng khi chọn các cá thể từ quần thể P (t)để thực hiện việc lai ghép và đột biến, tạo ra quần thể P( t 1 ) Có nhiều cách để lựa chọn các cá thể từ một quần thể Sau đây sẽ giới thiệu một số cơ chế hay áp dụng

Ta sử dụng các kí hiệu như sau:

- Kí hiệu NST thứ i là v i

- Hàm tính độ thích nghi của NST v i là f(v i)

- Kích thước quần thể là pop_size()

- Số NST cần chọn là N

+ Cơ chế lựa chọn theo bánh xe Roulette

Bước 1: Tính tổng độ thích nghi của cả quần thể: 



size pop

i i

v f F

_

1

)(

Bước 2: Tính xác suất chọn p i cho mỗi NST v i :

F

v f

i

)(

q

1

Trang 26

Bước 4: Sử dụng cơ chế lựa chọn theo bánh xe Roulette được thực hiện

bằng cách quay bánh xe Roulette N lần Mỗi lần chọn một NST từ quần thể hiện

hành vào quần thể mới theo nguyên tắc:

- Phát sinh ngẫu nhiên một số r trong khoảng [0, 1]

- Nếu r  q1 thì chọn NST v1; ngược lại thì chọn NST thứ i (2  i  pop_size) sao cho q i1rq i

Với cơ chế lựa chọn như thế này thì có một số nhiếm sắc thể sẽ được chọn

nhiều lần Điều này phù hợp với lý thuyết lược đồ: Các NST tốt nhất thì có nhiều bản sao, NST trung bình thì không đổi, NST kém thì chết đi

+ Cơ chế lựa chọn xếp hạng

Cơ chế lựa chọn xếp hạng được mô tả như sau:

Bước 1: Ta sắp xếp các NST trong quần thể theo độ thích nghi từ thấp cho

đến cao

Bước 2: Đặt lại độ thích nghi cho quần thể đã sắp xếp theo kiểu: NST thứ

nhất có độ thích nghi là 1, NST thứ hai có độ thích nghi là 2,.v.v., NST thứ

pop_size có độ thích nghi là pop_size

Theo phương pháp này việc một NST được chọn nhiều lần như trong lựa chọn theo kiểu bánh xe Roulette đã giảm đi Nhưng nó có thể dẫn đến sự hội tụ chậm và NST có độ thích nghi cao cũng không khác mấy so với các NST khác

+ Cơ chế lựa chọn theo lấy mẫu

Cơ chế lựa chọn theo mẫu được thực hiện như sau:

Bước 1: Biểu diễn xác suất chọn các NST lên trên một đường thẳng

Bước 2: Đặt N điểm chọn lên đường thẳng Các điểm chọn này cách nhau

N

1

, điểm đầu tiên đặt ngẫu nhiên trong khoảng [ 0 , 1]

N

Bước 3: Với một điểm chọn, NST gần nó nhất về bên phải sẽ được chọn

Phương pháp này có đặc điểm là các điểm chọn được phân bố đều trên trục số, do đó sẽ gần với điểm xứng đáng được chọn

Trang 27

2.2.5 Các toán tử di truyền

Các toán tử di truyền của GA là toán tử lai ghép và đột biến Đây là hai toán tử có tác động lớn đến chất lượng của giải thuật Các toán tử này được xây dựng phụ thuộc vào cách mã hoá các NST Ở đây chỉ đưa ra toán tử lai ghép và đột biến trên một số cách mã hoá NST để chỉ ra được ý tưởng xây dựng toán tử lai ghép và đột biến trong GA Còn tuỳ thuộc vào các bài toán cụ thể và cách mã hoá NST mà ta xây dựng hai loại toán tử này

Toán tử lai ghép

+ Lai ghép đơn điểm:

- Một điểm cắt được chọn tại một vị trí thứ k trên NST

- Từ đầu NST đến vị trí thứ k, NST con sao chép từ cha, phần còn lại sao

chép từ mẹ

Với NST cha: X = 11001010, NST mẹ Y = 11101001

Con sinh ra do lai ghép đơn (điểm cắt k=4):

Con : 1100 | 1001

+ Lai ghép hai điểm:

- Hai điểm cắt được chọn

- Từ đầu cho đến điểm cắt thứ nhất được sao chép từ cha, từ điểm cắt thứ nhất đến điểm cắt thứ hai sao chép từ mẹ và phần còn lại sao chép từ cha

Mẹ: 10101001

Trang 28

+Phép đảo bit : Bit được chọn sẽ bị đảo (Bit được chọn có gạch chân)

Nếu trước đột biến: 11011001

Sử dụng vector nhị phân có độ dài L như một NST để biểu diễn giá trị của

biến x [l x,u x] (độ dài L của NST phụ thuộc vào yêu cầu cụ thể của bài toán)

Một bit mã hóa x ứng với một giá trị trong khoảng [0, 2L] sẽ được ánh xạ lên giá trị thực thuộc miền [l x,u x]

Tỷ lệ co giãn của ánh xạ: g u x L l x

2



 Giá trị x tương ứng với chuỗi NST nhị phân là:

g NST decimal l

Decimal(NST) là giá trị thập phân của chuỗi NST nhị phân

Để khởi tạo quần thể chỉ cần tạo pop-size (kích cỡ quần thể) NST ngẫu

nhiên theo từng bit Tiếp theo, lượng giá từng NST (tính giá trị hàm f trên các

chuỗi biến nhị phân đã được giải mã), chọn quần thể mới thỏa mãn phân bố xác suất dựa trên độ thích nghi và thực hiện các phép đột biến và lai tạo để tạo các cá

Trang 29

thể thế hệ mới Sau một số thế hệ, nếu không được cải thiện thêm gì nữa, NST tốt nhất sẽ được xem như lời giải tối ưu (thường là toàn cục) Thông thường sẽ cho dừng thuật giải di truyền sau một số bước lặp cố định tùy thuộc vào điều kiện về tốc độ hay tài nguyên máy tính

2.3.2 Toán tử chọn lọc

a/ Sử dụng bánh xe Roulette

Có nhiều cách để thực hiện toán tử chọn lọc, chủ yếu theo cách nếu các thể có độ thích nghi cao hơn thì khả năng được chọn nhiều hơn Tuy nhiên, để đơn giản và hiệu quả nhất là sử dụng bánh xe Roulette

Mỗi cá thể trong quần thể chiếm một khe có độ rộng tỷ lệ thuận với giá trị phù hợp Độ rộng của khe được tính bằng tỷ lệ % giá trị phù hợp của một cá thể trên tổng giá trị phù hợp toàn quẩn thể

Giả sử f i là độ phù hợp của cá thể thứ i trong quần thể gồm N cá thể Khi

đó, cá thể i sẽ được chọn với xác suất





i i

i i f

f p

1

b/ Thủ tục xếp hạng các cá thể

Trong thủ tục này các cá thể được sắp xếp theo giá trị của hàm mục tiêu

Cá thể đầu tiên là các thể tốt nhất, cá thể cuối cùng là cá thể tồi nhất

Cá thể thứ (N  j) trong dãy có xác suất chọn lựa:

k

j p

Trong thủ tục này cách tiến hành như sau:

- Chọn t cá thể từ quần thể hiện tại một cách ngẫu nhiên và chọn cá thể tốt nhất trong t cá thể đó để sao chép sang quần thể tạm thời

- Lặp lại bước trên N lần sẽ được quần thể tạm thời

Trang 30

Giá trị t khi đó gọi là kích cỡ của chọn lọc cạnh tranh Khi t 2 ta có chọn lọc cạnh tranh nhị phân

b/ Lai ghép nhiều điểm

Lai ghép nhiều điểm thực hiện tương tự lai ghép một điểm Với hai cá thể cha kmẹ đã chọn P1, P2, toán tử này cần sinh ngẫu nhiên k vị trí i1,i2, ,i k(giả thiết i1i2  i k) Các điểm cắt chia các cá thể đã chọn thành các đoạn được đánh số chẵn và lẻ Hai cá thể con được tạo thành bằng cách tráo đổi các gen cha

mẹ tùy theo đoạn chẵn hay đoạn lẻ

Giả sử các điểm cắt đã chọn là: 2,4,6,9

Định dạng
Số trang	60
Dung lượng	512,57 KB