1. Trang chủ
  2. » Kinh Doanh - Tiếp Thị

Bài toán tìm kiếm MOTIF và phương pháp tối ưu đàn kiến

28 379 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 28
Dung lượng 1,34 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Về cơ bản, tin sinh học tập trung vào nghiên cứu và áp dụng các phương pháp cũng như các kĩ thuật trong tin học để giải quyết các bài toán trong sinh học phân tử.Tìm kiếm motif trong các

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THU TRANG

BÀI TOÁN TÌM KIẾM MOTIF VÀ PHƯƠNG PHÁP TỐI ƯU ĐÀN KIẾN

Ngành : Công nghệ thông tin Chuyên ngành : Hệ thống thông tin

Mã số : 60480104

LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN

Người hướng dẫn khoa học: PGS TS Hoàng Xuân Huấn

Trang 2

MỤC LỤC LỜI CẢM ƠN Error! Bookmark not defined

LỜI CAM ĐOAN Error! Bookmark not defined

DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT 4

DANH MỤC CÁC BẢNG 5

DANH SÁCH CÁC HÌNH VẼ 7

MỞ ĐẦU 8

Chương 1: TIN SINH HỌC VÀ BÀI TOÁN TÌM KIẾM (l,d) MOTIF 12

1.1 Tin sinh học 12

1.1.1 Giới thiệu về tin sinh học 12

1.1.2 Khái niệm trong sinh học 12

1.1.2.1 DNA 13

1.1.2.2 RNA 14

1.1.2.3 Protein 15

1.1.2.4 Quá trình tổng hợp protein 16

1.1.2.5 Một số bài toán trong tin sinh học 16

1.1.3 Motif 17

1.1.3.1 Quá trình điều hòa gen 17

1.1.3.2 Ý nghĩa của Motif 19

1.1.3.3 Biểu diễn Motif 19

1.2 Bài toán tối ưu tổ hợp và bài toán tìm kiếm (ℓ ,d) motif 22

1.2.1 Bài toán tối ưu tổ hợp 22

1.2.1.1 Giới thiệu bài toán tối ưu tổ hợp 22

1.2.1.2 Giới thiệu bài toán người chào hàng 22

1.2.1.3 Các cách tiếp cận giải quyết bài toán tối ưu tổ hợp 23

1.2.2 Phát biểu bài toán tìm kiếm (ℓ,d) motif Error! Bookmark not defined

CHƯƠNG 2 GIỚI THIỆU VỀ THUẬT TOÁN ANT COLONY OPTIMIZATION (ACO)

Error! Bookmark not defined

Trang 3

2.1 Giới thiệu về thuật toán ACO Error! Bookmark not defined 2.2 Mô hình mô phỏng của thuật toán Error! Bookmark not defined

2.2.1 Kiến tự nhiên Error! Bookmark not defined 2.2.2 Kiến nhân tạo (Artificial Ant) Error! Bookmark not defined

2.3 Trình bày giải thuật Error! Bookmark not defined

2.3.1 Đồ thị cấu trúc Error! Bookmark not defined 2.3.2 Trình bày thuật toán ACO cơ bản Error! Bookmark not defined 2.3.3 Thông tin Heuristic Error! Bookmark not defined 2.3.4 Quy tắc cập nhật vết mùi Error! Bookmark not defined

2.3.4.1 Thuật toán AS Error! Bookmark not defined 2.3.4.2 Thuật toán ACS Error! Bookmark not defined 2.3.4.3 Thuật toán Max-Min Error! Bookmark not defined 2.3.4.4 Thuật toán Max- Min trơn Error! Bookmark not defined

2.3.5 ACO kết hợp với tìm kiếm địa phương Error! Bookmark not defined 2.3.6 Số lượng kiến Error! Bookmark not defined 2.3.7 Tham số bay hơi Error! Bookmark not defined

Chương 3: THUẬT TOÁN ĐỀ XUẤT Error! Bookmark not defined

3.1 Thuật toán tối ưu đàn kiến Error! Bookmark not defined 3.2 Xây dựng đồ thị cấu trúc Error! Bookmark not defined 3.3 Thông tin heuristic Error! Bookmark not defined 3.4 Xây dựng lời giải tuần tự Error! Bookmark not defined 3.5 Quy tắc cập nhật mùi (pheromone update rule) Error! Bookmark not

Trang 4

4.3.2.1 So sánh với MEME Error! Bookmark not defined

4.3.2.2 Kết quả so sánh F-ACOMotif với Pairmotif+ và MEME trên tập dữ liệu

thực Error! Bookmark not defined

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Error! Bookmark not defined

TÀI LIỆU THAM KHẢO 25

DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT

Ant Colony Optimization

(Tối ưu hóa đàn kiến)

Smooth-Max Min Ant System

(Hệ kiến MMAS trơn)

Travelling Salesman Problem

(Bài toán người chào hàng)

Trang 5

8 PMS Planted Motif Search

DANH MỤC CÁC BẢNG

Bảng 4 1: Các tham số chạy F-ACOMotif cho thực nghiệm Error!

Trang 6

Bảng 4.6: So sánh độ chính xác của motif dự đoánError! Bookmark not

defined

Trang 8

DANH SÁCH CÁC HÌNH VẼ

Hình 1.1: DNA phân tử của sự sống 13

Hình 1.2: Hình ảnh về RNA 14

Hình 1.3: Cấu trúc Protein 15

Hình 1.4: Quá trình tổng hợp Protein [1] 16

Hình 1.5: Quá trình tổng hợp Protein 18

Hình 1.6: Ví dụ về Motif 18

Hình 1.7: Chuỗi hợp nhất 20

Hình 1.8: Biểu diễn Motif 21

Hình 1.9: Biểu diễn Motif dạng sequence 22

Hình 1.10: Phương pháp heuristic cấu trúc 24

Hình 1.11: Lời giải nhận được thông qua tìm kiếm địa phương Error!

Bookmark not defined

Hình 1.12: Thuật toán memetic sử dụng ECError! Bookmark not defined

Hình 1.13: Ví dụ khoảng cách hamming Error! Bookmark not defined

Trang 9

Hình 2.1: Thể hiện hành vi của mỗi con kiến trong tự nhiên Error!

Bookmark not defined

Hình 2.2: Thực nghiệm cây cầu đôi Error! Bookmark not defined Hình 2.3: Thí nghiệm bổ xung Error! Bookmark not defined

Hình 2.4: Đồ thị cấu trúc tổng quát cho bài toán cực trị hàm 𝒇(𝒙𝟏, … 𝒙𝒏)

Error! Bookmark not defined

Hình 2.5: Đặc tả thuật toán ACO Error! Bookmark not defined

Hình 3.1: Đồ thị cấu trúc tìm motif độ dài l Error! Bookmark not defined

Hình 3.2: Cách xây dựng đường đi của kiếnError! Bookmark not defined

Hình 4.1: Đồ thị so sánh độ chính xác của F-ACOMotif so với PairMotif+ và

MEME Error! Bookmark not defined

Trang 10

MỞ ĐẦU

Tin sinh học có ứng dụng cao trong cuộc sống, đặc biệt trong lĩnh vực y – dược Về cơ bản, tin sinh học tập trung vào nghiên cứu và áp dụng các phương pháp cũng như các kĩ thuật trong tin học để giải quyết các bài toán trong sinh học phân tử.Tìm kiếm motif trong các chuỗi gene là một trong những bài toán quan trọng nhất của tin sinh học và thuộc loại NP-khó

Các thành phần điều hòa gene (gene regulatory elements) được gọi là các DNA motif (về sau gọi là motif cho gọn), chúng chứa nhiều thông tin sinh học quan trọng Vì vậy việc nhận dạng DNA motif đang là một trong những bài toán quan trọng nhất trong tin sinh học và thuộc loại NP-khó Chủ yếu, có 2 cách tiếp cận để tìm kiếm motif: các phương pháp thực nghiệm và các phương pháp tính toán Vì chi phí cao và tốn thời gian nên các phương pháp thực nghiệm ít hiệu quả.Phương pháp tính toán đang được dùng rộng rãi cho dự đoán motif

Người ta đưa ra nhiều phát biểu cho bài toán tìm kiếm motif, và có nhiều thuật toán nghiên cứu và công bố giải quyết bài toán tìm kiếm motif Trong luận văn này, tôi trình bày bài toán (ℓ,d) motif Có nhiều thuật toán đưa ra để giải quyết bài toán (ℓ,d) motif, các thuật toán này có thể chia thành 2 loại đó là thuật toán chính xác và thuật toán xấp xỉ Các thuật toán chính xác luôn luôn tìm ra những motif trong những chuỗi DNA đầu vào nhưng chỉ hiệu quả với các dữ liệu có kích thước nhỏ và thực hiện mất nhiều thời gian Các thuật toán xấp xỉ có thể không tìm

ra được tất cả các motif nhưng nó chạy hiệu quả với các dữ liệu lớn

Luận văn đề xuất giải quyết bài toán (ℓ,d) motif theo thuật toán xấp xỉ, bằng việc đề xuất thuật toán tối ưu đàn kiến Ant colony optimization (ACO) để giải quyết bài toán (ℓ,d) motif Đây là thuật toán mới và lần đầu được đưa vào để giải bài toán (ℓ,d) motif Thuật toán được đặt tên là F-ACOMotif Và trong thực nghiệm đã chỉ ra được thuật toán F-ACOMotif tối ưu hơn các thuật toán PairMotif+ và MEME về độ chính xác khi tìm ra (ℓ,d) motif

Ngoài phần kết luận, cấu trúc nội dung của luận văn bao gồm 4 chương như sau:

Trang 11

Chương 1: Trình bày sơ lược các khái niệm về tin sinh học, bài toán tối ưu

tổ hợp và phát biểu bài toán (ℓ,d) motif

Chương 2: Giới thiệu thuật toán Ant colony optimization (ACO) và một vài thuật toán cập nhật mùi khác nhau trong ACO

Chương 3: Đề xuất thuật toán, đó là thuật toán Ant colony optimization (ACO) để giải quyết bài toán (ℓ,d) motif

Chương 4: Đưa ra kết quả thực nghiệm của luận văn, so sánh kết quả của thuật toán ACO với các thuật toán PairMotif+ và thuật toán MEME

Trang 13

Chương 1: TIN SINH HỌC VÀ BÀI TOÁN TÌM KIẾM (l,d) MOTIF

1.1 Tin sinh học

1.1.1 Giới thiệu về tin sinh học

Tin sinh học (Bioinformatics) được tạo thành bởi cụm từ “Bio” là tương ứng với “Molecular Biology” nghĩa là sinh học phân tử còn “Informatics” thì tương đương với “Computer science” chính là khoa học máy tính Ngoài ra Computational biology, Computational molecular biology, Biocomputing cũng đồng nghĩa với “Bioinformatics” [1] Vậy Tin sinh học là gì? Fredj Tekaia Thuộc viện Pasteur đã đưa ra một định nghĩa về tin sinh học như sau:

Trang 14

các nhiễm sắc thể đặc trưng cho mỗi tế bào đó Nhiễm sắc thể lại được tạo thành bởi các axit nucleic và protein Axit nucleic là những đại phân tử có cấu trúc đa phân, đơn phân của nó là các nucleotide Axit nucleic được chia làm 2 loại là DNA (deoxyribonucleic acid) và RNA Một thành phần rất quan trọng khác của tế bào là protein, được tạo ra từ các axit amin, là các thành phần thiết yếu của mọi cơ quan

và hoạt động hóa học liên quan đến toàn bộ hoạt động của tế bào, chúng được biểu hiện thành những đặc điểm về cấu tạo và chức năng của tế bào, hay chính là những tính trạng của sinh vật Giữa protein và DNA có quan hệ chặt chẽ với nhau, cụ thể

là mỗi loại protein đều được xác định bởi một đoạn trên dãy DNA gọi là gen

1.1.2.1 DNA

Hình 1.1: DNA phân tử của sự sống

Vào năm 1944, Oswald Avery phát hiện ra DNA là một loại nguyên liệu thô chứa gen Bắt nguồn từ phát hiện này, một vài nhóm nghiên cứu đã tập trung nghiên cứu về DNA và các thành phần hóa học cấu thành DNA là một phân tử được cấu tạo bởi đường, photphat và bốn nitrogenous bases: adenine, cytosine, guanine và thiamine, được lần lượt viết tắt là A, C, G, và T Sau này, các nhà khoa học quan niệm rằng bốn nitrogen bases này là các nucleotide là cơ sở của mã di truyền

Vào năm 1953, hai nhà sinh vật học là J.Wáton và F.Crick làm việc tại trường đại học Cambridge đã xây dựng thành công mô hình không gian của phân

tử DNA(deoxyribonucleic acid), đánh dấu một bước ngoặt quan trọng trong sự phát triển của sinh học phân tử theo mô hình này DNA là một đại phân tử sinh học

có cấu trúc như một chuỗi xoắn kép gồm hai mạch đơn, mỗi mạch đơn là một

Trang 15

chuỗi nucleotide Mỗi nucleotide gồm nhóm phosphate, đường desoxyribose và một trong bốn thành phần lần lượt được biểu thị bởi các chữ cái A, C, G và T Hai mạch đơn kết hợp với nhau nhờ các liên kết hydro hình thành giữa các thành phần

bổ sung nằm trên hai mạch A bổ sung cho T, C bổ sung cho G

1.1.2.2 RNA

Hình 1.2:Hình ảnh về RNA

RNA (Ribonucleic Acid) là 1 loại acid nucleic (như DNA), RNA cũng có cấu trúc đa phân mà đơn phân là 4 loại nucleotide, tuy nhiên trong RNA nucleotide loại T (pyrimidine thymine) được thay thế bằng U (uracil) RNA tồn tại ở dạng chuỗi đơn và được phân chia làm 3 loại chính dựa trên chức năng của chúng:

Trang 16

snRNA: có chức năng hỗ trợ việc ghép mã mRNA

gRNA: sử dụng để điều khiển việc thay đổi mRNA

RNA có thể liên kết với một dải đơn của một phân tử DNA, bằng cách thay

T bằng U, và các phân tử kiểu này có vai trò quan trọng trong các quá trình sống và công nghệ sinh học [1]

Trang 17

protein Các protein cần thiết cho cấu trúc, chức năng và điều chỉnh tế bào, mô và

tổ chức, mỗi protein có một vai trò đặc biệt

Cấu trúc protein bao gồm 4 mức độ tổ chức: Cấu trúc bậc 1 là trình tự sắp xếp các axit amin trong chuỗi polypeptid, cấu trúc bậc 2 phát sinh từ sự uốn các thành phần của chuỗi polypeptid thành những cấu trúc đều đặn trong không gian ( dạng xoắn 𝛼 (alpha helix) hay lớp mỏng 𝛽 (Beta sheets)) Cấu trúc bậc 3 quy định

sự kết hợp các chuỗi xoắn hay lớp mỏng đó thành hình dạng ba chiều trong không gian Cấu trúc bậc 4 là sự tổ chức nhiều chuỗi polypeptid thành một phân tử protein

1.1.2.4 Quá trình tổng hợp protein

Tổng hợp protein là quá trình tạo ra protein dựa trên thông tin được mã hóa trong gen ( là các đoạn mã đặc biệt của DNA có chức năng điều khiển cấu trúc và hoạt động của tế bào, là đơn vị chức năng của sự di truyền) gồm ba giai đoạn chính : (1) Transcription (phiên mã) (2) Splipcing (ghép mã) (3) Translation (dịch mã) [1] có thể được mô tả như hình dưới:

Trang 18

kết giữa chúng dẫn đến phải giải quyết nhiều bài toán học máy phức tạp, thường là các bài toán tối ưu tổ hợp NP-khó và có tính bất định

Một số bài toán hiện đang được quan tâm nghiên cứu là: So sánh tích hợp bộ gene (comparative genome assembly), xây dựng cây phân loài (phylogenetic tree reconstruction), tìm kiếm motif (motif finding), suy diễn haplotype, dự báo hoạt động điều tiết gene, xây dựng ma trận biến đổi axít amin, phân tích chức năng protein dựa trên cấu trúc bậc cao,…

Luận văn sẽ tập trung nghiên cứu “Bài toán tìm kiếm motif sử dụng phương pháp tối ưu đàn kiến”

1.1.3 Motif

1.1.3.1 Quá trình điều hòa gen

Các vị trí điều hòa trên DNA tương ứng với một chuỗi hợp nhất từ các vùng

quy định của mỗi gen Chúng ta gọi đó những motif hoặc DNA signals Vị trí quy định trên mỗi DNA tương ứng với một motif được gọi là instances của motif đó Xác định được các motif và các instance tương ứng của nó có ý nghĩ rất quan

trọng, từ đó các nhà nghiên cứu sinh học có thể phát hiện ra các tương tác giữa DNA và protein, điều hòa gen cũng như sự phát triển và tương tác trong một tế bào

Trang 19

 Motif là những đoạn trình tự đại diện cho vùng điều hòa của gen

 Motif có kích thước nhỏ, cố định, lặp lại rất nhiều lần và thường xuyên

Trang 20

Khó khăn trong việc tìm kiếm motif [15]:

 Các Motif không bao giờ chính xác như chuỗi được bảo tồn Luôn có những

sự thay đổi ở một vài base

 Kích thước của Motif quá ngắn so với kích thước của chuỗi DNA đang được xemxét

 Vùng điều hòa bao gồm Motif có thể ở trị trí rất xa so với vùng mã hóa của gen khiến cho việc tìm kiếm trở nên khó khăn hơn rất nhiều

Vùng điều hòa có thể nằm trên mảnh DNA đối diện với vùng mã hóa trong quá trình phiên mã

1.1.3.2 Ý nghĩa của Motif

Ngoài những vùng mã hóa quan trọng, trong hệ gen còn có những vùng chứa các tín hiệu như tín hiệu khởi đầu phiên mã, tín hiệu cắt để xác định cùng intron exon …

Phần tử điều hòa (Regulatory element) được chia làm 2 loại: promoter và enhancer Promoter là vùng gần với exon đầu tiên và là vị trí gắn (binding site) cho enzim điều khiển quá trình phiên mã (Transcription factor) Enhancer, trái lại, thường xuất hiện ở vị trí khá xa so với vùng mã hóa Cả 2 vùng này đều có ý nghĩa trong việc kiểm soát sự biểu hiện của gen

1.1.3.3 Biểu diễn Motif

1.1.3.3.1 Chuỗi hợp nhất và ma trận đặc trưng (Consensus sequence)

Chuỗi hợp nhất thường được dùng để đại diện cho vị trí gắn của emzim điều khiển quá trình phiên mã (Transcription factor binding) Là chuỗi gần như khớp hoàn toàn với trình tự gắn nhưng không chính xác hoàn toàn

Trang 21

 Ma trận tần suất: thể hiện tần suất xuất hiện của từng base

 Ma trận trọng số: trọng số mỗi bị trí base đƣợc tính theo công thức sau :

Trang 22

Hình 1.8: Biểu diễn Motif

1.1.3.3.3 Biểu tượng

Biểu tƣợng là cách dùng hình ảnh biểu diễn cho Motif

Trang 23

Hình 1.9: Biểu diễn Motif dạng sequence

1.2 Bài toán tối ưu tổ hợp và bài toán tìm kiếm (ℓ,d) motif

1.2.1 Bài toán tối ưu tổ hợp

1.2.1.1Giới thiệu bài toán tối ưu tổ hợp

Mỗi bài toán tối ưu tổ hợp ứng với bộ ba(𝑆, 𝑓, Ω), trong đó 𝑆 là tập hữu hạn các trạng thái (lời giải tiềm năng hay phương án), 𝑓 là hàm mục tiêu xác định trên

𝑆 và Ω là tập các ràng buộc Mỗi phương án 𝑠 ∈ 𝑆 thỏa mãn các ràng buộc Ω gọi là phương án chấp nhận được Mục tiêu của chúng là tìm ra phương án 𝑠∗ tối ưu hóa toàn cục đối với hàm mục tiêu 𝑓, nói cách khác chính là tìm phương án 𝑠∗ sao cho

𝑓 𝑠∗ ≤ 𝑓 𝑠 với mọi 𝑠 ∈ 𝑆 Đối với bài toán này ta có 3 cách giải quyết đó là: vét cạn, kỹ thuật ăn tham hoặc phương pháp tối ưu trong lĩnh vực NP-khó

Các thuộc tính của tập 𝑆, 𝐶 và Ω như sau:

1) Ký hiệu 𝑋 là tập các vectơ trên 𝐶có độ dài không quá 𝑕: 𝑋 = {<

𝑢0, , 𝑢𝑘 > 𝑢𝑖𝐶𝑖𝑘𝑕}.Khi đó, mỗi phương án 𝑠 trong 𝑆 được xác định nhờ ít nhất mộtvectơ trong 𝑋

2) Tồn tại tập con 𝑋∗của 𝑋 và ánh xạ  từ 𝑋∗ lên 𝑆 sao cho−1(𝑠) không rỗng với mọi 𝑠𝑆,trong đó tập 𝑋∗có thể xây dựng được từ tập con 𝐶0 nào đó của

𝐶 nhờ thủ tục mở rộng tuần tự dưới đây

3) Từ 𝐶0ta mở rộng tuần tự thành 𝑋∗như sau:

i) Ta xem 𝑥0 = < 𝑢0 >là mở rộng được với mọi 𝑢0 𝐶0

Ngày đăng: 01/03/2017, 06:58

HÌNH ẢNH LIÊN QUAN

Hình 1.1: DNA phân tử của sự sống - Bài toán tìm kiếm MOTIF và phương pháp tối ưu đàn kiến
Hình 1.1 DNA phân tử của sự sống (Trang 14)
Hình 1.2:Hình ảnh về RNA - Bài toán tìm kiếm MOTIF và phương pháp tối ưu đàn kiến
Hình 1.2 Hình ảnh về RNA (Trang 15)
Hình 1.3:Cấu trúc Protein - Bài toán tìm kiếm MOTIF và phương pháp tối ưu đàn kiến
Hình 1.3 Cấu trúc Protein (Trang 16)
Hình 1.4: Quá trình tổng hợp Protein [1] - Bài toán tìm kiếm MOTIF và phương pháp tối ưu đàn kiến
Hình 1.4 Quá trình tổng hợp Protein [1] (Trang 17)
Hình 1.6: Ví dụ về Motif - Bài toán tìm kiếm MOTIF và phương pháp tối ưu đàn kiến
Hình 1.6 Ví dụ về Motif (Trang 19)
Hình 1.5: Quá trình tổng hợp Protein - Bài toán tìm kiếm MOTIF và phương pháp tối ưu đàn kiến
Hình 1.5 Quá trình tổng hợp Protein (Trang 19)
Hình 1.7: Chuỗi hợp nhất - Bài toán tìm kiếm MOTIF và phương pháp tối ưu đàn kiến
Hình 1.7 Chuỗi hợp nhất (Trang 21)
Hình 1.8: Biểu diễn Motif - Bài toán tìm kiếm MOTIF và phương pháp tối ưu đàn kiến
Hình 1.8 Biểu diễn Motif (Trang 22)
Hình 1.10: Phương pháp heuristic cấu trúc - Bài toán tìm kiếm MOTIF và phương pháp tối ưu đàn kiến
Hình 1.10 Phương pháp heuristic cấu trúc (Trang 25)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm