1. Trang chủ
  2. » Luận Văn - Báo Cáo

Cây quản lí đoạn và ứng dụng

74 110 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 74
Dung lượng 1,89 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Trong khuôn khổ luận văn thạc sĩ, tôi chọn đề tài nghiên cứu: “Cây quản lí đoạn và ứng dụng”, nghiên cứu về cấu trúc dữ liệu cây quản lí đoạn và thực hiện một phương pháp tếp cận mới, nh

Trang 1

Số hóa bở Trung âm Học liệu – ĐHTN ht t p : / / www lrc.tnu e du v n

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN&TRUYỀN THÔNG

PHẠM THỊ NGA CÂY QUẢN LÍ ĐOẠN VÀ ỨNG DỤNG

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thái Nguyên - 2015

i t

Trang 2

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn này của tự bản thân tôi tìm hiểu, nghiêncứu Các tài liệu tham khảo được trích dẫn và chú thích đầy đủ Nếu khôngđúng tôi xin hoàn toàn chịu trách nhiệm

Tác giả luận văn

Phạm Thị Nga

Số hóa bởi Trung tâm Học liệu – ĐHTN ht t p : / / www lrc.tnu e du v n

Trang 3

LỜI CẢM ƠN

Lời đầu tiên tôi xin được bày tỏ lòng biết ơn chân thành đến Ban GiámHiệu, các thầy giáo, cô giáo phòng Sau đại học trường Đại học Công NghệThông Tin & Truyền Thông, các thầy giáo ở Viện Công Nghệ Thông Tin đãgiảng dạy và tạo mọi điều kiện cho tôi học tập, nghiên cứu và hoàn thànhluận văn này

Đặc biệt, tôi xin bày tỏ sự kính trọng và lòng biết ơn sâu sắc đến PGS.TSKH Vũ Đình Hòa, người đã tận tình hướng dẫn và giúp đỡ tôi trong suốtquá trình học tập, nghiên cứu và hoàn thành luận văn

Tôi chân thành cảm ơn các thầy cô tổ Tin học, trường Trung học phổthông chuyên Lam Sơn, Thanh Hóa, nơi tôi công tác đã tạo điều kiện và hỗtrợ tôi trong suốt thời gian qua

Tôi cũng xin chân thành cảm ơn người thân, bạn bè đã giúp đỡ và độngviên tôi trong suốt thời gian học tập cũng như trong thời gian thực hiệnluận

văn

Xin chân thành cảm ơn !

Thanh Hóa, ngày 10 tháng 04 năm 2015

Số hóa bởi Trung tâm Học liệu – ĐHTN ht t p : / / www lrc.tnu e du v n

Trang 4

MỤC LỤC

Trang

đoan i Lời

cảm ơn iii

Mục lục iv

Danh mục các bảng v Danh mục các hình vii Danh mục các kí hiệu, chữ viết tắt viii MỞ ĐẦU 1

Chương 1 TỔNG QUAN VỀ SINH HỌC PHÂN TỬ, TIN SINH HỌC VÀ BÀI TOÁN TÌM GIAO CÁC ĐOẠN GEN 4

1.1 Một số khái niệm cơ bản của sinh học phân tử

4 1.1.1 Ở cấp độ tế bào 4

1.1.2 Ở cấp độ phân tử 7

1.1.3 Phiên mã và dịch mã 11

1.2 Tổng quan về tin sinh học 12

1.3 Bài toán tìm giao các đoạn gen 15

Chương 2 ỨNG DỤNG CỦA CÂY QUẢN LÍ ĐOẠN ĐỂ TÌM GIAO CÁC ĐOẠN GEN 17

2.1 Đặc tả bài toán tìm giao các đoạn gen

17 2.2 Thuật toán tìm kiếm tuần tự

18 2.3 Cây quản lí đoạn 19

2.3.1 Cấu trúc cây quản lí đoạn 22

Trang 5

2.3.2 Các thao tác trên cây quản lí đoạn 232.4 Thuật toán tìm giao của các đoạn gen sử dụng cây quản lí đoạn

282.4.1 Xây dựng rừng cây quản lí đoạn lưu trữ thông tin các đoạn gen 292.4.2 Tìm kiếm các đoạn gen giao nhau 34

Số hóa bởi Trung tâm Học liệu – ĐHTN ht t p : / / www lrc.tnu e du v n

Trang 6

Chương 3 MÃ HÓA, THỬ NGHIỆM CHƯƠNG TRÌNH TÌM GIAO CÁC

ĐOẠN GEN 36

3.1 Chuẩn bị dữ liệu 36

3.2 Mã hóa chương trình tìm giao các đoạn gen 37

3.2.1 Ngôn ngữ và môi trường lập trình 37

3.2.2 Chức năng cửa sổ truy vấn gen 39

3.2.3 Chức năng tm giao hai tập các đoạn gen 41

3.3 Kiểm thử chương trình 43

3.3.1 Sử dụng cửa sổ truy vấn tm giao giữa các đoạn gen của virus Ebola với hệ gen người 43

3.3.2 Tìm giao giữa hệ gen người và hệ gen chuột 44

3.3.3 Tìm giao giữa hệ gen chuột nhắt và hệ gen chuột cống 46

3.4 Đánh giá độ phức tạp và kết quả thực hiện chương trình

48 3.4 Mở rộng hướng nghiên cứu 49

KẾT LUẬN 51

TÀI LIỆU THAM KHẢO PHỤ

LỤC

Trang 7

Số hóa bởi Trung tâm Học liệu – ĐHTN ht t p : / / www lrc.tnu e du v n

Trang 8

DANH MỤC CÁC BẢNG

Trang

Bảng 3.1 Kết quả kiểm thử cửa sổ truy vấn 44Bảng 3.2 Kết quả kiểm thử tnh đúng đắn chương trình tìm giao giữa hai hệgen 45Bảng 3.3 Thời gian (s) trung bình chạy chương trình 47

Số hóa bởi Trung tâm Học liệu – ĐHTN ht t p : / / www lrc.tnu e du v n

Trang 9

DANH MỤC CÁC HÌNH

Trang

Hình 1.1 Xếp bộ nhiễm sắc thể người 5

Hình 1.2 Gen được cấu tạo từ ADN, một nhiễm sắc thể chứa nhiều gen 6

Hình 1.3 Cấu trúc phân tử ADN và ARN 8

Hình 1.4 Học thuyết trung tâm của sinh học phân tử 12

Hình 2.1 Hình vẽ thể hiện giao của hai tập các đoạn gen 18

Hình 2.2 Sơ đồ khối mô tả thuật toán tìm kiếm tuần tự 19

Hình 2.3 Ví dụ về một cây quản lí đoạn 21

Hình 2.4 Ví dụ về cửa sổ truy vấn 22

Hình 2.5 Các bước tìm giao của một đoạn gen với các đoạn gen trong một hệ gen 28

Hình 2.6 Cấu trúc nút và cây quản lí đoạn lưu thông tin các đoạn gen của một nhiễm sắc thể 31

Hình 3.1 Giao diện mô phỏng cách lấy dữ liệu hệ gen người từ UCSC Table Browser 37

Hình 3.2 Giao diện lựa chọn chức năng 39

Hình 3.3 Giao diện cửa sổ truy vấn gen 39

Hình 3.4 Giao diện hộp thoại chỉ định tệp dữ liệu về đoạn gen 40

Hình 3.5 Giao diện chức năng tìm giao hai tập các đoạn gen 42

Hình 3.6 Giao diện hộp thoại lưu kết quả các đoạn gen giao nhau vào tệp 42

Trang 10

Số hóa bởi Trung tâm Học liệu – ĐHTN ht t p : / / www lrc.tnu e du v n

Trang 11

DANH MỤC CÁC KÍ HIỆU, CHỮ VIẾT TẮT

A adenine

ADN Axit deoxyribonucleic

ARN Axit ribonucleic

BED Browser Extensible Data

C cytosine

G guanine

mARN messenger ARN

NST nhiễm sắc thể

PTB Polypyrimidine Tract-Binding protein

rARN ribosomal ARN

T thymine, thymidine

tARN transfer ARN

U uracil

UCSC University of California Santa Cruz

Số hóa bởi Trung tâm Học liệu – ĐHTN ht t p : / / www lrc.tnu e du v n

Trang 12

tm ra những giải pháp hữu hiệu giải quyết một cách có hiệu quả các bài toán,các vấn đề có mô hình toán học đơn giản nhưng có kích thước lớn haykhông?

Để đạt được mục đích đó, người lập trình phải tận dụng tối đa khả năng

mà phần cứng và hệ điều hành cung cấp, khai thác tối đa khả năng củacông cụ lập trình, sử dụng linh hoạt các cấu trúc dữ liệu Trong đó, cây quản líđoạn (interval tree) là một cấu trúc dữ liệu quan trọng, có nhiều ứngdụng trong hình học tính toán, truy vấn cơ sở dữ liệu và xử lí tín hiệu

Bên cạnh đó, tin sinh học là một lĩnh vực mới, giải quyết các bài toánsinh học bằng các phương pháp của khoa học tnh toán với nguồn dữ liệukhổng lồ Việc so sánh các bộ dữ liệu đa dạng di truyền là căn bản để hiểu hệgen sinh học Các nhà nghiên cứu phải khám phá nhiều bộ dữ liệu lớn về cácđoạn gen (ví dụ như gen, sắp trình tự) để đặt các kết quả thí nghiệm của họtrong một bối cảnh rộng hơn và thực hiện những khám phá mới Mối quan

hệ giữa các tập hợp dữ liệu về gen thường được đo bằng cách xác định cácđoạn giao nhau, nghĩa là, chúng chồng lên nhau và do đó chia sẻ một đoạngen chung Với những tến bộ trong công nghệ sắp trình tự ADN, phươngpháp

Trang 13

hiệu quả để đo mối quan hệ có ý nghĩa thống kê giữa nhiều bộ tính năng

di truyền là rất quan trọng đối với những phát hiện trong tương lai

Trong khuôn khổ luận văn thạc sĩ, tôi chọn đề tài nghiên cứu: “Cây

quản lí đoạn và ứng dụng”, nghiên cứu về cấu trúc dữ liệu cây quản lí đoạn

và thực hiện một phương pháp tếp cận mới, nhanh chóng và linh hoạt để

tm giao giữa các đoạn gen bằng cách sử dụng cấu trúc dữ liệu này

2 Đối tượng và phạm vi nghiên cứu

Cây quản lí đoạn và ứng dụng để tm giao các đoạn gen

3 Những nội dung nghiên cứu chính

Chương 1 Tổng quan về sinh học phân tử, tin sinh học và bài toán tìm

giao các đoạn gen

Chương này trình bày một số khái niệm cơ bản của sinh học phân

tử, tổng quan về tin sinh học và bài toán tm giao của các đoạn gen trongsinh

học

Chương 2 Ứng dụng của cây quản lí đoạn để tìm giao các đoạn gen

Chương này trình bày cấu trúc và các thao tác trên cấu trúc dữ liệu cây quản lí đoạn và ứng dụng nó để giải bài toán tìm giao các đoạn gen

Chương 3 Mã hóa, thử nghiệm chương trình tm giao các đoạn gen.

4 Phương pháp nghiên cứu

 Phương pháp nghiên cứu lí thuyết: Tổng hợp tài liệu, suy diễn, quy

nạp, các phương pháp hình thức,

 Phương pháp thực nghiệm: xử lí thống kê, đối sánh,

 Phương pháp trao đổi khoa học, tổng hợp các kết quả của các nhà

nghiên cứu liên quan đến lĩnh vực nghiên cứu, lấy ý kiến chuyên

gia

Trang 14

5 Ý nghĩa khoa học của đề tài

Đề tài đưa ra một phương pháp nhanh chóng, hiệu quả và linh hoạt

để tm giao các đoạn gen Điều này mang ý nghĩa thiết thực trong việc hỗ trợcác nhà khoa học, những người làm công tác nghiên cứu, tìm tòi có một công

cụ hữu ích, thuận tện nhanh chóng tm ra câu trả lời về số đoạn gen giaonhau, vị trí giao nhau trên đường đi tìm mối quan hệ giữa các chủng loài, mốiquan hệ giữa các tập hợp gen Việc giải bài toán tìm giao các đoạn gen cho tamột công cụ lượng hóa (đo) mối quan hệ có ý nghĩa thống kê giữa các đặctính di truyền, giải mã các đầu mối tiến hóa, chẩn đoán cấu trúc và chức năngcủa các gen Từ đó, việc giải bài toán theo cách thức nhanh chóng, hiệu quả

sẽ có những đóng góp nhất định cho việc phát triển tin sinh học trong tươnglai

Trang 15

Chương 1.

TỔNG QUAN VỀ SINH HỌC PHÂN TỬ, TIN SINH HỌC VÀ BÀI

TOÁN TÌM GIAO CÁC ĐOẠN GEN 1.1 Một số khái niệm cơ bản của sinh học phân tử

1.1.1 Ở cấp độ tế bào

Mỗi sinh vật đều gồm các tế bào Có khoảng 6 10 13 tế bào trong cơ thểngười (có ước tính khác cho rằng con số này là 100.000 tỉ) [5] với khoảng 320kiểu khác nhau, chẳng hạn như tế bào não có nhiệm vụ giữ gìn trí nhớ và trithức, tế bào tim làm cho tim ta đập nhịp nhàng, tế bào ruột làm ra chấtnhầy, v.v Những tế bào này có thời gian tồn tại nhất định Chẳng hạn như

tế bào tinh trùng nam chỉ sống khoảng vài tháng, trong khi đó tế bào trứngcủa phái nữ có thể tồn tại đến 50 năm

Mặc dù khác nhau về chức năng, các tế bào đều có cấu trúc giống nhau:trong mỗi tế bào đều có một nhân nằm chính giữa chứa tất cả các chỉ thị

di truyền Những chỉ thị này là chức năng của tế bào, và cũng để phân biệt cáthể này với cá thể khác

Hạt nhân tế bào chứa ADN gói trong các cặp nhiễm sắc thể Nhiễm sắcthể là thể vật chất di truyền tồn tại trong nhân tế bào bị bắt màu bằng thuốcnhuộm kiềm tnh, có số lượng, hình dạng, kích thước, cấu trúc đặc trưng:nhiễm sắc thể có khả năng tự nhân đôi, phân li, tổ hợp ổn định qua các thếhệ

Nhiễm sắc thể khác nhau giữa các sinh vật khác nhau, có thể bao gồm từ100.000 đến 10.000.000.000 nucleotit trong một chuỗi dài [10]

Mỗi tế bào người có 46 nhiễm sắc thể, được tổ chức thành 23 cặp,đánh số từ 1 đến 23, được sắp xếp theo kích thước Hình 1.1 mô tả cáchxếp bộ nhiễm sắc thể người

Trang 16

Một gen là một đoạn của ADN với trình tự bazơ đặc trưng - cụ thể, gọi là

mã di truyền để xác định chức năng của tế bào

Gen có chức năng gửi các tín hiệu hóa học đi đến tất cả các nơi trong cơthể Những tín hiệu này có chứa đầy đủ các thông tn, các chỉ thị cụ thểcho các cơ quan trong cơ thể ta phải hoạt động ra sao Việc tm hiểu sốlượng gen cũng như cơ cấu tổ chức của gen trong cơ thể con người là mộtđiều tất yếu để mang lại những tến bộ mới và quan trọng của y sinh học.Nhưng không phải gen nào cũng có chức năng rõ ràng Trong thực tế, cókhoảng 47% gen chẳng có chức năng gì cụ thể (hay chúng ta chưa biết chứcnăng của chúng)

Trang 17

Hình 1.2 Gen được cấu tạo từ ADN, một nhiễm sắc thể chứa nhiều gen

Một hệ gen hay bộ gen là tập hợp toàn bộ ADN của cơ thể, bao gồmtất cả các gen của cơ thể đó Mỗi bộ gen chứa tất cả thông tin cần để xâydựng và duy trì cơ thể đó Ở người, một bản sao của toàn bộ hệ gen, có hơn

3 nghìn tỉ cặp bazơ, được chứa trong nhân tế bào

Năm 2003, các nhà khoa học đã hoàn thiện việc giải mã bộ gen người.Mỗi chúng ta đều có khoảng 30.000 gen trong cơ thể Chẳng hạn nhưchúng ta đều mang trong người những gen như VDR, COLIA1, apoE4, v.v Nhưng cái khác biệt giữa hai người là biến thể gen, chứ không phải gen Genthực ra chỉ là một thực thể với một cái tên, hay nói theo ngôn ngữ toán, làmột biến số Chẳng hạn như chiều cao, giới tính, v.v là những biến số Mỗibiến số có nhiều giá trị: chiều cao của người này là 158cm, của nhiều ngườikhác có thể cao hơn hay thấp hơn Mỗi biến thể gen được cấu tạo từ haithành tố: một thành tố được nhận từ cha, và một từ mẹ Chẳng hạn như genVDR có hai thành tố T và G, và do đó có 3 biến thể: TT, TG và GG Ngườinày có biến thể TG, người khác có thể mang trong người biến thể TT,v.v.Các nghiên cứu gần đây cho thấy, sự chồng chéo gen là mối quan hệphổ biến ở virus, vi khuẩn và khá hiếm ở sinh vật nhân chuẩn Có một số báocáo mô tả chồng chéo gen trong động vật có vú, sinh vật có xương sống,một số

Trang 18

nghiên cứu đã minh họa sự chồng chéo gen khác nhau theo các mảnh và có

sự phân bố khác nhau trong lịch sử tiến hóa [8]

Trang 19

Hình 1.3 Cấu trúc phân tử ADN và ARN

ARN được sinh ra trong tế bào từ thông tin của một đoạn ADN Nó làmột đa phân tử được cấu tạo từ nhiều đơn phân, mỗi đơn phân làmột nucleotide gồm 3 thành phần: phosphate, đường ribose, và mộttrong bốn bazơ hữu cơ A, U, G, C ARN có cấu trúc mạch đơn Trên phân tửARN các nucleotide liên kết với nhau bằng liên kết cộng hoá trị giữa đườngribose của nucleotide này với phân tử phosphate của nucleotde kế tiếp, tạonên một chuỗi poly-nucleotide Có 3 loại ARN chính là: mARN, rARN, tARN.Trong

Trang 20

 rARN chiếm 70-80%, là thành phần cấu tạo nên ribose, liên kết vớicác phân tử protein tạo trên các ribose tiếp xúc với mARN và chuyểndịch từng bước trên mARN, mỗi bước là một bộ ba nhờ đó mà lắpráp chính xác các axit amin vào chuỗi polipeptide theo đúng thông tin

di truyền được quy định từ gen cấu trúc

 tARN chiếm 10-20%, có chức năng vận chuyển, lắp ráp chính xác các

axit amin vào chuỗi polipeptide dựa trên nguyên tắc đối mã ditruyền giữa bộ ba đối mã trên tARN với bộ ba phiên mã trên mARN

Nó là một mạch poly-nucleotde nhưng cuộn lại một đầu, ở một đầucủa tARN có bộ ba đối mã gồm 3 nucleotide đặc hiệu đối diện vớiaxit amin mà nó vận chuyển, đầu đối diện có vị trí gắn axit amin đặchiệu Virus cúm là một loại ARN virus, là nguyên nhân gây ra bệnh

cúm ởngười và động vật Virus cúm được chia thành ba loại chính là cúm A, cúm B,

và cúm C Cúm A và cúm B có 8 loại gen giống nhau, cúm C có 7 loại gen Vớikhả năng biến đổi và lan truyền nhanh từ động vật sang động vật, từ độngvật sang người, và đặc biệt là từ người sang người, virus cúm là một trongnhững loài virus nguy hiểm nhất cho nền kinh tế cũng như sức khỏecon người trên toàn thế giới từ trước đến nay Do mức độ đặc biệt nghiêmtrọng của virus cúm, các nghiên cứu về virus cúm đã được tến hành nhiềunăm nay Các nhà khoa học từng bước hiểu được cấu trúc, cơ chế biến đổi vàlây truyền của virus cúm, qua đó tm ra các loại vacxin phòng chống Do khảnăng biến đổi nhanh của virus cúm, cho nên quá trình nghiên cứu và sản xuấtcác loại vacxin để cách phòng chống các chủng virus cúm mới được tến hànhthường xuyên

Protein là các phân tử cơ bản thực hiện chức năng của tế bào Nóđược tạo thành từ một hay nhiều dãy amino axit theo một thứ tự đặc

Trang 21

biệt; thứ tự này được xác định bởi dãy các nucleotides trong gen mã hóacho protein Các

Trang 22

proteins cần thiết cho cấu trúc, chức năng và điều chỉnh tế bào, mô và tổchức, mỗi protein có một vai trò đặc biệt Vài thí dụ về proteins là: proteincấu trúc - có thể coi như các khối tạo dựng cơ sở của sinh vật; enzymes -thực hiện (làm xúc tác) một số lớn các phản ứng sinh hóa học, tạo ra sự traođổi chất; protein màng - chìa khóa của sự duy trì môi trường tế bào, điều hòadung tích tế bào,v.v Các proteins là phân tử quyết định tính trạng củasinh vật (thông minh hay không, màu mắt, ).

Amino axit được cấu thành từ các bazơ trên trình tự ADN Có tất cả 20amino axit chính Cấu trúc amino axit bao gồm: một nguyên tử carbon ởtrung tâm, nguyên tử carbon này được gắn với nguyên tử hydro và được gọi

là nguyên tử C-α; nguyên tử C-α liên kết với 3 thành phần khác là nhómamino (NH2), nhóm carboxylic (COOH) và gốc amino axit ký hiệu là R Các gốcamino axit khác nhau sẽ tạo ra các amino axit với tính chất hóa họckhác nhau

Cấu trúc của axit nucleic (gồm ADN, ARN) và protein thường đượcchia thành 4 loại:

 Cấu trúc bậc một: dãy của các nucleotide hay các amino axit nối với

nhau theo một thứ tự tuyến tính bất kỳ Do các nucleotide chỉ khácnhau thành phần bazơ hữu cơ, nên đại phân tử ADN, ARN như là mộttrình tự sinh học gồm các bazơ A, C, G, T (U) Điều này rất thuận lợikhi biểu diễn các đại phân tử ADN, ARN trên máy tnh bằng chuỗi ký

tự chứa các ký tự chữ A, C, G, T, U Trình tự này được trình bày theochiều 5'-3' và xác định cấu trúc hóa trị của toàn bộ phân tử

 Cấu trúc bậc hai: xác định bởi tập hợp của các cặp bazơ tương tác với nhau trong cùng một phân tử hoặc với các phân tử khác ADN là một

Trang 23

chuỗi xoắn kép gồm 2 mạch đơn, các nucleotde trong mạch đơn nàybắt cặp với nucleotide trong mạch còn lại theo nguyên tắc bổ sungA-

Trang 24

T, G-C ARN có dạng mạch đơn, có dạng tương tác phức tạp hơn Vớiphân tử protein, khi các amino axit gần nhau liên kết với nhau thôngqua liên kết hydro giữa nhóm amin (NH) của amino axit này vớinguyên tử oxy của amino axit khác sẽ tạo nên vòng xoắn của chuỗipolypeptide Sự xoắn gấp của dãy các amino axit tạo nên cấu trúc bậchai.

 Cấu trúc bậc ba: do xoắn gấp, nhiều phần của dãy phân tử protein

có sự tiếp xúc với nhau, tạo ra nhiều lực hút và lực đẩy giữa chúng,tạo

cho phân tử có được một cấu trúc 3D tương đối bền vững và cốđịnh

 Cấu trúc bậc bốn: một protein có thể được tạo ra từ nhiều hơn mộtdãy amino axit Thí dụ như haemoglobin được tạo ra từ bốn dãytrong đó mỗi dãy có khả năng bó lại một phân tử

Tìm ra cấu trúc của ADN, ARN và protein là bài toán khó và tốn kém hiệnnay

1.1.3 Phiên mã và dịch mã

Biểu hiện gen, ám chỉ mọi quá trình liên quan đến việc chuyển đổithông tin di truyền chứa trong gen (một đoạn/chuỗi ADN) để chuyển thànhcác axít amin (hay protein), mỗi loại protein sẽ thể hiện một cấu trúc vàchức năng riêng của tế bào Tuy nhiên, cũng tồn tại các gen không mã hóacho protein (ví dụ: gen rARN, gen tARN)

Quá trình tổng hợp proteins dựa trên thông tin được mã hóa trong

gensgồm ba giai đoạn chính: phiên mã, ghép mã, dịch mã (hình 1.4)

Hiện nay, chúng ta có một sự hiểu biết quá cơ bản về trình tự gen mãhóa thành một protein cụ thể Chúng ta cũng thiếu thông tin cần thiết đểhiểu một cách đầy đủ về vai trò của ADN trong những căn bệnh cụ thể, hoặc

Trang 25

để hiểu được chức năng của hàng ngàn protein được sản sinh ra Ngoài ra,

sự đột biến

Trang 26

là sự thay đổi một hay nhiều bazơ trong phân tử ADN Điều này có thể dẫnđến sự biến đổi đặc trưng hoặc dẫn đến bệnh di truyền Mà càng phongphú, đa dạng về sự sống đang tồn tại, hiểu biết của con người lại càng ít ỏi.

Do đó cần có các phương pháp dùng để tập hợp, lưu trữ, khôi phục, phântích, tìm ra mối tương quan của một lượng thông tn khổng lồ, phức tạp vàngành tin sinh học ra đời từ đó

Hình 1.4 Học thuyết trung tâm của sinh học phân tử

1.2 Tổng quan về tin sinh học

Tin sinh học là một lĩnh vực khoa học sử dụng các công nghệ của cácngành t o á n h ọ c ứn g d ụn g , t i n h ọc , t hố n g k ê , kh o a h ọ c m á y t n h , t r í t u ệ

n h â n t ạ o , h ó a họ c v à hó a s i n h để giải quyết các vấn đề, dữ liệu liên quanđến si n hh ọ c phân tử

Các lĩnh vực nghiên cứu chính của tn sinh học gồm: hệ gen học phântch trình tự (sắp dãy), tìm kiếm gen, tìm kiếm các đột biến, phân loạihọc phân tử, bảo tồn đa dạng sinh học, phân tích chức năng gen hay biểuhiện nhận diện chuỗi polypeptid, dự đoán cấu trúc, hệ thống sinh học kiểumẫu, phân tch hình ảnh mức độ cao, công cụ phần mềm

Trang 27

Bài toán dự đoán cấu trúc bao gồm dự đoán cấu trúc axit nucleic,protein là bài toán quan trọng của tin sinh học Dự đoán cấu trúc axitnucleic nhằm xác định cấu trúc cấp hai và cấu trúc cấp ba thông qua trình

tự của nó (cấu trúc cấp một) Cấu trúc cấp hai có thể được dự đoán từ mộthoặc một số trình tự axit nucleic Việc dự đoán cấu trúc cấp hai của axitnucleic phụ thuộc chủ yếu vào việc xếp cặp và tương tác của các cặp bazơ.Nhiều phân tử ADN, ARN có thể có một số cấu trúc ba chiều, tuy vậy để dựđoán những cấu trúc này vẫn còn là điều khó khăn, trừ khi xác định được rõràng trình tự và chức năng phân lớp Các phương pháp nghiên cứu cấu trúcADN, ARN là tương tự nhau, tuy nhiên vẫn có sự khác biệt nhỏ trong cáchtiếp cận do ADN tạo thành từ hai chuỗi nucleotde theo nguyên tắc bổ sung,trong khi đó ARN có nhiều khả năng gấp trong quá trình phiên mã tạothành cấu trúc cấp ba, cấp bốn phức tạp như trong các ribosome,spliceosome, hoặc tARN Từ đó dẫn đến việc phân tích, so sánh các phươngthức dự đoán cấu trúc cấp hai của ARN trong khi phiên mã, dịch mã là vấn đềcần giải quyết

Mục đích của tin sinh học là cung cấp cho những nhà khoa học cách thức

lý giải: sự tến triển sinh học bình thường, những trục trặc trong quá trìnhphát triển này dẫn đến bệnh tật và cách thức tiếp cận để cải thiện việc khámphá thuốc điều trị

Chức năng chính của tin sinh học là xây dựng các ngân hàng dữ liệu đểlưu trữ và quản lý dữ liệu sinh học phân tử; tìm ra các phương pháp để xácđịnh mối quan hệ về mặt sinh học giữa các dữ liệu; xây dựng các công cụ đểphân tch từ đó có những hiểu biết rõ hơn về nguồn dữ liệu sinh học

Phát triển các cơ sở dữ liệu về thông tin sinh học là một nhiệm vụ quantrọng, để có được một kho lưu trữ lớn Hiện nay, cơ sở dữ liệu về tin sinh họcđược lưu trữ rất nhiều trên các ngân hàng cơ sở dữ liệu như: DDBJ (Ngânhàng cơ sở dữ liệu sinh học ADN của Nhật), GenBank (ngân hàng cơ sở dữ

Trang 28

liệu sinh học của Mỹ), EMBL (cơ sở dữ liệu dự đoán tương tác protein), miRBase (ngân hàng cơ sở dữ liệu về các microARN), NCBI- Unigen,TRANSFAC, EBI,v.v… , đây là những kho dữ liệu khổng lồ được cập nhậthàng ngày và miễn phí đối với tất cả mọi người trên thế giới [1].

protein-Cho đến nay, nhiều bộ gen đã được giải mã gần như hoàn toàn Cóthể nói chưa bao giờ thông tin sinh học trở nên phong phú và đa dạng nhưhiện nay Để tìm kiếm và khai phá thông tin trong khối lượng dữ liệu đồ sộnhư vậy, công nghệ thông tin đã được ứng dụng vào sinh học một cáchkhá triệt

Vấn đề lớn đối với tn sinh học hiện nay là làm sao để các thông tin vềcác trình tự sinh học phục vụ thiết thực hơn nữa cho sự sống, không dừng ởmức độ lưu trữ thông tin Từ đó hướng đến việc chuyển đổi thông tin trình

tự sinh học sang các tri thức hóa sinh và lý sinh; giải mã các đầu mối tến hóa;chẩn đoán cấu trúc và chức năng của các cơ thể sống

Trên thế giới, đã có nhiều phần mềm tn sinh học hỗ trợ các nhà nghiêncứu, các nhà khoa học xử lý trình tự, dự đoán cấu trúc bậc hai ADN, ARN,protein; có các công cụ tện ích giúp thực hiện các thao tác tìm kiếm, tổ chức,sắp xếp dữ liệu đồ sộ về các hệ gen, chú giải hệ gen như: PC-gens, DiscoveryStudio gen, DNASIS, DNAMAN, VECTOR NTI, AnnHyb, DNA Club, PlasmidProcessor, Oligos, BEDTools v.v…

Trong nước, sự đóng góp của các nhà sinh học cũng khá phong phú như:Viện Công nghệ Sinh học thuộc Viện Khoa học và Công nghệ Việt Nam,

Trang 29

Phòng Kỹ thuật di truyền, Phòng Công nghệ ADN ứng dụng, Phòng Hoá sinhprotein, Phòng Vi sinh vật học phân tử, Viện Sinh học Nhiệt đới Tuy nhiên,

sự đóng góp của các nhà tn học vào lĩnh vực này còn khá khiêm tốn Cũng đã

có nhiều nhóm nghiên cứu xây dựng trang web, phần mềm để xử lý vàhiển thị thông tin sinh học Tuy kết quả còn hạn chế nhưng đây là một đónggóp đáng kể cho ngành tin sinh học đang mới hình thành ở Việt Nam

1.3 Bài toán tìm giao các đoạn gen

Việc so sánh các bộ dữ liệu đa dạng di truyền là căn bản để hiểu hệ gensinh học Các nhà nghiên cứu phải khám phá nhiều bộ dữ liệu lớn về cácđoạn gen để đặt các kết quả thí nghiệm của họ trong một bối cảnh rộng hơn,tìm lời giải cho các giả thuyết khoa học, từ đó thực hiện những khám phámới

Mối quan hệ giữa các tập hợp dữ liệu về gen thường được đo bằngcách xác định các đoạn giao nhau, nghĩa là, chúng chồng lên nhau và do đóchia sẻ một đoạn gen chung Việc tìm ra phương pháp hiệu quả để đo mốiquan hệ có ý nghĩa thống kê giữa nhiều bộ tính năng di truyền là rất quantrọng đối với những phát hiện trong tương lai

Sự chồng chéo gen là mối quan hệ phổ biến ở virus, vi khuẩn và kháhiếm ở sinh vật nhân chuẩn Có một số báo cáo mô tả chồng chéo gen trongđộng vật có vú, sinh vật có xương sống, một số nghiên cứu đã minh họa sựchồng chéo gen khác nhau theo các mảnh và có sự phân bố khác nhau tronglịch sử tến hóa [8]

Bài toán đặt ra là: cho hai tập các đoạn gen, mỗi đoạn gen cho biết tênnhiễm sắc thể, vị trí đầu đoạn gen, vị trí cuối đoạn gen trên nhiễm sắc thểnày Hãy tìm ra các đoạn gen giao nhau của tập thứ nhất với tập thứ hai,chỉ xét các gen giao nhau của cùng một nhiễm sắc thể

Trang 30

Vậy bài toán con của bài toán trên là: cho một tập các đoạn gen, và mộtđoạn gen g bao gồm: tên nhiễm sắc thể, vị trí đầu đoạn gen, vị trí cuốiđoạn

Trang 31

gen trên nhiễm sắc thể này Hãy cho biết các đoạn gen trong cùng nhiễm sắcthể và có giao với đoạn gen g, chỉ rõ vị trí giao nhau của chúng Bài toán này

có thể xem như là bài toán đã phát biểu ở trên trong trường hợp tập thứ haichỉ gồm một đoạn gen duy nhất

Hiện nay, BEDtools được đề xuất như là một công cụ tích hợp tện ích

tm giao của hai tập các đoạn gen Tuy nhiên, nó vẫn còn một số hạn chế: tốc

độ và hiệu quả chưa cao, chưa linh hoạt Về khả năng linh hoạt của công cụnày, trong trường hợp người dùng muốn thực hiện nhiều truy vấn tìm giaocủa một hay một số đoạn gen với một tập các đoạn gen cố định thì nóchưa đáp ứng tốt ngay được Vì vậy, luận văn tiến hành nghiên cứu cấu trúc

dữ liệu cây quản lí đoạn, và áp dụng nó, đưa ra một phương pháp linh hoạt,nhanh chóng để truy vấn tm giao của một hay một số đoạn gen với một hệgen từ trước, từ đó mở rộng áp dụng để tm giao giữa hai tập các đoạn gen

Như vậy, chương này đã trình bày một số khái niệm cơ bản của sinhhọc phân tử, tin sinh học và nêu lên bài toán tìm giao của hai tập các đoạngen

Trang 32

Chương 2.

ỨNG DỤNG CỦA CÂY QUẢN LÍ ĐOẠN ĐỂ TÌM GIAO CÁC ĐOẠN

GEN 2.1 Đặc tả bài toán tìm giao các đoạn gen

Xét bài toán: cho một tập các đoạn gen và một cửa sổ truy vấn, mỗi truyvấn cung cấp thông tn một đoạn gen g bao gồm: tên nhiễm sắc thể, vị tríđầu đoạn gen, vị trí cuối đoạn gen trên nhiễm sắc thể này Hãy cho biết cácđoạn gen trong tập ban đầu cùng nhiễm sắc thể và có giao với đoạn gen g,chỉ rõ vị trí giao nhau của chúng, số lượng đoạn gen giao với g

Cụ thể về dữ liệu vào và kết quả ra của bài toán là:

Dữ liệu vào:

 Tệp gen1.inp gồm một số dòng, mỗi dòng là thông tin về một đoạn gen gồm: [Tên nhiễm sắc thể] [vị trí đầu đoạn gen] [vị trí cuốiđoạn

xét Giá trị này có thể là một số nguyên lớn, có thể có tới 11-12 chữsố

Thông tin về đoạn gen cần tìm kiếm sẽ được cấp cho chương trình theohai dạng thức:

Trang 33

 Cửa sổ truy vấn: người dùng nhập thông tin truy vấn là thông tin một

đoạn gen, gồm 3 thuộc tnh kể trên

 Tệp dữ liệu: người dùng nhập thông tn về tập gen cần tm giao với các đoạn gen trong tệp thứ nhất thông qua tệp dữ liệu có cấu trúc

giống tệp gen1.inp

Kết quả ra: Thông tin về các đoạn gen giao nhau, mỗi đoạn giao được liệt kê

theo cấu trúc: [tên nhiễm sắc thể] [vị trí đầu đoạn giao] [vị trí cuối đoạngiao] và số lượng đoạn gen giao nhau với g

Hình 2.3 mô phỏng hai tập gen A, B; tìm giao của các đoạn gen của tập

A với các đoạn gen của tập B, chỉ rõ phạm vi phần đoạn giao và những đoạngen của A có giao với B

Hình 2.1 Hình vẽ thể hiện giao của hai tập các đoạn gen

2.2 Thuật toán tm kiếm tuần tự

Phương pháp đơn giản nhất là với mỗi đoạn gen trong tệp thứ hai,

ta thực hiện truy vấn tìm kiếm trong tất cả các đoạn gen ở trong tệp thứnhất

Gọi chrName, chrStart, chrEnd lần lượt là tên nhiễm sắc thể, vị trí đầu và

vị trí cuối đoạn gen, g là một đoạn gen cần tìm kiếm trong tập thứ hai, ta

có thể biểu diễn thuật toán tìm kiếm tuần tự dựa trên sơ đồ khối sau:

Trang 34

Nhập thông tin các đoạn gene của tập thứ

nhất {chrName i , chrStart i , chrEnd i } i = 1 n Nhập

thông tin một đoạn gene cần tìm kiếm

g.chrName, g.chrStart, g.chrEnd

i = 1, d = 0

(chrNamei = g.chrName) and (chrStart i <=g.chrEnd) and (g.chrStart<=chrEndi )

Sai

Đúng d = d + 1;Đưa ra chrName

i , chrStarti, chrEndiĐoạn giao là:

[Max(chrStart, g.chrStart), Min(chrEndi, g.chrEnd)]

i = i + 1 Sai

Hình 2.2 Sơ đồ khối mô tả thuật toán tìm kiếm tuần tự

Độ phức tạp tính toán là O(n) cho mỗi truy vấn, với n là số đoạn gen có trong tệp thứ nhất Như vậy, tệp thứ hai có m đoạn gen, tương ứng có m truy vấn, thì độ phức tạp toàn bộ chương trình là O(n.m).

2.3 Cây quản lí đoạn

Cây quản lí đoạn [3], còn gọi là cây chứa khoảng [2], là một cấu trúc dữliệu để lưu trữ một tập các khoảng trên trục số Đây là một cấu trúc dữ liệuquan trọng, có nhiều ứng dụng trong hình học tính toán, truy vấn cơ sở

dữ liệu, cửa sổ truy vấn và xử lí tín hiệu [7], [9]

Mục này đơn giản hóa cấu trúc cây quản lý đoạn để giải quyết bài toántruy vấn, nó chỉ là một hạn chế của cây quản lí đoạn trong trường hợp cụ thể

Có 3 loại khoảng trên trục số: khoảng đóng (đoạn), khoảng mở vàkhoảng nửa mở

Trang 35

[s, f ]  {x  R : s  x  f } (s, f ]  {x  R : s  x  f } [s, f )  {x  R : s  x  f } (s, f )  {x  R : s  x  f }

Cây quản lí đoạn trong phạm vi này chỉ làm việc với đoạn

Với hai đoạn

2.1

Tại mỗi nút p, thông tin nút ngoài việc lưu trữ một đoạn trên trục số, ta lưu trữ thêm một trường rightmost: giá trị lớn nhất của các đầu mút phải của các đoạn nằm trong nhánh cây gốc p Hình 2.3 là ví dụ về cây quản lí thông

tin của 10 đoạn: [16, 21]; [8, 9]; [25, 30]; [5, 8]; [15, 23]; [17, 19]; [26, 26];[0, 3]; [6, 10]; [19, 20]

Trang 36

Hình 2.3 Ví dụ về một cây quản lí đoạn

Một trong những ứng dụng của cây quản lí đoạn đó là nó rất thuận tiện,phù hợp khi thiết kế các cửa sổ truy vấn hay trong các bài toán truy vấnphạm vi [7] Hình 2.4 dẫn chứng hai ví dụ về cửa sổ truy vấn: cửa sổ truy vấnthông tin trên bản đồ định vị trên màn hình thiết bị định vị trên xe ô tô (hình2.4a) và cửa sổ truy vấn thông tin chi tiết các đối tượng trên một phần bảngmạch điện tử (hình 2.4b) gồm các đối tượng nằm trong, đối tượng nằmngoài, đường biên,

a)

Trang 37

b)

Hình 2.4 Ví dụ về cửa sổ truy vấn

Cấu trúc cây quản lí đoạn và một số thao tác thường sử dụng trên cấu trúc dữ liệu này có thể được mô tả như sau:

2.3.1 Cấu trúc cây quản lí đoạn

Cấu trúc nút của cây quản lí đoạn có thể được biểu diễn bằng một bản ghi gồm các trường, cụ thể như sau:

 s, f lần lượt là giá trị đầu mút trái và đầu mút phải của đoạn [s, f],

 lef: chứa liên kết (con trỏ) tới nút con trái, tức là chứa một thông

tin

đủ để biết nút con trái của nút đang xét là nút nào Nếu nút đang xét không có nút con trái, trường này được gán một giá trị đặc biệt (nil)

 right: chứa liên kết (con trỏ) tới nút con phải, tức là chứa một

thông

Ngày đăng: 20/11/2018, 15:25

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w