1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phương pháp đánh chỉ số cho cơ sở dữ liệu GEN để tăng tốc độ tìm kiếm

73 488 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 73
Dung lượng 1,14 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN CỦA ĐỀ TÀI Trong luận văn khảo sát các phương pháp đánh chỉ số đã được nghiên cứu cho cơ sở dữ liệu GEN đặc biệt là phương pháp Blast để tìm các cặp đoạn c

Trang 1

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

HÀ THỊ THANH HỒNG

PHƯƠNG PHÁP ĐÁNH CHỈ SỐ CHO CSDL GEN ĐỂ TĂNG TỐC ĐỘ TÌM KIẾM

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thái nguyên, 2015

Trang 2

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

Hà Thị Thanh Hồng

PHƯƠNG PHÁP ĐÁNH CHỈ SỐ CHO CSDL GEN ĐỂ TĂNG TỐC ĐỘ TÌM KIẾM

Chuyên ngành: Khoa học máy tính

Mã số: 60 48 01 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC:

TS Hoàng Đỗ Thanh Tùng

Thái nguyên, 2015

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan: Luận văn này là công trình nghiên cứu thực sự của

cá nhân, được thực hiện dưới sự hướng dẫn khoa học của Tiến sĩ Hoàng Đỗ Thanh Tùng

Các số liệu, những kết luận nghiên cứu được trình bày trong luận văn này trung thực và chưa từng được công bố dưới bất cứ hình thức nào

Tôi xin chịu trách nhiệm về nghiên cứu của mình

Học viên

Hà Thị Thanh Hồng

Trang 4

LỜI CẢM ƠN

Đầu tiên tôi xin gửi lời cảm ơn sâu sắc nhất tới TS.Hoàng Đỗ Thanh Tùng Thầy đã hướng dẫn khoa học, đã tận tình chỉ bảo, giúp đỡ tôi thực hiện luận văn

Tôi xin cảm ơn các thầy cô Trường Đại học Công nghệ Thông tin và Truyền thông - Đại học Thái Nguyên đã giảng dạy và truyền kiến thức cho tôi

Tôi xin chân thành cảm ơn Ban giám hiệu trường Cao đẳng Công nghiệp Thực Phẩm và các đồng nghiệp trong khoa công nghệ thông tin đã tạo mọi điều kiện giúp đỡ tôi hoàn thành nhiệm vụ học tập

Cuối cùng, tôi xin cảm ơn những người thân và các bạn bè chia sẻ, gúp

đỡ tôi hoàn thành luận văn này

Mặc dù đã hết sức cố gắng hoàn thành luận văn với tất cả sự nỗ lực của bản thân, nhưng luận văn vẫn còn những thiếu sót Kính mong nhận được những ý kiến đóng góp của quý Thầy, Cô và bạn bè đồng nghiệp

Tôi xin chân thành cảm ơn!

Việt Trì, ngày 10 tháng 6 năm 2015

Hà Thị Thanh Hồng

Trang 5

MỤC LỤC

LỜI CẢM ƠN……….….i

LỜI CAM ĐOAN ……….…… ii

MỤC LỤC iii

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT v

DANH MỤC BẢNG BIỂU vi

DANH MỤC HÌNH VẼ vii

MỞ ĐẦU 1

CHƯƠNG 1: GIỚI THIỆU TIN SINH HỌC VÀ CƠ SỞ DỮ LIỆU GEN 4

1.1 Giới thiệu tin sinh học 4

1.1.1 Định nghĩa 4

1.1.2 Sự phát triển tin sinh học ở Việt Nam 5

1.2 Sinh học phân tử 8

1.2.1 Axit nucleic và nucleotide 9

1.2.2 Protein và axit amin 10

1.2.3 GEN là gì? 11

1.2.4 Nhiễm sắc thể và hệ GEN 14

1.3 Cơ sở dữ liệu GEN 15

1.3.1 Cơ sở dữ liệu NCBI 16

1.3.2 Cơ sở dữ liệu EMBL/EBI 19

1.3.3 Cơ sở dữ liệu DDBJ 19

1.4 Định dạng dữ liệu sinh học 20

1.4.1 Định dạng dữ liệu sinh học theo chuẩn FASTA 20

1.4.2 Định dạng dữ liệu sinh học theo dạng ALN/ClustalW 22

1.4.3 GENBank 22

Trang 6

1.5 Kết luận chương 1 23

CHƯƠNG 2: PHƯƠNG PHÁP ĐÁNH CHỈ SỐ GEN ĐỂ TĂNG TỐC ĐỘ TÌM KIẾM 25

2.1 Giới thiệu 25

2.2 Cấu trúc dữ liệu hệ GEN và sự cần thiết của chỉ số 27

2.2.1 Cấu trúc dữ liệu hệ GEN 27

2.2.2 Sự cần thiết và lợi thế của đánh chỉ số cho tìm kiếm tương đồng GEN 29

2.3 Phương pháp đánh chỉ số cho CSDL GEN 30

2.4 Phương pháp đánh chỉ số dựa trên sự biến đổi cấu trúc chỉ số 31

2.5 Phương pháp đánh chỉ số dựa vào kích thước (Length based index algorithms) 31

2.5.1 Thuật toán đánh chỉ số dựa trên kích thước cố định 32

2.5.2 Thuật toán đánh chỉ số dựa trên kích thước biến đổi 35

2.6 Thuật toán Blast 40

2.6.1 Giới thiệu 40

2.6.2 Thuật toán 41

2.7 Kết luận chương 2 45

CHƯƠNG 3: CÀI ĐẶT THỬ NGHIỆM PHƯƠNG PHÁP ĐÁNH CHỈ SỐ CHO CƠ SỞ DỮ LIỆU GEN ĐỂ TĂNG TỐC ĐỘ TÌM KIẾM 46

3.1 Bài toán 46

3.2 Xây dựng chương trình thử nghiệm 47

3.2.1 Chuẩn bị dữ liệu 47

3.2.2 Lựa chọn giải pháp 49

Thuật toán 49

3.2.3 Thiết kế hệ thống 50

3.3 Kết luận chương 3 57

Trang 7

KẾT LUẬN VÀ KIẾN NGHỊ 59 DANH MỤC TÀI LIỆU THAM KHẢO 61

Trang 8

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

CSDL Cơ sở dữ liệu

GEN Genome

DNA Axit Deoxyribo Nucleic

ARN Axit Ribo Nuclêic

NCBI National Center for BioInformatic Information dbEST data base of Expressed Sequence Tags

MGC Mamalian GEN Collection

EBI European Biotechnology Information

BLAST Basic Local Alignment Search Tool

EMBL European Molecular Biology Laboratory OMIM Online Mendelian Inheritance in Man

EPO European Patent Office

ISDC International Sequence Database Collaboration MIAME Minimum Information About a Microarray

Experiment ASD Alternative Splicing Database

ATD Alternate Transcript Diversity

IPD Immuno Polymorphism Database IPD

CIB – DDBJ

Center for Information Biology and DNA Data Bank of Japan

Trang 9

DANH MỤC BẢNG BIỂU

Bảng 1.1 Nhiệm vụ của một số Bộ, ngành về bảo tồn quỹ GEN quốc gia 7 Bảng 1.2 Kết quả bảo tồn, lưu giữ nguồn GEN sinh vật 8 Bảng 1.3 Tên đầy đủ, tên viết tắt của năm loại nucleotide 9 Bảng 2.1 Minh họa tư tưởng chính của thuật toán BLAST 41

Trang 10

DANH MỤC HÌNH VẼ

Hình 1.1 Cấu trúc xoắn kép của một trình tự DNA 10

Hình 1.2 Minh họa cấu trúc của một axít amin 11

Hình 1.3 Minh họa một đoạn GEN trong cấu trúc DNA 12

Hình 1.4 Quá trình tổng hợp Protein từ đoạn DNA 13

Hình 1.5 Định dạng chuẩn FASTA dùng để lưu giữ thông tin trình tự DNA 21

Hình 1.6 Định dạng FASTA lưu giữ nhiều trình tự DNA (Protein) 23

Hình 2.1 Cơ chế ánh xạ trình tự 28

Hình 2.2 Sơ đồ thuật toán BLAST 44

Hình 3.1 Kết quả tìm kiếm hệ GEN người trên NCBI 47

Hình 3.2 Cơ sở dữ liệu của NCBI 48

Hình 3.3 Cơ sở dữ liệu mô phỏng 49

Hình 3.4 Giao diện chính 52

Hình 3.5 Thông báo lỗi từ hệ thống BLAST khi không tìm thầy dữ liệu về trình tự truy vấn 53

Hình 3.6 Giao diện nhập dữ liệu 54

Hình 3.7 Kết quả chạy thuật toán BLAST 55

Trang 11

MỞ ĐẦU

I LÝ DO CHỌN ĐỀ TÀI

Trong vài thập niên gần đây, cùng với sự thay đổi và phát triển không ngừng của ngành công nghệ thông tin với các hệ thống thông tin phục vụ trong các lĩnh vực kinh tế, xã hội, y học, giáo dục …, nhu cầu thu thập, lưu trữ và xử lý thông tin càng ngày càng lớn Bên cạnh đó việc tin học hoá một cách ồ ạt và nhanh chóng các hoạt động sản xuất, kinh doanh cũng như nhiều lĩnh vực hoạt động khác đã tạo ra cho chúng ta một lượng dữ liệu lưu trữ khổng lồ

Như ta đã biết, cơ sở dữ liệu GEN bao gồm một tập hợp các chuỗi lớn GEN có trình tự và độ dài khác nhau được bổ sung liên tục Cơ sở dữ liệu khổng lồ này có thể được lưu trữ trên bộ nhớ của máy tính Để tìm sự khác biệt giữa một GEN này với một GEN khác trong chuỗi GEN với cấu trúc hoàn chỉnh trong bộ nhớ của máy tính đòi hỏi số lượng lớn các thao tác xử lý vào ra (truy cập) ổ đĩa của máy tính Nhưng với số lượng các chuỗi GEN như trên, việc xử lý thông thường trên máy tính là khó thực hiện do độ phức tạp cả không gian lẫn thời gian truy cập Có thể trả lời câu hỏi trên bằng cách tìm ra một phương pháp tìm kiếm dữ liệu có hiệu quả trình tự các GEN [2]

Thuật toán tìm kiếm dựa trên chỉ số là một phần quan trọng của tìm kiếm GEN Làm thế nào để xây dựng chỉ số để tính điểm tương đồng giữa hai chuỗi GEN? Một số phương pháp xây dựng chỉ số cho tìm kiếm tương đồng GEN như: phương pháp xây dựng dựa trên kích thước, phương pháp xây dựng dựa vào biến đổi Trong luận văn này tập trung nghiên cứu các phương pháp xây dựng chỉ số dựa trên kích thước đặc biệt là thuật toán Blast Các phương pháp được đề cập trong luận văn tìm thấy rất nhanh sự giống nhau

Trang 12

giữa hai chuỗi trong một cơ sở dữ liệu chuỗi GEN Vì vậy tôi đã chọn đề tài

“Phương pháp đánh chỉ số cho cơ sở dữ liệu GEN để tăng tốc độ tìm kiếm”

làm đề tài cho luận văn tốt nghiệp của mình

II MỤC TIÊU, ĐỐI TƯỢNG, PHẠM VI NGHIÊN CỨU

Trong khuôn khổ của luận văn tôi sẽ thực hiện và giải quyết những vấn

đề sau:

- Nghiên cứu tin sinh học, cấu trúc dữ liệu GEN

- Nghiên cứu phương pháp đánh chỉ số và một số thuật toán xây dựng chỉ số

- Đánh giá và thử nghiệm phương pháp Blast trên cơ sở dữ liệu GEN

III Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN CỦA ĐỀ TÀI

Trong luận văn khảo sát các phương pháp đánh chỉ số đã được nghiên cứu cho cơ sở dữ liệu GEN đặc biệt là phương pháp Blast để tìm các cặp đoạn

có độ giống nhau giữa một đoạn GEN đầu vào với đoạn GEN có trong cơ sở

dữ liệu để từ đó tăng tốc độ tìm kiếm [5] Ngoài ra còn có một số ứng dụng cơ bản và quan trọng trong tin sinh học:

- Quản lý dữ liệu: xây dựng hệ thống quản lý và khai thác một cách có hiệu quả lượng dữ liệu sinh học khổng lồ Dữ liệu sinh học bao gồm nhiều loại khác nhau, trong đó chủ yếu là các trình tự nucleotide, và các trình tự axit amin

- Phân tích mối quan hệ giữa các trình tự: Phát triển các mô hình các phương pháp và các công cụ tính toán để phân tích mối quan hệ giữa các trình

tự sinh học là lớp bài toán cốt lõi trong tin sinh học

Trang 13

- Dự đoán cấu trúc bậc cao của các trình tự: Ngày nay, các máy giải trình tự thế hệ mới có thể giải trình tự hệ GEN người trong vòng một ngày với chi phí khoảng 50 nghìn Đô la Mỹ Tuy nhiên, việc xác định được cấu trúc bậc cao của các trình tự (phổ biến là các trình tự Protein) vẫn là một bài toán khó cả về mặt thời gian và chi phí Các nghiên cứu tin sinh học giúp phát triển các mô hình, phương pháp và công cụ tính toán để dự đoán cấu trúc bậc cao của các trình tự dựa vào phân tích nội dung và mối quan hệ của chúng với trình tự khác Các phương pháp dự đoán sẽ giảm thiểu một lượng lớn thời gian và chi phí cho việc xác định cấu trúc bậc cao của các trình tự

IV PHƯƠNG PHÁP NGHIÊN CỨU

- Nghiên cứu các tài liệu liên quan đến tin sinh học, cơ sở dữ liệu GEN, phương pháp đánh chỉ số

- Tìm kiếm, thu thập và chia nhóm dữ liệu

- Phương pháp thực nghiệm và đối chứng qua chương trình thử nghiệm

Trang 14

CHƯƠNG 1: GIỚI THIỆU TIN SINH HỌC VÀ CƠ SỞ DỮ LIỆU GEN 1.1 Giới thiệu tin sinh học

1.1.1 Định nghĩa

Tin sinh học (BioInformatics) là một lĩnh vực khoa học sử dụng các công nghệ của các ngành toán học ứng dụng, tin học, thống kê, khoa học máy tính, sinh học, hóa học, vật lý… và toán sinh học Tin sinh học thường gắn liền với sinh học tính toán (Computational biology) hoặc sinh học hệ thống (System biology) Thuật ngữ tin sinh học là một phần của sinh học tính toán

Sự kết hợp giữa các nghành khoa học nói trên có sự đan xen với nhau và tương hỗ lẫn nhau vì vậy, thành quả nghiên cứu mang lại của ngành học này không chỉ đóng góp cho sinh học mà còn đóng góp cho các ngành khoa học khác [1] Một số bài toán và ứng dụng cơ bản và quan trọng trong tin sinh học gồm:

Quản lý dữ liệu: Một trong các bài toán quan trọng đầu tiên của tin sinh học là xây dựng các hệ thống dữ liệu để quản lý và khai thác một cách hiệu quả lượng dữ liệu sinh học khổng lồ Dữ liệu sinh học bao gồm nhiều loại khác nhau, trong đó chủ yếu là các trình tự nucleotide, và các trình tự axít amin Lượng dữ liệu sinh học có thể lên đến hàng triệu megabyte và được cập nhật liên tục theo thời gian Vì vậy, vấn đề lưu trữ và quản lý dữ liệu này là bài toán được quan tâm đầu tiên

- Phân tích mối quan hệ giữa các trình tự;

- Nghiên cứu tiến hóa;

- Dự đoán cấu trúc bậc cao của các trình tự;

- Kiểm soát dịch bệnh;

- Phát triển thuốc và chẩn đoán bệnh;

Trang 15

- Phát triển các giống cây trồng, vật nuôi

1.1.2 Sự phát triển tin sinh học ở Việt Nam

Tin sinh học là một lĩnh vực mới nhưng không xa lạ Những năm qua ở Việt Nam cũng đã có một số nghiên cứu trong lĩnh vực phân tích GEN, xác định trình tự DNA của một số loài quan trọng để đánh giá về mặt di truyền, hay những biến dị hoặc từ đó xác định hệ số di truyền tìm ra các họ hàng thân thích, hoặc để đánh giá mức độ biến đổi tính di truyền, hoặc nghiên cứu về đa dạng sinh học, xây dựng ngân hàng GEN (GEN bank) Theo hướng đó, những năm gần đây trên bước đường nghiên cứu về tài nguyên sinh vật và đa dạng sinh học tại các tỉnh vùng Bắc Trung Bộ, Khoa Sinh trường Đại học Vinh đã tiến hành nhân bản GEN (polimerase chain reaction-PCR), giải trình tự ADN (DNA sequencing) ở một số loài vi khuẩn lam, loại vi khuẩn có giá trị lớn trong cố định nitơ không khí, có khả năng tổng hợp hữu cơ mạnh làm giàu dinh dưỡng cho đất, và có các hợp chất có hoạt tính sinh học cao có tác dụng đến sinh trưởng, phát triển, tăng năng suất cây trồng, hoặc bằng nhân bản GEN và kỹ thuật phân tích tính đa hình của DNA được khuếch đại ngẫu nhiên (random amplified polimorphism DNA, RAPD) đối với các cây ăn quả có giá trị như cam Xã Đoài, bưởi Phúc Trạch để từ đó đánh giá mức độ biến đổi di truyền của chúng liên quan đến chất lượng quả, hoặc phân tích trình tự axit amin trên một số giống rắn thường sử dụng làm thuốc để từ cấu trúc của protein tìm hiểu về chức năng và vai trò sinh học của nó, hay phân tích trình

tự DNA của một số loài cá mới phát hiện được tại Nghệ An Hiện nay kỹ thuật RAPD được xem là kỹ thuật phân loại phân tử và đang được sử dụng để xác định tính đa dạng sinh học và quan hệ họ hàng của các động vật, thực vật khác nhau trong loài Chẳng hạn gần đây Henry Nguyễn (đại học Texas-Mỹ) nhờ sử dụng 43 cặp mồi (primer) ngẫu nhiên, đã phát hiện được sự khác biệt

Trang 16

di truyền của 13 giống lúa có nguồn gốc khác nhau ở châu Á, châu Âu và trung Á Cho nên, việc áp dụng tin sinh học trong nghiên cứu khả dĩ góp phần tích cực vào việc điều tra tài nguyên sinh vật, tìm kiếm những GEN quý hiếm, nghiên cứu đa dạng sinh học ở mức độ phân tử và chống xói mòn di truyền

mà lâu nay chưa có điều kiện để khám phá [1]

Trong một vài năm gần đây các viện nghiên cứu, các trường đại học mới xây dựng chương trình và đào tạo những khóa học đầu tiên trong lĩnh vực này Hiện nay, đội ngũ cán bộ nghiên cứu về tin sinh học tập trung chủ yếu ở các viện nghiên cứu và các trường đại học có các chuyên ngành đào tạo về công nghệ sinh học, nông lâm học… chủ yếu được đào tạo từ nước ngoài Các hướng nghiên cứu chính của các nhóm hiện nay là:

- Các nghiên cứu trong lĩnh vực phân tích GEN, xác định trình tự DNA của một số loài để đánh giá về mặt di truyền (xác định họ hàng thân thích, đánh giá mức độ biến đổi tính di truyền)

- Khai thác dữ liệu sinh học, xây dựng ngân hàng GEN

- Các nghiên cứu về đa dạng sinh học, phân tích mối quan hệ tiến hóa trình tự, ứng dụng trong di truyền, chọn giống (nhân bản phát triển và lưu trữ những gien quý hiếm, giải trình tự GEN ở một số loài, làm tăng năng suất cây trồng…)

- Phát triển phần mềm phân tích dữ liệu trình tự sinh học

- Xây dựng cơ sở dữ liệu thông tin protein

Ngoài các viện nghiên cứu, các trường đại học, tại nước ta, nguồn GEN hiện đang được lưu trữ, bảo quản tại một số tổ chức thuộc các bộ chủ quản như Bộ Nông nghiệp và Phát triển Nông thôn, Bộ Y tế, Bộ Công thương [4]… Dưới đây là một số kết quả nghiên cứu và nguồn GEN hiện có ở nước

ta

Trang 17

Bảng 1.1 Nhiệm vụ của một số Bộ, ngành về bảo tồn quỹ GEN quốc gia

- Bảo tồn nguồn GEN vật nuôi

- Bảo tồn nguồn GEN VSV đất, phân, bảo vệ thực vật và VSV thú y

- Bảo tồn nguồn GEN cây rừng, cây chống chịu, cây cao

su, GEN ong, GEN và giống thủy sản

2 Bộ Y tế

- Bảo tồn nguồn GEN và giống cây thuốc

- Bảo tồn nguồn GEN VSV y học

3 Bộ Công

Thương

- Bảo tồn nguồn GEN VSV công nghiệp thực phẩm

- Bảo tồn bộ sưu tập nguồn GEN cây công nghiệp

4 Bộ GD& ĐT

- Bảo tồn một số nguồn GEN cây trồng nông nghiệp

- Bảo tồn bộ sưu tập nguồn GEN VSV chung

5 Bộ Quốc

phòng

- Bảo tồn lưu giữ nguồn GEN dược liệu, con thuốc phục

vụ quốc phòng

Trang 18

Bảng 1.2 Kết quả bảo tồn, lưu giữ nguồn GEN sinh vật

TT Nguồn GEN Bảo tồn, lưu giữ tại

30 nhiệm vụ 28.028 nguồn GEN

2 Cây lâm nghiệp 164 vườn Xấp xỉ 2000 giống

3 Cây thuốc Xấp xỉ 100 loài 2998 loài

4 Vật nuôi Xấp xỉ 30 giống 18 giống

5 Thủy sản 3 khu bảo tồn 2999

1.2 Sinh học phân tử

Sinh học phân tử (molecular biology) là một nhánh của sinh học (biology), tập trung nghiên cứu các sinh vật ở mức độ phân tử Cụ thể là, sinh học phân tử tập trung giải trình tự (sequencing) và phân tích các trình tự nucleotide (trình tự DNA), các trình tự axít amin (trình tự Protein), cũng như các loại dữ liệu sinh học phân tử khác để hiểu được cấu trúc, chức năng, đặc điểm, quá trình tiến hóa, cũng như mối quan hệ và tương tác giữa các loài sinh vật Sự phát triển mạnh mẽ của công nghệ giải trình tự DNA, cũng như các phương pháp tính toán hiện đại đã giúp sinh học phân tử phát triển mạnh

mẽ cả về cơ sở lý thuyết cũng như các ứng dụng thực tế.[1]

Trang 19

1.2.1 Axit nucleic và nucleotide

Axít nuclêic (nucleic acid) là một đại phân tử sinh học (large biological molecule) mang thông tin di truyền mã hóa các chức năng, và đặc điểm của mọi sinh vật sống Axít nuclêic gồm hai loại: DNA (Axít Deoxyribo Nuclêic)

và ARN (Axít Ribo Nuclêic)

Thành phần cơ bản cấu tạo một trình tự axít nuclêic là các phân tử hóa học nuclêotít (nucleotide) Trình tự DNA chứa bốn loại nucleotide khác nhau là: Adenine, Cytosine, Guanine, và Thymine Trình tự ARN có thành phần tương tự như trình tự DNA, ngoại trừ nucleotide Thymine được thay thế bởi nucleotide Uracil Tức là, ARN chứa 4 loại nucleotide: Adenine, Cytosine, Guanine, và Uracil Tên đầy đủ, tên viết tắt của năm loại nucleotide được mô tả ở Bảng 1.1

Bảng 1.3 Tên đầy đủ, tên viết tắt của năm loại nucleotide

Tên đầy đủ Tên viết tắt

Adenine A Cytosine C Guanine G Thymine T Uracil U

Trang 20

Hình 1.1 Cấu trúc xoắn kép của một trình tự DNA

Các nucleotide trên trình tự DNA liên kết với nhau để tạo thành một trình tự có cấu trúc xoắn kép như Hình 1 Cấu trúc xoắn kép của trình tự DNA gồm 2 sợi liên kết với nhau: sợi thứ nhất có chiều từ 5’ đến 3’; sợi thứ hai có chiều ngược lại từ 3’ đến 5’ Các nucleotide ở sợi thứ nhất sẽ liên kết với các nucleotide ở sợi thứ hai (và ngược lại) theo nguyên tắc:

- Nucleotide A luôn liên kết với nucleotide T

- Nucleotide G luôn liên kết với nucleotide C

Do vậy, thông tin về một trình tự DNA được biểu diễn bằng một trình

tự các nucleotide nằm trên một sợi (các nucleotide nằm trên sợi còn lại có thể suy luận dựa theo quy tắc trên) Để đơn giản, một trình tự DNA sẽ được biểu diễn bởi một xâu kí tự chứa 4 loại kí tự: A, C, G, và T (tên viết tắt của 4 loại nucleotide)

Ví dụ: “CAGTTGACGGCGAACCGTGCGAGCAGACGGTCGTT” là một trình tự DNA Với cách biểu diễn này, thông tin về các trình tự DNA có thể được lưu giữ, tìm kiếm, và trao đổi một cách hiệu quả

1.2.2 Protein và axit amin

Protein/ trình tự Protein (protein) là loại dữ liệu phổ biến và quan trọng trong sinh học phân tử Nó quyết định đến chức năng, quá trình phát triển, cũng như các bệnh tật của các sinh vật sống Protein được cấu tạo bởi một

Trang 21

trình tự các axít amin (amino acid), trong đó mỗi axít amin là một hợp chất hữu cơ được cấu tạo bởi ba thành phần chính là: nhóm amin (N 2), nhóm cacboxyl (OO) và nhóm R quyết định tính chất của axít amin (xem Hình 2)

Hình 1.2 Minh họa cấu trúc của một axít amin

1.2.3 GEN là gì?

Trình tự DNA mang thông tin di truyền xác định các chức năng và đặc điểm của sinh vật, trong khi Protein quyết định đến các chức năng, và quá trình phát triển của sinh vật Vậy mối liên hệ giữa trình tự DNA và trình tự Protein như thế nào? Thông tin chứa trên trình tự DNA chính là các hướng dẫn để tạo ra các Protein Mỗi Protein được tạo ra từ một đoạn DNA nằm trên trình tự DNA thông qua quá trình tổng hợp Protein (Hình 3) Đoạn DNA nằm trên trình tự DNA mang thông tin hướng dẫn tổng hợp Protein được gọi là đoạn gien

Định nghĩa: GEN là một đoạn DNA mang một chức năng nhất định

trong quá trình truyền thông tin di truyền [3]

GEN, một đoạn của DNA, hoạt động điều khiển hình thành những phân

tử protein Ở người, chiều dài GEN có thể thay đổi từ vài trăm base đến hơn 2 triệu base Dự án giải mã hệ GEN người (The Human GENe Project) ước đoán con người có khoảng 20,000 đến 25,000 GEN

Trang 22

Mỗi cá thể có hai bản sao của một GEN, một bản từ bố và bản còn lại

từ mẹ Hầu hết các GEN là như nhau ở mọi người, nhưng có một số ít GEN (ít hơn 1% tổng số) hơi khác nhau giữa mỗi người Alen là các dạng của cùng một GEN với những khác biệt nhỏ trong trình tự cơ sở DNA Những khác biệt nhỏ này tạo nên nét đặc trưng của mỗi người

Trên nhiễm sắc thể, một GEN thường có một vị trí xác định và liên kết với các vùng điều hòa phiên mã và các vùng chức năng khác để bảo đảm và điều khiển hoạt động của GEN Các đoạn GEN tạo nên chuỗi DNA Thông thường, người ta nói đến GEN hàm ý là GEN cấu trúc GEN cấu trúc là đoạn DNA mang thông tin cần thiết mã hóa một chuỗi polypeptide Trong đó, các polypeptide là thành phần cấu trúc tạo nên các protein Đây là nhóm phân tử đóng vai trò quan trọng (nhưng không phải là hoàn toàn) quy định kiểu hình của sinh vật Chú ý rằng, không phải tất cả các đoạn nằm trên trình tự DNA đều là đoạn GEN

Hình 1.3 Minh họa một đoạn GEN trong cấu trúc DNA

Quá trình tổng hợp Protein từ DNA được chia thành hai giai đoạn: Phiên mã (transcription) và dịch mã (translation) như minh họa trong hình 4

Trang 23

Hình 1.4 Quá trình tổng hợp Protein từ đoạn DNA

- Giai đoạn phiên mã: Đoạn gien nằm trên trình tự DNA mang thông tin hướng dẫn tổng hợp Protein được biến đổi thành đoạn ARN Đoạn ARN có nội dung giống hệt đoạn gien, ngoại trừ nucleotide Thymine (T) bị biến đổi thành nucleotide Uracil (U) Ví dụ đoạn gien:

“CCTGAGCCAACTATTGATGAA” qua quá trình phiên mã sẽ bị biến đổi thành đoạn ARN “CCUGAGCCAACUAUUGAUGAA”

- Quá trình dịch mã: Đoạn ARN sẽ được dịch mã thành đoạn axít amin theo quy tắc mỗi bộ ba nucleotide liên tiếp (gọi là một codon) trên đoạn ARN

sẽ được mã hóa thành một axít amin

Tại các gene trên 1 chuỗi (mạch) phân tử ADN, trật tự sắp xếp các nucleotide tạo thành trình tự của gene Dựa trên thông tin từ trình tự này, các RNA thông tinđược tạo ra thông qua quá trình phiên mã Và rồi từ các ARN thông tin tế bào sẽ tổng hợp các protein qua quá trình dịch mã tại các thời điểm nhất định của cuộc đời Mỗi quan hệ giữa trình tự gene với trình tự của các amino acid trên protein được gọi là mã di truyền (một dạng mật

mã chung cho mọi sinh vật) Thực chất, ba nucleotide liên tiếp (gọi là một bộ

ba hay một codon) trên gene sẽ thông qua những bộ ba tương ứng ở RNA thông tin và RNA vận chuyển mà quy định cho một loại amino acid nhất định (có khoảng 20 loại amino acid khác nhau) Một loại amino acid có thể được

Trang 24

quy định bởi một số codon, tuy nhiên mỗi codon chỉ mã hoá cho một loại amino acid Có 3 codon không mã hoá cho amino acid mà là tín hiệu kết thúc vùng mã hoá (gọi là mã kết thúc

Ở nhiều loài sinh vật, chỉ có một phần nhỏ trình tự của bộ gene

(genome) là dùng để mã hoá protein (gen cấu trúc) Chức năng của phần còn lại là vẫn còn đang được giả định Thực chất, một số vùng ADN có khả năng bám với protein liên kết ADN, vùng này (gọi là vùng điều hoà) điều khiển quá trình nhân đôi và phiên mã có vai trò cực kỳ quan trọng Cho tới nay, các nhà khoa học mới chỉ có thể xác định một phần nhỏ vùng điều hoà trên

genome Phần genome còn lại mà chúng ta chưa biết được chức năng gọi

là vùng ADN bí ẩn (junk ADN)

Trình tự của ADN cũng xác định khả năng và vị trí mà ADN có thể bị phân huỷ bởi các enzyme giới hạn, một công cụ quan trọng của ngành kỹ thuật di truyền Bản đồ các khả năng và vị trí cắt trên ADN genome có thể sử dụng như là dấu vân tay của mỗi cá thể nhất định và được ứng dụng trong kỹ thuật vân tay ADN (ADN fingerprinting)

1.2.4 Nhiễm sắc thể và hệ GEN

Nhiễm sắc thể và hệ GEN (chromosome) là một cấu trúc trong tế bào chứa hai loại thông tin là trình tự DNA và các Protein histone có nhiệm vụ kết hợp/đóng gói và điều khiển các chức năng của trình tự DNA Độ dài của trình

tự DNA trong một nhiễm sắc thể có thể từ vài nghìn cho đến hàng trăm triệu nucleotide Số lượng nhiễm sắc thể trong mỗi sinh vật có thể khác nhau Ví

dụ, loài người có 23 cặp nhiễm sắc thể với tổng độ dài lên tới 3 tỉ nucleotide

Tập hợp tất cả các nhiễm sắc thể của một sinh vật được gọi là hệ gien của sinh vật Hệ gien sẽ mang toàn bộ thông tin di truyền quyết định đến chức năng và đặc điểm của sinh vật Một hệ gien có thể chứa nhiều gien khác nhau

Trang 25

Ví dụ hệ gien người chứa khoảng 25 nghìn GEN khác nhau Hai hệ gien của hai cá thể của cùng một loài (ví dụ của hai người khác nhau) thường rất giống nhau Sự khác nhau giữa hệ gien của hai cá thể sẽ tạo ra sự khác nhau giữa hai cá thể đó

1.3 Cơ sở dữ liệu GEN

Dữ liệu sinh học ngày càng tăng theo cấp số mũ do sự phát triển của các kỹ thuật giải trình tự Như vậy, vấn đề đặt ra là cần phải có biện pháp lưu trữ, quản lý, sử dụng và chia sẻ nguồn dữ liệu này Do đó mục tiêu là cần phải xây dựng những dữ liệu này thành một CSDL hoàn chỉnh để có thể thực hiện được mục đích trên Hơn thế nữa, với việc hệ thống hóa toàn bộ dữ liệu trên, chúng ta dễ dàng thực hiện việc chia sẻ những thông tin ấy qua mạng hay kết nối thêm vào những tập dữ liệu phân tán ở nơi khác Trên thế giới, một số cơ

sở dữ liệu lớn, trực tuyến đã được xây dựng để cung cấp thông tin cho các nhà nghiên cứu sinh học Các thông tin này được sắp xếp và lưu trữ bởi một hệ thống các máy chủ rất mạnh

Việc giải trình tự và thu thập dữ liệu sinh học phân tử được tiến hành tại nhiều trung tâm công nghệ sinh học khác nhau ở nhiều quốc gia trên thế giới Mỗi trung tâm công nghệ sinh học sẽ quan tâm và giải trình tự một số loài sinh vật Tuy nhiên hầu như các dữ liệu thu được đều được lưu giữ và chia sẻ tại các trung tâm thông tin về CNSH lớn trên thế giới như là:

- Trung tâm thông tin công nghệ sinh học quốc gia Hoa Kỳ NCBI (National Center Biotechnology Information) tại địa chỉ website http://www.ncbi.nlm.nih.gov

- Trung tâm thông tin công nghệ sinh học châu Âu EBI (European Biotechnology Information) tại địa chỉ website http://www.ebi.ac.uk

Trang 26

- Ngân hàng dữ liệu DNA của Nhật Bản (DNA Data Bank of Japan) tại địa chỉ website http://www.ddbj.nig.ac.jp

Dữ liệu về các trình tự DNA từ ba trung tâm này thường xuyên được cập nhật, trao đổi với nhau hàng ngày để đảm bảo tính đầy đủ và thống nhất

về các trình tự DNA lưu giữ

1.3.1 Cơ sở dữ liệu NCBI

NCBI - National Center for BioInformatic Information là trung tâm quốc gia về công nghệ sinh học thuộc viện sức khỏe quốc gia Mỹ NCBI được thành lập ngày 04/10/1988, NCBI đảm nhiệm việc quản lý CSDL trình tự DNA và từ đó NCBI còn được gọi là GENBank

NCBI là nơi cung cấp, trao đổi thông tin về sinh học phân tử của Mỹ thông qua những CSDL trực tuyến Ngoài ra, NCBI còn tham gia những nghiên cứu về sinh học tính toán, phát triển các công cụ phân tích bộ GEN, protein… Trong NCBI, chứa đựng nhiều CSDL chuyên dụng khác như:

- CSDL tài liệu (Literature Database)[3]

+ Bookshelf: Tìm kiếm những thông tin cơ bản hoặc các chủ đề nghiên cứu mới, miễn phí, có một phần ở PubMed

+ PubMed: Bất kỳ ai đều có thể truy cập vào, chứa phần tóm tắt của hơn 15.000.000 kết quả nghiên cứu trong lĩnh vực sinh y học

+ PubMed Central: Là một tạp chí khoa học sự sống, kết hợp với

hệ thống Enztrez, PMC cho phép truy cập tự do và không hạn chế với hơn

160 tạp chí khoa học sự sống

- CSDL Nucleotide (Nucleotide databases)

+ GENBank: Tập hợp tất cả các trình tự nucleotide và axit amin hiện có

Trang 27

+ GENBank® là CSDL trình tự di truyền của NIH Có khoảng 51.674.486.881 base trong 46.947.388 bản trình tự trong các nhánh của GENBank và 53.346.605.784 base trong 10.276.161 bản ghi trình tự ở nhánh WGS vào 8/2005 [3]

+ Trong lần công bố gần đây nhất, INSDC cho biết CSDL trình

tự DNA đã vượt quá 100 TeraByte GENBank là một thành viên quan trọng đóng góp cho mức này và tất nhiên đó là kết quả đóng góp của rất nhiều các nhà khoa học trên toàn thế giới

+ dbEST (data base of Expressed Sequence Tags): Theo Nature GENetics 4:332-3; 1993 thì dbEST là một tập hợp của các trình tự đeo thẻ hoặc các trình tự ngắn, duy nhất lấy từ mRNA (cDNA) dbEST cũng là một nhánh của GENBank

+ HomoloGENe: Sử dụng để so sánh trình tự nucleotide giữa hai sinh vật để đánh giá mức độ ortholog giả định

+ MGC: (Mamalian GENe Collection) cung cấp các dòng đầy đủ chiều dài các khung đọc mở (full-length open reading frame FL-ORF) cho người, chuột nhắt và chuột cống

+ PopSet: PopSet là một hệ thống các trình tự DNA được thu thập để phân tích mối quan hệ tiến hóa của một quần thể

+ TPA: Third Party Annotation (TPA) Sequence: Được thiết kế

để thu hút các kết quả thực nghiệm và hỗ trợ cho những người đăng ký mô tả, giải thích về trình tự mà người đăng ký không xác định được trực tiếp nhưng

có thể lấy từ dữ liệu sơ cấp của GENBank

+ RHdb: là một cơ sở dữ liệu của các dữ liệu thô được sử dụng trong việc thiết kế các bản đồ lai phóng xạ Nó bao gồm các dữ liệu STS, điểm số, các điều kiện thí nghiệm và các tra cứu chéo

Trang 28

- CSDL Protein (Protein Databases) 3D Domains: Bao gồm các trình tự

và cấu trúc 3 chiều của các domain trong các phân tử protein

- Cơ sở dữ liệu cấu trúc (Structure Databases) 3D Domain

+ MMDB (Molecular Modeling Database) : CSDL mô hình cấu trúc phân tử 3D, bao gồm các protein và các polynucleotide MMDB chứa hơn 28.000 cấu trúc và được liên kết với phần còn lại của CSDL ở NCBI, bao gồm các trình tự, các trích dẫn, phân loại học, và các trình tự và cấu trúc lân cận

+ Conserved Domains: Tập hợp các CSDL về các vùng domain bảo thủ của các protein, họ protein

- Cơ sở dữ liệu hệ thống học (Taxonomy database) chứa tên của các sinh vật có mặt trong cơ sở dữ liệu di truyền với ít nhất một trình tự nucleotide hoặc protein NCBI cung cấp một hệ thống hệ thống phân loại cùng với các đơn vị phân loại (taxa)

- Cơ sở dữ liệu GEN (GENe database)

+ Các nhiễm sắc thể ung thư: Cancer Chromosomes: 3 cơ sở dữ liệu NCI/NCBI SKY/M-FISH và CGH

+ Cơ sử dữ liệu các GEN: GENe: Các GEN được lưu trữ trong một hệ thống, để truy cập có thể sử dụng các công cụ như Entrez GENe

+ Cơ sở dữ liệu của các dự án giải trình tự: GENe Project: Các trình tự hoàn tất, đang ở giai đoạn lắp ráp hoặc đang tiến hành đều được lưu trữ trong một hệ thống Chúng ta có thể sử dụng công cụ Entrez GENe Project

để truy cập

+ GENes: Các nguồn GEN đặc thù từng loại sinh vật: Chứa toàn

bộ GEN của hơn 1000 sinh vật gồm những GEN hoàn chỉnh và đang tiến hành: Aspergillus, Bacteria, Bee, Cat, Chickent, Cow, Dog, các bào quan của

Trang 29

eukaryote, Frog, Fruit fly, Human, Mosquito, Mouse, Pig, plant GENe, rat, Retrovirus, Sheep, Viral GENes, Yeast, Zebrafish

1.3.2 Cơ sở dữ liệu EMBL/EBI

EBI - European Bioinformatics Institute được thành lập năm 1980 tại Đức ban đầu nó là phòng thí nghiệm nghiên cứu trình tự và xây dựng CSDL nucleotid đầu tiên trên thế giới Với việc cung cấp các dữ liệu điện tử, nó nhanh chóng trở thành một thư viện lớn và mang tính thương mại đồng thời xây dựng nhiều dự án sinh học và hợp tác toàn cầu trong lĩnh vực này Năm

1992, EBI là một phần của phòng thí nghiệm sinh học phân tử châu âu (EMBL-European Molecular Biology Laboratory), địa điểm tại Hinxton, Anh

1.3.3 Cơ sở dữ liệu DDBJ

Cơ sở dữ liệu CIB – DDBJ (Center for Information Biology and DNA Data Bank of Japan) là cơ sở dữ liệu đặt dưới dự quản lý của Trung tâm Thông tin Sinh học, Viện Di truyền Quốc gia Nhật Bản (Japan National Insititute of GENetics) CIB – DDBJ là cơ sở dữ liệu công nghệ sinh học quan trọng và là cơ sở dữ liệu DNA duy nhất ở Nhật Bản Cơ sở dữ liệu này được xây dựng trước hết nhằm phục vụ cho hoạt động khoa học của các nhà sinh học Nhật Bản Tuy nhiên, do hợp tác và liên kết thông tin với hai trung tâm

dữ liệu hàng đầu thế giới NCBI và EBI, nên CIB – DDBJ đã trở thành một trong ba trung tâm dữ liệu lớn nhất thế giới hiện nay Cơ sở dữ liệu này cung cấp trực tuyến cho người sử dụng rất nhiều nhóm thông tin khác nhau, bao gồm cả thông tin thường hay truy cập và khai thác hay các chương trình xử lý thông tin, ví dụ: SRS, GENtentry, FASTA BLAST, S&W, Search SQMatch XML, TXSearch GIB, ClustalW, GTOP LIBRA…

Trang 30

1.4 Định dạng dữ liệu sinh học

Dữ liệu về các trình tự DNA được giải trình tự bởi các trung tâm công nghệ sinh học khác nhau trên thế giới Dữ liệu về trình tự DNA thường bao gồm một số thông tin chính sau:

- Tên loài sinh vật giải trình tự, tên này thường là tên khoa học, ví dụ như Homo Sapien (Người), Mus musculus (chuột)

- Tên của trình tự DNA được giải trình tự

- Độ dài của trình tự DNA

- Các loại số hiệu của trình tự trong CSDL GENbank (số hiệu truy cập,

số hiệu GI, số hiệu phiên bản…)

- Nội dung các nucleotide trên trình tự DNA

Một trong các công việc khó khăn đầu tiên mà các nhà quản lý thông tin gặp phải là dữ liệu từ các trung tâm khác nhau có thể được lưu giữ với các định dạng khác nhau Hơn thế nữa, dữ liệu tại các trung tâm thông tin khác nhau như NCBI, EBI, DDBJ cũng được lưu giữ theo các định dạng khác nhau Để giải quyết bài toán liên quan đến sự khác biệt về định dạng dữ liệu, chúng ta cần định ra các định dạng dữ liệu chuẩn nhằm mục đích lưu giữ, và chia sẻ dữ liệu

1.4.1 Định dạng dữ liệu sinh học theo chuẩn FASTA

FASTA là một trong các định dạng dữ liệu chuẩn, đơn giản và quan trọng được đề xuất bởi William Pearson vào năm 1985 Đây là định dạng kiểu văn bản (text) để lưu giữ thông tin về các trình tự DNA (hay Protein) Định dạng FASTA được sử dụng một cách rộng rãi như một định dạng chuẩn quốc

tế cho tất cả các cơ sở dữ liệu, và chương trình phần mềm Trong định dạng này, các dòng trống và các khoảng trống hay các ký tự gap được bỏ qua

Trang 31

Định dạng FASTA được dùng để mô tả thông tin về một trình tự DNA (hay Protein) bao gồm hai phần: Phần tiêu đề và phần nội dung

- Tiêu đề (headline) bao gồm 1dòng bắt đầu bằng kí tự ‘>’ và kết thúc bởi một kí tự xuống dòng (return)

- Thông tin về các nucleotide của trình tự: Tất cả các kí tự không thuộc

về phần tiêu đề sẽ là dữ liệu mô tả các nucleotide của trình tự DNA Phần thông tin này có thể chứa các kí tự cách Hình 1.5 Một file dữ liệu theo định dạng FASTA để chứa một trình tự DNA với thông tin:

-Tiêu đề: >gi|1293613|gb|U49845.1|SCU49845 Saccharomyces cerevisiae TCP1-beta GENe, partial cds; and Axl2p (AXL2) and Rev7p

(REV7) GENes, complete cds

Chứa các thông tin cơ bản về trình tự như là số hiệu GI của trình tự (1293613), GB (U49845.1), tên trình tự (SCU49845), tên sinh vật lấy mẫu

(Saccharomyces cerevisiae), tên các đoạn gien trên trình tự (Axl2p, Rev7p)

và một loạt các thông tin khác

-Thông tin về các nucleotide của trình tự:

“GATCCTCCATATACAACGGT…”

Hình 1.5 Định dạng chuẩn FASTA dùng để lưu giữ thông tin trình tự DNA

Định dạng FASTA cũng được dùng để lưu giữ nhiều trình tự

>gi|1293613|gb|U49845.1|SCU49845 Saccharomyces cerevisiae TCP1-beta Gene, partial cds; and Axl2p (AXL2) and Rev7p (REV7) Genes, complete cds GATCCTCCATATACAACGGTATCTCCACCTCAGGTTTAGATCTCAACAACG GAACCATTGCCGACATGAGACAGTTAGGTATCGTCGAGAGTTACAAGCTA AAACGAGCAGTAGTCAGCTCTGCATCTGAAGCCGCTGAAGTTCTACTAAG

Trang 32

DNA/Protein trong cùng một file dữ liệu văn bản như minh họa ở hình 1.6

1.4.2 Định dạng dữ liệu sinh học theo dạng ALN/ClustalW

Dạng ALN có nguồn gốc từ chương trình khớp chuỗi ClustalW File

dữ liệu bắt đầu với từ “CLUSTAL” sau đó là các thông tin về kiểu chương trình clustal đã tạo ra file dữ liệu này Tiếp theo là các chuỗi đa clustal đã tạo

ra file dữ liệu Mỗi khối có thể có nhiều dòng, bắt đầu mỗi dòng là tên chuỗi, tiếp theo là các ký tự của chuỗi và cuối mỗi dòng là tổng số ký tự của chuỗi tính đến cuối dòng đó

1.4.3 GENBank

Một file dữ liệu chuỗi GENbank có thể chứa một hay nhiều chuỗi Mỗi chuỗi trong file dữ liệu dạng này gồm có nhiều dòng có kiểu khác nhau Các dòng chứa ký tự của chuỗi nằm giữa dòng chứa từ “ORIGIN” và dòng chứa hai dấu gạch chéo “//”

Trang 33

>gi|186556|gb|J05043.1|HUMIRSRE Human insulin receptor (IR) Gene, exon 1 AGATCTGGCCATTGCACTCCAGCCTGGGCAACAGAGAAAACTCCATCTAA AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAACAAAG AGAGAGAGAGAGAGAGAGAGGAACGGAACTTGGGGGGAGGATTTGCAA TTAGGTTAGGGATGGCCAGTTCAAGATGAAGCCATCCTGGAGTGTTACGG GCAAGGGAAATGCTGGGGCAAGGCCAGAGGCAGGATTAGGTTTGGCCTG

>gi|186429|gb|J00265.1|HUMINS01 Human insulin Gene, complete cds CTCGAGGGGCCTAGACATTGCCCTCCAGAGAGAGCACCCAACACCCTCCA GGCTTGACCGGCCAGGGTGTCCCCTTCCTACCTTGGAGAGAGCAGCCCCA GGGCATCCTGCAGGGGGTGCTGGGACACCAGCTGGCCTTCAAGGTCTCTG CCTCCCTCCAGCCACCCCACTACACGCTGCTGGGATCCTGGATCTCAGCTC

>gi|186436|gb|M26868.1|HUMINSHVR Human hypervariable 

CTGGGGCTGCTGTCCTAAGGCAGGGTGGGAACTAGGCAGCCAGCAGGGA GGGGACCCCTCCCTCACTCCCACTCTCCCACCCCCACCACCTTGGCCCATC CATGGCGGCATCTTGGGCCATCCGGGACTGGGGACAGGGGTCCTGGGGAC AGGGGTCCGGGGACAGGGTCCTGGGGACAGGGGTGTGAGGACAGGGGTC

Trang 34

độ biến đổi tính di truyền, hoặc nghiên cứu về đa dạng sinh học, xây dựng ngân hàng GEN (GEN bank)

Dữ liệu tin sinh học ngày càng tăng theo cấp số mũ do sự phát triển của các kỹ thuật giải trình tự Như vậy, vấn đề đặt ra là cần phải có biện pháp lưu trữ, quản lý, sử dụng và chia sẻ nguồn dữ liệu này Do đó mục tiêu là cần phải xây dựng những dữ liệu này thành một CSDL hoàn chỉnh để có thể thực hiện được mục đích trên

Trong đó, cơ sở dữ liệu về các trình tự DNA được giải trình tự bởi các trung tâm công nghệ sinh học khác nhau trên thế giới Để lưu giữ, và chia sẻ các dữ liệu đó, có thể sử dụng định dạng FASTA một cách rộng rãi như một định dạng chuẩn quốc tế cho tất cả các cơ sở dữ liệu, và chương trình phần mềm

Trang 35

CHƯƠNG 2: PHƯƠNG PHÁP ĐÁNH CHỈ SỐ GEN

ĐỂ TĂNG TỐC ĐỘ TÌM KIẾM

2.1 Giới thiệu

Sinh học phân tử thường xuyên truy vấn cơ sở dữ liệu hệ GEN với trình

tự tương đồng Một mục tiêu quan trọng là tìm kiếm tương đồng hay so sánh

trình tự, hoặc là xác định được hay không các trình tự bất kỳ trong cơ sở dữ liệu giống với trình tự truy vấn [8] Nếu hai trình tự giống nhau theo một tiêu chuẩn đã được xác định, ví dụ như khoảng cách, thì:

• Các trình tự có cùng cấu trúc hoặc chức năng Trong hầu hết các trường hợp, có một số thông tin là có sẵn về cấu trúc và chức năng của các trình tự trong cơ sở dữ liệu Một nhà khoa học có thể biết được thông tin về hình thức và chức năng của trình tự mới bằng cách nghiên cứu trình tự cùng loại đã biết

• Các trình tự có thể có chung trình tự gốc Nếu hai trình tự giống nhau,

có khả năng là cả hai trình tự tiến hóa từ một tổ tiên chung và mối quan hệ

tiến hóa có thể tồn tại giữa nguồn gốc của mỗi trình tự

• Nếu trình tự truy vấn là một phần trình tự, nó có thể có được thông tin

về vị trí của trình tự và vai trò của nó trong trình tự nguồn chứa nó

Tuy nhiên, tìm kiếm tương đồng hoặc tính toán tương tự có độ phức tạp thời gian của một trong hai tuyến tính hoặc chiều dài bậc hai của các trình tự (hoặc cơ sở dữ liệu) có liên quan Độ phức tạp thời gian như vậy là một vấn

đề nghiêm trọng đối với các trạng thái sau đây:

• Cơ sở dữ liệu hệ GEN tăng kích thước cả về số lượng và độ dài của trình tự, và kích thước được tăng gấp đôi sau mỗi 15 hoặc 16 tháng

Trang 36

• Số lượng các truy vấn đến các cơ sở dữ liệu là hơn 40.000 truy vấn mỗi ngày, đồng thời, số người sử dụng và tỷ lệ truy vấn đang phát triển rất nhanh chóng

• Nhu cầu khai thác một cơ sở dữ liệu trình tự cho thông tin hữu ích ngày càng tăng Điều này thường đòi hỏi làm việc với tất cả những cặp tính toán tương tự đúng với tất cả các trình tự; công việc như vậy sẽ cần một nguồn tài nguyên máy tính lớn và rất nhiều thời gian

Những yếu tố này làm tăng nhu cầu về khả năng tính toán cao, và nếu các kỹ thuật tìm kiếm đầy đủ trước kia là đối với bây giờ là không thực tế hoặc không kinh tế, thì cần phải tạo ra phương pháp mới và hiệu quả để tìm kiếm cơ sở dữ liệu hệ GEN [9]

Một hướng đã phát triển và đầy hứa hẹn trong tài liệu là đánh chỉ số cho các cơ sở dữ liệu trình tự hoặc các trình tự khảo sát ban đầu, và sau đó, dựa trên đánh chỉ số, lọc các tính toán để có được một câu trả lời hợp lý Hầu hết các chỉ số đại diện cho một trình tự bằng "trình tự" (hay motifs) của nó Các "trình tự" có thể là trình tự thực, hoặc trình tự mang nghĩa chuyển đổi (gọi là chỉ số chuyển đổi)

Trong hầu hết các trường hợp, một chỉ số là một phần của cơ sở dữ liệu, do đó chi phí đánh giá truy vấn, ví dụ, thời gian tính toán và yêu cầu bộ nhớ, có thể giảm Khi tất cả các chỉ số không phải là một phần của cơ sở dữ liệu, truy cập vẫn có thể được giới hạn trong một phần nhỏ của các chỉ số được tạo ra dựa trên một bộ lọc hoặc hàm lọc

Như các phương pháp đánh chỉ số dựa trên tìm kiếm hệ GEN tương đồng, Navarro và cộng sự năm 2001, đi theo hai hướng: cấu trúc dữ liệu và phương pháp tìm kiếm Dựa trên việc phân loại, các tác giả đã chỉ ra rằng các lựa chọn thay thế hứa hẹn nhất là những tìm kiếm điểm cân bằng tối ưu giữa

Ngày đăng: 23/08/2016, 15:20

HÌNH ẢNH LIÊN QUAN

Bảng 1.1. Nhiệm vụ của một số Bộ, ngành về bảo tồn quỹ GEN quốc gia - Phương pháp đánh chỉ số cho cơ sở dữ liệu GEN để tăng tốc độ tìm kiếm
Bảng 1.1. Nhiệm vụ của một số Bộ, ngành về bảo tồn quỹ GEN quốc gia (Trang 17)
Bảng 1.2. Kết quả bảo tồn, lưu giữ nguồn GEN sinh vật - Phương pháp đánh chỉ số cho cơ sở dữ liệu GEN để tăng tốc độ tìm kiếm
Bảng 1.2. Kết quả bảo tồn, lưu giữ nguồn GEN sinh vật (Trang 18)
Bảng 1.3.  Tên đầy đủ, tên viết tắt của năm loại nucleotide. - Phương pháp đánh chỉ số cho cơ sở dữ liệu GEN để tăng tốc độ tìm kiếm
Bảng 1.3. Tên đầy đủ, tên viết tắt của năm loại nucleotide (Trang 19)
Hình 1.1.  Cấu trúc xoắn kép của một trình tự DNA - Phương pháp đánh chỉ số cho cơ sở dữ liệu GEN để tăng tốc độ tìm kiếm
Hình 1.1. Cấu trúc xoắn kép của một trình tự DNA (Trang 20)
Hình 1.2.  Minh họa cấu trúc của một axít amin - Phương pháp đánh chỉ số cho cơ sở dữ liệu GEN để tăng tốc độ tìm kiếm
Hình 1.2. Minh họa cấu trúc của một axít amin (Trang 21)
Hình 1.3.  Minh họa một đoạn GEN trong cấu trúc DNA - Phương pháp đánh chỉ số cho cơ sở dữ liệu GEN để tăng tốc độ tìm kiếm
Hình 1.3. Minh họa một đoạn GEN trong cấu trúc DNA (Trang 22)
Hình 1.4.  Quá trình tổng hợp Protein từ đoạn DNA - Phương pháp đánh chỉ số cho cơ sở dữ liệu GEN để tăng tốc độ tìm kiếm
Hình 1.4. Quá trình tổng hợp Protein từ đoạn DNA (Trang 23)
Hình 2.1. Cơ chế ánh xạ trình tự - Phương pháp đánh chỉ số cho cơ sở dữ liệu GEN để tăng tốc độ tìm kiếm
Hình 2.1. Cơ chế ánh xạ trình tự (Trang 38)
Hình 2.2. Sơ đồ thuật toán BLAST - Phương pháp đánh chỉ số cho cơ sở dữ liệu GEN để tăng tốc độ tìm kiếm
Hình 2.2. Sơ đồ thuật toán BLAST (Trang 54)
Hình 3.2. Cơ sở dữ liệu của NCBI - Phương pháp đánh chỉ số cho cơ sở dữ liệu GEN để tăng tốc độ tìm kiếm
Hình 3.2. Cơ sở dữ liệu của NCBI (Trang 58)
Hình 3.3. Cơ sở dữ liệu thử nghiệm - Phương pháp đánh chỉ số cho cơ sở dữ liệu GEN để tăng tốc độ tìm kiếm
Hình 3.3. Cơ sở dữ liệu thử nghiệm (Trang 59)
Hình 3.4: Giao diện chính - Phương pháp đánh chỉ số cho cơ sở dữ liệu GEN để tăng tốc độ tìm kiếm
Hình 3.4 Giao diện chính (Trang 61)
Hình 3.5: Thông báo lỗi từ hệ thống BLAST khi không tìm thầy dữ liệu về - Phương pháp đánh chỉ số cho cơ sở dữ liệu GEN để tăng tốc độ tìm kiếm
Hình 3.5 Thông báo lỗi từ hệ thống BLAST khi không tìm thầy dữ liệu về (Trang 63)
Hình 3.6: Giao diện nhập dữ liệu - Phương pháp đánh chỉ số cho cơ sở dữ liệu GEN để tăng tốc độ tìm kiếm
Hình 3.6 Giao diện nhập dữ liệu (Trang 64)
Hình 3.7: Kết quả chạy thuật toán BLAST - Phương pháp đánh chỉ số cho cơ sở dữ liệu GEN để tăng tốc độ tìm kiếm
Hình 3.7 Kết quả chạy thuật toán BLAST (Trang 65)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w