Trần Văn Lăng ở Phân viện Công nghệ thông tin tại TPHCM nay là Viện Cơ học và Tin học ứng dụng; Viên Vệ sinh dịch tễ trung ương; và một số bệnh viện, … Mặc dù nhiều nghiên cứu về virus c
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG
* * *
TRƯƠNG THỊ ĐỨC
NGHIÊN CỨU PHÁT TRIỂN THUẬT TOÁN PHÂN CỤM CÁC TRÌNH TỰ SINH HỌC DỰA TRÊN MỨC ĐỘ TƯƠNG ĐỒNG
Chuyên ngành : Công nghệ thông tin
Luận văn thạc sĩ Công nghệ thông tin
NGƯỜI HƯỚNG DẪN KHOA HỌC :
PGS TS TRẦN VĂN LĂNG
Đồng Nai – Năm 2011
Trang 3TÓM TẮT
So sánh trình tự nhằm tìm kiếm, phân loại trình tự chuỗi, gene vẫn là một bài toán lớn của sinh tin học (Bioinfomation) Phổ biết hiện nay là so sánh đa trình tự (MSA - Multiple Sequence Alignment) MSA đóng vai trò quan trọng trong sinh tin học nói chung và lĩnh vực tìm kiếm gene nói riêng MSA là một bài toán NP và hoàn toàn chưa có giải pháp trọn vẹn để tìm lời giải tối ưu cho bài toán Nhiều phương pháp được sử dụng và nhiều phần mềm đã được đưa ra nhằm giải quyết bài toàn khi tập dữ liệu đầu vào lớn
Với nguồn dự liệu sinh tin học phát triển nhanh như hiện nay, việc tìm kiếm các trình tự tương đồng mất nhiều thời gian Luận văn trình bày phương pháp kết hợp hai thuật toán DBSCAN và thuật toán BLAST, áp dụng thuật toán DBSCAN (Density Based Spatial Clustering of Applications with Noise) trong việc phân cụm (gom nhóm) trình tự trong dữ liệu, tiến hành khai phá dữ liệu, từ đó đưa ra kết quả các nhóm trình tự có sự tương đồng với phạm vi khai phá giới hạn lại, bước tiếp theo dùng thuật toán BLAST tìm kiếm nhằm giúp gia tăng thời gian xử lý thông tin
Cấu trúc luận văn như sau, chương thứ nhất giới thiệu về vấn đề cần giải quyết, chương thứ hai trình bày các khái niệm sinh về sinh học phân tử, chương thứ
ba giới thiệu các phương pháp sắp hàng trình tự, chương thứ 4 trình bày thuật toán DBSCAN, chương thứ 5 trình bày thuật toán BLAST, chương thứ 6 kết hợp thuật toán DBSCAN và thuật toán BLAST và chương kết luận
Trang 4MỤC LỤC
LỜI CẢM ƠN i
TÓM TẮT ii
MỤC LỤC iii
DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT vi
DANH MỤC HÌNH vii
CHƯƠNG 1 TỔNG QUAN VỀ SINH TIN HỌC 1
1.1 Tổng quan 1
1.2 Mục tiêu của luận văn 12
CHƯƠNG 2 KHÁI NIỆM TRONG SINH HỌC 13
2.1 Amino acid và tính chất 13
2.2 DNA 15
2.3 RNA 16
2.4 Protein 17
2.5 Chức năng của protein 19
2.6 Phân lớp cấu trúc protein 20
2.6.1 Cấu trúc bậc 1 20
2.6.2 Cấu trúc protein bậc 2 21
2.6.3 Cấu trúc protein bậc 3 27
2.6.4 Cấu trúc bậc 4 28
CHƯƠNG 3 SẮP HÀNG TRÌNH TỰ 31
3.1 Định nghĩa 31
3.2 Phân loại 31
3.2.1 Sắp hàng từng cặp (Pairwise Sequence Alignment-PSA) 32
3.2.2 Sắp hàng đa trình tự (Multiple Sequence Alignment-MSA) 32
3.3 GAP 33
3.4 Giá trị GAP 34
3.5 Ma trận đánh giá 35
3.6 Phương pháp đánh giá 38
Trang 53.7 Một số phương pháp xếp hàng trình tự 39
3.7.1 Phương pháp sắp hàng chính xác (Exact algorithms) 39
3.7.2 Phương pháp sắp hàng lũy tiến toàn cục (Progressive algorithms) 39
3.7.3 Phương pháp sắp hàng lặp (Iterative algorithms) 40
3.7.4 Phương pháp dựa trên mô hình Makov ẩn (Hidden Markov Model-HMM) 40
CHƯƠNG 4 THUẬT TOÁN DBSCAN 42
4.1 Tổng quan về thuật toán phân cụm 42
4.2 Thuật toán gom nhóm 43
4.3 Khái niệm dựa trên mật độ của các nhóm 44
4.3.1 Định nghĩa 44
4.3.2 Bổ đề 47
4.4 Thuật toán DBSCAN 47
4.5 Xác định thông số Eps and MinPts 49
4.6 Điểm mạnh của thuật toán 51
CHƯƠNG 5 THUẬT TOÁN BLAST 52
5.1 Thuật toán Needleman & Wunsch 52
5.2 Thuật toán Smith- Waterman 55
5.3 Thuật toán BLAST 56
5.3.1 Các bước thực thi thuật toán BLAST 57
5.3.2 Các chương trình BLAST mở rộng 58
CHƯƠNG 6 THUẬT TOÁN KẾT HỢP 60
6.1 Ý tưởng thuật toán 60
6.2 Phương pháp 60
6.2.1 Khoảng cách giữa hai trình tự 60
6.2.2 Đơn vị đo không đồng dạng giữa hai trình tự x và y 61
6.2.3 Thuật toán gom nhóm dựa theo mật độ 61
6.2.4 Thuật toán kết hợp 62
Trang 6CHƯƠNG 7 KẾT QUẢ 64
7.1 Bài toán cần giải quyết 64
7.2 Cấu trúc mẫu trình tự 64
7.2.1 FASTA 64
7.2.2 Dạng Genbank 65
7.3 Kết quả chương trình 67
7.4 Kết luận 69
7.5 Hướng phát triển 69
TÀ L Ệ TH M HẢO
Trang 7DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT
HMM Hidden Markov Model
IST Information Society Technologies Programme
IVDB Influenza Virus Database
mRNA messenger RNA
MSA Multiple Sequence Alignment
MSA Multiple Sequence Alignment
MSP Maximal Segment Pair
NCBI National Center for Biotechnology Information
PSA Pairwise Sequence Alignment
RNA Ribonucleic Acid
rRNA ribosomal RNA
STREP Strategic Targeted Research Project
T Thymine, Thymidine
tRNA transfer RNA
Trang 8DANH MỤC HÌNH
Hình 1.1: Dự án HapMap 4
Hình 1.2: Phòng thí nghiệm DIL 5
Hình 1.3: Public Health Genetics Unit 6
Hình 1.4: Bioinformatics và Computation 7
Hình 1.5: Hệ thống thông tin virus cúm của NCBI 8
Hình 1.6: Hệ thống thông tin virus cúm IVDB 9
Hình 2.1: Cơ bản cấu trúc của một acid α-amino 13
Hình 2.2: 20 amino acid 14
Hình 2.3: Sự khác biệt giữa đường của ADN và RNA 16
Hình 2.4: Chuỗi xoắn đơn RNA 17
Hình 2.5: Hình thức của protein 18
Hình 2.6: Cấu trúc protein bậc 1 21
Hình 2.7: Cấu trúc protein bậc 2 22
Hình 2.8: Mô hình xoắn α 23
Hình 2.9: Cấu trúc gấp nếp β 24
Hình 2.10: Siêu cấu trúc bậc 2 24
Hình 2.11: Domain 25
Hình 2.12: Cấu trúc bậc 3 của protein 28
Hình 2.13: Cấu trúc bậc 4 của protein 29
Hình 2.14: -a: Collagen – Một loại protein sợi 29
Hình 2.14: -b: Haemoglobin – protein hình cầu 30
Hình 2.14: -c: Bacteriorhodopsin – protein màng 30
Hình 3.1: Cấu trúc một PSA 32
Hình 3.2: So sánh đa trình tự 32
Hình 3.3: Các loại GAP 34
Hình 3.4: Giá trị của GAP 35
Hình 3.5: Ma trận Blosum 35
Hình 3.6: Tính score bằng ma trận đánh giá 38
Hình 3.7: Phương pháp đánh giá Sum of Pair 39
Hình 4.1: Đối tượng biên và đối tuợng lõi 44
Hình 4.2: Quan hệ tới được trực tiếp theo mật độ 45
Hình 4.3: Quan hệ tới được theo mật độ 46
Hình 4.4: Quan hệ kết nối theo mật độ 46
Hình 4.5: Đồ thị sorted 4-dsit 50
Hình 6.1: Lưu đồ kết hợp thuật toán BDSCAN và thuật toán BLAST 63
Hình 7.1: Giao diện công cụ tìm kiếm trình tự sinh học 67
Hình 7.2: Giao diện chức năng tìm kiếm BLASTN 68
Hình 7.3: Giao diện công cụ hỗ trợ tìm kiếm virus cúm 68
Hình 7.4: Kết quả tìm kiếm trình tự có độ tương đồng 69
Trang 9CHƯƠNG 1 TỔNG QUAN VỀ SINH TIN HỌC
Chương này giới thiệu tổng quan về đề tài, trình bày một số công trình liên quan đến nội dung của luận văn và mục tiêu của đề tài
1.1 T
Trong vài thập kỷ qua, sinh học phân tử đã có nhiều bước phát triển mạnh
mẽ, một loạt các công cụ ứng dụng sinh học ra đời góp phần thúc đẩy quá trình giải
mã một số lượng lớn trình tự bộ gen ở nhiều loài sinh vật
Sự phát triển mạnh mẽ của công nghệ sinh học đã giúp chúng ta giải mã bộ gen của virus cúm trong một thời gian ngắn với chi phí vừa phải Một lượng lớn dữ liệu sinh học phân tử (các trình tự DNA/protein) của virus cúm đã được giải mã và lưu trữ ở các cơ sở dữ liệu dùng chung của thế giới như Trung tâm Thông tin về công nghệ sinh học Hoa Kỳ - NCBI (National Center for Biotechnology Infor-mation) NCBI hiện đang lưu giữ hơn 100.000 trình tự DNA/protein của virus cúm được thu thập và giải mã từ nhiều quốc gia trên thế giới trong suốt thời gian qua
Với một lượng dữ liệu khổng lồ đã được thu thập, việc xây dựng các hệ thống thông tin, xây dựng các công cụ tìm kiếm và phân tích dữ liệu đang được phát triển mạnh mẽ trên thế giới Qua đó giúp chúng ta hiểu được cơ chế lây nhiêm, tạo
ra vắc-xin mới, theo dõi và kiểm soát dịch bệnh
Sinh tin học là một ngành khoa học mà trong đó có sự kết hợp giữa sinh học, khoa học máy tính và công nghệ thông tin Sinh tin học sử dụng các thuật toán phân tích tối ưu xử lý dữ liệu sinh học thông qua các thiết bị phần cứng và hệ thống mạng
Trên thế giới, đã có nhiều phần mềm để xử lý các trình tự sinh học DNA và protein như: Phần mềm PC-genes, Discovery Studio gene, DNASIS, DNAMAN, VECTOR NTI, AnnHyb, DNA Club, Plasmid Processor, Oligos, v.v… Những phần mềm này có một số chức năng:
Chuyển mã trình tự DNA sang RNA,
Hiển thị cặp trình tự chính và trình tự bắt cặp
Trang 10 Tìm vị trí của một enzyme giới hạn trong một trình tự
Vẽ bản đồ plasmid, hỗ trợ thiết kế phân tử
Tìm kiếm các đoạn mồi (primer)
So sánh mức độ tương đồng (similarity) giữa các trình tự
Vẽ cây biểu diễn mức độ tương đồng giữa các trình tự (biểu đồ dogram)
den- Tìm kiếm các trình tự, các đoạn lặp (motif), các enzyme trong cơ sở
dữ liệu
Ở Châu Âu đang triển khai dự án DataMiningGrid từ năm 2004-2006, đó là Strategic Targeted Research Project (STREP) của Information Society Technolo-gies Programme (IST)
Trong nước, sự đóng góp của các nhà sinh học cũng khá phong phú như: Viện Công nghệ Sinh học thuộc Viện Khoa học và Công nghệ Việt Nam, Phòng Kỹ thuật di truyền, Phòng Công nghệ ADN ứng dụng, Phòng Hoá sinh protein, Phòng
Vi sinh vật học phân tử, Viện Sinh học Nhiệt đới, khoa sinh học phân tử của Trường Đại học Khoa học tự nhiên đã có rất nhiều thành tựu Tuy nhiên, sự đóng góp của các nhà tin học vào lĩnh vực này còn khá khiêm tốn Cũng đã có nhiều nhóm nghiên cứu xây dựng trang web, phần mềm để xử lý và hiển thị thông tin sinh học Chẳng hạn như nhóm nghiên cứu của Trung tâm Phát triển Công nghệ thông tin, Đại Học Quốc Gia do GS Hoàng Văn Kiếm chủ trì; nhóm của GS Hồ Tú Bảo (http://www.tinsinhhoc.org); nhóm của Phân Viện Công nghệ thông tin tại TPHCM (Nay là Viện Cơ học và Tin học ứng dụng), do PGS Trần Văn Lăng chủ trì (http://bio.ioit-hcm.ac.vn, http://biogrid.ioit-hcm.ac.vn) Tuy kết quả còn hạn chế nhưng đây là một đóng góp đáng kể cho ngành sinh tin học đang mới hình thành ở Việt Nam
Trong thời gian gần đây có nhóm của PGS Từ Minh Phương, Học viện Công nghệ Bưu chính Viễn thông; của TS Lê Sỹ Vinh, TS Hoàng Xuân Huấn, Trường Đại học Công nghệ, Đại học quốc gia Hà Nội; của TS Trần Đăng Hưng, Trường Đại học Sư phạm Hà Nội cũng đã có những công trình nghiên cứu
Trang 11Cho đến nay, nhiều bộ gene đã được giải mã gần như hoàn toàn Dự án giải trình tự tất cả 24 nhiễm sắc thể của bộ gene người cũng đã hoàn thành từ cuối năm
2000 Có thể nói chưa bao giờ thông tin sinh học trở nên phong phú và đa dạng như hiện nay Để tìm kiếm và khai phá thông tin trong khối lượng dữ liệu đồ sộ như vậy, công nghệ thông tin đã được ứng dụng vào sinh học một cách khá triệt để Từ đó, một ngành khoa học hoàn toàn mới ra đời, đó là Sinh tin hoc (Bioinformatics)
Với khối lượng lớn dữ liệu sinh học tác động qua lại lẫn nhau cũng đặt ra nhiều vấn đề Chẳng hạn, bộ gene người đã được giải mã, tuy nhiên để hiểu và sử dụng được bộ mã này cần phải có những kiến thức về cấu trúc, chức năng của pro-tein, từ đó mới vận dụng được những kiến thức của bộ gene vào thực tế, tác động vào sự di truyền
Bên cạnh đó, một trong những hướng phát triển nhanh nhất của ngành khoa học máy tính là khai phá dữ liệu (data mining) Khai phá dữ liệu là một phần của quá trình phát hiện tri thức trong các cơ sở dữ liệu Các kỹ thuật khai phá dữ liệu, như máy học, đã được áp dụng để giải quyết các bài toán khó trong lĩnh vực khoa học, đặc biệt là sinh tin học Các kỹ thuật máy học có thể ứng dụng bao gồm chương trình logic quy nạp, thuật giải di truyền, mạng neural, phương pháp thống
kê, phương thức Bayesian, cây quyết định và mô hình Markov ẩn
Mặc dù việc nghiên cứu sinh tin học không còn quá mới mẻ, có nhiều ứng dụng và chương trình đã được thiết lập để thể hiện và dự đoán các cấu trúc bậc 2, 3 của protein Nhưng hiện tại, việc xây dựng các thuật toán, chương trình để thể hiện
và có thể đưa ra các dự đoán gần chính xác cấu trúc của protein vẫn là một thử thách lớn
Virus cúm (influenza) - một loại RNA virus - là nguyên nhân gây ra bệnh cúm ở người và động vật Virus cúm được chia thành ba loại chính là cúm A, cúm
B, và cúm C, cúm A và cúm B có 8 loại gen giống nhau, cúm C có 7 loại gen Với khả năng biến đổi và lan truyền nhanh từ động vật sang động vật, từ động vật sang người, và đặc biệt là từ người sang người, virus cúm là một trong những loài vi-
Trang 12rus nguy hiểm nhất cho nền kinh tế cũng như sức khỏe con người trên toàn thế giới
từ trước đến nay
Do mức độ đặc biệt nghiêm trọng của virus cúm, các nghiên cứu về virus cúm đã được tiến hành nhiều năm nay Các nhà khoa học từng bước hiểu được cấu trúc, cơ chế biến đổi và lây truyền của virus cúm, qua đó tìm ra các loại vacxin phòng chống Do khả năng biến đổi nhanh của virus cúm, cho nên quá trình nghiên cứu và sản xuất các loại vacxin để cách phòng chống các chủng virus cúm mới được tiến hành thường xuyên
Dự án HapMap (http://www.hapmap.org/thehapmap.html.en) là một dự án quốc tế, có nhiều nước tham gia như: Canada, China, Japan, Nigeria, United King-dom, United States Mục tiêu chính của dự án là giúp cho các nhà nghiên cứu có thể tìm thấy các gen có liên đới với trạng thái bệnh, trạng thái khoẻ, giúp các nhà điều chế thuốc, có một chế độ điều dưỡng thích hợp
Trang 13Pub-lic Health – Primary Care, Wellcome Trust Sanger Institute và một thành viên của
tổ chức quốc tế của Type 1 Diabetes Genetics Consortium Mục tiêu chính của DIL
là nhận dạng các gen và cơ cấu phân tử mà nó góp phần là suy yếu tác dụng thuốc trong bệnh tiểu đường loại 1 và trường hợp bệnh tự miễm dịch Từ đó điều chỉnh các chữa bệnh để ngăn chặn bệnh từ thời kỳ đầu
Hình 1.2: Phòng thí nghiệm DIL
Public Health Genetics Unit cung cấp tin tức và thông tin về di truyền và những ảnh hưởng của chúng trên sức khoẻ và ngăn chặn bệnh
Trang 14Hình 1.3: Public Health Genetics Unit
Ngoài các tổ chức nghiên cứu về thuật toán và dữ liệu, trên thế giới đã tồn tại những trường học dạy về các kỹ thuật để khai phá thông tin sinh học phân tử như Bioinformatics and Computational Biology Summer Institute (BCBSI, http://www.bioinformatics.iastate.edu/BBSI/index.html) tại Iowa State University, được hỗ trợ bởi National Institutes of Health (NIH) và National Science Foundation (NSF) Mục tiêu của chương trình này là cung cấp cho sinh viên các chuyên đề về khoa học sinh học, khoa học máy tính, toán học, và khoa học vật lý với các công nghệ sinh học liên quan
Trang 15Hình 1.4: Bioinformatics và Computation
Nổi bật trong các hệ thống đó là hệ thống thông tin virus cúm của NCBI (http://www.ncbi.nlm.nih.gov/genomes/FLU/ ) Hệ thống hiện lưu giữ hơn 100.000 trình tự DNA/protein của các loài virus cúm khác nhau Bên cạnh NCBI, Phòng thí nghiệm Quốc gia Los Alamos (http://flu.lanl.gov/) cũng xây dựng cơ sở
dữ liệu virus cúm Tuy nhiên Los Alamos chỉ cung cấp thông tin cho những đối tác làm việc với phòng thí nghiệm
Trang 16Hình 1.5: Hệ thống thông tin virus cúm của NCBI
Ở châu Á, viện nghiên cứu genome Bắc Kinh, Trung Quốc, xây dựng cơ sở
dữ liệu virus cúm IVDB (http://influenza.psych.ac.cn/ ) Hiện tại, IVDB lưu giữ khoảng hơn 43.875 trình tự DNA/protein của nhiều loại; nhiều chủng virus cúm khác nhau khắp trên thế giới
Trang 17Hình 1.6: Hệ thống thông tin virus cúm IVDB
Tuy nhiên, các thông tin cung cấp chỉ chi tiết đến mức độ quốc gia Tức là không chi tiết đến mức độ các tỉnh thành trong một quốc gia
Việt Nam với khí hậu nhiệt đới là một trong những quốc gia chịu ảnh hưởng nặng nề của virus cúm Do tính chất đặc biệt nguy hiểm của virus cúm, hàng loạt các nghiên cứu đã được tiến hành ở Việt Nam Sự phát triển mạnh mẽ của công nghệ sinh học ở Việt Nam đã giúp chúng ta đã tiến hành nhiều nghiên cứu về vi-rus cúm ở mức độ sinh học phân tử (molecular biology) Việc giải mã các trình tự DNA/protein hay thậm chí cả hệ gen của virus đã được tiến hành trong thời gian qua Hiện tại có hơn 2.800 trình tự DNA/protein của virus cúm (chủ yếu là cúm gia cầm H5N1) đã được giải mã trên nhiều tỉnh thành ở Việt Nam từ năm 2001 đến nay
Ở Việt Nam đã có một số cơ quan, tổ chức tiến hành nghiên cứu về lĩnh vực này như: Viện Công nghệ sinh học vủa Viện Khoa học và Công nghệ Viêt Nam; Cục Thú y trung ương; nhóm nghiên cứu của TS Lê Sỹ Vinh ở Trường Đại học Công
Trang 18nghệ thuộc Đại học quốc gia Hà Nội; nhóm nghiên cứu của PGS Trần Văn Lăng ở Phân viện Công nghệ thông tin tại TPHCM (nay là Viện Cơ học và Tin học ứng dụng); Viên Vệ sinh dịch tễ trung ương; và một số bệnh viện, … Mặc dù nhiều nghiên cứu về virus cúm đã được tiến hành ở Việt Nam, các nghiên cứu chủ yếu tập trung vào việc giải mã các trình tự DNA và protein, qua đó tiến hành một số phân tích để tim hiểu mối quan hệ giữa chúng
Tuy nhiên, hiện nay chúng ta còn thiếu một hệ thống tin giúp các nhà quản lý (bộ, ngành y tế); các nhà chuyên môn; và người dân có được thông tin, dữ liệu, cũng như những công cụ phân tích (thống kê, mô hình) về virus cúm trên thế giới, đặc biệt chi tiết hóa cho virus cúm ở Việt Nam
Trong một hệ thống cung cấp thông tin virus cúm, nhu cầu tìm kiếm và hiển thị kết quả là cần thiết, và làm thế nào để hiển thị kết quả tìm kiếm dễ hiểu cho người dùng?
Ở Việt Nam, lĩnh vực này cũng chỉ xuất hiện ở các viện nghiên cứu, trong một vài trường đại học lớn, và cũng chỉ dừng lại ở trong giới nghiên cứu về Công nghệ sinh học Hoạt động của Khoa Công nghệ Sinh học, Trường Đại học Khoa học
tự nhiên TP Hồ Chí Minh; Viện Công nghệ sinh học, Viện Khoa học và Công nghệ Việt Nam; Trường Đại học Y Dược TP Hồ Chí Minh là những minh chứng
Phân viện Công nghệ thông tin tại TP Hồ Chí Minh, trong những năm qua
đã hợp tác với một số nhà nghiên cứu của Viện Công nghệ Sinh học; của NCBI/NLM/NIH và NIAID/NIH đã xây dựng phần mềm HiBio 0 phục vụ việc nghiên cứu Công nghệ Sinh hoc với các chức năng:
Thiết kế mồi để hiển thị cặp mồi tốt nhất, các đoạn mồi xuôi, các đoạn mồi ngược, hoặc sắp xếp theo các tính chất
Thiết kế bản đồ plasmid với các tính năng cần thiết ở các dạng khác nhau, trong đó có cả việc đề xuất những enzym cắt
Trang 19Có thể sử dụng để dự đoán cấu trúc protein bậc 2, xem cấu trúc bậc 3 của một protein nào đó;
Sử dụng để vẽ cây sinh loài theo hai dạng có gốc và không gốc;
Vấn đề tìm kiếm motif cũng được đặt ra trong HiBio;
trợ cho việc tìm kiếm trình tự sinh học của virus cúm Luận văn Cải tiến thuật toán
ClustalW trong việc sắp hàng đa trình tự của ThS Võ Hồng Bảo Châu cũng đề cập
đến một số phương pháp giúp sắp hàng các trình tự từ đó hỗ trợ cho việc tìm kiếm mức độ tương đồng của nhiều trình tự sinh học Đối với việc nghiên cứu các trình tự sinh học protein, nhóm nghiên cứu dưới sữ hướng dẫn của PGS TS Trần Văn Lăng cũng đã có một vài kết quả bước đầu như:
Văn Đình Vỹ Phương (2011), , Luận văn Thạc sĩ CNTT, Trường Đại học Lạc Hồng, Khóa I, 2011, … tr
Văn Đình Vỹ Phương, Trần Văn Lăng, Trần Hành (2009), Chẩn đoán cấu
trúc bậc 3 của Protein, Kỷ yếu Hội thảo quốc gia lần thứ 12 về Một số
vấn đề chọn lọc của Công nghệ thông tin và Truyền thông, Biên Hòa, 06/8/2009, Nxb Khoa học và Kỹ thuật, Hà Nội, 2010, tr 73-80
05- Văn Đình Vỹ Phương, Phan Mạnh Thường, Trầ Vă Lă (2010), So
sánh cấu trúc protein sử dụng mô hình tổng quát, Kỷ yếu Hội thảo quốc
Trang 20gia lần thứ 13 về Một số vấn đề chọn lọc của Công nghệ thông tin và Truyền thông, Hưng Yên, 19 – 20/8/2010, Nxb Khoa học và Kỹ thuật, Hà
Nội, 2011, tr 295-300
1.2 Mục tiêu của luậ vă
Luận văn được thực hiện với mục tiêu nghiên cứu, áp dụng và kết hợp thuật toán BLAST [10] và DBSCAN [9] để giải quyết bài toán tìm mối quan hệ giữa hai trình tự và để tối ưu thời gian xử lý, giới hạn phạm vi nguồn dữ liệu tìm kiếm do nguồn dữ liệu lớn
Khi người dùng cung cấp một trình tự virus cần tìm kiếm thông tin, các virus
có cấu trúc tương đồng Sử dụng BLAST đưa ra những trình tự tương đồng với trình
tự truy vấn Tuy nhiên, do số lượng các trình tự trong CSDL lớn nên số lượng trình
tự kết quả lớn, dẫn đến người dùng khó kiểm tra hết được các kết quả tìm được Ví vậy, mục tiêu của đề tài nhằm:
Nghiên cứu thuật toán khai thác dữ liệu, từ đó phát triển thuật toán phân cụm kết quả tìm kiếm các trình tự sinh học sao cho tối ưu về mức độ tương đồng Kết quả thử nghiệm được ứng dụng trên nguồn dữ liệu về virus cúm
- Nghiên cứu mối quan hệ láng giềng giữa hai trình tự
- Xây dựng thuật toán để tìm kiếm các trình tự sinh học
- Phát triển thuật toán phân cụm kết quả thành từng nhóm
- Xây dựng modul biểu diễn các trình tự kết quả thành từng nhóm với các độ tương đồng khác nhau
Trang 21CHƯƠNG 2 KHÁI NIỆM TRONG SINH HỌC
Trong chương trình bày các khái niệm và tính chất trong sinh học
2.1 Amino acid và tính chất
Amino acid là những chuỗi tạo thành protein Một amino acid là một phân tử
có chứa cả hai carboxyl và amin nhóm chức năng Một α-amino acid như trong hình 2.1 là một trong các nhóm amino (nhóm R) và chức năng carboxylate được gắn vào cùng một nguyên tử cacbon, được gọi là α-carbon Các α-amino acid khác nhau bởi các thành phần tạo nên chúng Nhóm R trong Hình 2.21 xác định amino acid, R có thể là một trong hai mươi amino acid tiêu chuẩn như trong Hình 2.6 [7]
Hình 2.1: Cơ bản cấu trúc của một acid α-amino
Một amino acid được phân loại, dựa trên các chuỗi đính kèm, như là một
ac-id yếu, ưa nước hay kỵ nước Các chuỗi amino acac-id nhánh là những acac-id khó đoán như Leucin, isoleucine và valine, như trong Hình 2.2
Trang 22Hình 2.2: 20 amino acid
20 amino acid có liên quan đến sinh tổng hợp protein và được quy định bởi
mã di truyền, cùng với một số thuộc tính của chúng, được thể hiện trong Bảng 1
Bảng 1: 20 amino acid
STT Amino Acid 3-letter 1-letter
Trang 23DNA là một chuỗi các nucleotic sắp xếp kế tiếp nhau Nucleotic có 4 loại và được ký hiệu là A (Adenine), G (Guanine), C (Cytosine), T (Thymine) Ta có bộ ký hiệu cho các nucleotic như sau: Nuc={A, C, G, T}
Protein là biểu hiện của vật chất sống Nó tham gia hầu hết vào các quá trình sinh học và là cơ sở của sự đa dạng về cấu trúc và chức năng của tất cả các sinh vật Trong sự sống, protein được tạo ra trong quá trình dịch mã từ đoạn gene biểu hiện chứa thông tin di truyền trong DNA Protein là một chuỗi các trình tự amino acid nối kết nhau bằng các liên kết tạo nên cấu trúc (được chia thành nhiều dạng cấu trúc như bậc 1, bậc 2, và cấu trúc không gian bậc 3, bậc 4, bậc 5) Amino acid gồm 20 loại được ký hiệu tắt bởi các chữ cái Mỗi amino acid được mã hóa từ bộ 3 nucleotic Tuy có 64 bộ mã hóa nhưng chỉ có 20 loại amino acid và một số mã làm tín hiệu cho việc dịch mã từ DNA Bộ ký hiệu cho các amino acid : AA={A, C, D, E, F, G,
Trang 24G, I, K, L, M, N, P, Q, R, S, T, V, W, Y} Trình tự các protein là một chuỗi trình tự các amino acid
Là chuỗi xoắn đơn
Đường Pentose là Ribose
Thymine được thay bởi Uracil (U)
Hình 2.3: Sự khác biệt giữa đường của ADN và RNA
Trong tế bào có 3 loại RNA chính, tham gia vào quá trình dịch mã sang tein:
Pro- mRNA (RNA thông tin): mang thông tin mã hóa cho Amino Acid
tRNA (RNA vận chuyển): mang Amino Acid tham gia quá trình dịch
mã
Trang 25 rRNA (RNA ribosome): tham gia cấu trúc ribosome
Ngoài ra còn có RNA mạch đơn, kép là vật chất di truyền ở virus, nhiều phân
tử RNA rất nhỏ có chức năng điều hoà, RNA có chức năng như 1 enzim (ribozim) Mỗi loại RNA có cấu trúc, thời gian tồn tại trong tế bào khác nhau phù hợp với chức năng
Hình 2.4: Chuỗi xoắn đơn RNA
2.4 Protein
Protein là hợp chất hữu cơ lớn được tạo thành từ các amino acid bố trí trong một chuỗi tuyến tính và liên kết với nhau bằng các peptide xương sống giữa car-boxyl và nhóm amin của amino acid liền kề (xem Hình 2.5)
Trang 26Hình 2.5: Hình thức của protein
Trong Hình 2.5 , R1 là một amino acid và R2 là một amino acid khác R1 và R2 có thể là một trong hai mươi amino acid có sẵn Khi amino acid được nối với nhau, chúng tạo thành một liên kết peptide, các liên kết peptide liên kết hóa học các amino acid monome trong một chuỗi protein Mỗi protein có duy nhất chuỗi amino acid của nó, được gọi là cấu trúc chính Amino acid có thể được liên kết với nhau theo các tuần tự khác nhau để tạo thành một số lượng lớn các protein Tùy thuộc vào cách mà các acid amino được kết hợp, chức năng của các amino acid khác nhau
Thứ tự các amino acid trong một protein được xác định bởi một gene và mã hóa trong mã di truyền Các protein nhỏ nhất được biết đến là TRP lồng, được làm
từ 20 amino acid Những protein lớn nhất được biết đến là Tintin, được tạo thành từ 29.926 amino acid và có nguồn gốc từ cá Trên trung bình sẽ có 200-300 amino acid trong protein Protein làm việc cùng nhau để thực hiện một chức năng cụ thể Chúng cũng kết hợp để tạo thành phức hợp ổn định Protein là một phần thiết yếu của các sinh vật sống và tham gia vào mọi quá trình trong tế bào Hầu hết các protein là các enzyme hoạt động như chất xúc tác cho phản ứng sinh hóa và quan trọng đối với sự trao đổi chất Chúng cũng có cấu trúc và chức năng hóa học tạo thành hình dạng tế bào Protein cũng chịu trách nhiệm cho các chức năng quan trọng như tín hiệu tế bào, các phản ứng miễn dịch, độ bám dính tế bào và hoạt động trong chu kỳ tế bào Protein là một thành phần thiết yếu trong chế độ ăn uống của chúng ta Trong quá trình tiêu hóa, một động vật hấp thụ protein thành các amino acid tự do, có thể được sử dụng để tổng hợp protein Protein ngắn được tổng hợp hóa học trong phòng thí nghiệm theo quy trình được gọi là peptide tổng hợp
Trang 272.5 Chức ă của protein
Protein liên quan trực tiếp đến hoạt động hàng ngày của cơ thể sống Mọi phản ứng trao đổi chất trong cơ thể sống để thực hiện được đều phải dựa vào hoạt động của protein 0[2] Trong đó, có các hoạt động chính của protein như:
Chức ă xúc tác
Quá trình trao đổi chất trong tế bào diễn ra qua nhiều phản ứng hóa sinh được xúc tác hay tham gia của các enzym Bản chất của enzyme là các phân tử pro-tein
Trong quá trình tổng hợp phân tử ARN có sự tham gia của enzym polimeraza
ARN-Khi phân giải ARN thành các nucleotic thì có sự xúc tác của enzym cleaza
ribonu-Chức ă vận chuyển
Một số loại protein có chức năng vận chuyển như:
- Các phân tử protein huyết tương đóng vai trò làm chất vận chuyển các chất khác, trong đó, có sắt từ mô này đến mô khác
- Hemoglobin vận chuyển oxi từ phổi đi khắp cơ thể
- Lipoprotein huyết tương vận chuyển lipit từ gan tới các mô
Chức ă vậ động
Protein có thể tham gia vào các chức năng vận động sau:
- Protein tạo nên các loại cơ có vai trò vận động cơ thể và giúp các bộ phận cơ thể thực hiện chức năng như các cử động nuốt, co bóp của tim, vận động các cơ chân, cơ tay, v.v…
- Các protein đảm nhiệm chức năng này như: Actin, Myosin, Tubulin, Microtube,…
Trang 28Chức ă cấu trúc
Protein là thành phần cấu tạo của chất nguyên sinh, là hợp phần quan trọng xây dựng nên các bào quan và màng sinh chất Từ đó, hình thành các đặc điểm hình thái của mô, cơ quan, hệ cơ quan và cơ thể
Ví dụ:
- Histon là protein tham gia vào cấu trúc của nhiễm sắc thể
- Protein dạng sợi như calogen là nguyên liệu cấu trúc rất tốt
- Elastin là thành phần chủ yếu của da và mô liên kết
Chức ă là chất di h dưỡng, dự trữ
Một số loại protein có chức năng dinh dưỡng hoặc dự trữ như:
- Loại protein hạt của nhiều loại thực vật cần cho sự nảy mầm
- Ovalbumin lòng trắng trứng
- Casein là protein của sữa
- Ferritin là protein dự trữ sắt cho cơ thể
2.6 Phân lớp cấu trúc protein
Nếp gấp của cấu trúc protein được thể hiện dạng ba chiều Hầu hết các nếp gấp của protein không thể xác nhận thông qua các thuộc tính cấu trúc của thành phần amino acid (dạng chuỗi) Các cấu trúc protein được mô tả như sau:
2.6.1 Cấu trúc bậc 1
Cấu trúc bậc 1 (primary struture): là thứ tự sắp xếp các amino acid và vị
trí liên kết trong chuỗi polypeptide (Hình 2.6) Chuỗi polypeptide có tính đặc thù do
số lượng, thành phần và trình tự sắp xếp các amino acid và đây cũng là yếu tố chủ yếu tạo nên tính đặc trưng cho mỗi protein
Trang 29Thứ tự sắp xếp amino acid trong phân tử protein là nguồn thông tin quan trọng về cấu trúc không gian, chức năng của protein, vị trí của nó trong tế bào, trong
cơ thể sống và cả trong quá trình tiến hóa
Thứ tự sắp xếp của các amino và chức năng sinh học của protein có một quan hệ chặt chẽ với nhau Nhận định này dựa trên cơ sở:
- Protein bao giờ cũng có cấu trúc bậc 1 khác nhau
- Những protein có chức năng sinh học gần giống nhau lại thường có cấu trúc bậc 1 khá giống nhau
Hình 2.6: Cấu trúc protein bậc 1 2.6.2 Cấu trúc protein bậc 2
Cấu trúc bậc 2 (secondary structure): cấu trúc phản ánh sự sắp xếp có quy
luật trong không gian của các amino acid trong chuỗi polypeptide, phổ biết hơn cả
là cấu trúc xoắn α và cấu trúc nếp gấp β (Hình 2.7)
Cấu trúc bậc 2 được phân ra làm hai nhóm: nhóm sợi và nhóm dạng cầu
Protein dạng sợi gồm các sợi polypeptide xếp thành bó sợi hoặc ở dạng lá gập nếp Protein dạng sợi đóng vai trò làm vỏ bảo vệ, tạo hình
Protein dạng cầu chủ yếu thực hiện chức năng sinh học nhằm duy trì sự tồn tại và phát triển của tế bào và cơ thể sống
Trang 30Hình 2.7: Cấu trúc protein bậc 2
Cấu trúc xoắ α
Trong mô hình xoắn α (α helix) (Hình 2.8 ), bộ khung sợi polypeptide xoắn xung quanh trục phân tử và các nhóm chức năng của các gốc amino acid nhô ra ngoài Trong đó, các liên kết hydrogen nằm bên trong xoắn và song song với trục quay của xoắn Mỗi chu kỳ vòng xoắn dài 0,56nm tương ứng 3,6 gốc amino acid
Trang 31Hình 2.8: Mô hình xoắn α
Cấu trúc xoắn α được giữ ổn định bởi những liên kết hydrogen hình thành giữa nhóm –NH và –CO thuộc các amino acid đứng cách nhau 4 gốc amino acid tại thành 13 thành phần
Cấu trúc gấp nếp β
Trong cấu trúc gấp nếp β (Hình 2.9), bộ khung của sợi polypeptide sắp xếp theo dạng zigzag, các đường zigzag nằm song song nhau tạo thành tập hợp cấu trúc tấm (lá) Liên kết hydrogen có thể nằm bên trong từng chuỗi polypeptide hoặc nằm giữa chúng, các sợi polypeptide nằm cạnh nhau theo chiều song song hoặc đối song (Có cùng hướng từ đầu N đến đầu C hoặc ngược lại)
Trang 33Các đơn vị cấu thành của cấu trúc supersecondary là :
- Alpha-Alpha: Hai α helix đối song được nối với nhau bằng một pin
hair Betahair Alphahair Beta: Hai chuỗi βhair sheet song song được kết nối với nhau bởi một α helix
- Beta-meander: Một sheet đối xong được hình thành bởi một số đường cong đảo ngược, để kết nối các mạch polypeptide thẳng
- Greek Key: một cấu trúc supersecondary đặc trưng được hình thành khi một sheet đối song tự gấp ngược hai lần
Đôi khi khái niệm “motif” được dùng để mô tả các cấu trúc supersecondary
Domain được định nghĩa như là một vùng (region) hay các vùng mà có nếp gấp (fold) độc lập và có một nhân hydrophobic Cũng có thể coi domain là sự kết hợp lớn hơn của hai hoặc nhiều cấu trúc bậc 2, hai hoặc nhiều phần tử siêu cấu trúc bậc 2, hay là sự pha trộn của hai hoặc nhiều cấu trúc bậc 2 và siêu bậc 2 (Hình 2.11)
Hình 2.11: Domain
Trang 34Một protein có thể chứa một hoặc nhiều domain Nhưng các protein nhỏ thì thường chỉ có duy nhất một domain cho toàn bộ chuỗi pelypeptide
Ví dụ:
- EGF có một domain (với khoảng 53 amino acid)
- Chymotrypsin gồm có 2 domain (với tổng cộng 245 amino acid)
- Urokinase bao gồm 4 domain khác nhau
- Factor IX có 5 domain (nhưng bao gồm 4 loại khác nhau)
- Plasminogen có 7 domain (nhưng chỉ có 3 loại khác nhau)
Domain Kringle là một chuỗi polypeptide với 85 amino acid và 3 cầu fua ở trong
disun-Có thể thấy domain có thể được hình thành từ toàn bộ chuỗi polypeptide, cũng có thể bị giới hạn trong một vùng cụ thể của chuỗi Và nếu một domain bị giới hạn trong một vùng cụ thể của chuỗi (nhất là trong một protein multi-domain) thì nó
sẽ hướng đến gần đầu N (N-terminal) hoặc đầu C (C-ternimal) hơn là nhân (core)
Domain có thể có chức năng tồn tại độc lập hoặc là mang một phần chức năng của protein
Các protein với nhiều (thường được lặp lại) domain được gọi là mosaic tein
pro-Domain của protein được chia làm ba loại chính:
Dạng cầu – Globular (hòa tan trong nước)
Dạng màng – Membrane-bounh (hòa tan trong lipit)
Dạng sợi – Fibrous
Một protein là multi-domain có thể có các domain thuộc các loại khác nhau
Trang 352.6.3 Cấu trúc protein bậc 3
Cấu trúc bậc 3 (tertiary structure): cấu trúc bậc ba của protein phản ánh sự
sắp xếp trong không gian ba chiều của tất cả các nguyên tử trong phân tử protein (Hình 2.12)
Cấu trúc bậc 3 phản ánh tương quan cấu trúc trong phạm vị toàn bộ sợi peptide (cấu trúc bậc 2 chỉ liên quan đến tương quan cấu trúc trong phạm vi hẹp của một số amino acid) Trong đó, những amino acid nằm cách xa nhau, thậm chí nằm trong những cấu trúc bậc 2 khác nhau, lại thường hay tương tác tiếp cận với nhau trong cấu trúc bậc 3
poly-Theo quy luật, ở những đoạn uốn hoặc nếp gấp thường có mặt Pro, Thr, Ser,
và Gly Đặc biệt, các liên kết và tương tác yếu có vai trò quyết định giữ ổn định cấu trúc bậc 3 Mỗi phần tử protein có thứ tự sắp xếp amino acid và cấu trúc không gian bậc 3 riêng biệt của mình Chúng khác nhau theo tỉ lệ số lượng cấu trúc xoắn α và β
Trang 36Hình 2.12: Cấu trúc bậc 3 của protein
2.6.4 Cấu trúc bậc 4
Cấu trúc bậc 4 (quaternary structure): nhiều protein chứa nhiều hơn một
polypeptide giống nhau hoặc khác nhau, còn gọi là tiểu đơn vị - subunit Do vậy, cấu trúc bậc 4 của protein là cấu trúc không gian phản ánh tương tác giữa các tiểu đơn vị trong cùng phân tử protein (Hình 2.13)
Cấu trúc bậc bốn được hình thành nhờ vào các đơn vị có cấu trúc bậc ba Nếu như các cấu trúc bậc 1, 2 và 3 chỉ cần sự có mặt của một chuỗi polypeptid thì cấu trúc bậc 4 đòi hỏi phải có 2 chuỗi polypeptid trở lên
Trang 37
Hình 2.13: Cấu trúc bậc 4 của protein Ngoài những cấp độ khác nhau về cấu trúc, protein thay đổi giữa một số cấu trúc liên quan trong việc thực hiện chức năng sinh học của chúng Do sắp xếp lại các chức năng, các cấu trúc bậc 3 và 4 được gọi là hình thể, và quá trình chuyển đổi giữa chúng được gọi là thay đổi hình thể Những lý do chính cho những thay đổi này liên quan đến cách protein tham gia vào xúc tác hóa học Protein có thể được chính thức chia thành ba nhóm chính: protein sợi (Hình 2.14-a) protein hình cầu (Hình 2.14-b), và các protein màng tế bào ( Hình 2.14-c) Hầu hết các protein hình cầu là các chất xúc tác và có khả năng hòa tan Sợi protein có trách nhiệm kết cấu
và các protein màng đóng vai trò như các nơi tiếp nhận hoặc cung cấp các kênh cho các phân tử đi qua màng tế bào
Hình 2.14: -a: Collagen – Một loại protein sợi
Trang 38Hình 2.14: -b: Haemoglobin – protein hình cầu
Hình 2.14: -c: Bacteriorhodopsin – protein màng
Trang 39CHƯƠNG 3 SẮP HÀNG TRÌNH TỰ
Chương này trình bày một số khái niêm về so sánh trình tự và một số phương pháp sắp hàng trình tự
3.1 Đị h hĩ
Sắp hàng trình tự (hay phép gióng hàng, gióng cột) là quá trình nghiên cứu
sự giống nhau giữa các chuỗi trình tự (sequence), đo lường sự giống nhau giữa các chuỗi trình tự Là cách thức so sánh giữa 2 hay nhiều trình tự dựa trên việc so sánh một chuỗi các thành phần (ký tự) của trình tự để tìm ra điểm tương đồng, giống nhau giữa các trình tự
Các trình tự là các chuỗi DNA, RNA hoặc các trình tự amino acid (protein) Sắp hàng trình tự giúp cho quá trình dự báo sự giống nhau về chức năng của các trình tự, dự báo cấu trúc bậc 3 của DNA, protein Trong việc tìm hiểu một gene mới, chúng ta thường quan tâm đến việc xác định những đặc điểm để phân biệt gene đồng thời đưa ra những giả thuyết về chức năng của gene Việc đưa ra giả thuyết về chức năng của gene thường dựa vào những giải thuật đánh giá sự giống nhau, tương đồng giữa các trình tự
3.2 Phân loại
Dựa trên phương pháp, người ta chia thành 2 loại sắp hàng (alignment)
Phép sắp hàng theo hướng toàn cục (Global Sequence Alignment): Phép sắp hàng được áp dụng trên toàn bộ chuỗi trình tự Thường được
sử dụng khi các trình tự so sánh có kích thước gần tương đương và các trình tự này có độ tương đồng cao
Phép sắp hàng theo hướng cục bộ (Local Sequence Alignment): Phép toán sắp hàng được áp dụng trên một phần của chuỗi trình tự Thường được sử dụng khi các trình tự có độ dài lớn, độ tương đồng không cao hoặc khi các trình tự có kích thước khác biệt lớn