Tin sinh học (bioinformatics) là một lĩnh vực khoa học sử dụng các công nghệ của ngành toán học ứng dụng, tin học, thống kê, khoa học máy tính và toán sinh học (biomathematics) để giải quyết các vấn đề sinh học
Trang 11 Giới thiệu tin sinh học.
1.1 Tin sinh học là gì?
Tin sinh học (bioinformatics) là một lĩnh vực khoa học sử dụng các công nghệ của ngành toán học ứng dụng, tin học, thống kê, khoa học máy tính và toán sinh học (biomathematics) để giải quyết các vấn đề sinh học
1.2 Các lĩnh vực nghiên cứu
1.2.1 Genomics - Hệ gene học
* Phân tích trình tự axit nucleic và axit amin trong protein:
- Năm 1977, lần đầu tiên Sanger và cộng sự đã xác định được trình tự ADN của virut jx-174 và
từ đó đến nay, trình tự ADN của rất nhiều loài sinh vật đã được phân tích và lưu giữ trong các ngân hàng cơ sở dữ liệu gene
-> Tìm ra những gen cấu trúc, gen mã hoá cho một phân tử protein nào đó, cũng như tìm ra quy luật của những trình tự tương đồng của các protein
- Sau đó, sự tăng trưởng khổng lồ của dữ liệu này, việc phân tích trình tự ADN một cách thủ công không thể thực hiện nổi Các chương trình máy tính ra đời được sử dụng để giúp tìm các trình tự tương đồng trong bản đồ gen (genome) của hàng loạt sinh vật dù số lượng nucleotide trong trình tự có đến hàng tỷ
- Kỹ thuật xác định trình tự hiện nay không thể tiến hành trên cả một phân tử ADN lớn, nên xác định trình tự nhỏ có kích thước khoảng 600-800 nucleotide Sau đó, những đoạn trình tự nhỏ này được sắp xếp thứ tự và nối lại qua việc bắt cặp trình tự của những đầu gối lên nhau (overlap) tạo nên một trình tự genome hoàn chỉnh Nhờ kỹ thuật xác định chuỗi trình tự nhỏ đã tạo ra chuỗi dữ liệu một cách nhanh chóng nhưng việc sắp xếp các chuỗi trình tự ADN nhỏ là khá phức tạp, cho nên khi phân tích bản đồ gen người (Human genome) các nhà tin sinh học với các siêu máy tính (máy DEC Alpha ra đời năm 2000) phải làm việc hàng tháng mới có thể xếp đúng trình tự những đoạn ADN ngắn lại với nhau
Trang 2- Hiện nay, kỹ thuật xác định trình tự nhỏ đang được ưu tiên để giải mã genome và giải thuật lắp ráp genome
* Bản đồ gen và đánh dấu gen:
- Bản đồ trình tự gen (sequence map) là loại bản đồ có độ chính xác cao được sử dụng rộng rãi hiện nay và có thể xác định chính xác vị trí từng nucleotid trong bộ gen, góp phần xác định nguồn gốc phân loại, sự tiến hoá của các quần thể hoặc các loài sinh vật, đồng thời giúp con người xác định được những gen liên quan đến các tính trạng quý hiếm ở vật nuôi cây trồng, hoặc các gen đột biến, gen bị sai lệch do rối loạn di truyền ở người
- Mục đích: nghiên cứu sự tiến hóa của loài người, xác định nguyên nhân một số bệnh di truyền, bệnh truyền nhiễm, từ đó có cơ sở để phát triển các loại thuốc mới, các liệu pháp chữa trị hiệu quả
- Hiện nay, có nhiều loại bản đồ gen: bản đồ di truyền liên kết (genetic linkage), bản đồ di truyền
tế bào (cytogenetic map), bản đồ lai phóng xạ (radianation hybrides map), bản đồ di truyền giới hạn (restriction map), bản đồ trình tự gen (sequence map)
- Có nhiều phương pháp được sử dụng trong nghiên cứu bộ gen, bản đồ di truyền của các loài sinh vật như bản đồ lai phóng xạ, bản đồ lai tại chỗ huỳnh quang, bản đồ tạo dòng định vị
* Dò tìm đột biến và SNP:
- Kỹ thuật PCR (Polymerase Chain Reaction) là một trong những kỹ thuật được sử dụng để phát hiện nhanh các gen đặc hiệu, gen kháng nguyên của nhiều loại virus gây ung thư
- Ở đây, tập dữ liệu sơ khởi được tạo ra đòi hỏi các hệ thống tự động đọc từ đó so sánh các trình
tự đã biết trên hệ gen người, bao gồm cả những điểm đa hình trên tế bào dòng tính (germline) đã biết, hoặc sử dụng hệ thống để phát hiện điểm đa hình đơn nucleotide (single nucleotide
microarray) hoặc khảo sát tính dị biệt so sánh genome cho phép nghiên cứu hàng trăm ngàn vị trí trên bản đồ gen đang dược sử dụng để xác định những đột biến nhiễm sắc thể liên quan tới ung thư
- Nhờ dò tìm các đột biến, phát hiện các gen mà các các công ty công nghệ sinh học hàng đầu thế giới như Millenium Pharmaceutical, tập đoàn Roche, Eli Lilly, Bayer AG đã được cấp bằng độc quyền sử dụng hàng trăm gen liên quan đến bệnh lý để phát triển các loại dược phẩm phân tử và sinh học phòng ngừa bệnh tật
- Một số thành tựu:
+ Saito và cộng sự (1989) ung thư vòm họng phần lớn do virus Eptein-Barr (EBV) gây nên có thể chẩn đoán chính xác trên 90%
Trang 3+ Năm 2001, các nhà nghiên cứu của đại học California (Beckley) đã phát hiện ra 2 họ protein H60 và Rael có đặc tính kích thích thụ thể NKG 2D1 của tế bào diệt u NK (natural killer)
và sản xuất ra g-interferon vốn đảm đương nhiệm vụ hoạt hoá các tế bào của hệ miễn dịch
+ GS Allison tại Đại học California và Viện Y khoa Howard Hughes (Mỹ, 2001) đã tìm
ra gen SPAS-1 có tác dụng kích thích tế bào T đặc hiệu của adenocarcinom, từ đó nghiên cứu dùng gen này trong sản xuất vacxin phòng ung thư tuyến tiền liệt
1.2.2 Sinh học tiến hoá
* Phân loại học phân tử
- Phân tích dữ liệu gen, bộ gen và xây dựng cây phân loại không chỉ cho thấy chiều hướng tiến hoá của các loài trong sinh giới mà còn chỉ rõ mức độ quan hệ trong loài và sự tiến hoá trong nội
bộ loài Vì vậy, việc xây dựng cây phân loại phân tử có vị trí hết sức quan trọng
- Cây phân loại (phylogeny, dendregram) được nghiên cứu có hệ thống và khoa học từ những năm đầu thế kỷ 20 Năm 1909, từ các số liệu phân tích tần số các allen trong locus hemoglobin, Reichert và Brown đã xây dựng cây phân loại đầu tiên của một số loài cá
- Hiện nay sự phát triển trong lĩnh vực xác định trình tự gen, trình tự axit amin và sự phổ biến các máy tính tốc độ cao cho phép các nhà nghiên cứu theo dõi sự tiến hoá của các loài dựa trên
sự thay đổi trong trình tự ADN
- Mặt khác cây phân loại còn góp phần giúp các nhà khoa học thực hiện các phép lai có hiệu quả kinh tế cao, chẩn đoán ưu thế lai sớm hoặc tìm kiếm nguồn gốc phát sinh của các loài sinh vật
* Bảo tồn đa dạng sinh học:
- Xác định các trình tự ADN ở các loài động vật, thực vật, vi sinh vật là căn cứ để từ đó xác định hệ số di truyền của các loài Thông tin quan trọng nhất được thu thập chính là tên, các đặc điểm hình thái, sinh lý, sinh hoá, di truyền, sự phân bố, tập tính được truy xuất bởi các chương trình phần mềm để tìm kiếm, hiển thị, phân tích các thông tin một cách tự động Ngoài ra, trên cơ
sở lý thuyết ma trận (matrix), tính toán xây dựng cây phân loại, tìm ra quan hệ giữa các loài, giữa các thế hệ trong loài
- Vì các lí do trong suốt quá trình dài tiến hóa và phát triển mà con người đã tác động đến cây trồng, vật nuôi nhằm tăng năng suất có thể làm thay đổi tính di truyền của chúng cũng như khả năng thích nghi của chúng
Ví dụ:
Ở Hy Lạp, năm 1983 đã bỏ đi 95% các giống lúa mì địa phương,
Ở Tây Ban Nha, từ năm 1970 đến năm 1973 mất đi 70% giống dưa địa phương
Trang 4Ở Pháp, nước có 2000 giống táo nhưng năm 1970 chỉ còn chục giống.
Ở Mỹ nước xuất khẩu ngô vào loại nhiều nhất thế giới nhưng năm 1970 hơn một nửa diện tích ngô bị bệnh tiêm lửa (Helminthos porium maydis) nòi Texas tàn phá thiệt hại hàng tỷ đô la
- Cho nên bảo vệ đa dạng sinh vật chính là bảo vệ cho mình và đó là ý thức, trách nhiệm của mọi người không riêng gì các nhà chuyên môn nông-lâm-ngư nghiệp Mặt khác, bảo vệ đa dạng sinh học tốt và có hiệu quả thì không chỉ bảo vệ đa dạng di truyền (genetic diversitry) đối với các vật nuôi cây trồng mà còn phải chú ý đến bảo vệ đa dạng loài, đa dạng riêng biệt (specific diversity) đối với các sinh vật hoang dại
1.2.3 Phân tích chức năng gene
* Phân tích biểu hiện gen:
- Những nghiên cứu của sinh học phân tử (molecular biology) có thể đánh giá mức độ biểu hiện gen (gene expression) thông qua việc xác định ARN thông tin (mARN) thông qua các kĩ thuật như microarray, EST (expressed sequence tag), SAGE (serial analisis of gene expression), MPSS (massively parallel signature sequencing) hay khối phổ (mass-spectrometry), các kĩ thuật này khiến việc tính toán, phân tích trở nên phức tạp Từ đó sinh ra các công cụ thống kê để lọc tín hiệu xác đáng khỏi thông tin nhiễu trong những nghiên cứu biểu hiện gen đa lượng
- Người ta có thể so sánh dữ liệu microarray từ những tế bào bị ung thư với tế bào bình thường
để xác định những protein nào được tăng cường hay giảm thiểu do ung thư
- Dữ liệu biểu hiện gen cũng được dùng để nghiên cứu điều hoà gen
- Nhận diện trình tự axit amin trong chuỗi polypeptide cũng là một giải pháp quan trọng để từ đó
có thể suy ra cấu trúc của gen tương ứng
* Nhận diện protein
- Protein microarray và hệ thống khối phổ cao năng (high throughput mass spectrometry) có thể cung cấp hình ảnh (snapshot) tổng thể của các protein hiện có trong một mẫu sinh học
(biological sample) Các ứng dụng tin sinh học có liên quan rất nhiều đến việc lý giải các dữ liệu
thu được từ những hệ thống này Đối với protein microarray, những nhà tin sinh học cần chuyển kiểm tra dữ liệu mRNA gắn trên array Trong khi đó, những vấn đề tin sinh học liên quan đến
việc so trùng (matching) dữ liệu khối phổ với cơ sở dữ liệu về trình tự axit amin trong
polypeptid, hay trong protein Chẳng hạn virus lở mồm long móng (Foot Mouth Disease Virus- FMDV) nhờ nhận diện trình tự các axit amin ở “điểm quyết định kháng nguyên” trên protein vỏ VP1 Trên cơ sở đó công nghệ sinh học hiện đại đã tạo ra được vacxin phân tử để sử dụng
* Dự đoán cấu trúc protein
Trang 5- Dự đoán cấu trúc là một ứng dụng quan trọng nữa của tin sinh học Có thể dễ dàng xác định
trình tự axit amin hay còn gọi là cấu trúc bậc một của protein từ trình tự gene mã hóa cho nó
Nhưng, protein chỉ có chức năng vốn có khi nó cuộn gấp thành hình dạng chính xác (nếu điều
này xảy ra ta có cấu trúc bậc hai, cấu trúc bậc ba và cấu trúc bậc bốn) Tuy nhiên, sẽ là vô
cùng khó khăn nếu chỉ dự đoán các cấu trúc gấp nếp này từ trình tự axit amin Một số phương pháp dự đoán cấu trúc bằng máy tính hiện đang phát triển
- Trong tin sinh học người ta cũng chú ý đến tính tương đồng khi dự đoán cấu trúc của gen Chẳng hạn nếu biết trình tự và chức năng của gen X và trình tự đó tương đồng với gen Y thì có thể biết được chức năng của gen Y Và, với kỹ thuật mô phỏng tính tương đồng (homology modelling) thông tin này được dùng để dự đoán cấu trúc của protein khi đã biết cấu trúc của một protein khác tương đồng với nó Hiện nay, đây là cách dự đoán cấu trúc đáng tin cậy Các kỹ
thuật dự đoán cấu trúc protein khác là protein threading và de novo (from scratch) physics-based
modeling
1.2.4 Phân tích hình ảnh mức độ cao
Các kĩ thuật tính toán cũng được dùng để tăng tốc độ hoặc giúp tự động hoàn toàn quá trình xử
lí, định lượng và phân tích một lượng lớn các hình ảnh sinh học có chứa-thông-tin-cao Các hệ thống xử lí ảnh hiện đại tăng cường khả năng quan sát để giúp cho việc tính toán từ một tập lớn
và phức tạp các hình ảnh, bằng cách cải tiến độ chính xác, tính khách quan, hay tốc độ Những
hệ thống này đang dần trở thành quan trọng đối với cả chẩn đoán và nghiên cứu Một vài ví dụ là:
Định lượng với tốc độ cao, độ tin cậy cao và xác định vị trí các tế-bào-con (hiển thị hình ảnh giàu nội dung (high-content screening), cytohistopathology)
Động học hình thái (Morphometrics) được dùng để phân tích các hình ảnh về quá trình
phát triển của phôi nhằm theo dõi và dự đoán số phận của từng cụm tế bào (cell cluster)
trong suốt quá trình phát sinh hình thái (morphogenesis).
Phân tích và hiển thị hình ảnh các hình ảnh lâm sàng
Xác định các mẫu dòng khí trong phổi của mỗi sinh vật sống tại thời gian thực
Định lượng mức độ lưu giữ trong các hình ảnh thời gian thực từ sự phát triển và hồi phục
trong suốt thời gian tổn thương động mạch (arterial injury)
Đưa ra các quan sát về sự xử sự từ các đoạn phim được thu lại của các động vật thí nghiệm
Đo đạc bằng tia hồng ngoại để xác định các hoạt động trao đổi chất
1.2.5 Các hệ thống sinh học kiểu mẫu
- Sinh học hệ thống bao gồm việc sử dụng khả năng mô phỏng bằng máy tính (computer
simulation) các hệ cơ quan tế bào cellular (như mạng các metabolites và enzyme, chúng bao gồm
Trang 6các metabolism, signal transduction pathways và gene regulatory networks) để có thể phân tích
và hiển thị hoá (visualize) việc kết nối phức tạp của các quá trình tế bào này Sự sống nhân tạo (Artificial life) hay tiến hoá ảo nỗ lực nhằm tìm hiểu quá trình tiến hoá thông qua việc mô phỏng bằng máy tính các dạng sự sống (nhân tạo) đơn giản
1.2.6 Mạng điều khiển sinh học
- Mạng điều khiển sinh học (biological regulatory network) là các mạng tương tác giữa gene, protein để điều khiển một quá trình sinh học nào đó trong tế bào, ví dụ như là quá trình trao đổi chất (metabolism), quá trình chu kỳ tế bào (cell cycle), nhịp sinh học (circadian rhytm), …
- Các bài toán đặc trưng thường xây dựng mạng tương tác điều khiển một quá trình sinh học cụ thể với các gene và protein có vai trò trọng trong quá trình sinh học đó, lập mô hình toán học (có thể là nhị phân, hệ vi phân, hệ ngẫu nhiên, …) để phân tích các tính chất, quy luật của quá trình sinh học Từ đó đưa ra các dự đoán liên quan đến các điểm bất thường như là bệnh, tật, đặc biệt
là ung thư
1.3 Các lĩnh vực liên quan
1 Lý sinh
2 Biocybernetics
3 Y sinh học tin học
4 Sinh học tính toán
5 Tin y tế
6 Gen
7 Sinh học tính toán và toán học và sinh học mô hình
8 proteomics
9 Pharmacogenomics
10 Dược
11 Chemoinformatics
12 Phân tử và chuyển hóa mô hình mạng
13 trí tuệ nhân tạo
14 Neuroinformatics
15 Thống kê
16 Khai thác dữ liệu và phân tích thông tin
1.4 Một số khái niệm quan trọng.
Trang 7- Một chuỗi DNA luôn được định nghĩa như một chuỗi nucleotit, những nucleotit này gồm
4 thành phần cấu trúc hoa sinh mà Walson và Crick đã khám phá ra ở những năm 1956: adenine, guanine, cytosine, thynine
- Chuỗi Palindrome là trình tự nucleotide cái mà có thể đọc theo cách giống nhau ở cả hai chiều vì cái này đóng vai trò sinh học quan trọng
- Phân tử RNA là cấu trúc xoắn được tạo ra từ DNA của hạt nhân cái mà ra ngoài thành tế bào và làm cồn việc đó, ví dụ, tạo thành protein hoặc là cấu trúc hoặc quy định các con đường hóa học khác và cấu trúc nhỏ hơn
- Hệ gen sinh học là sự nghiên cứu các gen có tổ chức lớn, làm việc với tất cả các gen ở cùng thời điểm, ví dụ, xem xét toàn bộ sự thiết kế
- Pubmed là một danh sách của những tài liệu được xuất bản về sinh học và di truyền học (từ năm 1965 về trước) cái mà cho phép những nhà nghiên cứu trong lĩnh vực đó tìm ra cái gì họ cần nhanh để mà họ có thể thấy được cái gì đã được nghiên cứu và do vậy quyết định những chiều hướng mới của sự nghiên cứu sẽ có giá trị gì Xem www…
- Blast là một chương trình khai thác sơ sở dữ liệu, được sử dụng rộng rãi trong tin sinh học, để khai thác cơ sở dữ liệu của thông tin được xây dựng từ những gì đã được phát hiện và lập danh mục về cấu trúc DNA, RNA và protein Blast sẽ mang một trình tự và so sánh nó với một CSDL của trình tự đã được phân tích để xem liệu có sự phù hợp không
và do vậy giúp nhận ra một protein hoặc trình tự Xem www…
- ClustalW2 là một chương trình phân tích dữ liệu cái mà tìm kiếm cho sự bắt cặp đa trình
tự để xem một trình tự mà một nhà nghiên cứu đã khám phá ra phù hợp với cái đã biết như thế nào
- Fasta là sự bắt cặp khác và chương trình quét CSDL được sáng tạo ra năm 1988 mặc dù ClustalW2, được liệt kê trước đây, hầu hết được sử dụng rộng rãi
- Ngân hàng gen là một kho chứa cho việc dự trữ các chuỗi nucleoticles và chuỗi protein
do vậy những nhà nghiên cứu có thể kiểm tra các chuỗi mới được phát hiện dựa vào cái
đã biết Xem http…
- Entrez/Gên là một trong những ngân hàng gen mới hơn cái mà nhiều “gen trung khu thần kinh”; ví dụ, nó cho phép những câu hỏi, thắc mắc về môt loại gen đặc biệt; một số loại này có thể được tìm thấy ở http…
- Dự án tập hợp tập trung vào bộ di truyền của con người bên cạnh những động vật khác
2 Phương pháp phân tích dữ liệu trong tin sinh học
BLAST, viết tắt cho Basic Local Alignment & Search Tool, là công cụ khai thác dữ liệu đầu tiên và phổ biến nhất cho trình tự DNA/Protein Trước sự phát triển của công cụ này, các nhà sinh học phải tìm kiếm một cơ sở dữ liệu của trình tự xuất bản, in chúng ra, treo
Trang 8chúng/tường, và nhìn chúng hàng giờ để cố gắng phân biệt bất kỳ mẫu nào và hiểu được chúng Cũng vậy, họ phải xác định xem liệu bất kỳ trình tự mới đã phát hiện thực sự là mới hay đã tồn tại trong tài liệu BLAST làm điều này tự động
Chương trình máy tính khác tìm kiếm CSDL giống như BLAST nhưng BLAST là cái phổ biến nhất Một số sự lựa chọn khác thay thế cho BLAST là:
- Smith-Waterman: Cái này được xem như là chính xác hơn BLAST nhưng hoạt động chậm hơn
- FASTA: Cái này chính xác hơn cho sự so sánh DNA nhưng cũng chậm hơn BLAST BLAST: Cái này có thể xác định vị trí cDNA nhanh chóng và cũng tìm protein gần gũi (vd, chuột với người vì cả hai là động vật có vú)
2.1 ClusteralW2: Sự bắt cặp trình tự
Sau khi trình tự được tìm thấy, những trình tự này phải được bắt cặp, trong một sự nỗ lực
để thấy được toàn bộ hình ảnh, để thấy được cái gì là quan trọng và xác định cái gì có lẽ chỉ
là trình tự xa lạ hoặc dư thừa (có nhiều, sự thật là có xem xét sự dư thừa trong DNA) Một vài công cụ có thể làm điều này tương tự như ClustalW2 là Tcoffee, MUSCLE nhưng
ClustalW2 là cái hay được dùng nhất
ClustalW2 là một giải thuật tiến bộ sử dụng một mẹo nhỏ để xây dựng sự bắt cặp trình tự:
nó so sánh hai trình tự một và cuối cùng nhóm chúng thành cái trông như cây phát sinh loài, hoặc cái mà các nhà thống kê gọi trong sự phân tích nhóm truyền thống, dendogram
ClustalW2 là một trong số những sự tham khảo được trích dẫn nhiều nhất trong toàn bộ lịch sử sinh học W trong ClustalW2 là viết tắt cho từ cân nặng (weight); mỗi trình tự nhận một tỷ lệ cân nặng cho số lượng thông tin nó đóng góp cho sự bắt cặp toàn bộ và bộ di truyền ClustalW2 có thể được tìm ở địa chỉ sau: www…
Một khi các trình tự được nhận ra và một protein được được nhận ra, điều tiếp theo mà nhiều nhà nghiên cứu tin sinh học muốn làm là quan sát trình tự trong mẫu 3D Điều này có thể làm được bằng việc đi đến địa chỉ web khác của chính phủ NIH: www…
Chúng tôi sẽ không đi vào chi tiết ở đây trong cuốn sách này nhưng cung cấp địa chỉ web này cho sự phác thảo chung tin sinh học là về cái gì
Sau khi quan sát cấu trúc 3D, một nhà nghiên cứu có lẽ muốn tìm các protein với hình dạng giống nhau; điều này có thể làm được ở địa chỉ web NIH khác, được biết như dịch vụ VAST
Trang 92.2 Tìm kiếm CSDL cho phân tử RNA
Sau khi trình tự được tìm thấy, những trình tự này phải được bắt cặp, trong một sự nỗ lực
để thấy được toàn bộ hình ảnh, để thấy được cái gì là quan trọng và xác định cái gì có lẽ chỉ
là trình tự xa lạ hoặc dư thừa (có nhiều, sự thật là có xem xét sự dư thừa trong DNA) Một vài công cụ có thể làm điều này tương tự như ClustalW2 là Tcoffee, MUSCLE nhưng
ClustalW2 là cái hay được dùng nhất
ClustalW2 là một giải thuật tiến bộ sử dụng một mẹo nhỏ để xây dựng sự bắt cặp trình tự:
nó so sánh hai trình tự một và cuối cùng nhóm chúng thành cái nhìn như cây phát sinh loài, hoặc cái mà các nhà thống kê gọi trong sự phân tích nhóm truyền thống, dendogram
ClustalW2 là một trong số những sự tham khảo được trích dẫn nhiều nhất trong toàn bộ lịch sử sinh học W trong ClustalW2 là viết tắt cho từ cân nặng (weight); mỗi trình tự nhận một tỷ lệ cân nặng cho số lượng thông tin nó đóng góp cho sự bắt cặp toàn bộ và bộ di truyền ClustalW2 có thể được tìm ở địa chỉ sau: www…
Một khi các trình tự được nhận ra và một protein được được nhận ra, điều tiếp theo mà nhiều nhà nghiên cứu tin sinh học muốn làm là quan sát trình tự trong mẫu 3D Điều này có thể làm được bằng việc đi đến địa chỉ web khác của chính phủ NIH: www…
Chúng tôi sẽ không đi vào chi tiết ở đây trong cuốn sách này nhưng cung cấp địa chỉ web này cho sự phác thảo chung tin sinh học là về cái gì
Sau khi quan sát cấu trúc 3D, một nhà nghiên cứu có lẽ muốn tìm các protein với hình dạng giống nhau; điều này có thể làm được ở địa chỉ web NIH khác, được biết như dịch vụ VAST
3 Dịch vụ Web trong tin sinh học
Giao diện cơ sở SOAP và REST đã được phát triển cho hàng loạt những ứng dụng tin sinh học, cho phép một ứng dụng chạy trên một máy tính trong một phần của thế giới sử dụng giải thuật, dữ liệu và các nguồn tính toán trên các máy chủ ở các nơi khác nhau trên thế giới Thuận lợi chính nằm ở người dùng cuối cùng sẽ không phải giải quyết sự gìn giữ phần mềm và CSDL ở trên đầu Dịch vụ tin sinh học cơ bản được phân loại bởi viện nghiên cứu tin sinh học châu Âu (EBI-http) thành 3 loại: Dịch vụ tìm kiếm trình tự (SSS), sự bắt cặp đa trình tự (MSA) và sự phân tích trình tự sinh học (BSA) Sự sẵn có của các nguồn tin sinh học định hướng dịch vụ này chứng minh sự có thể ứng dụng các giải pháp tin sinh học dựa trên web và xếp loại từ sự sưu tập các công cụ độc lập với một mẫu DL chung dưới một giao diện đơn , độc lập hoặc cơ sở web,cho các hệ thống quản lý quy trình tin sinh hoc trở thành một
hệ thống thống nhất, phân bổ và có thể mở rộng
Lĩnh vực tin sinh học, với sự phát triển caurnos với nhiều loại phần mềm, khá là hỗn loạn, một lời giái thích cho vấn đề này là tin sinh học là một lĩnh vực rất lớn gồm nhiều kiến thức, hiểu biết khác nhau về domains, với mỗi sự hiểu biết của những người thực hành làm
Trang 10việc trong môi trường cách ly với nhau Chỉ gần đây những khu vực đa dạng này mới được mang lại cùng nhau dưới cái ô tin sinh học như nhau Sau đó, chúng tôi sẽ đề xuất rằng chúng
ta đang ở trong giai đoạn “chọn lọc ra” cái gì thực sự cần và những năm trong tương lai sẽ mang lại nhiều hơn hay ít hơn phương pháp luận phân tích dữ liệu chuẩn mực, liên quan đến khai thác dữ liệu và khai thác văn bản Nhưng bây giờ, bảng 15.5 cung cấp một danh sách của các chương trình phần mềm cái mà đang được sử dụng trong lĩnh vực tin sinh học BLAST là công cụ tìm kiếm CSDL chính, và ClustalW2 là công cụ bắt cặp đa trình tự chính,
đã được thảo luận trước do vậy không được bao gồm trong bảng này
4 Làm thế nào để áp dụng phương pháp khai phá dữ liệu vào tin sinh học
Có vô số các nguồn mở và các nguồn phần mềm máy tính phần mềm miễn phí/web, cung cấp các chương trình được viết bởi nhiều nhà nghiên cứu tin sinh học Thêm vào đó,, một số sách đã được viết giải thích người dùng có thể viết chương trình của chính họ như thế nào Một trong những điều này là với sự sử dụng Perl, sẵn có như một cơ sở dữ liệu mà nguồn
mở Tisdall (2001) đã viết Beginning Perl For Bioinformatics, những ví dụ của trình tự được nhấn mạnh trong đó Perl là một ngôn ngữ máy tính tương đối dễ để học, và chúng ta đã đề cập đến nó trong chương 9 về khai thác văn bản Tisdall (2001) chỉ ra để xây dựng một giao diện cho CSDL ngân hàng gen NIH như thế nào, cái mà đã được đề cập ở đầu chương này
Nó cho phép người dùng phát triển những kỹ năng trong việc sử dụng Perl để phân tích những chú thích trong ngân hàng và kết quả BLAST
* Một số giải thuật
- Gollery (2008) và nhiều nguồn khác miêu tả Hidden Markov Models (HMM) và các phương pháp liên quan như bộ HMMER, phương pháp phân tích trình tự (SAM) và giải thuật PSI-BLAST Khu vực này có bộ CSDL HMM của chính nó với tên như Pfam, PANTHER, COG và metaSHARK
- Shui Qing Ye (2008) miêu tả một số DNA công thêm và công cụ phân tích bộ gen, một
số sự phân tích hệ thống sinh, sự phân tích SNP, sự phân tích haplotype,và sự quy định biểu hiện gen SAGE là một trong những công cụ được miêu tả SNP, được phát âm là “snip”, viết tắt cho Simple Nucleoticle Polymorphism
- Parida (2007):
+ Giải thuật của Prim + Giải thuật của Fitch + Sự khám phá giải thuật + Giải thuật mẫu thống kê, chẳng hạn: