Thế kỷ XX ghi nhận sự phát triển như vũ bão của khoa học và công nghệ, đã tạo ra cơ sở lý luận, vật chất và sự liên kết hỗ trợ lẫn nhau, tác động thúc đẩy sự phát triển của mọi lĩnh vực của đời sống xã hội, đặc biệt là trên lĩnh vực tin học, công nghệ internet và công nghệ sinh học. Với những phát hiện và nghiên cứu càng ngày càng nhiều, chúng ta sẽ càng đạt ra nhiều câu hỏi trong qua ́ trıǹ h nghiên cứu?
Trang 1Tiểu Luận: BLAST
GVHD: TS Nguyễn Đức Bách
Nhóm sinh viên thực hiện: nhóm 4
Trang 21
Nhóm sinh viên thực hiện
Trang 3
NỘI DUNG
ĐẶT VẤN ĐỀ
Trang 5Đặt vấn đề
Thế kỷ XX ghi nhận sự phát triển như vũ bão của khoa học và công nghệ, đã tạo ra cơ sở lý luận, vật chất và sự liên kết hỗ trợ lẫn nhau, tác động thúc đẩy sự phát triển của mọi lĩnh vực của đời sống xã hội, đặc biệt là trên lĩnh vực tin học, công nghệ internet và công nghệ sinh học
Với những phát hiện và nghiên cứu càng ngày càng nhiều, chúng ta sẽ càng đạt ra nhiều câu hỏi trong quá trı̀nh nghiên cứu?
Trang 6Đặt vấn đề
Chủng loại vi khuẩn nào có các protein có
liên hệ về giống loài với một loại protein
???
Trang 7I Phần I 1 Khái niệm, lịch sử
Khái niê ̣m
Chúng ta dùng blast khi câu hỏi đặt ra “liệu có trình tự nào trong ngân hàng dữ liệu giống hoặc gần giống với trình tự của bạn không”?
BLAST (Basic Local Alignment Search Tool ) là một giải
thuật để so sánh các chuỗi sinh học, như các chuỗi
amino-acid của các protein hay của các chuỗi DNA
khác nhau.
Trang 8I Phần I 1 Khái niệm, lịch sử
1970: Thuật toán của Needleman-Wunsch cho việc căn
trình tự (alignment) được công bố
Li ̣ch sử
1981: Thuật toán Smith-Waterman để căn trı̀nh tự đã được công bố IMB giới thiệu trên máy tı ́nh cá nhân trên thi ̣ trường
1988: NCBI được thành lập ở viện nghiên cứu ung thư quốc gia Thuật toán FASTA dùng để so sánh trı̀nh tự được công bố bởi Pearson và Lupman Des Higgins và Paul Sharpe công bố phát triển chương trı̀nh CLUSTAL
Trang 9I Phần I 1 Khái niệm, lịch sử
Li ̣ch sử
1990: Chương trı̀nh BLAST ra đời (Altschul, et al.)
Dù ít chính xác hơn Smith-Waterman nhưng lại cho tốc độ nhanh hơn gấp 50 lần Tốc độ và sự chính xác tương đối của BLAST là những cải tiến kĩ thuật quan trọng của các chương trình BLAST và những điều đó cho thấy lí do vì sao công cụ này lại là công cụ tìm kiếm phổ biến nhất trong tin sinh học.
Trang 10I Phần I 2 Thuật toán
Trang 11I Phần I 2 Thuật toán
Trong phần đánh giá thống kê, BLAST dựa trên cơ sở đánh giá của một cặp trình tự để tính ra một giá trị gọi
là [Bit-Score] Giá trị càng cao chứng tỏ khả năng
tương tự của các bắt cặp càng cao.
Ngoài ra BLAST tính toán một giá trị trông đợi E-Score
(Expect-Score) phụ thuộc vào Bit-Score
Giá trị E càng thấp , số điểm càng có ý nghĩa
E = mn * 2-S 'Các tham số m và n là độ dài của trình tự truy vấn
và cơ sở dữ liệu
Trang 12Minimum Score (S)
Neighborhood Score Threshold (T)
Bước 1: BLAST tìm kiếm các chuỗi con ngắn với chiều dài cố định W có tính tương tự cao
Những chuỗi con nào có số điểm lớn hơn một giá trị
ngưỡng T (threshold value) thì được gọi là tìm thấy
và được BLAST gọi là Hits
Bước 2: BLAST tiếp tục tìm kiếp những cặp Hits tiếp theo dựa trên cơ
sở những Hit đã tìm được trong bước 1
I Phần I 2 Thuật toán
Trang 13I Phần I 2 Thuật toán
n Bước 3: Cuối cùng BLAST mở rộng những cặp Hits đã tìm được theo cả hai chiều và đồng thời đánh số điểm
n Quá trình mở rộng kết thúc khi điểm của các cặp Hits
không thể mở rộng thêm nữa.
KENFDKQRVS GTW YAMAKKDPEG 50 RBP (query)
MKGLDIQKVA GTW YSMAMAASD 44 lactoglobulin (hit)
Hit!
Trang 14I Phần I 2 Thuật toán
Những chuỗi con này được đánh giá cho điểm dựa trên ma trận thay thế ( Substitutionsmatrix ) BLOSUM hoặc PAM
Những chuỗi con nucleotide trong blast
Trang 15Protein words
Những chuỗi con này được đánh giá cho điểm dựa trên ma trận thay thế
( Substitutionsmatrix ) BLOSUM hoặc PAM
I Phần I 2 Thuật toán
Trang 16I Phần I 2 Thuật toán
Trang 17I Phần I 3 Blast dùng để làm gì?
n Tìm hiểu mối quan hệ của một trình tự protein hoặc DNA (query sequence) với các trình tự đã biết trong CSDL liệu.
n (Những) loài SV nào có trình tự DNA/Protein giống với trình tự truy vấn
n Nguồn gốc của trình tự truy vấn
n Trình tự protein do gene X mã hóa có chức năng gì? có những vùng hoạt động (domain), vung đặc thù (motif) gì?
n Mối quan hệ tiến hóa giữa các sinh vật có các trình tự giống với trình tự truy vấn (paralog/ortholog)
n Phát hiện trình tự DNA/ Protein mới
Trang 18I Phần I 3 Blast dùng để làm gì?
Tìm trình tự giống với trình tự query theo phương thức căn
trình tự cục bộ
Dự đoán cấu trúc: 2D DNA/RNA, 3D Protein
Xác định các đặc điểm của sản phẩm gene:
Mw, pI, họ protein,
Vùng chức năng (motif, domain), concensus pattern
Dự đoán vị trí của sản phẩm gene
So sánh các concensus pattern
Dự đoán mối quan hệ tiến hóa Multisequence alignment
Hỗ trợ lắp ráp trình tự
Trang 19I Phần I 3 Blast dùng để làm gì?
Dự đoán gene trong genome: Các vùng exon, intron, promoter
Dự đoán các vùng điều hòa hoạt động gene
Nghiên cứu tiến hóa ở mức độ genome
Trang 20I Phần I 4 Các dạng, ý nghĩa
BLAST thực sự là một họ các chương trình
Nucleotide-nucleotide BLAST (blastn): Chương trình này, khi
đưa vào một DNA truy vấn, sẽ trả về các chuỗi DNA gần giống nhất từ cơ sở dữ liệu DNA mà người dùng chỉ định
Protein-protein BLAST (blastp): Chương trình này, khi đưa
vào một protein truy vấn, sẽ trả về các chuỗi protein gần giống nhất từ cơ sở dữ liệu protein mà người dùng chỉ định
Nucleotide-protein 6-frame translation (blastx): Chương
trình này so sánh các sản phẩm chuyển đổi (trừu tượng) sang 6-khung của một chuỗi nucleotide truy vấn (cả 2 dải) với một
cơ sở dữ liệu chuỗi protein Quá trình này có thể rất chậm
Trang 21I Phần I 4 Các dạng, ý nghĩa
Nucleotide-nucleotide 6-frame translation (tblastx): Chương
trình này là chậm nhất trong họ BLAST Nó chuyển chuỗi nucleotide truy vấn thành mọi 6-khung (frame) có thể và so
sánh các proteins tạo thành Mục tiêu của tblastx là tìm kiếm
mối quan hệ rất xa giữa các chuỗi nucleotide
Protein-nucleotide 6-frame translation (tblastn):
Chương trình này chuyển cơ sở dữ liệu đích thành mọi 6-khung (frame) và so sánh với chuỗi protein truy vấn
Large numbers of query sequences (megablast): Khi so sánh một
số lượng lớn các chuỗi đầu vào qua chỉ một BLAST dạng dòng lệnh, "megablast" là nhanh hơn rất nhiều so với chạy BLAST nhiều lần
Trang 22I Phần I 4 Các dạng, ý nghĩa
Position-Specific Iterative BLAST (PSI-BLAST): Một trong những
chương trình BLAST mới nhất, chương trình này dùng để tìm kiếm các mối quan hệ xa (distant relative) của một protein Trước tiên, một danh sách các protein liên quan sẽ được tạo ra Sau đó, những protein này được kết hợp thành một "profile" dưới dạng
chuỗi trung bình (average sequence) Một câu truy vấn tới một cơ
sở dữ liệu protein sẽ được thực thi nhờ profile này, và một nhóm lớn hơn các protein được tìm thấy Nhóm lớn này lại được dùng
để tạo ra một profile khác, và quá trình này cứ lặp lại
Trang 23I Phần I 4 Các dạng, biến thê,̉ ý nghĩa
Lựa chọn chương trình BLAST
Trang 24n Một vài ví dụ về những câu hỏi mà các nhà nghiên cứu dùng BLAST để tìm câu trả lời.
n Chủng loại vi khuẩn nào có các protein có liên hệ về giống loài với một loại protein khác mà có chuỗi amino-acid mà
ta đã biết không?
n Chuỗi DNA mà ta vừa sắp xếp có nguồn gốc từ đâu?
n Có gen nào khác dùng để mã hóa các protein có cấu trúc hay dáng dấp gần với cái mà ta vừa xác định không?
n BLAST còn được dùng kết hợp với các giải thuật khác có đòi hỏi sự so trùng chuỗi gần đúng.
Phần II 1 Ứng dụng
Trang 25Phần II 1 Ứng dụng
Trang 2680% giống nhau (88% at aa!)
Bò và Heo
Phần II 1 Ứng dụng
Trang 27Phần II 2 Thao tác với blast
giao diện chung của chương trình
Trang 28Phần II 2 Thao tác với blast
Bước 1: Lựa chọn chương trı̀nh blast
Trang 29Phần II 2 Thao tác với blast
Bước 2: nhập dữ liệu
Chương trình xử lý trực tuyến Blast cho phép nhập dữ liệu chuỗi phân tích trực tiếp dạng kí tự qua bàn phím hay nhập dữ liệu đã
được viết theo 1 trong 3 ngôn ngữ là “FASTA sequence format”,
“Identifiers”, và “Bare sequence”.
Bước 3: đặt vùng phân tích “set subsequence”
Cung cấp thông tin vị trí trên đoạn chuỗi cần phân tích bằng 2 giá
trị số chỉ vị trí giới hạn đầu-cuối đoạn chuỗi ấy (from 1, to length)
Trang 30Phần II 2 Thao tác với blast
Bước 4: lựa chọn ngân hàng dữ liệu
•Cơ sở dữ liệu protein bao gồm: Nr, Month, Swissprot, Patents,
Yeast, E.coli, Pdb, Kabat, alu
•Cơ sở dữ liệu nucleotide bao gồm: Nr, Month, Dbest, mouse-ests,
human-ests, other-ests, yeas, E.coli, Pdb, kabat, patents, vector, mito, Alu, Gss, Htgs
Trang 31Phần II 2 Thao tác với blast
Nhập mã truy mật hoặc trình tự cần so sánh
Hoặc tải trình tự có sẵn trong máy tính
Chọn cơ sở dữ liệu
Trang 32Phần II 2 Thao tác với blast
Bước 5: gửi yêu cầu xử lý
Sau khi khai báo xong, người phân tích nhấn nút BLAST để gửi tin
đi
Về cấu trúc tệp tin kết quả gồm 4 phần là:
Phần đầu hiển thị kết quả sơ bộ dạng đồ họa hình ảnh màu sắc của
các chuỗi tương đồng cao nhất.
Hiển thị kết quả dạng kí tự tóm tắt kết quả
Hiển thị kết quả cụ thể khi so sánh
Tóm tắt thông tin về chế độ chạy yêu cầu cho BLAST
Trang 33Phần II 2 Thao tác với blast
đồ họa hình ảnh
Trang 34Phần II 2 Thao tác với blast
dạng kí tự tóm tắt kết quả
Trang 35Phần II 2 Thao tác với blast
kết quả cụ thể khi so sánh
Trang 36Giả sử chúng ta có một trình tự gen nhau sau và muốn xác định là đoạn gen của loài nào? hoặc giống gen sinh vật nào
Phần II 3 Ví dụ
AATTTTTGGAGTGGAAGTTTGAGAAGCATATATATATATATATGTGTGTGT GTGTGTGTGTGTGTGTGTGTGTGTGTGTGTATATACGTATATATGTGTGTG TGTGTGTATATATATATAGAGAGAGAGAGATATAGATATATCTATCTATAT ATATATATATATATATATGATTTCCCATCGTCTGTATCGTAACCCAACTGTA GCCCAATAAAGCTCAGAGGAATT
Trang 37Nhập trı̀nh tự nucleotide
Phần II 3 Ví dụ
Trang 38Phần II 3 Ví dụ
Trang 39Phần II 3 Ví dụ
Trang 40Phần II 3 Ví dụ
Trang 41Phần II 3 Ví dụ
>emb|AJ223768.1| Pinus sylvestris microsatellite DNA, clone SPAC11.5
Vậy ta có thể tin là đoạn gen đó là của sinh vật có
tên là Pinus
Trang 42Kết luận
Tin sinh học có rất nhiều ứng dụng, vì thế cơ sở dữ liệu của
công nghệ sinh học không chỉ dừng lại ở tập hợp các kết quả
nghiên cứu thực nghiệm đơn thuần của các nhà khoa học trên khắp thế giới, mà nó còn bao gồm khả năng khái quát hóa, mô
sống động
Trong nhiều chương trình ứng dụng của tin sinh học, Chương trình phân tích cấu trúc tương đồng Blast là một ứng dụng vô cùng quan trọng, cho biết chính xác sự tương đồng
của các Nucleotic, chuỗi AND hay protein