1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo cáo tiểu luận tin sinh đề tài: blast

43 2,6K 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Báo cáo tiểu luận tin sinh đề tài: Blast
Tác giả Nhóm 4
Người hướng dẫn TS. Nguyễn Đức Bách
Trường học Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành Khoa học Máy tính
Thể loại Tiểu luận
Năm xuất bản 2014
Thành phố Hà Nội
Định dạng
Số trang 43
Dung lượng 2,67 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Thế kỷ XX ghi nhận sự phát triển như vũ bão của khoa học và công nghệ, đã tạo ra cơ sở lý luận, vật chất và sự liên kết hỗ trợ lẫn nhau, tác động thúc đẩy sự phát triển của mọi lĩnh vực của đời sống xã hội, đặc biệt là trên lĩnh vực tin học, công nghệ internet và công nghệ sinh học. Với những phát hiện và nghiên cứu càng ngày càng nhiều, chúng ta sẽ càng đạt ra nhiều câu hỏi trong qua ́ trıǹ h nghiên cứu?

Trang 1

Tiểu Luận: BLAST

GVHD: TS Nguyễn Đức Bách

Nhóm sinh viên thực hiện: nhóm 4

Trang 2

1

Nhóm sinh viên thực hiện

Trang 3

NỘI DUNG

ĐẶT VẤN ĐỀ

Trang 5

Đặt vấn đề

Thế kỷ XX ghi nhận sự phát triển như vũ bão của khoa học và công nghệ, đã tạo ra cơ sở lý luận, vật chất và sự liên kết hỗ trợ lẫn nhau, tác động thúc đẩy sự phát triển của mọi lĩnh vực của đời sống xã hội, đặc biệt là trên lĩnh vực tin học, công nghệ internet và công nghệ sinh học

Với những phát hiện và nghiên cứu càng ngày càng nhiều, chúng ta sẽ càng đạt ra nhiều câu hỏi trong quá trı̀nh nghiên cứu?

Trang 6

Đặt vấn đề

Chủng loại vi khuẩn nào có các protein có

liên hệ về giống loài với một loại protein

???

Trang 7

I Phần I 1 Khái niệm, lịch sử

Khái niê ̣m

Chúng ta dùng blast khi câu hỏi đặt ra “liệu có trình tự nào trong ngân hàng dữ liệu giống hoặc gần giống với trình tự của bạn không”?

BLAST (Basic Local Alignment Search Tool ) là một giải

thuật để so sánh các chuỗi sinh học, như các chuỗi

amino-acid của các protein hay của các chuỗi DNA

khác nhau.

Trang 8

I Phần I 1 Khái niệm, lịch sử

1970: Thuật toán của Needleman-Wunsch cho việc căn

trình tự (alignment) được công bố

Li ̣ch sử

1981: Thuật toán Smith-Waterman để căn trı̀nh tự đã được công bố IMB giới thiệu trên máy tı ́nh cá nhân trên thi ̣ trường

1988: NCBI được thành lập ở viện nghiên cứu ung thư quốc gia Thuật toán FASTA dùng để so sánh trı̀nh tự được công bố bởi Pearson và Lupman Des Higgins và Paul Sharpe công bố phát triển chương trı̀nh CLUSTAL

Trang 9

I Phần I 1 Khái niệm, lịch sử

Li ̣ch sử

1990: Chương trı̀nh BLAST ra đời (Altschul, et al.)

Dù ít chính xác hơn Smith-Waterman nhưng lại cho tốc độ nhanh hơn gấp 50 lần Tốc độ và sự chính xác tương đối của BLAST là những cải tiến kĩ thuật quan trọng của các chương trình BLAST và những điều đó cho thấy lí do vì sao công cụ này lại là công cụ tìm kiếm phổ biến nhất trong tin sinh học.

Trang 10

I Phần I 2 Thuật toán

Trang 11

I Phần I 2 Thuật toán

Trong phần đánh giá thống kê, BLAST dựa trên cơ sở đánh giá của một cặp trình tự để tính ra một giá trị gọi

là [Bit-Score] Giá trị càng cao chứng tỏ khả năng

tương tự của các bắt cặp càng cao.

Ngoài ra BLAST tính toán một giá trị trông đợi E-Score

(Expect-Score) phụ thuộc vào Bit-Score

Giá trị E càng thấp , số điểm càng có ý nghĩa

E = mn * 2-S 'Các tham số m và n là độ dài của trình tự truy vấn

và cơ sở dữ liệu

Trang 12

Minimum Score (S)

Neighborhood Score Threshold (T)

Bước 1: BLAST tìm kiếm các chuỗi con ngắn với chiều dài cố định W có tính tương tự cao

Những chuỗi con nào có số điểm lớn hơn một giá trị

ngưỡng T (threshold value) thì được gọi là tìm thấy

và được BLAST gọi là Hits

Bước 2: BLAST tiếp tục tìm kiếp những cặp Hits tiếp theo dựa trên cơ

sở những Hit đã tìm được trong bước 1

I Phần I 2 Thuật toán

Trang 13

I Phần I 2 Thuật toán

n Bước 3: Cuối cùng BLAST mở rộng những cặp Hits đã tìm được theo cả hai chiều và đồng thời đánh số điểm

n Quá trình mở rộng kết thúc khi điểm của các cặp Hits

không thể mở rộng thêm nữa.

KENFDKQRVS GTW YAMAKKDPEG 50 RBP (query)

MKGLDIQKVA GTW YSMAMAASD 44 lactoglobulin (hit)

Hit!

Trang 14

I Phần I 2 Thuật toán

Những chuỗi con này được đánh giá cho điểm dựa trên ma trận thay thế ( Substitutionsmatrix ) BLOSUM hoặc PAM

Những chuỗi con nucleotide trong blast

Trang 15

Protein words

Những chuỗi con này được đánh giá cho điểm dựa trên ma trận thay thế

( Substitutionsmatrix ) BLOSUM hoặc PAM

I Phần I 2 Thuật toán

Trang 16

I Phần I 2 Thuật toán

Trang 17

I Phần I 3 Blast dùng để làm gì?

n Tìm hiểu mối quan hệ của một trình tự protein hoặc DNA (query sequence) với các trình tự đã biết trong CSDL liệu.

n (Những) loài SV nào có trình tự DNA/Protein giống với trình tự truy vấn

n Nguồn gốc của trình tự truy vấn

n Trình tự protein do gene X mã hóa có chức năng gì? có những vùng hoạt động (domain), vung đặc thù (motif) gì?

n Mối quan hệ tiến hóa giữa các sinh vật có các trình tự giống với trình tự truy vấn (paralog/ortholog)

n Phát hiện trình tự DNA/ Protein mới

Trang 18

I Phần I 3 Blast dùng để làm gì?

Tìm trình tự giống với trình tự query theo phương thức căn

trình tự cục bộ

Dự đoán cấu trúc: 2D DNA/RNA, 3D Protein

Xác định các đặc điểm của sản phẩm gene:

Mw, pI, họ protein,

Vùng chức năng (motif, domain), concensus pattern

Dự đoán vị trí của sản phẩm gene

So sánh các concensus pattern

Dự đoán mối quan hệ tiến hóa Multisequence alignment

Hỗ trợ lắp ráp trình tự

Trang 19

I Phần I 3 Blast dùng để làm gì?

Dự đoán gene trong genome: Các vùng exon, intron, promoter

Dự đoán các vùng điều hòa hoạt động gene

Nghiên cứu tiến hóa ở mức độ genome

Trang 20

I Phần I 4 Các dạng, ý nghĩa

BLAST thực sự là một họ các chương trình

Nucleotide-nucleotide BLAST (blastn): Chương trình này, khi

đưa vào một DNA truy vấn, sẽ trả về các chuỗi DNA gần giống nhất từ cơ sở dữ liệu DNA mà người dùng chỉ định

Protein-protein BLAST (blastp): Chương trình này, khi đưa

vào một protein truy vấn, sẽ trả về các chuỗi protein gần giống nhất từ cơ sở dữ liệu protein mà người dùng chỉ định

Nucleotide-protein 6-frame translation (blastx): Chương

trình này so sánh các sản phẩm chuyển đổi (trừu tượng) sang 6-khung của một chuỗi nucleotide truy vấn (cả 2 dải) với một

cơ sở dữ liệu chuỗi protein Quá trình này có thể rất chậm

Trang 21

I Phần I 4 Các dạng, ý nghĩa

Nucleotide-nucleotide 6-frame translation (tblastx): Chương

trình này là chậm nhất trong họ BLAST Nó chuyển chuỗi nucleotide truy vấn thành mọi 6-khung (frame) có thể và so

sánh các proteins tạo thành Mục tiêu của tblastx là tìm kiếm

mối quan hệ rất xa giữa các chuỗi nucleotide

Protein-nucleotide 6-frame translation (tblastn):

Chương trình này chuyển cơ sở dữ liệu đích thành mọi 6-khung (frame) và so sánh với chuỗi protein truy vấn

Large numbers of query sequences (megablast): Khi so sánh một

số lượng lớn các chuỗi đầu vào qua chỉ một BLAST dạng dòng lệnh, "megablast" là nhanh hơn rất nhiều so với chạy BLAST nhiều lần

Trang 22

I Phần I 4 Các dạng, ý nghĩa

Position-Specific Iterative BLAST (PSI-BLAST): Một trong những

chương trình BLAST mới nhất, chương trình này dùng để tìm kiếm các mối quan hệ xa (distant relative) của một protein Trước tiên, một danh sách các protein liên quan sẽ được tạo ra Sau đó, những protein này được kết hợp thành một "profile" dưới dạng

chuỗi trung bình (average sequence) Một câu truy vấn tới một cơ

sở dữ liệu protein sẽ được thực thi nhờ profile này, và một nhóm lớn hơn các protein được tìm thấy Nhóm lớn này lại được dùng

để tạo ra một profile khác, và quá trình này cứ lặp lại

Trang 23

I Phần I 4 Các dạng, biến thê,̉ ý nghĩa

Lựa chọn chương trình BLAST

Trang 24

n Một vài ví dụ về những câu hỏi mà các nhà nghiên cứu dùng BLAST để tìm câu trả lời.

n Chủng loại vi khuẩn nào có các protein có liên hệ về giống loài với một loại protein khác mà có chuỗi amino-acid mà

ta đã biết không?

n Chuỗi DNA mà ta vừa sắp xếp có nguồn gốc từ đâu?

n Có gen nào khác dùng để mã hóa các protein có cấu trúc hay dáng dấp gần với cái mà ta vừa xác định không?

n BLAST còn được dùng kết hợp với các giải thuật khác có đòi hỏi sự so trùng chuỗi gần đúng.

Phần II 1 Ứng dụng

Trang 25

Phần II 1 Ứng dụng

Trang 26

80% giống nhau (88% at aa!)

Bò và Heo

Phần II 1 Ứng dụng

Trang 27

Phần II 2 Thao tác với blast

giao diện chung của chương trình

Trang 28

Phần II 2 Thao tác với blast

Bước 1: Lựa chọn chương trı̀nh blast

Trang 29

Phần II 2 Thao tác với blast

Bước 2: nhập dữ liệu

Chương trình xử lý trực tuyến Blast cho phép nhập dữ liệu chuỗi phân tích trực tiếp dạng kí tự qua bàn phím hay nhập dữ liệu đã

được viết theo 1 trong 3 ngôn ngữ là “FASTA sequence format”,

“Identifiers”, và “Bare sequence”.

Bước 3: đặt vùng phân tích “set subsequence”

Cung cấp thông tin vị trí trên đoạn chuỗi cần phân tích bằng 2 giá

trị số chỉ vị trí giới hạn đầu-cuối đoạn chuỗi ấy (from 1, to length)

Trang 30

Phần II 2 Thao tác với blast

Bước 4: lựa chọn ngân hàng dữ liệu

•Cơ sở dữ liệu protein bao gồm: Nr, Month, Swissprot, Patents,

Yeast, E.coli, Pdb, Kabat, alu

•Cơ sở dữ liệu nucleotide bao gồm: Nr, Month, Dbest, mouse-ests,

human-ests, other-ests, yeas, E.coli, Pdb, kabat, patents, vector, mito, Alu, Gss, Htgs

Trang 31

Phần II 2 Thao tác với blast

Nhập mã truy mật hoặc trình tự cần so sánh

Hoặc tải trình tự có sẵn trong máy tính

Chọn cơ sở dữ liệu

Trang 32

Phần II 2 Thao tác với blast

Bước 5: gửi yêu cầu xử lý

Sau khi khai báo xong, người phân tích nhấn nút BLAST để gửi tin

đi

Về cấu trúc tệp tin kết quả gồm 4 phần là:

Phần đầu hiển thị kết quả sơ bộ dạng đồ họa hình ảnh màu sắc của

các chuỗi tương đồng cao nhất.

Hiển thị kết quả dạng kí tự tóm tắt kết quả

Hiển thị kết quả cụ thể khi so sánh

Tóm tắt thông tin về chế độ chạy yêu cầu cho BLAST

Trang 33

Phần II 2 Thao tác với blast

đồ họa hình ảnh

Trang 34

Phần II 2 Thao tác với blast

dạng kí tự tóm tắt kết quả

Trang 35

Phần II 2 Thao tác với blast

kết quả cụ thể khi so sánh

Trang 36

Giả sử chúng ta có một trình tự gen nhau sau và muốn xác định là đoạn gen của loài nào? hoặc giống gen sinh vật nào

Phần II 3 Ví dụ

AATTTTTGGAGTGGAAGTTTGAGAAGCATATATATATATATATGTGTGTGT GTGTGTGTGTGTGTGTGTGTGTGTGTGTGTATATACGTATATATGTGTGTG TGTGTGTATATATATATAGAGAGAGAGAGATATAGATATATCTATCTATAT ATATATATATATATATATGATTTCCCATCGTCTGTATCGTAACCCAACTGTA GCCCAATAAAGCTCAGAGGAATT

Trang 37

Nhập trı̀nh tự nucleotide

Phần II 3 Ví dụ

Trang 38

Phần II 3 Ví dụ

Trang 39

Phần II 3 Ví dụ

Trang 40

Phần II 3 Ví dụ

Trang 41

Phần II 3 Ví dụ

>emb|AJ223768.1| Pinus sylvestris microsatellite DNA, clone SPAC11.5

Vậy ta có thể tin là đoạn gen đó là của sinh vật có

tên là Pinus

Trang 42

Kết luận

Tin sinh học có rất nhiều ứng dụng, vì thế cơ sở dữ liệu của

công nghệ sinh học không chỉ dừng lại ở tập hợp các kết quả

nghiên cứu thực nghiệm đơn thuần của các nhà khoa học trên khắp thế giới, mà nó còn bao gồm khả năng khái quát hóa, mô

sống động

Trong nhiều chương trình ứng dụng của tin sinh học, Chương trình phân tích cấu trúc tương đồng Blast là một ứng dụng vô cùng quan trọng, cho biết chính xác sự tương đồng

của các Nucleotic, chuỗi AND hay protein

Ngày đăng: 12/07/2014, 14:58

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w