1. Trang chủ
  2. » Giáo án - Bài giảng

Giới thiệu về tin sinh học

54 289 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 54
Dung lượng 2,79 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

 Phân tích và giải thích các loại DL sinh học như: nucleotide; trình tự acid amin; chức năng và cấu trúc của protein.. PHÂN TÍCH TRÌNH Tự So sánh trình tự sắp xếp để tìm ra chuỗi tương

Trang 1

GIớI THIệU Về TIN SINH HọC

Trang 2

2. Giải thích về bộ gen người

3. Tính toán quá trình tiến hoá của sinh vật

4. Đo sự đa dạng sinh học

5. Dự đoán cấu trúc gen

III. GIỚI THIỆU MỘT SỐ CSDL

Trang 3

I GIỚI THIỆU

Tin sinh học (Bioinformatics): Là 1 lĩnh vực khoa học sử dụng các công nghệ của các ngành khoa học khác như: Ứng dụng toán học; sinh học; Thống kê; Khoa học máy tính Để giải quyết vấn đề sinh học ở cấp độ phân tử

Là khoa học quản lý và phân tích DL sinh học sử dụng các kỹ thuật máy tính

Mục tiêu: Phát hiện ra những hiểu biết mới về sinh học; đồng thời tạo cái nhìn tổng quát và thống nhất trong các vấn đề của sinh học

Thu thập, lưu trữ, phân tích, tích hợp thông tin sinh học và di truyền để khai thác các thông tin một cách hợp lý

Là cơ sở hạ tầng của sinh học phân tử

Trang 4

 Phân tích và giải thích các loại

DL sinh học như: nucleotide;

trình tự acid amin; chức năng và

cấu trúc của protein

 Phát triển các thuật toán mới và

thống kê số liệu để đánh giá các

thông tin sinh học và mối quan hệ

giữa các thành viên trong cơ sở dữ

liệu lớn

 Phát triển và thực hiệc các công

cụ cho phép truy cập hiệu quả và

quản lý các loại thông tin khác

nhau trong lĩnh vực sinh học

Trang 5

 Nucleic acid: là vật chất thông tin mang di truyền của các hệ thống sống.

 Nhóm Phosphate

 Đường Pentose

 1 nitrogen base(A(adenine); G(Guanine);

T(thymine); C(Cytosime); U(Uraeicl))

 Nucleic acid gồm 2 loại phân tử có cấu tạo giống nhau:

 DNA (Deoryribonucleic)

 RNA(Ribonucleic acid)

1 Một số khái niệm

Trang 7

 Gen là một đoạn DNA đảm bảo cho việc tạo ra một polypeptide, nó bao gồm cả phần phía trước là vùng 5’ không dịch mã (5’ untranslation) hay còn gọi là vùng ngược hướng (upstream) và phía sau là vùng 3’ không dịch mã (3’ untranslation) hay còn gọi là vùng cùng hướng (downstream) của vùng mã hóa cho protein, và bao gồm cả những đoạn không mã hóa (intron) xen giữa các đoạn mã hóa (exon)

1 Một số khái niệm

Trang 8

 DNA: là một chuỗi xoắn kép, mỗi

sợ đơn là 1 chuỗi nucleotide ATCG

 DNA thường được coi là vật liệu di truyền ở cấp độ phân tử tham gia quyết định các tính trạng Trong quá trình sinh sản, phân tử DNA được nhân đôi và truyền cho thế hệ sau.

5' C-G-A-T-T-G-C-A-A-C-G-A-T-G-C 3'

| | | | | | | | | | | | | | |

3' G-C-T-A-A-C-G-T-T-G-C-T-A-C-G 5'

1 Một số khái niệm-DNA

Trang 9

 Phân tích trình tự đơn giản

Trang 10

 Có cấu tạo giống DNA

 Khác nhau: RNA là chuỗi đơn

Trang 11

 Tìm hiểu hệ ptotein của 1 sinh vật

 Cấu trúc 2D; 3D của ptotein

 Gồm nhiều acid amin

 Có 20 loại acid amin: CDEFGHIKLMNPQRSTVWY

1 Một số khái niệm-Protein

Trang 12

Mối liên hệ giữa DNA-RNA-Protein

Trang 13

2 PHÂN TÍCH TRÌNH Tự

 So sánh trình tự sắp xếp để tìm ra chuỗi tương tự

 Cách sắp xếp của các trình tự trong DNA/RNA/Amino Acids

để xác định các vùng giống nhau có thể cho kết quả: chức năng, cấu trúc hay mối quan

hệ tiến hoá

 Xác định cấu trúc gen, đọc được các khung dịch mã, sự phân phối của introns và exons và các thành phần điều tiết gen

Trang 14

2 PHÂN TÍCH TRÌNH Tự

 Khung đọc mở: Đoạn trình tự nằm giữa một bộ ba khởi đầu và một bộ ba kết thúc tương ứng cùng khung đọc được gọi là khung đọc mở (ORF = open reading frame)

 Đặc điểm này được dùng để xác định các trình tự ADN mã hoá protein trong các dự án giải mã hệ gen

Initiation codon5’ Mở đầu: ATG 5’ Stop codon

3’

ORF

Terminator

(TAA, TAG, TGA)

Trang 15

CHIềU DịCH MÃ TRONG SÁU KHUÔN ĐọC ORF

5’ AATGGCAATCCGCGTAGACTAGGCA 3’ 3’ TTACCGTTAGGCGCATCTGTATCGT 5’

AATGGCAATCCGCGTAGACTAGGC A A

AATG ATG GCAATCCGCGTAGACTAGGCA AA

+3

Trang 16

EXPRESSED SEQUENCE TAGS (EST)

Trang 18

EXPRESSED SEQUENCE TAGS (EST)

 EST-nhãn xác định trình tự biểu hiện (expressed sequence tag) : là các đoạn trình tự ngắn được trích

ra từ một trình tự cDNA đã biết Các vùng tương ứng với các EST được xác định là các exon, còn các vùng nằm giữa các exon tương ứng với các intron (mặc dù, nguyên tắc cắt intron khác nhau có

hay EST được giải mã trình tự)

 Các thông tin giải mã trình tự cDNA và EST cũng giúp tìm được sự liên kết giữa các contig, giữa các đoạn khung và giữa chúng với nhau

Trang 19

 Trình tự DNA xác định trình tự protein

 Trình tự Protein xác định cấu trúc protein

 Cấu trúc Protein xác định cấu trúc gấp và chức năng của protein

2 PHÂN TÍCH TRÌNH Tự

KẾT LUẬN

Trang 20

 Bắt cặp toàn cục/cục bộ

 Bắt cặp đôi một/nhiều trình tự

3 BắT CặP TRÌNH Tự

Trang 21

 Mục đích: xem liệu một chuỗi con có trong một chuỗi khác

 Thuật toán: Smith-Waterman liên kết động

Trang 22

BắT CặP ĐÔI/NHIềU TRÌNH Tự

 Bắt cặp trình tự đôi một: Là sự liên kết giữa 2 trình tự thu được bằng cách thêm vào những khoảng trắng, như vậy chuỗi sau khi bắt cặp sẽ có cùng độ dài và có những vùng đại diện cho những khoảng tương đồng

 Bắt cặp đa trình tự: tương tự như bắt cặp đôi một nhưng

có số trình tự n>2

 Định nghĩa: Một sự liên kết nhiều trình tự là một sự liên kết của n> 2 trình tự thu được bằng cách chèn khoảng cách ("-") vào trình tự và như vậy các trình đều có chiều dài L và có thể được sắp xếp trong một ma trận N hàng và L cột nơi mỗi cột đại diện cho một vị trí tương đồng

3 BắT CặP TRÌNH Tự

Trang 24

Bắt cặp thủ công:(Manual alignment)

khác nhau, chỉ có vài khoảng trắng và

sự bắt cặp hợp lý có thể kiểm tra trực

quan

GCG-TCCATCAGGTAGTTGGTGTG

GCGATCCATCAGGTGGTTGGTGTG

 Ưu điểm: Sử dụng 1 công cụ mạnh và dễ huấn luyện

 Khả năng tích hợp dữ liệu bổ sung

 Khuyết điểm: mang tính chủ quan và không linh hoạt

Trang 26

Sự bắt cặp được xác định bằng 1 đường

từ trái sang phải

Trang 27

 Ư u điểm: Có thể làm sáng tỏ thông tin

về sự tiến hoá của các trình tự

nên lộn xộn và có thể không các định được sự bắt cặp tốt nhất có thể

Trang 29

Thuật toán Needleman-Wunsch: đưa ra một kỹ thuật bắt cặp toàn cục và dựa trên liên kết động

Thuật toán Smith-Waterman: đưa ra 1 phương pháp bắt cặp cục bộ cũng dựa trên liên kết động

3 bước trong thuật toán:

Khởi tạo

Điền giá trị cho ma trận(scoring)

Lần ngược (alignment)

Trang 30

TCGCA T-CCA

Trang 31

THUậT TOÁN NEEDLEMAN/WUNSCH: LIÊN KếT

Tìm điểm số tốt nhất dựa trên 3 hướng tính toán trong ma trận

score(x,y) = max score(x,y-1) - gap-penaltyscore(x-1,y-1) + substitution-score(x,y)

score(x-1,y) - gap-penalty

Ý tưởng: Để tính X dựa vào tính toán của 3 hướng và lấy max

Trang 32

S2= TCCA

Trang 33

VÍ Dụ

Trang 34

VÍ Dụ

Trang 35

VÍ Dụ

Trang 36

VÍ Dụ

Trang 37

T C G C A

: : : :

T C - C A

1+1-2+1+1 = 2

Trang 38

ĐIểM KHÁC CủA SMITH-WATERMAN

 Lấy giá trị 0 nếu các giá trị khác nhỏ hơn 0

 Sự bắt cặp có thể kết thúc ở bất cứ nơi nào khác trong ma trận Vì vậy thay vì lấy giá trị ở góc phải cuối cùng thì tìm giá trị cao nhất trên toàn

bộ ma trận và bắt đầu lần ngược từ đó

Trang 39

MộT Số VấN Đề TRONG BắT CặP

TRÌNH Tự

A: AGT B: AT C: ATC

A: AGT

B: A -T

C: ATC

A: AGT B: AT - C: ATC

A: AGT B: A -T - C: A -TC

Trang 40

THUậT TOÁN BLAST(BASIC LOCAL

ALIGNMENT SEARCH TOOL)

rằng những chuỗi bắt cặp trình tự (alignment) thường sở hữu nhiều đoạn chuỗi con có tính tương tự cao Những chuỗi con này được mở rộng để tăng tính tương tự trong quá trình tìm kiếm.

 Thuật toán của BLAST có 2 phần, một phần tìm kiếm và một phần đánh giá thống kê dựa trên kết quả tìm được.

Trang 41

CÁC BƯớC CủA THUậT TOÁN BLAST

Bước 1: BLAST tìm kiếm các chuỗi con ngắn với chiều dài cố định W có tính tương tự cao (không cho phép khoảng trống) giữa chuỗi truy vấn và các chuỗi trong cơ sở dữ liệu Những chuỗi con với chiều dài W được BLAST gọi là một từ (word).

Ví dụ: khi cho sẵn các chuỗi AGTTAH và ACFTAQ và một từ có chiều dài W = 3, BLAST sẽ xác định chuỗi con TAH và TAQ với

số điểm theo ma trận PAM là 3 + 2 + 3 = 8 và gọi chúng là một Hit.

Trang 42

PAM SCORE MATRIX (1978)

Trang 43

Bước 2: BLAST tiếp tục tìm kiếp những cặp Hits tiếp theo dựa trên cơ sở những Hit đã tìm được trong bước 1 Những cặp Hits này được BLAST giới hạn bởi một giá trị cho trước d, gọi là khoảng cách giữa những Hits Những cặp Hits có khoảng cách lớn hơn d sẽ

Trang 44

 Bước 3: Cuối cùng BLAST mở rộng những cặp Hits đã tìm được theo cả hai chiều và đồng thời đánh số điểm Quá trình mở rộng kết thúc khi điểm của các cặp Hits không thể mở rộng thêm nữa.

 Những cặp Hits sau khi mở rộng có điểm số cao hơn một giá trị ngưỡng S (threshold value) thì được BLAST gọi là "cặp điểm số cao" (high

scoring pair) HSP.

 Những cặp HSP đã tìm được được BLAST sắp xếp theo giá trị đánh giá giảm dần, đưa ra màn hình, và thực hiện phần đánh giá thống kê trên những cặp HSP này.

CÁC BƯớC CủA THUậT TOÁN BLAST

Trang 46

CÁC Họ CHƯƠNG TRÌNH TRONG

BLAST

Nucleotide-nucleotide BLAST (blastn): Chương

trình này, khi đưa vào một DNA truy vấn, sẽ trả về các chuỗi DNA gần giống nhất từ cơ sở dữ liệu DNA

mà người dùng chỉ định.

Protein-protein BLAST (blastp): Chương trình

này, khi đưa vào một protein truy vấn, sẽ trả về các chuỗi protein gần giống nhất từ cơ sở dữ liệu

protein mà người dùng chỉ định.

Nucleotide-protein 6-frame translation (blastx):

Chương trình này so sánh các sản phẩm chuyển đổi (trừu tượng) sang 6-khung của một chuỗi nucleotide truy vấn (cả 2 dải) với một cơ sở dữ liệu chuỗi

protein Quá trình này có thể rất chậm.

Trang 47

Nucleotide-nucleotide 6-frame translation (tblastx): Chương trình này là chậm nhất trong

họ BLAST Nó chuyển chuỗi nucleotide truy vấn thành 6-khung (frame) có thể và so sánh các proteins tạo thành Mục tiêu của tblastx là tìm kiếm mối quan hệ rất xa giữa các chuỗi nucleotide.

Protein-nucleotide 6-frame translation (tblastn): Chương trình này chuyển cơ sở dữ liệu

đích thành 6-khung (frame) và so sánh với chuỗi protein truy vấn

Large numbers of query sequences (megablast): Khi so sánh một số lượng lớn các

chuỗi đầu vào qua chỉ một BLAST dạng dòng lệnh,

"megablast" là nhanh hơn rất nhiều so với chạy BLAST nhiều lần.

CÁC Họ CHƯƠNG TRÌNH TRONG

BLAST

Trang 48

II HƯỚNG NGHIÊN CỨU CHÍNH

1 Phân tích và bắt cặp trình tự

2 Giải thích về bộ gen người

3 Tính toán quá trình tiến hoá của sinh vật

4 Đo sự đa dạng sinh học

5 Dự đoán cấu trúc gen

Trang 49

1 PHÂN TÍCH VÀ BẮT CẶP TRÌNH TỰ

tự trong DNA/RNA/Amino Acids để xác định các vùng giống nhauxác định chức năng, cấu trúc hay mối quan hệ tiến hoá

introns và exons và các thành phần điều tiết trong gen

2 CHÚ GiẢI BỘ GEN NGƯỜI

trình tự DNA

Hệ thống phần mềm giải thích bộ gen người đầu tiên được thiết kế vào năm 1995 do tiến sỹ Owen White Hệ thống phần mềm của White cũng tìm ra gen(vị trí trong trình tự DNA được mã hoá bằng 1 protein), phân tử mang thông tin RNA và những đặc điểm khác.

Trang 50

3 TÍNH TOÁN QUÁ TRÌNH TIẾN HOÁ CỦA SV

 Tìm ra quá trình tiến hoá của 1 số sinh vật bằng cách đo sự thay đổi trong DNA của chúng

 So sánh toàn bộ bộ gen,thừa nhận các sự kiện tiến hoá phức tạp, như việc gấp đôi gen, sự phiên mã ngang của gen, sự tiến hoá loài

4 ĐO SỰ ĐA DẠNG SINH HỌC

 CSDL đa dạng sinh học được sử dụng để thu thập tên các loài, sự miêu tả, phân bố, thông tin gen, các giai đoạn và kích thước phân

bố, môi trường sống cần, và làm thế nào mỗi sinh vật tương tác với các loài khác

 Mô hình máy tính mô phỏng những điều kiện như: kích thước động, hay tính toán sự tích luỹ di truyền thể chất của một nhóm sinh sản (trong nông nghiệp) hay các nhóm sinh vật gây nguy hiểm(trong bảo tồn thiên nhiên)

Trang 51

5 Dự ĐOÁN CấU TRÚC PROTEIN

 Dự đoán cấu trúc protein là một trong những mục đích quan trọng được theo đuổi trong tin sinh học và hoá học lý thuyết

 Mục đích của nó là dự đoán cấu trúc 3 chiều của protein từ trình tự amino acid của chúng

 Trong một khía cạnh nào đó, nó cũng là dự đoán cấu trúc thứ 3 của một protein từ cấu trúc chính của nó

 Dự đoán cấu trúc protein thật sự rất quan trọng trong y khoa, (ví dụ như bào chế thuốc) và công nghệ sinh học(ví dụ như thiết kế enzyme mới)

Trang 52

MộT Số ứNG DụNG KHÁC

 So sánh bộ gen là một trường hợp tìm mối quan hệ của cấu trúc

bộ gen người và sự truyền tải chức năng chéo hoặc thẳng trong các loài sinh vật

 Tìm kiếm gen là một ứng dụng quan trọng của so sánh các bộ gen, cũng giống như khám phá ra cái mới, những thành phần chưa biết chức năng của bộ gen người

 Hướng nghiên cứu tính toán so sánh bộ gen trong những năm gần đây trở thành hướng nghiên cứu khá phổ biến trong ngành khoa học máy tính

 Mô phỏng các quá trình sinh học trên máy tính

 Dự đoán sự tương tác protein-protein dựa trên cấu trúc protein

3 chiều

Trang 53

III GIỚI THIỆU MỘT SỐ CSDL SINH HỌC

Trang 54

HƯớNG NGHIÊN CứU

 Text mining trong văn bản y khoa:

 Tìm kiếm thông tin (Information retrival) trong văn bản y khoa

 Rút trích thông tin trong văn bản y khoa

  đây là mấy cái thầy nói chị nên tìm, vì nó đúng với hướng của thầy chứ nếu đi theo phần trên thì

đi sâu vào sinh học quá Và thầy cho 1 link của nhóm nghiên cứu của thầy

 http://sites.google.com/site/bionlpst/

Ngày đăng: 31/01/2015, 18:00

TỪ KHÓA LIÊN QUAN

w