Phân tích và giải thích các loại DL sinh học như: nucleotide; trình tự acid amin; chức năng và cấu trúc của protein.. PHÂN TÍCH TRÌNH Tự So sánh trình tự sắp xếp để tìm ra chuỗi tương
Trang 1GIớI THIệU Về TIN SINH HọC
Trang 22. Giải thích về bộ gen người
3. Tính toán quá trình tiến hoá của sinh vật
4. Đo sự đa dạng sinh học
5. Dự đoán cấu trúc gen
III. GIỚI THIỆU MỘT SỐ CSDL
Trang 3I GIỚI THIỆU
Tin sinh học (Bioinformatics): Là 1 lĩnh vực khoa học sử dụng các công nghệ của các ngành khoa học khác như: Ứng dụng toán học; sinh học; Thống kê; Khoa học máy tính Để giải quyết vấn đề sinh học ở cấp độ phân tử
Là khoa học quản lý và phân tích DL sinh học sử dụng các kỹ thuật máy tính
Mục tiêu: Phát hiện ra những hiểu biết mới về sinh học; đồng thời tạo cái nhìn tổng quát và thống nhất trong các vấn đề của sinh học
Thu thập, lưu trữ, phân tích, tích hợp thông tin sinh học và di truyền để khai thác các thông tin một cách hợp lý
Là cơ sở hạ tầng của sinh học phân tử
Trang 4 Phân tích và giải thích các loại
DL sinh học như: nucleotide;
trình tự acid amin; chức năng và
cấu trúc của protein
Phát triển các thuật toán mới và
thống kê số liệu để đánh giá các
thông tin sinh học và mối quan hệ
giữa các thành viên trong cơ sở dữ
liệu lớn
Phát triển và thực hiệc các công
cụ cho phép truy cập hiệu quả và
quản lý các loại thông tin khác
nhau trong lĩnh vực sinh học
Trang 5 Nucleic acid: là vật chất thông tin mang di truyền của các hệ thống sống.
Nhóm Phosphate
Đường Pentose
1 nitrogen base(A(adenine); G(Guanine);
T(thymine); C(Cytosime); U(Uraeicl))
Nucleic acid gồm 2 loại phân tử có cấu tạo giống nhau:
DNA (Deoryribonucleic)
RNA(Ribonucleic acid)
1 Một số khái niệm
Trang 7 Gen là một đoạn DNA đảm bảo cho việc tạo ra một polypeptide, nó bao gồm cả phần phía trước là vùng 5’ không dịch mã (5’ untranslation) hay còn gọi là vùng ngược hướng (upstream) và phía sau là vùng 3’ không dịch mã (3’ untranslation) hay còn gọi là vùng cùng hướng (downstream) của vùng mã hóa cho protein, và bao gồm cả những đoạn không mã hóa (intron) xen giữa các đoạn mã hóa (exon)
1 Một số khái niệm
Trang 8 DNA: là một chuỗi xoắn kép, mỗi
sợ đơn là 1 chuỗi nucleotide ATCG
DNA thường được coi là vật liệu di truyền ở cấp độ phân tử tham gia quyết định các tính trạng Trong quá trình sinh sản, phân tử DNA được nhân đôi và truyền cho thế hệ sau.
5' C-G-A-T-T-G-C-A-A-C-G-A-T-G-C 3'
| | | | | | | | | | | | | | |
3' G-C-T-A-A-C-G-T-T-G-C-T-A-C-G 5'
1 Một số khái niệm-DNA
Trang 9 Phân tích trình tự đơn giản
Trang 10 Có cấu tạo giống DNA
Khác nhau: RNA là chuỗi đơn
Trang 11 Tìm hiểu hệ ptotein của 1 sinh vật
Cấu trúc 2D; 3D của ptotein
Gồm nhiều acid amin
Có 20 loại acid amin: CDEFGHIKLMNPQRSTVWY
1 Một số khái niệm-Protein
Trang 12Mối liên hệ giữa DNA-RNA-Protein
Trang 132 PHÂN TÍCH TRÌNH Tự
So sánh trình tự sắp xếp để tìm ra chuỗi tương tự
Cách sắp xếp của các trình tự trong DNA/RNA/Amino Acids
để xác định các vùng giống nhau có thể cho kết quả: chức năng, cấu trúc hay mối quan
hệ tiến hoá
Xác định cấu trúc gen, đọc được các khung dịch mã, sự phân phối của introns và exons và các thành phần điều tiết gen
Trang 142 PHÂN TÍCH TRÌNH Tự
Khung đọc mở: Đoạn trình tự nằm giữa một bộ ba khởi đầu và một bộ ba kết thúc tương ứng cùng khung đọc được gọi là khung đọc mở (ORF = open reading frame)
Đặc điểm này được dùng để xác định các trình tự ADN mã hoá protein trong các dự án giải mã hệ gen
Initiation codon5’ Mở đầu: ATG 5’ Stop codon
3’
ORF
Terminator
(TAA, TAG, TGA)
Trang 15CHIềU DịCH MÃ TRONG SÁU KHUÔN ĐọC ORF
5’ AATGGCAATCCGCGTAGACTAGGCA 3’ 3’ TTACCGTTAGGCGCATCTGTATCGT 5’
AATGGCAATCCGCGTAGACTAGGC A A
AATG ATG GCAATCCGCGTAGACTAGGCA AA
+3
Trang 16EXPRESSED SEQUENCE TAGS (EST)
Trang 18EXPRESSED SEQUENCE TAGS (EST)
EST-nhãn xác định trình tự biểu hiện (expressed sequence tag) : là các đoạn trình tự ngắn được trích
ra từ một trình tự cDNA đã biết Các vùng tương ứng với các EST được xác định là các exon, còn các vùng nằm giữa các exon tương ứng với các intron (mặc dù, nguyên tắc cắt intron khác nhau có
hay EST được giải mã trình tự)
Các thông tin giải mã trình tự cDNA và EST cũng giúp tìm được sự liên kết giữa các contig, giữa các đoạn khung và giữa chúng với nhau
Trang 19 Trình tự DNA xác định trình tự protein
Trình tự Protein xác định cấu trúc protein
Cấu trúc Protein xác định cấu trúc gấp và chức năng của protein
2 PHÂN TÍCH TRÌNH Tự
KẾT LUẬN
Trang 20 Bắt cặp toàn cục/cục bộ
Bắt cặp đôi một/nhiều trình tự
3 BắT CặP TRÌNH Tự
Trang 21 Mục đích: xem liệu một chuỗi con có trong một chuỗi khác
Thuật toán: Smith-Waterman liên kết động
Trang 22BắT CặP ĐÔI/NHIềU TRÌNH Tự
Bắt cặp trình tự đôi một: Là sự liên kết giữa 2 trình tự thu được bằng cách thêm vào những khoảng trắng, như vậy chuỗi sau khi bắt cặp sẽ có cùng độ dài và có những vùng đại diện cho những khoảng tương đồng
Bắt cặp đa trình tự: tương tự như bắt cặp đôi một nhưng
có số trình tự n>2
Định nghĩa: Một sự liên kết nhiều trình tự là một sự liên kết của n> 2 trình tự thu được bằng cách chèn khoảng cách ("-") vào trình tự và như vậy các trình đều có chiều dài L và có thể được sắp xếp trong một ma trận N hàng và L cột nơi mỗi cột đại diện cho một vị trí tương đồng
3 BắT CặP TRÌNH Tự
Trang 24Bắt cặp thủ công:(Manual alignment)
khác nhau, chỉ có vài khoảng trắng và
sự bắt cặp hợp lý có thể kiểm tra trực
quan
GCG-TCCATCAGGTAGTTGGTGTG
GCGATCCATCAGGTGGTTGGTGTG
Ưu điểm: Sử dụng 1 công cụ mạnh và dễ huấn luyện
Khả năng tích hợp dữ liệu bổ sung
Khuyết điểm: mang tính chủ quan và không linh hoạt
Trang 26Sự bắt cặp được xác định bằng 1 đường
từ trái sang phải
Trang 27 Ư u điểm: Có thể làm sáng tỏ thông tin
về sự tiến hoá của các trình tự
nên lộn xộn và có thể không các định được sự bắt cặp tốt nhất có thể
Trang 29Thuật toán Needleman-Wunsch: đưa ra một kỹ thuật bắt cặp toàn cục và dựa trên liên kết động
Thuật toán Smith-Waterman: đưa ra 1 phương pháp bắt cặp cục bộ cũng dựa trên liên kết động
3 bước trong thuật toán:
Khởi tạo
Điền giá trị cho ma trận(scoring)
Lần ngược (alignment)
Trang 30TCGCA T-CCA
Trang 31THUậT TOÁN NEEDLEMAN/WUNSCH: LIÊN KếT
Tìm điểm số tốt nhất dựa trên 3 hướng tính toán trong ma trận
score(x,y) = max score(x,y-1) - gap-penaltyscore(x-1,y-1) + substitution-score(x,y)
score(x-1,y) - gap-penalty
Ý tưởng: Để tính X dựa vào tính toán của 3 hướng và lấy max
Trang 32S2= TCCA
Trang 33VÍ Dụ
Trang 34VÍ Dụ
Trang 35VÍ Dụ
Trang 36VÍ Dụ
Trang 37T C G C A
: : : :
T C - C A
1+1-2+1+1 = 2
Trang 38ĐIểM KHÁC CủA SMITH-WATERMAN
Lấy giá trị 0 nếu các giá trị khác nhỏ hơn 0
Sự bắt cặp có thể kết thúc ở bất cứ nơi nào khác trong ma trận Vì vậy thay vì lấy giá trị ở góc phải cuối cùng thì tìm giá trị cao nhất trên toàn
bộ ma trận và bắt đầu lần ngược từ đó
Trang 39MộT Số VấN Đề TRONG BắT CặP
TRÌNH Tự
A: AGT B: AT C: ATC
A: AGT
B: A -T
C: ATC
A: AGT B: AT - C: ATC
A: AGT B: A -T - C: A -TC
Trang 40THUậT TOÁN BLAST(BASIC LOCAL
ALIGNMENT SEARCH TOOL)
rằng những chuỗi bắt cặp trình tự (alignment) thường sở hữu nhiều đoạn chuỗi con có tính tương tự cao Những chuỗi con này được mở rộng để tăng tính tương tự trong quá trình tìm kiếm.
Thuật toán của BLAST có 2 phần, một phần tìm kiếm và một phần đánh giá thống kê dựa trên kết quả tìm được.
Trang 41CÁC BƯớC CủA THUậT TOÁN BLAST
Bước 1: BLAST tìm kiếm các chuỗi con ngắn với chiều dài cố định W có tính tương tự cao (không cho phép khoảng trống) giữa chuỗi truy vấn và các chuỗi trong cơ sở dữ liệu Những chuỗi con với chiều dài W được BLAST gọi là một từ (word).
Ví dụ: khi cho sẵn các chuỗi AGTTAH và ACFTAQ và một từ có chiều dài W = 3, BLAST sẽ xác định chuỗi con TAH và TAQ với
số điểm theo ma trận PAM là 3 + 2 + 3 = 8 và gọi chúng là một Hit.
Trang 42PAM SCORE MATRIX (1978)
Trang 43Bước 2: BLAST tiếp tục tìm kiếp những cặp Hits tiếp theo dựa trên cơ sở những Hit đã tìm được trong bước 1 Những cặp Hits này được BLAST giới hạn bởi một giá trị cho trước d, gọi là khoảng cách giữa những Hits Những cặp Hits có khoảng cách lớn hơn d sẽ
Trang 44 Bước 3: Cuối cùng BLAST mở rộng những cặp Hits đã tìm được theo cả hai chiều và đồng thời đánh số điểm Quá trình mở rộng kết thúc khi điểm của các cặp Hits không thể mở rộng thêm nữa.
Những cặp Hits sau khi mở rộng có điểm số cao hơn một giá trị ngưỡng S (threshold value) thì được BLAST gọi là "cặp điểm số cao" (high
scoring pair) HSP.
Những cặp HSP đã tìm được được BLAST sắp xếp theo giá trị đánh giá giảm dần, đưa ra màn hình, và thực hiện phần đánh giá thống kê trên những cặp HSP này.
CÁC BƯớC CủA THUậT TOÁN BLAST
Trang 46CÁC Họ CHƯƠNG TRÌNH TRONG
BLAST
Nucleotide-nucleotide BLAST (blastn): Chương
trình này, khi đưa vào một DNA truy vấn, sẽ trả về các chuỗi DNA gần giống nhất từ cơ sở dữ liệu DNA
mà người dùng chỉ định.
Protein-protein BLAST (blastp): Chương trình
này, khi đưa vào một protein truy vấn, sẽ trả về các chuỗi protein gần giống nhất từ cơ sở dữ liệu
protein mà người dùng chỉ định.
Nucleotide-protein 6-frame translation (blastx):
Chương trình này so sánh các sản phẩm chuyển đổi (trừu tượng) sang 6-khung của một chuỗi nucleotide truy vấn (cả 2 dải) với một cơ sở dữ liệu chuỗi
protein Quá trình này có thể rất chậm.
Trang 47 Nucleotide-nucleotide 6-frame translation (tblastx): Chương trình này là chậm nhất trong
họ BLAST Nó chuyển chuỗi nucleotide truy vấn thành 6-khung (frame) có thể và so sánh các proteins tạo thành Mục tiêu của tblastx là tìm kiếm mối quan hệ rất xa giữa các chuỗi nucleotide.
Protein-nucleotide 6-frame translation (tblastn): Chương trình này chuyển cơ sở dữ liệu
đích thành 6-khung (frame) và so sánh với chuỗi protein truy vấn
Large numbers of query sequences (megablast): Khi so sánh một số lượng lớn các
chuỗi đầu vào qua chỉ một BLAST dạng dòng lệnh,
"megablast" là nhanh hơn rất nhiều so với chạy BLAST nhiều lần.
CÁC Họ CHƯƠNG TRÌNH TRONG
BLAST
Trang 48II HƯỚNG NGHIÊN CỨU CHÍNH
1 Phân tích và bắt cặp trình tự
2 Giải thích về bộ gen người
3 Tính toán quá trình tiến hoá của sinh vật
4 Đo sự đa dạng sinh học
5 Dự đoán cấu trúc gen
Trang 491 PHÂN TÍCH VÀ BẮT CẶP TRÌNH TỰ
tự trong DNA/RNA/Amino Acids để xác định các vùng giống nhauxác định chức năng, cấu trúc hay mối quan hệ tiến hoá
introns và exons và các thành phần điều tiết trong gen
2 CHÚ GiẢI BỘ GEN NGƯỜI
trình tự DNA
Hệ thống phần mềm giải thích bộ gen người đầu tiên được thiết kế vào năm 1995 do tiến sỹ Owen White Hệ thống phần mềm của White cũng tìm ra gen(vị trí trong trình tự DNA được mã hoá bằng 1 protein), phân tử mang thông tin RNA và những đặc điểm khác.
Trang 503 TÍNH TOÁN QUÁ TRÌNH TIẾN HOÁ CỦA SV
Tìm ra quá trình tiến hoá của 1 số sinh vật bằng cách đo sự thay đổi trong DNA của chúng
So sánh toàn bộ bộ gen,thừa nhận các sự kiện tiến hoá phức tạp, như việc gấp đôi gen, sự phiên mã ngang của gen, sự tiến hoá loài
4 ĐO SỰ ĐA DẠNG SINH HỌC
CSDL đa dạng sinh học được sử dụng để thu thập tên các loài, sự miêu tả, phân bố, thông tin gen, các giai đoạn và kích thước phân
bố, môi trường sống cần, và làm thế nào mỗi sinh vật tương tác với các loài khác
Mô hình máy tính mô phỏng những điều kiện như: kích thước động, hay tính toán sự tích luỹ di truyền thể chất của một nhóm sinh sản (trong nông nghiệp) hay các nhóm sinh vật gây nguy hiểm(trong bảo tồn thiên nhiên)
Trang 515 Dự ĐOÁN CấU TRÚC PROTEIN
Dự đoán cấu trúc protein là một trong những mục đích quan trọng được theo đuổi trong tin sinh học và hoá học lý thuyết
Mục đích của nó là dự đoán cấu trúc 3 chiều của protein từ trình tự amino acid của chúng
Trong một khía cạnh nào đó, nó cũng là dự đoán cấu trúc thứ 3 của một protein từ cấu trúc chính của nó
Dự đoán cấu trúc protein thật sự rất quan trọng trong y khoa, (ví dụ như bào chế thuốc) và công nghệ sinh học(ví dụ như thiết kế enzyme mới)
Trang 52MộT Số ứNG DụNG KHÁC
So sánh bộ gen là một trường hợp tìm mối quan hệ của cấu trúc
bộ gen người và sự truyền tải chức năng chéo hoặc thẳng trong các loài sinh vật
Tìm kiếm gen là một ứng dụng quan trọng của so sánh các bộ gen, cũng giống như khám phá ra cái mới, những thành phần chưa biết chức năng của bộ gen người
Hướng nghiên cứu tính toán so sánh bộ gen trong những năm gần đây trở thành hướng nghiên cứu khá phổ biến trong ngành khoa học máy tính
Mô phỏng các quá trình sinh học trên máy tính
Dự đoán sự tương tác protein-protein dựa trên cấu trúc protein
3 chiều
Trang 53III GIỚI THIỆU MỘT SỐ CSDL SINH HỌC
Trang 54HƯớNG NGHIÊN CứU
Text mining trong văn bản y khoa:
Tìm kiếm thông tin (Information retrival) trong văn bản y khoa
Rút trích thông tin trong văn bản y khoa
đây là mấy cái thầy nói chị nên tìm, vì nó đúng với hướng của thầy chứ nếu đi theo phần trên thì
đi sâu vào sinh học quá Và thầy cho 1 link của nhóm nghiên cứu của thầy
http://sites.google.com/site/bionlpst/