1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Nghiên Cứu Các Phương Pháp Phân Tích Và Phát Triển Các Công Cụ Tin Sinh Học Nhằm Giải Quyết Các Bài Toán Quan Trọng Trong Sinh Học Phân Tử Và Ứng Dụng

43 413 1
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 43
Dung lượng 1,89 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

- Không xác định các tương tác đa biến  Cách giải quyết truyền thống: Sử dụng độ đo mutual information MI giữa 2 biến Tương tác cặp đôi... Kết quảliệu biểu hiện gien hoặc dữ liệu nồng đ

Trang 1

Báo cáo nghiệm thu

Đề tài độc lập cấp nhà nước

Nghiên cứu các phương pháp phân tích và phát triển các công cụ tin sinh học nhằm giải quyết các bài toán quan trọng trong sinh học phân tử và ứng dụng

Học viện CNBCVT 1/2012

Trang 2

Các nội dung đăng ký

 ND1: xây dựng báo cáo

tin tin sinh học

 4 bài báo khoa học

Trang 6

CÁC KếT QUả Cụ THể

Trang 7

ND2 Nghiên cứu xây dựng phần

mềm xác định gen

Tìm kiếm

Trang 8

GHMM + thông tin ngoài

Trang 9

ND2 Kết quả

Trang 11

ND3.1 Chú giải chức năng gen/protein dựa trên trình tự

năng của gen dưới dạng các GO term (Gene Ontology term)

Trang 12

Protein A với GO x, GO y Protein B với GO x, GO z gán GO x, GO y, GO z

Trang 13

giềng của A

Trang 15

Độ nhậy

Trang 16

ND3.1 Kết quả

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

A thaliana E coli S cerevisiae

CKNN TOP-PSI-BLAST

Độ chính xác

Trang 17

ND3.2 Chú giải chức năng gen/protein dựa trên mạng chuyển

hóa

Mạng chuyển hóa các metabolite/ Mạng điều hòa gien

G1

G4 G5

G6

G9 G10

Chức năng gene/protein/metabolite Profiling data

Trang 18

 Khó khăn:

đồng thời.

- Không xác định các tương tác đa biến

 Cách giải quyết truyền thống:

Sử dụng độ đo mutual information (MI) giữa 2 biến

Tương tác cặp đôi

Trang 19

ND3.2 Giải pháp

 Xác định các tương tác đa biến:

◦ Mở rộng công thức MI từ 2 biến sang nhiều biến

Tương tác ba MI(X,Y,Z)

Trang 20

ND3.2 Kết quả

liệu biểu hiện gien hoặc dữ liệu nồng độ các chất

chỉ sử dụng thông tin từ các tương tác 2 biến)

Trang 21

ND4.1 Bắt cặp đa chuỗi

 Bài toán

 Khó khăn:

 Đối với người dùng

riêng

Trang 22

ND4.1 Giải pháp 1

 Mục tiêu: thuận tiện cho người dùng

 Tự chọn phương pháp

dữ liệu và yêu cầu

Trang 23

sequence

>= 2000 aa

Số Sequences

> 4000 Có

MAFFT-NS1

MAFFT-NS2

Không Không

Số Sequences

>= 4000 Có

MAFFT-NS1

Số Sequences

>= 400

Không

Có MAFFT-NS2

Không

Số Sequences

>= 200 Có

MAFFT-LINSI

Không

PROBCONS Sequence Input

Trang 25

ND4.1 Kết quả

 Phần mềm với nhiều phương pháp bắt cặp

 Mô đun bắt cặp chính xác cao kết hợp nhiều phương pháp

Trang 26

ND4.1 Kết quả

Probcons LINSI Muscle Tcoffee Kalign Kết hợp

Full-length RV11 66.69 66.19 59.38 66.32 59.32 69.64

Trang 27

ND4.2 Phát hiện thành phần lặp

 Bài toán

>GRB2_CHICK

FFGKIPRAKAEEMLGKQRHDGAFLIRESESAPGDFSLSVKFGNDVQQFKVLRDGAGKYLL WVVKFNSLNELVDYHRSTSVSRNQQIFLRDIEQVPQQPTYVQALFDFDPQEEGELGFRRG

Trang 28

ND4.2 Giải pháp

 Bắt cặp chuỗi với chính nó sử dụng HMM và các bước xử lý khác

Trang 29

Paired-ND4.2 Thuật toán

Trang 30

ND4.2 Kết quả

Phương pháp

bình

Độ nhạy

ký tự

TRUST 0.38 0.42 0.26 0.22 0.31 0.31 0.19 0.28 RADAR 0.58 0.52 0.42 0.38 0.47 0.60 0.35 0.45

Posterior

ProDA-0.59 0.60 0.32 0.40 0.40 0.45 0.39 0.42

Viterbi

Posterior

ProDA-0.76 0.73 0.64 0.73 0.73 0.67 0.67 0.71

Viterbi

ProDA-0.83 0.69 0.67 0.75 0.70 0.67 0.69 0.71

Sử dụng BAliBASE 2.0 reference 6

Trang 31

ND5 So sánh và bắt cặp toàn bộ hệ gen

Giới thiệu: Trong quá trình tiến hóa, hai loại phép biến đổi chính dẫn đến sự

khác biệt giữa hai hệ gen là:

1 Biến đổi ở mức độ điểm (point mutation): Xóa/chèn nucleotide, biến đổi nucleotide

2 Biến đổi ở mức độ gen: Xóa/chèn gen, đảo chiều và dịch chuyển gen.

Bài toán: Bắt cặp toàn bộ hai hệ gen với hai loại phép biến đổi trên

Trang 32

ND5 Giải pháp

1. Sử dụng BLASTZ để tìm các vùng giống nhau giữa hai hệ gen

2. Sử dụng các vùng giống nhau để chia hệ gen thành 1 chuỗi các

đoan DNA liên tiếp

3. Tính khoảng cách giữa đoạn DNA

4. Áp dụng thuật toán bắt cặp hệ gene với phép đảo chỗ để bắt cặp

toàn bộ hệ gen

Trang 33

ND5 Kết quả với dữ liệu mô

phỏng

 Dữ liệu: Thực hiện tạo dữ liệu mô phỏng bằng cách lấy 13 đoạn polypeptide-encoding gen của một hệ gen ti thể (mitochondrial genome)

Số lượng dữ liệu tạo ra để kiểm tra chương trình: 320 bộ

 Kết quả thực nghiệm:

◦ Tỷ lệ trung bình sắp hàng chính xác theo từng nucleotide: ~97%

◦ Thời gian chạy chương trình: 3-7s

Lưu ý: Đây là hệ thống đầu tiên cho phép bắt cặp toàn bộ hai hệ gen

Trang 34

ND5 Kết quả với dữ liệu thật

 Dữ liệu: Sử dụng 15 bộ dữ liệu Metazoan Mitochondria:

◦ 5 hệ gen người: 2 người Việt (chủng da vàng), người Uganda (chủng da đen), người Đức (chủng da trắng), người thổ dân Mỹ (chủng da đỏ)

◦ 10 hệ Gen từ các loài sinh vật khác trên trái đất Khỉ, Cá, Vịt xiêm, Tôm, Gấu ngựa, Hải cẩu, Ếch, Kỳ nhông, Voi châu Á và rùa Biển

 Kết quả: Thực hiện 105 test để bắt cặp đôi một cho từng hệ gen Kết quả so sánh với cận trên của nghiệm tốt ưu:

◦ Tỷ lệ so với kết quả tối ưu: ~100 %

◦ Thời gian trung bình: 5s

Trang 35

ND5 Kết luận

cho kết quả tốt.

Trang 36

Hiện tại có nhiều mô hình: Dayhoff, WAG, LG, FLU…

Các mô hình hiện tại không đạt hiệu qủa cao với các bộ dữ liệu cụ thể

Bài toán: Xây dựng một hệ thống cho phép người dùng có thể tự

động xây dựng mô hình biến đổi axít amin từ dữ liệu đầu vào

Trang 37

ND6 Giải pháp

Bước 1: Nhập các chuỗi protein đã được sắp hàng

Bước 2: (Q sử dụng ma trận LG cho lần đầu tiên): Ước lượng cây phát sinh loài

Trang 39

ND6 Kết luận

phép người dùng có thể tự động xây dựng mô hình biến đổi axít amin từ dữ liệu đầu vào

Trang 40

ND7 Thử nghiệm với dữ liệu Việt Nam

 Dữ liệu gen ty thể người

 Dữ liệu gen tôm sú

 Dữ liệu gen lúa

 Dữ liệu gen virus cúm

Trang 41

ND7 Kết quả

◦ Giải trình tự dựa trên PCR

◦ Trình tự đầy đủ 9 hệ gen ty thể (đã gửi lên GenBank)

◦ Trình tự mới của 20 đoạn D-loops và 2 gen khác

◦ Trình tự mới của 12 cDNA

◦ Giải mã và thu thập từ GenBank

◦ 12 gen lúa chủ yếu thuộc chủng Japonica

◦ Tải từ GenBank

◦ 4127 chuỗi thuộc 11 loại protein của virus cúm A từ Việt Nam

Trang 42

 Xây dựng cây phân loài cho virus cúm

Trang 43

Kết luận

 Hoàn thành các nội dung đã đăng ký

 Đề xuất một số phương pháp tính toán mới

 Công bố 7 bài báo khoa học

 Có một số khó khăn nhất định do nghị quyết 11 của Chính phủ.

Ngày đăng: 25/08/2017, 09:52

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w