- Không xác định các tương tác đa biến Cách giải quyết truyền thống: Sử dụng độ đo mutual information MI giữa 2 biến Tương tác cặp đôi... Kết quảliệu biểu hiện gien hoặc dữ liệu nồng đ
Trang 1Báo cáo nghiệm thu
Đề tài độc lập cấp nhà nước
Nghiên cứu các phương pháp phân tích và phát triển các công cụ tin sinh học nhằm giải quyết các bài toán quan trọng trong sinh học phân tử và ứng dụng
Học viện CNBCVT 1/2012
Trang 2Các nội dung đăng ký
ND1: xây dựng báo cáo
tin tin sinh học
4 bài báo khoa học
Trang 6CÁC KếT QUả Cụ THể
Trang 7ND2 Nghiên cứu xây dựng phần
mềm xác định gen
Tìm kiếm
Trang 8GHMM + thông tin ngoài
Trang 9ND2 Kết quả
Trang 11ND3.1 Chú giải chức năng gen/protein dựa trên trình tự
năng của gen dưới dạng các GO term (Gene Ontology term)
Trang 12Protein A với GO x, GO y Protein B với GO x, GO z gán GO x, GO y, GO z
Trang 13giềng của A
Trang 15Độ nhậy
Trang 16ND3.1 Kết quả
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
A thaliana E coli S cerevisiae
CKNN TOP-PSI-BLAST
Độ chính xác
Trang 17ND3.2 Chú giải chức năng gen/protein dựa trên mạng chuyển
hóa
Mạng chuyển hóa các metabolite/ Mạng điều hòa gien
G1
G4 G5
G6
G9 G10
Chức năng gene/protein/metabolite Profiling data
Trang 18 Khó khăn:
đồng thời.
- Không xác định các tương tác đa biến
Cách giải quyết truyền thống:
Sử dụng độ đo mutual information (MI) giữa 2 biến
Tương tác cặp đôi
Trang 19ND3.2 Giải pháp
Xác định các tương tác đa biến:
◦ Mở rộng công thức MI từ 2 biến sang nhiều biến
Tương tác ba MI(X,Y,Z)
Trang 20ND3.2 Kết quả
liệu biểu hiện gien hoặc dữ liệu nồng độ các chất
chỉ sử dụng thông tin từ các tương tác 2 biến)
Trang 21ND4.1 Bắt cặp đa chuỗi
Bài toán
Khó khăn:
Đối với người dùng
riêng
Trang 22ND4.1 Giải pháp 1
Mục tiêu: thuận tiện cho người dùng
Tự chọn phương pháp
dữ liệu và yêu cầu
Trang 23sequence
>= 2000 aa
Số Sequences
> 4000 Có
MAFFT-NS1
Có
MAFFT-NS2
Không Không
Số Sequences
>= 4000 Có
MAFFT-NS1
Số Sequences
>= 400
Không
Có MAFFT-NS2
Không
Số Sequences
>= 200 Có
MAFFT-LINSI
Không
PROBCONS Sequence Input
Trang 25ND4.1 Kết quả
Phần mềm với nhiều phương pháp bắt cặp
Mô đun bắt cặp chính xác cao kết hợp nhiều phương pháp
Trang 26ND4.1 Kết quả
Probcons LINSI Muscle Tcoffee Kalign Kết hợp
Full-length RV11 66.69 66.19 59.38 66.32 59.32 69.64
Trang 27ND4.2 Phát hiện thành phần lặp
Bài toán
>GRB2_CHICK
FFGKIPRAKAEEMLGKQRHDGAFLIRESESAPGDFSLSVKFGNDVQQFKVLRDGAGKYLL WVVKFNSLNELVDYHRSTSVSRNQQIFLRDIEQVPQQPTYVQALFDFDPQEEGELGFRRG
Trang 28ND4.2 Giải pháp
Bắt cặp chuỗi với chính nó sử dụng HMM và các bước xử lý khác
Trang 29Paired-ND4.2 Thuật toán
Trang 30ND4.2 Kết quả
Phương pháp
bình
Độ nhạy
ký tự
TRUST 0.38 0.42 0.26 0.22 0.31 0.31 0.19 0.28 RADAR 0.58 0.52 0.42 0.38 0.47 0.60 0.35 0.45
Posterior
ProDA-0.59 0.60 0.32 0.40 0.40 0.45 0.39 0.42
Viterbi
Posterior
ProDA-0.76 0.73 0.64 0.73 0.73 0.67 0.67 0.71
Viterbi
ProDA-0.83 0.69 0.67 0.75 0.70 0.67 0.69 0.71
Sử dụng BAliBASE 2.0 reference 6
Trang 31ND5 So sánh và bắt cặp toàn bộ hệ gen
Giới thiệu: Trong quá trình tiến hóa, hai loại phép biến đổi chính dẫn đến sự
khác biệt giữa hai hệ gen là:
1 Biến đổi ở mức độ điểm (point mutation): Xóa/chèn nucleotide, biến đổi nucleotide
2 Biến đổi ở mức độ gen: Xóa/chèn gen, đảo chiều và dịch chuyển gen.
Bài toán: Bắt cặp toàn bộ hai hệ gen với hai loại phép biến đổi trên
Trang 32ND5 Giải pháp
1. Sử dụng BLASTZ để tìm các vùng giống nhau giữa hai hệ gen
2. Sử dụng các vùng giống nhau để chia hệ gen thành 1 chuỗi các
đoan DNA liên tiếp
3. Tính khoảng cách giữa đoạn DNA
4. Áp dụng thuật toán bắt cặp hệ gene với phép đảo chỗ để bắt cặp
toàn bộ hệ gen
Trang 33ND5 Kết quả với dữ liệu mô
phỏng
Dữ liệu: Thực hiện tạo dữ liệu mô phỏng bằng cách lấy 13 đoạn polypeptide-encoding gen của một hệ gen ti thể (mitochondrial genome)
Số lượng dữ liệu tạo ra để kiểm tra chương trình: 320 bộ
Kết quả thực nghiệm:
◦ Tỷ lệ trung bình sắp hàng chính xác theo từng nucleotide: ~97%
◦ Thời gian chạy chương trình: 3-7s
Lưu ý: Đây là hệ thống đầu tiên cho phép bắt cặp toàn bộ hai hệ gen
Trang 34ND5 Kết quả với dữ liệu thật
Dữ liệu: Sử dụng 15 bộ dữ liệu Metazoan Mitochondria:
◦ 5 hệ gen người: 2 người Việt (chủng da vàng), người Uganda (chủng da đen), người Đức (chủng da trắng), người thổ dân Mỹ (chủng da đỏ)
◦ 10 hệ Gen từ các loài sinh vật khác trên trái đất Khỉ, Cá, Vịt xiêm, Tôm, Gấu ngựa, Hải cẩu, Ếch, Kỳ nhông, Voi châu Á và rùa Biển
Kết quả: Thực hiện 105 test để bắt cặp đôi một cho từng hệ gen Kết quả so sánh với cận trên của nghiệm tốt ưu:
◦ Tỷ lệ so với kết quả tối ưu: ~100 %
◦ Thời gian trung bình: 5s
Trang 35ND5 Kết luận
cho kết quả tốt.
Trang 36Hiện tại có nhiều mô hình: Dayhoff, WAG, LG, FLU…
Các mô hình hiện tại không đạt hiệu qủa cao với các bộ dữ liệu cụ thể
Bài toán: Xây dựng một hệ thống cho phép người dùng có thể tự
động xây dựng mô hình biến đổi axít amin từ dữ liệu đầu vào
Trang 37ND6 Giải pháp
Bước 1: Nhập các chuỗi protein đã được sắp hàng
Bước 2: (Q sử dụng ma trận LG cho lần đầu tiên): Ước lượng cây phát sinh loài
Trang 39ND6 Kết luận
phép người dùng có thể tự động xây dựng mô hình biến đổi axít amin từ dữ liệu đầu vào
Trang 40ND7 Thử nghiệm với dữ liệu Việt Nam
Dữ liệu gen ty thể người
Dữ liệu gen tôm sú
Dữ liệu gen lúa
Dữ liệu gen virus cúm
Trang 41ND7 Kết quả
◦ Giải trình tự dựa trên PCR
◦ Trình tự đầy đủ 9 hệ gen ty thể (đã gửi lên GenBank)
◦ Trình tự mới của 20 đoạn D-loops và 2 gen khác
◦ Trình tự mới của 12 cDNA
◦ Giải mã và thu thập từ GenBank
◦ 12 gen lúa chủ yếu thuộc chủng Japonica
◦ Tải từ GenBank
◦ 4127 chuỗi thuộc 11 loại protein của virus cúm A từ Việt Nam
Trang 42 Xây dựng cây phân loài cho virus cúm
Trang 43Kết luận
Hoàn thành các nội dung đã đăng ký
Đề xuất một số phương pháp tính toán mới
Công bố 7 bài báo khoa học
Có một số khó khăn nhất định do nghị quyết 11 của Chính phủ.