1. Trang chủ
  2. » Luận Văn - Báo Cáo

Protein type specific amino acid substitution models for influenza viruses

5 7 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 5
Dung lượng 414,77 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

1 VIETNAM NATIONAL UNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY -------- NGUYEN VAN SAU PROTEIN TYPE SPECIFIC AMINO ACID SUBSTITUTION MODELS FOR INFLUENZA VIRUSES MA

Trang 1

1

VIETNAM NATIONAL UNIVERSITY, HANOI

UNIVERSITY OF ENGINEERING AND TECHNOLOGY



NGUYEN VAN SAU

PROTEIN TYPE SPECIFIC AMINO ACID SUBSTITUTION MODELS FOR INFLUENZA

VIRUSES

MASTER THESIS

Hanoi - 2012

Trang 2

1

VIETNAM NATIONAL UNIVERSITY, HANOI

UNIVERSITY OF ENGINEERING AND TECHNOLOGY



NGUYEN VAN SAU

PROTEIN TYPE SPECIFIC AMINO ACID SUBSTITUTION MODELS FOR INFLUENZA

VIRUSES

Major: Computer Science Code: 60 48 01

MASTER THESIS

Supervised by: Dr Le Sy Vinh

Hanoi - 2012

Trang 3

iii

Contents

ACKNOWLEDGMENTS I

LIST OF FIGURES 1

LIST OF TABLES 2

NOTATIONS/ABBREVIATIONS 3

ORIGINALITY STATEMENT 4

ABSTRACT 5

CHAPTER 1 OVERVIEW 6

1.1 Motivation 6

1.2 Organization of this thesis 7

CHAPTER 2 AMINO ACID SUBSTITUTION MODELS 9

2.1Amino acid sequences 9

2.2 Amino-acid substitution models 10

CHAPTER 3 METHODS TO ESTIMATE MODELS 13

4.1 Methods 13

4.1.1 Counting methods 13

4.1.2 Maximum likelihood methods 14

4.2 Protein type specific amino acid substitution models estimation 17

CHAPTER 4 DATA PREPARATION 21

3.1 Collecting data 21

3.2 Categorizing data 23

3.3 Splitting data 27

3.4 Aligning data 28

CHAPTER 5 RESULTS 29

CHAPTER 6 SUMMARY AND CONCLUSION 34

APPENDIX 35

BIBLIOGRAPHY 36

Trang 4

CÁC MÔ HÌNH BIẾN ĐỔI AMINO ACID KIỂU ĐẶC BIỆT CHO VIRUT CÚM

Nguyễn Văn Sáu, Khoa học máy tính, Công nghệ thông tin,

saunv@wru.edu.vn

Lê Sỹ Vinh Công nghệ thông tin,

ĐH Công nghệ,

vinhls@vnu.vn

Từ khóa – virut cúm, mô hình biến đổi amino acid, cây tiến hóa

I GIớI THIệU

Mô hình biến đổi amino acid là một phần chủ yếu

của các hệ thống phân tích chuỗi protein Các mô

hình tổng quát biến đổi amino acid đã được ước

lượng từ các cơ sở dữ liệu lớn, tuy nhiên, chúng

không đặc biệt dành cho virut cúm Mô hình biến

đổi amino acid tổng quát tốt nhất hiện tại là FLU

Mặc dù ma trận FLU là đặc biệt đối với virut

cúm, nhưng nó vẫn không đặc biệt đối với các

kiểu protein Khi virut cúm gây nên nhiều vấn đề

nguy hiểm cho cả sức khỏe con người và kinh tế

xã hội thì nghiên cứu các trường hợp đặc biệt là

đáng quan tâm Trong luận văn này, chúng tôi đã

sử dụng hơn 27 triệu amino acid để ước lượng ra

11 protein mô hình đặc biệt dành cho virut cúm

II CÁC NGHIÊN CứU LIÊN QUAN

Các hệ thống phân tích protein luôn yêu cầu mô

hình biến đổi amino acid khi phân tích mối quan

hệ giữa các chuỗi protein Do đó, ước lượng các

mô hình biến đổi amino acid là nhiệm vụ trọng

tâm trong Tin-sinh hơn 40 năm nay

Có hai cách chính để ước lượng các mô hình biến

đổi amino acid từ các sắp hàng đa chuỗi protein

Cách đầu tiên là ước lượng các tốc độ biến đổi

giữa các amino acid dựa trên giả thiết rằng xác

suất thay đổi từ một amino acid này đến một

amino acid khác trong một thời gian là tuyến tính

Cách tiếp cận này là đơn giản và có thể ứng dụng

trong các cơ sở dữ liệu lớn Tuy nhiên, giả thiết

này chỉ chấp nhận được nếu thời gian là nhỏ, vì

thế, các chuỗi amino acid phải rất giống nhau

Cách tiếp cận thứ hai lấy các ưu điểm của sắp

hàng đã chuỗi bằng cách sử dụng phương pháp

maximum likelihood Ý tưởng chính là ước lượng

cả cây phát sinh loài cũng như các mô hình biến

đổi để cực đại likelihood của các sắp hàng đa

chuỗi Các thí nghiệm đã chỉ ra rằng cách tiếp cận

này sinh ra các mô hình tốt hơn

Các mô hình chung đã được ước lượng từ các cơ

sở dữ liệu lớn, tuy nhiên, các nghiên cứu hiện tại chỉ ra rằng chúng không thể thích hợp cho tập các chuỗi đặc biệt bởi vì có sự khác biệt trong quá trình tiến hóa của những chuỗi này

III GIẢIPHÁPĐỀXUẤT Quá trình biến đổi giữa từng vị trí của amino acid được giả sử là độc lập, ổn định và giữ theo thời gian Chúng tôi sử dụng thời gian đồng nhất, thời gian liên tục, và quá trình Markov thời gian nghịch đảo để mô hình quá trình biến đổi giữa các amino acid Chúng tôi áp dụng cách tiếp cận maximum likelihood trong 4 bước để ước lượng các mô hình đặc biệt của protein

IV KẾTLUẬN Thông qua nghiên cứu sâu của chúng tôi về virut cúm với lượng lớn các chuỗi protein, chúng ta đã ước lượng ra 11 mô hình biến đổi amino acid dành cho 11 kiểu protein của virut cúm A Các mô hình đặc biệt đặc trưng của protein cho kết quả tốt hơn mô hình tốt nhất hiện tại về virut cúm là FLU Các mô hình protein đặc biệt cho phép các nhà nghiên cứu về virut cúm có kết quả chính xác hơn Chúng tôi khuyến cáo các nhà nghiên cứu nên sử dụng các mô hình protein đặc biệt để phân tích các chuỗi protein tương ứng

CÁCBÀIBÁO

[1] Nguyen Van Sau, Dang Cao Cuong, Le Si Quang,

Le Sy Vinh, "Protein Type Specific Amino Acid Substitution Models for Influenza Viruses," kse,

pp.98-103, 2011 Third International Conference

on Knowledge and Systems Engineering, 2011

Trang 5

PROTEIN TYPE SPECIFIC AMINO ACID SUBSTITUTION MODELS FOR INFLUENZA

VIRUSES

Nguyen Van Sau, Computer science, Information Techonology,

saunv@wru.edu.vn

Le Sy Vinh, University of Engineering and Technology, Vietnam National University,

vinhls@vnu.vn

Keywords – influenza virus, amino acid substitution model, phylogeny tree

The amino acid substitution model (matrix) is a

crucial part of protein sequence analysis systems

General amino acid substitution models have been

estimated from large protein databases, however,

they are not specific for influenza viruses The best

current general amino acid substitution model is

called FLU Although FLU matrix is specific for

influenza viruses, it is still not specific for influenza

protein types Since influenza viruses cause serious

problems for both human health and social

economics, it is worth to study them as specific as

possible In this thesis, we used more than 27

million amino acids to estimate 11 protein type

specific models for influenza viruses

Protein sequence analysis systems usually require

an amino acid substitution model for analyzing the

relationships between protein sequences Therefore,

estimating amino acid substitution models is a

crucial task in Bioinformatics for more than 4

decades

There are two main approaches to estimate amino

acid substitution models from proteins alignments

The first one estimates substitution rates between

amino acids based on an assumption that the

probability of exchanging from an amino acid to

another one in a period of time is linear to the

substitution rates between the two amino acids This

approach is simple and applicable to large

databases However, the assumption is only

acceptable if the time period is short, thus, the

amino acid sequences must be very closely related

The second approach takes advantages of multiple

alignments by using the maximum likelihood

method The main idea is to estimate both

phylogenies as well as the substitution models to

maximize the likelihood of alignments Experiences show that this approach will generate better models General models have been estimated from large databases, however, current studies have showed that they might be not appropriate for particular set

of species due to differences in the evolutionary processes of these species

III OURMETHOD The substitution process among each amino acid sites is assumed to be independent, stationary and remain constant over the time We can use a time-homogeneous, time-continuous, and time-reversible Markov process to model the substitution process between amino acids We will apply four-steps maximum likelihood approach to estimate protein type specific models

IV CONCLUSION Through our intensive studies of influenza viruses with a huge amount of protein sequences, we were able to estimate 11 amino acid substitution models for 11 protein types of influenza A viruses Our protein type specific models gave better results than the best model, FLU, for influenza viruses The protein type specific models enable researchers to study influenza protein sequences more precisely

We strongly recommend researchers to use protein type specific models to analyze corresponding protein sequences

PUBLICATION

[1] Nguyen Van Sau, Dang Cao Cuong, Le Si Quang,

Le Sy Vinh, "Protein Type Specific Amino Acid Substitution Models for Influenza Viruses," kse,

pp.98-103, 2011 Third International Conference on

Knowledge and Systems Engineering, 2011.

Ngày đăng: 16/03/2021, 12:31

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN