1 VIETNAM NATIONAL UNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY -------- NGUYEN VAN SAU PROTEIN TYPE SPECIFIC AMINO ACID SUBSTITUTION MODELS FOR INFLUENZA VIRUSES MA
Trang 11
VIETNAM NATIONAL UNIVERSITY, HANOI
UNIVERSITY OF ENGINEERING AND TECHNOLOGY
NGUYEN VAN SAU
PROTEIN TYPE SPECIFIC AMINO ACID SUBSTITUTION MODELS FOR INFLUENZA
VIRUSES
MASTER THESIS
Hanoi - 2012
Trang 21
VIETNAM NATIONAL UNIVERSITY, HANOI
UNIVERSITY OF ENGINEERING AND TECHNOLOGY
NGUYEN VAN SAU
PROTEIN TYPE SPECIFIC AMINO ACID SUBSTITUTION MODELS FOR INFLUENZA
VIRUSES
Major: Computer Science Code: 60 48 01
MASTER THESIS
Supervised by: Dr Le Sy Vinh
Hanoi - 2012
Trang 3iii
Contents
ACKNOWLEDGMENTS I
LIST OF FIGURES 1
LIST OF TABLES 2
NOTATIONS/ABBREVIATIONS 3
ORIGINALITY STATEMENT 4
ABSTRACT 5
CHAPTER 1 OVERVIEW 6
1.1 Motivation 6
1.2 Organization of this thesis 7
CHAPTER 2 AMINO ACID SUBSTITUTION MODELS 9
2.1Amino acid sequences 9
2.2 Amino-acid substitution models 10
CHAPTER 3 METHODS TO ESTIMATE MODELS 13
4.1 Methods 13
4.1.1 Counting methods 13
4.1.2 Maximum likelihood methods 14
4.2 Protein type specific amino acid substitution models estimation 17
CHAPTER 4 DATA PREPARATION 21
3.1 Collecting data 21
3.2 Categorizing data 23
3.3 Splitting data 27
3.4 Aligning data 28
CHAPTER 5 RESULTS 29
CHAPTER 6 SUMMARY AND CONCLUSION 34
APPENDIX 35
BIBLIOGRAPHY 36
Trang 4CÁC MÔ HÌNH BIẾN ĐỔI AMINO ACID KIỂU ĐẶC BIỆT CHO VIRUT CÚM
Nguyễn Văn Sáu, Khoa học máy tính, Công nghệ thông tin,
saunv@wru.edu.vn
Lê Sỹ Vinh Công nghệ thông tin,
ĐH Công nghệ,
vinhls@vnu.vn
Từ khóa – virut cúm, mô hình biến đổi amino acid, cây tiến hóa
I GIớI THIệU
Mô hình biến đổi amino acid là một phần chủ yếu
của các hệ thống phân tích chuỗi protein Các mô
hình tổng quát biến đổi amino acid đã được ước
lượng từ các cơ sở dữ liệu lớn, tuy nhiên, chúng
không đặc biệt dành cho virut cúm Mô hình biến
đổi amino acid tổng quát tốt nhất hiện tại là FLU
Mặc dù ma trận FLU là đặc biệt đối với virut
cúm, nhưng nó vẫn không đặc biệt đối với các
kiểu protein Khi virut cúm gây nên nhiều vấn đề
nguy hiểm cho cả sức khỏe con người và kinh tế
xã hội thì nghiên cứu các trường hợp đặc biệt là
đáng quan tâm Trong luận văn này, chúng tôi đã
sử dụng hơn 27 triệu amino acid để ước lượng ra
11 protein mô hình đặc biệt dành cho virut cúm
II CÁC NGHIÊN CứU LIÊN QUAN
Các hệ thống phân tích protein luôn yêu cầu mô
hình biến đổi amino acid khi phân tích mối quan
hệ giữa các chuỗi protein Do đó, ước lượng các
mô hình biến đổi amino acid là nhiệm vụ trọng
tâm trong Tin-sinh hơn 40 năm nay
Có hai cách chính để ước lượng các mô hình biến
đổi amino acid từ các sắp hàng đa chuỗi protein
Cách đầu tiên là ước lượng các tốc độ biến đổi
giữa các amino acid dựa trên giả thiết rằng xác
suất thay đổi từ một amino acid này đến một
amino acid khác trong một thời gian là tuyến tính
Cách tiếp cận này là đơn giản và có thể ứng dụng
trong các cơ sở dữ liệu lớn Tuy nhiên, giả thiết
này chỉ chấp nhận được nếu thời gian là nhỏ, vì
thế, các chuỗi amino acid phải rất giống nhau
Cách tiếp cận thứ hai lấy các ưu điểm của sắp
hàng đã chuỗi bằng cách sử dụng phương pháp
maximum likelihood Ý tưởng chính là ước lượng
cả cây phát sinh loài cũng như các mô hình biến
đổi để cực đại likelihood của các sắp hàng đa
chuỗi Các thí nghiệm đã chỉ ra rằng cách tiếp cận
này sinh ra các mô hình tốt hơn
Các mô hình chung đã được ước lượng từ các cơ
sở dữ liệu lớn, tuy nhiên, các nghiên cứu hiện tại chỉ ra rằng chúng không thể thích hợp cho tập các chuỗi đặc biệt bởi vì có sự khác biệt trong quá trình tiến hóa của những chuỗi này
III GIẢIPHÁPĐỀXUẤT Quá trình biến đổi giữa từng vị trí của amino acid được giả sử là độc lập, ổn định và giữ theo thời gian Chúng tôi sử dụng thời gian đồng nhất, thời gian liên tục, và quá trình Markov thời gian nghịch đảo để mô hình quá trình biến đổi giữa các amino acid Chúng tôi áp dụng cách tiếp cận maximum likelihood trong 4 bước để ước lượng các mô hình đặc biệt của protein
IV KẾTLUẬN Thông qua nghiên cứu sâu của chúng tôi về virut cúm với lượng lớn các chuỗi protein, chúng ta đã ước lượng ra 11 mô hình biến đổi amino acid dành cho 11 kiểu protein của virut cúm A Các mô hình đặc biệt đặc trưng của protein cho kết quả tốt hơn mô hình tốt nhất hiện tại về virut cúm là FLU Các mô hình protein đặc biệt cho phép các nhà nghiên cứu về virut cúm có kết quả chính xác hơn Chúng tôi khuyến cáo các nhà nghiên cứu nên sử dụng các mô hình protein đặc biệt để phân tích các chuỗi protein tương ứng
CÁCBÀIBÁO
[1] Nguyen Van Sau, Dang Cao Cuong, Le Si Quang,
Le Sy Vinh, "Protein Type Specific Amino Acid Substitution Models for Influenza Viruses," kse,
pp.98-103, 2011 Third International Conference
on Knowledge and Systems Engineering, 2011
Trang 5PROTEIN TYPE SPECIFIC AMINO ACID SUBSTITUTION MODELS FOR INFLUENZA
VIRUSES
Nguyen Van Sau, Computer science, Information Techonology,
saunv@wru.edu.vn
Le Sy Vinh, University of Engineering and Technology, Vietnam National University,
vinhls@vnu.vn
Keywords – influenza virus, amino acid substitution model, phylogeny tree
The amino acid substitution model (matrix) is a
crucial part of protein sequence analysis systems
General amino acid substitution models have been
estimated from large protein databases, however,
they are not specific for influenza viruses The best
current general amino acid substitution model is
called FLU Although FLU matrix is specific for
influenza viruses, it is still not specific for influenza
protein types Since influenza viruses cause serious
problems for both human health and social
economics, it is worth to study them as specific as
possible In this thesis, we used more than 27
million amino acids to estimate 11 protein type
specific models for influenza viruses
Protein sequence analysis systems usually require
an amino acid substitution model for analyzing the
relationships between protein sequences Therefore,
estimating amino acid substitution models is a
crucial task in Bioinformatics for more than 4
decades
There are two main approaches to estimate amino
acid substitution models from proteins alignments
The first one estimates substitution rates between
amino acids based on an assumption that the
probability of exchanging from an amino acid to
another one in a period of time is linear to the
substitution rates between the two amino acids This
approach is simple and applicable to large
databases However, the assumption is only
acceptable if the time period is short, thus, the
amino acid sequences must be very closely related
The second approach takes advantages of multiple
alignments by using the maximum likelihood
method The main idea is to estimate both
phylogenies as well as the substitution models to
maximize the likelihood of alignments Experiences show that this approach will generate better models General models have been estimated from large databases, however, current studies have showed that they might be not appropriate for particular set
of species due to differences in the evolutionary processes of these species
III OURMETHOD The substitution process among each amino acid sites is assumed to be independent, stationary and remain constant over the time We can use a time-homogeneous, time-continuous, and time-reversible Markov process to model the substitution process between amino acids We will apply four-steps maximum likelihood approach to estimate protein type specific models
IV CONCLUSION Through our intensive studies of influenza viruses with a huge amount of protein sequences, we were able to estimate 11 amino acid substitution models for 11 protein types of influenza A viruses Our protein type specific models gave better results than the best model, FLU, for influenza viruses The protein type specific models enable researchers to study influenza protein sequences more precisely
We strongly recommend researchers to use protein type specific models to analyze corresponding protein sequences
PUBLICATION
[1] Nguyen Van Sau, Dang Cao Cuong, Le Si Quang,
Le Sy Vinh, "Protein Type Specific Amino Acid Substitution Models for Influenza Viruses," kse,
pp.98-103, 2011 Third International Conference on
Knowledge and Systems Engineering, 2011.