Xây dựng chương trình tối ưu hóa gene Chương trình xây dựng dựa trên hàm tính điểm đã xây dựng và cho phép tối ưu hoá trên các tiêu chí sau: i tối ưu hóa gene cho từng hệ thống biểu hiện
Trang 1TÓM TẮT LUẬN ÁN VÕ TRÍ NAM
ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
Họ tên NCS: VÕ TRÍ NAM
TÓM TẮT LUẬN ÁN TIẾN SĨ
Khóa học năm: 2014
Người hướng dẫn khoa học:
TS Nguyễn Đức Hoàng
GS TS Trần Linh Thước
Tp HCM, tháng 06 năm 2015
Trang 2TÓM TẮT LUẬN ÁN VÕ TRÍ NAM
1 Tên đề tài luận án
Tên đề tài: Nghiên cứu tối ưu hoá gene để biểu hiện đồng thời trong Escherichia coli và
Bacillus subtilis
2 Mục đích nghiên cứu
Mục đích của đề tài là nghiên cứu sự tối ưu hóa gene trên hai hệ thống biểu hiện E coli và
B subtilis nhằm xây dựng chương trình tối ưu hóa gene Các nội dung nghiên cứu như
sau:
1 Dự đoán HEG
Đề tài sử dụng thuật toán được đề xuất bởi Pere Puigbò (2007) [3] để tiến hành dự đoán
gene biểu hiện cao cho E coli và B subtilis Ngoài ra, đề tài sử dụng hai thuật toán đề
xuất mới dựa trên thuật toán phân cụm k-mean và thuật toán phân cụm dựa trên bán kính
để tiến hành dự đoán
2 Nghiên cứu các hàm tính điểm để tối ưu hóa gen
Đề tài sử dụng hàm tính điểm tuyến tính và hàm tính điểm phi tuyến được xây dựng bằng mạng noron nhân tạo để làm hàm tính điểm cho quá trình tối ưu hoá gene Trong đó, hàm tính điểm tuyến tính là hàm thường được dùng trong các chương trình tối ưu hoá gene hiện nay Hàm phi tuyến sẽ được đề tài tiến hành khảo sát xây dựng mới
3 Xây dựng chương trình tối ưu hóa gene
Chương trình xây dựng dựa trên hàm tính điểm đã xây dựng và cho phép tối ưu hoá trên các tiêu chí sau: (i) tối ưu hóa gene cho từng hệ thống biểu hiện, (ii) tối ưu hóa gene đồng
thời cho hai hệ thống biểu hiện E coli và B subtilis, (iii) tối ưu hóa gene cho hệ thống biểu hiện B subtilis đồng thời giảm biểu hiện trên E coli Các tiêu chí tối ưu hóa của
chương trình bao gồm: (i) Xu hướng sử dụng codon, (ii) Thành phần GC, (iii) Trình tự lặp lại, (iv) Cấu trúc poly-nucleotide, poly-codon, (v) Trình tự Shine-Dalgarno, (vi) Mã kết thúc ẩn, (vii) Cấu trúc bậc hai của mRNA, (viii) Trình tự nhận biết của enzyme cắt giới hạn
Trang 3TÓM TẮT LUẬN ÁN VÕ TRÍ NAM
4 Kiểm chứng chương trình
Chương trình sau khi xây dựng sẽ được đánh giá và so sánh với các chương trình tối ưu hóa gene khác hiện nay dựa trên khả năng tối ưu các tiêu chí đã xem xét, đồng thời tiến hành tối ưu hóa gene chỉ thị và kiểm tra thực nghiệm các gene tự nhiên và gene sau khi tối
ưu hóa trên hai hệ thống biểu hiện E coli và B subtilis để kiểm chứng kết quả.
3 Tính cấp thiết của đề tài
Trong những năm gần đây, kỹ thuật sản xuất protein tái tổ hợp trong các hệ thống biểu hiện sinh học ngày càng phát triển và được ứng dụng rộng rãi Các protein tái tổ hợp được dùng trong các nghiên cứu cơ bản thuộc lĩnh vực sinh học và y học như chẩn đoán y học lâm sàng, tổng hợp vắcxin, các protein cần thiết trong điều trị bệnh như insulin, yếu tố đông máu… đặc biệt là ứng dụng trong việc sản xuất các enzyme công nghiệp quan trọng Ngoài ra, protein tái tổ hợp còn được dùng trong trong nông nghiệp để cải thiện giống cây trồng, tạo thực vật và động vật chuyển gene… Tuy nhiên, việc sử dụng các gene tự nhiên vào quá trình sản xuất thường cho kết quả biểu hiện thấp Các gene thu nhận từ sinh vật ban đầu, sau khi đưa vào hệ thống biểu hiện sẽ xuất hiện sự không tương thích về xu hướng sử dụng codon hay thành phần GC của gene, trình tự lặp lại,…từ đó làm giảm khả năng biểu hiện ra protein mục tiêu Những hạn chế này đặt ra yêu cầu cần phải thiết kế gene, hay còn gọi là tối ưu hóa sự biểu hiện gene trước khi đưa vào hệ thống biểu hiện
Các nghiên cứu của nhóm Hugo G Menzella và cộng sự năm 2011 [1] hay Agnieszka
Zylicz-Stachula và cộng sự năm 2014 [2] đã chứng minh khả năng gia tăng mức độ biểu
hiện của gene mục tiêu sau khi tối ưu hóa so với gene tự nhiên ban đầu
Trong các chương trình tối ưu hóa gene hiện có trên thế giới, xu hướng sử dụng codon (codon usage) được xem như tiêu chí quan trong nhất Một amino acid có khả năng được
mã hóa bởi một hay nhiều codon khác nhau, tuy nhiên mỗi loài sinh vật lại có xu hướng
sử dụng một codon nhất định để mã hóa cho mỗi amino acid Một phương pháp nhằm tăng hiệu quả biểu hiện gene trong hệ thống biểu hiện được đề ra là sử dụng các codon
“ưa thích” đối với hệ thống biểu hiện đó Tiêu chí thứ hai được xem xét đến sau xu hướng
sử dụng codon là thành phần GC của gene Việc điều chình thành phần GC của gene về giá trị phù hợp với bộ máy di truyền của hệ thống biểu hiện sẽ nâng cao hiệu suất của quá
Trang 4TÓM TẮT LUẬN ÁN VÕ TRÍ NAM
trình phiên mã cũng như dịch mã của gene mục tiêu Các tiêu chí khác được tối ưu hóa có thể kể đến như sự xuất hiện của các trình tự nhận biết của enzyme cắt giới hạn, trình tự Shine-Dalgarno, trình tự lặp lại, poly-nucleotide, poly-codon hay các mã kết thúc ẩn Các tiêu chí này được đề ra đều nhằm tăng khả năng phiên mã, dịch mã của gene trong hệ thống biểu hiện cũng như tạo thuận lợi trong quá trình thu nhận và tạo dòng gene [3][4] Một tiêu chí khác cũng có ảnh hưởng rất nhiều đến khả năng biểu hiện của protein mục tiêu là cấu trúc bậc hai của mRNA Mặc dù chưa được các chương trình tối ưu hóa hiện nay đưa vào nhưng ảnh hưởng của tiêu chí này, đặc biệt là trong vùng mã hóa cho 10-15 amino acid đầu tiên của phân tử protein đã được chứng minh[2]
Trong các hệ thống biểu hiện protein tái tổ hợp hiện nay, Escherichia coli được sử dụng
như một nhà máy sản xuất protein tái tổ hợp từ rất sớm và khá phổ biến trong nhiều năm qua nhờ các ưu điểm như: i) dễ nuôi cấy; ii) tốc độ sinh trưởng và phát triển nhanh; iii) khả năng biểu hiện gene tái tổ hợp mạnh; iv) có khả năng biểu hiện rất nhiều gene có nguồn gốc cả Prokaryote và Eukaryote; v) nguồn thông tin di truyền đã được hiểu rõ; vi)
đã có hệ thống các vector biểu hiện phong phú [5] Bên cạnh đó, Bacillus subtilis cũng đã
và đang được ứng dụng ngày một rộng rãi trong sản xuất protein tái tổ hợp nhờ các ưu điểm nổi bật như: i) là chủng vi sinh vật an toàn dùng trong thực phẩm, được tổ chức FAD đánh giá là vi sinh vật thuộc nhóm GRAS; ii) có khả năng lên men ở mật độ cao; iii)
có khả năng tiết hiệu quả protein ra ngoại bào, giúp cho việc tinh chế protein mục tiêu rất
dễ dàng; iv) thông tin di truyền được hiểu rõ Hầu hết các chương trình tối ưu hóa gene hiện nay như GeMS [6], GeneOptimizer [7], Eugene [8], Jcat [9], Dnaworks [10]… đều
có tích hợp chức năng tối ưu hóa gene cho hai hệ thống biểu hiện này
Tuy nhiên, các chương trình tối ưu hóa gene hiện nay chỉ dừng lại ở việc tối ưu hóa biểu hiện gene trên từng hệ thống biểu hiện riêng lẻ Mặc dù việc tối ưu hóa gene cho cả hai hệ thống biểu hiện sẽ giúp tiết kiệm rất nhiều công sức, thời gian và tài nguyên cho các nghiên cứu nhưng chức năng này hiện nay chưa được bất kỳ chương trình nào đưa vào phát triển Một gene sau khi tối ưu hóa cho cả hai hệ thống biểu hiện, được dòng hóa vào các vector biểu hiện kép trên hai hệ thống biểu hiện thay vì làm trên hai trình tự được tối
ưu hóa khác nhau như hiện nay
Trang 5TÓM TẮT LUẬN ÁN VÕ TRÍ NAM
Cũng như các vi khuẩn Gram dương khác, B subtilis có vách tế bào dày, gây khó khăn
cho việc phá vỡ tế bào cũng như quy trình biến nạp phức tạp Do đó, việc dòng hóa trên tế
bào B subtilis là không dễ dàng Thay vào đó, tế bào E coli sẽ được sử dụng cho bước dòng hóa, các vector sau khi được tạo thành sẽ được biểu hiện trong tế bào B subtilis Qui
trình này đang được áp dụng rộng rãi và đã giúp nâng cao hiệu quả dòng hóa và biểu hiện
trên B subtilis Tuy nhiên, yêu cầu đặt ra đối với quy trình này là phải kiểm soát được khả năng biểu hiện ở E coli Vì nếu gene mục tiêu biểu hiện cao ở E coli sẽ làm giảm sức sống của chúng đặc biệt trong trường hợp protein mục tiêu có khả năng gây độc cho E.
coli Do đó, mục tiêu đặt ra ở đây là gene phải được tối ưu hóa để biểu hiện cao ở B subtilis đồng thời biểu hiện thấp ở E coli Các chương trình tối ưu hóa gene hiện nay chỉ
dừng lại ở việc tối ưu hóa trên từng hệ thống biểu hiện như hoặc E coli hoặc B subtilis
mà chưa thực hiện được mục tiêu vừa trình bày
Từ những nhận định trên, mục tiêu của luận án đề ra là nghiên cứu về sự tối ưu hoá gene
đồng thời trong hai hệ thống biểu hiện E coli và B subtilis tiến tới xây dựng chương trình
tối ưu hoá gene với các chức năng sau:
thống biểu hiện E coli
4 Tài liệu tham khảo
[1] Menzella H.G, (2011), “Comparison of two codon optimization strategies to enhance
recombinant protein production in Escherichia coli”, Microbial cell factories, 10:15
Trang 6TÓM TẮT LUẬN ÁN VÕ TRÍ NAM
[2] Agnieszka Zylicz-Stachula (2014), “Modified ‘one amino acid-one codon’
aquaticus results in radical expression increase”, Microbial Cell Factories 2014, 13:7
[3] Pere Puigbò, Eduard Guzmán, Antoni Romeu, Santiago Garcia-Vallvé (2007),
“OPTIMIZER: a web server for optimizing the codon usage of DNA sequences”, Nucleic
Acids Research, Vol 35, Web Server issue
[4] Shubhra Gupta (2003), “Project report Codon optimization”, CBS 521,
Computational Bioscience Arizona State University
[5] Lee, S.Y, (2009), Systems biology and biotechnology of Escherichia coli, Springer [6] Sebastian Jayaraj, Ralph Reid, Daniel V Santi (2005), “GeMS: an advanced software
package for designing synthetic genes”, Nucleic Acids Research, Vol 33, No 9 3011–
3016
[7] David Raab, Marcus Graf, Frank Notka (2010), “The GeneOptimizer Algorithm: using
a sliding window approach to cope with the vast sequence space in multiparameter DNA sequence optimization”, Syst Synth Biol 4:215–225
[8] Paulo Gaspar, Jose´ Luı´s Oliveira (2012), “EuGene: maximizing synthetic gene
design for heterologous expression”, Bioinformatics Applications Note, Vol 28 no 20,
pages 2683–2684
[9] Grote, A,, Hiller, K,, Scheer, M,, Munch, R,, Nortemann, B,, Hempel, D,C, and Jahn,
D, (2005), “JCat: a novel tool to adapt codon usage of a target gene to its potential
expression host”, Nucleic Acids Research, 33(Web Server), W526–W531,
[10] David M Hoover, Jacek Lubkowski (2002), Dnaworks an automated method for
designing oligonucleotides for PCR-based gene synthesis, Nucleic Acids Research, Vol.
30, No 10 e43
Trang 7TÓM TẮT LUẬN ÁN VÕ TRÍ NAM
Xác nhận của cán bộ hướng dẫn
TS Nguyễn Đức Hoàng