HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ ---Nguyễn Khánh Hoàng Việt NGHIÊN CỨU ĐÁNH GIÁ SỰ ĐA DẠNG VÀ VAI TRÒ CỦA MỘT SỐ MODULE TRONG CẤU TRÚC ENZYME THỦY PHÂN CELLULOSE TỪ KHU HỆ VI SINH VẬT TRON
Trang 1HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-Nguyễn Khánh Hoàng Việt
NGHIÊN CỨU ĐÁNH GIÁ SỰ ĐA DẠNG VÀ VAI TRÒ CỦA MỘT SỐ MODULE TRONG CẤU TRÚC ENZYME THỦY PHÂN CELLULOSE TỪ KHU HỆ VI SINH VẬT
TRONG DẠ CỎ CỦA DÊ
Chuyên ngành: Công nghệ sinh học
Mã số: 9.42.02.01
TÓM TẮT LUẬN ÁN TIẾN SĨ CÔNG NGHỆ SINH HỌC
Hà Nội - 2020
Trang 2- Viện Hàn lâm Khoa học và Công nghệ Việt Nam.
Người hướng dẫn khoa học 1: GS TS Trương Nam Hải
Người hướng dẫn khoa học 2: PGS TS Đỗ Thị Huyền
Có thể tìm hiểu luận án tại:
- Thư viện Học viện Khoa học và Công nghệ
- Thư viện Quốc gia Việt Nam
Trang 3MỞ ĐẦU
1 Tính cấp thiết của luận án
Vi sinh vật nói chung và vi khuẩn nói riêng có ý nghĩa thựctiễn vô cùng to lớn đối với loài người thông qua các ứng dụng trongnhiều lĩnh vực như là y học, nông nghiệp, công nghiệp, xử lý ônhiễm môi trường Do đó, các nghiên cứu về sự đa dạng các trình tự
từ vi sinh vật nhằm phát hiện những gen mới để khai thác và ứngdụng chúng vào phục vụ cuộc sống luôn là chủ đề quan trọng đượccác nhà sinh học đặc biệt quan tâm Mặc dù vậy, các phát hiện gầnđây cho thấy phần lớn (khoảng 99%) các loài vi sinh vật trong môitrường là chưa nuôi cấy được Do vậy, nghiên cứu dựa vào phươngpháp nuôi cấy thông thường sẽ không thể khai thác được toàn bộnguồn gen có tiềm năng của vi sinh vật Trong giai đoạn gần đây,thông qua kỹ thuật Metagenomics giải trình tự toàn bộ hệ gen của tất
cả các vi sinh vật được thu nhận trực tiếp từ mẫu môi trường, các gen
từ vi sinh vật, kể cả vi sinh vật không nuôi cấy đã được nghiên cứu,đánh giá một cách tổng thể
Tại nước ta, cùng với sự phát triển của ngành nông nghiệpvới qui mô sản xuất ngày càng lớn và tập trung như hiện nay, cácphụ phẩm nông nghiệp mà trong đó nguồn sinh khối lignocellulosechiếm phần lớn đang chủ yếu bị đốt bỏ gây lãng phí và ảnh hưởngxấu đến môi trường Trong khi đó, nhân loại đang phải đối mặt vớitình trạng suy kiệt nguồn nguyên liệu hóa thạch cũng như các hệ quảnghiêm trọng của việc tích tụ khí thải nhà kính Việc nghiên cứu sửdụng nguồn năng lượng carbonhydrate từ nguyên liệu có khả năngtái tạo với trữ lượng khổng lồ như lignocellulose là hết sức cấp thiết
Trang 4để tạo ra các sản phẩm thay thế các nhiên liệu được sản xuất từnguyên liệu hóa thạch.
Lignocellulose nói chung hay cellulose nói riêng là sinh khối
có cấu trúc vững chắc, được chuyển hóa theo nhiều bước để tạothành sản phẩm cuối cùng mà trong đó giai đoạn đường hóa đóng vaitrò then chốt Trong quá trình này, cellulase được xác định là nhân tốchính quyết định tới hiệu suất chuyển hóa và giá thành của sản phẩm
Do vậy, trong những năm gần đây trên thế giới có rất nhiều côngtrình nghiên cứu tìm kiếm nguồn cellulase mới có hoạt tính cao, có áilực mạnh với cơ chất để chuyển hóa hiệu quả cellulose Khác vớienzyme khác, phần lớn các cellulase có cấu trúc module, có nghĩa làngoài vùng có chức năng xúc tác, enzyme còn chứa thêm một sốmodule khác có cấu trúc độc lập và ít được nghiên cứu, điển hìnhnhư module FN3, Ig, CBM Hiện nay trên thế giới, nghiên cứu về vaitrò của các module chưa biết chức năng đến hoạt tính xúc tác củacellulase chưa được công bố nhiều Nhiều giả thiết cho rằng, chúngkhông chỉ tồn tại như một vùng nối liên kết các vùng hoạt tính màchúng còn thể hiện nhiều chức năng sinh học quan trọng khác như ổnđịnh cấu trúc, làm tăng ái lực của enzyme với cơ chất Vì vậy, nghiêncứu làm rõ vai trò sinh học của các module này trong cấu trúc củacellulase là hết sức có ý nghĩa cho việc lựa chọn hoặc thiết kế cácenzyme để nâng cao hiệu quả thủy phân nguồn sinh khối cellulose
Từ năm 2014 đến năm 2017, bằng nguồn kinh phí của Đề tàiđộc lập cấp Nhà nước (Mã số: ĐTĐLCN.15/14), phòng Kỹ thuật ditruyền (Viện CNSH, Viện HLKH&CNVN) đã giải mã DNA đa hệgen của hệ vi khuẩn trong dạ cỏ dê chăn thả tự nhiên trên núi tại tỉnhNinh Bình và Thanh Hóa Kết quả từ 8,6 Gb dữ liệu, đề tài đã khai
Trang 5thác được 816 trình tự mã hóa cho cellulase Trong nghiên cứu này,chúng tôi hướng tới việc đánh giá đa dạng các trình tự cellulase cócấu trúc module, tìm ra cấu trúc module đặc thù mới cho nghiên cứuvai trò của module đến hoạt tính của enzyme Do đó, chúng tôi đã
thực hiện Luận án: “Nghiên cứu đánh giá sự đa dạng và vai trò của một số module trong cấu trúc enzyme thủy phân cellulose từ khu
hệ vi sinh vật trong dạ cỏ của dê”.
2 Mục tiêu nghiên cứu
- Nghiên cứu đánh giá đa dạng cellulase và cellulase có cấutrúc module từ khu hệ vi sinh vật trong dạ cỏ dê bằng kỹ thuậtMetagenomics;
- Nghiên cứu vai trò của module chưa rõ chức năng (FN3 hoặc Ig) lên hoạt tính của cellulase
3 Nội dung nghiên cứu
Để đạt được mục tiêu của đề tài, chúng tôi đã thực hiện các nội dung nghiên cứu chính sau:
1 Phân tích, đánh giá đa dạng họ GH, nguồn gốc cellulase
và các cellulase có cấu trúc module được mã hóa từ các khung đọc
mở (ORF) trong dữ liệu giải trình tự DNA đa hệ gen của vi sinh vật
dạ cỏ dê tại Việt Nam
2 Phân tích lựa chọn trình tự có cấu trúc module điển hìnhcho nghiên cứu biểu hiện và xác định vai trò của vùng chưa biết chứcnăng
3 Nghiên cứu biểu hiện, tinh chế enzyme từ trình tự được
lựa chọn (XFn3Egc) và các cấu trúc chứa module (Fn3, XFn3, Egc, Fn3Egc) dưới dạng dung hợp với SUMO.
Trang 64 Nghiên cứu vai trò của module chưa biết chức năng đến khả năng phân giải cellulose của enzyme.
5 Nghiên cứu, đánh giá một số tính chất của enzyme tái tổ hợp được biểu hiện từ trình tự được lựa chọn có cấu trúc module
4 Những đóng góp mới của luận án
1 Từ 816 ORF mã hóa cellulase của vi khuẩn dạ cỏ dê ViệtNam, 243 ORF mã hóa cellulase được xác định có cấu trúc chứamodule chưa rõ chức năng là FN3 hoặc Ig Trong số các cellulasehoàn thiện chứa module FN3, 99,2% FN3 đi kèm với module xúc tácbetaglucosidase GH3 và chỉ có một FN3 đi kèm với module xúc tácendoglucanase GH5 Toàn bộ module Ig đều đi kèm với module xúctác endoglucanase GH9 Cấu trúc mã hóa endoglucanase GH5 chứamodule FN3 là cấu trúc mới ít được phát hiện và nghiên cứu
2 Đã tổng hợp và biểu hiện trình tự mã hóa endoglucanase
GH5 (XFn3Egc) và các cấu trúc chứa module khác nhau (Fn3, XFn3, Fn3Egc, Egc) trong E coli để nghiên cứu vai trò của FN3 trong cấu trúc
của enzyme Module FN3 được xác định có khả năng làm tăng tính tan
và ổn định cấu trúc vùng xúc tác, nới lỏng các cấu trúc tinh thể trên bềmặt giấy lọc, giúp enzyme tiếp cận cơ chất tốt hơn Module FN3 cònlàm tăng ái lực của enzyme lên cơ chất tan là CMC
3 SXFn3Egc hoạt động tối ưu ở 40oC, pH 4 Enzyme ổnđịnh và bền ở nhiệt độ dưới 60oC trong 90 phút Km đạt 1,26 mg/ml
và Vmax đạt 148,12 µmol/min/ml Hoạt tính enzyme tăng 2 lần khi
sử dụng 40 mM Mn2+ và giảm khi bổ sung các ion kim loại (Ca2+,
Mg2+, Ni2+, K+, Co2+, Cu2+, Zn2+, Fe3+), và 6 loại hóa chất (SDS,urea, 2-mercaptoethanol, EDTA, tween 80, triton X-100)
Trang 7CHƯƠNG 1 TỔNG QUAN 1.1 Tổng quan về cellulose
Cellulose là hợp chất cao phân tử được cấu tạo từ các đơnphân β-D-glucose là thành phần chủ yếu của thành tế bào thực vật
Sử dụng nguồn nguyên liệu có khả năng tái tạo như cellulose trongmột số ngành công nghiệp như chế biến thực phẩm, sản xuất cácnhiên liệu sinh học, hóa chất tinh khiết đang được xem là xu hướngphát triển bền vững cả về mặt kinh tế và môi trường
1.2 Cellulase
Cellulase là nhóm enzyme quan trọng, có khả năng cắt mốiliên kết -1,4-glycoside trong phân tử cellulose tạo thành sản cuốicùng có giá trị là glucose Cellulase thường được chia thành ba loạichính (endoglucanase, exoglucanase, β-glucosidase) với cơ chế phâncắt khác nhau Cấu trúc của cellulase có thể chỉ gồm module xúc táchoặc bao gồm module xúc tác liên kết với module bổ sung như CBMhoặc module chưa rõ chức năng (FN3, Ig)
1.3 Ứng dụng của Metagenomics trong khai thác gen
Metagenomics là thuật ngữ bao gồm các kỹ thuật sinh họcphân tử, tin - sinh học cho phép nghiên cứu đa hệ gen của tất cả các
vi sinh vật được thu nhận trực tiếp từ mẫu môi trường mà khôngthông qua nuôi cấy Metagenomics đã được chứng minh là phươngpháp hiệu quả để khai thác các enzyme, hoạt chất sinh học mới chonhiều ứng dụng Trong nghiên cứu này, chúng tôi sẽ khai thác cáccellulase mới, đặc biệt là cellulase có cấu trúc module (FN3, Ig) từ
bộ dữ liệu gồm 816 ORF mã hóa cellulase Bộ dữ liệu này được phântích từ 164.644 ORF đã được lắp ráp từ 8,46 Gb dữ liệu giải trình tựDNA đa hệ gen của vi khuẩn trong dạ cỏ dê Việt Nam
Trang 8CHƯƠNG 2 ĐỐI TƯỢNG, PHƯƠNG PHÁP NGHIÊN CỨU 2.1 Đối tượng, vật liệu hóa chất và thiết bị máy móc
Đối tượng nghiên cứu: Bộ dữ liệu gồm 816 ORF mã hóa cellulase từ dữ liệu DNA đa hệ gen của vi khuẩn trong dạ cỏ dê
Các chủng vi sinh vật, plasmid của hãng Invitrogen (Mỹ),mồi PCR được đặt tổng hợp tại GenScript (Mỹ); hóa chất của Bio-Lab (Mỹ), Fermentas (Mỹ), Sigma (Mỹ), Merck (Đức)
2.2 Phương pháp nghiên cứu
2.2.1 Các phương pháp sinh học phân tử, vi sinh vật
Biến nạp DNA plasmid vào E coli (Froger et al., 2007); tách chiết DNA plasmid từ E coli và điện di trên gel agarose (Sambrook
et al., 2001); tinh chế DNA từ gel agarose sử dụng bộ kit DNA
Qiagene – QIAquick Gel Extraction Kit; tối ưu mã bộ ba dựa trênphần mềm trực tuyến của Genscript (Rare Codon Analysis Tool)
2.2.2 Các phương pháp hóa sinh protein
Tinh chế protein bằng cột sắc kí ái lực Ni-NTA (Invitrogen)
và xác định độ sạch bằng Quantity One (Bio-Rad); định lượngprotein bằng Bradford (Bradford, 1976); xác định hoạt tínhendoglucanase trên cơ chất CMC (Miller, 1959) và trên giấy lọc theophương pháp của Camassola và cộng sự (2012) với một số cải biểnnhỏ; xác định hoạt tính cellulase trên đĩa thạch agar-CMC (Teather
et al., 1982) và dựa vào phân tích zymogram (Champasri et al., 2015); đánh giá tác động của enzyme lên bề mặt giấy lọc bằng chụp ảnh trên kính hiển vi điện tử quét SEM (Kataeva et al., 2002).
2.2.3 Các phương pháp tin sinh học
Nghiên cứu Pfam của các trình tự dựa trên CSDL PFAM(http://pfam.janelia.org/search) và vùng bảo thủ sử dụng BLASTP(http://blast.ncbi.nlm.nih.gov/Blast.cgi.); dự đoán cấu trúc bậc ba củaenzyme sử dụng phần mềm trực tuyến Phyre2 và Swiss model; khảnăng chịu kiềm/acid sử dụng phần mềm AcalPred và khả năng chịunhiệt của enzyme sử dụng phần mềm TBI
2.2.4 Xử lý số liệu: Sử dụng phương pháp thống kê, Microsoft Excel để
tính toán và trình bày kết quả dưới dạng ±SE (Standard Error)
Trang 9CHƯƠNG 3 KẾT QUẢ VÀ THẢO LUẬN 3.1 Đánh giá sự đa dạng GH và cấu trúc module của cellulase suy diễn từ 816 khung đọc mở
3.1.1 Đánh giá sự đa dạng và cấu trúc các họ GH cellulase
Từ 816 ORF mã hóa cellulase đã được chú giải chức năngthuộc 11 họ GH khác nhau (Bảng 3.1) Trong đó, họ GH3 (400 ORF)
và GH5 (192 ORF) được xác định là họ GH phổ biến nhất chiếm tỷ
lệ lần lượt là 49% và 23,5% Các trình tự hoàn thiện (297 ORF) đượcphát hiện tồn tại ở dạng cấu trúc chỉ chứa vùng xúc tác hoặc chứathêm module chưa rõ chức năng (FN3, Ig) Trong đó, các ORF thuộc
họ GH3 có tới 90,9% các trình tự có chứa module FN3; 100% cácORF họ GH9 chứa module Ig và chỉ 1 module FN3 đi kèm với GH5
Do đó, các module FN3, Ig không chỉ đơn giản là các vùng nối màcòn thể hiện một số chức năng sinh học chưa được xác định rõ ràng
Bảng 3.1 Tổng hợp các trình tự được chú giải mã hóa cho các enzyme thủy phân cellulose dựa trên cơ sở dữ
liệu COG và KEGG
Trang 103.1.2 Đánh giá đa dạng cấu trúc của cellulase hoàn thiện có cấu trúc module
Trong số 243 ORF mã hóa cellulase chứa cấu trúc module có
148 ORF có cấu trúc hoàn thiện (131 ORF chứa FN3, 17 ORF chứaIg) Trong đó, toàn bộ 17 ORF mã hóa endoglucanase GH9 có chứamodule Ig (Ig-GH9); 131 ORF hoàn thiện có chứa module FN3 thì
có 130 ORF (99,2%) mã hóa beta-glucosidase GH3 (GH3-Fn3) vàchỉ duy nhất 1 ORF mã hóa endoglucanase GH5 (Fn3-GH5) ModuleFN3 đứng trước vùng xúc tác endoglucanase GH5 ở đầu N là cấutrúc hiếm gặp cần được nghiên cứu để xác định vai trò của modulenày đến hiệu quả thủy phân của enzyme
3.1.3 Đánh giá đa dạng nguồn gốc các ORF mã hóa cellulase
Để hiểu rõ hơn về cộng đồng vi khuẩn và vai trò của chúngtrong quá trình tiêu hóa cellulose ở dạ cỏ dê Việt Nam, chúng tôi đãxác định nguồn gốc của 816 ORF mã hóa cellulase Trong đó, 221ORF mã hóa cellulase đã được phân loại chủ yếu thuộc ngànhBacteroidetes (153 ORF) và Firmicutes (53 ORF) với tỷ lệ tương
ứng là 69,2% và 24,0% Bacteroides uniformis (29 ORF), Prevotella buccae (25 ORF) được xác định là 2 loài chiếm ưu thế nhất mang các gen mã hóa cellulase; Ruminococcus flavefaciens (7 ORF) được
xác định là loài điển hình thuộc nhóm vi khuẩn sinh tổng hợpcellulase có khả năng phân giải mạnh nguồn sinh khối cellulose
3.1.4 Đánh giá mức độ tương đồng của các trình tự axit amin suy diễn từ ORF được chú giải mã hóa cho cellulase
Dựa trên cả 2 CSDL là NR và CAZy, 297 ORF hoàn thiện
mã hóa cellulase có độ tương đồng dưới 85% (trình tự mới) với tỷ lệlần lượt là 80,1% và 77,4% Trong 148 ORF hoàn thiện mã hóacellulase có cấu trúc module có 17 ORF hoàn thiện mã hóaendoglucanase chứa module Ig đều là trình tự mới; 131 ORF hoànthiện mã hóa cellulase chứa module FN3 có 90 trình tự mới chiếmtrên 68% (89 ORF mã hóa beta-glucosidase, 01 ORF mã hóa
Trang 11endoglucanase) Từ bộ dữ liệu này hứa hẹn sẽ khai thác được nhiềugen mới, đặc biệt là các trình tự hoàn thiện mã hóa cellulase có chứamodule như FN3, Ig.
3.1.5 Ước đoán một số tính chất của enzyme suy diễn từ trình tự
Ước đoán nhanh một số điều kiện tối ưu cho enzyme nhưkhoảng pH, nhiệt độ hoạt động, giá trị pI là công việc cần thiết đểsàng lọc nhanh các gen ứng viên cho nghiên cứu ứng dụng 243 ORF
mã hóa cho cellulase có cấu trúc module được ước đoán phần lớnbền ở khoảng nhiệt độ từ 55-65oC (130 ORF), hoạt động ở pH kiềm(139 ORF) và giá trị pI từ trên 5-6 (146 ORF) Trong 148 trình tựhoàn thiện chứa module FN3 và Ig xác định được 2 trình tự (1 trình
tự Ig-GH9 và 1 trình tự endoglucanase FN3-GH5) có pI cao hơn 9
3.2 Nghiên cứu lựa chọn các trình tự có cấu trúc module điển hình cho nghiên cứu vai trò của module
3.2.1 Khảo sát cấu trúc bậc 3 của trình tự chứa module FN3
Module FN3 trong cấu trúc của endoglucanase GH5 được pháthiện là cấu trúc hiếm gặp so với cấu trúc phổ biến là module FN3 trongbeta-glucosidase GH3 được lựa chọn để nghiên cứu Trình tự gen mãhóa cho endoglucanase trưởng thành có kích thước 1545 nucleotit Kếtquả so sánh tương đồng bằng BLASTN và phân loại bằng phần mềm
MEGAN cho thấy gen có nguồn gốc từ Ruminococcus bicirculans Khi
so sánh trình tự amino acid của endoglucanase GH5 bằng BLASTP,
trình tự này có độ tương đồng 60% so với endoglucanase mãCDC67342.1 của loài vi khuẩn phổ biến trong dạ cỏ dê là
Ruminococcus sp CAG:57 Khảo sát vùng bảo thủ bằng SwissProt cho
thấy trình tự có độ tương đồng cao nhất (49%) so với khuôn củaendoglucanase 3pzt.1.A, với độ bao phủ là 53%, có cấu trúc monomer
và phối tử là Mn (Hình 3.7) Sử dụng công cụ Phyre2 cho thấy trình tự
có độ tương đồng cao nhất với khuôn
Trang 12c3pzvB endoglucanase (độ tin cậy 100%), có vùng chức năng tách biệt rõ ràng, vùng đầu N có cấu trúc FN3 tách biệt (Hình 3.8).
3.2.2 Khảo sát giá trị pI, pH của trình tự chứa module FN3
Trình tự mã hóa cho endoglucanase GH5 chứa module FN3được dự đoán hoạt động ở môi trường pH axit, có khả năng bền ởdưới 55oC và có chỉ số pI tương đồng và luôn ở mức cao ở cả vùngchưa biết chức năng (X domain, module FN3) và vùng hoạt tính(Egc) Chỉ số pI trên toàn phân tử enzyme và của các module tươngđồng sẽ giúp cho việc nghiên cứu, biểu hiện và tối ưu một số điềukiện thủy phân của enzyme trở lên thuận lợi hơn
3.3 Tách dòng gen XFn3Egc
3.3.1 Phân tích tối ưu mã bộ ba của trình tự XFn3Egc
Trình tự mã hóa cho endoglucanase GH5 (gen XFn3Egc)
được tối ưu có tỷ lệ các bộ ba có khả năng sử dụng tốt là 97% so với46% trước khi tối ưu Các mã bộ ba được tối ưu có tới 86% trình tự
có mức độ phù hợp từ 91-100% so với trước tối ưu chỉ có 49%
Trình tự gen trước và sau khi tối ưu để biểu hiện trên E coli được
mô tả tại Hình 3.10 Gen XFn3Egc sau khi được tối ưu đã được tổng hợp nhân tạo và đưa vào pET22b(+) tại vị trí NcoI+XhoI Vector mang gen được đặt tên là pET22-XFn3Egc.
Trang 13Hình 3.10 Trình tự gen XFn3Egc trước (A) và sau tối ưu các mã bộ
ba để biểu hiện trong E coli (B) (vùng màu vàng là trình tự FN3;vùng màu xanh là vùng hoạt tính; chữ màu đỏ là trình tự được tối ưu)