Mục tiêu của đề tài là nghiên cứu đánh giá đa dạng cellulase và cellulase có cấu trúc module từ khu hệ vi sinh vật trong dạ cỏ dê bằng kỹ thuật Metagenomics; nghiên cứu vai trò của module chưa rõ chức năng (FN3 hoặc Ig) lên hoạt tính của cellulase. Mời các bạn cùng tham khảo.
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-
Nguyễn Khánh Hoàng Việt
NGHIÊN CỨU ĐÁNH GIÁ SỰ ĐA DẠNG VÀ VAI TRÒ CỦA MỘT SỐ MODULE TRONG CẤU TRÚC ENZYME THỦY PHÂN CELLULOSE TỪ KHU HỆ VI SINH VẬT TRONG DẠ
Trang 2Công trình được hoàn thành tại: Học viện Khoa học và Công nghệ
- Viện Hàn lâm Khoa học và Công nghệ Việt Nam
Người hướng dẫn khoa học 1: GS TS Trương Nam Hải
Người hướng dẫn khoa học 2: PGS TS Đỗ Thị Huyền
Có thể tìm hiểu luận án tại:
- Thư viện Học viện Khoa học và Công nghệ
- Thư viện Quốc gia Việt Nam
Trang 3MỞ ĐẦU
1 Tính cấp thiết của luận án
Vi sinh vật nói chung và vi khuẩn nói riêng có ý nghĩa thực tiễn vô cùng to lớn đối với loài người thông qua các ứng dụng trong nhiều lĩnh vực như là y học, nông nghiệp, công nghiệp, xử lý ô nhiễm môi trường Do đó, các nghiên cứu về sự đa dạng các trình tự
từ vi sinh vật nhằm phát hiện những gen mới để khai thác và ứng dụng chúng vào phục vụ cuộc sống luôn là chủ đề quan trọng được các nhà sinh học đặc biệt quan tâm Mặc dù vậy, các phát hiện gần đây cho thấy phần lớn (khoảng 99%) các loài vi sinh vật trong môi trường là chưa nuôi cấy được Do vậy, nghiên cứu dựa vào phương pháp nuôi cấy thông thường sẽ không thể khai thác được toàn bộ nguồn gen có tiềm năng của vi sinh vật Trong giai đoạn gần đây, thông qua kỹ thuật Metagenomics giải trình tự toàn bộ hệ gen của tất
cả các vi sinh vật được thu nhận trực tiếp từ mẫu môi trường, các gen
từ vi sinh vật, kể cả vi sinh vật không nuôi cấy đã được nghiên cứu, đánh giá một cách tổng thể
Tại nước ta, cùng với sự phát triển của ngành nông nghiệp với qui mô sản xuất ngày càng lớn và tập trung như hiện nay, các phụ phẩm nông nghiệp mà trong đó nguồn sinh khối lignocellulose chiếm phần lớn đang chủ yếu bị đốt bỏ gây lãng phí và ảnh hưởng xấu đến môi trường Trong khi đó, nhân loại đang phải đối mặt với tình trạng suy kiệt nguồn nguyên liệu hóa thạch cũng như các hệ quả nghiêm trọng của việc tích tụ khí thải nhà kính Việc nghiên cứu sử dụng nguồn năng lượng carbonhydrate từ nguyên liệu có khả năng tái tạo với trữ lượng khổng lồ như lignocellulose là hết sức cấp thiết
Trang 4để tạo ra các sản phẩm thay thế các nhiên liệu được sản xuất từ nguyên liệu hóa thạch
Lignocellulose nói chung hay cellulose nói riêng là sinh khối
có cấu trúc vững chắc, được chuyển hóa theo nhiều bước để tạo thành sản phẩm cuối cùng mà trong đó giai đoạn đường hóa đóng vai trò then chốt Trong quá trình này, cellulase được xác định là nhân tố chính quyết định tới hiệu suất chuyển hóa và giá thành của sản phẩm
Do vậy, trong những năm gần đây trên thế giới có rất nhiều công trình nghiên cứu tìm kiếm nguồn cellulase mới có hoạt tính cao, có ái lực mạnh với cơ chất để chuyển hóa hiệu quả cellulose Khác với enzyme khác, phần lớn các cellulase có cấu trúc module, có nghĩa là ngoài vùng có chức năng xúc tác, enzyme còn chứa thêm một số module khác có cấu trúc độc lập và ít được nghiên cứu, điển hình như module FN3, Ig, CBM Hiện nay trên thế giới, nghiên cứu về vai trò của các module chưa biết chức năng đến hoạt tính xúc tác của cellulase chưa được công bố nhiều Nhiều giả thiết cho rằng, chúng không chỉ tồn tại như một vùng nối liên kết các vùng hoạt tính mà chúng còn thể hiện nhiều chức năng sinh học quan trọng khác như ổn định cấu trúc, làm tăng ái lực của enzyme với cơ chất Vì vậy, nghiên cứu làm rõ vai trò sinh học của các module này trong cấu trúc của cellulase là hết sức có ý nghĩa cho việc lựa chọn hoặc thiết kế các enzyme để nâng cao hiệu quả thủy phân nguồn sinh khối cellulose
Từ năm 2014 đến năm 2017, bằng nguồn kinh phí của Đề tài độc lập cấp Nhà nước (Mã số: ĐTĐLCN.15/14), phòng Kỹ thuật di truyền (Viện CNSH, Viện HLKH&CNVN) đã giải mã DNA đa hệ gen của hệ vi khuẩn trong dạ cỏ dê chăn thả tự nhiên trên núi tại tỉnh Ninh Bình và Thanh Hóa Kết quả từ 8,6 Gb dữ liệu, đề tài đã khai
Trang 5thác được 816 trình tự mã hóa cho cellulase Trong nghiên cứu này, chúng tôi hướng tới việc đánh giá đa dạng các trình tự cellulase có cấu trúc module, tìm ra cấu trúc module đặc thù mới cho nghiên cứu vai trò của module đến hoạt tính của enzyme Do đó, chúng tôi đã
thực hiện Luận án: “Nghiên cứu đánh giá sự đa dạng và vai trò của một số module trong cấu trúc enzyme thủy phân cellulose từ khu
hệ vi sinh vật trong dạ cỏ của dê”
2 Mục tiêu nghiên cứu
- Nghiên cứu đánh giá đa dạng cellulase và cellulase có cấu trúc module từ khu hệ vi sinh vật trong dạ cỏ dê bằng kỹ thuật Metagenomics;
- Nghiên cứu vai trò của module chưa rõ chức năng (FN3 hoặc Ig) lên hoạt tính của cellulase
3 Nội dung nghiên cứu
Để đạt được mục tiêu của đề tài, chúng tôi đã thực hiện các nội dung nghiên cứu chính sau:
1 Phân tích, đánh giá đa dạng họ GH, nguồn gốc cellulase
và các cellulase có cấu trúc module được mã hóa từ các khung đọc
mở (ORF) trong dữ liệu giải trình tự DNA đa hệ gen của vi sinh vật
dạ cỏ dê tại Việt Nam
2 Phân tích lựa chọn trình tự có cấu trúc module điển hình cho nghiên cứu biểu hiện và xác định vai trò của vùng chưa biết chức năng
3 Nghiên cứu biểu hiện, tinh chế enzyme từ trình tự được
lựa chọn (XFn3Egc) và các cấu trúc chứa module (Fn3, XFn3, Egc,
Fn3Egc) dưới dạng dung hợp với SUMO
Trang 64 Nghiên cứu vai trò của module chưa biết chức năng đến khả năng phân giải cellulose của enzyme
5 Nghiên cứu, đánh giá một số tính chất của enzyme tái tổ hợp được biểu hiện từ trình tự được lựa chọn có cấu trúc module
4 Những đóng góp mới của luận án
1 Từ 816 ORF mã hóa cellulase của vi khuẩn dạ cỏ dê Việt Nam, 243 ORF mã hóa cellulase được xác định có cấu trúc chứa module chưa rõ chức năng là FN3 hoặc Ig Trong số các cellulase hoàn thiện chứa module FN3, 99,2% FN3 đi kèm với module xúc tác betaglucosidase GH3 và chỉ có một FN3 đi kèm với module xúc tác endoglucanase GH5 Toàn bộ module Ig đều đi kèm với module xúc tác endoglucanase GH9 Cấu trúc mã hóa endoglucanase GH5 chứa module FN3 là cấu trúc mới ít được phát hiện và nghiên cứu
2 Đã tổng hợp và biểu hiện trình tự mã hóa endoglucanase
GH5 (XFn3Egc) và các cấu trúc chứa module khác nhau (Fn3, XFn3,
Fn3Egc, Egc) trong E coli để nghiên cứu vai trò của FN3 trong cấu
trúc của enzyme Module FN3 được xác định có khả năng làm tăng tính tan và ổn định cấu trúc vùng xúc tác, nới lỏng các cấu trúc tinh thể trên bề mặt giấy lọc, giúp enzyme tiếp cận cơ chất tốt hơn Module FN3 còn làm tăng ái lực của enzyme lên cơ chất tan là CMC
3 SXFn3Egc hoạt động tối ưu ở 40oC, pH 4 Enzyme ổn định và bền ở nhiệt độ dưới 60oC trong 90 phút Km đạt 1,26 mg/ml
và Vmax đạt 148,12 µmol/min/ml Hoạt tính enzyme tăng 2 lần khi
sử dụng 40 mM Mn2+ và giảm khi bổ sung các ion kim loại (Ca2+,
Mg2+, Ni2+, K+, Co2+, Cu2+, Zn2+, Fe3+), và 6 loại hóa chất (SDS, urea, 2-mercaptoethanol, EDTA, tween 80, triton X-100)
Trang 7CHƯƠNG 1 TỔNG QUAN 1.1 Tổng quan về cellulose
Cellulose là hợp chất cao phân tử được cấu tạo từ các đơn phân β-D-glucose là thành phần chủ yếu của thành tế bào thực vật
Sử dụng nguồn nguyên liệu có khả năng tái tạo như cellulose trong một số ngành công nghiệp như chế biến thực phẩm, sản xuất các nhiên liệu sinh học, hóa chất tinh khiết đang được xem là xu hướng phát triển bền vững cả về mặt kinh tế và môi trường
1.2 Cellulase
Cellulase là nhóm enzyme quan trọng, có khả năng cắt mối liên kết -1,4-glycoside trong phân tử cellulose tạo thành sản cuối cùng có giá trị là glucose Cellulase thường được chia thành ba loại chính (endoglucanase, exoglucanase, β-glucosidase) với cơ chế phân cắt khác nhau Cấu trúc của cellulase có thể chỉ gồm module xúc tác hoặc bao gồm module xúc tác liên kết với module bổ sung như CBM hoặc module chưa rõ chức năng (FN3, Ig)
1.3 Ứng dụng của Metagenomics trong khai thác gen
Metagenomics là thuật ngữ bao gồm các kỹ thuật sinh học phân tử, tin - sinh học cho phép nghiên cứu đa hệ gen của tất cả các
vi sinh vật được thu nhận trực tiếp từ mẫu môi trường mà không thông qua nuôi cấy Metagenomics đã được chứng minh là phương pháp hiệu quả để khai thác các enzyme, hoạt chất sinh học mới cho nhiều ứng dụng Trong nghiên cứu này, chúng tôi sẽ khai thác các cellulase mới, đặc biệt là cellulase có cấu trúc module (FN3, Ig) từ
bộ dữ liệu gồm 816 ORF mã hóa cellulase Bộ dữ liệu này được phân tích từ 164.644 ORF đã được lắp ráp từ 8,46 Gb dữ liệu giải trình tự DNA đa hệ gen của vi khuẩn trong dạ cỏ dê Việt Nam
Trang 8CHƯƠNG 2 ĐỐI TƯỢNG, PHƯƠNG PHÁP NGHIÊN CỨU 2.1 Đối tượng, vật liệu hóa chất và thiết bị máy móc
Đối tượng nghiên cứu: Bộ dữ liệu gồm 816 ORF mã hóa cellulase từ dữ liệu DNA đa hệ gen của vi khuẩn trong dạ cỏ dê
Các chủng vi sinh vật, plasmid của hãng Invitrogen (Mỹ), mồi PCR được đặt tổng hợp tại GenScript (Mỹ); hóa chất của Bio-Lab (Mỹ), Fermentas (Mỹ), Sigma (Mỹ), Merck (Đức)
2.2 Phương pháp nghiên cứu
2.2.1 Các phương pháp sinh học phân tử, vi sinh vật
Biến nạp DNA plasmid vào E coli (Froger et al., 2007); tách chiết DNA plasmid từ E coli và điện di trên gel agarose (Sambrook
et al., 2001); tinh chế DNA từ gel agarose sử dụng bộ kit DNA
Qiagene – QIAquick Gel Extraction Kit; tối ưu mã bộ ba dựa trên phần mềm trực tuyến của Genscript (Rare Codon Analysis Tool)
2.2.2 Các phương pháp hóa sinh protein
Tinh chế protein bằng cột sắc kí ái lực Ni-NTA (Invitrogen)
và xác định độ sạch bằng Quantity One (Bio-Rad); định lượng protein bằng Bradford (Bradford, 1976); xác định hoạt tính endoglucanase trên cơ chất CMC (Miller, 1959) và trên giấy lọc theo phương pháp của Camassola và cộng sự (2012) với một số cải biển
nhỏ; xác định hoạt tính cellulase trên đĩa thạch agar-CMC (Teather et
al., 1982) và dựa vào phân tích zymogram (Champasri et al., 2015);
đánh giá tác động của enzyme lên bề mặt giấy lọc bằng chụp ảnh trên
kính hiển vi điện tử quét SEM (Kataeva et al., 2002)
2.2.3 Các phương pháp tin sinh học
Nghiên cứu Pfam của các trình tự dựa trên CSDL PFAM (http://pfam.janelia.org/search) và vùng bảo thủ sử dụng BLASTP (http://blast.ncbi.nlm.nih.gov/Blast.cgi.); dự đoán cấu trúc bậc ba của enzyme sử dụng phần mềm trực tuyến Phyre2 và Swiss model; khả năng chịu kiềm/acid sử dụng phần mềm AcalPred và khả năng chịu nhiệt của enzyme sử dụng phần mềm TBI
2.2.4 Xử lý số liệu: Sử dụng phương pháp thống kê, Microsoft Excel
để tính toán và trình bày kết quả dưới dạng ±SE (Standard Error)
Trang 9CHƯƠNG 3 KẾT QUẢ VÀ THẢO LUẬN 3.1 Đánh giá sự đa dạng GH và cấu trúc module của cellulase suy diễn từ 816 khung đọc mở
3.1.1 Đánh giá sự đa dạng và cấu trúc các họ GH cellulase
Từ 816 ORF mã hóa cellulase đã được chú giải chức năng thuộc 11 họ GH khác nhau (Bảng 3.1) Trong đó, họ GH3 (400 ORF)
và GH5 (192 ORF) được xác định là họ GH phổ biến nhất chiếm tỷ
lệ lần lượt là 49% và 23,5% Các trình tự hoàn thiện (297 ORF) được phát hiện tồn tại ở dạng cấu trúc chỉ chứa vùng xúc tác hoặc chứa thêm module chưa rõ chức năng (FN3, Ig) Trong đó, các ORF thuộc
họ GH3 có tới 90,9% các trình tự có chứa module FN3; 100% các ORF họ GH9 chứa module Ig và chỉ 1 module FN3 đi kèm với GH5
Do đó, các module FN3, Ig không chỉ đơn giản là các vùng nối mà còn thể hiện một số chức năng sinh học chưa được xác định rõ ràng
Bảng 3.1 Tổng hợp các trình tự được chú giải mã hóa cho các
enzyme thủy phân cellulose dựa trên cơ sở dữ liệu COG và KEGG
Họ
Số ORF
Họ
Số ORF
Trang 103.1.2 Đánh giá đa dạng cấu trúc của cellulase hoàn thiện có cấu trúc module
Trong số 243 ORF mã hóa cellulase chứa cấu trúc module có
148 ORF có cấu trúc hoàn thiện (131 ORF chứa FN3, 17 ORF chứa Ig) Trong đó, toàn bộ 17 ORF mã hóa endoglucanase GH9 có chứa module Ig (Ig-GH9); 131 ORF hoàn thiện có chứa module FN3 thì
có 130 ORF (99,2%) mã hóa beta-glucosidase GH3 (GH3-Fn3) và chỉ duy nhất 1 ORF mã hóa endoglucanase GH5 (Fn3-GH5) Module FN3 đứng trước vùng xúc tác endoglucanase GH5 ở đầu N là cấu trúc hiếm gặp cần được nghiên cứu để xác định vai trò của module này đến hiệu quả thủy phân của enzyme
3.1.3 Đánh giá đa dạng nguồn gốc các ORF mã hóa cellulase
Để hiểu rõ hơn về cộng đồng vi khuẩn và vai trò của chúng trong quá trình tiêu hóa cellulose ở dạ cỏ dê Việt Nam, chúng tôi đã xác định nguồn gốc của 816 ORF mã hóa cellulase Trong đó, 221 ORF mã hóa cellulase đã được phân loại chủ yếu thuộc ngành Bacteroidetes (153 ORF) và Firmicutes (53 ORF) với tỷ lệ tương
ứng là 69,2% và 24,0% Bacteroides uniformis (29 ORF), Prevotella
buccae (25 ORF) được xác định là 2 loài chiếm ưu thế nhất mang các
gen mã hóa cellulase; Ruminococcus flavefaciens (7 ORF) được xác
định là loài điển hình thuộc nhóm vi khuẩn sinh tổng hợp cellulase
có khả năng phân giải mạnh nguồn sinh khối cellulose
3.1.4 Đánh giá mức độ tương đồng của các trình tự axit amin suy diễn từ ORF được chú giải mã hóa cho cellulase
Dựa trên cả 2 CSDL là NR và CAZy, 297 ORF hoàn thiện
mã hóa cellulase có độ tương đồng dưới 85% (trình tự mới) với tỷ lệ lần lượt là 80,1% và 77,4% Trong 148 ORF hoàn thiện mã hóa cellulase có cấu trúc module có 17 ORF hoàn thiện mã hóa endoglucanase chứa module Ig đều là trình tự mới; 131 ORF hoàn thiện mã hóa cellulase chứa module FN3 có 90 trình tự mới chiếm trên 68% (89 ORF mã hóa beta-glucosidase, 01 ORF mã hóa
Trang 11endoglucanase) Từ bộ dữ liệu này hứa hẹn sẽ khai thác được nhiều gen mới, đặc biệt là các trình tự hoàn thiện mã hóa cellulase có chứa module như FN3, Ig
3.1.5 Ước đoán một số tính chất của enzyme suy diễn từ trình tự
Ước đoán nhanh một số điều kiện tối ưu cho enzyme như khoảng pH, nhiệt độ hoạt động, giá trị pI là công việc cần thiết để sàng lọc nhanh các gen ứng viên cho nghiên cứu ứng dụng 243 ORF
mã hóa cho cellulase có cấu trúc module được ước đoán phần lớn bền ở khoảng nhiệt độ từ 55-65oC (130 ORF), hoạt động ở pH kiềm (139 ORF) và giá trị pI từ trên 5-6 (146 ORF) Trong 148 trình tự hoàn thiện chứa module FN3 và Ig xác định được 2 trình tự (1 trình
tự Ig-GH9 và 1 trình tự endoglucanase FN3-GH5) có pI cao hơn 9
3.2 Nghiên cứu lựa chọn các trình tự có cấu trúc module điển hình cho nghiên cứu vai trò của module
3.2.1 Khảo sát cấu trúc bậc 3 của trình tự chứa module FN3
Module FN3 trong cấu trúc của endoglucanase GH5 được phát hiện là cấu trúc hiếm gặp so với cấu trúc phổ biến là module FN3 trong beta-glucosidase GH3 được lựa chọn để nghiên cứu Trình tự gen mã hóa cho endoglucanase trưởng thành có kích thước
1545 nucleotit Kết quả so sánh tương đồng bằng BLASTN và phân loại bằng phần mềm MEGAN cho thấy gen có nguồn gốc từ
Ruminococcus bicirculans Khi so sánh trình tự amino acid của
endoglucanase GH5 bằng BLASTP, trình tự này có độ tương đồng 60% so với endoglucanase mã CDC67342.1 của loài vi khuẩn phổ
biến trong dạ cỏ dê là Ruminococcus sp CAG:57 Khảo sát vùng bảo
thủ bằng SwissProt cho thấy trình tự có độ tương đồng cao nhất (49%) so với khuôn của endoglucanase 3pzt.1.A, với độ bao phủ là 53%, có cấu trúc monomer và phối tử là Mn (Hình 3.7) Sử dụng công cụ Phyre2 cho thấy trình tự có độ tương đồng cao nhất với khuôn
Trang 12c3pzvB endoglucanase (độ tin cậy 100%), có vùng chức năng tách biệt
rõ ràng, vùng đầu N có cấu trúc FN3 tách biệt (Hình 3.8)
3.2.2 Khảo sát giá trị pI, pH của trình tự chứa module FN3
Trình tự mã hóa cho endoglucanase GH5 chứa module FN3 được dự đoán hoạt động ở môi trường pH axit, có khả năng bền ở dưới 55o
C và có chỉ số pI tương đồng và luôn ở mức cao ở cả vùng chưa biết chức năng (X domain, module FN3) và vùng hoạt tính (Egc) Chỉ số pI trên toàn phân tử enzyme và của các module tương đồng sẽ giúp cho việc nghiên cứu, biểu hiện và tối ưu một số điều
kiện thủy phân của enzyme trở lên thuận lợi hơn
3.3 Tách dòng gen XFn3Egc
3.3.1 Phân tích tối ưu mã bộ ba của trình tự XFn3Egc
Trình tự mã hóa cho endoglucanase GH5 (gen XFn3Egc)
được tối ưu có tỷ lệ các bộ ba có khả năng sử dụng tốt là 97% so với 46% trước khi tối ưu Các mã bộ ba được tối ưu có tới 86% trình tự
có mức độ phù hợp từ 91-100% so với trước tối ưu chỉ có 49%
Trình tự gen trước và sau khi tối ưu để biểu hiện trên E coli được
mô tả tại Hình 3.10 Gen XFn3Egc sau khi được tối ưu đã được tổng hợp nhân tạo và đưa vào pET22b(+) tại vị trí NcoI+XhoI Vector mang gen được đặt tên là pET22-XFn3Egc
Trang 13Hình 3.10 Trình tự gen XFn3Egc trước (A) và sau tối ưu các mã bộ
ba để biểu hiện trong E coli (B) (vùng màu vàng là trình tự FN3;
vùng màu xanh là vùng hoạt tính; chữ màu đỏ là trình tự được tối ưu)