Một nhóm sulfate trong chất nền PAPS 3′-phosphoadenosine 5′-phosphosulfate được chuyển đến oxy phenolic của dư lượng tyrosine cơ chất để tạo thành dư lượng sản phẩm sulfotyrosine và PAP
Trang 1ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
BÁO CÁO TỔNG KẾT
ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP TRƯỜNG
DỰ ĐOÁN PROTEIN TYROSINE SULFATION DỰA VÀO CÁC PHÂN TÍCH TRÊN AMINO ACID
Mã số: T2018-06-89
Chủ nhiệm đề tài: ThS Phạm Thị Thảo Khương
Đà Nẵng, 04/2018
Trang 2ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
BÁO CÁO TỔNG KẾT
ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP TRƯỜNG 2018
DỰ ĐOÁN PROTEIN TYROSINE SULFATION DỰA VÀO CÁC PHÂN TÍCH TRÊN AMINO ACID
Mã số: T2018-06-89
Xác nhận của cơ quan chủ trì đề tài Chủ nhiệm đề tài
(ký, họ tên, đóng dấu) (ký, họ tên)
Trang 3DANH SÁCH NHỮNG THÀNH VIÊN THAM GIA NGHIÊN CỨU ĐỀ
TÀI VÀ ĐƠN VỊ PHỐI HỢP CHÍNH
NHỮNG THÀNH VIÊN THAM GIA NGHIÊN CỨU ĐỀ TÀI
TT Họ và tên Đơn vị công tác và
tử-Công ty Điện lực ĐàNẵng
Mô hình hóa toán học,thiết kế mô hình, chạy dữliệu, tổng hợp, viết báocáo
Đánh giá, so sánh kết quảđạt được Kiểm tra tínhkhoa học và chính xác củabáo cáo
ĐƠN VỊ PHỐI HỢP CHÍNH
Tên đơn vị
trong và ngoài nước Nội dung phối hợp nghiên cứu Họ và tên người đại
diện đơn vị
Trang 4MỤC LỤ
DANH MỤC BẢNG BIỂU IV DANH MỤC HÌNH ẢNH V DANH MỤC CÁC CHỮ VIẾT TẮT VII THÔNG TIN KẾT QUẢ NGHIÊN CỨU VIII INFORMATION ON RESEARCH RESULTS XII
MỞ ĐẦU 1
CHƯƠNG 1 3
LÝ THUYẾT 3
1.1 Tổng quan về biến đổi sau phiên dịch Post-Translational Modifications (PTMs) 3
1.2 Cấu trúc của Protein 6
1.3 Tyrosine Sulfation 16
1.4 Phương pháp nghiên cứu Protein 19
1.5 Dữ liệu sử dụng 26
CHƯƠNG 2 28
PHƯƠNG PHÁP 28
2.1 Trích xuất các đặc điểm chính 28
2.1.1 Mã hóa 20D Binary 28
2.1.2 Thành phần axit amin (amino acid composition – AAC) 29
2.1.3 Blosum62 29
2.1.4 Ma trận cho điểm cụ thể theo vị trí (position-specific scoring matrix-PSSM) 30
2.1.5 Lai động 34
2.2 Support Vector Machine (SVM) 35
2.3 Đào tạo và đánh giá mô hình 39
CHƯƠNG 3 44
KẾT QUẢ NGHIÊN CỨU 44
3.1 Ảnh hưởng của thành phần axit amin xung quanh các vị trí Tyrosine Sulfation 44
Trang 53.2 Xác nhận chéo các đặc điểm cho các axit amin và các vị trí Sulfation .46
3.3 Đánh giá các mô hình dự đoán Sulfation dựa trên bộ dữ liệu độc lập 47
KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO 49
Kết luận 49
Hướng nghiên cứu tiếp theo 49
TÀI LIỆU THAM KHẢO 50
Trang 6DANH MỤC BẢNG BIỂU
Bảng 1 Thống kê dữ liệu của Sulfation được xác minh bằng thực nghiệm trongtập dữ liệu đào tạo 27Bảng 2 Kết quả xác thực chéo năm lần trên mô hình SVM được đào tạo với cáctính năng khác nhau Tổng số 483 chuỗi đã được áp dụng trong dữ liệu dương
và âm tương ứng 705 và 6490 sau khi loại bỏ các chuỗi tương tự (Sn - độ nhạy;
Sp - độ đặc hiệu; Acc - chính xác; MCC - Matthews Correlation Coffic) 47Bảng 3 Kết quả thử nghiệm độc lập chi tiết giữa các phương pháp của chúngtôi 48
Trang 7DANH MỤC HÌNH ẢNH
Hình 1 - Biến đổi sau phiên dịch Protein (PTMs) là cơ chế quan trọng để tăng
sự đa dạng của hệ protein 3
Hình 2 - Sự phát triển số lượng cấu trúc của protein từ 1972-2006 4
Hình 3 - Quá trình chuyển từ amino acid thành protein 6
Hình 4 - Các mức độ tổ chức của phân tử Protein: cấu trúc bậc 1,2,3, và 4 12
Hình 5 - Minh họa cấu trúc 3D của protein 12
Hình 6 - Sơ đồ phản ứng cho quá trình sunfat hóa xúc tác TPST của dư lượng tyrosine Một nhóm sulfate trong chất nền PAPS (3′-phosphoadenosine 5′-phosphosulfate) được chuyển đến oxy phenolic của dư lượng tyrosine cơ chất để tạo thành dư lượng sản phẩm sulfotyrosine và PAP (3′-phosphoadenosine 5′-phosphate) 17
Hình 7 - Cấu trúc của Sulfation Tyrosine 19
Hình 8 - Thiết bị sắc ký FPLC dùng trong tinh chế protein 20
Hình 9 - Protein bên trong các ngăn tế bào khác nhau và ở các cấu trúc mà được đánh dấu bằng protein huỳnh quang xanh (ở đây có màu trắng) Thứ tự từ trên, từ trái sang phải: Nhân tế bào (nucleus), hạt nhân tế bào (nucleolus), vỏ nhân tế bào (nuclear envelope), lưới nội chất (ER), bộ máy Golgi, thực bào (lyosomes), màng sinh chất (plasma membrane), tế bào chất (cytoplasm), trung thể (centrosome), ty thể (mitochondria), vi ống (microtubule), actin 22
Hình 10 - Các axit amin có thể được phân tích để dự đoán cấu trúc bậc 2, bậc 3 và cấu trúc protein bậc 4, trong trường hợp này hemoglobin chứa các nhóm heme 24
Hình 11 – Bảng mã chuyển đổi mã nhị phân 29
Hình 12 – Bảng mã chuyển đổi theo Blosum62 30
Hình 13 – Bảng mã chuyển đổi theo PSSM 34
Hình 14 Các tính năng lai bằng cách kết hợp hai và nhiều tính năng đơn lẻ 35
Hình 15 Nguyên tắc của SVM 39
Hình 16 Mô hình đánh giá chéo (cross-validation) 40
Trang 8Hình 17 Lưu đồ phân tích bao gồm thu thập và tiền xử lý dữ liệu, trích xuất và
mã hóa, mô hình 41Hình 18 Các giá trị TP, FP, FN, TN của tập dữ liệu 42Hình 19 Ảnh hưởng của hai mươi axit amin xung quanh các vị trí Sulfat A- Sosánh thành phần axit amin giữa các vị trí Sulfation (màu xanh) và vị trí khôngSulfation (màu đỏ) Thành phần axit amin đặc trưng của BITHP vị trí của bộ dữliệu đào tạo Sulfation 45Hình 20 TwoSampleLogo trình bày các thành phần cấu tạo của axit amin xungquanh các vị trí Sulfation so với các vị trí không Sulfation 46Hình 21 So sánh hiệu suất thử nghiệm độc lập giữa 20D Binary, AAC,Blosum62 và PSSM Sn - độ nhạy; Sp-đặc thù; Acc - chính xác; MCC - Hệ sốtương quan Matthews 48
Trang 9DANH MỤC CÁC CHỮ VIẾT TẮT
Trang 10THÔNG TIN KẾT QUẢ NGHIÊN CỨU
1 Thông tin chung:
Tên đề tài: Dự đoán protein Tyrosine Sulfation dựa vào các phân tích trên Amino acid
Mã số: T2018-06-89
Chủ nhiệm: ThS Phạm Thị Thảo Khương
Thành viên tham gia: ThS Bùi Văn Minh
Cơ quan chủ trì: Trường ĐH Sư Phạm Kỹ Thuật
Thời gian thực hiện: 05/2018-04/2019
2 Mục tiêu:
Nghiên cứu mô hình dự đoán vị trí Tyrosine sulfation
Đánh giá, so sánh giữa các đặc tính của amino acid trong việc xác địnhprotein
Nghiêncứu các giải thuật LibSVM trong xử lý dữ liệu lớn
4 Tóm tắt kết quả nghiên cứu:
Tìm kiếm các tài liệu liên quan về các phương pháp xác định, dự đoánprotein
Trang 11 Thu thập, phân tích các dữ liệu từ các nguồn báo tin cậy về protein(UniprotKD, …)
Đánh giá các mô hình áp dụng hiện tại
Nghiên cứu giải thuật LIBSVM
Báo cáo, bảng phân tích kết quả đạt được
6 Hiệu quả, phương thức chuyển giao kết quả nghiên cứu và khả năng áp dụng:
Chương trình mới được công bố có tính hiệu quả cao, bền vững và có tínhứng dụng cao
Kết quả kiểm tra đánh giá mô hình chứng minh được tính ổn định củachương trình áp dụng
Kết quả đạt được dùng làm cơ sở cho các nghiên cứu khác có liên quan
7 Hình ảnh, sơ đồ minh họa chính
Trang 14INFORMATION ON RESEARCH RESULTS
1 General information:
Project title: THE PREDICTION OF TYROSINE SULFATION SITE IN
PROTOEIN BY ANALYZING AMINO ACID COMPOSITION
Code number:T2018-06-89
Coordinator: Pham Thi Thao Khuong
Implementing institution: University of Technology and Education, DanangUniverisity
Duration: from 5/ 2018 to 4/ 20179
2 Objective(s):
Study of Protein Tyrosine Sulfation in Amino acid
The research focus on develop a bioinformatics method for investigatingSulfation site based on AA composition
The work was built the training model from 483 experimentally verifiedSulfation proteins by an inquiry in four features including 20D Binarycode, AAC , Blosum62 , and PSSM
Evaluation by 5-fold cross validation indicated that the selected featureswere effective in the identification of Sulfation sites
3 Creativeness and innovativeness:
In the program is published, the computational approaches were effectivelyand accurately adopted to identify the sulfationsites by analyzing amino acidcompositions
Based on the In silico characterization of protein, some sequential andstructural features including 20D binary code, amino acid composition (AAC),position specific scoring matrix (PSSM), and BLOSUM62 were applied todiscriminate between the Sulfation sites and non-Sulfation sites
A new measurement method is applied to calculate and simulate sometypical parameters of Protein Tyrosine Sulfation
Trang 154 Research results:
A survey used to detect important sequential and structural features ofProtein Tyrosine Sulfation was announced
The stability of the method is demonstrated
Simulation’s results by using program design is given shown theeffectiveness and accuracy of the program
5 Products:
Article published in the journal the University of Da Nang 2018
Simulation program
Report
6 Effects, transfer alternatives of research results and applicability:
The program was announced to have high efficiency, sustainability andhigh application properties
Test results prove model stability of detecting Protein Tyrosine Sulfation
Evaluation by 5-fold cross validation indicated that the selected featureswere effective in the identification of Sulfation sites
Trang 16MỞ ĐẦU
TÍNH CẤP THIẾT CỦA ĐỀ TÀI
Protein Tyrosine sulfation là một loại protein được biến đổi xảy ra sauquá trình dịch mã, một nhóm sulfate được thêm vào tại amino acid tyrosine củamột phân tử protein Nhiều Protein mới được biết đến hay các thành phần ngoài
tế bào đi qua bộ máy Golgi đều có liên quan tới loại protein này Sulfation lầnđầu tiên được phát hiện bởi Bettelheim trong fibrinopeptide B ở bò năm 1954
và sau đó được tìm thấy ở động vật và thực vật nhưng không có trong sinh vậtnhân sơ hoặc trong men
Sulfat đóng một vai trò trong việc tăng cường sự tương tác giữa protein Các loại protein của con người được biết đều trải qua sulfua tyrosinebao gồm các phân tử kết dính, các thụ thể kết hợp protein G, các yếu tố đôngmáu, các chất ức chế protease serine, các protein matrix ngoại bào và các hooc-môn Tyrosine O-sulfate là một phân tử ổn định và được bài tiết qua nước tiểutrên động vật
Bằng cách loại bỏ gen của TPST ở chuột, có thể nhận thấy rằng sulfuatyrosine có ảnh hưởng đến sự tăng trưởng của chuột, chẳng hạn như trọnglượng cơ thể, sự dồi dào, và khả năng sống sau sinh
Do đó, nghiên cứu xác định vị trí loại protein tyrosine sulfation đóng 1 vaitrò quan trong trong việc hỗ trợ nhiều nghiên cứu chuyên sâu, khám phá các đặctính của loại protein này Áp dụng các giải thuật nâng cao, đưa ra mô hình gópphần giảm chi phí, thời gian trong việc dự đoán loại protein này Do đó, tác giả
đã chọn đề tài:” Dự đoán protein Tyrosine Sulfation dựa vào các phân tích trên Amino acid.”
MỤC TIÊU ĐỀ TÀI
Nghiên cứu mô hình dự đoán vị trí Tyrosine sulfation
Đánh giá, so sánh giữa các đặc tính của amino acid trong việc xác định protein
Nghiên cứu các giải thuật LibSVM trong xử lý dữ liệu lớn
Trang 17ĐỐI TƯỢNG, PHẠM VI NGHIÊN CỨU
Đối tượng nghiên cứu: Đề tài tập trung nghiên cứu xác định Tyrosine sulfation
dựa trên các đặc tính của amino acid
Phạm vi nghiên cứu: Nghiên cứu thuật toán LibSVM, các đặc tính liên quan của
amino acid (AAC, AAPC, Blosum62…) trong việc xây dựng mô hình dự đoán
CÁCH TIẾP CẬN, PHƯƠNG PHÁP NGHIÊN CỨU
Đánh giá các mô hình áp dựng hiện này
Phương pháp nghiên cứu
Nghiên cứu giải thuật LIBSVM
Thu thập, tổng hợp xử lý dữ liệu
Đánh giá, so sánh kết quả đạt được
NỘI DUNG NGHIÊN CỨU
Chương 1: Lý thuyết
Chương 2: Phương pháp
Chương 3: Kết quả nghiên cứu
Trang 18CHƯƠNG 1
LÝ THUYẾT
1.1 Tổng quan về biến đổi sau phiên dịch Post-Translational Modifications (PTMs)
Biến đổi sau phiên dịch Protein (PTMs) tăng sự đa dạng chức năng của
hệ protein bằng việc bổ sung kết cộng hóa trị của các nhóm chức năng hoặcprotein, sự phân tách phân giải protein của tiểu đơn vị quy định, hoặc suy thoáicủa toàn bộ protein Những thay đổi bao gồm phosphoryl, glycosyl hóa,ubiquitination, nitrosylation, methyl hóa, acetyl hóa, lipidation và phân giảiprotein Chính vì vậy nó ảnh hưởng gần như tất cả các khía cạnh của sinh học tếbào bình thường cũng như bệnh Do đó, việc xác định và hiểu PTMs là rất quantrọng trong việc nghiên cứu sinh học tế bào và điều trị bệnh và phòng ngừa
Hình 1 - Biến đổi sau phiên dịch Protein (PTMs) là cơ chế quan trọng để tăng sự đa
dạng của hệ protein
Trong vài thập kỷ qua, các nhà khoa học đã phát hiện ra rằng hệ proteincủa con người là bao la phức tạp hơn bộ gen của con người Trong khi người taước tính rằng bộ gen con người từ 20.000 đến 25.000 gene, nhưng tổng sốprotein trong hệ protein con người ước đạt hơn 1 triệu Những ước tính này
Trang 19chứng minh rằng gene đơn mã hóa nhiều protein, tái tổ hợp di truyền, khởi đầu
và chấm dứt phiên mã Ngoài ra nó cũng tham gia cơ chế tạo ra bảng điểmmRNA khác nhau từ một gen duy nhất
Sự gia tăng về độ phức tạp ngày càng cao khi bộ gene cho phép proteinthay đổi hậu dịch mã (PTMs) PTMs là thay đổi hóa học đóng một vai trò quantrọng trong chức năng của hệ protein vì họ điều tiết hoạt động, nội địa hóa, vàtương tác với các phân tử di động khác như với protein khác, axit nucleic, lipid
và các đồng yếu tố
Hình 2 - Sự phát triển số lượng cấu trúc của protein từ 1972-2006
Protein (còn gọi là chất đạm) là những phân tử sinh học, hay đại phân
tử, chứa một hoặc nhiều mạch dài của các nhóm axit amin Protein thực hiện rấtnhiều chức năng bên trong sinh vật, bao gồm các phản ứng trao đổi chất xúctác, sao chép DNA, đáp ứng lại kích thích, và vận chuyển phân tử từ một vị tríđến vị trí khác Các protein khác nhau chủ yếu ở trình tự của các axit amintrong cấu tạo của chúng, mà trình tự này bị chi phối bởi trình tự nucleotide của
Trang 20các gen quy định tương ứng, và ở kết quả của giai đoạn gập protein (proteinfolding) thành những cấu trúc 3 chiều xác định lên chức năng của nó
Một mạch thẳng các nhóm axit amin liên kết với nhau gọi là chuỗipolypeptide Protein chứa ít nhất một chuỗi dài polypeptide Các polypeptidengắn, chứa ít hơn 20-30 nhóm amin, hiếm khi được coi như là protein vàthường được gọi là peptit, hoặc thỉnh thoảng là oligopeptide Từng nhóm axitamin được liên kết với nhau bởi liên kết peptit Trình tự của axit amin trongmột protein được xác định bằng trình tự của một gene, mà được mã hóa thànhthông tin mã di truyền Trong tự nhiên, nói chung có 20 axit amin sinh protein;tuy nhiên trong một số sinh vật nhất định mã di truyền của chúng có thể baogồm selenocysteine và trong một số archaea là pyrrolysine Ngay sau khi tổnghợp hoặc thậm chí trong quá trình tổng hợp, các nhóm amin trong một proteinthường bị thay đổi tính chất hóa học bởi giai đoạn sửa đổi sau dịch mã (post-translational modification), làm biến đổi tính chất hóa học và vật lý, sự gậpxoắn, tính ổn định, hoạt động và cuối cùng là chức năng của protein Một sốprotein còn có nhóm phi-peptide gắn thêm vào, mà được gọi là nhóm ngoại lai(prosthetic group) hay đồng yếu tố (cofactor) Protein cũng làm việc với nhau
để có được một chức năng chuyên biệt, và chúng thường phối hợp để tạo thànhdạng phức hệ protein ổn định
Sau khi sản sinh ra, các protein chỉ tồn tại trong thời gian nhất định vàsau đó thoái hóa và được tái sinh bởi bộ máy của tế bào thông qua quá trìnhluân chuyển protein (protein turnover) Vòng đời của một protein được đo bằngnửa thời gian sống và nằm trong một miền rộng các giá trị Chúng có thể chỉtồn tại vài phút hay hàng năm với thời gian sống trung bình khoảng 1–2 ngàytrong tế bào động vật Các protein không bình thường hoặc gập xoắn bị lỗithường thoái hóa nhanh hơn hoặc do bởi bị đánh dấu để phá hủy hoặc trở lênkhông ổn định
Giống như những đại phân tử sinh học khác như polysaccharide và axitnucleic, protein là thành phần thiết yếu của cơ thể sinh vật và tham gia vào mọi
Trang 21quá trình bên trong tế bào Nhiều protein là những enzyme làm chất xúc tác chocác phản ứng hóa sinh và cần thiết cho trao đổi chất Protein cũng có chức nănglàm cấu trúc hoặc vận động, như actin và myosin ở cơ và protein trong bộkhung tế bào, tạo nên hệ thống các khung đỡ giúp duy trì hình dáng nhất địnhcủa tế bào Các protein khác tham gia vào tín hiệu tế bào, đáp ứng miễn dịch,kết dính tế bào, và chu kỳ tế bào Ở động vật, protein cần thiết phải có trongbữa ăn để cung cấp các axit amin thiết yếu mà không thể tổng hợp Quá trìnhtiêu hóa làm gãy các protein để sử dụng trong trao đổi chất
Protein có thể được sàng lọc từ các thành phần khác của tế bào sử dụngnhiều kỹ thuật khác nhau như kỹ thuật siêu ly tâm (ultracentrifugation), kết tủa,điện di, và sắc ký; sự phát triển của kỹ thuật di truyền đã đem lại một sốphương pháp để sàng lọc protein Các phương pháp thường gặp để nghiên cứucấu trúc và chức năng của protein bao gồm kỹ thuật hóa mô miễn dịch(immunohistochemistry), gây đột biến định hướng điểm (site-directedmutagenesis), tinh thể học tia X, cộng hưởng từ hạt nhân và khối phổ kế
1.2 Cấu trúc của Protein
Hình 3 - Quá trình chuyển từ amino acid thành protein
Axit amin (bắt nguồn từ danh xưng Pháp ngữ acide aminé), còn được viết làa-xít a-min,[1] là những hợp chất hữu cơ sinh học quan trọng chứa nhóm chứcamin (-NH2) và axit cacboxylic (-COOH), cùng với một nhóm thế (hay còn gọi
Trang 22mạch bên, side-chain) (nhóm R) nhất định ở mỗi axit amin Các nguyên tốchính của axit amin là cacbon, hiđrô, ôxy, và nitơ, và một số nguyên tố khác cómặt trong nhóm thế của từng axit amin Tồn tại khoảng 500 axit amin đã đượcbiết đến và phân loại theo nhiều cách khác nhau Chúng có thể được phân loạituân theo vị trí của nhóm chức trong cấu trúc chính như alpha- (α-), beta- (β-),gamma- (γ-) hoặc delta- (δ-) axit amin; các phân loại khác liên quan đến mức
độ phân cực, độ pH, và kiểu nhóm thế (hợp chất không vòng, hợp chất acyclic,tính thơm, chứa hydroxyl hoặc lưu huỳnh, vv.) Trong phân tử protein, axitamin chiếm số lượng nhiều thứ hai (nước là nhiều nhất) ở cơ, tế bào và mô Bênngoài protein, axit amin amino có vai trò quan trọng trong các quá trình nhưvận chuyển chất dẫn truyền thần kinh và sinh tổng hợp
Trang 23Amino acid là đơn vị cấu trúc cơ bản của protein Chúng tạo thành các xíchpolymer ngắn gọi là peptide hay polypeptides để rồi tạo thành cấu trúc gọi làprotein Quá trình tạo thành từ mARN làm mẫu gọi là dịch mã, là một phần củatổng hợp protein.
Phenylalanine là một trong amino acid chuẩn
Trang 24Có 20 loại amino acid được mã hóa bởi mã di truyền chuẩn và được gọi làproteinogenic hay amino acid chuẩn Việc kết hợp các amino acid này tạo raprotein thiết yếu cho việc cấu thành cơ thể người Có ít nhất hai loại khác được
mã hóa bởi DNA theo một cách khác (không chuẩn):
Selenocysteine kết hợp với một vài protein ở UGA codon, thường gọi làstop codon
Pyrrolysine được sử dụng bởi một vài methanogen trong các enzyme màđược dùng để sản xuất ra methane Nó được mã hóa giống với củaselenocysteine nhưng mà bằng codon UAG
Các loại amino acid khác chứa trong protein thường được tạo thành bởibằng cách chỉnh sửa sau khi dịch mã Việc chỉnh sửa này thường rất cần thiếtcho chức năng của protein
Trong proline chỉ có proteinogenic amino acid là có các nhóm cyclizes nằmtrên khung xương: nó liên kết với nhóm α-amino, vì thế cũng chỉ cóproteinogenic amino acid là có chứa amin thứ cấp ở vị trí này Đôi khi prolinecòn được gọi là imino acid, nhưng mà acid này không tuân theo các quy tắcnomenclature
Có hơn 100 amino acid đã được tìm thấy trong tự nhiên Một trong số chúng
đã được tìm thấy trong các thiên thạch, đặc biệt trong các dạng được biết nhiềunhư carbonaceous chondrite Vi sinh vật và thực vật có thể sản xuất ra cácamino acid bất thường mà thường được tìm thấy trong các peptide kháng thể (ví
dụ như nisin hoặc alamethicin) Lanthionine là một alanine dimer có cầu nốisulfide, thường được tìm thấy chung với các unsaturated amino acid tronglantibiotics (là các peptide kháng thể của microbial origin) 1-Aminocyclopropane-1-carboxylic acid (ACC) là một disubstituted cyclic aminoacid nhỏ và là một chất trung gian quan trọng trong việc tạo ra các hormoneethylene thực vật
Trang 25Ngoài việc tổng hợp protein, các amino acid còn có các vai trò sinh họcquan trọng khác Glycine và glutamate là các chất truyền dẫn thần kinh cũngnhư các amino acid chuẩn mực khác trong các protein Nhiều amino acid đượcdùng để tổng hợp các phân tử khác, ví dụ như:
tryptophan là tiền chất của chất truyền thần kinh serotonin
glycine là một trong số các chất phản ứng trong quá trình tổng hợpporphyrins như heme
arginine được dùng để tổng hợp hormone nitric oxit
Phần lớn các amino acid không chuẩn mực cũng có một số chức năng sinhhọc quan trọng: Gamma-aminobutyric acid là một chất truyền thần kinh khácnữa, carnitine được sử dụng trong việc chuyển lipid vào bên trong cell,ornithine, citrulline, homocysteine, hydroxyproline, hydroxylysine, vàsarcosine
Một vài trong số 20 amino acid tiêu chuẩn được gọi là các amino acid thiếtyếu do chúng không thể được tổng hợp bởi cơ thể từ các hợp chất khác thôngqua các phản ứng hóa học, mà nằm trong gỗ Ở người, các amino acid thiết yếu
là lysine, leucine, isoleucine, methionine, phenylalanine, threonine, tryptophan,valine Histidine và arginine nói chung được xem như là cần thiết ở trẻ con, do
ở cơ thể trẻ con không có khả năng tổng hợp ra chúng
Hầu hết các protein uốn gấp thành một cấu trúc ba chiều duy nhất Hìnhdạng mà một protein uốn gấp một cách tự nhiên được gọi là hình dạng nguyênsinh (native conformation) Mặc dù nhiều protein có thể uốn gấp mà không cần
hỗ trợ, chỉ đơn giản dựa trên các đặc tính hóa học của các axit amino thànhphần, những protein khác đòi hỏi sự hỗ trợ của phân tử chaperone để uốn gấpthành hình dạng nguyên sinh của chúng Các nhà hóa sinh phân ra bốn cấp đốivới cấu trúc của protein:
Trang 26 Cấu trúc sơ cấp hay cấu trúc bậc 1: Là trình tự sắp xếp các gốc axit
amino trong chuỗi polypeptide Cấu trúc này được giữ vững nhờ liên kếtpeptide (liên kết cộng hóa trị) Một protein là polyamide (poliamit)
Cấu trúc bậc 2: Là tương tác không gian giữa các gốc axit amino ở gần
nhau trong chuỗi polypeptide Cấu trúc được bền vững chủ yếu nhờ liênkết hiđrô hình thành giữa các liên kết peptide ở kề gần nhau, cách nhaunhững khoảng xác định Cấu trúc bậc 2 của phân tử protein là xoắn α (α-helix), phiến gấp nếp β (β-sheet) và các vùng chuyển hướng Bởi vì cấutrúc bậc 2 mang tính cục bộ, nhiều vùng với các cấu trúc bậc 2 khácnhau có thể tồn tại trong cùng một phân tử protein
Cấu trúc bậc 3: hình dạng tổng thể của một phân tử protein đơn nhất;
hay mối quan hệ không gian giữa các cấu trúc bậc 2 với nhau Nói chungcấu trúc bậc 3 được giữ ổn định bởi các tương tác phi cục bộ, phần lớnbởi sự hình thành một lõi kị nước (hydrophobic core), và ngoài ra giữbởi các cầu muối (salt bridge), liên kết hiđrô, liên kết disulfide, và thậmchí là các chỉnh sửa sau dịch mã (post-translational modification) Thuậtngữ "cấu trúc bậc 3" thường được sử dụng mang nội dung đồng nghĩa
với thuật ngữ uốn gấp Cấu trúc bậc 3 kiểm soát chức năng cơ bản của
Trang 27Hình 4 - Các mức độ tổ chức của phân tử Protein: cấu trúc bậc 1,2,3, và 4
Hình 5 - Minh họa cấu trúc 3D của protein
Trang 28Protein không phải là một phân tử đặc chắc hoàn toàn Không chỉ cốđịnh ở một bậc cấu trúc nhất định, protein có thể chuyển sang một vài cấu trúcliên quan khi chúng thực hiện các chức năng sinh học Trong trường hợp củanhững sự sắp xếp các chức năng này, các cấu trúc bậc 3 và bậc 4 thường được
gọi là "hình dạng", và sự chuyển tiếp giữa chúng gọi là sự thay đổi hình dạng.
Những thay đổi này thường do liên kết của một phân tử cơ chất (substratemolecule) với một vị trí hoạt động của một enzyme, những vùng của proteintham gia vào xúc tác hóa học Các protein trong dung dịch hòa tan cũng trải quanhững biến đổi về cấu trúc tác động bởi các rung động nhiệt và sự va chạm vớicác phân tử khác
Toàn bộ protein hoặc những đoạn protein được phân loại thành bốn lớpchính, mà tương quan với cấu trúc bậc 4 của nó: protein dạng cầu (globularprotein), protein dạng sợi (fibrous protein), protein màng tích hợp (integralmembrane protein) và protein mất trật tự nội tại (intrinsically disorderedprotein) Phần lớn toàn bộ protein dạng cầu có thể hòa tan được và đa phần làcác enzyme Protein dạng sợi thường có vai trò cấu trúc, như collagen, thànhphần chính của các mô liên kết, hay keratin, thành phần protein của tóc vàmóng chân tay Protein dạng màng thường phục vụ như là những thụ thể hoặclàm kênh dẫn cho các phân tử mang điện tích hay phân cực vượt qua màng tếbào Protein mất trật tự nội tại khác biệt cơ bản về tính trật tự về cấu hình hìnhdạng với ba loại trên Nhiều protein có hình dạng xác định rõ ràng khi ở dạngnguyên thể (native), nhưng protein mất trật tự nội tại thì không, chuỗipolypeptide của chúng rất linh động và không có một hình dáng nhất định Tínhchất này cho phép protein mất trật tự nội tại có thể tương tác với nhiều proteinđối tác hoặc gập thành những hình dáng nhất định chỉ khi nó liên kết với nhữngđối tác này Protein mất trật tư nội tại thường là các phân tử truyền tín hiệu,điều hòa hoạt động cho những phân tử khác, hoặc làm bộ khung cho các proteinkhác bám vào
Trang 29Một trường hợp đặc biệt của liên kết hiđrô liên phân tử bên trong protein,chỉ che chắn yếu ớt từ ảnh hưởng của nước và do vậy tự chúng dễ bị khử nước,được gọi là dehydron
• Xác định cấu trúc
Khám phá ra cấu trúc bậc ba của protein, hay cấu trúc bậc bốn của phức hợpprotein, mang lại những chứng cứ quan trọng về chức năng của protein Cácphương pháp thực nghiệm phổ biến xác định cấu bao gồm tinh thể học tia X và
kỹ thuật phổ NMR, cả hai đều cho thông tin ở mức phân giải cấp nguyên tử.Tuy nhiên, kỹ thuật NMR có thể cung cấp thông tin ước lượng về khoảng cáchgiữa từng cặp nguyên tử, và hình dạng khả dĩ cuối cùng đối với protein đượcxác định thông qua giải bài toán hình học khoảng cách Kỹ thuật giao thoa phâncực hai sóng dẫn (Dual polarisation interferometry) là một phương pháp giảitích định lượng cho phép đo hình dạng tổng thể của protein và những thay đổihình dạng do tương tác giữa các nguyên tử hoặc bởi các tác động khác Lưỡnghướng sắc phân cực tròn (circular dichroism) là một kỹ thuật trong phòng thínghiệm giúp xác định các thành phần cấu trúc bậc hai dải β / xoắn α củaprotein Kính hiển vi điện tử truyền qua quan sát mẫu lạnh (cryoelectronmicroscopy) được sử dụng để thu được thông tin về cấu trúc có độ phân giảithấp hơn của các phức hợp protein rất lớn, bao gồm tổ hợp các virus; một kỹthuật biến thể khác gọi là "xác định cấu trúc tinh thể bằng kính hiển vi điện tửtruyền qua" (electron crystallography) có thể thu được độ phân giải lớn ở một
số trường hợp, đặc biệt đối với những tinh thể hai chiều ở các protein dạngmàng Thông tin về những cấu trúc quan sát được thường lưu trữ ở Ngân hàng
Dữ liệu Protein (Protein Data Bank, PDB), một hệ thống nguồn truy cập tự do
mà dữ liệu cấu trúc của hàng nghìn protein có thể nhận được dưới dạng tọa độDescartes cho từng nguyên tử trong protein
Có thêm nhiều trình tự gen được giải mã hơn so với số lượng protein có cấutrúc được làm rõ Ngoài ra, tập hợp những cấu trúc được quan sát bị chệch khỏihình dạng nguyên sinh của protein do tác động từ những điều kiện quan sát đòi
Trang 30hỏi trong kỹ thuật tinh thể học tia X, một trong những phương pháp chính nhằmxác định cấu trúc protein Đặc biệt, những protein dạng cầu thường dễ dàngchuẩn bị làm mẫu tinh thể hóa trước khi tiến hành kỹ thuật chụp tinh thể học tia
X Ngược lại, các protein dạng màng, lại rất khó để đưa về dạng tinh thể vàchưa có dữ liệu về chúng trong PDB Hướng nghiên cứu "bộ gen mã hóa cấutrúc protein" (structural genomics) được khởi xướng gần đây đã cố gắng giảmbớt những lỗ hổng hiểu biết này bằng cách giải quyết một cách hệ thống chocấu trúc của một số lớp protein thông qua cách chúng uốn gập Phương pháp dựđoán cấu trúc protein có mục đích mang lại một bức tranh sơ bộ về cấu trúc củanhững protein mà chúng chưa được xác định cấu trúc bằng thực nghiệm
• Chức năng tế bào
Protein là diễn viên chính bên trong tế bào, thực hiện các nhiệm vụ xác địnhbởi thông tin mã hóa trong gen.[5] Ngoại trừ đối với một số loại RNA nhất định,hầu hết các phân tử sinh học khác là những phân tử tương đối trơ với tác dụngcủa protein Protein chiếm một nửa trọng lượng khô của tế bào vi khuẩn
Escherichia coli, trong khi những đại phân tử khác như DNA và RNA chỉ
chiếm tương ứng 3% và 20% Tập hợp các protein biểu hiện trong một tế bào
cụ thể hoặc một loại tế bào được gọi là hệ protein (proteome) hay bộ proteinhoàn chỉnh
Đặc trưng chính của protein mà cũng làm lên các chức năng đa dạng đó làkhả năng của chúng liên kết một cách đặc hiệu và chặt với các phân tử khác.Vùng protein có tính năng liên kết với các phân tử khác được gọi là vùng liênkết (binding site) và thường là những khe rãnh (depression) hoặc "túi"("pocket") trên bề mặt phân từ Khả năng liên kết này được thực hiện trung gianthông qua bởi cấu trúc bậc ba của protein, mà xác định vị trí túi liên kết, và bởicác tính chất hóa học của các chuỗi nhánh bên axit amino xung quanh Liên kếtprotein có thể rất đặc hiệu và cực kỳ chặt; ví dụ, protein ức chế ribonuclease(ribonuclease inhibitor protein) liên kết với protein angiogenin ở người vớihằng số phân ly cỡ dưới femto mol (<10−15 M) nhưng không liên kết với protein
Trang 31onconase tương đồng ở động vật lưỡng cư (>1 M) Những sự thay đổi hóa họcrất nhỏ như thêm vào một nhóm methyl ở phân tử liên kết đôi khi đủ làm gầnnhư loại bỏ liên kết với protein; ví dụ, aminoacyl tRNA synthetase đặc hiệu vớiaxit amino valine lại rất phân biệt với isoleucine mặc dù có nhánh axit aminorất tương đồng.
Protein có thể liên kết với các protein khác cũng như với các cơ chất tiểuphân tử (small-molecule substrate) Khi protein liên kết đặc hiệu với những bảnsao khác của cùng phân tử, chúng có thể oligome hóa để tạo thành những sợinhỏ; quá trình này thường xuất hiện ở những protein cấu trúc mà chứa nhữngmonome dạng cầu mà tự tổ chức thành những sợi vững chắc Tương tácprotein–protein cũng điều hòa các hoạt động do enzym, điều khiển xúc tiến toàn
bộ chu kỳ tế bào, và cho phép lắp ghép những phức hợp protein lớn mà chúngthực hiện những phản ứng liên quan mật thiết với nhau với một chức năng sinhhọc chung Protein cũng có thể liên kết với, hay thậm chí tích hợp vào màng tếbào Khả năng liên kết với các đối tác để cảm ứng sự thay đổi hình dáng trongcác protein cho phép xây dựng lên một mạng lưới tín hiệu tế bào rộng lớn vàphức tạp Do tương tác giữa các protein là đảo ngược lại được, và phụ thuộcnhiều vào khả năng của các nhóm protein khác nhau để hình thành lên tổ hợp
có khả năng thực hiện các chức năng riêng rẽ, lĩnh vực nghiên cứu tương tácgiữa các protein đặc hiệu là chìa khóa nhằm hiểu biết những khía cạnh quantrọng của chức năng tế bào, và đi đến những tính chất giúp phân biệt giữa cácloại tế bào đặc biệt
1.3 Tyrosine Sulfation
Tyrosine sulfation là một loại protein biến đổi sau phiên dịch (PTMs)xảy ra trong vật có xương sống và peptide bioactive protochordate CCK,gastrin, cionin, caerulein, leucosulfakinin, và drosulfakinin Nó cũng đã đượcbáo cáo là một trong số thành viên của gia đình protein Granin, ví dụsecretogranin II và chromogranin B, là yếu tố quan trọng trong công thức củaprotein propeptide
Trang 32Tyrosine sulfation là một loại protein biến đổi sau phiên dịch (PTMs) phổ biến
ở nhiều protein Sulfotyrosine lần đầu tiên được báo cáo trong bò fibrinopeptide
B [2] bởi Bettelheim, và sau đó được xác định trong đường tiêu hóa kích thích
tố nữ gastrin và cholecystokinin [3] Nó đã được ước tính rằng 7% protein độngvật có vú được sulfate trên dư lượng tyrosine, mặc dù hậu quả chức năng củanhững sửa đổi hậu dịch mã đã được xác định chỉ trong một vài trường hợp [4].Nhiều thụ thể chemokine được tyrosine sunfat trong vùng N-terminal của chúng[5] Điều này lần đầu tiên được mô tả trong CCR5, một đồng thụ thể cho sựxâm nhập của HIV thông qua việc nhận ra CD4 và rất quan trọng để nhận biếtbởi protein gp120 HIV-1 [6] Sulfation cũng góp phần vào sự liên kết của cácphối tử chemokine, chẳng hạn như CCL3 và CCL4 Sự tương tác giữa các thụthể chemokine khác và các phối tử nguyên sinh hoặc gây bệnh của chúng cũngđược tăng cường bằng cách sunfat [5] Các kháng thể cũng có thể được sunfattrên dư lượng tyrosine, do đó làm tăng tiết mục của bề mặt nhận ra các khángnguyên thông qua cơ chế bắt chước sự biến đổi sau dịch mã của các đồng thụthể [7]
Tyrosine sulfation là một sửa đổi sau dịch mã của protein được tiết ra vàxuyên màng, trong đó một nhóm sulfate được chuyển từ 3′-phosphoadenosine5′-phosphosulfate sang nhóm hydroxyl của dư lượng tyrosine để tạo thành esteO4-sulfate (Hình 2)
Hình 6 - Sơ đồ phản ứng cho quá trình sunfat hóa xúc tác TPST của dư lượng tyrosine Một nhóm sulfate trong chất nền PAPS (3′-phosphoadenosine 5′- phosphosulfate) được chuyển đến oxy phenolic của dư lượng tyrosine cơ chất để tạo thành dư lượng sản phẩm sulfotyrosine và PAP (3′-phosphoadenosine 5′-phosphate).
Trang 33Tyrosine sulfation xảy ra trong bộ máy trans Golgi và được xúc tác bởienzyme tyrosylprotein sulfotransferase (TPST) Động vật có vú sở hữu haiđồng dạng TPST (TPST-1 và TPST-2); TPST cũng đã được tìm thấy ở cácđộng vật có xương sống khác, một số loài động vật không xương sống và thựcvật (Moore, 2003; Komori et al., 2009) Các enzyme TPST là các protein màngđơn, tích hợp với các miền xúc tác được định hướng theo chiều sáng Gần nhưtất cả các TPST được đặc trưng cho đến nay là các enzyme loại I với các vùngđầu C của chúng được định hướng trong lòng, trong khi đó Arabidopsis TPST
là enzyme loại II và có đầu N hướng vào trong lòng (Moore, 2009) Cácenzyme được cho là ưu tiên các mục tiêu protein sulfate sở hữu các phần dưtiếp xúc có chứa Glam / Asp tập hợp xung quanh tyrosine
Tyrosine sulfation là cần thiết ở động vật có vú Chuột thiếu cả hai dạngđồng phân TPST đã làm suy giảm nghiêm trọng tỷ lệ sống sau sinh và cá thểTPST-1 hoặc TPST-2 bị suy giảm nghiêm trọng sự tăng trưởng, chức năng sinhsản và phản ứng miễn dịch [8] Tương tự như vậy, những thay đổi kiểu hìnhnghiêm trọng được quan sát thấy trong phân loại TPST của Arabidopsis (thựcvật) [9] Mặc dù cơ sở phân tử của những thay đổi kiểu hình này vẫn còn đượcxác định, nhưng rõ ràng là sự sunfua tyrosine đóng vai trò quan trọng đối vớisức khỏe và bệnh tật Biểu hiện của cả hai bản sao đồng dạng TPST có thể pháthiện được trong tất cả các loại tế bào động vật có vú và các dòng tế bào đượcthử nghiệm [4] Tuy nhiên, mức độ biểu hiện là đặc hiệu mô và tế bào, có lẽ tạo
ra sự thay đổi trong cấu hình sunfat cho protein mục tiêu có thể có hậu quả chứcnăng quan trọng (Mishiro et al., 2006) Không giống như phosphoryl hóa, chođến nay, không có bằng chứng nào cho quá trình sunfua tyrosine thuận nghịchhoặc động, mặc dù điều hợp lý là tyrosine sulfatase tồn tại hoặc thủy phânsulfate có thể xảy ra một cách tự nhiên, đặc biệt là trong điều kiện pH thấp nhưxảy ra trong nội nhũ