Tổng quan nghiên cứu đa dược lý mạng trong tìm kiếm đích phân tử liên quan đến ung thư

Phân tích một số ví dụ về ứng dụng của nghiên cứu đa dược lý mạng trong xác định các đích phân tử liên quan đến ung thư... Cách tiếp cận đa dược lý mạng giúp xác định các đích phân tử dự

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

KHOA Y DƯỢC

LÝ THỊ DUYÊN

TỔNG QUAN NGHIÊN CỨU ĐA DƯỢC LÝ MẠNG TRONG TÌM KIẾM ĐÍCH PHÂN TỬ

LIÊN QUAN ĐẾN UNG THƯ

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC NGÀNH DƯỢC HỌC

Khóa: QH.2013.Y Người hướng dẫn: TS LÊ THỊ THU HƯỜNG

PGS.TS LÊ ĐỨC HẬU

HÀ NỘI - 2018

Trang 2

LỜI CẢM ƠN

Trước hết tôi xin gửi lời cảm ơn tới những người đã giúp đỡ tôi trong quá trình thực hiện khóa luận này

Tôi xin gửi lời cảm ơn sâu sắc đến TS Lê Thị Thu Hường - Giảng viên

Bộ môn Dược liệu và Dược học cổ truyền, khoa Y Dược, Đại học Quốc Gia Hà

Nội; PGS.TS Lê Đức Hậu - Giảng viên Bộ môn Kỹ thuật máy tính và mạng,

khoa Công Nghệ Thông Tin, Đại học Thủy Lợi đã trực tiếp hướng dẫn, tận tình giúp đỡ, hướng dẫn tôi từ những ngày đầu làm khóa luận, tạo điều kiện thuận lợi để tôi có thể nghiên cứu và hoàn thành khóa luận này Tôi cũng xin gửi lời cảm ơn tới những thầy cô khác trong khoa Y Dược, Đại học Quốc Gia Hà Nội

đã luôn giúp đỡ tôi trong quá trình học tập, giúp tôi có những kiến thức nền quý giá để chuẩn bị sẵn sàng cho việc hoàn thành khóa luận

Tôi xin chân thành cám ơn TS Phạm Thế Hải - Giảng viên bộ môn

Hóa Dược, Đại học Dược Hà Nội đã giúp đỡ tôi rất nhiều trong quá trình tìm kiếm, thu thập tài liệu, tận trình trao đổi nhiều vấn đề có liên quan đến khóa luận

Cuối cùng, tôi xin được tri ân gia đình và bạn bè đã luôn đồng hành bên tôi những lúc khó khăn, bận rộn, luôn là nguồn động lực để tôi làm việc và phấn đấu vươn lên

Xin chân thành cảm ơn!

Hà Nội, tháng 05 năm 2018

Sinh viên

Lý Thị Duyên

Trang 3

RNA Ribonucleic acid

mRNA Ribonucleic acid thông tin

MS Phương pháp khổi phổ

GO Gene Ontology

NP Đa dược lý mạng, Network Pharmacology

PPI Tương tác protein, Protein-Protein Interaction

PPIN Mạng tương tác protein, Protein-Protein Interaction Network Hub Nút có bậc cao trong mạng

DPIN Mạng tương tác thuốc – protein

DDIN Mạng tương tác thuốc – thuốc

EGFR Thụ thể yếu tố tăng trưởng biểu bì

TNBC Ung thư vú bộ ba âm tính

HDAC Histon deacetylase

FGFR1 Thụ thể yếu tố tăng trưởng nguyên bào loại 1

Trang 4

DANH MỤC CÁC BẢNG

Bảng 1: Các cơ sở dữ liệu về PPI 21 Bảng 2: Đặc điểm dữ liệu microarray được sử dụng trong ung thư tuyến tụy 46 Bảng 3: Năm chức năng làm giàu hàng đầu của GO và con đường KEGG cho tổng các DEG 46 Bảng 4: Hai mươi DEG hàng đầu trong PPIN 50

Trang 5

DANH MỤC HÌNH VẼ, ĐỒ THỊ

Hình 1.1: Quá trình nghiên cứu phát triển thuốc 3

Hình 1.2: Các dạng đồ thị Graph 6

Hình 1.3: Ví dụ về hai cách biểu diễn đồ thị theo ma trận kề và theo danh sách kề 7

Hình 1.4: Các dạng của mạng (a) mạng vô hướng, (b) mạng có định hướng, (c) mạng có gắn trọng số 8

Hình 1.5: Mạng tương tác giữa thuốc hóa trị với các đích protein tyrosine kinase 10

Hình 1.6: Mạng tương tác protein-protein của interleukin-10 12

Hình 1.7: Minh họa chiến lược can thiệp hiệu quả trong nghiên cứu thuốc 13

Hình 1.8: Mạng tương tác thuốc-thuốc 15

Hình 2.1: Logo phần mềm Cytoscape - công cụ phân tích và xây dựng hình ảnh trực quan cho PPIN 19

Hình 2.2: Logo Phần mềm Gephi 20

Hình 2.3: Phần mềm lập trình igraph và NetworkX 20

Hình 2.4: Các cơ sở dữ liệu về tương tác protein 21

Hình 2.5: Hệ thống lai đôi nấm men giúp phát hiện tương tác giữa các cặp protein 25

Hình 2.6: Quá trình phân tích phức hợp protein bằng phương pháp khối phổ 26

Hình 2.7: Các cách phân tích topo 27

Hình 2.8: Nút trung tâm đại diện trong một mạng 28

Hình 2.9: Ví dụ về cách tính closeness centrality của nút trong một graph 29

Hình 2.10: Ví dụ về betweenness centrality 30

Hình 2.11: Một số khải niệm trong phân tích cụm 31

Hình 2.12: Phân tích làm giàu chú giải sử dụng GO và Reactome trong mạng 34

Trang 6

Hình 3.1: Các ứng dụng của đa dược lý mạng 37

Hình 3.2: Ứng dụng của đa dược lý mạng trong tìm kiếm thuốc mới 38

Hình 3.3: Mạng PPIN của ung thư vú 40

Hình 3.4: Giá trị hệ số phân cụm của mạng con ung thư vú khi xóa 10 gen có giá trị hub, betweenness và closenness 41

Hình 3.5: Giá trị đường đi ngắn nhất của mạng con ung thư vú khi xóa 10 gen có giá trị hub, betweenness và closenness 41

Hình 3.6: Các giá trị đột biến có ý nghĩa thống kê của gen có betweenness centraility cao nhất 42

Hình 3.7: Mạng lưới liên hệ cơ chế cho các DEG 48

Hình 3.8: Mạng PPI cho các DEG 49

Hình 3.9: Mạng đồng biểu hiện gen cho các DEG 52

Trang 7

MỤC LỤC

LỜI CẢM ƠN

KÝ HIỆU, CHỮ VIẾT TẮT

DANH MỤC CÁC BẢNG

DANH MỤC HÌNH VẼ, ĐỒ THỊ

ĐẶT VẤN ĐỀ 1

CHƯƠNG I: TỔNG QUAN ĐA DƯỢC LÝ MẠNG 3

1.1 Đa dược lý mạng trong nghiên cứu phát triển thuốc 3

1.2 Sơ lược lý` thuyết Graph 6

1.3 Biểu diễn đa dược lý mạng bằng đồ thị Graph 7

1.3.1 Mạng tương tác giữa thuốc với đích phân tử (DPIN) 9

1.3.2 Mạng tương tác protein – protein (PPIN) 11

1.3.3 Mạng tương tác thuốc-thuốc (DDIN) 14

1.4 Đa dược lý mạng trong tìm kiếm đích tác dụng của thuốc chống ung thư 16

CHƯƠNG II: QUY TRÌNH XÂY DỰNG MẠNG TƯƠNG TÁC PROTEIN-PROTEIN (PPIN) 19

2.1 Các công cụ phân tích 19

2.1.1 Cytoscape 19

2.1.2 Gephi 20

2.1.3 Các phần mềm lập trình 20

2.2 Nguồn dữ liệu 21

2.2.1 Các cơ sở dữ liệu tương tác protein (PPI) 21

2.2.2 Các phương pháp thực nghiệm 24

2.3 Phân tích topo của PPIN 27

2.3.1 Phân tích trung tâm 27

Trang 8

2.3.2 Phân tích cụm (Clustering analysis) 31

2.3.3 Phân tích làm giàu chú giải (Annotation enrichment analysis) 33

2.4 Các bước cơ bản xây dựng mạng tương tác PPIN 34

CHƯƠNG III: PHÂN TÍCH MỘT SỐ VÍ DỤ VỀ ỨNG DỤNG CỦA ĐA DƯỢC LÝ MẠNG TRONG NGHIÊN CỨU ĐÍCH PHÂN TỬ LIÊN QUAN ĐẾN UNG THƯ 36

3.1 Ung thư và đích phân tử 36

3.2 Ứng dụng của nghiên cứu đa dược lý mạng trong tìm kiếm đích phân tử liên quan đến ung thư 37

3.3 Phân tích một số ví dụ về ứng dụng của đa dược lý mạng trong nghiên cứu đích phân tử liên quan đến ung thư 38

3.3.1 Ví dụ 1 Xác định gen đích ung thư vú bằng mạng tương tác PPIN 38

3.3.2 Ví dụ 2: Xác định các gen đích điều trị mới và cơ chế trong ung thư tuyến tụy bằng phân tích tổng hợp 43

CHƯƠNG IV: KẾT LUẬN VÀ KIẾN NGHỊ 54

4.1 Kết luận 54

4.2 Kiến nghị 54

TÀI LIỆU THAM KHẢO

Trang 9

ĐẶT VẤN ĐỀ

Ung thư là một trong những căn bệnh nguy hiểm gây tử vong hàng đầu trên thế giới Ước tính mỗi năm có khoảng 14,1 triệu người mới mắc và 8,2 triệu người chết do ung thư Ở Việt Nam, mỗi năm có khoảng 124.000 ca mắc ung thư mới với tỷ lệ tử vong chiếm gần 75% Trong những năm gần đây, khoa học đã có những bước tiến đáng kể trong phòng ngừa và điều trị ung thư [15] Tuy nhiên, ung thư vẫn là một thách thức lớn đối với y học hiện đại Do

đó, nghiên cứu thuốc điều trị ung thư hiệu quả và an toàn được xem là hướng

đi cấp bách hiện nay

Hiện nay, việc sử dụng các phân tử nhỏ có khả năng tác động các đích phân tử là các protein hay gene liên quan đến ung thư là một trong những liệu pháp hoá trị phổ biến nhất Các thuốc này chủ yếu tác động lên một đích phân

tử là protein đóng vai trò quan trọng trong quá trình sinh sản, biệt hóa, và chết theo chu trình của tế bào ung thư Tuy nhiên, các thuốc này gặp phải một vấn

đề lớn là tỷ lệ kháng thuốc cao do các đích phân tử dễ bị đột biến Bên cạnh

đó chúng cũng có thể tác động lên những protein khác của tế bào bình thường (tính không chọn lọc), do đó gây ra nhiều tác dụng không mong muốn, ảnh hưởng tới thể trạng và chất lượng sống của bệnh nhân cũng như làm giảm hiệu quả lâm sàng của thuốc Như vậy, nghiên cứu và phát triển các thuốc điều trị ung thư đang gặp phải hai vấn đề chính Thứ nhất, với việc phát hiện ngày càng nhiều yếu tố bệnh sinh ảnh hưởng đến tình trạng bệnh, những liệu pháp điều trị dựa trên một mục tiêu phân tử duy nhất tỏ ra kém hiệu quả Thứ hai, cần phải hệ thống hóa các tương tác phức tạp của chúng trong các quá trình sinh học của cơ thể Từ đó, chúng ta sẽ xác định được các đích phân tử quan trọng trong quá trình bệnh sinh, cũng như dự đoán được các tác dụng không mong muốn của thuốc

Để giải quyết các vấn đề nêu trên, cách tiếp cận đa dược lý mạng

(network pharmacology, NP) hiện là một công cụ hữu ích giúp tìm kiếm đích

phân tử mới, cũng như tìm hiểu sâu cơ chế tác dụng của thuốc Mạng NP thường có cấu trúc dạng graph, trong đó các protein đóng vai trò là các nút và mối tương quan giữa chúng là các cạnh nối giữa các nút Một ví dụ đó là

Trang 10

mạng tương tác protein – protein (Protein-Protein Interaction Network, PPIN) Tương tác giữa các protein (interactome) ở đây được hiểu là các quá trình hoá sinh học như tổng hợp cấu trúc, truyền tín hiệu (signal

transduction), vận chuyển (transport) hay phosphoryl hoá… Một nút có thể

kết nối với nhiều nút khác (nút có bậc cao >2), protein như thế gọi là một hub Các nút không liên kết gọi là non-hub Trong NP, tầm quan trọng của một protein được xác định thông qua mức độ thay đổi trong cấu trúc NP khi bỏ đi một nút trong mạng Do đó, các protein hub thường được xem là quan trọng hơn trong bảo tồn cấu trúc tổng thể của mạng NP cũng như hoạt động của tế bào Chúng có thể được xem là các đích phân tử tiềm năng trong tìm kiếm các thuốc kháng ung thư mới Ngoài ra, dựa trên tính tương đồng về cấu trúc của các hợp chất hóa học và tương tác của chúng với các protein liên quan đến phản ứng có hại của thuốc, chúng ta có thể dự đoán được tác dụng không mong muốn của hợp chất đó Việc xây dựng mạng NP hiện nay đã không còn quá phức tạp do ngày càng nhiều thông tin về tinh thể nhiễu xạ tia X của các đích mới cũng như thông tin liên quan đến gene (genome) hay protein (proteome) được tìm thấy

Xuất phát từ những vấn đề nêu trên, để có một cái nhìn tổng thể về cách tiếp cận đa dược lý mạng trong xác định đích điều trị ung thư , chúng tôi

đã thực hiện đề tài tổng quan: “Tổng quan nghiên cứu đa dược lý mạng trong tìm kiếm đích phân tử liên quan đến ung thư” với hai mục tiêu sau:

1 Trình bày quy trình chung để xây dựng mạng tương tác protein, mạng tương tác thuốc-đích (protein) và thuốc-thuốc

protein-2 Phân tích một số ví dụ về ứng dụng của nghiên cứu đa dược lý mạng trong xác định các đích phân tử liên quan đến ung thư

Trang 11

CHƯƠNG I: TỔNG QUAN ĐA DƯỢC LÝ MẠNG

1.1 Đa dược lý mạng trong nghiên cứu phát triển thuốc

Quá trình nghiên cứu và phát triển thuốc là một quá trình tốn kém cả về thời gian và tiền bạc Trung bình để ra đời một thuốc mới tiêu tốn 1 tỷ đô la

Mỹ, kéo dài từ 10 đến 15 năm bao gồm nhiều giai đoạn khác nhau [43] Hình

1 mô tả các giai đoạn chung của quá trình nghiên cứu và phát triển thuốc

Hình 1.1: Quá trình nghiên cứu phát triển thuốc

Việc nghiên cứu thuốc mới bắt đầu bằng cách tìm hiểu cơ chế bệnh sinh để nhận biết các “mục tiêu phân tử” hay đích phân tử [36] Đích thường

là một cấu trúc đại phân tử (protein), VD như enzyme, kênh xuyên màng Trong giai đoạn này, đích phân tử được chọn phải chính xác, tức là nó có ảnh hưởng lớn đối với quá trình bệnh sinh

Bước tiếp theo là sàng lọc tìm kiếm hoạt chất tiềm năng có thể ức chế hoặc tăng hoạt động của đích phân tử Hàng loạt các chất trong tự nhiên (chiết xuất từ cây cỏ, động vật ) và nhân tạo (tổng hợp hóa học) được tiến hành thử nghiệm trong phòng nghiên cứu trên các mô hình bệnh tật khác nhau, bao gồm cả thiết kế thuốc trên máy tính [8] Mục đích chính là nhằm tìm ra các hoạt chất có tác dụng tốt nhất, liều lượng thấp nhất và an toàn nhất Thống kê

Trang 12

chỉ ra rằng cứ mỗi 10.000 hợp chất được nghiên cứu sàng lọc thì chỉ có duy nhất 1 chất may mắn trở thành ứng viên thuốc tiềm năng (Hình 1.1)

Các hoạt chất tiềm năng sẽ được tiến hành thử nghiệm tiền lâm sàng trên các mô hình động vật (chuột, chó…) nhằm xác định khả năng điều trị cũng như độ an toàn của hoạt chất trên cơ thể sống, đặc biệt là cơ thể có hệ thống giống con người [13]

Ứng viên thành thuốc tiềm năng (có tác dụng tốt trên động vật) sẽ được tiến hành thử nghiệm lâm sàng (pha I, II và III) [39] Pha I thực hiện trên người tình nguyện khỏe mạnh và giai đoạn II-III trên người bệnh với số lượng người tham gia tăng dần (khoảng 50 người cho pha I đến khoảng vài ngàn người cho pha III), nhằm đánh giá hiệu quả, liều lượng cũng như độ an toàn của thuốc

Đăng ký thuốc và đưa ra thị trường: sau khi có đầy đủ các dữ liệu khoa học, thuốc được đăng ký với cơ quan pháp lý, được bảo hộ độc quyền trong khoảng 10-15 năm, được sản xuất và bán ra thị trường [37]

Trong vòng 60 năm qua, công nghệ khoa học đã và đang phát triển một cách chóng mặt Tuy nhiên, trong lĩnh vực dược học, số lượng thuốc mới ra đời ngày càng giảm đi Cụ thể, từ năm 1950 tới 2008, có 1222 hoạt chất mới

(1103 phân tử hóa học và 119 hoạt chất sinh học) được FDA (Food and Drug

Administration, Cục quản lý thực phẩm và dược phẩm Hoa Kỳ) chấp thuận,

tức chỉ trung bình 21 thuốc mới được ra đời hàng năm [30] Con số này thật đáng lo ngại khi trên thế giới có hàng trăm loại bệnh tật, và nguy hiểm hơn khi những loại bệnh không có thuốc trị ngày càng gia tăng Gần đây, việc xuất

hiện chủng siêu vi khuẩn Escherichia coli kháng colistin, một loại kháng sinh

dự phòng chỉ dành cho vi khuẩn đã kháng những kháng sinh khác, dấy lên một tình trạng báo động trong giới y học [26]

Như vậy, nghiên cứu và phát triển thuốc trước đây chủ yếu dựa trên

kinh nghiệm với cách tiếp cận “thử và lỗi” (trial and error), dẫn đến chi phí

tăng cao và xác suất thành công thấp Có rất nhiều lý do cản trở thành công của quá trình này, ví dụ như đích tác dụng không đúng, không tìm thấy hoặc

Trang 13

tìm thấy hoạt chất không đủ tốt để trở thành thuốc hay các vấn đề liên quan đến độc tính

Trong hơn ba thập kỷ qua, sàng lọc hay thiết kế hợp chất có hoạt tính chọn lọc trên một đích phân tử với mong muốn giảm thiểu tác dụng không mong muốn là hướng đi chủ đạo trong nghiên cứu và phát triển thuốc mới [14] Tuy nhiên, kỷ nguyên hậu genomic đã mở ra một bức tranh vô cùng phức tạp về cơ chế tác dụng của thuốc [25] Công trình của Yildirim và cộng

sự năm 2007 đã chứng minh một cách thuyết phục rằng không chỉ nhiều thuốc có thể gắn với cùng một đích mà trên thực tế một thuốc có thể tác dụng trên nhiều đích [47] Cơ chế tác dụng đa đích là rất phổ biến trên thuốc kháng ung thư, thuốc điều trị bệnh lý thần kinh, kháng sinh và kháng viêm Năm

2014, David Cook và cộng sự, khi tổng kết các số liệu của các dự án nghiên cứu và phát triển thuốc phân tử nhỏ được thực hiện bởi tập đoàn Dược phẩm Astra Zeneca trong khoảng thời gian 5 năm (2005-2010) đã chỉ ra rằng xác

định đúng đích phân tử là yếu tố then chốt đầu tiên (1-Right target), quyết

định thành công của quá trình nghiên cứu và phát triển thuốc mới [9] Nghiên cứu của Yildirim cũng như nhiều tác giả sau này về sinh học phân tử và tin

sinh học cho thấy đa dược lý mạng (pharmacological network, PN) là một

công cụ hữu ích giúp sàng lọc đích mới cũng như tìm hiểu sâu cơ chế tác dụng của thuốc [38, 47]

Cách tiếp cận đa dược lý mạng giúp xác định các đích phân tử dựa trên tổng hợp các tương tác có thể xảy ra giữa các protein tham gia quá trình bệnh sinh (tương tác protein-protein, mạng lưới các tương tác này gọi là mạng

tương tác protein, Protein-protein interaction network, PPIN), các tương tác

có thể có giữa thuốc với các protein trong cơ thể (tương tác thuốc-protein) và

sự tương đồng giữa các cấu trúc hóa học của các thuốc và hợp chất nghiên cứu (tương quan thuốc-thuốc) Cách tiếp cận này giúp người nghiên cứu có một cái nhìn tổng quát về cơ chế bệnh sinh, từ đó xây dựng một chiến lược nghiên cứu và phát triển thuốc hiệu quả nhất Các mối liên hệ nêu trên thường rất phức tạp và chồng chéo, do đó để nghiên cứu đa dược lý mạng đòi hỏi dữ liệu không lồ về công nghệ sinh học, sinh học phân tử và công nghệ thông tin

Các công cụ tính toán, chủ yếu là dùng tin sinh học (bioinformatics) được ứng

dụng nhiều trong khâu xử lý thông tin và xác định đích phân tử

Trang 14

1.2 Sơ lược lý` thuyết Graph

Về mặt hình học, đa dược lý mạng chính là một dạng đồ thị Graph biểu diễn cho các tương tác giữa giữa các protein hay thuốc Trong toán học, Graph được định nghĩa là một đồ thị rời rạc bao gồm các đỉnh và các cạnh nối

các đỉnh này Đồ thị này kí hiệu là G(V,E), gồm hai thành phần:

1 Tập hợp V, bao gồm các đối tượng, được gọi là tập hợp các đỉnh (vertex hay node) của đồ thị

Số lượng các cạnh nối với 1 đỉnh gọi là bậc của đỉnh, thường ký hiệu là

d(a) Các đỉnh trong graph không nhất thiết có bậc như nhau Hình 1.2 biểu

diễn một số đồ thị graph có 5 đỉnh là a, b, c, d và e

Hình 1.2: Các dạng đồ thị Graph

Trong hình 1.2 (1), cạnh (aa) được gọi là cạnh lặp (loop) và hai cạnh giữa cặp đỉnh (b,d) được gọi là hai cạnh song song (parallel edges) Một đồ thị được gọi là một đơn đồ thị (simple graph) nếu nó không có cạnh lặp và

cạnh song song (hình 1.2-(2)) Nếu một đồ thị không phải là đơn đồ thị thì

chúng ta sẽ gọi nó là đa đồ thị (multigraph) Đồ thị G(V,E) có thể là vô hướng

(hình 1.2 (1) và 1.2 (2)) hoặc có hướng (hình 1.2 (3)) (các thuật ngữ khác xem thêm tại [44])

Đồ thị Graph cũng được biểu diễn bằng một ma trận kề (adjacency

matrix) A có kích thước n×n trong đó:

Trang 15

a A

, 0

, 1

) cạnh (ta gọi là đồ thị dầy) Tuy nhiên, nhiều đồ thị (đặc biệt các đồ

thị thực tế như mạng PN) có số lượng cạnh m=O(n) (ta gọi là đồ thị thưa),

cách biểu diễn này khá tốn kém dung lượng bộ nhớ

Để tiết kiệm bộ nhớ, đồ thị Graph cũng có thể được biểu diễn

bằng danh sách kề (adjacency list) Theo đó, với mỗi đỉnh a∈ V, ta lưu trữ

một danh sách các đỉnh kề với nó Như vậy, đỉnh a cần một danh sách có d(a)

phần tử Do đó tổng số phần tử của các danh sách là:

V

a d(a) 2m

Ở đây mỗi cạnh được đếm hai lần trong tổng bậc của hai đỉnh kề với

nó Cách biểu diễn này phù hợp với cả đồ thị thưa Mặc dù tiết kiệm bộ nhớ, cách biểu diễn này không phù hợp với một số thao tác của đồ thị

Ví dụ về hai cách biểu diễn đồ thị cho trong hình dưới đây:

Hình 1.3: Ví dụ về hai cách biểu diễn đồ thị theo ma trận kề và theo danh

sách kề 1.3 Biểu diễn đa dược lý mạng bằng đồ thị Graph

Đa dược lý mạng là hệ thống tích hợp của các mạng nhỏ chứa thông tin

về tương tác giữa thuốc với đích phân tử (Drug-Protein Interaction Network, DPIN), giữa các đích phân tử (Protein-Protein Interaction Network, PPIN) và giữa các thuốc (Drug-Drug Interaction Network, DDIN) với nhau Mạng là

Trang 16

một đồ thị được biểu diễn dưới dạng Graph, gồm các nút và các cạnh nối các nút với nhau biểu diễn cho các tương tác giữa các nút [29]

Các cạnh gồm có cạnh vô hướng, cạnh có hướng và cạnh có gắn trọng số

 Các cạnh vô hướng (Undirected edges): Kiểu này thường gặp trong các mạng lưới tương tác protein–protein (PPIN) Mối quan hệ giữa các nút là sự kết nối đơn giản, không có một hướng đi xác định [22]

 Các cạnh được định hướng (Directed edges): Kiểu này được tìm thấy, ví dụ như là, trong mạng lưới trao đổi chất hoặc chuyển hóa gene Có một hướng đi rõ ràng của các tín hiệu được quy ước sẵn và mạng lưới có thể được tổ chức theo kiểu cấp bậc [22]

 Các cạnh có gắn trọng số (Weighted edges): Các cạnh dù có hướng hay không thì cũng có thể mang giá trị trọng số liên quan tới chúng Điều này được sử dụng để phác họa các ví dụ như khả năng xảy ra một tương tác, khả năng một gene làm thay đổi mức độ biểu hiện của một gene khác hay thậm chí là sự liên quan giữa các trình tự chuỗi giống nhau trên hai gene Các cạnh cũng có thể được định lượng bởi các giá trị trung tâm của chúng hoặc một vài tham số mạng lưới khác [22]

Dựa vào các cạnh ta có thể chia mạng thành ba dạng chính: mạng vô hướng, mạng có hướng và mạng có gắn trọng số [7] Hình 1.4 mô tả các dạng của mạng:

Hình 1.4: Các dạng của mạng (a) mạng vô hướng, (b) mạng có định

hướng, (c) mạng có gắn trọng số

Trang 17

1.3.1 Mạng tương tác giữa thuốc với đích phân tử (DPIN)

Mạng DPIN là một sơ đồ được biểu thị dưới dạng đồ thị Graph, gồm các nút là thuốc hoặc protein và các cạnh là các tương tác qua lại giữa chúng Tương tác protein-thuốc là sự tương tác vật lý giữa phân tử thuốc và protein làm thay đổi cấu dạng hay hoạt tính của protein, từ đó tạo ra tác dụng dược lý của thuốc [46]

Nếu thuốc tác động lên một thụ thể hoặc được chuyển hóa bởi một enzyme thì nó phải gắn với với protein hoặc enzyme thông qua các loại liên

kết vật lý như cộng hóa trị (covalence), tĩnh điện (electrostatics), Van der

Vaals và liên kết hydro Liên kết cộng hóa trị là loại liên kết bền vững hơn các loại liên kết khác Liên kết ion, hay liên kết điện tích, là một liên kết hóa học có bản chất là lực hút tĩnh điện giữa hai ion mang điện tích trái dấu Tương tác này thường xuất hiện khi trong protein có một đồng yếu tố

(cofactor) là ion kim loại Ngoài ra còn một tương tác yếu giữa các nguyên tử

là lực tương tác Van der Vaals, là một loại lực phân tử, sinh ra bởi sự phân cực của các phân tử thành các lưỡng cực điện mà nguyên nhân sâu xa là do sự thăng giáng trong phân bố điện tích giữa các điện tử Tương tác Van der Vaals giữa thuốc với protein thường thông qua tác động giữa 2 nhân thơm (pi-pi), 1 nhân thơm với mạch thẳng (pi-alkyl) hay giữa 2 mạch thẳng với nhau (alkyl-alkyl) Do bản chất của protein là chuỗi các acid amin nên thuốc cũng

có thể tương tác với protein thông qua cầu nối hydro, ví dụ nhóm cho acid yếu (D-H) với chất nhận còn cặp electron tự do như Oxy và Ni tơ [20]

Trong hình 1.5 là một ví dụ về mạng tương tác giữa các thuốc hoá trị với protein liên quan đến ung thư Thuốc đa đích được biểu thị bằng hình lục giác màu cam và tất cả các đích được biểu diễn bằng hình elip màu xanh lam biểu thị sự tương tác của 20 loại thuốc cùng 17 đích của chúng Phân tích

mạng, bậc (degree) được dùng để đánh giá sự tương tác giữa các thuốc và

đích (protein) Bậc của một nút (thuốc hoặc đích) là số cạnh (tương tác từ các nút khác) liên kết với nút này Như trong hình 1.5, bậc tối đa của các thuốc đa đích là 5, và tối thiểu là 2 Đặc biệt, các thuốc đa đích Sorafenib, Suniitinib và Pazopanib tương ứng có bậc là 5, 3 và 3, có ảnh hưởng lớn đến cấu trúc mạng Thuốc có bậc cao nhất là Sorafenib, phản ánh tính đa dạng của nó

Trang 18

trong chỉ định điều trị bệnh (ung thư biểu mô tế bào gan, ung thư biểu mô tế bào thận và ung thư biểu mô tuyến giáp) Bậc tối đa của các đích là 8 và tối

thiểu là 1 Đặc biệt, các đột biến VEGFR2 (Vascular endothelial growth

factor receptor 2, thụ thể yếu tố tăng trưởng của tế bào nội mạch), c-Kit (đột

biến tyrosine-protein kinase hay CD-117 thường gặp trong ung thư mô đệm

dạ dày), PDGFR-b (yếu tố tăng trưởng có nguồn gốc từ tiểu cầu) và EGFR

(Epidermal Growth Factor Receptor, thụ thể yếu tố tăng trưởng biểu bì) được

xem là các mục tiêu của thuốc tác dụng đa đích Các đích có bậc cao (> 5) là

VEGFR2 và c-Kit VEGF (Vascular endothelial growth factor , yếu tố tăng

trưởng tế bào nội mạch) và VEGFR2 là các thụ thể hiện được khai thác rất nhiều trong ung thư biểu mô thận (RCC, renal cell carcinoma) Tương tự

VEGFR2, biểu hiện của c-Kit có liên quan chặt chẽ với quá trình phát sinh và phát triển của ung thư biểu mô thận di căn Có thể nói, phát triển thuốc nhắm các đích VEGFR2 và c-Kit là hướng đi phổ biến nhất hiện nay của các thuốc kháng ung thư có tác dụng đa đích [23]

Hình 1.5: Mạng tương tác giữa thuốc hóa trị với các đích protein tyrosine

kinase

Trang 19

Theo hình 1.5 thì thuốc là các nút hình lục giác màu da cam, và đích được biểu diễn bằng hình elip màu xanh Tương tác thuốc-đích được biểu diễn bằng các cạnh có hình dạng mũi tên là kích hoạt và “T” là ức chế

1.3.2 Mạng tương tác protein – protein (PPIN)

Thông qua đa dược lý mạng, chúng ta có thể xác định các đích phân tử dựa trên tổng hợp các tương tác có thể xảy ra giữa các protein tham gia quá trình bệnh sinh (PPIN) Protein và các tương tác của chúng là trung tâm của hầu hết các quá trình sinh học cơ bản Thông thường, protein ít khi hoạt động độc lập mà chúng thực hiện chức năng thông qua sự tương tác với các đơn vị phân tử sinh học khác trong tế bào Tương tác protein điều chỉnh một loạt các quá trình sinh học, bao gồm kích hoạt / ức chế phiên mã; miễn dịch, nội tiết,

và tín hiệu dược lý cũng như tương tác giữa các tế bào Do đó, việc nghiên cứu các tương tác protein-protein (protein-protein interactions, PPIs) là cần thiết để hiểu được cơ chế phân tử của các quá trình sinh học [49] PPIN là mạng tương tác giữa các protein, thường có cấu trúc dạng graph, trong đó các protein đóng vai trò là các nút và mối tương quan giữa chúng là các cạnh nối

giữa các nút Tương quan giữa các protein (interactome) ở đây được hiểu là các quá trình hoá sinh học như tổng hợp cấu trúc, truyền tín hiệu (signal

transduction), vận chuyển (transport) hay phosphoryl hoá… [45]

Tương tác protein-protein có thể là các tương tác vật lý có độ đặc hiệu cao được tạo ra giữa hai hoặc nhiều phân tử protein Tương tác protein có tính chất ổn định hoặc tạm thời và cả hai loại tương tác có thể mạnh hoặc yếu Tương tác ổn định là những tương tác với các protein tạo thành các phức hợp

đa tiểu đơn vị và các đơn vị con của các phức hợp này có thể giống nhau hoặc khác nhau Hemoglobin và lõi RNA polymerase là ví dụ về các tương tác đa tiểu đơn vị tạo thành các phức hợp ổn định Tương tác tạm thời là tương tác xảy ra nhiều trong các quá trình của tế bào Tương tác là tạm thời trong điều kiện bình thường và thường cần nhiều điều kiện để thúc đẩy sự tương tác, chẳng hạn như phosphoryl hóa, thay đổi cấu hình hoặc hoạt hóa cho các khu vực rời rạc của tế bào Tương tác tạm thời có thể mạnh hoặc yếu và nhanh hoặc chậm Trong quá trình xảy ra tương tác tạm thời, các protein tham gia

Trang 20

một loạt các quá trình sinh hoá của tế bào, bao gồm vận chuyển, truyền tin, sự

chết (apoptosis) tế bào [42]

Hình 1.6 mô tả một ví dụ về mạng tương tác PPIN của Interleukin-10 (một cytokine đa tác động, pleitropic cytokine) Các phân tử cytokine bản chất là protein tan trong nước, chúng có vai trò đặc biệt đối với hệ miễn dịch của cơ thể như tăng sinh, phát triển, biệt hoá và hoá hướng động (chemotaxis) Các interleukin hoạt động thông qua các lộ trình tín hiệu của các thụ thể Toll-like, sinh ra trong các phản ứng viêm cấp tính, được giải phóng và đáp ứng với tình trạng nhiễm khuẩn hay tổn thương tế bào gây ra bởi hệ thống miễn dịch bẩm sinh (VD Macrophage) Do đáp ứng có tính dây chuyền của các interleukins, mạng PPIN đã được xây dựng nhằm tìm hiểu cơ chế cũng như các lộ trình tín hiệu đặc hiệu trong phản ứng gây viêm trên bệnh nhân mắc Crohn (Hình 1.6)

Hình 1.6: Mạng tương tác protein-protein của interleukin-10

Trang 21

Theo hình 1.6, có 49 protein và 70 tương tác trong mạng này và chỉ có

2 tương tác có dữ liệu cấu trúc trong ngân hàng dữ liệu protein PDB (protein data bank) (các cạnh được đánh dấu màu vàng) Có 40 tương tác được bổ sung (các cạnh được đánh dấu bằng màu hồng) bằng cách mô phỏng tương tác vật lý của các protein Như vậy có tổng 42 tương tác được tạo nên bằng cách mô hình hóa giao diện Hai tám cạnh còn lại (trong số 70) không thể mô hình hóa và được biểu diễn bằng màu lục lam [17]

PPIN có nhiều ứng dụng quan trọng như: Dự đoán chức năng của protein, phân tích độc tính, dự đoán tính khả thi của các đích phân tử từ mạng topo Hình 1.7 mô tả một ứng dụng của nó trong nghiên cứu phát triển thuốc

Hình 1.7: Minh họa chiến lược can thiệp hiệu quả trong nghiên cứu thuốc

Theo hình 1.7: (A) Mạng PPIN (tối giản) của các protein tham gia cấu trúc màng tế bào vi khuẩn Các nút màu xanh lá cây là các protein điều hoà hậu giải mã các thành phần cấu tạo nên thành tế bào Các thành phần này (nút màu vàng) sau đó phải tương tác với các protein vận chuyển (nút màu xanh nước biển) để tạo thành phức (nút màu da cam) để sau đó gắn kết với các

Trang 22

protein khác trên thành tế bào (nút màu đỏ) Để hình thành vách tế bào cũng như đảm bảo hoạt động bình thường của tế bào, các mối liên hệ giữa các

protein phải liên tục Mục tiêu của phương pháp chemogenomics (Chemogenomics là việc sàng lọc hệ thống các thư viện hóa học được nhắm

đích của các phân tử nhỏ chống lại các họ là mục tiêu của thuốc (ví dụ, GPCR, các thụ thể nhân, kinase, protease, v.v.) với mục tiêu cuối cùng là xác định các loại thuốc mới và các đích thuốc) ở đây là xác định 5 vị trí trên PPIN cần can thiệp sao cho con đường tổng hợp vách tế bào bị ngắt quãng (B) Nếu xoá đi 5 điểm bất kỳ như trường hợp này không gây được hiệu ứng gì vì vẫn tồn tại con đường liên tục từ xanh lá cây tới đỏ (C) Việc xoá đi 3 nút (hub protein) có bậc cao nhất và 2 nút có vị trí trung gian quan trọng nhất tỏ ra là một chiến lược hợp lý trong trường hợp này Không một tương tác quan trọng nào còn tồn tại và vi khuẩn không thể tổng hợp được vách tế bào Như vậy việc tác động ngẫu nhiên trên đích phân tử không thể ảnh hưởng lên tính toàn vẹn của cấu trúc mạng, do đó không hiệu quả Việc xoá đi các nút đơn hay kể

cả các nút trung gian ở đây cũng không ngăn được sự sản sinh ra các nút đỏ

và hiệu quả cũng sẽ thấp Ngoài cách can thiệp như trường hợp C vẫn tồn tại các giải pháp khác, cũng hiệu quả trong phá vỡ cấu trúc mạng PPIN như xoá

tổ hợp ABJGH, AFJGH, AFJKH… Bài toán đặt ra cho nghiên cứu thuốc mới

là cần xác định đâu là cơ chế tác dụng cần hướng đến trên mạng PPIN và thiết

kế cũng như sàng lọc ra các phân tử hoá học nào có khả năng can thiệp vào những con đường trọng yếu trong chu trình sinh học của tế bào gây bệnh, từ

đó sẽ có hiệu quả tối đa trong điều trị [48]

1.3.3 Mạng tương tác thuốc-thuốc (DDIN)

Tương tác thuốc-thuốc là tương tác xảy ra khi sử dụng đồng thời nhiều loại thuốc khác nhau và làm thay đổi tác dụng của thuốc Tương tác có thể làm tăng hoặc giảm tác dụng của thuốc, thậm chí gây độc hoặc làm mất hiệu lực điều trị Do đó những hiểu biết về tương tác thuốc là rất cần thiết trong thực tế lâm sàng để chủ động phối hợp thuốc nhằm tăng hiệu quả điều trị, hạn chế những tác dụng độc hại do thuốc gây ra Khi phối hợp thuốc có thể chúng làm tăng tác dụng (tác dụng hiệp đồng), hoặc làm giảm tác dụng của nhau (tác dụng đối lập) [40]

Trang 23

Mạng tương tác thuốc-thuốc được biểu diễn bằng đồ thị Graph gồm các nút là các loại thuốc, các cạnh là các tương tác giữa các thuốc Tương tác giữa

các thuốc gồm 2 dạng: tương tác dược lực học (pharmacodynamic

interactions) và tương tác dược động học (pharmacokinetic interactions)

Tương tác dược lực học xảy ra khi hai thuốc cùng tác động lên một receptor,

cùng tổ chức hoặc hệ thống phản hồi (feedback system) Kết quả tương tác có

thể làm tăng tác dụng của nhau (tác dụng hiệp đồng) hoặc làm giảm tác dụng của nhau (tác dụng đối lập) Tương tác dược động học là sự ảnh hưởng đến quá trình hấp thu, phân bố, chuyển hoá hoặc thải trừ của thuốc khi dùng đồng thời với một thuốc khác Vì có sự khác biệt nhiều giữa các cá thể nên khó dự đoán chính xác các loại tương tác [16]

Hình 1.8: Mạng tương tác thuốc-thuốc

Hình 1.8 là một mạng (57 nút) được lấy ra từ một mạng hoàn chỉnh gồm 112 nút Các số được đánh dấu màu đỏ trong mạng đại diện cho 'các nút

hot' (hot spots) của mạng: 1 các thuốc kháng histamine không an thần

(terfenadine hoặc astemizole); 2 cisapride; 3 digoxin; 4 kháng sinh nhóm

Trang 24

macrolid (ví dụ: clarithromycin); 5 Các chất ức chế monoamine oxidase (ví dụ: phenelzine); 6 warfarin; 7 quinolones (ví dụ: sparfloxacin); 8 thuốc kháng nấm azole (ví dụ: ketoconazole) [4]

1.4 Đa dược lý mạng trong tìm kiếm đích tác dụng của thuốc chống ung thư

Nghiên cứu hoạt tính của thuốc thường dựa trên nguyên tắc chìa khóa

và ổ khóa, trong đó thuốc giống như một chìa khóa có chọn lọc phù hợp với một đích cụ thể của nó Trong hai thập kỷ vừa qua, quan điểm thiết kế phối tử

có chọn lọc để tránh các tác dụng không mong muốn đã trở thành mô hình nổi bật trong thiết kế và phát triển thuốc mới Tuy nhiên, sự phát triển vượt bậc

của sinh học hậu genomic (post-genomic biology) đã tiết lộ một bức tranh vô

cùng phức tạp về hoạt động của thuốc trong cơ thể con người Theo đó, nếu xem mỗi thuốc là một chìa khoá và mỗi đích là một ổ khoá thì không chỉ có nhiều chìa khóa cùng mở được một ổ khóa, mà phổ biến hơn lại chính là một chìa khóa có thể mở được rất nhiều ổ khóa [14] Cơ chế tác dụng đa đích là rất phổ biến trên thuốc kháng ung thư, thuốc điều trị bệnh lý thần kinh, kháng sinh và kháng viêm

Về mặt cấu trúc, đa dược lý mạng là một sơ đồ dạng graph tích hợp thông tin tương tác của mạng DPIN, PPIN và DDIN, trong đó thuốc hoặc protein đóng vai trò các nút và mối tương quan giữa chúng là các cạnh nối giữa các nút Tương quan giữa các protein (interactome) ở đây được hiểu là các quá trình hoá sinh học như tổng hợp cấu trúc, truyền tín hiệu (signal transduction), vận chuyển (transport) hay phosphoryl hoá… Một nút có thể kết nối với nhiều nút khác (nút có bậc cao >2), protein như thế gọi là một hub Các nút không liên kết gọi là non-hub Trong PPIN, tầm quan trọng của một protein được xác định thông qua mức độ thay đổi trong cấu trúc PPIN khi bỏ

đi một nút trong mạng Do đó, các protein hub thường được xem là quan trọng hơn trong bảo tồn cấu trúc tổng thể của mạng PPI cũng như hoạt động của tế bào

Trong tế bào khối u, các đích phân tử liên quan đến ung thư thường có

cấu trúc hỗn tạp (promiscuous structure), dẫn đến việc dễ dàng tương tác với

các protein khác Nhiều nghiên cứu đã chỉ ra rằng trong tế bào ác tính số

Trang 25

lượng tương tác giữa các protein có thể tăng lên Năm 2010, Sun và Zhao khi nghiên cứu tương tác của 342 đích ung thư thấy rằng 240 trong số đó (chiếm hơn 70%) là trung tâm của mạng PPIN liên quan đến các bệnh ung thư thường gặp, đồng thời trung bình mỗi protein có thể tương tác với ít nhất

4 protein khác Do đó PPIN cho phép phát hiện đích ung thư cũng như biomarker mới [41]

Trong những năm gần đây, một số nghiên cứu đã được công bố liên quan đến xây dựng mạng PPIN phục vụ cho nghiên cứu thuốc kháng ung thư mới Trong đó tiêu biểu là nghiên cứu của Kar và cộng sự với phân tích cấu trúc các protein ung thư trong mạng ciSPIN (mạng giao diện cấu trúc các protein ung thư) Các tác giả nhận thấy các protein ung thư có thể tiếp xúc với khoảng 56% protein lân cận trong ciSPIN nhờ tính đa diện của chúng (gọi là

nút đa diện, multi-interface hubs) và các nút này chiếm tỷ trọng rất lớn (tới

hơn 76%) trong mạng Đặc biệt, nghiên cứu cũng đi sâu vào một số tiểu mạng (sub-network) liên quan đến hoạt hóa các con đường tín hiệu-dịch chuyển (signal-transduction) và hoạt động xúc tác của một protein kinase (ERBB3:

Erb-B2 Receptor Tyrosine Kinase 3) và giải thích cơ chế ức chế con đường

truyền tín hiệu Erb của pertuzumab (PerjetaTM), một thuốc hiện dùng trong điều trị ung thư vú HER2 dương tính [1]

Một nghiên cứu quan trọng khác là của Joshi và cộng sự về xây dựng

và phân tích mạng PPIN của 11 histon deacetylase (HDAC) trong tế bào T (lymphocyte T) của người Đây là nhóm các enzym xúc tác cho quá trình deacetyl hoá nhóm ε-N acetyl lysine amino acid ở phần đuôi của histon và hiện được xác định là mục tiêu phân tử quan trọng cho nghiên cứu phát triển thuốc điều trị ung thư Lần đầu tiên các tác giả công bố và kiểm chứng hơn

200 tương tác mới giữa các histone deacetylase và các protein khác tham gia các quá trình ubiquitination (cơ chế đánh dấu để phân giải các protein ung thư), điều hòa nhiễm sắc, biểu hiện gene, chế biến RNA thông tin (mRNA

splicing) và điều hòa chu kỳ tế bào Nghiên cứu cũng chỉ ra rằng các histone

deacetylase đều có liên hệ với nhau, trong đó histone deacetylase 1, histone deacetylase 2 và histone deacetylase 11 là ba enzyme có bậc cao nhất trong PPIN của 11 isoform, qua đó mở rộng hiểu biết về cơ chế tác dụng của các

Trang 26

hợp chất ức chế histon deacetylase cũng như là cơ sở cho việc xác định các đích mới hay thiết kế thuốc hợp lý điều trị ung thư theo hướng ức chế enzyme histone deacetylase [24]

Việc xây dựng mạng PPIN hiện nay đã không còn quá phức tạp do ngày càng nhiều thông tin về tinh thể nhiễu xạ tia X của các đích mới cũng

như thông tin liên quan đến gene (genome) hay protein (proteome) được tìm

thấy Nhiều cơ sở dữ liệu (CSDL) về đích tác dụng có thể được sử dụng trong xây dựng mạng PPIN như BindingDB, ChEMBL hay canSAR Một số khác tích hợp thêm thông tin liên quan đến tương tác thuốc-đích phân tử phục vụ

xây dựng mạng tương tác đích phân tử (drug-target network) như Drugbank,

Therapeutic Target Database, SuperTarget hay Mandator Một số cơ sở dữ liệu còn cung cấp thêm thông tin liên quan đến tương tác thuốc-đích phân tử

gây phản ứng có hại của thuốc (drug-off-target interaction) như SIDER,

Chem2Bio2RDF, STITCH hay PROMISCUOUS… Tương tác giữa các

protein cũng có thể được khai thác từ cơ sở dữ liệu GEO (Gene Expression

Omnibus), MIPS, BIND hay PRIDE Các con đường chuyển hóa có thể tìm

thấy từ KEGG hay BIGG [21]

Như vậy, mạng PPIN là một công cụ rất hữu ích trong xác định đích ung thư hiệu quả, nhận biết cơ chế cũng như sàng lọc hợp chất mới kháng ung thư Cách tiếp cận này giúp người nghiên cứu có một cái nhìn tổng quát về cơ chế bệnh sinh, từ đó xây dựng một chiến lược nghiên cứu và phát triển thuốc hiệu quả nhất Với sự phát triển của ngành công nghệ sinh học, sinh học phân

tử và công nghệ thông tin, việc nghiên cứu PPIN là hoàn toàn khả thi và sẽ ngày càng được ứng dụng nhiều hơn trong tương lai

Mạng PPIN có vai trò then chốt trong xác định đích kháng ung thư hiện nay Do đó, trong các phần tiếp theo, chúng tôi sẽ trình bày cụ thể cách xây dựng một mạng PPIN và ứng dụng của nó trong tìm kiếm đích điều trị ung thư mới

Trang 27

CHƯƠNG II: QUY TRÌNH XÂY DỰNG MẠNG TƯƠNG TÁC

PROTEIN-PROTEIN (PPIN)

Trước khi trình bày quy trình xây dựng, chúng tôi sẽ giới thiệu ngắn gọn các phần mềm được sử dụng để xây dựng và phân tích mạng Tiếp theo chúng tôi sẽ nói về các nguồn có thể lấy dữ liệu PPI và thảo luận một số cách phân tích dữ liệu dưới dạng topo của các trung tâm và phương pháp chung để xây dựng mạng

2.1 Các công cụ phân tích

2.1.1 Cytoscape

Hình 2.1: Logo phần mềm Cytoscape - công cụ phân tích và xây dựng

hình ảnh trực quan cho PPIN

Cytoscape (http://www.cytoscape.org/) là phần mềm nguồn mở dựa trên Java, là một công cụ hữu ích để mô ta các mạng tương tác phân tử và tích hợp chúng với bất kỳ loại dữ liệu nào Cytoscape là công cụ có thể phân tích trong nhiều lĩnh vực khác nhau Đối với phân tích mạng PPI có các ứng dụng

cụ thể cho tìm kiếm, (ví dụ MCODE, clusterMaker2, JActiveModules) hoặc

để thực hiện phân tích làm giàu tập hợp gen (Gene Set Enrichment Analysis, BiNGO, ClueGO, EnrichmentMap) Ngoài những tính năng cơ bản như tích hợp dữ liệu, phân tích, và mô tả, cytoscape còn có sẵn các ứng dụng dưới dạng mẫu như phân tích các profile mạng và phân tử, các link liên kết với các

dữ liệu khác Cơ sở dữ liệu bệnh-đích-thuốc này ghi lại các liên kết đã được biết giữa các bệnh Người dùng có thể tìm kiếm cơ sở dữ liệu bằng cách sử dụng các chuỗi tên bệnh, đích hoặc thuốc; cấu trúc hóa học và cấu trúc con; hoặc trình tự protein, và sau đó có được một mạng tổng thể trực tuyến về các

Trang 28

tương tác đã được lưu trữ Trong mạng tổng thể có được, mỗi nút là một bệnh, đích, hoặc thuốc, và mỗi cạnh là một liên kết giữa chúng [28]

2.1.2 Gephi

Gephi (https://gephi.org/) là công cụ xây dựng mạng PPIN không lập trình Gephi có khả năng liên kết hàng trăm nghìn nút và hàng triệu cạnh, mặc

dù quá trình vẽ và xử lý mạng đòi hỏi máy tính có cấu hình mạnh Gephi là

mã nguồn mở, đa nền tảng, và có một loạt các thuật toán liên quan đến mạng nâng cao (thường không được tìm thấy ở bất kỳ phần mềm nào khác) dưới

dạng các plug-in Một bất lợi là thiếu khả năng xử lý thông tin sinh học cụ

thể Nó là một công cụ mạng chung, và được sử dụng để liệt kê, thống kê và trực quan hóa Hình 2.2 là hình ảnh về Gephi :

Hình 2.2: Logo Phần mềm Gephi

2.1.3 Các phần mềm lập trình

Các phương pháp lập trình cho phân tích mạng quy mô lớn gồm các gói (package) như igraph (http://igraph.org/ ) (cho R, Python và C) hoặc NetworkX (http://networkx.github.io/ ) (cho Python) Chúng có thể được thực hiện dễ dàng như một phần của con đường phân tích tin sinh học lớn hơn Hình 2.3 là các phần mềm lập trình igraph và NetworkX:

Hình 2.3: Phần mềm lập trình igraph và NetworkX

Trang 29

2.2 Nguồn dữ liệu

Có thể thu được các dữ liệu từ: Các phương pháp thực nghiệm, các CSDL PPI sơ khai, từ các siêu dữ liệu hoặc từ các dữ liệu dự đoán

2.2.1 Các cơ sở dữ liệu tương tác protein (PPI)

Hình 2.4 và bảng 1 mô tả một số cơ sở dữ liệu có thể khai thác:

Hình 2.4: Các cơ sở dữ liệu về tương tác protein

Bảng 1: Các cơ sở dữ liệu về PPI

STRING https://string-db.org/ STRING là cơ sở dữ liệu sinh

học và là nguồn dữ liệu web về các tương tác protein-protein đã được biết và được dự đoán Cơ

sở dữ liệu STRING chứa thông tin từ nhiều nguồn, bao gồm dữ liệu thử nghiệm, phương pháp dự đoán tính toán và bộ thu thập dữ liệu công cộng Có thể truy cập

Trang 30

miễn phí và được cập nhật thường xuyên Phiên bản mới nhất 10.0 chứa thông tin về khoảng 9,6 triệu protein từ hơn

2000 sinh vật STRING được phát triển bởi các cơ sở giáo dục gồm CPR, EMBL, KU, SIB, TUD và UZH [27]

UniHi http://www.unihi.org/ Người dùng có thể nhập các gen

hoặc protein đã được xác định từ các sinh vật khác nhau để có được các tương tác vật lý và quy định trong tương tác Kết quả được hiển thị bằng công cụ trực quan hóa UniHI cung cấp nhiều tùy chọn để lọc tương tác (ví dụ: dựa trên nguồn tương tác hoặc số lượng bằng chứng) Các đích thuốc trong mạng được truy xuất

có thể dễ dàng được đánh dấu và phân tích Dữ liệu biểu thị từ cơ

sở dữ liệu UniHI hoặc được người dùng tải lên có thể được

sử dụng để lấy được mạng lưới

mô, quá trình hoặc bệnh Các công cụ để kiểm tra sự liên quan chức năng của các mạng phân tử cũng được cung cấp cho người dùng [19]

Trang 31

phân tử Ngoài dữ liệu PPI, nó cũng bao gồm thông tin về DNA, RNA và tương tác phân tử nhỏ BioGRIP https://thebiogrid.org/ BioGRIP là kho lưu trữ chung

cho CSDL tương tác BioGRIP

là một nguồn cơ sở dữ liệu về các tương tác vật lý và các tương tác generic được hợp nhất và liên tục cập nhật Nó bao gồm hơn 55.000 tương tác thiết yếu của nấm men, trở thành cơ sở dữ liệu lớn nhất về nấm men và hơn 130.000 tương tác thiết yếu của

hệ giữa cấu trúc và hoạt tính canSAR http://cansar.icr.ac.uk/ Một kho lưu trữ dữ liệu sinh học

ung thư bao gồm biểu hiện gen, tương tác protein-protein và sàng lọc RNAi cùng với dữ liệu sàng lọc hóa chất và dược lý học STITCH http://stitch.embl.de/ CSDL tương tác hóa chất-protein

về các mối tương quan đã biết hoặc đã được dự đoán của chúng bằng cách kết hợp thư viện, các

dữ liệu thử nghiệm hoặc là các CSDL khác Tiêu chuẩn để dự đoán các tương tác protein-protein bằng in silico

Trang 32

Thường cần phải tích hợp nhiều nguồn dữ liệu PPI vì không có cơ sở

dữ liệu nào có đầy đủ tất cả các PPI có sẵn Điều này tạo ra một số thách thức

vì các cơ sở dữ liệu khác nhau sử dụng các định danh khác nhau và chứa các loại dữ liệu khác nhau Để tránh rườm rà và mâu thuẫn, điều quan trọng là phải hiểu sự khác biệt giữa các cơ sở dữ liệu khác nhau về:

1 Loại dữ liệu và siêu dữ liệu chúng bao gồm Ví dụ: một số cơ sở dữ liệu sẽ chỉ cung cấp cho bạn dữ liệu có nguồn gốc thực nghiệm và các cơ sở dữ liệu khác cũng sẽ bao gồm các dự đoán Tương tự, mức độ chi tiết được đưa ra về thiết lập thử nghiệm thay đổi giữa các cơ sở dữ liệu

2 Các định danh được cơ sở dữ liệu sử dụng Cơ sở dữ liệu khác nhau đưa ra các lựa chọn khác nhau về vấn đề này, vì vậy đôi khi bạn có thể phải ánh xạ các loại định danh khác nhau để tích hợp dữ liệu

phương pháp toán học để dự đoán các tương tác protein-protein như phương

pháp tiếp cận ở quy mô bộ gen (genome-scale approaches), phương pháp tiếp cận ở quy mô trình tự gen (sequence-scale approaches), phương pháp tiếp cận dựa trên cấu trúc (structure-based approaches), phương pháp learning-based (learning-based approaches) [34] Sau đây, chúng tôi sẽ nêu một số phương

pháp phát hiện tương tác protein điển hình nhất

Hệ thống lai đôi nấm men Y2H: Một trong những phương pháp phổ

biến nhất để phát hiện tương tác giữa các cặp protein là hệ thống lai đôi nấm men Sự tương tác của hai protein kích hoạt phiên mã gen reporter (gen chỉ thị), và phản ứng màu xảy ra Phản ứng này có thể giúp theo dõi sự tương tác

giữa hai protein, tương tác giữa protein "con mồi" (prey) và protein "mồi" (bait) [6] Hình 2.5 mô tả quy trình phát hiện tương tác protein-protein bằng

phương pháp Y2H

Trang 33

Hình 2.5: Hệ thống lai đôi nấm men giúp phát hiện tương tác giữa các

cặp protein

Hình 2.5 miêu tả quá trình hệ thống lai đôi nấm men phát hiện tương tác protein-protein Trong Hình 2.5 (a), sự kết hợp của protein "mồi" và phần gắn kết với DNA, nhân tố điều hòa phiên mã, đã không bật được gen reporter; không xảy ra sự thay đổi màu sắc; sự tương tác không thể được theo dõi Hình 2.5 (b), tương tự, sự kết hợp của protein "mồi" và vùng kích hoạt của chất kích hoạt phiên mã cũng không đủ để bật gen reporter Trong hình 2.5 (c), khi

"bait" và "prey" liên kết , làm cho phần gắn kết với DNA và vùng kích hoạt

đủ gần để bật gen reporter Kết quả là quá trình phiên mã xảy ra và thay đổi màu sắc có thể được quan sát được [49]

Phương pháp khối phổ MS (mass spectromety): dùng để phân tích

thành phần của một phức hợp protein Phân tích khối phổ được tiến hành theo

ba bước: gắn mồi, liên kết và sàng lọc phức, phân tích các protein gắn kết [11] Hình 2.6 mô tả quá trình phân tích phức hợp protein bằng phương pháp khối phổ

Định dạng
Số trang	67
Dung lượng	2,81 MB