G quadruplex trên nhiễm sắc thể của vi khuẩn phân bố và trình tự nucleotid

3 Kết quả kiểm tra thuật toán 3 trên nhiễm sắc thể của Escherichiacoli UMN026 với số lượng và trình tự các đoạn G4 biết trước.. 10 Tần số xuất hiện của các đoạn lặp guanin có chiều dài k

Trang 1

HÀ NỘI – 2017

Trang 3

LỜI CẢM ƠN

Trong quá trình học tập tại trường và hoàn thành khoá luận này, tôi đã nhậnđược rất nhiều sự giúp đỡ của gia đình, thầy cô và bạn bè

Tôi xin gửi lời cảm ơn chân thành và sâu sắc đến TS Đỗ Ngọc Quang Thầy

luôn tận tình chỉ bảo, hướng dẫn và tạo cho tôi nguồn động lực để làm việc vàphấn đấu vươn lên

Tôi xin trân trọng cảm ơn các thầy cô cùng cán bộ Trường Đại học Dược HàNội đã dạy dỗ, quan tâm tôi trong suốt 5 năm học tập tại trường

Cuối cùng, tôi xin được bày tỏ lòng biết ơn sâu sắc tới gia đình và bạn bè đãluôn đồng hành bên tôi những lúc khó khăn, bận rộn để tôi hoàn thành khoá luậntốt nghiệp này

Hà Nội, ngày 18 tháng 05 năm 2017

Sinh viên

Phạm Thị Xuân Ái

Trang 4

MỤC LỤC

1.1 Vai trò sinh học của G-quadruplex 3

1.2 Cấu trúc của G-quadruplex 6

1.3 Phân bố của G-quadruplex ở sinh vật nhân thực và sinh vật nhân sơ 8

1.4 Các thuật toán tìm kiếm G-quadruplex trong bộ gen 10

1.5 Xác định mô-típ về trình tự nucleic của acid nucleic 11

CHƯƠNG 2 ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU 13 2.1 Đối tượng 13

2.2 Phương pháp nghiên cứu 15

2.2.1 Xây dựng cơ sở dữ liệu G4 16

2.2.2 Khảo sát phân bố của các đoạn G4 17

2.2.3 Khảo sát mô-típ của các đoạn G4 20

CHƯƠNG 3 KẾT QUẢ 21 3.1 Xây dựng cơ sở dữ liệu G4 21

3.1.1 Khảo sát chiều dài của các đoạn lặp guanin 21

3.1.2 Khảo sát khoảng cách giữa các đoạp lặp guanin 22

3.1.3 Xây dựng thuật toán tìm kiếm các đoạn G4 trên nhiễm sắc thể 23

Trang 5

3.1.4 Cơ sở dữ liệu G4 25

3.2 Phân bố của các đoạn G4 trên nhiễm sắc thể 28

3.2.1 Tần số xuất hiện của các đoạn G4 so với tỷ lệ %GC 28 3.2.2 Tần số xuất hiện của các đoạn G4 trên các gen khác nhau 29

3.3 Mô-típ của các đoạn G4 trên nhiễm sắc thể 30

3.3.1 Chiều dài của các đoạn guanin và đoạn nối 31 3.3.2 Mô-típ của các đoạn nối 32

4.1 Kết luận 344.2 Đề xuất 35

Phụ lục A Phân bố của G-quadruplex trên 61 nhiễm sắc thể của 54

Trang 6

3 Kết quả kiểm tra thuật toán 3 trên nhiễm sắc thể của Escherichia

coli UMN026 với số lượng và trình tự các đoạn G4 biết trước 24

4 Số lượng các đoạn G4 trên NST của 10 chủng vi khuẩn tìm được

bằng thuật toán 3 và thuật toán Quadbase 25

5 Mười nhiễm sắc thể vi khuẩn có nhiều đoạn G4 nhất trong số các

nhiễm sắc thể được khảo sát 27

Trang 7

DANH SÁCH HÌNH ẢNH

1 Mô hình của G-quadruplex hình thành trên telomere ở người [27] 3

2 G-quadruplex trên telomere ngăn cản hoạt động của nuclease [30] 4

3 quadruplex kích thích hình quá trình khởi đầu chép ADN

G-quadruplex ở gần vị trí khởi đầu phiên mã sẽ kích thích quá trình

hình thành phức hợp khởi đầu sao chép dẫn đến tăng cường sao

chép ADN [30] 5

4 quadruplex ngăn cản hoạt động của ADN polymerase [30]

G-quadruplex cản trở sự di chuyển của ADN polymerase dẫn đến

ức chế sao chép ADN 6

5 Mô hình của G-tetrad [27] 7

6 Phân loại G-quadruplex theo hướng của sợi đơn acid nucleic Từ

trái sang phải: dạng song song, dạng 3+1, dạng phản song song

1, dạng phản song song 2 [27] 8

7 Các loại vòng nối của G-quadruplex Từ trái sang phải: vòng nối

nối hai sợi phản song song trên đường chéo, vòng nối bên nối

hai sợi phản song song liền kề, vòng nối nối hai sợi song song

cạnh nhau [27] 8

8 Vị trí của G-quadruplex so với điểm khởi đầu phiên mã [13] 9

9 Phân tích mô-típ cho thấy trình tự nucleotid bảo thủ của hộp

TATA trên genom của Escherichia coli 12

Trang 8

10 Tần số xuất hiện của các đoạn lặp guanin có chiều dài khác

nhau trên nhiễm sắc thể của 54 chủng vi khuẩn (đường nét liền)

và nhiễm sắc thể đối chứng với trình tự nucleotid ngẫu nghiên

(đường nét đứt) 22

11 Tần số xuất hiện của các đoạn nối có chiều dài khác nhau trên

nhiễm sắc thể của 54 chủng vi khuẩn (đường nét liền) và nhiễm

sắc thể đối chứng với trình tự nucleotid ngẫu nghiên (đường nét

đứt) 23

12 Nhiễm sắc thể của Staphylococcus epidermidis ATCC 12.228:

(a) toàn bộ nhiễm sắc thể, (b) phân đoạn từ nucleotid 2.223.200

đến 2.250.000 Các vạch và số thể hiện vị trí của các đoạn G4

trên nhiễm sắc thể 26

13 (a) Số lượng các đoạn G4 tìm được so với tỷ lệ %GC trên NST

của 54 chủng vi khuẩn (b) Kết quả phân tích hồi quy tuyến tính

giữa số lượng các đoạn G4 và tỷ lệ %GC 28

14 Năm gen có tần số xuất hiện của các đoạn G4 lớn nhất Các đoạn

G4 có thể nằm trên mạch mang mã (+) hoặc mạch khuôn (-) 29

15 Phân bố của các đoạn G4 so với điểm khởi đầu phiên mã 30

16 Tần số xuất hiện của các đoạn lặp guanin với chiều dài khác nhau

tại: (a) vị trí 1, (b) vị trí 2, (c) vị trí 3 và (d) vị trí 4 của các đoạn

G4 trên nhiễm sắc thể của 54 chủng vi khuẩn 31

17 Tần số xuất hiện của các đoạn nối có chiều dài khác nhau tại: (a)

vị trí 1, (b) vị trí 2 và (c) vị trí 3 của các đoạn G4 trên nhiễm sắc

thể của 54 chủng vi khuẩn 32

Trang 9

18 Mô-típ của những đoạn nối có độ dài 3 nucleotid tại: (a) vị trí 1,

(b) vị trí 2 và (c) vị trí 3 33

19 Mô-típ của những đoạn nối có độ dài từ 1 đến 6 nucleotid 33

Trang 10

DANH SÁCH TỪ VIẾT TẮT

12 gidA Glucose-inhibited division protein A

14 TMPyP4 5,10,15,20-tetra(N-methyl-4-pyridyl) porphin

Trang 11

ĐẶT VẤN ĐỀ

Phân tử acid deoxyribonucleic (ADN) có thể tồn tại ở nhiều cấu trúc khácnhau, trong đó có mô hình được gọi là G-quadruplex Được phát hiện đầu tiênvào năm 1962, G-quadruplex có thể được hình thành tại các vị trí acid nucleicgiàu guanin [11, 14] Khác với mô hình chuỗi xoắn kép của Watson và Crick, mỗiG-quadruplex gồm 4 mạch đơn nằm song song và liên kết bổ sung nhau bằngliên kết hydro giữa các nucleotid guanin [14, 27] G-quadruplex có cấu trúc đadạng tùy thuộc vào nhiều yếu tố như trình tự nucleotid, vị trí trên nhiễm sắc thể,điều kiện môi trường, v.v [11, 18, 26, 27]

quadruplex tồn tại ở cả sinh vật nhân sơ và nhân chuẩn [19] Ở người, quadruplex được tìm thấy nhiều tại các vị trí như telomere, vùng điều hòa củagen [11, 19, 35] Các nghiên cứu thực nghiệm cho thấy G-quadruplex tham giavào nhiều quá trình sinh học quan trọng như phiên mã, dịch mã, sao chép, bảo vệnhiễm sắc thể, v.v [14, 19] Bởi vậy tác động vào G-quadruplex nhằm thay đổihoạt động của tế bào theo hướng mong muốn là một hướng đi triển vọng tronglĩnh vực Y, Sinh và Dược học

G-Việc lập bản đồ các đoạn có khả năng hình thành G-quadruplex trên nhiễmsắc thể là một trong những bước quan trọng để nghiên cứu về vai trò của G-quadruplex trong tế bào Một số cơ sở dữ liệu về vị trí và cấu trúc của G-quadruplex đang được sử dụng hiện nay gồm có QGRS Mapper [20], Quadbase[37], Quadparser [14] Tuy nhiên, các cơ sở dữ liệu này tập trung chủ yếu vàođối tượng là con người Mặc dù có vai trò quan trọng trong đời sống con ngườinhưng số lượng bản đồ G-quadruplex cho vi khuẩn vẫn còn rất ít Để phần nào

Trang 12

giải quyết vấn đề trên, chúng tôi đã thực hiện đề tài nghiên cứu “G-quadruplex

trên nhiễm sắc thể của vi khuẩn: phân bố và trình tự nucleotid” với hai mục tiêu:

• Xây dựng cơ sở dữ liệu về vị trí và trình tự của các đoạn acid nucleic cókhả năng hình thành G-quadruplex trên nhiễm sắc thể của một số vi khuẩnthường gặp

• Khảo sát một số đặc điểm về phân bố và mô-típ của các đoạn acid nucleictrong cơ sở dữ liệu thu được

Trang 13

CHƯƠNG 1 TỔNG QUAN

1.1 Vai trò sinh học của G-quadruplex

G-quadruplex là cấu trúc được tạo bởi các đoạn acid nucleic giàu guanin.Khác với cấu trúc xoắn kép theo mô hình Watson-Crick, G-quadruplex gồm ítnhất hai lớp G-tetrad xếp chồng lên nhau và nối với nhau bằng liên kết π - π.G-tetrad gồm bốn guanin nằm trong cùng một mặt phẳng liên kết với nhau bằngliên kết hydro Hoogsten (Hình 1) [27] Cấu trúc này được hình thành tại nhiều vịtrí của bộ gen và tham gia vào nhiều quá trình quan trọng trong tế bào như bảo

vệ nhiễm sắc thể, sao chép ADN, phiên mã và dịch mã [14, 19]

Hình 1: Mô hình của G-quadruplex hình thành trên telomere ở người [27].

• Bảo vệ nhiễm sắc thể

Telomere là những cấu trúc nucleoprotein nằm ở phần cuối của nhiễmsắc thể [24, 31, 33] ADN telomere ở sinh vật nhân thực chứa nhiều đoạnlặp giàu guanin (ở người là TTAGGG) [12, 33] ADN telomere tạo được

Trang 14

G-quadruplex trong điều kiện in vitro Vai trò của telomere là bảo vệ nhiễm

sắc thể trước sự phân hủy của các nuclease nội bào (Hình 2)

Hình 2: G-quadruplex trên telomere ngăn cản hoạt động của nuclease [30].

Ngoài bảo vệ nhiễm sắc thể, telomere còn có chức năng như đồng hồsinh học của tế bào Chiều dài của telomere đặc trưng cho từng loài và

có liên quan đến số lần phân chia của tế bào Telomere bị ngắn dần saumỗi chu kỳ phân bào [24, 28], khi telomere không còn đủ độ dài để bảo

vệ nhiễm sắc thể thì cũng là lúc tế bào chết [25, 28] Để ngăn cản hiệntượng này, tế bào sử dụng telomerase - một loại enzym có vai trò nối dàitelomere [24, 35] Tuy nhiên, mặt trái của vệc kéo dài telomere là làm quátrình phân bào có nguy cơ bị mất kiểm soát như đã thấy ở nhiều loại tếbào ung thư [25] Một số nghiên cứu cho thấy hoạt động của telomerasetrong tế bào ung thư sẽ bị kìm hãm dưới tác dụng của một số chất nhưtelomestatin, TMPyP4, [3, 25], đây là những chất có đích tác dụng làcác G-quadruplex trên telomere Vì thế, đây có thể là một hướng nghiêncứu tiềm năng trong điều trị ung thư

• Sao chép ADN

Trang 15

Hình 3: quadruplex kích thích hình quá trình khởi đầu chép ADN

G-quadruplex ở gần vị trí khởi đầu phiên mã sẽ kích thích quá trình hình thànhphức hợp khởi đầu sao chép dẫn đến tăng cường sao chép ADN [30]

Quá trình sao chép ADN bắt đầu khi tế bào nhận biết được điểm khởiđầu sao chép Sau đó, ADN polymerase sẽ di chuyển dọc theo mạch khuôn

để lắp các nucleotid bổ sung vào vị trí tương ứng Khi xuất hiện gần vị tríkhởi đầu sao chép, G-quadruplex có thể kích thích quá trình hình thànhphức hợp khởi đầu sao chép (Hình 3) [3] dẫn đến tăng cường sao chépADN hoặc ngược lại cản trở sự di chuyển của helicase và ADN polymerasedẫn đến ức chế sao chép ADN (Hình 4) [30, 35]

• Phiên mã

Trong quá trình phiên mã, ARN polymerase bám vào promoter của gen

và di chuyển dọc theo phân tử ADN để tổng hợp phân tử mARN Thựcnghiệm cho thấy promoter là vùng thường tập trung G-quadruplex [33].Tùy vào vị trí nằm trên mạch khuôn hay mạch mang mã, G-quadruplex có

Trang 16

Hình 4: quadruplex ngăn cản hoạt động của ADN polymerase [30]

G-quadruplex cản trở sự di chuyển của ADN polymerase dẫn đến ức chế sao chépADN

thể cản trở hay kích thích phiên mã [3, 7, 30]

• Dịch mã

Quá trình dịch mã từ mARN thành protein gồm 3 bước chính: khởiđầu (gắn ribosom vào mARN), kéo dài (tổng hợp chuỗi acid amin) vàkết thúc (tháo gỡ ribosom) Việc tập trung G-quadruplex ở các vùng 5’/3’không dịch mã của mARN có thể kìm hãm quá trình dịch mã trong tế bào[24, 30, 33]

1.2 Cấu trúc của G-quadruplex

G-quadruplex là cấu trúc được tạo bởi một hay nhiều phân tử acid nucleicmạch đơn (ADN hoặc ARN) giàu guanin Mỗi G-quadruplex gồm ít nhất hai lớpG-tetrad xếp chồng lên nhau Các lớp G-tetrad này liên kết với nhau bằng liên kết

π - π G-tetrad gồm 4 guanin nằm trong cùng một mặt phẳng liên kết với nhau

Trang 17

Hình 5: Mô hình của G-tetrad [27].

bằng liên kết hydro Hoogsten Các lớp tetrad nối với nhau bởi các vòng nối Cáccation hoá trị một như K+, Na+ giúp ổn định cấu trúc G-quadruplex bằng cáchkết hợp các nhóm carbonyl của guanin (Hình 5) [27, 30, 31]

G-quadruplex được phân loại dựa trên hướng của sợi đơn acid nucleic và liên kếtglycosid (dạng anti- hay dạng syn- của guanin) Từ đó, cấu trúc của G-quadruplex

có thể được phân thành bốn loại: bốn sợi có cùng hướng (dạng song song), ba sợicùng hướng và một sợi ngược hướng (dạng 3+1), hai sợi cạnh nhau cùng hướng

và hai sợi còn lại có hướng ngược lại (dạng phản song song) và hai sợi cùng trênmột đường chéo cùng hướng và hai sợi còn lại có hướng ngược lại (Hình 6) Cácliên kết glucosid của guanin trong tetrad tương ứng với hướng của các sợi là: anti

- anti - anti - anti hoặc syn - syn - syn - syn, syn - anti - anti - anti hoặc anti - syn

- syn - syn, anti - anti - syn - syn và anti - syn - anti - syn Có ba loại vòng nốichính là: vòng nối nối hai sợi phản song song trên đường chéo, vòng nối bên nốihai sợi phản song song liền kề, vòng nối nối hai sợi song song cạnh nhau (Hình

Trang 18

7) Sự hình thành và độ ổn định của G-quadruplex bị ảnh hưởng bởi độ dài củavòng nối Vòng nối càng dài thì G-quadruplex càng không ổn định [19, 27].

Hình 6: Phân loại G-quadruplex theo hướng của sợi đơn acid nucleic Từ trái

sang phải: dạng song song, dạng 3+1, dạng phản song song 1, dạng phản songsong 2 [27]

Hình 7: Các loại vòng nối của G-quadruplex Từ trái sang phải: vòng nối nối hai

sợi phản song song trên đường chéo, vòng nối bên nối hai sợi phản song songliền kề, vòng nối nối hai sợi song song cạnh nhau [27]

1.3 Phân bố của G-quadruplex ở sinh vật nhân thực và sinh

vật nhân sơ

• Sinh vật nhân thực

G-quadruplex rất phổ biến ở bộ gen của sinh vật nhân thực [15, 24, 36] Hệgen của người có chứa ít nhất 37.000 đoạn acid nucleic có thể hình thành

Trang 19

G-quadruplex [36] G-quadruplex được tìm thấy ở nhiều khu vực của gennhư telomere, promoter, v.v [22, 29] Trong đó, G-quadruplex tập trungnhiều nhất ở promoter, có hơn 40% các promoter của người có chứa nhiềuhơn một đoạn G-quadruplex (Hình 8) [16, 37] Trên mARN, G-quadruplex

có thể được tìm thấy tại khu vực không phiên mã tại đầu 5’ và 3’ [17]

Hình 8: Vị trí của G-quadruplex so với điểm khởi đầu phiên mã [13].

• Sinh vật nhân sơ

So với sinh vật nhân thực, các nghiên cứu về G-quadruplex ở sinh vật nhân

sơ tương đối ít Một số nghiên cứu cho thấy G-quadruplex tập trung gầnđầu 3’ không phiên mã của mARN và khu vực điều hoà của các đơn vịphiên mã [10, 19] Trong đó, phân bố của G-quadruplex ở cả mạch mang

mã và mạch khuôn là tương tương [9]

Trang 20

1.4 Các thuật toán tìm kiếm G-quadruplex trong bộ gen

Nhiều thuật toán khác nhau đã được dùng để tìm kiếm những đoạn acid cleic có khả năng hình thành nên G-quadruplex (gọi là đoạn G4) [4, 5, 14, 20,

nu-21, 37] Trong đó thuật toán tìm kiếm các chuỗi acid nucleic theo công thức chotrước hoạt động hiệu quả hơn so với các kỹ thuật khác Công thức chung đượcdùng cho các thuật toán này là Gx1NL1Gx2NL2Gx3NL3Gx4 với các giá trị khácnhau về độ dài (x) của vùng nhiều G và độ dài (L) của các đoạn nối (Bảng 1)[14]

Bảng 1: Tham số dùng trong một số thuật toán tìm kiếm G-quadruplex [14].

guanin

Độ dài đoạnnối

Trang 21

nucleotid hoặc các tệp tin có định dạng FASTA Người dùng cũng có thể tìmkiếm và phân tích một trình tự gen từ tên gen, gen ID, số truy cập hoặc số GI từNCBI Người dùng có thể thay đổi một số định dạng sẵn như thay đổi chiều dàitối đa của QGRS, thay đổi số lượng tối thiểu của G trong các nhóm hay cố định

số lượng acid nucleic của vòng nối Từ QGRS Mapper, Oleg Kikin xây dựng hai

cơ sở dữ liệu về G4 là GRSDB2 và GRS-UTRdb [21] GRSDB2 chứa dữ liệucủa 29.288 gene và hơn 3 triệu đoạn G4 ở các pre-mARN GRS-UTRdb là cơ sở

dữ liệu của hơn 27.000 đoạn G4 ở đầu 5’ không phiên mã của mARN

Năm 2008, chương trình QuadBase được giới thiệu bởi Vinod Kumar Yadav[37] QuadBase được viết trên nền Java, gồm hai phần là EuQuad và ProQuad.EuQuad dùng để tìm các đoạn G4 trên nhiễm sắc thể của chuột, tinh tinh vàngười ProQuad dùng để tìm các đoạn G4 trên nhiễm sắc thể của một số chủng

vi khuẩn

Một chương trình tìm kiếm các đoạn G4 khác là Quadparser do Julian L.Huppert và Shankar Balasubramanian phát triển [14] Chương trình này có thểnhanh chóng phân tích một số lượng lớn các dữ liệu có định dạng FASTA Kết quảthu được là số lượng, vị trí và một số thông số khác giúp xác định G-quadruplex[14]

1.5 Xác định mô-típ về trình tự nucleic của acid nucleic

Mục đích của xác định mô-típ về trình tự nucleic (gọi tắt là mô-típ) là tìm racác đoạn bảo thủ trên acid nucleic Các đoạn bảo thủ này thường tham gia vàonhiều quá trình sinh học của acid nucleic Để tìm ra mô-típ, các đoạn acid nucleic

Trang 22

có cùng chiều dài sẽ được đối chiếu với nhau về trình tự nucleotid Tần số xuấthiện của các nucleotid sẽ được tính toán cho từng vị trí trên đoạn acid nucleotid

và mô-típ chung sẽ là nucleotid có tần số xuất hiện lớn nhất tại vị trí đó [8]Trong phân tích mô-típ, kết quả xác định tần số thường được xử lý và biểuthị dưới dạng biểu đồ Logo [32] Trên biểu đồ Logo, trục hoành biểu thị vị trínucleotid trên đoạn cần phân tích, trục tung biểu thị tần số xuất hiện của nucleotid

và thường có đơn vị là “bit” Các cột trên biểu đồ càng cao thì tần số xuất hiệncủa các nucleotid trong cột càng lớn Mỗi cột trên biểu đồ bao gồm các nucleotidxuất hiện tại cùng một vị trí trên đoạn acid nucleic, tần số xuất hiện của từngnucleotid sẽ tỷ lệ thuận với chiều cao của ký tự biểu diễn nucleotid đó (Hình 9)

Hình 9: Phân tích mô-típ cho thấy trình tự nucleotid bảo thủ của hộp TATA trên

genom của Escherichia coli

Trang 23

CHƯƠNG 2 ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU

2.1 Đối tượng

Từ cơ sở dữ liệu hệ gen của 95.090 chủng vi khuẩn có trong NCBI [1], chúngtôi chọn ra 54 chủng vi khuẩn có số lượng nghiên cứu được công bố nhiều nhất

để sử dụng trong đề tài này (Bảng 2)

Bảng 2: Tên và mã NCBI của 54 chủng vi khuẩn sử dụng trong nghiên cứu.

1 NC_00117 Chlamydia trachomatis D/UW-3/CX

2 NC_00907 Haemophilus influenzae Rd KW20

3 NC_00915 Helicobacter pylori 26695

4 NC_00962 Mycobacterium tuberculosis H37Rv

5 NC_00964 Bacillus subtilis subsp subtilis str 168

6 NC_02163 Campylobacter jejuni subsp jejuni NCTC 11168 = ATCC 700819

7 NC_02505 Vibrio cholerae O1 biovar El Tor str N16961 chromosom I

8 NC_02506 Vibrio cholerae O1 biovar El Tor str N16961 chromosom II

9 NC_02516 Pseudomonas aeruginosa PAO1

10 NC_02695 Escherichia coli O157:H7 str Sakai

11 NC_02737 Streptococcus pyogenes M1 GAS

12 NC_02929 Bordetella pertussis Tohama I

13 NC_02942 Legionella pneumophila subsp pneumophila str 1

14 NC_02944 Mycobacterium avium subsp paratuberculosis str k10

15 NC_02946 Neisseria gonorrhoeae FA 1090

16 NC_03098 Streptococcus pneumoniae R6

17 NC_03143 Yersinia pestis CO92

18 NC_03197 Salmonella enterica subsp enterica serovar Typhimurium str LT2

Trang 24

19 NC_03210 Listeria monocytogenes EGD-e

20 NC_03997 Bacillus anthracis str Ames

21 NC_04116 Streptococcus agalactiae 2603V/R

22 NC_04337 Shigella flexneri 2a str 301

23 NC_04342 Leptospira interrogans serovar Lai str 56601 chromosom I

24 NC_04343 Leptospira interrogans serovar Lai str 56601 chromosom II

25 NC_04350 Streptococcus mutans UA159

26 NC_04461 Staphylococcus epidermidis ATCC 12228

27 NC_04567 Lactobacillus plantarum WCFS1

28 NC_04603 Vibrio parahaemolyticus RIMD 2210633 chromosom 1

29 NC_04605 Vibrio parahaemolyticus RIMD 2210633 chromosom 2

30 NC_04668 Enterococcus faecalis V583

31 NC_04722 Bacillus cereus ATCC 14579

32 NC_06085 Propionibacterium acnes KPA171202

33 NC_06347 Bacteroides fragilis YCH46 DNA

34 NC_06350 Burkholderia pseudomallei K96243 chromosom 1

35 NC_06351 Burkholderia pseudomallei K96243 chromosom 2

36 NC_06570 Francisella tularensis subsp tularensis SCHU S4

37 NC_06932 Brucella abortus biovar 1 str 9-941 chromosom I

38 NC_06933 Brucella abortus biovar 1 str 9-941 chromosom II

39 NC_07005 Pseudomonas syringae pv syringae B728a chromosom

40 NC_07168 Staphylococcus haemolyticus JCSC1435

41 NC_07492 Pseudomonas fluorescens Pf0-1

42 NC_07795 Staphylococcus aureus subsp aureus NCTC 8325

43 NC_08800 Yersinia enterocolitica subsp enterocolitica 8081

44 NC_09089 Peptoclostridium difficile 630

45 NC_09698 Clostridium botulinum A str Hall

Trang 25

46 NC_10397 Mycobacterium abscessus

47 NC_10943 Stenotrophomonas maltophilia K279a

48 NC_12470 Streptococcus equi subsp zooepidemicus H70

56 NC_20064 Serratia marcescens FGI94

57 NZ_009257 Acinetobacter baumannii strain AB030

58 NZ_009486 Burkholderia ubonensis MSMB22 chromosom II

59 NZ_009487 Burkholderia ubonensis MSMB22 chromosom III

60 NZ_009488 Burkholderia ubonensis MSMB22 chromosom I

61 NZ_013733 Campylobacter coli strain OR12

2.2 Phương pháp nghiên cứu

Cơ sở dữ liệu hệ gen của các chủng vi khuẩn được phân tích trên máy tínhbằng các thuật toán viết bằng ngôn ngữ lập trình Python [34] với các thư việnPandas, NumPy, Matplotlib, Biopython, Statistic, Re [23] Các thuật toán đềuđược kiểm tra độ tin cậy bằng các dữ liệu chuẩn trước khi sử dụng để phân tích.Các phân tích thống kê được thực hiện qua thư viện Statistic của Python [23]

Trang 26

Thuật toán 1 Thuật toán khảo sát chiều dài của các đoạn giàu guanin.

1: for k ∈ {1, , K} do ◃ K là số lượng nucleotid của nhiễm sắc thể

Đếm số lượng các đoạn GG, GGG, GGGG, GGGGG, GGGGGG,GGGGGGG, GGGGGGGG, GGGGGGGGG, GGGGGGGGGG

2.2.1 Xây dựng cơ sở dữ liệu G4

Thuật toán 2 Thuật toán khảo sát chiều dài của các đoạn nối.

Đếm số lượng các đoạn nối có chiều dài từ 1 đến 10

Trang 27

Thuật toán 3 Thuật toán tìm kiếm các đoạn acid nucleic có công thức chung là

GnNL1GnNL2GnNL3Gn với n từ 2 đến 7 và L từ 1 đến 10

Thay các ký tự G đứng riêng lẻ bằng ký tự E

2: end for

G2−7[ATCE]1−10G2−7[ATCE]1−10G2−7[ATCE]1−10G2−7

- Xác định các đoạn G4 và vị trí của đoạn G4 tìm được

4: end for

2.2.2 Khảo sát phân bố của các đoạn G4

Thuật toán 4 Thuật toán xác định tần số xuất hiện của các đoạn G4 so với tỷ lệ

GC

1: for k ∈ {1, , K} do ◃ K là số lượng vi khuẩn nghiên cứu

Tính số lượng đoạn G4

2: end for

3: for k ∈ {1, , K} do ◃ K là số lượng vi khuẩn nghiên cứu

Tính %GC: %GC = (số lượng G +số lượng C)/số lượng nucleotid *100

4: end for

5: Tìm phương trình hồi quy tuyến tính giữa số lượng G4 và %GC

Trang 28

Thuật toán 5 Thuật toán xác định đoạn G4 nằm trong gen.

1: j ← 0

2: for i ∈ {1, , K} do ◃ K là số lượng G4 của vi khuẩn đang xét

3: if j + 1 > N then ◃ N là số lượng gen của vi khuẩn tương ứng

break

4: end if

5: if a[j] ≤ x[i] < y[i] ≤ b[j] then G4 nằm trong gen thứ j

◃ a, b tương ứng là vị trí điểm đầu và điểm cuối của gen; x, y tươngứng là vị trí điểm đầu và điểm cuối của đoạn G4

Trang 29

Thuật toán 6 Thuật toán xác định đoạn G4 nằm phía trước gen.