3 Kết quả kiểm tra thuật toán 3 trên nhiễm sắc thể của Escherichiacoli UMN026 với số lượng và trình tự các đoạn G4 biết trước.. 10 Tần số xuất hiện của các đoạn lặp guanin có chiều dài k
Trang 1HÀ NỘI – 2017
Trang 3LỜI CẢM ƠN
Trong quá trình học tập tại trường và hoàn thành khoá luận này, tôi đã nhậnđược rất nhiều sự giúp đỡ của gia đình, thầy cô và bạn bè
Tôi xin gửi lời cảm ơn chân thành và sâu sắc đến TS Đỗ Ngọc Quang Thầy
luôn tận tình chỉ bảo, hướng dẫn và tạo cho tôi nguồn động lực để làm việc vàphấn đấu vươn lên
Tôi xin trân trọng cảm ơn các thầy cô cùng cán bộ Trường Đại học Dược HàNội đã dạy dỗ, quan tâm tôi trong suốt 5 năm học tập tại trường
Cuối cùng, tôi xin được bày tỏ lòng biết ơn sâu sắc tới gia đình và bạn bè đãluôn đồng hành bên tôi những lúc khó khăn, bận rộn để tôi hoàn thành khoá luậntốt nghiệp này
Hà Nội, ngày 18 tháng 05 năm 2017
Sinh viên
Phạm Thị Xuân Ái
Trang 4MỤC LỤC
1.1 Vai trò sinh học của G-quadruplex 3
1.2 Cấu trúc của G-quadruplex 6
1.3 Phân bố của G-quadruplex ở sinh vật nhân thực và sinh vật nhân sơ 8
1.4 Các thuật toán tìm kiếm G-quadruplex trong bộ gen 10
1.5 Xác định mô-típ về trình tự nucleic của acid nucleic 11
CHƯƠNG 2 ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU 13 2.1 Đối tượng 13
2.2 Phương pháp nghiên cứu 15
2.2.1 Xây dựng cơ sở dữ liệu G4 16
2.2.2 Khảo sát phân bố của các đoạn G4 17
2.2.3 Khảo sát mô-típ của các đoạn G4 20
CHƯƠNG 3 KẾT QUẢ 21 3.1 Xây dựng cơ sở dữ liệu G4 21
3.1.1 Khảo sát chiều dài của các đoạn lặp guanin 21
3.1.2 Khảo sát khoảng cách giữa các đoạp lặp guanin 22
3.1.3 Xây dựng thuật toán tìm kiếm các đoạn G4 trên nhiễm sắc thể 23
Trang 53.1.4 Cơ sở dữ liệu G4 25
3.2 Phân bố của các đoạn G4 trên nhiễm sắc thể 28
3.2.1 Tần số xuất hiện của các đoạn G4 so với tỷ lệ %GC 28 3.2.2 Tần số xuất hiện của các đoạn G4 trên các gen khác nhau 29
3.3 Mô-típ của các đoạn G4 trên nhiễm sắc thể 30
3.3.1 Chiều dài của các đoạn guanin và đoạn nối 31 3.3.2 Mô-típ của các đoạn nối 32
4.1 Kết luận 344.2 Đề xuất 35
Phụ lục A Phân bố của G-quadruplex trên 61 nhiễm sắc thể của 54
Trang 63 Kết quả kiểm tra thuật toán 3 trên nhiễm sắc thể của Escherichia
coli UMN026 với số lượng và trình tự các đoạn G4 biết trước 24
4 Số lượng các đoạn G4 trên NST của 10 chủng vi khuẩn tìm được
bằng thuật toán 3 và thuật toán Quadbase 25
5 Mười nhiễm sắc thể vi khuẩn có nhiều đoạn G4 nhất trong số các
nhiễm sắc thể được khảo sát 27
Trang 7DANH SÁCH HÌNH ẢNH
1 Mô hình của G-quadruplex hình thành trên telomere ở người [27] 3
2 G-quadruplex trên telomere ngăn cản hoạt động của nuclease [30] 4
3 quadruplex kích thích hình quá trình khởi đầu chép ADN
G-quadruplex ở gần vị trí khởi đầu phiên mã sẽ kích thích quá trình
hình thành phức hợp khởi đầu sao chép dẫn đến tăng cường sao
chép ADN [30] 5
4 quadruplex ngăn cản hoạt động của ADN polymerase [30]
G-quadruplex cản trở sự di chuyển của ADN polymerase dẫn đến
ức chế sao chép ADN 6
5 Mô hình của G-tetrad [27] 7
6 Phân loại G-quadruplex theo hướng của sợi đơn acid nucleic Từ
trái sang phải: dạng song song, dạng 3+1, dạng phản song song
1, dạng phản song song 2 [27] 8
7 Các loại vòng nối của G-quadruplex Từ trái sang phải: vòng nối
nối hai sợi phản song song trên đường chéo, vòng nối bên nối
hai sợi phản song song liền kề, vòng nối nối hai sợi song song
cạnh nhau [27] 8
8 Vị trí của G-quadruplex so với điểm khởi đầu phiên mã [13] 9
9 Phân tích mô-típ cho thấy trình tự nucleotid bảo thủ của hộp
TATA trên genom của Escherichia coli 12
Trang 810 Tần số xuất hiện của các đoạn lặp guanin có chiều dài khác
nhau trên nhiễm sắc thể của 54 chủng vi khuẩn (đường nét liền)
và nhiễm sắc thể đối chứng với trình tự nucleotid ngẫu nghiên
(đường nét đứt) 22
11 Tần số xuất hiện của các đoạn nối có chiều dài khác nhau trên
nhiễm sắc thể của 54 chủng vi khuẩn (đường nét liền) và nhiễm
sắc thể đối chứng với trình tự nucleotid ngẫu nghiên (đường nét
đứt) 23
12 Nhiễm sắc thể của Staphylococcus epidermidis ATCC 12.228:
(a) toàn bộ nhiễm sắc thể, (b) phân đoạn từ nucleotid 2.223.200
đến 2.250.000 Các vạch và số thể hiện vị trí của các đoạn G4
trên nhiễm sắc thể 26
13 (a) Số lượng các đoạn G4 tìm được so với tỷ lệ %GC trên NST
của 54 chủng vi khuẩn (b) Kết quả phân tích hồi quy tuyến tính
giữa số lượng các đoạn G4 và tỷ lệ %GC 28
14 Năm gen có tần số xuất hiện của các đoạn G4 lớn nhất Các đoạn
G4 có thể nằm trên mạch mang mã (+) hoặc mạch khuôn (-) 29
15 Phân bố của các đoạn G4 so với điểm khởi đầu phiên mã 30
16 Tần số xuất hiện của các đoạn lặp guanin với chiều dài khác nhau
tại: (a) vị trí 1, (b) vị trí 2, (c) vị trí 3 và (d) vị trí 4 của các đoạn
G4 trên nhiễm sắc thể của 54 chủng vi khuẩn 31
17 Tần số xuất hiện của các đoạn nối có chiều dài khác nhau tại: (a)
vị trí 1, (b) vị trí 2 và (c) vị trí 3 của các đoạn G4 trên nhiễm sắc
thể của 54 chủng vi khuẩn 32
Trang 918 Mô-típ của những đoạn nối có độ dài 3 nucleotid tại: (a) vị trí 1,
(b) vị trí 2 và (c) vị trí 3 33
19 Mô-típ của những đoạn nối có độ dài từ 1 đến 6 nucleotid 33
Trang 10DANH SÁCH TỪ VIẾT TẮT
12 gidA Glucose-inhibited division protein A
14 TMPyP4 5,10,15,20-tetra(N-methyl-4-pyridyl) porphin
Trang 11ĐẶT VẤN ĐỀ
Phân tử acid deoxyribonucleic (ADN) có thể tồn tại ở nhiều cấu trúc khácnhau, trong đó có mô hình được gọi là G-quadruplex Được phát hiện đầu tiênvào năm 1962, G-quadruplex có thể được hình thành tại các vị trí acid nucleicgiàu guanin [11, 14] Khác với mô hình chuỗi xoắn kép của Watson và Crick, mỗiG-quadruplex gồm 4 mạch đơn nằm song song và liên kết bổ sung nhau bằngliên kết hydro giữa các nucleotid guanin [14, 27] G-quadruplex có cấu trúc đadạng tùy thuộc vào nhiều yếu tố như trình tự nucleotid, vị trí trên nhiễm sắc thể,điều kiện môi trường, v.v [11, 18, 26, 27]
quadruplex tồn tại ở cả sinh vật nhân sơ và nhân chuẩn [19] Ở người, quadruplex được tìm thấy nhiều tại các vị trí như telomere, vùng điều hòa củagen [11, 19, 35] Các nghiên cứu thực nghiệm cho thấy G-quadruplex tham giavào nhiều quá trình sinh học quan trọng như phiên mã, dịch mã, sao chép, bảo vệnhiễm sắc thể, v.v [14, 19] Bởi vậy tác động vào G-quadruplex nhằm thay đổihoạt động của tế bào theo hướng mong muốn là một hướng đi triển vọng tronglĩnh vực Y, Sinh và Dược học
G-Việc lập bản đồ các đoạn có khả năng hình thành G-quadruplex trên nhiễmsắc thể là một trong những bước quan trọng để nghiên cứu về vai trò của G-quadruplex trong tế bào Một số cơ sở dữ liệu về vị trí và cấu trúc của G-quadruplex đang được sử dụng hiện nay gồm có QGRS Mapper [20], Quadbase[37], Quadparser [14] Tuy nhiên, các cơ sở dữ liệu này tập trung chủ yếu vàođối tượng là con người Mặc dù có vai trò quan trọng trong đời sống con ngườinhưng số lượng bản đồ G-quadruplex cho vi khuẩn vẫn còn rất ít Để phần nào
Trang 12giải quyết vấn đề trên, chúng tôi đã thực hiện đề tài nghiên cứu “G-quadruplex
trên nhiễm sắc thể của vi khuẩn: phân bố và trình tự nucleotid” với hai mục tiêu:
• Xây dựng cơ sở dữ liệu về vị trí và trình tự của các đoạn acid nucleic cókhả năng hình thành G-quadruplex trên nhiễm sắc thể của một số vi khuẩnthường gặp
• Khảo sát một số đặc điểm về phân bố và mô-típ của các đoạn acid nucleictrong cơ sở dữ liệu thu được
Trang 13CHƯƠNG 1 TỔNG QUAN
1.1 Vai trò sinh học của G-quadruplex
G-quadruplex là cấu trúc được tạo bởi các đoạn acid nucleic giàu guanin.Khác với cấu trúc xoắn kép theo mô hình Watson-Crick, G-quadruplex gồm ítnhất hai lớp G-tetrad xếp chồng lên nhau và nối với nhau bằng liên kết π - π.G-tetrad gồm bốn guanin nằm trong cùng một mặt phẳng liên kết với nhau bằngliên kết hydro Hoogsten (Hình 1) [27] Cấu trúc này được hình thành tại nhiều vịtrí của bộ gen và tham gia vào nhiều quá trình quan trọng trong tế bào như bảo
vệ nhiễm sắc thể, sao chép ADN, phiên mã và dịch mã [14, 19]
Hình 1: Mô hình của G-quadruplex hình thành trên telomere ở người [27].
• Bảo vệ nhiễm sắc thể
Telomere là những cấu trúc nucleoprotein nằm ở phần cuối của nhiễmsắc thể [24, 31, 33] ADN telomere ở sinh vật nhân thực chứa nhiều đoạnlặp giàu guanin (ở người là TTAGGG) [12, 33] ADN telomere tạo được
Trang 14G-quadruplex trong điều kiện in vitro Vai trò của telomere là bảo vệ nhiễm
sắc thể trước sự phân hủy của các nuclease nội bào (Hình 2)
Hình 2: G-quadruplex trên telomere ngăn cản hoạt động của nuclease [30].
Ngoài bảo vệ nhiễm sắc thể, telomere còn có chức năng như đồng hồsinh học của tế bào Chiều dài của telomere đặc trưng cho từng loài và
có liên quan đến số lần phân chia của tế bào Telomere bị ngắn dần saumỗi chu kỳ phân bào [24, 28], khi telomere không còn đủ độ dài để bảo
vệ nhiễm sắc thể thì cũng là lúc tế bào chết [25, 28] Để ngăn cản hiệntượng này, tế bào sử dụng telomerase - một loại enzym có vai trò nối dàitelomere [24, 35] Tuy nhiên, mặt trái của vệc kéo dài telomere là làm quátrình phân bào có nguy cơ bị mất kiểm soát như đã thấy ở nhiều loại tếbào ung thư [25] Một số nghiên cứu cho thấy hoạt động của telomerasetrong tế bào ung thư sẽ bị kìm hãm dưới tác dụng của một số chất nhưtelomestatin, TMPyP4, [3, 25], đây là những chất có đích tác dụng làcác G-quadruplex trên telomere Vì thế, đây có thể là một hướng nghiêncứu tiềm năng trong điều trị ung thư
• Sao chép ADN
Trang 15Hình 3: quadruplex kích thích hình quá trình khởi đầu chép ADN
G-quadruplex ở gần vị trí khởi đầu phiên mã sẽ kích thích quá trình hình thànhphức hợp khởi đầu sao chép dẫn đến tăng cường sao chép ADN [30]
Quá trình sao chép ADN bắt đầu khi tế bào nhận biết được điểm khởiđầu sao chép Sau đó, ADN polymerase sẽ di chuyển dọc theo mạch khuôn
để lắp các nucleotid bổ sung vào vị trí tương ứng Khi xuất hiện gần vị tríkhởi đầu sao chép, G-quadruplex có thể kích thích quá trình hình thànhphức hợp khởi đầu sao chép (Hình 3) [3] dẫn đến tăng cường sao chépADN hoặc ngược lại cản trở sự di chuyển của helicase và ADN polymerasedẫn đến ức chế sao chép ADN (Hình 4) [30, 35]
• Phiên mã
Trong quá trình phiên mã, ARN polymerase bám vào promoter của gen
và di chuyển dọc theo phân tử ADN để tổng hợp phân tử mARN Thựcnghiệm cho thấy promoter là vùng thường tập trung G-quadruplex [33].Tùy vào vị trí nằm trên mạch khuôn hay mạch mang mã, G-quadruplex có
Trang 16Hình 4: quadruplex ngăn cản hoạt động của ADN polymerase [30]
G-quadruplex cản trở sự di chuyển của ADN polymerase dẫn đến ức chế sao chépADN
thể cản trở hay kích thích phiên mã [3, 7, 30]
• Dịch mã
Quá trình dịch mã từ mARN thành protein gồm 3 bước chính: khởiđầu (gắn ribosom vào mARN), kéo dài (tổng hợp chuỗi acid amin) vàkết thúc (tháo gỡ ribosom) Việc tập trung G-quadruplex ở các vùng 5’/3’không dịch mã của mARN có thể kìm hãm quá trình dịch mã trong tế bào[24, 30, 33]
1.2 Cấu trúc của G-quadruplex
G-quadruplex là cấu trúc được tạo bởi một hay nhiều phân tử acid nucleicmạch đơn (ADN hoặc ARN) giàu guanin Mỗi G-quadruplex gồm ít nhất hai lớpG-tetrad xếp chồng lên nhau Các lớp G-tetrad này liên kết với nhau bằng liên kết
π - π G-tetrad gồm 4 guanin nằm trong cùng một mặt phẳng liên kết với nhau
Trang 17Hình 5: Mô hình của G-tetrad [27].
bằng liên kết hydro Hoogsten Các lớp tetrad nối với nhau bởi các vòng nối Cáccation hoá trị một như K+, Na+ giúp ổn định cấu trúc G-quadruplex bằng cáchkết hợp các nhóm carbonyl của guanin (Hình 5) [27, 30, 31]
G-quadruplex được phân loại dựa trên hướng của sợi đơn acid nucleic và liên kếtglycosid (dạng anti- hay dạng syn- của guanin) Từ đó, cấu trúc của G-quadruplex
có thể được phân thành bốn loại: bốn sợi có cùng hướng (dạng song song), ba sợicùng hướng và một sợi ngược hướng (dạng 3+1), hai sợi cạnh nhau cùng hướng
và hai sợi còn lại có hướng ngược lại (dạng phản song song) và hai sợi cùng trênmột đường chéo cùng hướng và hai sợi còn lại có hướng ngược lại (Hình 6) Cácliên kết glucosid của guanin trong tetrad tương ứng với hướng của các sợi là: anti
- anti - anti - anti hoặc syn - syn - syn - syn, syn - anti - anti - anti hoặc anti - syn
- syn - syn, anti - anti - syn - syn và anti - syn - anti - syn Có ba loại vòng nốichính là: vòng nối nối hai sợi phản song song trên đường chéo, vòng nối bên nốihai sợi phản song song liền kề, vòng nối nối hai sợi song song cạnh nhau (Hình
Trang 187) Sự hình thành và độ ổn định của G-quadruplex bị ảnh hưởng bởi độ dài củavòng nối Vòng nối càng dài thì G-quadruplex càng không ổn định [19, 27].
Hình 6: Phân loại G-quadruplex theo hướng của sợi đơn acid nucleic Từ trái
sang phải: dạng song song, dạng 3+1, dạng phản song song 1, dạng phản songsong 2 [27]
Hình 7: Các loại vòng nối của G-quadruplex Từ trái sang phải: vòng nối nối hai
sợi phản song song trên đường chéo, vòng nối bên nối hai sợi phản song songliền kề, vòng nối nối hai sợi song song cạnh nhau [27]
1.3 Phân bố của G-quadruplex ở sinh vật nhân thực và sinh
vật nhân sơ
• Sinh vật nhân thực
G-quadruplex rất phổ biến ở bộ gen của sinh vật nhân thực [15, 24, 36] Hệgen của người có chứa ít nhất 37.000 đoạn acid nucleic có thể hình thành
Trang 19G-quadruplex [36] G-quadruplex được tìm thấy ở nhiều khu vực của gennhư telomere, promoter, v.v [22, 29] Trong đó, G-quadruplex tập trungnhiều nhất ở promoter, có hơn 40% các promoter của người có chứa nhiềuhơn một đoạn G-quadruplex (Hình 8) [16, 37] Trên mARN, G-quadruplex
có thể được tìm thấy tại khu vực không phiên mã tại đầu 5’ và 3’ [17]
Hình 8: Vị trí của G-quadruplex so với điểm khởi đầu phiên mã [13].
• Sinh vật nhân sơ
So với sinh vật nhân thực, các nghiên cứu về G-quadruplex ở sinh vật nhân
sơ tương đối ít Một số nghiên cứu cho thấy G-quadruplex tập trung gầnđầu 3’ không phiên mã của mARN và khu vực điều hoà của các đơn vịphiên mã [10, 19] Trong đó, phân bố của G-quadruplex ở cả mạch mang
mã và mạch khuôn là tương tương [9]
Trang 201.4 Các thuật toán tìm kiếm G-quadruplex trong bộ gen
Nhiều thuật toán khác nhau đã được dùng để tìm kiếm những đoạn acid cleic có khả năng hình thành nên G-quadruplex (gọi là đoạn G4) [4, 5, 14, 20,
nu-21, 37] Trong đó thuật toán tìm kiếm các chuỗi acid nucleic theo công thức chotrước hoạt động hiệu quả hơn so với các kỹ thuật khác Công thức chung đượcdùng cho các thuật toán này là Gx1NL1Gx2NL2Gx3NL3Gx4 với các giá trị khácnhau về độ dài (x) của vùng nhiều G và độ dài (L) của các đoạn nối (Bảng 1)[14]
Bảng 1: Tham số dùng trong một số thuật toán tìm kiếm G-quadruplex [14].
guanin
Độ dài đoạnnối
Trang 21nucleotid hoặc các tệp tin có định dạng FASTA Người dùng cũng có thể tìmkiếm và phân tích một trình tự gen từ tên gen, gen ID, số truy cập hoặc số GI từNCBI Người dùng có thể thay đổi một số định dạng sẵn như thay đổi chiều dàitối đa của QGRS, thay đổi số lượng tối thiểu của G trong các nhóm hay cố định
số lượng acid nucleic của vòng nối Từ QGRS Mapper, Oleg Kikin xây dựng hai
cơ sở dữ liệu về G4 là GRSDB2 và GRS-UTRdb [21] GRSDB2 chứa dữ liệucủa 29.288 gene và hơn 3 triệu đoạn G4 ở các pre-mARN GRS-UTRdb là cơ sở
dữ liệu của hơn 27.000 đoạn G4 ở đầu 5’ không phiên mã của mARN
Năm 2008, chương trình QuadBase được giới thiệu bởi Vinod Kumar Yadav[37] QuadBase được viết trên nền Java, gồm hai phần là EuQuad và ProQuad.EuQuad dùng để tìm các đoạn G4 trên nhiễm sắc thể của chuột, tinh tinh vàngười ProQuad dùng để tìm các đoạn G4 trên nhiễm sắc thể của một số chủng
vi khuẩn
Một chương trình tìm kiếm các đoạn G4 khác là Quadparser do Julian L.Huppert và Shankar Balasubramanian phát triển [14] Chương trình này có thểnhanh chóng phân tích một số lượng lớn các dữ liệu có định dạng FASTA Kết quảthu được là số lượng, vị trí và một số thông số khác giúp xác định G-quadruplex[14]
1.5 Xác định mô-típ về trình tự nucleic của acid nucleic
Mục đích của xác định mô-típ về trình tự nucleic (gọi tắt là mô-típ) là tìm racác đoạn bảo thủ trên acid nucleic Các đoạn bảo thủ này thường tham gia vàonhiều quá trình sinh học của acid nucleic Để tìm ra mô-típ, các đoạn acid nucleic
Trang 22có cùng chiều dài sẽ được đối chiếu với nhau về trình tự nucleotid Tần số xuấthiện của các nucleotid sẽ được tính toán cho từng vị trí trên đoạn acid nucleotid
và mô-típ chung sẽ là nucleotid có tần số xuất hiện lớn nhất tại vị trí đó [8]Trong phân tích mô-típ, kết quả xác định tần số thường được xử lý và biểuthị dưới dạng biểu đồ Logo [32] Trên biểu đồ Logo, trục hoành biểu thị vị trínucleotid trên đoạn cần phân tích, trục tung biểu thị tần số xuất hiện của nucleotid
và thường có đơn vị là “bit” Các cột trên biểu đồ càng cao thì tần số xuất hiệncủa các nucleotid trong cột càng lớn Mỗi cột trên biểu đồ bao gồm các nucleotidxuất hiện tại cùng một vị trí trên đoạn acid nucleic, tần số xuất hiện của từngnucleotid sẽ tỷ lệ thuận với chiều cao của ký tự biểu diễn nucleotid đó (Hình 9)
Hình 9: Phân tích mô-típ cho thấy trình tự nucleotid bảo thủ của hộp TATA trên
genom của Escherichia coli
Trang 23CHƯƠNG 2 ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU
2.1 Đối tượng
Từ cơ sở dữ liệu hệ gen của 95.090 chủng vi khuẩn có trong NCBI [1], chúngtôi chọn ra 54 chủng vi khuẩn có số lượng nghiên cứu được công bố nhiều nhất
để sử dụng trong đề tài này (Bảng 2)
Bảng 2: Tên và mã NCBI của 54 chủng vi khuẩn sử dụng trong nghiên cứu.
1 NC_00117 Chlamydia trachomatis D/UW-3/CX
2 NC_00907 Haemophilus influenzae Rd KW20
3 NC_00915 Helicobacter pylori 26695
4 NC_00962 Mycobacterium tuberculosis H37Rv
5 NC_00964 Bacillus subtilis subsp subtilis str 168
6 NC_02163 Campylobacter jejuni subsp jejuni NCTC 11168 = ATCC 700819
7 NC_02505 Vibrio cholerae O1 biovar El Tor str N16961 chromosom I
8 NC_02506 Vibrio cholerae O1 biovar El Tor str N16961 chromosom II
9 NC_02516 Pseudomonas aeruginosa PAO1
10 NC_02695 Escherichia coli O157:H7 str Sakai
11 NC_02737 Streptococcus pyogenes M1 GAS
12 NC_02929 Bordetella pertussis Tohama I
13 NC_02942 Legionella pneumophila subsp pneumophila str 1
14 NC_02944 Mycobacterium avium subsp paratuberculosis str k10
15 NC_02946 Neisseria gonorrhoeae FA 1090
16 NC_03098 Streptococcus pneumoniae R6
17 NC_03143 Yersinia pestis CO92
18 NC_03197 Salmonella enterica subsp enterica serovar Typhimurium str LT2
Trang 2419 NC_03210 Listeria monocytogenes EGD-e
20 NC_03997 Bacillus anthracis str Ames
21 NC_04116 Streptococcus agalactiae 2603V/R
22 NC_04337 Shigella flexneri 2a str 301
23 NC_04342 Leptospira interrogans serovar Lai str 56601 chromosom I
24 NC_04343 Leptospira interrogans serovar Lai str 56601 chromosom II
25 NC_04350 Streptococcus mutans UA159
26 NC_04461 Staphylococcus epidermidis ATCC 12228
27 NC_04567 Lactobacillus plantarum WCFS1
28 NC_04603 Vibrio parahaemolyticus RIMD 2210633 chromosom 1
29 NC_04605 Vibrio parahaemolyticus RIMD 2210633 chromosom 2
30 NC_04668 Enterococcus faecalis V583
31 NC_04722 Bacillus cereus ATCC 14579
32 NC_06085 Propionibacterium acnes KPA171202
33 NC_06347 Bacteroides fragilis YCH46 DNA
34 NC_06350 Burkholderia pseudomallei K96243 chromosom 1
35 NC_06351 Burkholderia pseudomallei K96243 chromosom 2
36 NC_06570 Francisella tularensis subsp tularensis SCHU S4
37 NC_06932 Brucella abortus biovar 1 str 9-941 chromosom I
38 NC_06933 Brucella abortus biovar 1 str 9-941 chromosom II
39 NC_07005 Pseudomonas syringae pv syringae B728a chromosom
40 NC_07168 Staphylococcus haemolyticus JCSC1435
41 NC_07492 Pseudomonas fluorescens Pf0-1
42 NC_07795 Staphylococcus aureus subsp aureus NCTC 8325
43 NC_08800 Yersinia enterocolitica subsp enterocolitica 8081
44 NC_09089 Peptoclostridium difficile 630
45 NC_09698 Clostridium botulinum A str Hall
Trang 2546 NC_10397 Mycobacterium abscessus
47 NC_10943 Stenotrophomonas maltophilia K279a
48 NC_12470 Streptococcus equi subsp zooepidemicus H70
56 NC_20064 Serratia marcescens FGI94
57 NZ_009257 Acinetobacter baumannii strain AB030
58 NZ_009486 Burkholderia ubonensis MSMB22 chromosom II
59 NZ_009487 Burkholderia ubonensis MSMB22 chromosom III
60 NZ_009488 Burkholderia ubonensis MSMB22 chromosom I
61 NZ_013733 Campylobacter coli strain OR12
2.2 Phương pháp nghiên cứu
Cơ sở dữ liệu hệ gen của các chủng vi khuẩn được phân tích trên máy tínhbằng các thuật toán viết bằng ngôn ngữ lập trình Python [34] với các thư việnPandas, NumPy, Matplotlib, Biopython, Statistic, Re [23] Các thuật toán đềuđược kiểm tra độ tin cậy bằng các dữ liệu chuẩn trước khi sử dụng để phân tích.Các phân tích thống kê được thực hiện qua thư viện Statistic của Python [23]
Trang 26Thuật toán 1 Thuật toán khảo sát chiều dài của các đoạn giàu guanin.
1: for k ∈ {1, , K} do ◃ K là số lượng nucleotid của nhiễm sắc thể
Đếm số lượng các đoạn GG, GGG, GGGG, GGGGG, GGGGGG,GGGGGGG, GGGGGGGG, GGGGGGGGG, GGGGGGGGGG
2.2.1 Xây dựng cơ sở dữ liệu G4
Thuật toán 2 Thuật toán khảo sát chiều dài của các đoạn nối.
1: for k ∈ {1, , K} do ◃ K là số lượng nucleotid của nhiễm sắc thể
Đếm số lượng các đoạn nối có chiều dài từ 1 đến 10
Trang 27Thuật toán 3 Thuật toán tìm kiếm các đoạn acid nucleic có công thức chung là
GnNL1GnNL2GnNL3Gn với n từ 2 đến 7 và L từ 1 đến 10
1: for k ∈ {1, , K} do ◃ K là số lượng nucleotid của nhiễm sắc thể
Thay các ký tự G đứng riêng lẻ bằng ký tự E
2: end for
3: for k ∈ {1, , K} do ◃ K là số lượng nucleotid của nhiễm sắc thể
G2−7[ATCE]1−10G2−7[ATCE]1−10G2−7[ATCE]1−10G2−7
- Xác định các đoạn G4 và vị trí của đoạn G4 tìm được
4: end for
2.2.2 Khảo sát phân bố của các đoạn G4
Thuật toán 4 Thuật toán xác định tần số xuất hiện của các đoạn G4 so với tỷ lệ
GC
1: for k ∈ {1, , K} do ◃ K là số lượng vi khuẩn nghiên cứu
Tính số lượng đoạn G4
2: end for
3: for k ∈ {1, , K} do ◃ K là số lượng vi khuẩn nghiên cứu
Tính %GC: %GC = (số lượng G +số lượng C)/số lượng nucleotid *100
4: end for
5: Tìm phương trình hồi quy tuyến tính giữa số lượng G4 và %GC
Trang 28Thuật toán 5 Thuật toán xác định đoạn G4 nằm trong gen.
1: j ← 0
2: for i ∈ {1, , K} do ◃ K là số lượng G4 của vi khuẩn đang xét
3: if j + 1 > N then ◃ N là số lượng gen của vi khuẩn tương ứng
break
4: end if
5: if a[j] ≤ x[i] < y[i] ≤ b[j] then G4 nằm trong gen thứ j
◃ a, b tương ứng là vị trí điểm đầu và điểm cuối của gen; x, y tươngứng là vị trí điểm đầu và điểm cuối của đoạn G4
Trang 29Thuật toán 6 Thuật toán xác định đoạn G4 nằm phía trước gen.
1: j ← 0
2: for i ∈ {1, , K} do ◃ K là số lượng G4 của vi khuẩn đang xét
3: if j + 1 > N then ◃ N là số lượng gen của vi khuẩn tương ứng
break
4: end if
5: if a[j] ≥ y[i] then G4 nằm phía trước gen thứ j
◃ a, b tương ứng là vị trí điểm đầu và điểm cuối của gen; x, y tươngứng là vị trí điểm đầu và điểm cuối của đoạn G4