Xây dựng đồ thị tái tổ hợp di truyền cho dữ liệu hệ gen

Các kết quả của đề tài đã đóng góp thêm những phương pháp và công cụ mới giúp các nhà nghiên cứu lý thuyết và thực nghiệm có thể phân tích, phát triển các ứng dụng đồ thị ARG vào các bài toán thực tế về tìm biến thể di truyền liên quan đến bệnh ở người, tìm đa dạng hệ gen người, … trên các tập dữ liệu lớn

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Nguyễn Thị Phương Thảo

XÂY DỰNG ĐỒ THỊ TÁI TỔ HỢP DI TRUYỀN

CHO DỮ LIỆU HỆ GEN

LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội – 2020

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

XÂY DỰNG ĐỒ THỊ TÁI TỔ HỢP DI TRUYỀN

CHO DỮ LIỆU HỆ GEN

Chuyên ngành: Khoa học Máy tính

Mã số: 9480101.01

LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:

1.PGS.TS Lê Sỹ Vinh 2.PGS.TS Lương Chi Mai

Hà Nội – 2020

Trang 3

Lời cam đoan

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các kết quả được viết chung với các tác giả khác đều được sự đồng ý của các đồng tác giả trước khi đưa vào luận án Các kết quả nêu trong luận án là trung thực và chưa từng được ai công

bố trong các công trình nào khác

Tác giả

Trang 4

về nghiên cứu khoa học Những sự chỉ bảo quý giá của các Thầy Cô đã giúp tôi hoàn thành tốt luận án này

Tôi cũng xin cảm ơn tới các Thầy, Cô thuộc Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội đã tạo mọi điều kiện thuận lợi giúp tôi trong quá trình làm nghiên cứu sinh

Tôi xin chân thành cảm ơn các đồng nghiệp trong phòng Nhận dạng và Công nghệ Tri thức, Viện Công nghệ Thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam đã luôn động viên, tạo điều kiện thuận lợi, bố trí thời gian tốt nhất cho tôi trong suốt quá trình làm nghiên cứu sinh

Cuối cùng, tôi xin gửi lời cảm ơn sâu sắc tới gia đình và bạn bè, những người đã cho tôi điểm tựa vững chắc để tôi có được thành công như ngày hôm nay

Trang 5

3

MỤC LỤC

Lời cam đoan 1

Lời cảm ơn 2

MỤC LỤC 3

Danh mục các ký hiệu và chữ viết tắt 6

Danh mục các bảng 7

Danh mục các hình vẽ, đồ thị 8

Danh mục các thuật toán 12

MỞ ĐẦU 13 Chương 1.GIỚI THIỆU 16

1.1.Giới thiệu chung 16

1.1.1 Hệ gen người 16

1.1.2 Mạng phát sinh loài 21

1.2 Xây dựng đồ thị tái tổ hợp di truyền 23

1.2.1 Sự kiện tái tổ hợp 23

1.2.2 Đồ thị tái tổ hợp di truyền 25

1.2.3 Bài toán xây dựng đồ thị ARG 32

1.3 Các phương pháp xây dựng đồ thị ARG 35

1.3.1 Các phương pháp xây dựng đồ thị ARG tối thiểu 35

1.3.2 Các phương pháp xây dựng đồ thị ARG hợp lý 39

1.3.3 Tổng hợp các phần mềm xây dựng đồ thị ARG 41

1.4 Ứng dụng ARG trong nghiên cứu tương quan toàn hệ gen 42

Trang 6

4

1.5 Kết luận chương 45

Chương 2.THUẬT TOÁN ARG4WG XÂY DỰNG ĐỒ THỊ TÁI TỔ HỢP DI TRUYỀN HỢP LÝ CHO DỮ LIỆU HỆ GEN 47

2.1 Giới thiệu 47

2.1.1 Các định nghĩa 47

2.1.2 Thuật toán Margarita xây dựng đồ thị ARG 48

2.2 Thuật toán ARG4WG 51

2.2.1 Chiến lược tìm đoạn đầu chung dài nhất 51

2.2.2 Thuật toán ARG4WG 54

2.3 Kết quả thực nghiệm 61

2.3.1 Các kết quả trên dữ liệu thật 61

2.3.2 Các kết quả trên dữ liệu mô phỏng 65

2.4 Kết quả ứng dụng ARG4WG vào bài toán tìm vùng gen liên quan đến bệnh sốt rét ở Châu Phi 67

Chương 3.PHƯƠNG PHÁP TỐI ƯU HÓA SỐ SỰ KIỆN TÁI TỔ HỢP TRONG QUÁ TRÌNH XÂY DỰNG ĐỒ THỊ ARG 75

3.1 Giới thiệu 75

3.2 Một số định nghĩa và khái niệm sử dụng trong các thuật toán 76

3.3 Hạn chế của thuật toán ARG4WG 78

3.4 Thuật toán REARG 79

3.4.1 Động cơ nghiên cứu 79

3.4.2 Thuật toán REARG 80

Trang 7

5

3.5 Thuật toán GAMARG 83

3.5.1 Động cơ nghiên cứu 83

3.5.2 Thuật toán GAMARG 83

3.6 Kết quả thực nghiệm 88

3.6.1 Kết quả trên các tập dữ liệu nhỏ 89

3.6.2 Các kết quả trên các tập dữ liệu từ dự án 1kGP 90

KẾT LUẬN 100

DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN 102

TÀI LIỆU THAM KHẢO 103

Trang 8

S x [i] Giá trị của S x tại vị trí thứ i

ARG Đồ thị tái tổ hợp di truyền

1KGP Dự án 1000 hệ gen

GWAS Nghiên cứu tương quan toàn hệ gen

MRCA Tổ tiên chung gần nhất

Trang 9

7

Danh mục các bảng

Bảng 1.1: Các phần mềm xây dựng đồ thị ARG tiêu biểu 41

Bảng 2.1: Tập dữ liệu trích xuất từ dự án 1000 hệ gen người 62

Bảng 3.1: Tập dữ liệu từ dự án 1kGP 89

Bảng 3.2: Các kết quả của các thuật toán khác nhau trên các tập dữ liệu nhỏ 89

Bảng 3.3: Số sự kiện tái tổ hợp ít nhất được tìm thấy bởi 5 thuật toán cho 100 trình tự của (a) DS1, (b) DS2 và (c) DS3 91

Bảng 3.4: Số sự kiện tái tổ hợp ít nhất được tìm thấy bởi 5 thuật toán cho 200 trình tự của (a) DS1, (b) DS2 và (c) DS3 92

Bảng 3.5: Trung bình thời gian chạy (giây) của 5 thuật toán cho 100 trình tự của các tập dữ liệu (a) DS1, (b) DS2, và (c) DS3 95

Bảng 3.6: Trung bình thời gian chạy (giây) của 5 thuật toán cho 200 trình tự của các tập dữ liệu (a) DS1, (b) DS2, và (c) DS3 97

Trang 10

8

Danh mục các hình vẽ, đồ thị

Hình 1.1: Cấu trúc hệ gen người Hệ gen người gồm 23 cặp nhiễm sắc thể, có khoảng 3 tỉ phân tử DNA, khoảng 20.000 đến 25.000 gen Nguồn hình: https://genomainternational.com/introduction-to-genomics/ 16Hình 1.2: Các kiểu biến thể trình tự: (a) Thay thế một cặp bazơ đơn Trong ví dụ,

biến thể xuất hiện ở 2 vị trí so với trình tự tham chiếu, đó là thay thế nucleotit T↔A

và G↔A (b) Chuỗi GCA được chèn vào so với trình tự tham chiếu (c) Chuỗi CG

bị xóa so với trình tự tham chiếu 17Hình 1.3: Các loại biến thể cấu trúc: xóa, thêm, lặp, đảo hay lặp nhiều lần 1 đoạn DNA Đoạn đột biến cấu trúc có kích thước lớn hơn 1kb 18Hình 1.4: Ví dụ dữ liệu SNP chứa biến thể 2 alen và nhiều alen Có 8 vị trí SNP đều

là 2 alen, gồm alen tham chiếu và 1 alen biến thể, ví dụ như A và G ở vị trí 1; T và

C ở vị trí 2 Chỉ có vị trí 7 là 3 alen: alen tham chiếu (G) và 2 alen biến thể C, T 19Hình 1.5: Ví dụ 4 haplotype của 4 cá thể trên một vùng gen Một haplotype được tạo thành từ sự kết hợp của các SNP được di truyền cùng nhau trong các đoạn DNA 19Hình 1.6: Cây phân loài biểu diễn mối quan hệ tiến hóa của một số loài linh trưởng Đười ươi và Khỉ đột rẽ nhánh sớm hơn các loài linh trưởng khác Con người rẽ ra một nhánh riêng và nhánh còn lại cho ra Tinh tinh và vượn Bonobo 21Hình 1.7: Khái quát hóa các mạng phát sinh loài điển hình [36] 23Hình 1.8: Hai hiện tượng tái tổ hợp phổ biến của người: (a) trao đổi chéo và (b) chuyển đổi gen 24Hình 1.9: Biến đổi dữ liệu SNP thành dạng nhị phân Vị trí có giá trị giống với tham chiếu là 0, giá trị khác tham chiếu là 1 28

Trang 11

9

Hình 1.10: Đồ thị ARG cho tập dữ liệu M gồm 7 trình tự độ dài 5 [26] Trình tự tổ tiên là “00000”; 5 sự kiện đột biến tại các vị trí tương ứng (1,2,3,4,5) được ghi trên các cạnh xảy ra đột biến của đồ thị; 2 sự kiện tái tổ hợp xảy ra tại vị trí 3 và 4 29Hình 1.11: Điểm cắt tái tổ hợp 30Hình 1.12: Một ví dụ đồ thị ARG cho 4 trình tự với các ký hiệu: ■: trạng thái di truyền, ◘: trạng thái di truyền đột biến, □: trạng thái không xác định 31Hình 1.13: Các cây thành phần (đường đậm nét) của đồ thị ARG trong Hình 1.12 Nguồn hình [43] 33Hình 1.14: (a) Ví dụ cặp vị trí tương thích: cặp vị trí này chỉ chứa 3 loại giao tử và

có thể có được từ 1 tổ tiên chung thông qua 2 sự kiện đột biến (b) Cặp vị trí không tương thích: cặp vị trí chứa 4 loại giao tử và trong trường hợp này phải có ít nhất 1

sự kiện tái tổ hợp xảy ra dưới giả định các vị trí vô hạn (kí hiệu * biểu thị vị trí không có thông tin) 36Hình 1.15: Một cây có nốt sùi cho tập trình tự giống với tập trong Hình 1.10 với 2 nốt sùi tương ứng với 2 chu trình tái tổ hợp không chung nút với nhau [27] 38

Hình 1.16: (a) Đồ thị ARG cho tập 4 trình tự, trong đó trình tự s 1 , s 2 là từ 2 cá thể

khỏe mạnh, trình từ s 3 , s 4 là từ 2 cá thể bị bệnh (b) Đột biến 3 (vùng khoanh tròn) trên cây biên tại vị trí 3 của đồ thị ARG trong (a) cho ra sự phân biệt rõ nhất giữa các trình tự bệnh và trình tự không bệnh 44Hình 2.1: Lưu đồ thuật toán Margarita 49Hình 2.2: Vấn đề trong việc thực hiện sự kiện tái tổ hợp của Margarita Hai trình tự

S 1 và S 2 với đoạn chung dài nhất giữa hai trình tự được biểu diễn bằng đoạn màu đen Thuật toán thực hiện lần lượt 2 sự kiện tái tổ hợp R1 và R2 trên trình tự S 1 để

sinh ra 3 trình tự con S 11 , S 12 và S 13 Sau đó, trình tự con chứa đoạn chung dài nhất

S 13 sẽ được kết hợp với S 2 Vì vậy, khi đoạn chung dài nhất được tìm thấy bên trong

Trang 12

10

trình tự, thuật toán phải thực hiện 2 sự kiện tái tổ hợp trên một trình tự và từ 2 trình

tự ban đầu (S 1 và S 2 ) sẽ thành 3 trình tự ở thế hệ tiếp theo (S 11 , S 12 và S' (S' = S 2)) 50

Hình 2.3: Tất cả các trình tự con từ phía bên trái của s mà có thể kết hợp với một trình tự trong D là một tập con của đoạn bên trái dài nhất của s ( ) 52

Hình 2.4: Phân tách s bằng cách chọn các đoạn chung dài nhất trong s để kết hợp với các trình tự trong D có thể không dẫn tới số cực tiểu sự kiện tái tổ hợp 53

Hình 2.5: Sự kiện tái tổ hợp được biểu thị trong thuật toán ARG4WG (a) Xét 2

trình tự S 1 và S 2, các đoạn đầu chung của 2 trình tự từ phía bên trái (hình lượn sóng)

và từ phía bên phải (màu đen) được xác định (b) Với 1 tập 3 trình tự S 1 , S 2 và S 3, các đoạn đầu chung của mỗi cặp được tính toán (hình lượn sóng) và đoạn đầu chung

dài nhất được xác định được mô tả bằng đoạn màu đen giữa trình tự S 1 và S 2 (c)

Một sự kiện tái tổ hợp được thực hiện trên trình tự S 1 để sinh ra 2 trình tự con S 11 và

S 12 S 12 chứa đoạn đầu chung dài nhất sau đó sẽ được kết hợp với S 2 Như vậy,

ARG4WG luôn thực hiện 1 tái tổ hợp trên 1 trình tự và từ 2 trình tự ban đầu (S 1 , S 2)

sẽ thành 2 trình tự ở thế hệ tiếp theo (S 11 , S’), trong đó S’ = S 2 và S 11 có ít vật liệu di

truyền hơn S 1 55Hình 2.6: Trung bình thời gian chạy của Margarita, Margarita1.0 và ARG4WG cho: (a) 500 haplotype; (b) 1000 haplotype; và (c) 2000 haplotype 63Hình 2.7: Trung bình số sự kiện tái tổ hợp của Margarita, Margarita1.0 và ARG4WG cho: (a) 500 haplotype; (b) 1000 haplotype; và (c) 2000 haplotype 65Hình 2.8: Khoảng cách RF của các cây được tạo ra bởi thuật toán Margarita và ARG4WG so với các cây đúng tương ứng trên các khoảng tỉ lệ đột biến và tái tổ hợp khác nhau 67Hình 2.9: Sự tương quan đến bệnh từ 106 kiểm định hoán vị trên: (A) 10 ARG xây dựng trên toàn bộ NST 11; (B) 30 ARG xây dựng trên vùng 5000 SNP quanh gen

l

s

Trang 13

11

HBB; và (C) Tổng hợp kết quả cho các thực nghiệm trên vùng 1000 SNP quanh gen HBB 70Hình 2.10: Sự tương quan với bệnh khi sử dụng thuật toán Margarita trên vùng 4M-6M quanh gen HBB 72

Hình 3.1: Một ví dụ đồ thị ARG tối thiểu cho tập dữ liệu D(5) gồm 5 trình tự độ dài

5 Xét ngược chiều thời gian, thứ tự thực hiện các sự kiện đột biến, kết hợp hay tái

tổ hợp để xây dựng đồ thị ARG được đánh số trong hình tròn Trong ví dụ này, sự kiện tái tổ hợp được thực hiện đầu tiên trên trình tự “01010” sinh ra 2 trình tự

“01***” và “**010” Tiếp theo là sự kiện kết hợp trình tự “**010” và “00010” thành trình tự “00010” Sự kiện đột biến được thực hiện sau đó biến đổi trình tự

“00010” thành trình tự “00000” Quá trình xây dựng đồ thị ARG được tiếp tục thực hiện cho tới khi tổ tiên chung “10001” được tìm thấy 77

Hình 3.2: Quá trình xây dựng đồ thị ARG cho tập dữ liệu D={S 1 ,S 2 ,S 3 ,S 4 ,S 5} của thuật toán ARG4WG 𝑅𝑖, 𝑗 biểu thị một sự kiện tái tổ hợp giữa vị trí i và vị trí j; 𝐶𝑥

biểu thị sự kiện kết hợp thứ x; 𝑀𝑖 biểu thị một sự kiện đột biến tại vị trí i 79

Hình 3.3: Thuật toán ARG4WG xác định được 3 cặp ứng cử viên có cùng đoạn đầu chung dài nhất cho tập 5 trình tự như trong các khung hình chữ nhật Một trong 3 cặp sẽ được chọn ngẫu nhiên để thực hiện tái tổ hợp 80

Hình 3.4: Cho tập dữ liệu D={S 1 ,S 2 ,S 3 ,S 4 ,S 5}, lựa chọn thực hiện tái tổ hợp trên trình

tự S 4 giữa vị trí 1 và vị trí 2 dẫn đến việc phải thực hiện thêm 1 sự kiện tái tổ hợp nữa để phá vỡ cặp vị trí không tương thích (1,2) 84Hình 3.5: Lưu đồ thuật toán GAMARG 85Hình 3.6: Số sự kiện tái tổ hợp ít nhất được tìm thấy bởi 3 thuật toán ARG4WG, REARG và GAMARG cho 100 và 200 trình tự với 2000, 5000, và 10000 SNP của tập DS1, DS2, và DS3 94

Trang 14

12

Danh mục các thuật toán

Thuật toán 2.1: Thuật toán ARG4WG xây dựng một ARG từ một tập trình tự D cho

trước 60Thuật toán 3.1: Thuật toán REARG 81Thuật toán 3.2: Thuật toán GAMARG 87

Trang 15

Những dữ liệu này đại diện cho một nguồn thông tin rất hữu ích và đặt ra các vấn đề tính toán mới trong các nghiên cứu trên toàn hệ gen, điển hình là các nghiên cứu về phân bố của các biến thể di truyền trong một quần thể hay xác định các vùng gen có tác động và có ý nghĩa về mặt sinh học đối với các đặc điểm quan trọng mà ta quan tâm Để giải quyết những bài toán này đòi hỏi nhiều phương pháp mới, trong đó có những hướng đi mới sử dụng lý thuyết đồ thị và thuật toán để mô hình hóa và tính toán các mô hình tiến hóa trong quần thể Đáng chú ý trong số đó là đồ thị tái tổ hợp

di truyền (Ancestral Recombination Graph - ARG), một công cụ quan trọng trong nghiên cứu di truyền quần thể và các bài toán liên quan đến tìm sự đa dạng trong hệ gen [1,58]

Với một tập các chuỗi nhiễm sắc thể, đồ thị ARG đầy đủ sẽ mô tả một cách chi tiết lịch sử di truyền, mối quan hệ của chúng với nhau và với một tổ tiên chung (common ancestor) thông qua ba sự kiện: đột biến (mutation), tái tổ hợp (recombination) và kết hợp (coalescence) Trong quá trình xây dựng đồ thị ARG, sự kiện tái tổ hợp và sự kiện đột biến là 2 sự kiện cốt lõi ảnh hưởng tới đồ thị kết quả,

từ đó ảnh hưởng trực tiếp tới các ứng dụng liên quan như tìm vùng gen liên quan đến bệnh, đột biến gây bệnh, đặc trưng của quần thể quan sát, … Tuy nhiên, số sự kiện tái tổ hợp và sự kiện đột biến cũng như vị trí thực sự xảy ra trong quá trình tiến hóa là không biết trước Do đó, chúng ta không thể biết được ARG thực sự mà chúng ta chỉ có thể suy diễn chúng từ dữ liệu với các giả định tối ưu số sự kiện tái tổ hợp và sự kiện đột biến nhằm có được ARG với các sự kiện sát nhất với thực tế

Trang 16

14

Nhiều phương pháp xây dựng đồ thị ARG đã được đề xuất [26], tập trung vào 2

cách tiếp cận chính: (1) xây dựng đồ thị ARG tối thiểu (minimal ARG), tức là đồ thị

có chính xác số sự kiện tái tổ hợp nhỏ nhất; và (2) xây dựng đồ thị ARG hợp lý

(plausible ARG), tức là đồ thị có số sự kiện tái tổ hợp tùy thuộc vào thuật toán xấp

xỉ chúng Tuy nhiên, các phương pháp xây dựng đồ thị ARG hiện tại vẫn gặp những hạn chế sau:

- Đa số các phương pháp xây dựng đồ thị ARG mới chỉ giới hạn với những tập dữ liệu nhỏ và vừa hàng trăm trình tự [52,58,62]

- Các phương pháp xây dựng đồ thị ARG với hàm mục tiêu có chính xác số sự kiện tái tổ hợp ít nhất hiện thời còn tốn rất nhiều thời gian và chỉ khả thi với những tập dữ liệu rất nhỏ chứa vài chục trình tự [62,71]

Ngày nay, những thành tựu trong công nghệ giải trình tự gen thế hệ mới, sự phát triển và ngày càng hoàn thiện của các thư viện đặc tả biến dị di truyền trong quần thể người đã tạo tiền đề cho các nghiên cứu trên toàn hệ gen Để có thể ứng dụng được vào các nghiên cứu về biến thể di truyền liên quan đến bệnh ở người một cách hiệu quả, các phương pháp phải có khả năng tính toán được trên dữ liệu liên quan đến hàng nghìn hệ gen Từ đó, mục tiêu và kết quả của luận án đã đạt được là:

1 Nghiên cứu các phương pháp xây dựng đồ thị ARG hiện tại, từ đó đề xuất thuật toán gần đúng xây dựng đồ thị ARG cho hàng nghìn trình tự, thậm chí hàng nghìn hệ gen nhằm ứng dụng hiệu quả vào các bài toán thực tế trên các tập dữ liệu lớn

2 Đề xuất thuật toán xây dựng đồ thị ARG với hàm mục tiêu tối thiểu hóa số sự kiện tái tổ hợp trong quá trình xây dựng đồ thị ARG bằng việc kết hợp thuật toán đề xuất trong (1) với một số đặc trưng của dữ liệu và kĩ thuật tối ưu được sử dụng trong các phương pháp tìm cận dưới tái tổ hợp và các phương pháp xây dựng đồ thị ARG tối thiểu đã có

Trang 17

15

Các kết quả của luận án đã được công bố trong 1 bài tạp chí ISI (công trình khoa học số 1) và 2 báo cáo hội nghị quốc tế (công trình khoa học số 2 và 3) Ngoài phần kết luận, luận án được tổ chức như sau:

Chương 1 đầu tiên giới thiệu khái quát về hệ gen người và các mạng phát sinh loài

(phylogenetic networks) Sau đó là phần giới thiệu về bài toán xây dựng đồ thị ARG Phần cuối của chương trình bày các cách tiếp cận giải bài toán xây dựng đồ thị ARG và ứng dụng của ARG trong nghiên cứu tương quan toàn hệ gen

Chương 2 đề xuất một thuật toán xây dựng đồ thị ARG cho dữ liệu lớn hàng nghìn

trình tự độ dài hệ gen người Để làm được điều đó, chúng tôi đưa ra các nhược điểm của các cách tiếp cận hiện có, đặc biệt là những hạn chế trong thuật toán Margarita xây dựng đồ thị ARG hợp lý được đề xuất bởi Minichiello và Durbin [52], từ đó đưa ra thuật toán đề xuất nhằm khắc phục các nhược điểm đó Các kết quả thực nghiệm ở phần sau của chương đã chứng tỏ hiệu quả của thuật toán đề xuất Phần cuối của chương giới thiệu kết quả ứng dụng thuật toán đề xuất vào bài toán tìm vùng gen liên quan đến bệnh sốt rét ở Châu Phi trên tập dữ liệu lớn gồm 5560 trình

tự trên toàn nhiễm sắc thể 11 Các kết quả trong phần này đã khẳng định thêm hiệu quả, khả năng ứng dụng của thuật toán đề xuất trong các bài toán thực tế trên dữ liệu lớn

Chương 3 của luận án giới thiệu các phương pháp nhằm cực tiểu hóa số sự kiện tái

tổ hợp trong quá trình xây dựng đồ thị ARG Cụ thể, chúng tôi đề xuất hai phương pháp: (1) kết hợp một số đặc trưng của dữ liệu; (2) kết hợp kĩ thuật sử dụng trong các phương pháp xây dựng đồ thị ARG tối thiểu với chiến lược thực hiện sự kiện tái

tổ hợp đề xuất trong chương 2 để tối ưu hóa số sự kiện tái tổ hợp Các thực nghiệm trên các bộ dữ liệu khác nhau đã chứng tỏ hiệu quả của các phương pháp đề xuất

Trang 18

sơ lược về các loại mạng phát sinh loài (phylogenetic networks), một công cụ quan trọng để biểu diễn các mối quan hệ tiến hóa trong nghiên cứu di truyền quần thể

1.1.1 Hệ gen người

Bộ gen người là tất cả vật liệu di truyền của một người được di truyền từ thế hệ này sang thế hệ khác Bộ gen chứa các gen, mỗi gen là một đoạn DNA

(deoxyribonucleic acid) mã hóa cho những sản phẩm riêng lẻ như các mRNA được

sử dụng trực tiếp cho tổng hợp các enzim, các protein cấu trúc hay các chuỗi polypeptide để gắn lại tạo ra protein có hoạt tính sinh học Các gen được đóng gói trong nhiễm sắc thể, nhiễm sắc thể nằm trong nhân tế bào, mỗi nhân tế bào có 23 cặp nhiễm sắc thể (Hình 1.1) [54]

Hình 1.1: Cấu trúc hệ gen người Hệ gen người gồm 23 cặp nhiễm sắc thể, có khoảng 3 tỉ

phân tử DNA, khoảng 20.000 đến 25.000 gen Nguồn hình:

https://genomainternational.com/introduction-to-genomics/

Trang 19

là nguồn gốc của biến thể mới, xảy ra khi có lỗi trong quá trình sao chép DNA mà không được sửa chữa bởi các enzyme sửa chữa DNA Trong khi tái tổ hợp di truyền

là nguyên nhân chính của biến thể di truyền ở thế hệ con cái Mỗi người có sự pha trộn các vật liệu di truyền từ cha mẹ Tái tổ hợp góp phần vào biến đổi gen bằng cách xáo trộn DNA của cha mẹ và tạo ra các tổ hợp biến thể mới Chi tiết về sự kiện tái tổ hợp được giới thiệu trong Mục 1.2.1

Hình 1.2: Các kiểu biến thể trình tự: (a) Thay thế một cặp bazơ đơn Trong ví dụ, biến thể

xuất hiện ở 2 vị trí so với trình tự tham chiếu, đó là thay thế nucleotit T↔A và G↔A (b)

Chuỗi GCA được chèn vào so với trình tự tham chiếu (c) Chuỗi CG bị xóa so với trình tự

tham chiếu

Biến thể di truyền có thể được phân loại thành biến thể trình tự và biến thể cấu trúc [20,57] Các biến thể trình tự gồm dạng thay thế một cặp bazơ (base pair, viết tắt là bp) hay còn gọi là đa hình đơn nucleotit (Single Nucleotide Polymorphisms – SNP)

và xóa hoặc thêm một đoạn DNA kích thước nhỏ hơn 1kb (1kb = 1000 bp) (Hình 1.2) Các trường hợp chèn và xóa phạm vi lớn hơn, cũng như các trường hợp đảo

Trang 20

18

ngược (inversion) hay lặp lại 2 lần (duplication) hoặc nhiều lần (copy-number variant) 1 đoạn DNA được gọi chung là các biến thể cấu trúc (Hình 1.3) Biến thể cấu trúc thường làm thay đổi cấu trúc của hệ gen, cấu trúc của protein tương ứng Đoạn DNA biến thể có kích thước từ 1kb đến hơn 5Mb (1Mb = 106 bp)

Hình 1.3: Các loại biến thể cấu trúc: xóa, thêm, lặp, đảo hay lặp nhiều lần 1 đoạn DNA

Đoạn đột biến cấu trúc có kích thước lớn hơn 1kb

Biến thể SNP là loại biến thể di truyền phổ biến nhất trong hệ gen người Một biến đổi điểm có tần số xuất hiện trong quần thể lớn hơn 1% thì được gọi là SNP

Dữ liệu SNP

Các dự án hệ gen người [12,13,40] đã chỉ ra có khoảng 10 triệu SNP trong hệ gen người và chúng đóng vai trò như là các dấu hiệu sinh học giúp phân biệt sự khác nhau giữa người với người Chúng giải thích cho sự khác nhau về màu mắt, màu tóc, nhóm máu của con người Một số SNP có thể ảnh hưởng tới nguy cơ phát triển một số bệnh hay rối loạn nào đó Dữ liệu SNP đóng một vai trò đặc biệt quan trọng trong các nghiên cứu tương quan toàn hệ gen (Genome-Wide Association Study – GWAS) nhằm so sánh các vùng trong hệ gen người để định vị vùng gen và các biến thể di truyền có ảnh hưởng tới sức khỏe hay liên quan đến bệnh quan tâm, từ đó giúp cho quá trình chẩn đoán và điều trị [4,6,49,67]

Trang 21

19

Hầu hết SNP ở người là 2 alen (biallelic SNP), tức là các vị trí SNP chỉ chứa alen tham chiếu và alen biến thể, chiếm đến hơn 99% tổng số SNP [8] Ngoài ra còn có một số ít các SNP đa alen (multiallelic SNP), là các vị trí SNP chứa alen tham chiếu

và 2 hoặc nhiều alen biến thể (Hình 1.4)

Hình 1.4: Ví dụ dữ liệu SNP chứa biến thể 2 alen và nhiều alen Có 8 vị trí SNP đều là 2 alen, gồm alen tham chiếu và 1 alen biến thể, ví dụ như A và G ở vị trí 1; T và C ở vị trí 2

Chỉ có vị trí 7 là 3 alen: alen tham chiếu (G) và 2 alen biến thể C, T

Dữ liệu haplotype

Hình 1.5: Ví dụ 4 haplotype của 4 cá thể trên một vùng gen Một haplotype được tạo thành

từ sự kết hợp của các SNP được di truyền cùng nhau trong các đoạn DNA

Trang 22

20

Haplotype là một nhóm các gen trong một sinh vật được di truyền cùng nhau từ bố

hoặc mẹ của chúng Nhóm gen này được di truyền cùng nhau do liên kết di truyền, hoặc hiện tượng các gen gần nhau trên cùng một nhiễm sắc thể thường được di truyền cùng nhau Ngoài ra, thuật ngữ "haplotype" cũng còn được đề cập đến là

nhóm các SNP được di truyền cùng nhau trong các đoạn DNA [13] (Hình 1.5) Dữ

liệu SNP haplotype này là dữ liệu quan trọng trong các nghiên cứu di truyền quần

thể và là dữ liệu đầu vào cho bài toán xây dựng đồ thị ARG

Trong hệ gen người (và các loài lưỡng bội nói chung), mỗi người có 2 haplotype trong một vùng xác định của hệ gen

Dữ liệu kiểu gen (genotype)

Kiểu gen của một cá thể là tập hợp tất cả các alen – những dạng biến dị khác nhau

của cùng một gen ở cá thể đó 234)

(https://www.nature.com/scitable/definition/genotype-Với các loài lưỡng bội, mỗi vị trí gen c sẽ có 2 alen Nếu trạng thái alen tại vị trí c là

P và Q, kí hiệu "P/Q" chỉ kiểu gen tại vị trí đó Một vị trí được gọi là đồng hợp tử (homozygous) nếu kiểu gen tại vị trí đó mang 2 alen giống nhau, và được gọi là dị hợp tử (heterozygous) nếu kiểu gen tại vị trí đó mang 2 alen khác nhau

Ví dụ, ta có kiểu gen tại 5 vị trí tương ứng của 1 cá thể X là: A/A, G/A, C/C, T/T, A/T Vị trí thứ 1, 3 và 4 được gọi là đồng hợp tử còn vị trí thứ 2 và vị trí thứ 5 được gọi là dị hợp tử

Nếu chỉ biết dữ liệu kiểu gen, ta không thể suy luận được 2 haplotype của cá thể X này vì sẽ có 2 cặp haplotype phù hợp với dữ liệu kiểu gen này do 2 vị trí dị hợp tử: Cặp 1: A G C T A Cặp 2: A A C T A

A A C T T A G C T T

Trang 23

21

Bài toán tìm haplotype khi cho trước dữ liệu kiểu gen cũng như bài toán xác định kiểu gen và haplotype cho dữ liệu hệ gen thu được từ máy giải trình tự gen thế hệ mới là các bài toán đặc biệt quan trọng trong tin sinh [5,46,51]

1.1.2 Mạng phát sinh loài

Theo học thuyết tiến hóa của Darwin tất cả các loài sinh vật đều tiến hóa từ một tổ tiên chung Mối quan hệ giữa các loài sinh vật được biểu diễn bởi một cây, gọi là

cây phân loài (phylogenetic tree) với cấu trúc như Hình 1.6 [14,59]:

Hình 1.6: Cây phân loài biểu diễn mối quan hệ tiến hóa của một số loài linh trưởng Đười ươi và Khỉ đột rẽ nhánh sớm hơn các loài linh trưởng khác Con người rẽ ra một nhánh

riêng và nhánh còn lại cho ra Tinh tinh và vượn Bonobo

• Mỗi nút lá của cây biểu diễn cho một loài sinh vật hiện tại

• Mỗi nút bên trong của cây biểu diễn cho một loài sinh vật tổ tiên Thông thường, chúng ta không có thông tin về các loài sinh vật tổ tiên này

• Một cạnh của cây nối hai nút của cây và biểu diễn mối quan hệ trực tiếp giữa hai loài sinh vật ở hai nút của cây

Trang 24

22

• Độ dài của cạnh nối hai loài sinh vật trên cây cho biết khoảng cách tiến hóa giữa chúng Khoảng cách này có thể được biểu diễn bằng thời gian, hay số lượng các biến đổi nucleotit giữa hai chuỗi DNA được sử dụng để so sánh hai loài

Cây phân loài là mô hình cơ bản nhất để biểu diễn quan hệ tiến hóa của các loài hoặc các gen Tuy nhiên, mô hình dạng cây không thể biểu diễn các thông tin và hiện tượng sinh học khác như chuyển gen ngang (horizontal gene transfer), tái tổ hợp (recombination) hoặc lai ghép (hybridization) Trong những trường hợp đó, một số nhánh của cây kết hợp thành một nút mắt lưới (reticulation node) và cây trở thành mạng phát sinh loài (phylogentic network) [36]

Mạng phát sinh loài đang trở thành một công cụ quan trọng trong tiến hóa phân tử

Mạng phát sinh loài là đồ thị bất kì được sử dụng để biểu diễn các mối quan hệ tiến hóa (bằng các cạnh) giữa một tập hợp các nhãn (taxa) (bằng các nút lá) [37]

Với sự đa dạng dữ liệu sinh học hiện có, rất nhiều loại mạng phát sinh loài khác nhau đã ra đời Có khoảng 20 loại mạng phát sinh loài khác nhau [36] Một số mạng được đặt tên bởi các thuật toán tính toán chúng hoặc bởi các đặc tính toán học mà định nghĩa chúng, ví dụ như “neighbor-nets” hoặc “median networks” Một số mạng khác được đặt tên theo các loại sự kiện tiến hóa mà họ mô hình hóa, ví dụ như

“hybridization networks”, “recombination networks” hay “duplication-loss-transfer (DLT) networks” Hình 1.7 minh họa một số mạng tổng quát hiện có Mỗi mạng có vai trò khác nhau: cây phân loài mô tả mối quan hệ giữa các loài hoặc các gen; mạng phân tách mô tả sự khác nhau giữa các cây phát sinh loài; các sự kiện lai ghép hay tái tổ hợp được mô hình hóa trong các mạng lai ghép hay các mạng tái tổ hợp,

… Trong đó, sự kiện tái tổ hợp là sự kiện quan trọng thu hút được nhiều sự quan tâm của các nhà nghiên cứu, đặc biệt trong di truyền quần thể Việc phân tích và xác định được các sự kiện tái tổ hợp giúp cho quá trình xác định đa dạng di truyền, tìm

Trang 25

23

hiểu các nguyên nhân dẫn đến các bệnh đa yếu tố như bệnh tiểu đường, ung thư, …

và là nền tảng nghiên cứu thuốc chữa bệnh [6]

Hình 1.7: Khái quát hóa các mạng phát sinh loài điển hình [36]

Trong luận án này, đối tượng nghiên cứu là đồ thị tái tổ hợp di truyền (đồ thị

ARG), một loại mạng phát sinh loài mô hình hóa quan hệ di truyền giữa các trình tự

của các cá thể được quan sát trong một quần thể khi có sự kiện tái tổ hợp xảy ra trong lịch sử tiến hóa của chúng

1.2 Xây dựng đồ thị tái tổ hợp di truyền

Mỗi loài sinh vật có cơ chế tái tổ hợp khác nhau Đối với loài người, trao đổi chéo

là kiểu tái tổ hợp phổ biến nhất xảy ra trong quá trình giảm phân Trao đổi chéo là

Trang 26

24

hiện tượng 2 trình tự DNA có độ dài bằng nhau có sự trao đổi lẫn nhau và sinh ra một trình tự tái tổ hợp thứ 3 có cùng độ dài, chứa phần đầu của một trình tự và theo

sau bởi phần sau của trình tự còn lại (Hình 1.8a) Chuyển đổi gen là hiện tượng trình

tự tái tổ hợp được tạo ra từ phần đầu của một trình tự, theo sau bởi phần giữa của trình tự thứ 2 và theo sau bởi phần cuối của trình tự đầu tiên (Hình 1.8b)

Hình 1.8: Hai hiện tượng tái tổ hợp phổ biến của người: (a) trao đổi chéo và (b) chuyển đổi

Sự tồn tại của bộ gen tổ hợp phong phú như vậy thúc đẩy các nghiên cứu về sự biến đổi gen trong các quần thể để khám phá mối quan hệ giữa nội dung bộ gen và các đặc điểm quan tâm có ảnh hưởng từ yếu tố di truyền

Trang 27

25

1.2.2 Đồ thị tái tổ hợp di truyền

Từ dữ liệu trình tự của một quần thể quan sát, có nhiều câu hỏi liên quan chúng ta muốn biết như: đặc điểm di truyền của quần thể như thế nào? Lịch sử dân số hay nguồn gốc địa lý của quần thể? Hay tìm nguyên nhân cho sự mở rộng hoặc suy giảm dân số của quần thể, mức độ di cư như thế nào? Và quan trọng hơn là tìm mối liên hệ giữa kiểu hình quan sát (ví dụ như bệnh) trong các cá thể thuộc quần thể và

dữ liệu trình tự để tìm ra các gen gây bệnh và các cơ chế liên quan Đồ thị tái tổ hợp

di truyền đóng một vai trò quan trọng trong việc trả lời các câu hỏi liên quan đến nghiên cứu di truyền quần thể và các bài toán liên quan đến tìm sự đa dạng trong hệ gen [1]

Khi xây dựng được đồ thị ARG, chúng ta không những xác định được các vùng liên quan đến bệnh quan tâm mà đồ thị còn cho ta cái nhìn tổng quan về đặc điểm của quần thể quan sát, nền tảng của đột biến gây bệnh, và từ đó có thể dự đoán và thay thế dữ liệu bị khuyết (imputing missing data) [53] Trong nghiên cứu về bệnh dựa trên tập dữ liệu người bệnh và người không bệnh (case-control study), việc xây dựng đồ thị ARG giúp tìm được vị trí nhánh phân biệt rõ nhất giữa người bệnh và người không bệnh, từ đó xác định được vùng gen liên quan đến bệnh [52,71] Đồ thị ARG còn được ứng dụng hiệu quả trong bài toán tìm SNP, một bài toán quan trọng được tập trung giải quyết trong dự án bản đồ hệ gen người [44] Trong nghiên cứu

di truyền quần thể, đồ thị ARG có ứng dụng trong bài toán xác định các dấu hiệu của chọn lọc tự nhiên [30]; nghiên cứu dòng gen (gene-flow) và sự di trú (migration) liên quan đến tổ tiên của người hiện đại [32]; bài toán phân biệt chuyển đổi gen với tái tổ hợp trao đổi chéo [61]; phát hiện dòng gen trong nấm men [38]; phát hiện đồng tiến hóa (coevolution) trong nấm [10], Tổng hợp nhiều ứng dụng của đồ thị ARG được giới thiệu trong [1,26,30]

Đồ thị ARG được xây dựng xuất phát từ lý thuyết kết hợp (coalescent theory) của

Kingman năm 1982 [39] Kingman đưa ra một cách mô hình quan hệ họ hàng của các chuỗi DNA khi không có sự kiện tái tổ hợp Các sự kiện kết hợp và đột biến

Trang 28

26

được xem xét và biểu diễn dưới dạng cây Tuy nhiên, ngoài sự kiện kết hợp và đột biến, sự kiện tái tổ hợp là một thực tế không thể loại bỏ của quá trình tiến hóa và di truyền Do đó, lý thuyết kết hợp truyền thống đã được mở rộng để tính đến sự kiện tái tổ hợp dưới dạng đồ thị ARG [34] Khi tái tổ hợp được xét đến trong một mô hình kết hợp, một trình tự được mô hình là có một hoặc hai trình tự cha trong thế hệ trước (là hai nếu tái tổ hợp xảy ra và là một trong trường hợp còn lại), và do đó chúng ta xét đến một đồ thị thay vì là một cây

Mục 1.2.2.1 dưới đây sẽ mô tả giả định được sử dụng để định nghĩa một mạng phát sinh loài là một đồ thị ARG Từ đó dẫn tới mô tả dữ liệu vào cho thuật toán xây dựng đồ thị ARG trong mục 1.2.2.2 và cấu trúc của một đồ thị ARG trong mục 1.2.2.3

1.2.2.1 Mô hình các vị trí vô hạn

Sự kiện tái tổ hợp và sự kiện đột biến là hai sự kiện quan trọng dẫn tới các biến đổi trên hệ gen từ thế hệ này sang thế hệ khác Sự kiện đột biến liên quan đến biến đổi trên một vị trí trên chuỗi DNA còn sự kiện tái tổ hợp liên quan đến biến đổi trên các đoạn DNA, dẫn tới tái cấu trúc lại hệ gen làm cho hệ gen của chúng ta là sự pha trộn và kế thừa di truyền từ các thế hệ trước

Trong chiều dài lịch sử tiến hóa, tại một vị trí trên tập các trình tự quan sát, sự kiện đột biến có thể xảy ra một hoặc nhiều lần Trường hợp đột biến xảy ra tại một vị trí

sau đó đột biến ngược lại trạng thái trước đó gọi là đột biến ngược (back mutation);

trường hợp đột biến xảy ra tại một vị trí, sau đó lại xuất hiện lại tại vị trí đó một

hoặc nhiều lần ở các nhánh tiến hóa (lineage) khác nhau gọi là đột biến lặp lại

(recurrent mutation)

Trường hợp mạng phát sinh loài biểu diễn sự kiện tái tổ hợp và đột biến, cho phép

đột biến ngược hoặc lặp lại được gọi là mạng tái tổ hợp Quá trình xây dựng đồ thị

ARG gắn với giả định có nhiều nhất một sự kiện đột biến xảy ra tại mỗi vị trí trong toàn bộ lịch sử tiến hóa, không cho phép đột biến tái phát Mô hình đột biến này gọi

Trang 29

27

là mô hình các vị trí vô hạn (infinite-sites model), mô tả sự tiến hóa của các chuỗi

DNA rất dài với tỷ lệ đột biến thấp ở mỗi vị trí

Mô hình các vị trí vô hạn xuất phát từ quan sát dữ liệu trình tự thực tế cho thấy, số

lượng các vị trí đột biến thường nhỏ so với số lượng vị trí giống hệt nhau Nghiên

cứu đã chỉ ra, tỉ lệ đột biến ở mỗi thế hệ người khoảng 1.2 x10-8 [60], tức là, với độ

dài hệ gen người ~3 tỉ cặp base, mỗi thế hệ người chỉ được phép đột biến khoảng

3x109x1.2x10-8 = 36 cặp nucleotit/thế hệ Vì vậy, khả năng xảy ra đột biến 2 lần tại

một vị trí là rất thấp [28]

Đồ thị ARG dưới giả định các vị trí vô hạn còn được gọi là mạng phát sinh loài

hoàn hảo có sự kiện tái tổ hợp [69] hay đồ thị ARG hoàn hảo (perfect ARG) [42]

Trên góc độ sinh học, khả năng xảy ra đột biến tái phát là có trong thực tế Tuy

nhiên, từ góc độ toán học và mô hình hóa, một đột biến ngược hoặc lặp lại có thể được mô hình bằng sự kiện trao đổi chéo [26]

1.2.2.2 Dữ liệu đầu vào cho đồ thị ARG dựa trên mô hình các vị trí vô hạn

Dưới giả định mô hình các vị trí vô hạn - chỉ cho phép 1 đột biến xảy ra tại một vị

trí trong suốt lịch sử tiến hóa, dữ liệu đầu vào của bài toán xây dựng đồ thị ARG là

dữ liệu SNP haplotype, chỉ tính đến các vị trí SNP 2 alen Do đó, chỉ có nhiều nhất

2 nucleotit khác nhau xuất hiện ở mỗi vị trí trong dữ liệu Như vậy, dữ liệu đầu vào

có thể chuyển đổi thành dạng nhị phân với 2 trạng thái 0 và 1

Dữ liệu gen người được chuyển đổi thành dạng nhị phân bằng việc quy định alen

tham chiếu là 0 và alen biến thể là 1 (Hình 1.9) Đối với quần thể người (và các loài

lưỡng bội nói chung), 2 trình tự SNP haplotype trong mỗi người được coi là độc lập

nhau, tương ứng với 2 trình tự trong dữ liệu đầu vào của bài toán xây dựng đồ thị

ARG

Trang 30

28

Hình 1.9: Biến đổi dữ liệu SNP thành dạng nhị phân Vị trí có giá trị giống với tham chiếu

là 0, giá trị khác tham chiếu là 1

1.2.2.3 Cấu trúc đồ thị ARG

Có 4 thành phần cần thiết để xác định một đồ thị ARG tổng quát cho 1 tập trình tự nhị phân D cho trước: đồ thị cơ sở, các nhãn cạnh, các nhãn nút, và các trình tự quan sát (xem Hình 1.10) [26]

− Đồ thị cơ sở: Cho một tập D gồm n trình tự nhị phân độ dài m, một đồ thị

ARG cho D được xây dựng trên một đồ thị có hướng không có chu trình (directed acyclic graph – DAG) chứa chính xác một nút gốc không có cạnh đến, một tập các

nút bên trong có cả cạnh đến và cạnh đi và n nút lá có một cạnh đến và không có

cạnh đi Một nút trong có một hoặc hai cạnh đến: nút trong với một cạnh đến gọi là nút cây; nút trong với 2 cạnh đến gọi là nút tái tổ hợp Cạnh đến một nút tái tổ hợp gọi là cạnh tái tổ hợp; cạnh đến một nút cây gọi là cạnh cây; và cạnh đến nút lá gọi

là cạnh lá

Nút gốc và nút trong có thể có một hoặc 2 cạnh đi, đại diện cho quá trình đột biến

và sao chép

− Các nhãn cạnh: Mỗi cạnh có thể được gán nhãn bằng một tập các số nguyên

từ 1 đến m, biểu thị vị trí trong D nơi một đột biến xảy ra Với các cạnh không có

đột biến xảy ra sẽ không có nhãn cạnh

Trang 31

29

Hình 1.10: Đồ thị ARG cho tập dữ liệu M gồm 7 trình tự độ dài 5 [26] Trình tự tổ tiên là

“00000”; 5 sự kiện đột biến tại các vị trí tương ứng (1,2,3,4,5) được ghi trên các cạnh xảy

ra đột biến của đồ thị; 2 sự kiện tái tổ hợp xảy ra tại vị trí 3 và 4

Dưới giả định có nhiều nhất một đột biến xảy ra tại một vị trí, một vị trí có đột biến

sẽ chỉ xuất hiện trên một cạnh duy nhất trong suốt lịch sử tiến hóa

− Các nhãn nút: Mỗi nút trong đồ thị ARG được gán nhãn bởi một trình tự

nhị phân độ dài m

Với một nút cây v, trình tự nút cây s v được lấy từ trình tự nút cha của v với sự thay đổi trạng thái từ 0 sang 1 hoặc từ 1 sang 0 tại các vị trí c là các nhãn cạnh hướng vào v

Việc tạo ra trình tự nút cây s v được lấy từ trình tự nút cha của v với sự thay đổi trạng thái từ 0 sang 1 hoặc từ 1 sang 0 tại một vị trí c gọi là sự kiện đột biến Trong

trường hợp sao chép, 2 trình tự con sinh ra sẽ giống hệt trình tự cha của chúng Xét ngược chiều thời gian, sự kết hợp của 2 trình tự giống nhau thành 1 trình tự giống

với 2 trình tự đó gọi là sự kiện kết hợp

Trang 32

30

Với một nút tái tổ hợp x, đặt s và s’ là 2 trình tự cha độ dài m của nút x Trình tự nút tái tổ hợp s x là một trình tự độ dài m với trạng thái tại mỗi vị trí c trong s x bằng với

trạng thái tại vị trí c trong ít nhất một trong 2 trình tự s hoặc s’

Việc tạo ra trình tự s x từ s và s’ tại một nút tái tổ hợp được gọi là sự kiện tái tổ hợp Điểm xảy ra sự kiện tái tổ hợp gọi là điểm cắt tái tổ hợp (breakpoint) Một điểm cắt

tái tổ hợp liên quan đến một vị trí vật lý trên nhiễm sắc thể (Hình 1.11) Khi ta không biết vị trí chính xác của điểm cắt tái tổ hợp cho sự kiện tái tổ hợp liên quan

đến nút tái tổ hợp x nhưng ta biết rằng nó phải xảy ra giữa vị trí c và vị trí d (d >

c+1), ta nói rằng điểm cắt tái tổ hợp b x là trong khoảng (c,d], tức là b x lớn hơn c và nhỏ hơn hoặc bằng d và lựa chọn phần trình tự cha đóng góp vào trình tự tái tổ hợp được thay đổi tại vị trí b x Cụ thể, khi một sự kiện tái tổ hợp xảy ra tại vị trí cắt tái tổ

hợp b x , trình tự tái tổ hợp sẽ gồm phần đầu (prefix) từ vị trí 1 đến b x - 1 của trình tự

s (s’) và theo sau là phần sau (suffix) từ vị trí b x đến m của trình tự s’ (s)

Hình 1.11: Điểm cắt tái tổ hợp

− Trình tự quan sát: tức là các trình tự nhị phân trong tập D, là các trình tự

ghi nhãn nút lá trong đồ thị ARG và nó được xác định duy nhất trong đồ thị ARG Với các loài lưỡng bội, 2 trình tự SNP haplotype tương ứng với 2 nút lá trong đồ thị ARG

Nếu có một sự kiện tái tổ hợp thì sẽ có một chu trình tái tổ hợp (recombination

cycle) tương ứng Ví dụ, bắt đầu ở một nút tái tổ hợp và theo dõi lại dọc theo hai đường dẫn, do tất cả các đường dẫn cuối cùng đều kết hợp để hướng tới 1 nút gốc, hai đường dẫn cuối cùng phải kết hợp lại tại một nút, tại đó hai đường dẫn xác định

Trang 33

31

một chu trình tái tổ hợp Như vậy, có bao nhiêu sự kiện tái tổ hợp thì sẽ có bấy nhiêu chu trình tái tổ hợp Đặc điểm này của đồ thị ARG dẫn tới rất nhiều ý tưởng

đề xuất xây dựng đồ thị ARG sau này

Một cách biểu diễn khác đồ thị ARG đó là chỉ mô tả các đoạn mang thông tin di truyền từ các trình tự quan sát đến một tổ tiên chung trong quá trình xây dựng đồ thị ARG Cách biểu diễn này được minh họa như trong Hình 1.12, được lấy từ bài báo của Griffiths và Marjoram [23] Khi đó, ngoài các đoạn mang thông tin di truyền, các nút trong đồ thị chứa các đoạn không có thông tin (các vị trí mang giá trị không xác định), đó là phần thông tin di truyền từ các tổ tiên khác do sự kiện tái tổ hợp

Hình 1.12: Một ví dụ đồ thị ARG cho 4 trình tự với các ký hiệu: ■: trạng thái di truyền, ◘:

trạng thái di truyền đột biến, □: trạng thái không xác định

Xét ngược chiều thời gian, cho trước trình tự tái tổ hợp S và một sự kiện tái tổ hợp phân tách trình tự tái tổ hợp làm 2 trình tự S 1 và S 2, khi đó ta chỉ biết được phần đầu

của S 1 và phần sau của S 2 mang phần thông tin di truyền từ trình tự tái tổ hợp, các phần còn lại của 2 trình tự này là các phần không có thông tin (phần không xác định)

Sự kiện kết hợp

Sự kiện

tái tổ hợp

Đột biến tại vị trí thứ 3

Trang 34

32

Đồ thị ARG được biểu diễn và xây dựng theo cách tiếp cận như vậy có thể cho phép trình tự đầu vào trong D có một số giá trị khuyết [47,52]

Với một đồ thị ARG đầy đủ được mô tả như trong Hình 1.10 và Hình 1.12, mỗi vị

trí c sẽ có một cây thành phần (cây biên - marginal tree) T(c) mô tả lịch sử của các

cá thể cho vị trí đó Từ tập trình tự ban đầu, với mỗi trình tự ta lần theo các cạnh của

đồ thị tái tổ hợp di truyền cho vị trí c; khi một sự kiện tái tổ hợp xuất hiện, ta đi theo đường bên trái nếu vị trí tái tổ hợp xảy ra sau c và đi theo đường bên phải trong trường hợp ngược lại Tập tất cả các cạnh đó sẽ định nghĩa T(c) Hình 1.13 minh

họa các cây thành phần cho đồ thị ARG trong Hình 1.12

Bên cạnh các thuật toán xây dựng đồ thị ARG đầy đủ, rất nhiều thuật toán, đặc biệt theo cách tiếp cận thống kê thường xây dựng đồ thị ARG không đầy đủ, tức là đồ thị ARG được biểu diễn bằng tập các cây thành phần và các sự kiện tái tổ hợp

1.2.3 Bài toán xây dựng đồ thị ARG

Quá trình tái tổ hợp làm cho hệ gen của các cá thể trong quần thể bị thay đổi rất nhiều qua các thế hệ Do đó, với một tập ngẫu nhiên các trình tự của các cá thể trong một quần thể quan sát ở hiện tại, ta không thể xác định được gia phả, lịch sử tiến hóa của chúng Vì vậy, trong quá trình tái cấu trúc lại tổ tiên của tập trình tự quan sát, tức là xây dựng đồ thị ARG, số sự kiện tái tổ hợp và sự kiện đột biến cũng như vị trí thực sự xảy ra của chúng trong quá trình tiến hóa là không thể xác định được Các hướng để giải quyết vấn đề này là thiết kế các mô hình gần đúng với quá trình tiến hóa với giả định tối ưu số sự kiện tái tổ hợp và sự kiện đột biến

Trang 35

33

1 Cây thành phần cho vị trí 1 (2) Cây thành phần cho vị trí 3

(3) Cây thành phần cho vị trí 2 (4) Cây thành phần cho vị trí 4

Hình 1.13: Các cây thành phần (đường đậm nét) của đồ thị ARG trong Hình 1.12 Nguồn

Trang 36

34

Cụ thể:

Dữ liệu vào: Dữ liệu đầu vào là một tập các trình tự nhị phân độ dài m Các trình tự

có độ dài bằng nhau Tập các trình tự được ký hiệu là D = {S 1 , …, S N }, trong đó N là

số lượng trình tự, S x là một trình tự trong tập D, 1 ≤ x ≤ N S x có độ dài m, S x [i] biểu thị giá trị trạng thái của S x tại vị trí i, S x [i] có giá trị bằng 0 hoặc 1, 1 ≤ i ≤ m

Bài toán: Tìm đồ thị ARG mô tả mối quan hệ của các trình tự trong tập dữ liệu vào

thông qua 3 sự kiện: đột biến, kết hợp và tái tổ hợp, với giả định chỉ có nhiều nhất một đột biến xảy ra tại mỗi vị trí Do có nhiều phương pháp khác nhau cho kết quả với độ hợp lý cũng như thời gian thực hiện khác nhau, chúng ta cần đề xuất các phương pháp cho kết quả tốt dựa trên các tiêu chí về số sự kiện tái tổ hợp ít nhất, hình thái cây gần với cây thật nhất, khả thi với dữ liệu lớn hàng trăm đến hàng nghìn trình tự độ dài hệ gen, đồ thị có ứng dụng tốt trong các bài toán thực tế và có thời gian thực hiện khả thi

Dữ liệu đầu ra: Đồ thị ARG chứa các thông tin quan hệ dưới dạng 3 sự kiện cơ

bản: đột biến, kết hợp và tái tổ hợp giữa các trình tự đầu vào (nút lá) với các trình tự trung gian được sinh ra trong quá trình xây dựng đồ thị (nút cây) và với một trình tự

tổ tiên chung duy nhất (nút gốc)

Rất nhiều nghiên cứu xây dựng đồ thị ARG khác nhau đã được đề xuất với các mô hình tái tổ hợp khác nhau phù hợp với quần thể quan sát và mục đích nghiên cứu khác nhau Trong bài toán xây dựng đồ thị ARG cho các quần thể vi khuẩn, các sự kiện tái tổ hợp được xem xét và mô hình hóa là các sự kiện chuyển đổi gen [17,66] Trong nghiên cứu di truyền quần thể người, sự kiện tái tổ hợp được mô hình hóa trong quá trình xây dựng đồ thị ARG hầu hết là sự kiện trao đổi chéo Trong nhiều thuật toán, đặc biệt là các thuật toán tổ hợp tập trung vào đặc điểm cấu trúc của đồ thị, sự kiện chuyển đổi gen có thể được biểu diễn qua 2 sự kiện trao đổi chéo liên tiếp nhau [26]

Trang 37

35

Luận án tập trung vào các thuật toán tổ hợp xây dựng đồ thị ARG đầy đủ có số sự

kiện tái tổ hợp ít nhất dưới giả định mô hình các vị trí vô hạn Sự kiện tái tổ hợp

trong đồ thị ARG được đề cập đến chỉ sự kiện trao đổi chéo và được sử dụng như vậy trong suốt các phần tiếp theo của luận án Dữ liệu trình tự được xét đến trong bài toán là dữ liệu SNP haplotype được biểu diễn ở dạng nhị phân

1.3 Các phương pháp xây dựng đồ thị ARG

Có 2 hướng nghiên cứu xây dựng đồ thị ARG: (1) Xây dựng đồ thị ARG tối thiểu

(minimal ARG), tức là đồ thị có chính xác số sự kiện tái tổ hợp nhỏ nhất, và (2) xây

dựng đồ thị ARG “hợp lý” (plausible ARG), tức là các thuật toán không cố gắng

xây dựng ARG có chính xác số sự kiện tái tổ hợp ít nhất mà hướng đến việc xây dựng đồ thị ARG với số sự kiện tái tổ hợp được sinh ra phụ thuộc vào các phương pháp mô hình hóa sự kiện tái tổ hợp khác nhau

1.3.1 Các phương pháp xây dựng đồ thị ARG tối thiểu

Các cách tiếp cận theo hướng nghiên cứu này hầu hết đều dựa trên các phương

pháp tìm kiếm vét cạn trên đồ thị để cực tiểu hóa số sự kiện tái tổ hợp nhằm đạt tới

ARG tối thiểu Trong đó, khái niệm cặp vị trí không tương thích được sử dụng trong

hầu hết các thuật toán để xác định sự kiện tái tổ hợp: Cho một tập D gồm 4 hoặc nhiều hơn 4 trình tự, một cặp vị trí bất kì gọi là không tương thích nếu tồn tại 4 trình

tự trong D lần lượt chứa 4 loại giao tử (0,0), (0,1), (1,0), (1,1) cho cặp vị trí đó Dưới giả định các vị trí vô hạn (có nhiều nhất một đột biến xảy ra tại một vị trí), từ

1 tổ tiên chung, cách duy nhất để có cặp vị trí không tương thích này là ít nhất một

sự kiện tái tổ hợp đã xảy ra trong lịch sử giữa 2 vị trí đó (Hình 1.14b) Trường hợp giữa 2 vị trí có ít hơn 4 loại giao tử trên được gọi là cặp vị trí tương thích, khi đó, từ

1 tổ tiên chung, dữ liệu quan sát có thể có được thông qua các sự kiện đột biến (Hình 1.14a)

Trang 38

36

(a) (b)

Hình 1.14: (a) Ví dụ cặp vị trí tương thích: cặp vị trí này chỉ chứa 3 loại giao tử và có thể

có được từ 1 tổ tiên chung thông qua 2 sự kiện đột biến (b) Cặp vị trí không tương thích: cặp vị trí chứa 4 loại giao tử và trong trường hợp này phải có ít nhất 1 sự kiện tái tổ hợp xảy ra dưới giả định các vị trí vô hạn (kí hiệu * biểu thị vị trí không có thông tin)

Khái niệm cặp vị trí không tương thích này là yếu tố cơ bản dẫn tới rất nhiều thuật toán tìm cận dưới tái tổ hợp và thuật toán xây dựng đồ thị ARG Các phương pháp vét cạn hướng tới việc tìm ra các điểm cắt tái tổ hợp tối ưu, tức là, số sự kiện tái tổ hợp ít nhất để phá vỡ tất cả các vị trí không tương thích này

Song và cộng sự [62,63] tìm một chuỗi các cây, với mỗi cây cho mỗi vị trí và các sự kiện tái tổ hợp được yêu cầu để dịch chuyển cây tại một vị trí sang cây tại vị trí tiếp theo Để làm điều này, tác giả xây dựng tất cả các cây có thể cho mỗi vị trí Sau đó, các sự kiện tái tổ hợp cần thiết để chuyển từ tất cả các cây tại một vị trí sang tất cả các cây tại vị trí tiếp theo được tính toán Các đồ thị ARG tối thiểu sau đó được xây dựng bằng cách lần theo các vị trí mà có số sự kiện tái tổ hợp ít nhất Phương pháp này chỉ áp dụng được với tối đa 9 trình Tuy nhiên, ý tưởng duyệt qua các cây là ý tưởng then chốt được sử dụng cho rất nhiều thuật toán xây dựng đồ thị ARG dựa trên thống kê sau này

Lyngsø và cộng sự [47] sử dụng phương pháp nhánh cận (branch and bound

Trang 39

37

approach) và đưa ra một cải tiến về tốc độ và bộ nhớ sử dụng Thay vì tính toán từ trái qua phải dọc theo chuỗi trình tự, phương pháp làm việc ngược chiều thời gian, thực hiện các sự kiện đột biến, kết hợp và tái tổ hợp cho đến khi đến một tổ tiên chung tối ưu Tìm kiếm phân nhánh được thực thi để khám phá tất cả các chuỗi sự kiện có thể, cố gắng tìm một chuỗi sự kiện với một số sự kiện tái tổ hợp cho trước Nếu không tìm được, số sự kiện tái tổ hợp cho phép được tăng thêm một và cứ như vậy cho đến khi một đồ thị ARG được tìm thấy Thuật toán sử dụng một số quy tắc

để giảm kích thước của dữ liệu như: thu gọn các trình tự (các hàng) giống hệt nhau thành một, thu gọn các cột chứa cùng một giá trị trạng thái, … Tuy nhiên, việc xác định cận dưới (lower bound) tái tổ hợp là một việc khó vì nếu chọn nhỏ quá thì quá trình xây dựng đồ thị sẽ phải lặp lại tốn nhiều thời gian Hơn nữa, việc xây đồ thị với một lượng sự kiện tái tổ hợp cho trước đòi hỏi tốn nhiều bộ nhớ để lưu giữ các trường hợp đã thử và được đánh dấu để tiếp tục tìm các cạnh tiếp theo trong đồ thị Phương pháp cũng chỉ chạy được với 10 mẫu trình tự

Gusfield và cộng sự [27] đề xuất thuật toán xây dựng một trường hợp đặc biệt của

đồ thị ARG nếu có - đồ thị ARG có nút gốc cho trước là trình tự toàn trạng thái 0 với ràng buộc tất cả các chu trình tái tổ hợp không chung nút với nhau (node-disjoint) Khi đó, đồ thị ARG là một cây có nốt sùi (galled-tree) trong đó mọi chu trình tái tổ hợp là các nốt sùi (gall) thỏa mãn không nốt sùi nào chung nút với nốt sùi nào (Hình 1.15)

Tác giả đã phát triển thuật toán với thời gian O(nm + n3) để xây dựng cây có số nốt sùi ít nhất (nếu tồn tại), tức là có ít số sự kiện tái tổ hợp nhất cho tập dữ liệu D với

nút gốc s r cho trước Thuật toán xác định các cặp vị trí không tương thích trên tập

dữ liệu D' = D  s r, từ đó xác định các thành phần liên thông để xây dựng các gall cho các vị trí không tương thích và kết hợp các gall vào một galled-tree Sau đó, tác giả đã mở rộng bài toán tìm galled-tree với nút gốc chưa biết [25]

Trang 40

38

Hình 1.15: Một cây có nốt sùi cho tập trình tự giống với tập trong Hình 1.10 với 2 nốt sùi

tương ứng với 2 chu trình tái tổ hợp không chung nút với nhau [27]

Chương trình SHRUB [64] xây dựng thuật toán tính cận trên tái tổ hợp R ub và đồ thị

ARG cho tập dữ liệu D sử dụng chính xác R ub sự kiện tái tổ hợp bằng cách xây dựng đồ thị ARG lần lượt từ các nút lá Các phép biến đổi kết hợp/thay thế các trình

tự đầu vào được tiến hành song song tương ứng với các bước xây dựng đồ thị ARG cho đến khi đạt tới 1 nút chung duy nhất (chỉ còn lại một trình tự duy nhất qua các phép biến đổi) Lưu ý rằng trong trường hợp cận trên tái tổ hợp Rub tìm được bằng với cận dưới tái tổ hợp (có thể được tính sử dụng chương trình HapBound trong cùng nghiên cứu) thì SHRUB cho ra đồ thị ARG tối thiểu, trong trường hợp còn lại thì SHRUB sẽ cho ra đồ thị ARG hợp lý SHRUB mở rộng để xử lý sự kiện chuyển đổi gen với tên gọi SHRUB-GC, được mô tả trong [61] Trong đó, thuật toán sử dụng 2 sự kiện tái tổ hợp trao đổi chéo để biểu diễn chuyển đổi gen

Wu và cộng sự [71,72] đưa bài toán xây dựng đồ thị ARG về bài toán tìm số trình

tự trung gian tối thiểu cần để xây dựng ARG Thuật toán chạy được với dữ liệu hơn một trăm trình tự độ dài khoảng 100 SNP Trong khoảng thời gian tiếp theo, nhiều nghiên cứu phát triển tập trung vào hướng xây dựng đồ thị ARG hợp lý dựa trên

Định dạng
Số trang	112
Dung lượng	2,53 MB