Bên cạnh đó, tôi cũng xin được cảm ơn Viện Hàn lâm Khoa học và Công nghệ Việt Nam và các thành viên trong đề tài “Nghiên cứu giải trình tự gen các mẫu xương khảo cổ tại Việt Nam nhằm cun
Trang 2BỘ GIÁO DỤC
VÀ ĐÀO TẠO
VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VN HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
Trang 3BỘ GIÁO DỤC
VÀ ĐÀO TẠO
VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VN HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
Trang 4LỜI CAM ĐOAN
Tôi xin cam đoan đề tài nghiên cứu trong luận văn này là công trình nghiên cứu của tôi cùng nhóm nghiên cứu dưới sự góp ý của người hướng dẫn Đồng thời, kết quả này chưa từng xuất hiện trong bất cứ một nghiên cứu nào Các số liệu, kết quả nêu trong luận văn là trung thực nếu sai tôi hoàn toàn chịu trách nhiệm
Học viên cao học
Trang 5LỜI CẢM ƠN
Đầu tiên tôi xin được gửi lời cảm ơn đến thầy hướng dẫn PGS.TS Chu Hoàng Hà, nếu không có sự hỗ trợ tận tình trong suốt quá trình tôi sẽ không thể hoàn thành được luận văn này Tôi xin cảm ơn các nhân viên và lãnh đạo Trung tâm Giám định ADN và Phòng thí nghiệm trọng điểm Công nghệ Gen, Viện Công nghệ sinh học, Viện Hàn lâm Khoa học và Công nghệ Việt Nam,
đã giúp đỡ tôi có thêm nhiều kiến thức và kinh nghiệm trong mọi bước tiến hành luận văn Bên cạnh đó, tôi cũng xin được cảm ơn Viện Hàn lâm Khoa học và Công nghệ Việt Nam và các thành viên trong đề tài “Nghiên cứu giải trình tự gen các mẫu xương khảo cổ tại Việt Nam nhằm cung cấp thông tin di truyền cho nghiên cứu đa dạng sinh học người và khảo cổ học”, mã số đề tài: DL0000.08/20-22 giúp tôi đạt được những kết quả trong luận văn này
Không thể thiếu được lời cảm ơn đến ban Lãnh đạo, phòng Đào tạo, các phòng chức năng của Học viện Khoa học và Công nghệ để luận văn được hoàn thành
Cuối cùng, tôi xin chân thành cảm ơn khi nhận được sự ủng hộ, giúp đỡ
từ gia đình và bạn bè trong suốt quá trình làm luận văn
Trang 6MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
MỤC LỤC iii
DANH MỤC CÁC KÝ HIỆU, CHỮ CÁI VIẾT TẮT v
DANH MỤC BẢNG vi
DANH MỤC HÌNH vii
MỞ ĐẦU 1
1 Lý do chọn đề tài 1
2 Mục đích nghiên cứu 1
3 Nội dung nghiên cứu 1
4 Cơ sở khoa học và tính thực tiễn 1
5 Những đóng góp của luận văn 2
CHƯƠNG 1 TỔNG QUAN NGHIÊN CỨU 3
1.1 Tình hình nghiên cứu trên thế giới 3
1.1.1 Lịch sử loài người qua các nghiên cứu di truyền khảo cổ học 3
1.1.2 Loài người tại khu vực Đông Nam Á và Việt Nam qua nghiên cứu di truyền khảo cổ 5
1.1.3 Các chỉ thị di truyền sử dụng trong nghiên cứu mẫu xương khảo cổ 6
1.1.4 Ứng dụng công nghệ giải trình tự gen trong nghiên cứu các mẫu khảo cổ 10
CHƯƠNG 2 ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU 18
2.1 ĐỐI TƯỢNG NGHIÊN CỨU 18
2.1.1 Người Việt cổ sinh sống trong giai đoạn hậu thời kỳ đồ đá mới 18
2.1.2 Người Việt hiện đại 18
2.2 PHƯƠNG PHÁP NGHIÊN CỨU 18
2.2.1 Tách chiết DNA ty thể và giải trình tự bằng hệ thống máy Ion S5™ (Thermo Fisher Scientific) 18
2.2.2 Phân tích đánh giá chất lượng giải trình tự của hệ thống Ion S5™ bằng phần mềm FastQC 21
2.2.3 Map các đoạn đọc (reads) với hệ gen tham chiếu và lọc chất lượng bằng phần mềm bwa, samtools 21
Trang 72.2.4 Ước tính các mẫu bị tổn thương (deamination) và chỉnh lại các file
BAM bằng phần mềm mapDamage 21
2.2.5 Gọi các biến thể (variants) và tạo ra VCF (Variant Call Format) 22 2.2.6 Tạo file consensus và kiểm tra nhiễm với Schmutzi 22
2.2.7 Xác định nhóm haplogroup bằng HaploGrep2 23
2.2.8 Dựng cây phát sinh chủng loại thông qua phần mềm MEGA 23
CHƯƠNG 3 KẾT QUẢ VÀ THẢO LUẬN 24
3.1 Kết quả tách chiết DNA ty thể và giải trình tự bằng hệ thống máy Ion S5™ (Thermo Fisher Scientific) 24
3.1.1 Kết quả tách chiết DNA ty thể 24
3.2 Phân tích đánh giá chất lượng giải trình tự của hệ thống Ion S5™ bằng phần mềm FastQC 32
3.3 Map các đoạn đọc (reads) với hệ gen tham chiếu và lọc chất lượng bằng phần mềm bwa, samtools 35
3.4 Ước tính các mẫu bị tổn thương (deamination) và chỉnh lại các file BAM bằng phần mềm mapDamage 37
3.5 Gọi các biến thể (variants) và tạo ra VCF (Variant Call Format) 39
3.6 Tạo file consensus và kiểm tra nhiễm với Schmutzi 41
3.7 Xác định nhóm haplogroup bằng HaploGrep2 43
3.8 Dựng cây phát sinh chủng loại thông qua phần mềm MEGA 45
KẾT LUẬN VÀ KIẾN NGHỊ 58
1 KẾT LUẬN 58
2 KIẾN NGHỊ 58
DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ 59
DANH MỤC TÀI LIỆU THAM KHẢO 60
Trang 8DANH MỤC CÁC KÝ HIỆU, CHỮ CÁI VIẾT TẮT
5 H floresiensis Homo floresiensis
7 NRY Non-recombining portion of the Y chromosome
8 Autosomal STRs Autosomal short tandem repeats
15 AFDIL Armed Forces DNA Identification Laboratory
16 rCRS revised Cambridge Reference Sequence
21 RSRS Reconstructed Sapiens Reference Sequence
Trang 9DANH MỤC BẢNG
Bảng 1 Một số loại chỉ thị được sử dụng trong nghiên cứu lịch sử loài người 7Bảng 3.1: Kết quả kiểm tra nồng độ DNA đầu vào sử dụng bộ Quantifiler Trio kit (ThermoFisher, USA) 30Bảng 3.2: Kết quả định lượng thư viện sau chuẩn bị bằng Ion Library Taqman Quantification kit (ThermoFisher, USA) 30Bảng 3.3: Chất lượng mỗi trình tự thu được của CCNM24WG và
CCNM55WG 34Bảng 3.4: Thông tin các mẫu được lựa chọn để xây dựng cây phát sinh loài 45Bảng 3.5: Thông tin các mẫu thuộc hai nhánh xanh dương và đỏ 53
Trang 10DANH MỤC HÌNH
Hình 1.1 Mô hình mtDNA ở người 12
Hình 2.1: Quy trình làm việc của Schmutzi ( Renaud G et al., 2015) 22
Hình 3.1: Mẫu xương đùi – K1A06 24
Hình 3.2: Mẫu xương K1B07 24
Hình 3.3: Mẫu 6 xương dài - K1B05 25
Hình 3.4: Mẫu xương dài và các mảnh xương nhỏ K1B10A 25
Hình 3.5: Mẫu xương K1B08 26
Hình 3.6: Mẫu xương gãy nát K1B10 26
Hình 3.7: Các mẫu xương sau khi nghiền mịn 27
Hình 3.8: Kết quả điện di sản phẩm PCR với cặp mồi miniset PS1 và PS2 trên gel agarose 2% 28
Hình 3.9: Các thông số của quá trình giải trình tự 31
Hình 3.10: Chất lượng trình tự của mẫu xương cổ thứ nhất (CCNM24WG) 32 Hình 3.11: Chất lượng trình tự của mẫu xương cổ thứ hai (CCNM55WG) 32
Hình 3.12: File đầu ra thu được từ samtools 36
Hình 3.13: Thông tin tổn thương DNA cổ đại của mẫu CCNM24WG được tạo ra bởi mapDamage 2.0 37
Hình 3.14: Thông tin tổn thương DNA cổ đại của mẫu CCNM55WG được tạo ra bởi mapDamage 2.0 38
Hình 3.15: Một phần file vcf đầu ra 40
Hình 3.16: Kết quả chạy schmutzi 42
Hình 3.17: Cây phát sinh chủng loại của người Việt cổ và người cổ thuộc một số nước trong cùng giai đoạn 51
Hình 3.18: Cây phát sinh chủng loại của người Việt cổ, người cổ thuộc một số nước trong cùng giai đoạn và người Việt hiện đại 55
Trang 11MỞ ĐẦU
1 Lý do chọn đề tài
Cho đến thời điểm hiện tại, các mẫu xương người khảo cổ chỉ được nghiên cứu về mặt khảo cổ học mà chưa có một nghiên cứu di truyền nào được tiến hành tại Việt Nam Con người đã đến định cư tại vùng đất Việt
Nam từ lâu đời, dựa trên một số dấu vết của những Homo sp thì dấu vết của
những con người đầu tiên tại Việt Nam đã có từ khoảng nửa triệu năm trước – nửa cuối giai đoạn Pleistocene Tuy nhiên, sự hạn chế của các bằng chứng khảo cổ học và đặc biệt là các nghiên cứu di truyền chứng minh lịch sử của con người sinh sống tại Việt Nam chưa thể đưa ra những kết luận chắc chắn Nghiên cứu về quá trình tiến hóa của loài người cần tiến hành dựa trên cả các bằng chứng lịch sử và nghiên cứu về mã di truyền Thông tin di truyền thu thập được từ những bộ hài cốt có thể cung cấp bằng chứng về chủng người, nguồn gốc, sự pha trộn của các nền văn hóa trong quá khứ đến hiện đại, từ lối sống của một quần thế, hay là xác định nguyên nhân dẫn đến cái chết của người đó [1, 2]
2 Mục đích nghiên cứu
Phân lập và tách chiết được DNA ty thể (mtDNA) từ mẫu người Việt
cổ Ước đoán được mối liên hệ di truyền giữa người Việt cổ hậu thời kỳ đồ đá mới với người Việt hiện đại cũng như người Việt cổ và một số người cổ thuộc một số nước trong khu vực Đông Nam Á
3 Nội dung nghiên cứu
Tách chiết mtDNA từ mẫu xương cổ đại
Giải trình tự mẫu mtDNA thu được
Đánh giá chất lượng của trình tự mtDNA thu được
Xây dựng cây phân loại theo haplogoup để sa sánh các mẫu của người Việt cổ với người Việt hiện đại cũng như người Việt cổ và một số người cổ khác trong cùng thời đại trong một số nước khu vực Đông Nam Á
4 Cơ sở khoa học và tính thực tiễn
DNA cổ đại (aDNA) là vật liệu di truyền thu được từ các mẫu vật cổ đại và không giống như DNA hiện đại, trải qua quá trình phân mảnh và các
Trang 12tổn thương sau khi chết chủ yếu do các yếu tố môi trường gây ra [3] Các nghiên cứu DNA cổ đại, được thực hiện trong 30 năm qua, đã xác nhận rằng trong khi duy trì các quy trình thích hợp, chúng ta có thể khôi phục vật liệu di truyền từ các mẫu vật cổ đại Cho đến gần đây, phần lớn các nghiên cứu về aDNA của con người chủ yếu tập trung vào DNA ti thể (mtDNA) nhờ thực tế
là mtDNA hiện diện trong tế bào với số lượng bản sao cao hơn bộ gen nhân,
và do đó nó thường là dấu hiệu di truyền duy nhất có thể thu hồi từ các mẫu bảo quản kém Do di truyền từ mẹ, tỷ lệ đột biến cao, không có sự tái tổ hợp
và sự biến động ở cấp độ quần thể, nó là một công cụ hữu ích để tái tạo lại các
sự kiện nhân khẩu học trong quá khứ [4]
5 Những đóng góp của luận văn
Bước đầu tối ưu quy trình tách chiết mtDNA từ mẫu xương có tuổi vài nghìn năm cũng như những mẫu vật có chất lượng rất kém
Bước đầu cung cấp thêm các bằng chứng phân tử về sự tồn tại của người Việt cổ đại cũng như mối quan hệ di truyền của người Việt cổ và người Việt hiện đại cũng như người Việt cổ với người cổ thuộc một số nước Đông Nam Á trong cùng thời đại, nền văn hoá
Trang 13CHƯƠNG 1 TỔNG QUAN NGHIÊN CỨU
1.1 Tình hình nghiên cứu trên thế giới
1.1.1 Lịch sử loài người qua các nghiên cứu di truyền khảo cổ học
Homo sapiens là loài duy nhất còn tồn tại thuộc chi Homo, có kiểu hình
như người hiện đại đang sinh sống trên Trái Đất hiện nay Tuy nhiên, trước khi sự có mặt của tổ tiên gần nhất của loài người hiện đại đơn độc thì trên
Trái Đất đã từng tồn tại những người anh em của H sapiens khác cùng sinh
sống Những người anh em này có hình thái giải phẫu về tỉ lệ kích thước bộ não trên kích thước cơ thể gần tương tự với loài người và sự xuất hiện của công cụ lao động [5] Dựa trên bằng chứng khảo cổ thì loài người hiện đại đã tiến hóa từ loài người tối cổ từ khoảng hai triệu năm trở về trước Trọng tâm
của các cuộc tranh luận về nguồn gốc của loài người hiện đại Homo sapiens
đó là mô hình, vị trí và thời điểm mà loài người biến đổi từ loài người có hộp
sọ lớn thành cấu trúc giải phẫu của người hiện đại Một số ý kiến đưa ra dựa
trên mô hình sự thay thế của người Châu Phi từ thời điểm những tổ tiên Homo sapiens đầu tiên hình thành như một loài mới ở Châu Phi từ khoảng 150 đến
200 nghìn năm về trước, sau đó dần chiếm lĩnh các vùng đất trong thế giới cổ đại, và thay thế các nhóm người khác, trong đó có người Neanderthals Một
số ý kiến khác thì chấp nhận mô hình tiến hóa đa vùng miền – multiregion evolution, sự dịch chuyển từ người cổ đại sang hình thái người hiện đại đã diễn ra trong một làn sóng bành trướng của loài người hiện đại khoảng hai triệu năm trở về trước Cũng dựa trên mô hình đó nhưng quá trình diễn biến
có các dạng khác nhau như sự biến chuyển về hình thái diễn ra đầu tiên ở Châu Phi và sau đó lan rộng ra toàn bộ thế giới cổ đại thông qua hình thức di nhập gen; trong khi đó, một số ý kiến khác thì cho rằng hình thái người hiện đại xuất hiện từ nhiều thời điểm khác nhau, tại nhiều địa điểm khác nhau
Cho đến năm 1997, việc tách chiết thành công mtDNA từ một mẫu vật Neanderthals thu thập được trong hang Feldhofer tại Đức đã đánh dấu bước ngoặt trong nghiên cứu nguồn gốc loài người, khi mà có thể khai thác thông tin di truyền của các mẫu người khảo cổ chứ không chỉ dựa trên các bằng chứng truyền thống Trên cơ sở đó các nhà khoa học cũng đã tách chiết thành công mtDNA của người Neanderthals ở một số hang động khác, cung cấp
Trang 14thêm bằng chứng gen về người Neanderthals Các nghiên cứu này đã chỉ ra sự khác biệt trong trình tự mtDNA của người Neandertals với người hiện đại và
đề xuất rằng các bằng chứng này ủng hộ mô hình thay thế bởi người Châu Phi, ít nhất là mô hình này đã xảy ra ở Châu Âu [6]
Người Neanderthals sinh sống rộng khắp Châu Âu và khu vực Tây Á trong khoảng thời gian ít nhất là 10000 năm, tuy nhiên lại không có bằng chứng khảo cổ nào công nhận có sự giao phối hoặc tương tác nào giữa người
Neanderthals và loài H sapiens Tuy nhiên, đến năm 2010, hệ gen đầu tiên
của người Neanderthals được giải mã đã thay đổi hoàn toàn suy nghĩ của các nhà di truyền học và khảo cổ học Green và cộng sự đã giải thành công hệ gen của người Neanderthals với 1.3x coverage sau khi tập hợp các bộ số liệu thu được từ các mẫu xương khai quật được ở hang Vinija ở Croatia Hệ gen của các nhóm người không phải người Phi như người Pháp, Trung Quốc và Papua New Guinean cho thấy sự tương đồng nhiều hơn 4% với hệ gen này so với hệ gen của người gốc Phi (San và Yoruba) [7] Sự giải thích hợp lý nhất cho quan sát này đó là người Neanderthals và những tổ tiên của loài người hiện đại đã có hoạt động giao phối với nhau tại khu vực Trung Đông, cũng chính nơi 2 chủng người giao thoa với nhau Kết luận trên sau đó cũng được ủng hộ bởi các nghiên cứu từ những hệ gen hoàn thiện hơn của người Neanderthals
và các hệ gen của người hiện đại Cho đến thời điểm hiện tại thì toàn bộ các
hệ gen của người Neanderthals thu được đều có sự tương đồng cao hơn với người không phải gốc Phi so với người gốc Phi Năm 2014, một hệ gen thu được từ mẫu hóa thạch có độ tuổi 45000 năm ở vùng Siberia có chứa mẫu Neanderthals mang hệ gen dài hơn so với người hiện đại ngày nay [8]
Cũng trong năm 2010, các nhà khoa học đã công bố một hệ gen thu được từ một mẫu xương ngón tay nhỏ tìm thấy được ở hang động Denisova ở vùng trung nam Siberia Từ hình thái của chiếc xương cho thấy đây có thể là của một người hiện đại hoặc là một người Neanderthal nhưng cũng có thể là một loài người nào đó Tuy nhiên, sau khi trình tự hệ gen được khai thác, câu chuyện đã xảy ra theo hướng hoàn toàn khác: mẫu vật đó là người chị em với nhóm Neanderthals trước khi có sự xuất hiện của người hiện đại – Denisovan [9] Sự xuất hiện của một nhóm loài người khác, người Denisovan là nằm ngoài dự đoán của các nhà khảo cổ học Người Denisovan đã trở thành một trong những nhóm người tối cổ đầu tiên được giải mã hệ gen đầy đủ trong khi
Trang 15mà những mẫu hóa thạch còn tồn tại rất hạn chế, gây khó khăn cho phân tích giải phẫu Sự hiện diện của người Denisovan cũng là bằng chứng cho thấy
khả năng có những anh em khác của H sapiens có thể tồn tại đâu đó trên Trái
Đất mà chưa được tìm ra
1.1.2 Loài người tại khu vực Đông Nam Á và Việt Nam qua nghiên cứu di truyền khảo cổ
Tại khu vực Châu Á, có rất nhiều bằng chứng cho thấy có ít nhất 2 làn sóng di dân lớn là căn nguyên của sự đa dạng về sắc tộc ngày nay Làn sóng thứ nhất hình thành nên các nhóm người ở Châu Úc, Papuan và các tổ tiên khác ở Nam Á; sau đó pha trộn với làn sóng thứ hai Tuy nhiên, chi tiết về sự
có mặt của những cư dân định cư đầu tiên tại đây vẫn chưa được làm sáng tỏ
Hệ gen đầu tiên có được từ một cá thể thuộc nền văn minh Buret’ ở phía nam trung tâm Siberia đã sống cách đây khoảng 24 nghìn năm Thông tin di truyền từ mẫu vật cho thấy sự pha trộn mạnh mẽ giữa người thuộc phía tây lục địa Á-Âu với người Châu Mỹ bản địa nhưng yếu hơn với người Đông Á và Siberian Điều này cho thấy có sự khác biệt rất lớn về chủng người giữa các vùng địa lý ở giai đoạn tiền Palaeolithic so với ngày nay Hệ gen thứ hai chính là hệ gen của người Denisovan với sự tương đồng cân bằng giữa người Tây Âu, Đông Á và Châu Úc Từ số liệu của 14 cá thể có độ tuổi khoảng 36 – 38 nghìn năm tại Nga cho thấy sự liên kết với người Tây Âu nhưng không gần gũi với người Đông Á [10] Cho đến thời điểm hiện tại, thì khu vực Châu Á đã ghi nhận đến bốn loài người khác nhau cùng sinh sống tại
Mal’ta-khu vực này, cho thấy sự đa dạng và phức tạp của Mal’ta-khu vực Người H erectus
có họ hàng gần gũi với người Châu Phi đã đến đây từ những ngày đầu của lịch sử loài người và rất có thể sinh trưởng và tồn tại ở Đông Nam Á cho đến thời kỳ cuối của Pleitocence, thời điểm xuất hiện của loài người hiện đại
Khoảng một triệu năm trước, những người H erectus đã đến hòn đảo Flores, nơi sinh ra loài người khác H floresiensis
Lịch sử cận đại tại khu vực Đông Nam Á, cụ thể là tại Việt Nam qua các nghiên cứu về thông tin di truyền còn rất nhiều khoảng trống chưa được khám phá Số lượng nghiên cứu còn ít, số hệ gen thu được cũng còn nhiều hạn chế Nghiên cứu về quá trình tiến hóa của loài người cần tiến hành dựa trên cả các bằng chứng lịch sử và nghiên cứu thống kê Trong một nghiên cứu năm 2018 của McColl và cộng sự, giải trình tự genome của các mẫu hài cốt
Trang 16thu thập được thuộc giai đoạn Đông Sơn (Núi Nấp, 2378 đến 2041 năm trước) cho thấy sự tương đồng cao với nhóm Dai, Amis và Kradai tại Thái Lan hiện tại nhưng có sự pha trộn vốn gen của nhóm nam Trung Quốc Trong khi đó, những mẫu thu thập được từ giai đoạn sớm hơn, khoảng cuối thời đại đồ đá mới đến đầu thời đại đồ đồng (Hòn Hai Cô Tiên – Quảng Ninh và di tích Mái
Đá Điều – Thanh Hóa, khoảng 4000 năm trước) lại không có sự pha trộn với nhóm gen nam Trung Quốc Trong một nghiên cứu khác gồm các mẫu có niên đại khoảng 4080-3695 năm từ di chỉ khảo cổ Mán Bạc – Ninh Bình, cũng là nơi phát hiện những ông tổ nghề gốm Bát Tràng đầu tiên, cũng cho thấy sự gần gũi về di truyền với người Nam Á hiện đại Những thông tin thu thập được tối đa từ những bộ hài cốt có thể cung cấp bằng chứng về chủng người, lối sống của họ, cũng có thể tìm kiếm nguyên nhân dẫn đến cái chết, ảnh hưởng của điều kiện tự nhiên thời điểm đó qua các mẫu vi sinh vật thu được qua vết phân và những câu chuyện xung quanh khi người đó còn sống Các mẫu hài cốt có tuổi thọ lên đến hàng nghìn năm cũng là thách thức cho quá trình nghiên cứu khai thác thông tin từ hệ gen của họ, khi mà hầu hết mẫu
đã bị phân hủy Có thể thấy ứng dụng của công nghệ giải trình tự đã và đang cung cấp những bằng chứng rất có giá trị để tái hiện bức tranh về lịch sử của loài người nói chung và loài người tại Việt Nam nói riêng
1.1.3 Các chỉ thị di truyền sử dụng trong nghiên cứu mẫu xương khảo cổ
Các nghiên cứu khoa học về lịch sử loài người sử dụng các chỉ thị di truyền rất đa dạng (bảng 1) Một trong số chỉ thị đầu tiên được sử dụng đó là các nhóm máu ABO và các đồng phân protein Mặc dù nghiên cứu về đa dạng của loài người trở nên phổ biến từ nửa thế kỷ trước, phân tích dựa trên DNA thu hút được sự chú ý và được phát triển bởi giới khoa học và đến năm 1987 thì cây mtDNA đầu tiên đã được mô tả với gốc là người châu Phi Đã có rất nhiều nghiên cứu khác nhau về mtDNA và di truyền theo dòng mẹ liên tiếp được tiến hành nhằm trả lời các câu hỏi về lịch sử và khảo cổ học Ngay sau
đó, hướng nghiên cứu trên vùng không trao đổi chéo trên nhiễm sắc thể (NST) Y – non-recombining portion of the Y chromosome (NRY) cũng tham gia vào dòng chảy đó của khoa học và cung cấp cách tiếp cận từ di truyền theo dòng cha Mặc dù các nghiên cứu di truyền đơn dòng trên đều rất quý giá
và thu hút, cũng như đã có hàng chục nghìn ty thể và NRY đã được phân tích
Trang 17cặn kẽ, nhưng điều quan trọng là các nghiên cứu đó bị giới hạn ở những bức tranh nhỏ từ tổng thể thông tin có thể có từ hệ gen của loài người Thực tế là,
để kiểm định được các giả thuyết về các mô hình thì cần thiết phải dựa trên phân tích thống kê của cùng lúc nhiều locus khác nhau
Bảng 1 Một số loại chỉ thị được sử dụng trong nghiên cứu lịch sử loài
Có khả năng phân biệt các quần thể tốt hơn
autosomal DNA - Chi phí thấp - Số bản copy trong một tế bào lớn vì vậy có thể sử dụng được ở các mẫu cổ đại, đã bị phân hủy mạnh
Thông tin di truyền chỉ trên dòng mẹ nên bị giới hạn về thông tin khi nghiên cứu diễn biến di truyền của quần thể; Chịu ảnh hưởng lớn bởi chọn lọc
tự nhiên; Tốc độ đột biến không có tính ổn định mà có tính biến đổi cao;
NRY
Không có hiện tượng trao đổi chéo làm thay đổi cấu trúc khi dựng cây phát sinh chủng loại -
Có khả năng phân biệt các quần thể tốt hơn
autosomal DNA - Chi phí thấp - Số bản copy trong một tế bào lớn vì vậy có thể sử dụng được ở các mẫu cổ đại, đã bị phân hủy mạnh
Thông tin di truyền chỉ trên dòng cha nên bị giới hạn về thông tin khi nghiên cứu diễn biến di truyền của quần thể; Chịu ảnh hưởng lớn bởi chọn lọc
tự nhiên; Tốc độ đột biến không có tính ổn định, có tính biến đổi cao; Có thể dẫn đến sai
số do nghiên cứu trên những điểm SNPs đặc
Trang 18trưng
Autosomal STRs
Có thể nghiên cứu hàng trăm các STR độc lập cùng lúc trên nhiều cá thể do đó làm giảm sai số ngẫu nhiên; Thông tin hữu ích cho nghiên cứu các sự kiện di nhập quần thể cũng như có thể là chỉ thị để phân biệt các quần thể tương đồng cao
Không áp dụng được cho nghiên cứu các sự kiện di nhập gen theo thời gian; - tốc độ đột biến có sai số lớn
SN
Ps
Microarrays
Có thể nghiên cứu cùng lúc hàng trăm đến hàng nghìn SNP trong cùng 1 thí nghiệm; Chỉ thị hữu hiệu cho nghiên cứu cấu trúc quần thể
Tính chính xác phụ thuộc vào phương pháp nghiên cứu;
Không hiệu quả đối với các quần thể có sự đa dạng cao
Seco
nd generation sequencing
Khai thác số liệu trình tự lớn, có thể bao phủ được toàn bộ các vùng gen mà phương pháp
Sanger gặp hạn chế; Đầu vào lớn nhưng không cần phải qua bước khuếch đại gen (PCR); Giá thành trên mỗi base rẻ
Sai số lớn hơn so với Sanger; Có thể có trường hợp kết quả bị định hướng bởi các trình tự được ưu tiên đọc trong quá trình giải trình tự; Các đoạn đọc ngắn trở thành trở ngại khi nghiên cứu các điểm đa dạng
Thir
d generation sequencing
Có thể đọc đoạn dài (>10kb); Một số phương pháp có thể đọc trình tự từng tế bào; Các đoạn đọc dài dễ dàng thực hiện các bước lắp ráp sau đọc trình
Giá thành trên mỗi base cao hơn so với NGS thế hệ 2; Đòi hỏi các công cụ phân tích tin sinh chuyên biệt
Trang 19tự mà không cần trình tự tham chiếu
Vào đầu những năm 2000, các cách tiếp cận mới cho nghiên cứu đa dạng di truyền loài người xuất hiện, đó là dựa trên các short tandem repeat (STR), một loại chỉ thị nằm rải rác trên toàn bộ hệ gen Với sự phát triển của công nghệ lai DNA hybridization array, công nghệ ban đầu được sử dụng cho xây dựng bản đồ các allele bệnh trong các nghiên cứu GWAS, giờ đây được
sử dụng để nghiên cứu hàng trăm nghìn SNPs Mặc dù có khả năng phân tích cấu trúc quần thể loài người ở mức độ phân giải lớn hơn cả ở trên một vùng hay trên nhiều vùng khác nhau trên genome, thì chỉ thị đó bị giới hạn khi áp dụng vào nghiên cứu quá trình tiến hóa dưới tác động của các dạng đa dạng di truyền khác nhau Những giới hạn đó bắt nguồn từ việc thiết kế arrays, khi mà chỉ một số lượng nhất định các chỉ thị SNP được thiết kế cho một kích thước
cá thể giới hạn và từ một số quần thể nhất định, do đó có thể dẫn đến sự thiếu sót khi áp dụng cho nghiên cứu các quần thể trên toàn thế giới
Công nghệ giải trình tự đoạn ngắn thế hệ mới đã vượt qua nhiều giới hạn của công nghệ cũ Việc thu thập các đoạn DNA từ khắp nơi trong hệ gen cho phép tăng khả năng nghiên cứu quá trình di nhập gen Tuy nhiên, công nghệ này phải đối mặt với các thách thức về mặt phân tích và kiểm định chất lượng Cụ thể, thế hệ giải trình tự thứ 2 bị lỗi đọc nhiều hơn so với giải trình
tự Sanger, và các phương pháp nhằm giải mã toàn bộ thông tin lịch sử của hệ gen vẫn còn đang được phát triển
Ty thể là các bào quan nằm ngoài nhân tế bào và mang hệ gen riêng, độc lập với hệ gen trong nhân tế bào Hệ gen ty thể là dạng tròn, mạch đơn, có kích thước khoảng 16.5 kb, có số lượng copy lớn gấp hàng trăm lần hệ gen nhân, chỉ được di truyền từ mẹ sang con [11] Sự thay đổi trình tự xảy ra trên
hệ gen ty thể là do quá trình đột biến, không phải kết quả của quá trình trao đổi chéo Đột biến trên hệ gen ty thể có tốc độ đột biến cao, thường là đột biến dạng trung tính và phát sinh gần như cùng thời điểm với việc sự dịch chuyển địa điểm địa lý của con người Những đột biến đó tạo thành các haplogroup, có tính phân biệt vùng miền cao Do đó, mtDNA cũng là chỉ thị tốt cho truy xuất nguồn gốc do khả năng phân biệt theo địa lý và sự khác biệt giữa các quần thể rõ ràng Từ những ưu điểm trên, mtDNA được sử dụng
Trang 20rộng rãi trong các nghiên cứu về lịch sử tiến hóa, di truyền quần thể, di truyền
y sinh, di truyền tiến hóa hay khoa học hình sự [12]
Lĩnh vực nghiên cứu dựa trên mtDNA bắt đầu từ năm 1987 có ảnh hưởng lớn đến các cuộc bàn luận về nguồn gốc con người, khi mà mtDNA có thể giải quyết những giới hạn của các bằng chứng hóa thạch Báo cáo về cây phát sinh chủng loại dựng từ tất cả trình tự mtDNA của con người với gốc là
tổ tiên châu Phi, người đã sống tại đó khoảng 200.000 năm trước, đã củng cố mạnh mẽ hơn mô hình RAO và khởi sinh ra cuộc tranh luận cho 2 thập kỷ sau
đó MtDNA có nguồn gốc từ châu Phi tại thời điểm hiện tại nằm cùng một nhánh như được mô tả trong báo cáo trên, và có sự đa dạng lớn hơn giữa nội tại các mtDNA của châu Phi hơn là nhóm khác Mặt khác, nghiên cứu dựa trên NRY hay các loci trên nhiễm sắc thể thường cũng đồng tình với mô hình này MtDNA của người cổ ở nhiều vùng địa lý rộng lớn đã được tách chiết và giải trình tự cho thấy sự khác biệt rõ ràng về mặt di truyền giữa người hiện đại
1.1.4 Ứng dụng công nghệ giải trình tự gen trong nghiên cứu các mẫu khảo cổ
Giải trình tự toàn bộ hệ gen các nhóm người đã tuyệt chủng
Năm 2010, một nhóm các nhà khoa học đã tách chiết thành công DNA
từ xương răng và công bố các genome lắp ráp đầu tiên của hai nhóm thuộc chi Homo đã tuyệt chủng: người Neanderthals và một nhóm chưa được biết tới trước đó, gọi là Denisova (lấy theo tên hang động thuộc dãy Altai của Nga)
Có 2 phát hiện lớn đó là: genome của người Neandethals và Denisovan có sự gần gũi lớn hơn so với nhóm Homo sapien hiện đại – AMHs; và tất cả non-African chia sẻ khoảng 1-4% nguồn gen của người Neanderthals, người địa trung hải – Melanesians có khoảng 3,5% genome giống với nhóm Denisovan
Trang 21Sử dụng kết hợp phương pháp phân tích D-statistic và LD, một nghiên cứu đã chứng mình rằng nhiều vùng gen của người Đông Á tiếp nhận nguồn gen từ người Neanderthals hơn người European Tương tự nghiên cứu đó, quá trình DNA của người Denisovan đi vào hệ gen của các quân thể người châu Á
là rất phức tạp Khoảng cách địa lý từ hang động Denisova đến Đông Nam Á
là rất xa, nhưng có khả năng là một giống loài Denisovan tổ tiên nào đó đã vượt qua khoảng cách đó
Nghiên cứu làn sóng di cư ở Đông Nam Á
Đông Nam Á là nơi có sự đa dạng về di truyền và ngôn ngữ của loài người, nhưng các chi tiết về sự di chuyển dân cư trong quá khứ trong khu vực không được biết đến nhiều Nghiên cứu của Lipson và cộng sự 2018 báo cáo
dữ liệu DNA cổ đại trên toàn bộ bộ gen của mười tám cá thể Đông Nam Á trải dài từ thời kỳ đồ đá mới đến thời đại đồ sắt (4100–1700 năm trước) Những người nông dân đầu tiên từ Mán Bạc ở Việt Nam thể hiện sự pha trộn giữa Đông Á (miền nam Trung Quốc) và đặc điểm tổ tiên phân biệt sâu sắc ở Đông Á (săn bắn hái lượm) của những người nói tiếng Nam Á (Austroasiatic), với tổ tiên tương tự ở xa về phía nam như Indonesia, cung cấp bằng chứng cho sự lan rộng ban đầu của Ngôn ngữ Nam Á Vào thời kỳ đồ đồng, theo mô hình song song với châu Âu, các địa điểm ở Việt Nam và Myanmar cho thấy mối liên hệ chặt chẽ với các nhóm đa số ngày nay, phản ánh lượng người di cư bổ sung đáng kể
Mặt khác, nghiên cứu của [13] cho thấy rằng các bộ gen ban đầu trong bối cảnh săn bắn hái lượm của người Hoabinhian ở Lào và Malaysia có mối quan hệ di truyền với những người Onge săn bắn hái lượm từ quần đảo Andaman (Ấn Độ), trong khi nông dân Đông Nam Á thời kỳ đồ đá mới, có sự
di truyền của tổ tiên Đông Á riêng biệt liên quan đến các quần thể nói tiếng Nam Á ngày nay Hơn nữa, cũng xác định hai sự kiện di cư tiếp theo, phù hợp với sự mở rộng của những người nói các ngôn ngữ Nam đảo vào vùng đảo Đông Nam Á và sự mở rộng của người Đông Á vào miền Bắc Việt Nam
Trang 221.1.5 Phân tích hệ gen ty thể trong nghiên cứu các mẫu khảo cổ
Cấu trúc hệ gen ty thể
Ty thể có hệ gen riêng, mtDNA nằm trong chất nền ty thể Đối với các
tế bào động vật, mỗi bào quan thường chứa một số bản sao giống hệt nhau của mtDNA [14–17]
Hình 1.1 Mô hình mtDNA ở người
Ty thể đóng một vai trò quan trọng trong cung cấp năng lượng tế bào Các bào quan chứa bộ gen của riêng chúng, độc lập với hệ gen nhân, với mã
di truyền đã được sửa đổi Bộ gen ty thể của động vật có vú chỉ được di truyền qua dòng mẹ mtDNA của con người là một phân tử mạch kép, hình tròn có kích thước 16569 bp và chứa 37 gen mã hóa cho hai rRNA, 22 tRNA
và 13 polypeptide Các polypeptit mã hóa mtDNA đều là các tiểu đơn vị của phức hợp enzym của hệ thống phosphoryl hóa oxy hóa Các cơ chế cơ bản của sự biểu hiện gen ty thể đã được tìm ra Các trình tự mtDNA tác động cis
đã được phân loại bởi so sánh trình tự, nghiên cứu lập bản đồ và phân tích đột biến cả trong phòng thí nghiệm và ở những bệnh nhân có đột biến mtDNA Việc xác định đặc tính của các yếu tố chuyển đổi đã được chứng minh là khó hơn nhưng một số enzym quan trọng tham gia vào quá trình sao chép mtDNA, phiên mã và tổng hợp protein hiện đã được xác định về mặt hóa sinh
và một số đã được nhân bản
Các phân tích cấu trúc và sinh hóa cho thấy rằng sự sao chép mtDNA sảy ra bằng cách dịch chuyển sợi DNA Trong mô hình này, sự sao chép mtDNA của sợi dẫn trước (leading strand), bắt đầu tại một vị trí cụ thể được
Trang 23gọi là OH trong vùng kiểm soát không mã hóa được gọi là D-loop Khi sự sao chép của sợi dẫn đầu đã đạt đến khoảng 2/3 bộ gen, nguồn gốc của sự sao chép (OL) trên sợi trễ (lagging strand) sẽ lộ ra, cho phép sự tổng hợp sợi trễ
xảy ra theo hướng ngược lại
Vùng không mã hóa chính (NCR) của mtDNA người trải dài khoảng 1,1 kb giữa các gen mt-tRNA của phenylalanin và proline NCR chứa các chất xúc tác HSP và LSP để phiên mã các sợi nặng và sợi nhẹ, cũng như nguồn gốc của sự sao chép sợi nặng, OH Một phần lớn của NCR thường kết hợp sợi DNA thẳng thứ ba dài khoảng 650 nucleotide, tạo thành cấu trúc vòng D ổn định Sợi bổ sung này được gọi là DNA 7S, dựa trên các đặc tính lắng đọng của nó Thuật ngữ 'NCR' và 'D-loop' thường được sử dụng thay thế cho nhau trong tài liệu, mặc dù điều này chỉ mang tính tương đối vì vùng D-loop không kéo dài toàn bộ NCR và chỉ một tỷ lệ phân tử mtDNA chứa D-loop tại bất kỳ thời điểm nào Vùng D-loop kéo dài từ xung quanh OH (ở đầu 5′ của DNA 7S) đến trình tự liên kết kết thúc (TAS) gần với gen tRNAPro (ở đầu 3′ của DNA 7S) [18] Cấu trúc D-loop ổn định dường như là một đặc điểm của nhiều mtDNA ở động vật, kể từ đó đã được quan sát thấy ở các loài khác bao gồm người, thỏ, bò và cóc có móng - Xenopus [19–22] Tỷ lệ phân tử mtDNA có chứa D-loop tại bất kỳ thời điểm nhất định nào dao động từ khoảng 10% trong tế bào người được nuôi cấy, lên đến khoảng 90% trong tế bào trứng Xenopus [20, 21, 23] Sự hình thành và ổn định của D-loop phụ thuộc vào các yếu tố trình tự trong NCR, và do đó, các sinh vật được đề cập ở trên giữ lại một cấu trúc NCR tương tự Thay vào đó, mtDNA của những sinh vật này chứa vùng kiểm soát ‘giàu A + T’, bao gồm khoảng 95% dư lượng adenine và thymine [24, 25]
Được tìm thấy trong vùng D-loop là ba vùng siêu biến (HV1, HV2 và HV3), là những vùng không mã hoá chính của phân tử [26] Những vùng này
có tính đa hình cao ở người, do đó có mức độ phân biệt cao giữa các cá thể với nhau Phân tích các vùng này thường cung cấp thông tin quan trọng về sự
đa dạng di truyền và nguồn gốc của quần thể Việc đánh giá các biến thể mtDNA đặc hiệu thông qua giải trình tự HV1 và HV2 trong vùng kiểm soát mtDNA đã trở nên phổ biến trong thập kỷ qua [27] Sự kết hợp của cả HV1
và HV2 rất hữu ích cho các mục đích pháp y [28] Vì vậy, điều quan trọng đối với mọi quốc gia là phải có cơ sở dữ liệu về các biến thể mtDNA của họ
Trang 24Nghiên cứu mtDNA trong khảo cổ
Vì tinh trùng thiếu ty thể nên tất cả mtDNA đều được di truyền từ mẹ Với mọi thế hệ, các bà mẹ truyền mtDNA của họ cho con trai và con gái của mình Rất hiếm có cơ hội xảy ra đột biến trong mtDNA, chẳng hạn như thay đổi nucleotide (ví dụ: “T” cho “C”) Những đột biến này chỉ ảnh hưởng đến một phần tổng thể của mtDNA, một phần thay đổi trong số ∼16.500 nucleotide Tuy nhiên, các đột biến tích lũy theo thời gian, truyền từ mẹ sang con gái trong dòng mẹ Do đó, một đột biến trong mtDNA của tổ tiên họ ngoại tồn tại trong tất cả con cháu, đánh dấu một cách hiệu quả dòng dõi mẹ
Sự kế thừa tương đối đơn giản này của mtDNA và tích lũy các đột biến dọc theo dòng mẹ cung cấp một khuôn khổ đơn giản để đặt câu hỏi về lịch sử của dòng mẹ liên kết di vật cổ đại với con người hiện nay Có lẽ ví dụ nổi tiếng nhất là mtDNA cổ đại từ một mẫu vật của người Neanderthal ở châu Âu được phát hiện cách đây 150 năm Các nhà nghiên cứu tại Viện Max Planck đã cố gắng tách chiết mtDNA từ mẫu này, một bước đột phá kỹ thuật vào thời điểm
đó [29] Hơn nữa, dữ liệu từ mẫu đơn này có tiềm năng thay đổi hiểu biết của chúng ta về lịch sử loài người Nếu phụ nữ Neanderthal đóng góp vào vốn gen người, thì mtDNA kiểu Neanderthal sẽ tồn tại trong một số mẫu người Tuy nhiên, trình tự mtDNA của người Neanderthal này không mang các biến thể đánh dấu các dòng dõi đã biết của con người và do đó, nằm ngoài sự đa dạng mtDNA của con người Có thể hoặc không có sự kết hợp gen của người Neanderthal với tổ tiên của người hiện đại hoặc nếu có, mtDNA của những người Neanderthal đó không được đại diện trong vốn gen người hiện nay Ngày nay, chúng ta biết rằng lời giải thích thứ hai là đúng, nhờ vào trình tự toàn bộ bộ gen từ nhiều người Neanderthal [30–32] Trên thực tế, mtDNA của người Neanderthal có thể đã được xâm nhập từ chính một hominin châu Phi không xác định [33] Tuy nhiên, dựa trên những tiến bộ kỹ thuật từ nhóm Max Planck và những người khác, việc tách chiết và giải trình tự mtDNA cổ đại từ các mẫu từ các khu vực địa lý và thời kỳ khác nhau đã trở nên tương đối phổ biến Nghiên cứu mtDNA cổ đại đã cung cấp một bước tiến đáng kể trong việc bổ sung cho hồ sơ khảo cổ học Nói chung, những nghiên cứu này
đo tần số của các dấu hiệu di truyền ty thể cụ thể trong các môi trường khảo
cổ nhất định và so sánh chúng với các tần số được ghi lại trong các quần thể khảo cổ học và còn tồn tại khác Kết quả của những nghiên cứu này cho thấy
Trang 25rằng các tập hợp những điểm dị biệt giữa những sinh vật đồng loại liên tục xác định sự biến đổi di truyền của con người mà không có biên giới cứng rõ ràng; bốn tần số alen của các biến thể mtDNA thay đổi dần dần theo thời gian
và địa lý, được định hình bởi dòng gen liên tục giữa các quần thể lân cận [34, 35] Dữ liệu mtDNA cổ đại đã cung cấp một chiều thời gian cho quan sát này
vì rõ ràng rằng sự biến đổi mtDNA cũng mang tính khí hậu theo thời gian, thay đổi thông qua sự trôi dạt và dòng gen Nó tiếp tục khẳng định sự hiểu biết đã có từ nhiều thập kỷ trong lĩnh vực này rằng các phạm trù xã hội truyền thống, ví dụ: dân tộc, quốc tịch, chủng tộc, không có ý nghĩa về mặt di truyền [36] Liên quan nhiều hơn đến các câu hỏi khảo cổ học, phân tích mtDNA cũng đã ghi lại sự di chuyển của con người và sự mở rộng dân số về mặt địa
lý Ví dụ, một thành công quan trọng của phương pháp này là quan sát thấy rằng một tập hợp con của các biến thể mtDNA tiến hóa ở châu Á đã được chuyển đến châu Mỹ [37]
1.2 Tình hình nghiên cứu ở Việt Nam
Đông Nam Á là một trong những khu vực địa lý có lịch sử hình thành
và phát triển của loài người rất đa dạng và phức tạp Dựa trên bằng chứng khảo cổ, con người đã xuất hiện tại khu vực này từ hơn một triệu năm trước Việt Nam nằm trong khu vực Đông Nam Á, là quốc gia đa sắc tộc và cũng là mái nhà chung của 5 nhóm ngữ hệ lớn nhất khu vực là ngữ hệ Nam Á, Nam Đảo, Thái – Kadai, Mông - Dao và Hán – Tạng Quốc gia này nằm tại vị trí địa lý đặc biệt, phía bắc giáp Trung Quốc, phía tây giáp Lào, phía nam giáp Campuchia và phía đông có đường biển trải dài từ Bắc vào Nam, cũng là cửa ngõ nối Thái Bình Dương và Ấn Độ Dương, do đó có sự giao thoa về văn hóa
và sắc tộc mạnh mẽ Con người đã đến định cư tại vùng đất Việt Nam từ lâu
đời, dựa trên một số dấu vết của những Homo sp thì dấu vết của những con
người đầu tiên tại Việt Nam đã có từ khoảng nửa triệu năm trước – nửa cuối giai đoạn Pleistocene Đây cũng là nơi ghi nhận sự hình thành của những xã hội loài người nguyên thủy đầu tiên, cũng là một trong số địa điểm khởi sinh nền nông nghiệp trồng lúa nước Ngày nay, Việt Nam cũng là mái nhà chung của 54 dân tộc anh em, tạo ra một quần xã người đa dạng và phức tạp Nghiên cứu thông tin di truyền dựa trên chỉ thị SNPs của các nhóm dân tộc lớn hiện sinh sống tại Việt Nam cũng cho thấy sự pha trộn vốn gen giữa các nhóm dân tộc, đặc biệt là các nhóm thuộc ngữ hệ Nam Á, Hán – Tạng, Mông – Dao và
Trang 26Thái – Kadai Mặt khác, nhóm Nam Đảo lại có sự phân tách rõ ràng với các nhóm còn lại Ngoài ra, các nghiên cứu sử dụng chỉ thị STR cũng cho thấy sự
đa dạng trên [38–42]
Cho đến thời điểm hiện tại, các mẫu xương người khảo cổ chỉ được nghiên cứu về mặt khảo cổ học mà chưa có một nghiên cứu di truyền nào được tiến hành tại Việt Nam Các mẫu khảo cổ có niên đại lớn, có mẫu thuộc văn hóa Hòa Bình có niên đại khoảng 23.000 năm tuổi, hay những mẫu thu được của ngôi mộ thời Đông Sơn (sau thời kỳ đồ đá mới đến thời kỳ đồ Đồng) ở Sơn La Bộ hài cốt trong ngôi mộ còn nguyên vị trí, còn nguyên hình thái hộp sọ, xương còn màu trắng Tuy nhiên, các bằng chứng chứng minh lịch sử của con người sinh sống tại Việt Nam lại hạn chế về cả số lượng các bản ghi chép, đến các bằng chứng khảo cổ học và đặc biệt là các nghiên cứu
di truyền, từ đó dẫn đến nhiều tranh cãi Đơn cử như trường hợp các mẫu xương thu được tại làng Động Xá, huyện Kim Động, tỉnh Hưng Yên Năm
2004, hoạt động đào kênh mương phục vụ nước tưới tiêu cho nông nghiệp của người dân địa phương đã tình cờ phát hiện được một khối lượng rất lớn các di chỉ khảo cổ với khoảng 100 ngôi mộ cổ, đặc biệt có một mộ thuyền được xác định là cổ nhất Đông Nam Á với bộ hài cốt được phủ vải liệm và mai táng với cùng nhiều cổ vật khác, trong đó có trống đồng - đặc trưng của văn hóa Đông Sơn Dựa trên xác định đặc điểm các hoa văn trang trí có trên các cổ vật, cùng với quá trình xác định tuổi bằng đồng vị phóng xạ 14C cho thấy, các di tích
có độ tuổi khoảng 2.100 năm tuổi (khoảng năm 60 – 70 TCN), thuộc nền văn hóa Đông Sơn Từ hình thái xương của các bộ hài cốt có sự tương đồng lớn với các bộ hài cốt là người Thái – Kadai cổ phát hiện được ở Quảng Tây, Trung Quốc Nếu thực sự, bộ hài cốt trong ngôi mộ thuyền có mối tương quan với Thái – Kadai thì sẽ là một bằng chứng rất quan trọng đối với lịch sử của nhóm Thái – Kadai tại Việt Nam Mặc dù vậy, cho đến thời điểm hiện tại chưa có nghiên cứu nào về mối liên hệ giữa những bộ hài cốt tại Động Xá và nhóm Thái – Kadai hiện đại, cụ thể là nhóm sinh sống tại Việt Nam về mặt di truyền Hiện trạng này cũng gặp ở các mẫu khảo cổ khác như mẫu xương trong mộ thuyền được mai táng ở hang đá vôi tại xã Nà Lồi, huyện Vân Đồn, tỉnh Sơn La; hay mẫu xương phát hiện được tại di tích Bãi Cọc trong chiến thắng lẫy lừng “trận Bạch Đằng” Những mẫu vật trên được lưu trữ dải dác tại Viện Khảo cổ học Việt Nam và Trung tâm Tiền sử Đông Nam Á Những mẫu
Trang 27đề cập ở trên đều khác với các mẫu đã được tiến hành bởi các nhóm nghiên cứu nước ngoài đã công bố Trong đó, phải đề cập đến nghiên cứu của nhóm tác giả [43] cho thấy, các mẫu hài cốt thu thập được thuộc giai đoạn Đông Sơn (Núi Nấp, 2378 đến 2041 năm trước) có sự tương đồng cao với nhóm Dai, Amis
và Kradai tại Thái Lan hiện tại nhưng có sự pha trộn vốn gen của nhóm nam Trung Quốc Trong khi đó, những mẫu thu thập được từ giai đoạn sớm hơn (Hoabinhian), khoảng cuối thời đại đồ đá mới đến đầu thời đại đồ đồng (Hòn Hai
Cô Tiên – Quảng Ninh và di tích Mái Đá Điều – Thanh Hóa, khoảng 4000 năm trước) lại không có sự pha trộn với nhóm gen nam Trung Quốc Các kết quả trên cũng tương đồng với kết quả trong nghiên cứu của nhóm [44] sau đó, đó là các mẫu có niên đại khoảng 4080-3695 năm từ di chỉ khảo cổ Mán Bạc – Ninh Bình, cũng là nơi phát hiện những ông tổ nghề gốm Bát Tràng đầu tiên, cũng cho thấy
sự gần gũi về di truyền với người Mlabri, Campuchia hiện đại và nhóm nam Trung Quốc
Trang 28CHƯƠNG 2 ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU
2.1 ĐỐI TƯỢNG NGHIÊN CỨU
2.1.1 Người Việt cổ sinh sống trong giai đoạn hậu thời kỳ đồ đá mới
Mẫu xương khảo cổ được cung cấp bởi Viện khảo cổ và Trung tâm Tiền sử Đông Nam Á được sử dụng để tách chiết DNA ty thể Ngoài ra, luận văn có sử dụng các trình tự mtDNA của người Việt cổ thuộc giai đoạn hậu thời kỳ đồ đá mới của các nghiên cứu đã được công bố trước đó [44]
2.1.2 Người Việt hiện đại
Các trình tự toàn bộ mtDNA của người Việt hiện đại (bao gồm một số dân tộc) đại được đăng trên GenBank [45]
2.2 PHƯƠNG PHÁP NGHIÊN CỨU
2.2.1 Tách chiết mtDNA và giải trình tự bằng hệ thống máy Ion S5™ (Thermo Fisher Scientific)
Tách chiết mtDNA
Mẫu xương khảo cổ (răng và xương) được nghiền thành bột, bổ sung
700 µl EDTA 0.5M (pH 8.3) và ủ 37 độ C trong 24-48h Thêm 20 µl Proteinase K, ủ ở 56 độ C trong 3h Ly tâm 6000 rpm trong 4 phút, chuyển
200 µl dịch nổi sang ống EZ1 đựng mẫu Tách chiết mtDNA bằng bộ kit chuyên dụng EZ1 DNA Investigator Kit tự động với máy EZ1 advanced XL [46] Các mẫu tham chiếu được tách chiết bằng Chelex® [47]
Giải trình tự Sanger
Giải trình tự Sanger được thực hiện trên thiết bị 3500xL Genetic Analyzer sử dụng BigDye Terminator v3.1 Cycle Sequencing Kit (Applied Biosystems, TX, USA) Đối với các mẫu xương, cặp mini-primer được phát triển bởi Phòng thí nghiệm Nhận dạng DNA của Lực lượng Vũ trang (AFDIL) được sử dụng để giải trình tự hai vùng overlapping ở HV1 (vùng PS1: F15989 5’-CCCAAAGCTAAGATTCTAAT 3’, R16251 5’-GGAGTTGCAGTTGATGT 3’, và vùng PS2: F16190 5’-
Trang 295’-GAGGATGGTGGTCAAGGGAC 3’) [48] Đối với mẫu đối chứng, chỉ có mồi F15989 và R16410 được sử dụng Dữ liệu thu được từ giải trình tự Sanger được phân tích thông qua phần mềm Sequencher v5.4.6 (GeneCodes,
MI, USA) Sự thay đổi của các base so với trình tự tham chiếu đã có sửa đổi của Cambridge (rCRS) [26] được lưu trữ lại
Định lượng DNA
Định lượng mtDNA được tiến hành bởi in-house qPCR sử dụng các mồi đặc hiệu cho đoạn 170 bp ở vùng HV1 và đầu dò huỳnh quang TaqMan Trình tự oligonucleotide lần lượt là: mồi xuôi F15989 5’-
5’-TACTACAGGTGGTCAAGTAT-3’, và đầu dò tự thiết kế 5’- FAM CCCATCAACAACCGCTATGTATT-MGB- 3’ Phản ứng khuếch đại qPCR được thực hiện với tổng 20 µl phản ứng bao gồm 1X Go Taq Probe qPCR Master Mix (Promega, WI, USA), 500 nM mỗi mồi, 250 nM mẫu dò, và 2 µl DNA đã được tách chiết Chu kỳ gia nhiệt được bắt đầu bởi 1 chu kỳ 95°C trong 2 phút, sau đó là 40 chu kỳ 95°C trong 15 s, và một chu kỳ nhiệt cuối cùng 60°C trong 1 phút Dịch pha loãng 10 lần của 443 base pairs (bp) tinh sạch của sản phẩm PCR thuộc vùng HV1 (từ 0.006 pg đến 60 pg, xấp xỉ 6.58×104 to 6.58×108 bản sao) được sử dụng để dựng đường chuẩn Hai mẫu đối chứng không có mạch khuôn cũng được thêm vào thí nghiệm
Chuẩn bị thư viện và giải trình tự
Chuẩn bị thư viện của các mẫu được thực hiện sử dụng Precision ID mtDNA Control Region Panel và Precision ID Library Kit 2.0 (Thermo Fisher Scientific, CA, USA) theo hướng dẫn của nhà sản xuất Cho mỗi mẫu giải trình tự, hai PCR gộp mẫu được tiến hành để khuếch đại toàn bộ CR (control region) của DNA ty thể Phương pháp “two-in-one” được áp dụng cho các mẫu xương sử dụng 6 μl DNA được tách chiết như mạch khuôn cho khuếch đại Hai phản ứng multiplex PCR được thực hiện với một thể tích 20 μl theo sau đó là pooling nửa thể tích của cả pools để xây dựng thư viện Trong khi, phương pháp tiết kiệm (“conservative” method) được sử dụng cho các mẫu tham chiếu đối chứng, khi tổng 10 μl của sản phẩm PCR đã khuếch đại từ 0.1
ng DNA đầu vào trong giếng thứ nhất và lượng như nhau của sản phẩm PCR trong giếng thứ hai được kết hợp với nhau Các thư viện đã được gộp được
Trang 30phân hủy một phần các đoạn mồi bằng enzyme FUPA và sau đó được nối với các adapter và các barcode đặc trưng Tinh sạch các thư viện với 1.5x AMPure XP beads (Beckman Coulter, CA, USA) Mỗi thư viện được định lượng hai lần sử dụng Quantifiler Trio kit và Ion Library TaqMan Quantitation Kit (Thermo Fisher Scientific, TX, USA) trên hệ thống 7500 Real-Time PCR và chuẩn hóa về nồng độ cuối cùng là 30 pM Các thư viện của 6 mẫu xương và mẫu đối chứng âm được phân bố vào hai chip Ion520 và giải trình tự trên hệ thống Ion S5™
Trang 312.2.2 Phân tích đánh giá chất lượng giải trình tự của hệ thống Ion S5™ bằng phần mềm FastQC
Trình tự thu được sau khi giải trình tự được đưa vào phần mềm FastQC [49] để loại bỏ các trình tự chất lượng thấp (QC < 30) và kiểm tra xem mồi còn có mặt trong các trình tự hay không
2.2.3 Map các đoạn đọc (reads) với hệ gen tham chiếu và lọc chất lượng bằng phần mềm bwa, samtools
Bwa aln tìm tọa độ (suffix array) SA của các đoạn đọc đầu vào Các thông số được sử dụng bao gồm -l 1000 vô hiệu hóa các seed để sử dụng cho các đoạn đọc ty thể cổ (aDNA) Bwa samse tạo các căn chỉnh (agliment) ở định dạng SAM cho các đoạn đọc single – end (đầu ra của bước giải trình tự chỉ xuất một dạng đoạn đọc với một chiều duy nhất) samtools hiển thị đầu ra trước đó dưới dạng tệp BAM (b), đầu vào là SAM (S) và bao gồm tiêu đề - header (h) Sau đó, samtools lọc ra những lần đọc chưa được sắp xếp và chất lượng thấp -q hiển thị kết quả đầu ra trước đó dưới dạng tệp BAM (b) và bao gồm tiêu đề (h), nhưng bỏ qua căn chỉnh với MAPQ nhỏ hơn 30 (-q 30) và căn chỉnh có đánh dấu 4 (phân đoạn 0x4 không được ánh xạ) Tiếp đó, loại bỏ các bản sao PCR tiềm năng: nếu nhiều cặp đọc có tọa độ bên ngoài giống hệt nhau, chỉ giữ lại cặp có chất lượng ánh xạ cao nhất Loại bỏ bản sao cho các đoạn đọc single - end
2.2.4 Ước tính các mẫu bị tổn thương (deamination) và chỉnh lại các file BAM bằng phần mềm mapDamage
Sử dụng mapDamage [50] để ước tính các tổn thương của các mẫu DNA cổ Đồng thời, sử dụng rescale để chỉnh lại chất lượng ánh xạ trong khi tính các tổn thương Điều này quan trọng đối với các lệnh gọi kiểu gen sau này Hơn nữa, vì một số mẫu sẽ không có nhiều lượt đọc (ví dụ: khoảng trống hoặc mẫu có hàm lượng nội sinh thấp) nên cần tạo một ngưỡng ra Điều này đảm bảo rằng các mẫu có quá ít lần đọc để chỉnh vẫn có thể được xử lý trong bước tiếp theo bằng cách sao chép tệp bam chưa được chỉnh vào quy trình tiếp theo
Trang 32
2.2.5 Gọi các biến thể (variants) và tạo ra VCF (Variant Call Format)
Ở bước này sử dụng samtools [51] và bcftools [51] để tạo ra các lần gọi kiểu gen Theo mặc định, quá trình này được cho là dành cho các sinh vật lưỡng bội vì vậy để sử dụng nó với mtDNA, chúng ta cần chỉ định rằng ploidy = 1 bằng cách sử dụng một tệp văn bản có chứa tên tệp và ploidy Sử dụng samtools mpileup để tạo tệp vcf từ tệp bam và chế độ xem bcftools để cài đặt thêm và lọc tệp VCF/BCF Sau đó chạy samtools với các tùy chọn sau: -f đầu vào tham chiếu được lập chỉ mục, -u tính toán khả năng kiểu gen và xuất chúng ở định dạng gọi nhị phân (BCF) không được nén, - C 50 Hệ số hạ cấp chất lượng ánh xạ cho các lần đọc chứa quá nhiều không khớp, 50 là giá trị được khuyến nghị cho các căn chỉnh BWA Đầu ra cuối cùng ở giai đoạn này là hai tệp VCF, một tệp được lọc cho độ bao phủ của các đoạn đọc lớn 1x
và tệp còn lại thì không Các tệp VCF được tạo ra có thể được sử dụng làm đầu vào cho mtDNA haplotyping trong Haplogrep
2.2.6 Tạo file consensus và kiểm tra nhiễm với Schmutzi
Quy trình làm việc của Schmutzi [52]: Ước tính nhiễm ban đầu được tính toán bằng cách điều chỉnh ở một đầu của trình tự bị hủy và so sánh chúng với tỷ lệ hủy của tất cả các đoạn trong tập dữ liệu (contDeam) Bước này được cung cấp để gọi một consensous (là thứ tự được tính toán của các nucleotit được tìm thấy ở mỗi vị trí theo sắp xếp trình tự) nội sinh (endoCaller) Tiếp theo, việc gọi consensous được sử dụng để ước tính lại sự nhiễm ty thể (mtCont) Tỷ lệ hủy và phân bố chiều dài đoạn được đo cho các đoạn hỗ trợ bộ gen ty thể nội sinh và nhiễm (splitEndo) Thông tin từ mtCont
và splitEndo được sử dụng làm đầu vào để gọi lại consensous nội sinh (endoCaller) Chu trình này được lặp lại cho đến khi đạt được tỷ lệ nhiễm ổn định hoặc tìm ra nhiễm
Hình 2.1: Quy trình làm việc của Schmutzi ( Renaud G et al., 2015)
Trang 332.2.7 Xác định nhóm haplogroup bằng HaploGrep2
Các tệp VCF được tạo ra bởi samtools ở bước trước đó được sử dụng làm đầu vào cho việc phân loại haplogroup (một nhóm của các alleles trong mỗi sinh vật được di truyền cùng nhau từ một bố mẹ) của mtDNA trong Haplogrep2 [53] Bản thân việc phân loại haplogroup dựa trên mức độ phát sinh loài được tính toán trước tương ứng với sự xuất hiện trên mỗi vị trí trong Phylotree và phản ánh tính ổn định đột biến của một biến thể Đầu ra của HaploGrep2 bao gồm: báo cáo các haplogroup bao gồm vị trí, tên haplogroup, điểm chất lượng, các đa hình, các thay đổi axit amin tương ứng
2.2.8 Dựng cây phát sinh chủng loại thông qua phần mềm
MEGA
Dựa vào các haplogroup đã được xác định trước đó, xác định các mẫu
ty thể thuộc cùng haplogroup để xây dựng cây phát sinh chủng loại bằng MEGA [54]
Trang 34CHƯƠNG 3 KẾT QUẢ VÀ THẢO LUẬN
3.1 Kết quả tách chiết mtDNA và giải trình tự bằng hệ thống máy Ion S5™ (Thermo Fisher Scientific)
3.1.1 Kết quả tách chiết mtDNA
Các mẫu xương khảo cổ được cung cấp bởi Viện khảo cổ và Trung tâm Tiền sử Đông Nam Á có tuổi được xác định dựa trên đồng vị cacbon 14 cách ngày nay khoảng 6400 năm, thuộc nền văn hóa Đa Bút, hậu thời kỳ đồ đá mới (late neolithic)
Mẫu số 1: ký hiệu K1A06
Loại mẫu: 01 xương dài (Xương đùi)
Màu sắc: có màu nâu
Chất lượng mẫu: còn cứng rắn
Hình 3.1: Mẫu xương đùi – K1A06
Mẫu số 2: ký hiệu K1B07
Loại mẫu: 04 mảnh
Màu sắc: có màu nâu
Chất lượng mẫu: còn cứng rắn tuy nhiên 2 đầu xương đã bị gãy, trong quá trình phục chế đã dùng thạch cao để bịt lại 2 đầu bị gãy
Hình 3.2: Mẫu xương K1B07
Trang 35Mẫu số 3: ký hiệu K1B05
Loại mẫu: 06 xương dài
Màu sắc: có màu nâu
Chất lượng mẫu: Còn cứng rắn tuy nhiên đầu xương đã bị gãy, trong quá trình phục chế đã dùng thạch cao để bịt lại 2 đầu bị gãy
Hình 3.3: Mẫu 6 xương dài - K1B05
Mẫu số 4: ký hiệu K1B10A
Loại mẫu: 02 xương dài và các mảnh xương nhỏ
Màu sắc: có màu nâu
Chất lượng mẫu: Còn cứng rắn tuy nhiên các xương đã bị gãy nát nhiều, trong quá trình phục chế đã dùng thạch cao để bịt lại 2 đầu bị gãy
Hình 3.4: Mẫu xương dài và các mảnh xương nhỏ K1B10A
Trang 36Mẫu số 5: ký hiệu K1B08
Loại mẫu: 03 xương dài và nhiều mảnh xương nhỏ
Màu sắc: có màu nâu
Chất lượng mẫu: các xương dài còn cứng rắn tuy nhiên đầu xương đã bị gãy, trong quá trình phục chế đã dùng thạch cao để bịt lại đầu bị gãy Các mảnh xương nhỏ đã bị gãy nát, chất lượng kém
Hình 3.5: Mẫu xương K1B08
Mẫu số 6: ký hiệu K1B10
Loại mẫu: nhiều mảnh xương đã gãy nát
Màu sắc: có màu nâu
Chất lượng mẫu: Còn cứng rắn tuy nhiên đầu xương đã bị gãy, trong quá trình phục chế đã dùng thạch cao để bịt lại đầu bị gãy
Hình 3.6: Mẫu xương gãy nát K1B10
Mẫu vật sau khi được làm sạch, làm khô ở nhiệt độ 56℃ trong vòng
2-3 giờ sẽ được chuyển sang bước xử lí tiền tách chiết Ở bước này, mẫu sẽ được nghiền thành dạng bột mịn chia ra thành các ống nhỏ mỗi ống khoảng 200mg bột để xử lí bước tách chiết sau này
Trang 37Hình 3.7: Các mẫu xương sau khi nghiền mịn
Trước khi giải trình tự Sanger các mẫu tách chiết được điện di sản phẩm PCR với cặp mồi miniset PS1 và PS2 trên gel agarose 2% để kiểm tra hiệu quả của quá trình tách chiết
Trang 38Hình 3.8: Kết quả điện di sản phẩm PCR với cặp mồi miniset PS1 và PS2 trên