1. Trang chủ
  2. » Luận Văn - Báo Cáo

luận văn thạc sĩ xây dựng cơ sở dữ liệu về tần số allele 22 locus đa hình STR trên nhiễm sắc thể thường ở quần thể người mông tại hà giang, việt nam

95 30 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 95
Dung lượng 3,63 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Mỗi một quần thể người đều có những đặc trưng sinh học riêng biệt hình thành trong quá trình sống qua nhiều thế hệ, trong đó ở cấp độ ADN, được thể hiện bằng sự phân bố khác nhau về tần

Trang 1

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

-

Trần Huyền Linh

XÂY DỰNG CƠ SỞ DỮ LIỆU VỀ TẦN SỐ ALLELE 22 LOCUS ĐA HÌNH STR TRÊN NHIỄM SẮC THỂ THƯỜNG Ở QUẦN THỂ NGƯỜI MÔNG TẠI HÀ GIANG,

VIỆT NAM

LUẬN VĂN THẠC SĨ CÔNG NGHỆ SINH HỌC

Hà Nội - 2020

Trang 2

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

-

Trần Huyền Linh

XÂY DỰNG CƠ SỞ DỮ LIỆU VỀ TẦN SỐ ALLELE 22 LOCUS ĐA HÌNH STR TRÊN NHIỄM SẮC THỂ THƯỜNG Ở QUẦN THỂ NGƯỜI MÔNG TẠI HÀ GIANG,

Trang 3

Tôi xin cam đoan những nội dung viết trong luận văn là do sự tìm tòi, học hỏi và nghiên cứu của bản thân với sự hướng dẫn tận tình của PGS TS Chu Hoàng Hà và các đồng nghiệp tại Viện Công nghệ sinh học, Viện Hàn lâm Khoa học và Công nghệ Việt Nam

Mọi kết quả nghiên cứu cũng như ý tưởng của các tác giả khác (nếu có) đều được trích dẫn cụ thể Đề tài luận văn này cho đến nay chưa được bảo vệ tại bất kỳ một hội đồng bảo vệ luận văn thạc sĩ nào và cũng chưa được công bố trên bất kỳ phương tiện nào Tôi xin chịu trách nhiệm về những lời cam đoan trên

Hà Nội, ngày 28 tháng 5 năm 2020

Người cam đoan

Trần Huyền Linh

Trang 4

Để hoàn thành được Luận văn cao học này, tôi xin bày tỏ lời cảm ơn đến PGS TS Chu Hoàng Hà đã trực tiếp định hướng, hướng dẫn tôi một cách tận tình và giúp đỡ tôi xây dựng ý tưởng để hoàn thiện luận văn

Tôi xin cảm ơn tập thể lãnh đạo Viện Công nghệ sinh học, lãnh đạo và cán

bộ Phòng thí nghiệm Trọng điểm Công nghệ Gen – Viện Công nghệ sinh học

đã tạo điều kiện thuận lợi cho tôi trong suốt quá trình học tập và thực hiện nghiên cứu đề tài

Tôi xin trân trọng cảm ơn ban lãnh đạo cùng các thầy cô giáo Khoa Sinh học, Học viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học và Công nghệ Việt Nam đã truyền đạt kiến thức và giúp đỡ tôi trong quá trình học tập và thực hiện luận văn

Cuối cùng, tôi xin bày tỏ lòng biết ơn đến gia đình, người thân, bạn bè và đồng nghiệp, những người đã luôn động viên, tạo điều kiện cho thôi hoàn thành luận văn này./

Học viên

Trần Huyền Linh

Trang 5

Chữ viết tắt Nội dung

Trang 6

Bảng 1.1 Thông tin về vị trí và tốc độ đột biến của một số locus thường dùng theo cơ sở dữ liệu STRbase 15Bảng 1.2 Thông tin về vị trí và trình tự của một đơn vị lặp của các locus có trong bộ kit PowerPlex Fusion System theo thông tin của nhà sản xuất 19Bảng 2 Bảng thành phần phản ứng khuếch đại 29Bảng 3.1 Số lượng allele mỗi locus 33Bảng 3.2 Bảng tần số allele 22 locus STR trên NST thường của Mông, tại Hà Giang - Việt Nam 35Bảng 3.3 Các allele có tần số thấp phát hiện được trong quần thể 41Bảng 3.4 Kết quả kiểm định cân bằng HWE bằng phần mềm Arlequin v3.5

Bảng 3.5 Kết quả tính các chỉ số EH và OH của từng locus 44Bảng 3.6 Bảng ma trận đánh giá linkage disequilibrium của các locus 46Bảng 3.7 Các chỉ số MP, PE, DC và PIC của các locus 51

Trang 7

Hình 1.2 Kết quả các băng thu được sau phân giải bằng enzyme giới hạn và lai

Southern của một đại gia đình 12

Hình 1.3 Kết quả thu được so sánh giữa hai phương pháp sử dụng nhiều locus và các đơn locus dựa trên phương pháp RFLP 13

Hình 1.4 Hình ảnh kết quả điện di mao quản của một số locus sử dựng phương pháp PCR và gắn huỳnh quang trên mỗi locus 13

Hình 1.5 Cơ chế sinh đột biến STR do gấp đoạn trong quá trình nhân bản 16 Hình 1.6 Quá trình xác định kích thước của một allele dựa trên ô thang chuẩn 19

Hình 1.7 Sự phân bố các nhánh ngôn ngữ thuộc hệ Mông - Dao tại Việt Nam 24

Hình 1.8 Cây phát sinh chủng loại miêu tả mối quan hệ di truyền gần gũi giữa quần thể người Kinh và một số quần thể khác 25

Hình 2.1 Bản đồ hành chính tỉnh Hà Giang 26

Hình 2.2 Độ dài và loại dye được sử dụng cho mỗi locus trong bộ kit 28

Hình 2.3 Chu trình nhiệt của phản ứng khuếch đại với 28 chu kỳ 29

Hình 3.1 Biểu đồ màu theo giá trị chỉ số MP của từng locus 47

Hình 3.2 Biều đồ màu theo giá trị chỉ só PE của từng locus 48

Hình 3.3 Biều đồ màu theo giá trị DC của từng locus 49

Hình 3.4 Biểu đồ màu theo giá trị của chỉ số PI của các locus 50

Hình 3.5 Hình ảnh giao diện phần mềm STR-VN version 1.0 52

Hình 3.6 Cây phát sinh chủng loại về mối tương quan di truyền giữa người Mông và các quần thể khác 54

Trang 8

MỤC LỤC

MỞ ĐẦU 3

CHƯƠNG 1 TỔNG QUAN TÀI LIỆU 5

1.1 Tổng quan về đoạn lặp ngắn ngẫu nhiên – STR 5

1.1.1 Short tandem repeat – STR 5

1.1.2 Bộ kit Powerplex Fusion system được sử dụng trong giám định 18

1.1.3 Cơ sở dữ liệu tần số STR 21

1.1.4 Di truyền quần thể và dân tộc 21

1.2 Tình hình nghiên cứu trong và ngoài nước 24

CHƯƠNG 2 NGUYÊN VẬT LIỆU VÀ PHƯƠNG PHÁP NGHIÊN CỨU 26

2.1 Nguyên vật liệu 26

2.1.1 Địa điểm thu mẫu 26

2.1.2 Thu thập và bảo quản 27

2.2 Phương pháp nghiên cứu 27

2.2.1 Khuếch đại đoạn gen 27

2.2.2 Tính toán tần số và các chỉ số pháp y 30

2.2.3 Xác định mối liên hệ giữa quần thể người Mông tại Hà Giang và các quần thể khác 31

CHƯƠNG 3 KẾT QUẢ VÀ THẢO LUẬN 32

3.1 Kết quả thu mẫu và khuếch đại ADN 32

3.2 Kết quả tính tần số các locus và xác định các allele có tần số thấp 34

3.3 Kết quả phân tích thống kê 42

3.3.1 Kiểm định cân bằng Hardy-Weinberg 42

3.3.2 Gía trị dị hợp tử mong đợi và quan sát được 44

3.3.3 Kiểm tra tính di truyền liên kết của các locus STR 45

3.4 Kết quả phân tích các chỉ số pháp y 47

Trang 9

3.4.1 Chỉ số khả năng trùng hợp ngẫu nhiên - Match probability (MP)

47

3.4.2 Chỉ số khả năng loại trừ - Power of Exclusion 47

3.4.3 Chỉ số khả năng phân biệt – Discrimination capacity 48

3.4.4 Chỉ số đa hình - Polymorphic information content 49

3.4.5 Chỉ số Parternity index – PI 49

3.5 Các chỉ số pháp y đánh giá tần số các allele của một quần thể 50 3.6 Kết quả phân tích mối tương quan di truyền với các quần thể khác 52

CHƯƠNG 4 KẾT LUẬN VÀ KIẾN NGHỊ 55

4.1 Kết luận 55

4.2 Kiến nghị 56

TÀI LIỆU THAM KHẢO 57

PHỤ LỤC 62

Phụ lục 1: Kết quả khuếch đại các locus STR của mẫu đối chứng dương 62

Phụ lục 2: Kết quả khuếch đại các locus STR của mẫu đối chứng âm63 Phụ lục 3: Kết quả kiểm định Chi-square các cặp locus về lingkage disequilirium 64

Phụ lục 4: Thông tin các mẫu tham gia đề tài 85

Trang 10

MỞ ĐẦU

Short tandem repeat - STR là các đoạn trình tự ngắn, được cấu thành bằng sự lặp lại của khoảng 2 – 7 nucleotide Trong hệ gen của người, các STR nằm rải rác khắp nơi, chúng nằm trong vùng không mã hóa, giữa các gen và chiếm khoảng 3% hệ gen người Do vị trí đặc thù của STR, chúng có độ đa dạng cao về độ dài và trình tự lặp lại mà không ảnh hưởng đến hoạt động sống của con người STR có tính bảo thủ cao, được truyền từ bố mẹ sang con cái, vì vậy mà các STR khác nhau giữa các cá thể khác nhau không có quan hệ huyết thống trực hệ STR là các chỉ thị phân tử được ứng dụng rộng rãi trong các phân tích khoa học hình sự, cụ thể là công tác xác định danh tính, là công cụ đắc lực trong các vụ án hình sự phức tạp như cưỡng hiếp tập thể hoặc khi các dấu vết còn sót tại hiện trường không đủ cung cấp thông tin cho công tác điều tra [1], [2] STR cũng được sử dụng trong nghiên cứu di truyền quần thể hay cho mục đích khảo cổ học Mỗi một quần thể người đều có những đặc trưng sinh học riêng biệt hình thành trong quá trình sống qua nhiều thế hệ, trong đó ở cấp độ ADN, được thể hiện bằng sự phân bố khác nhau về tần suất allele trong mỗi nhóm dân tộc [3] Việc thu thập dữ liệu STR các dân tộc sinh sống tại Việt Nam

đã và đang được triển khai rộng khắp kể từ những năm 2000 Ngoài ứng dụng trong phân tích gen hình sự, các kết quả khảo sát còn được sử dụng trong nghiên cứu độ đa dạng về mặt nhân chủng học và xây dựng cơ sở dữ liệu về tần số phân bố allele trong quần thể người Việt Nam [4]–[6] Tuy nhiên, việc thu thập

dữ liệu nhiều dân tộc thiểu số vùng cao còn gặp nhiều khó khăn do địa bàn cư trú cách biệt và dân số thấp Không chỉ vậy, Việt Nam cũng nằm trong vùng địa lý có lịch sử nhân chủng học rất phức tạp, đang còn nhiều tranh cãi về nguồn gốc, con đường hình thành các chủng người hiện đại đang sinh sống đó là khu vực Đông Nam Á [7]–[10] Do đó nghiên cứu về các quần thể người sinh sống tại Việt Nam nói chung, về người Mông nói riêng còn rất hạn chế và chưa có một nghiên cứu chính thức nào được tiến hành

Thực trạng đặt ra yêu cầu cấp thiết là phải xây dựng bộ cơ sở dữ liệu STR cho nhóm dân tộc Mông sinh sống tại Việt Nam nhằm lưu trữ và phục vụ cho truy xuất nguồn gốc, xác định danh tính trong công tác giám định pháp y,

Trang 11

cũng như cho công tác nghiên cứu di truyền học, nhân chủng học và bảo tồn tại

Việt Nam Do đó, chúng tôi tiến hành thực hiện đề tài: “Xây dựng cơ sở dữ

liệu về tần số allele 22 locus đa hình STR trên nhiễm sắc thể thường ở quần thể người Mông tại Hà Giang, Việt Nam”, nhằm : i) Xây dựng bộ số liệu tần

số allele của 22 locus đa hình STR trên nhiễm sắc thể thường của người Mông; ii) Đánh giá các chỉ số thống kê đặc trưng của tần số allele, chỉ số đa dạng di truyền của quần thể; iii) Xác định mối quan hệ di truyền của người Mông với các quần thể gần gũi khác

Ý nghĩa của nghiên cứu : Nghiên cứu cung cấp cơ sở dữ liệu tần số

STR nhiễm sắc thể thường phục vụ cho công tác giám định gen, xác định huyết thống và nghiên cứu đa dạng di truyền quần thể

Trang 12

CHƯƠNG 1 TỔNG QUAN TÀI LIỆU

1.1 Tổng quan về đoạn lặp ngắn ngẫu nhiên – STR

1.1.1 Short tandem repeat – STR

1.1.1.1 STR là gì

ADN đã được ứng dụng trong thực tế nghiên cứu pháp y từ thế kỉ XX,

đi cùng với sự phát triển của công nghệ giải mã hệ gen người Trong công tác giám định pháp y, dấu hiệu sinh học dựa trên ADN cung cấp rất nhiều thông tin đặc biệt quan trọng và cũng là một bước nhảy của khoa học hình sự ADN mang những đặc điểm hóa sinh ưu thế khi mà các dấu vết sinh học khác còn có thể thu thập được ở hiện trường thường rất ít, bị phân hủy nhanh chóng và tiêu tốn thời gian Hàng nghìn vụ án đã được đưa ra ánh sáng với sự hỗ trợ đắc lực của công nghệ giám định ADN Hiện nay, đối với giám định ADN trong khoa học hình sự cả trong và ngoài nước thì các chỉ thị short tandem repeats (STR) được sử dụng rất phổ biến do dựa trên phản ứng khuếch đại gen – polymerase chain reaction (PCR), có độ đặc hiệu cao cũng như cho phép thực hiện đối với

Hình 1.1 Các locus thuộc bộ CODIS của FBI và vị trí trên NST người

Trang 13

các loại mẫu phức tạp Điển hình các tổ chức lớn như FBI (Federal Bureau of Investigation) đã công bố quy trình thường quy cho sử dụng 13 locus STR (CODIS) (Hình 1.1) hay Interpol cũng xác định bộ 10 locus STR chuẩn cho nước Anh và các nước Châu Âu cho công tác giám định xác định danh tính Tại Việt Nam, việc sử dụng STR trong công tác giám định xác định danh tính cũng được sử dụng thường quy tại các viện Pháp y trong cả nước

STR là đoạn trình tự đa hình nằm trong vùng không mã hóa, có cấu trúc gồm các đoạn lặp lại của một trình tự nt có độ dài khoảng 2 – 7 bp, chiếm khoảng 3% hệ gen người Do nằm ngoài vùng mã hóa, các STR rất đa dạng giữa người với người về độ dài (có thể lên đến hàng nghìn base), trình tự đoạn lặp mà không ảnh hưởng đến hoạt động sinh học của tế bào Các đoạn lặp lại này nằm rải rác ở khắp nơi trong hệ gen của người Từ những năm 1990 đến nay đã có hàng chục nghìn STR trên các nhiễm sắc thể (NST) được phát hiện Trong quá trình phân bào, các đoạn STR này không bị phân cắt, chúng có tính bảo thủ cao Ngoại trừ trường hợp song sinh cùng trứng, số lượng lặp lại của các STR là độc nhất cho từng cá thể, được di truyền từ bố mẹ sang con cái và phân biệt các cá thể không có quan hệ huyết thống trực hệ Do đó các cá thể này sẽ mang bộ số lượng đoạn lặp lại khác nhau của các STR [1], [2] Bộ chỉ thị gồm nhiều các STR nằm trên các nhiễm sắc thể khác nhau cho phép phân biệt các cá thể riêng biệt, ngay cả với những cá thể có quan hệ họ hàng gần gũi Đối với nghiên cứu di truyền quần thể, cơ sở di truyền của nghiên cứu dựa trên hai định luật căn bản của di truyền học Mendel đó là định luật di truyền phân

ly độc lập và định luật di truyền phân ly Do đó, các chỉ số về di truyền liên kết cân bằng và cân bằng Hardy-Weinberg được kiểm định đồng thời các phép tính thống kê được sử dụng nhằm tăng tính chính xác, giảm sai số trong phân tích [11] Trong giám định hình sự, xác định danh tính có thể được hiểu là sự so sánh hồ sơ ADN của một người nào đó, lấy từ mẫu sinh học vương lại hoặc từ

Trang 14

các dấu vết như vết máu tại hiện trường của một vụ án với một người khác có mối liên quan nhằm xác định danh tính hoặc loại trừ khả năng

1.1.1.2 Phân loại và danh pháp

STR được phân loại dựa trên số lượng nucleotide được lặp lại, ví dụ dinucleotide cho 2 nucleotide, trinucleotide cho 3 nucleotide…

Tuy nhiên, STR cũng có thể phân loại bằng một vài cách khác dựa trên tính phức tạp của trình tự lặp lại Các STR đơn giản là các STR cấu thành bởi sự lặp lại của một trình tự nucleotide (ví dụ (GATA)n)hay STR phức là các đoạn được cấu thành bởi sự lặp lại của 2 hoặc nhiều hơn trình tự nucleotide (ví dụ (CG)m–(CA)n)

Danh pháp hay tên của từng đoạn STR được đặt theo tên của gen nếu locus này nằm một phần hoặc nằm toàn bộ trong gen Ví dụ chỉ thị STR TH01

có nguồn gốc từ tên gen tổng hợp enzym tyrosine hydroxylase của người, nằm trên NST số 11 Chữ "TH" xuất phát từ chữ cái đầu tyrosine hydroxylase Phần

"01" của ký hiệu "TH01" xuất phát từ vùng intron 1 của gen tổng hợp enzym tyrosine hydroxylase Các trình tự ADN nằm ngoài vùng gen thì được xác định tên bằng vị trí của chúng trên NST Ví dụ như locus D5S818 hay DYS19 là các locus nằm ngoài vùng gen mã hóa, chữ “D” kí hiệu cho ADN, các kí hiệu tiếp theo lần lượt là NST số 5/ Y cho NST Y; “S” có nghĩa là trình tự chỉ có một bản copy trên genome; con số cuối tên là thứ tự chỉ thị này được phát hiện và sắp xếp theo từng NST cụ thể

1.1.1.3 Các chỉ thị STR thiết yếu

Đối với công tác giám định, việc sử dụng một bộ các chỉ thị theo một tiêu chuẩn là cần thiết vì sự chính xác và đồng nhất của các kết quả giám định

Bộ các chỉ thị được sử dụng rộng rãi ngày nay đã được nghiên cứu và phát triển

ở phòng thí nghiệm của tiến sĩ Thomas Caskey tại Trường đại học Y khoa

Trang 15

Baylor cùng với viện Forensic Science Service tại Anh thực hiện vào đầu những năm 1990 Những chỉ thị này được sử dụng nhiều hơn trong các kit xét nghiệm của hãng Promega (Mỹ) so với kit của hãng Applied Biosystems (Mỹ) Bộ kit thương mại được đưa ra thị trường đầu tiên được giới thiệu bởi hãng Promega năm 1994 Đây là bước nhảy lớn cho ứng dụng rộng rãi của STR trong công tác giám định pháp y Bộ kit bao gồm các locus CSF1PO, TPOX và TH01, là các chỉ thị dạng “CTT” Các chỉ thị triplex thường có chỉ số xác xuất trùng hợp ngẫu nhiên chỉ khoảng 1/500 nhưng lại được sử dụng rộng rãi tại Mỹ do đây là

bộ kit thương mại đầu tiên cho phép khuếch đại cùng lúc nhiều chỉ thị với chi phí thấp [11]

Vào năm 1990, Cục điều tra liên bang Mỹ - FBI đã khởi động một sự án thăm dò trên tổng cộng 14 bang và phòng thí nghiệm liên quan tại địa phương

Dự án được biết với tên “The DNA Identification Act” nhằm mục đích xây dựng hệ thống dữ liệu quốc gia cho công tác điều tra án (https://www.fbi.gov/services/laboratory/biometric-analysis/codis) Năm

1997, một bộ gồm 13 chỉ thị STR đã được chọn cho dự án xây dựng cơ sở dữ liệu của hệ thống Combined DNA Index System - CODIS Các chỉ thị bao gồm các locus CSF1PO, FGA, TH01, TPOX, vWA, D3S1358, D5S818, D7S820, D8S1179, D13S317, D16S539, D18S51, và D21S11 (Hình 1.1) Với bộ chỉ thị này, chỉ số trùng hợp ngẫu nhiên đã được nâng lên đến 1/1000000 trên các cá thể không có mối quan hệ huyết thống Trong 13 locus thì các locus FGA, D18S51 và D21S11 có tính đa hình cao nhất Một locus được sử dụng phổ biến thì có đặc tính riêng, trên cả số lượng allele, dạng trình tự lặp hay ngay cả các điểm đa dạng phổ biến quan sát được

1.1.1.4 Lịch sử nghiên cứu và phát triển của phương pháp giám định gen trong khoa học hình sự

Trang 16

Thuật ngữ “DNA fingerprinting” được miêu tả lần đầu tiên vào năm

1985 bởi nhà di truyền học người Anh Alec Jeffreys Tiến sĩ Jeffreys đã tìm thấy các vùng gen nhất định chứa các đoạn trình tự lặp lại tuần tự, nối tiếp nhau khi nghiên cứu các đoạn phát huỳnh quang gắn đa locus Ông cũng phát hiện

ra rằng số đoạn lặp lại của các đoạn trình tự đặc biệt kia có tính cá thể cao, khác nhau giữa các cá thể khác nhau Bằng cách phát triển một công nghệ giúp kiểm tra sự đa dạng của các đoạn lặp trên, tiến sĩ Jeffeys đã tạo ra phương thức định danh người [12] Phát hiện đó đã mở ra một kỷ nguyên mới trong khoa học Công nghệ này không chỉ nâng tầm khả năng ứng dụng trong nhiều lĩnh vực như sinh học hệ thống, đa dạng sinh học, y học lâm sàng và cả trong khảo cổ học Những ứng dụng của công nghệ này đã vượt ra khỏi phạm vi nghiên cứu khoa học thuần túy khi mà lần đầu tiên ứng dụng thành công trong điều tra án

và chiến tranh bắt đầu từ năm 1987

Phương pháp xác định dấu vân tay ADN – DNA fingerprinting cổ điển

sử dụng phương pháp cắt enzyme giới hạn (RFLP) và Southern blot Các đoạn

vi vệ tinh hoặc các đoạn lặp lại được gắn với probe phóng xạ Liên kết này sẽ

bị phân giải bởi enzyme giới hạn, phân tách thành các đoạn riêng rẽ khi điện di gel agarose và cố định lên màng bằng lai Southern blot Do chứa các trình tự nhận biết bởi enzyme giới hạn ở các vị trí khác nhau trên genome, các đoạn ADN đích (vi vệ tinh hoặc các đoạn lặp) sẽ bị cắt khỏi genome thành các đoạn

có kích thước khác nhau theo số đơn vị đoạn lặp Các đoạn này sẽ được rửa và hiển thị trên phim X-Quang và được dùng để so sánh giữa các cá thể Các đoạn

vi vệ tinh được gọi là 33,6 và 33,15 được dùng phổ biến ở Anh, phần lớn các nước khối EU và Hoa Kỳ Mặt khác, đoạn lặp năm – pentameric (CAC)/(GTG)5

lại được dùng phổ biến tại Đức Những chỉ thị này cũng được gọi là các probe

đa locus có thể hiện thị được dải 15 - 20 trình tự có kích thước từ 3,5 đến 20

kb Hình 1.2 là hình ảnh ví dụ một kết quả một bộ hồ sơ ADN của các cá thể

Trang 17

trong một gia đình Tuy nhiên phương pháp này cho thấy một số hạn chế khi ứng dụng trong điều tra án hoặc các xét nghiệm xác định huyết thống khi mà điều kiện chạy hoặc chất lượng ADN quyết định rất lớn đến tính chính xác của các băng ADN hiển thị được Cho đến giữa những năm 1990, các phòng thí nghiệm hình sự đã kết hợp với nhau để quy định cách tính các băng ADN dựa trên các ô thang cố định nhằm khắc phục khó khăn trên Các ô thang này quy định tương đối vị trí các đoạn ADN quan sát được trên một ảnh điện di tiêu chuẩn theo kích thước, từ đó làm tăng khả năng phân biệt của hệ thống Hạn chế thứ hai đến từ việc khi hồ sơ ADN không rõ danh tính, có nghĩa là không

rõ nguồn, thì dẫn đến các sai số thống kê do có thể có khả năng các locus di truyền liên kết với nhau Thêm nữa, để thu được một bộ hồ sơ ADN hoàn chỉnh thì cần phải dùng một khối lượng phân tử ADN lớn, dẫn đến làm giảm khả năng ứng dụng của phương pháp khi mà trên thực tế vụ án thì các mẫu sinh học lưu lại tại hiện trường thường không lớn hoặc có thể phải xâm hại nhiều vào các bằng chứng Phương pháp sử dụng các locus đơn đã ra đời ngay trong năm

1987 nhằm khắc phục các hạn chế của phương pháp ban đầu [13] Phương pháp này có cùng nguyên lý hoạt động nhưng sử dụng một bộ gồm bốn locus đơn, mỗi locus có hai allele Phương pháp này chỉ cần 10 ng ADN và đã được kiểm định bởi các thí nghiệm mở rộng và thực tế điều tra án (Hình 1.3) Tuy nhiên, nhìn chung các phương pháp sử dụng RFLP vẫn mang nhiều hạn chế về độ nhạy và độ đặc hiệu, cũng như khó có thể so sánh các kết quả từ các phòng thí nghiệm khác nhau Sau đó, phương pháp dựa trên PCR đã dần thay thế phương pháp cũ bởi tính nhạy, tốc độ, và đặc hiệu của nó Microsatelites – các vi vệ tinh, được biết tới rộng rãi trong cộng đồng pháp y là các STR, được phát hiện

và trở thành chỉ thị lý tưởng cho các ứng dụng trong pháp y Hồ sơ STR có độ nhạy cao hơn so với các phương pháp RFLP đơn locus cũ, ít bị mất allele – hiện tượng allele dropout như đối với hệ thống sử dụng các tiểu vệ tinh VNTR

và có khả năng phân biệt tốt hơn các phương pháp sử dụng HLA-DQA1 Do

Trang 18

đó, số lượng các công bố khoa học về các công nghệ này đã lên tới hàng nghìn, thực hiện trên hàng trăm quần thể khác nhau, với nhiều công nghệ mới đã được giới thiệu Ngày nay, các bộ sinh phẩm được sử dụng đều dùng một panel nhiều các chỉ thị STR đa allele Các chỉ thị này có cấu trúc tương tự như các vi vệ tinh đã được sử dụng nhưng có kích thước ngắn hơn, dễ dàng khuếch đại hơn bằng PCR Trong một lần chạy điện di mao quản có thể cùng lúc điện di lên đến 30 chỉ thị STR khác nhau cho một cá thể [14]

Trang 19

Hình 1.2 Kết quả các băng thu được sau phân giải bằng enzyme giới hạn và lai

Southern của một đại gia đình

Trang 20

Hình 1.3 Kết quả thu được so sánh giữa hai phương pháp sử dụng nhiều locus và các đơn

locus dựa trên phương pháp RFLP

Hình 1.4 là hình ảnh điển hình cho một kết quả điện di mao quản các locus STR gắn hình quang và được đo đếm bằng số đoạn lặp

Hình 1.4 Hình ảnh kết quả điện di mao quản của một số locus sử dựng phương pháp PCR và

gắn huỳnh quang trên mỗi locus

Trang 21

1.1.1.5 Đột biến ở STR

Các chỉ thị STR được dùng cho định danh cá thể một phần bởi đặc tính

có tốc độ đột biến nhanh Trong khi một trình tự ADN điển hình trên genome thường có tốc độ đột biến rất thấp, khoảng 10-9 nt trong một thế hệ, thì STR thường có tốc độ đột biến trong khoảng 10-6 đến 10-2 trong một thế hệ [15], [16] Đối với mỗi loại sinh vật thì có tốc độ đột biến của STR là khác nhau trong môi trường phòng thí nghiệm Ví dụ, tốc độ đột biến STR của 1 tế bào nấm men là 10-5, còn ở người thì trong khoảng 10-5 đến 10-3 trên mỗi chu kỳ phân bào Nghiên cứu của Chakraborty et al (1997) [17] chỉ ra rằng, tốc độ đột biến khác nhau ở các locus khác nhau trên cùng một genome Nghiên cứu trên các bộ STR khác nhau là di-, tri- và tetranucleotide STR trên một số quần thể người cho thấy, các locus STR có tốc độ đột biến tỉ lệ nghịch với loại motif Các locus dạng di- có tốc độ đột biến cao gấp từ 1.5 đến 2 lần so với các tetra- STR Tuy nhiên, điều này lại ngược lại ở các STR liên quan đến một tình trạng bệnh lý nào đó [17] Đã có nhiều nghiên cứu được tiến hành để ước lượng tốc

độ đột biến của các STR trên các mô hình khác nhau: mô hình gia đình, mô hình sinh học, mô hình quần thể và các dòng tế bào sinh dục [18] Trong đó,

mô hình gia đình là dễ dàng ước lượng trực tiếp tốc độ đột biến các STR giữa các cá thể qua thế hệ, cũng như dạng đột biến xuất hiện có thể có mà được di truyền từ bố mẹ sang con cái Tốc độ đột biến của một số chỉ thị STR thường dùng hiện hay được cho trong Bảng 1.1 (https://strbase.nist.gov/mutation.htm)

Có ba cơ chế chính giải thích cho quá trình xảy ra đột biến của STR Cơ chế thứ nhất đó là sự phân li không cân bằng trong quá trình giảm phân Đây là cơ chế được biết đến rộng rãi là nguyên nhân dẫn đến các đoạn ADN vệ tinh lớn, xảy ra trong quá trình trao đổi chéo giữa hai vùng tương đồng của các sợi NST

Cơ chế thứ hai được cho là do sự phiên mã ngược xảy ra chủ yếu ở các STR giàu adenin, xảy ra dưới cơ chế phiên mã ngược kéo dài đầu 3’ của sợi ADN,

Trang 22

tương tự như sự tạo thành của đuôi polyA trong quá trình phiên mã gen Nghiên cứu cũng cho thấy có bằng chứng chỉ ra rằng có mối liên hệ giữa STR giàu A với các gen nhảy [18]

Bảng 1.1 Thông tin về vị trí và tốc độ đột biến của một số locus thường dùng theo cơ sở dữ liệu STRbase ( https://strbase.nist.gov/mutation.htm )

STR locus

Phần trăm giảm phân theo dòng mẹ (%)

Phần trăm giảm phân theo dòng cha (%)

Tổng số đột biến theo mỗi dòng

Trang 23

Penta E 29/44,311 (0.065) 75/55,719 (0.135) 163/100,030 0.16%

D2S1338 15/72,830 (0.021) 157/152,310 (0.10) 262/225,140 0.12%

D19S433 38/70,001 (0.05) 78/103,489 (0.075) 187/173,490 0.11%

SE33 (ACTBP2) 0/330 (<0.30) 330/51,610 (0.64) 330/51,940 0.64%

Cơ chế thứ ba là cơ chế gấp đoạn khi tái bản – strand-slippage replication Đây

là cơ chế chính được cho là gây ra đột biến STR Quá trình tạo ra đột biến được miêu tả qua Hình 1.5 khi tái bản sợi ADN, một đoạn khuôn tái bản bị gấp khúc

do nguyên nhân lý hóa nào đó, dẫn đến khung đọc mở bị thay đổi là dài hơn hoặc ngắn đi, và bị ADN polymerase tổng hợp thêm hoặc bớt nt từ đó sinh ra

sự thay đổi số đoạn lặp của một locus STR [18]

Mô hình đột biến STR bao gồm: mô hình Infinite allele model (IAM) và Stepwise mutation model (SMM), các mô hình này được sử dụng trong quá

Hình 1.5 Cơ chế sinh đột biến STR do gấp đoạn trong quá trình nhân bản

Vì một lí do nào

đó dẫn đến khung đọc mở bị gấp khúc, tạo thành nếp gấp

mà polymerase không tổng hợp hoặc tổng hợp nhiều hơn so với trình tự trên khung, từ đó sinh ra đột biến thay đổi số đoạn lặp trên sợi ADN mới tổng hợp

Trang 24

trình nghiên cứu di truyền các chỉ thị STR và trong tính toán thống kê Mô hình IAM được đề xuất năm 1964 bởi hai nhà khoa học Kimura và Crow Mô hình dựa trên việc coi rằng mỗi đột biến sản sinh ra một allele mới và các đột biến xảy ra với tỉ lệ như nhau Từ đó, số đoạn lặp có thể là bất cứ một con số nào

mà trước đó không tồn tại trong quần thể ban đầu Tuy nhiên, đã có nhiều nghiên cứu chỉ ra rằng mô hình này không phù hợp với quá trình phát sinh đột biến trong thực tế [18] Chính vì vậy mà mô hình này ít được sử dụng trong các phần mềm phân tích di truyền quần thể Mô hình SMM được hai nhà khoa học Kimura và Ota giới thiệu năm 1973, 9 năm sau mô hình thứ nhất Ban đầu, mô hình này được xây dựng để mô phỏng sự thay đổi điện tích của các phân tử protein trong quá trình điện di phân tách, tuy nhiên lại không cho thấy hiệu quả Mặc dù vậy, mô hình này lại hoàn toàn phù hợp cho miêu tả sự đột biến của các STR và được sử dụng rộng rãi trong các phân tích di truyền Mô hình SMM chấp nhận cơ chế đột biến gấp đoạn trong quá trình tái bản, và coi rằng:

- Đột biến làm thay đổi nhỏ trên số đoạn lặp

- Sự tăng hay giảm số đoạn lặp có khả năng xảy ra như nhau

- Không bị giới hạn ở kích thước allele

- Tốc độ và kích thước của đột biến không phụ thuộc vào số đoạn lặp

Có rất nhiều yếu tố ảnh hưởng đến quá trình phát sinh đột biến ở STR Một trong những yếu tố quan trọng đó là số đoạn lặp lại của một locus STR Như có đề cập ở phần trước, từ các nghiên cứu dựa trên các mô hình tiếp cận khác nhau từ mô hình gia đình hay quần thể, đều cho thấy tốc độ đột biến tăng

tỉ lệ thuận với số lượng đoạn lặp ở các loài động vật có vú, bao gồm con người

Có nghĩa là, khi số lượng đoạn lặp càng lớn thì tốc độ đột biến của locus đó càng lớn Một yếu tố khác đó là số nt của một đơn vị lặp, các dinucleotide có tốc độc đột biến cao hơn só với các tetranucleotide Kết quả này cũng có thể được giải thích bằng cơ chế gấp đoạn tái bản sinh đột biến Cấu trúc của các

Trang 25

đơn vị lặp cũng ảnh hưởng đến tốc độ đột biến, khi mà ở NST thường, NST Y hay ở các tế bào ung thư thì có tần số đột biến cao hơn ở các đoạn dị thể Các đoạn trình tự nối – flanking sequence cũng có mối tương quan tới tốc độ đột biến khi mà quan sát thấy các đoạn trình tự nối chứa nhiều GC tỉ lệ nghịch với

sự đa dạng của các allele Các yếu tố khác như sự tái tổ hợp trong quá trình hình thành giao tử, độ tuổi hay giới tính cũng ảnh hưởng đến tốc độ đột biến của các STR [18], [19]

1.1.2 Bộ kit Powerplex Fusion system được sử dụng trong giám định

Công nghệ STR typing sử dụng điện di mao quản cho phép khuếch đại

và phân tích cùng lúc nhiều chỉ thị STR Các chỉ thị phân biệt bởi độ dài đoạn đọc cùng với tín hiệu quang phân tử gắn trên các trình tự mồi của phản ứng khuếch đại, từ đó quy đổi ra số lần lặp – STR allele của mỗi locus (Hình 1.6) Việc quy đổi dựa trên một thang allele chuẩn thường được cung cấp cùng với mỗi bộ kit xét nghiệm Thang chuẩn được khuếch đại cùng với một bộ mồi như đối với mẫu xét nghiệm Phần mềm phân tích sẽ xử lý tín hiệu quang và thực hiện việc quy đổi ra kích thước của từng allele theo từng “bin” – ô thang chuẩn Cách gọi tên và quy định allele phải theo bộ quy chuẩn chung Mỗi ô thang chuẩn có kích thước ± 0,5 bp quanh kích thước tiêu chuẩn của thang chuẩn, do

đó có thể phân biệt các kích thước chênh lệch nhau 1 bp [11]

Xuất phát từ hiệu quả thực tế ứng dụng của STR mà đã có rất nhiều bộ kit thương mại được nghiên cứu, phát triển sử dụng đơn hoặc multiplex PCR cho khuếch địa cùng lúc nhiều chỉ thị STR trong một thí nghiệm, qua công nghệ giải trình tự Sanger và cả giải trình tự thế hệ mới (NGS) Từ cuối những năm

1990 thì các STR đã có thể được khuếch đại cùng lúc nhiều chỉ thị, từ một vài lên đến 15 locus trong một phản ứng, với tính chính xác, độ nhạy cao và nhanh

Trang 26

chóng Các bộ kit thương mại đều bao gồm 13 locus CODIS tiêu chuẩn cho giám định của Mỹ và thêm các chỉ thị khác tùy vào thực tế của từng khu vực

Hình 1 6 Quá trình xác định kích thước của một allele dựa trên ô thang chuẩn Thang allele chuẩn sẽ được chạy song song với mẫu, sau đó các tín hiệu huỳnh quang phân tách được của mẫu

và thang allele chuẩn sẽ so với các ô thang chuẩn, từ đó xác định được các allele của mẫu

Bộ kit PowerPlex® Fusion System của hãng Promega cho phép khuếch đại và phân tích cùng lúc 24 locus (Bảng 1.2) nhằm cải thiện tốc độ, tính chính xác và khả năng phân biệt cá thể của phương pháp Do đó, dựa trên đánh giá từ thực tế ứng dụng, bộ kit hoàn toàn phù hợp cho công tác giám định pháp y trên thực tế [20]

Bảng 1.2 Thông tin về vị trí và trình tự của một đơn vị lặp của các locus có trong bộ kit PowerPlex

Fusion System theo thông tin của nhà sản xuất

STR Locus Vị trí trên NST và kích thước Trình tự đoạn lặp lại theo chiều 5' -> 3'

Trang 28

về các allele phổ biến trong quần thể đó Chính vì vậy đã có rất nhiều quốc gia xây dựng các bộ cơ sở dữ liệu lớn cho toàn bộ các nhóm dân của họ như Mỹ, Anh, Hà Lan, Nhật Bản, Hàn Quốc, Trung Quốc… [21], [22]

1.1.4 Di truyền quần thể và dân tộc

Dân tộc – tộc người là một cộng đồng người có mối liên hệ chặt chẽ, bền vững, có sinh hoạt kinh tế chung, có ngôn ngữ riêng và những nét văn hóa đặc thù, xuất hiện sau bộ lạc, bộ tộc và tạo thành một quần thể sinh học Việt Nam

là ngôi nhà chung của 54 dân tộc anh em Sống trên mảnh đất Đông Dương - nơi cửa ngõ nối Đông Nam Á lục địa với Đông Nam Á hải đảo, Việt Nam là nơi giao lưu của các nền văn hoá trong khu vực Đáng chú ý là, lịch sử nguồn

Trang 29

gốc hình thành các dân tộc ở khu vực này rất phức tạp và vẫn còn gây nhiều tranh cãi trong giới khoa học cho đến thời điểm hiện tại [8], [9] Tiếng nói của các dân tộc Việt Nam thuộc 8 nhóm ngôn ngữ khác nhau:

- Nhóm Việt - Mường có 4 dân tộc là: Chứt, Kinh, Mường, Thổ

- Nhóm Tày - Thái có 8 dân tộc là: Bố Y, Giáy, Lào, Lự, Nùng, Sán

Chay, Tày, Thái

- Nhóm Môn - Khmer có 21 dân tộc là: Ba na, Brâu, Bru-Vân kiều,

Chơ-ro, Co, Cơ-ho, Cơ-tu, Gié-triêng, Hrê, Kháng, Khmer, Khơ mú,

Mạ, Mảng, M'Nông, Ơ-đu, Rơ-măm, Tà-ôi, Xinh-mun, Xơ-đăng, Xtiêng

- Nhóm Mông - Dao có 3 dân tộc là: Dao, Mông, Pà Thẻn

- Nhóm Kađai có 4 dân tộc là: Cờ Lao, La Chí, La Ha, Pu Péo

- Nhóm Nam đảo có 5 dân tộc là: Chăm, Chu-Ru, Ê Đê, Gia-Rai,

Ra-Glai

- Nhóm Hán có 3 dân tộc là: Hoa, Ngái, Sán Dìu

- Nhóm Tạng có 6 dân tộc là: Cống, Hà Nhì, La Hủ, Lô Lô, Phù Lá, Si

La

Mặc dù tiếng nói của các dân tộc thuộc nhiều nhóm ngôn ngữ khác nhau, song do các dân tộc sống rất xen kẽ với nhau nên một dân tộc thường biết tiếng các dân tộc có quan hệ hàng ngày, và dù sống xen kẽ với nhau, giao lưu văn hoá với nhau, nhưng các dân tộc vẫn lưu giữ được bản sắc văn hoá riêng của dân tộc mình (Ủy ban dân tộc).Trong nghiên cứu này, chúng tôi dựa vào quy định của Nhà nước Cộng hòa xã hội chủ nghĩa Việt Nam, công nhận một người thuộc về dân tộc Mông dựa vào giấy khai sinh và sơ yếu lý lịch của người đó Đặc trưng các dân tộc ở Việt Nam là có lối sống quần tụ, làng xã, tập trung trên một khu vực sinh sống nhất định, nên tần suất các allele của mỗi loci gen là tương đối ổn định và có thể mang tính đặc trưng vùng, miền

1.1.4.2 Các nhóm ngữ hệ tại Việt Nam

Trang 30

Ở Việt Nam, có đủ 5 ngữ hệ lớn trong khu vực Đông Nam Á, gồm: ngữ hệ Nam Đảo, Nam Á, Thái – Kadai, Hán - Tạng và Mông - Dao Các nhóm ngữ

hệ này sinh sống cùng nhau trên khắp cả nước và có sự pha trộn vốn gen với nhau [23]

1.1.4.3 Dân tộc Mông tại Việt Nam

Dân tộc Mông là một dân tộc thiểu số trong tổng số 54 dân tộc anh em sinh sống tại Việt Nam Người Mông có nhiều nhóm nhỏ với tên gọi riêng, bao gồm: Mông Ðơ (Mông Trắng), Mông Lềnh (Mông Hoa), Mông Sí (Mông Ðỏ), Mông Ðú (Mông Ðen), Mông Súa (Mông Mán) Người Mông sử dụng nhóm ngôn ngữ H’mông-Dao, một trong năm nhóm ngôn ngữ lớn nhất tại khu vực Đông Nam Á Họ sinh sống tập trung ở miền núi cao thuộc các tỉnh Hà Giang, Tuyên Quang, Lào Cai, Yên Bái, Lai Châu, Sơn La, Cao Bằng, Nghệ An (hình 1.7) [24] Theo số liệu của Tổng cục điều tra dân số và nhà ở năm 2009, ở Việt Nam hiện có khoảng 1.068.189 người Mông sinh sống tại đây, đông dân thứ 6 tại Việt Nam Dân tộc Mông có mặt ở hầu hết các tỉnh thành của Việt Nam, nhưng tập trung chủ yếu ở các tỉnh Hà Giang (231,464 người, chiếm 21,7% trên tổng số người Mông tại Việt Nam), theo sau là tại các tỉnh Điện Biên (170.648 người), Sơn La (157.253 người) và các tỉnh khác Người Mông có tập quán tự do kén chọn bạn đời, nổi tiếng với tục “cướp vợ” Do đó mà những người cùng dòng họ không lấy nhau, vì vậy ít bị ảnh hưởng bởi hôn nhân cận huyết như một số nhóm dân tộc thiểu số khác [24]

Trang 31

Hình 1.7 Sự phân bố các nhánh ngôn ngữ thuộc hệ Mông - Dao tại Việt Nam Trong đó, Hmong Daw tương ứng với nhóm Mông Trắng, Hmong Dô tương ứng với Mông Đỏ hay Hmong Don tương ứng với Mông Đen theo phân loại về ngôn ngữ và dân tộc học tại Việt Nam

1.2 Tình hình nghiên cứu trong và ngoài nước

Trong thời gian gần đây, tình trạng vi phạm pháp luật trong vùng đồng bào dân tộc người thiểu số ở địa bàn miền núi, vùng xa có chiều hướng gia tăng

cả về số lượng và mức độ nghiêm trọng Tuy nhiên, cơ sở dữ liệu STR cho từng dân tộc sinh sống tại Việt Nam vẫn còn rất nhiều hạn chế Hiện tại, Viện Khoa học hình sự - Bộ Công an đang sử dụng bộ kit nhân gen AmpFlSTR® Identifiler® Plus trong công tác giám định Sinh học pháp lý, sử dụng tần suất allele của người Kinh, các tộc người khác chưa được chính thức sử dụng Ngoài người Kinh [25], [26], một số ít nghiên cứu trong nước được tiến hành trên các dân tộc thiểu số là người Mường ở Hòa Bình [27], người Kh’mer tại Sóc Trăng [28], người Nùng [29] và người Mông [30] Và chỉ một vài nghiên cứu quốc

tế về quần thể người sinh sống tại Việt Nam của Shimada et al (2002) tính tần

Trang 32

số của 178 người Kinh [5], chủ yếu sinh sống tại Hà Nội, hay trong một nghiên cứu về quần thể người gốc Việt sinh sống tại tỉnh Vân Nam, Trung Quốc [6] Đến gần đây, nhóm nghiên cứu của Tran et al (2019) lần đầu tiên công bố quốc tế bộ số liệu tần số allele cho 22 locus STR trên NST thường của hơn

2000 mẫu là người Kinh sinh sống tại Việt Nam [4] Nghiên cứu này đã đưa ra mối tương quan di truyền giữa người Kinh sinh sống tại Việt Nam với các quần thể sinh sống tại các nước láng giềng qua cây phát sinh chủng loại (hình 1.8)

Hình 1.8 Cây phát sinh chủng loại miêu tả mối quan hệ di truyền gần gũi giữa quần thể

người Kinh và một số quần thể khác [4]

Trang 33

CHƯƠNG 2 NGUYÊN VẬT LIỆU VÀ PHƯƠNG PHÁP NGHIÊN

CỨU

2.1 Nguyên vật liệu

2.1.1 Địa điểm thu mẫu

Mẫu được thu tại 2 huyện Mèo Vạc và Đồng Văn của tỉnh Hà Giang, Việt Nam (Hình 2.1) Đây là 2 huyện nằm về phía cực bắc của Tổ quốc, có đường biên giới Việt –Trung trải dài Địa hình nơi đây chủ yếu là núi cao, dân cư thưa thớt và nằm dải rác khắp các sườn núi

Hình 2.1 Bản đồ hành chính tỉnh Hà Giang

Trang 34

2.1.2 Thu thập và bảo quản

Tổng cộng 156 mẫu, trong đó có 53 mẫu thu được tại huyện Mèo Vạc,

103 mẫu thu được tại huyện Đồng Văn, tỉnh Hà Giang Tỉ lệ số mẫu là nam giới trên mẫu là nữ giới là 63/93 Mẫu của các cá thể là dân tộc Mông sinh sống tại Việt Nam, không có quan hệ huyết thống trực hệ liên tiếp ba đời gần nhất Mẫu thu có thể một trong ba loại, tùy thuộc vào điều kiện thu mẫu, gồm: mẫu máu ngoại vi, tóc hoặc niêm mạc miệng Đối với mẫu máu, mẫu được thu bằng thẻ FTA chuyên dụng kích thước 2×2 mm Đối với tóc, mẫu thu từ 3 đến 5 sợi tóc có chân và bảo quản trong phong bì riêng biệt, được đánh số ký tự lưu mẫu Đối với mẫu niêm mạc, mẫu được thu bằng tăm bông y tế chuyên dụng Việc thu thập mẫu được căn cứ theo hồ sơ nhân thân được cung cấp bởi Công an các quận, huyện trực thuộc các tỉnh, thành phố Các mẫu thu thập được lưu trữ tại Trung tâm giám định ADN, Viện Công nghệ sinh học

2.2 Phương pháp nghiên cứu

2.2.1 Khuếch đại đoạn gen

2.2.1.1 Bộ kit sử dụng

Bộ kit khuếch đại 24 locus (22 locus trên NST thường và 2 locus trên NST giới tính) sử dụng bộ kit Power plex Fusion System (Promega, Mỹ) Bộ kit này cho phép khuếch đại cùng lúc 24 locus khác nhau trong cùng một phản ứng Bộ kit đã bao gồm 13 locus trong bộ CODIS của FBI (CSF1PO, FGA, TH01, TPOX, vWA, D3S1358, D5S818, D7S820, D8S1179, D13S317, D16S539, D18S51, D21S11) và bộ chỉ thị theo khuyến cáo của châu Âu là (TH01, vWA, FGA, D21S11, D3S1358, D8S1179, D18S51, D10S1248, D22S1045, D2S441, D1S1656, D12S391), hai loci Amelogenin và DY391 cho xác định giới tính (Hình 2.2) Độ nhạy của kit là 100 pg theo thông tin của hãng

Trang 35

sản xuất Các locus Penta D và Penta E được sử dụng nhằm tăng khả năng phân biệt giữa các cá thể của bộ locus STR Như vậy, bộ STR được sử dụng đảm bảo được cả hai khuyến cáo của FBI và ESS

Hình 2.2 Độ dài và loại dye được sử dụng cho mỗi locus trong bộ kit

2.2.1.2 Xử lý mẫu và khuếch đại đoạn gen

Các mẫu sẽ được ly giải bằng SwabSolution Kit (Promega, Mỹ) theo hướng dẫn của nhà sản xuất Dịch thu được sẽ được sử dụng làm khuôn cho phản ứng khuếch đại tiếp theo

b) Phản ứng khuếch đại

Thành phần phản ứng được cho trong bảng 2.1 như sau:

Trang 36

Bảng 2 Bảng thành phần phản ứng khuếch đại

Mẫu

Mỗi lượt chạy là 8 mẫu, bao gồm 1 mẫu là thang chuẩn của kit và 1 mẫu

là đối chứng dương Mẫu đối chứng dương là mẫu sử dụng ADN chuẩn cung cấp theo bộ kit là 2800M Control ADN nhằm kiểm tra hiệu quả khuếch đại Mẫu sẽ được khuếch đại 28 chu kỳ với quy trình như hình dưới (Hình 2.3)

Phản ứng nhiệt diễn ra trên hệ máy ProFlex 3x32-Well PCR System (Applied Biosystems-ThermoFisher, Mỹ)

c) Điện di mao quản

Các sản phẩm PCR được đánh dấu bằng được đánh dấu bằng hệ màu 6 kênh cho phép tối ưu hóa hiệu quả phân tích Sản phẩm khuếch đại được điện

Hình 2.3 Chu trình nhiệt của phản ứng khuếch đại với 28 chu kỳ

Trang 37

di và phân tích trên máy giải trình tự gen ABI 3500 Genetic Analyzer với phần mềm GeneMapper ID v3.2, sử dụng kích thước chuẩn (GeneScan-600 LIZ, Applied Biosystems, Mỹ) và thang alen chuẩn được nhà sản xuất cung cấp theo Power plex Fusion System (Promega, Mỹ) Quy chuẩn gọi đỉnh mẫu và kiểm định kết quả theo khuyến cáo của tổ chức SWGDAM về giám định STR (“SWGDAM Interpretation Guidelines for Autosomal STR Typing by Forensic DNA Testing Laboratories,” 2017)

2.2.2 Tính toán tần số và các chỉ số pháp y

2.2.2.1 Tính toán tần số và các chỉ số pháp y

Tần số xuất hiện của các allele, chỉ số đa dạng di truyền, Heterozygosity expected, Heterozygosity observed, Homozygosity, Cân bằng Hardy-Weinberg và linkage – disequilibrium test (p=0.002) tính bằng phần mềm Arlequin v3.5 (Excoffier and Lischer 2010), chỉ số kết hợp khả năng loại trừ (Combined Power of Exclusion – CPE), chỉ số kết hợp khả năng phân biệt (Combined Discrimination Capacity – CDC), chỉ số kết hợp khả năng trùng lặp ngẫu nhiên (Combinded Match Probability – CMP), Polymorphic information content, Parentity index của từng locus, được tính bằng công cụ online FORSTAT (https://fdl-uwc.shinyapps.io/forstat/)

2.2.2.2 Xác định và liệt kê các allele có tần số thấp

Các allele có tần số thấp là các allele có tần số hơn 5/2N [33], trong đó

N là kích thước mẫu Một allele tồn tại trong quần thể có số lần xuất hiện tối thiểu phải năm lần, do đó công thức tính tần số allele tối thiểu là 5/2N [33]

Trang 38

2.2.3 Xác định mối liên hệ giữa quần thể người Mông tại Hà Giang và các

quần thể khác

Cây phát sinh chủng loại được xây dựng bằng phần mềm POPTREE2 [34] để tính khoảng cách di truyền và xây dựng cây phát sinh chủng loại của các quần thể bằng cách sử dụng phương pháp neighbor joining-NJ [35], cùng với phương pháp nhóm theo cặp với giá trị khoảng cách trung bình không theo trọng số (UPGMA) [36] và lặp lại với bootstrap 1000 File xuất ra được xử lý hình ảnh bằng phần mềm Figtree v1.4

Trang 39

CHƯƠNG 3 KẾT QUẢ VÀ THẢO LUẬN

3.1 Kết quả thu mẫu và khuếch đại ADN

Tổng số mẫu thu được là 156 mẫu, trong đó có 63 mẫu nam giới và 93 mẫu nữ giới Các mẫu đều có chất lượng tốt, đủ điều kiện để thực hiện các thí nghiệm Do sử dụng phương pháp khuếch đại trực tiếp từ mẫu sinh phẩm, nên không có sản phẩm ADN tách chiết, do đó cũng không đánh giá định lượng ADN Tuy nhiên, chất lượng mẫu thể hiện ở hiệu quả khuếch đại bộ 24 locus trong bộ kit thương mại được sử dụng là Power plex Fusion System (Promega, Mỹ), đó là khuếch đại thành công 156 bộ hồ sơ ADN 24 locus và không ghi nhận trường hợp bị mất allele – allele drop out nào, cũng không có trường hợp

3 allele – tri allele trên một locus Mỗi một lượt chạy có kèm theo các phản ứng đối chứng dương và đối chứng âm, kết quả trong phần phụ lục Bảng 3.1 thống

kê số allele khác nhau thu được và phần trăm số allele bị mất trên từng locus từ các mẫu nghiên cứu Tổng số khuếch đại được 205 allele không kể Amelogenin

và DY391, các allele có độ dài nhỏ nhất là 5 (locus Penta E) và dài nhất là 34.2 (locus D21S11) Số lượng các allele phát hiện được ít hơn số với 252 allele thu được từ quần thể người Kinh tại Việt Nam, khi hai nghiên cứu sử dụng cùng một bộ kit STR [4] Sự khác nhau cũng quan sát được về độ dài ngắn nhất và dài nhất của các locus Sự khác biệt này có thể từ khác biệt về quần thể người cũng có thể do sự chênh lệch về kích thước mẫu được thực hiện Locus Penta

E là locus có số lượng allele là lớn nhất với 16 allele khác nhau, theo sau là locus D2S1338 (13 allele), D1S1656 và D18S51 với 12 allele Mặt khác, các locus có số allele thấp nhất là TPOX với 5 allele Locus Penta E nằm trên NST

số 15, tại vị trí 15q26.2, có trình tự đơn vị lặp là [AAAGA]n, số đoạn lặp n có

(https://strbase.nist.gov/str_Penta_E.htm ) Một số nghiên cứu đã sử chỉ thị này

Trang 40

để nghiên cứu đa dạng ở quần thể người hoặc đánh giá tính đa hình của Penta

E và thấy rằng chỉ thị này có tính đa hình cao, khả năng phân biệt cá thể cao,

và là một chỉ thỉ phù hợp cho nghiên cứu tìm kiếm allele hiếm do tính đa hình cao của nó

Bảng 3.1 Số lượng allele mỗi locus

Locus Số lượng

Phần trăm allele

Ngày đăng: 17/08/2020, 16:28

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w