Bước phát triển logic tiếp theo của công trình giải mã hệ gen người đầu tiên được hình thành như sau: Trên sơ sở các dữ liệu về hệ gen trình tự chuẩn đã được công bố và sử dụng miễn phí,
Trang 1VIỆN CÔNG NGHỆ SINH HỌC
BÁO CÁO TỔNG KẾT ĐỀ TÀI
XÂY DỰNG CƠ SỞ KHOA HỌC CHO DỰ ÁN KHẢ THI
GIẢI TRÌNH TỰ VÀ PHÂN TÍCH BỘ GEN
NGƯỜI VIỆT NAM
CNĐT : NÔNG VĂN HẢI
9175
HÀ NỘI – 2011
Trang 2bộ các gen của cơ thể là một vấn đề khoa học cơ bản có định hướng ứng dụng hết sức quan trọng
- Dự án Hệ gen người (Human Genome Project, HGP), thời gian thực hiện:
~15 năm (1989-2003), do Nhóm các cơ quan khoa học nhà nước do Mỹ đứng đầu với khoảng 20 nước và vùng lãnh thổ tham gia Dự án đã chi 3-4 tỷ USD tiền ngân nhà nước cho giải mã hoàn chỉnh hệ gen người (~3,2 tỷ bp), với DNA lấy từ 5 cá thể đại diện 5 chủng tộc người trên thế giới Đồng thời, việc giải mã hệ gen người cũng đã được Công ty tư nhân Celera Genomics của Mỹ tiến hành (số tiền đã chi ước tính cũng phải hàng tỉ USD) Kết quả là mỗi nhóm giải mã hoàn chỉnh 1 hệ gen người, đồng thời công bố “bản nháp” trên 2 tạp chí khoa học danh tiếng nhất là Nature, Anh
(McPherson et al., 2001), và Science, Mỹ (Venter et al., 2001) Trình tự của Nhóm
được tài trợ từ ngân sách của các chính phủ đã được công khai, dữ liệu thông tin về hệ gen cho toàn thế giới cùng sử dụng, được gọi là “trình tự chuẩn” hay “trình tự tham chiếu” (reference sequence)
Kết quả quan trọng nhất sau khi có bản đồ gen người “chi tiết” (2003) cho thấy, các chủng tộc, các cá thể người giống nhau đến 99,9% và chỉ khác nhau về một tỷ lệ rất nhỏ (0,1%) về cấu trúc hệ gen (hay ~3 triệu/ ~3,2 tỷ bp của cấu trúc toàn bộ bộ/ hệ gen) Tuy nhiên, phần khác biệt rất nhỏ này lại có ý nghĩa quyết định đối với đặc điểm nhân chủng học của một dân tộc, là yếu tố di truyền liên quan đến sức khỏe của cả dân tộc và mỗi cá thể
Bước phát triển logic tiếp theo của công trình giải mã hệ gen người đầu tiên được hình thành như sau:
Trên sơ sở các dữ liệu về hệ gen (trình tự chuẩn) đã được công bố và sử dụng miễn phí, các quốc gia đi sâu nghiên cứu các đặc điểm gen của các dân tộc, các cá thể khỏe mạnh và mắc các bệnh khác nhau của nước mình;
Trang 32
Thu nhận vật liệu gen (DNA) và sản phẩm gen (protein) của đại điện các dân tộc, các cá thể để nghiên cứu sâu về cấu trúc, chức năng của chúng theo hướng nghiên cứu cơ bản cũng như ứng dụng trong chẩn đoán và điều trị
Một trong những thành tựu mới nhất về nghiên cứu hệ gen người là việc giải
mã xong hệ gen của cả 4 thành viên trong 1 gia đình đầu tiên (gồm bố mẹ, 1 con trai
và 1 con gái) tại Viện Sinh học Hệ thống, Seatle (Hoa Kỳ) phối hợp với một số cơ quan khác Qua đó, người ta phát hiện được các gen ứng cử viên liên quan đến hội
chứng Miller - bệnh di truyền có tính chất gia đình (Roach et al., 2010)
Tin sinh học là bộ môn khoa học mới liên ngành giữa sinh học và tin học, trong
đó các trung tâm tính toán hiệu năng cao, các cơ sở dữ liệu gen khổng lồ được thiết lập, cũng như các phần mềm, công cụ tính toán được phát triển để phân tích, xử lý số liệu sinh học, mô hình hóa, mô phỏng để nghiên cứu chức năng gen và protein…
Bộ gen người, trước hết là hệ gen ty thể và một số gen chức năng của hệ gen nhân, đã được các nhà khoa học Việt Nam quan tâm nghiên cứu từ đầu những năm
2000 trở lại đây Đặc biệt, sau khi Nhà nước phê duyệt các chương trình công nghệ sinh học và đầu tư một số phòng thí nghiệm trọng điểm, các nghiên cứu theo hướng này đã đạt được những kết quả bước đầu
- Giải mã gen, biết được đặc điểm cấu trúc gen người khỏe mạnh làm cơ sở tham chiếu cho các nghiên cứu đa hình/ đột biến gen ở người bệnh;
- Giải mã các hệ gen người bệnh (ung thư, tim mạch, tiểu đường, Alzheimer ) giúp tìm ra bản chất di truyền của các yếu tố liên quan; tìm ra các chỉ thị chẩn đoán và phát triển dược phẩm cho điều trị;
- Làm chủ việc giải mã hệ gen người, có thể áp dụng cho việc giải mã các tác nhân gây bệnh cho người cũng như mọi cơ thể sinh vật khác; qua đó có thể phát triển các ứng dụng trong nhiều lĩnh vực rất khác nhau
- Các chuyên ngành khoa học sự sống (sinh học) và công nghệ sinh học hiện đại: sinh học phân tử, công nghệ gen, hệ gen học cấu trúc và chức năng, hệ protein học, tin sinh học, hệ gen học người, di truyền phân tử, công nghệ protein và enzyme, tiến hóa phân tử người, nhân học phân tử…
- Các chuyên ngành y học, dược học, khoa học hình sự, quốc phòng-an ninh: Y học phân tử, di truyền y học phân tử, dịch tễ học phân tử, bệnh học phân tử, hệ gen y học, hệ protein y học, liệu pháp gen, miễn dịch học phân tử, hệ gen học cá thể người,
di truyền quần thể người, pháp y, giám định gen, y-dược học quân sự…
Trang 43
- Công nghệ thông tin (các trung tâm/ hệ thống tính toán hiệu năng cao, các phần mềm chuyên dụng phân tích gen và protein, các hệ thống mô hình, mô phỏng, xây dựng các cơ sở dữ liệu…)
Nhu cầu phát triển khoa học đạt trình độ khu vực và quốc tế: công bố khoa học có trình độ cao (các bài có hệ số ảnh hưởng - IF cao, ví dụ trong nhóm tạp chí Nature); xây dựng tiềm lực (cơ sở vật chất, đội ngũ cán bộ…) có khả năng hội nhập quốc tế
Nhu cầu phát triển của đất nước: Như trên đã trình bày, mặc dù các chủng tộc, các
cá thể chỉ khác nhau về cấu trúc ~0,1% (hay ~3 triệu/ ~3,2 tỷ bp của cấu trúc toàn bộ bộ/ hệ gen), nhưng phần khác biệt rất nhỏ này lại có ý nghĩa quyết định đối với đặc điểm nhân chủng học, giống nòi của cả một dân tộc, là yếu tố di truyền liên quan đến sức khỏe của mỗi cá thể Vì vậy, việc nghiên cứu hệ gen các cá thể thuộc mỗi dân tộc
là vấn đề rất cấp bách và là giai đoạn phát triển tiếp theo về Bộ gen học người (Human Genomics) Đặc biệt, cần lưu ý là mỗi nước phải đầu tư giải mã gen cho người của dân tộc mình và không thể có ai làm hộ, làm thay
Việt Nam, quốc gia với trên 86 triệu dân (đứng thứ 13 trên thế giới về dân số) với 54 dân tộc anh em, cần có một chiến lược lâu dài và chương trình cấp bách và cụ thể về nghiên cứu cơ bản, nhằm định hướng ứng dụng, liên quan đến hệ gen người Việt Nam Tuy nhiên, việc nghiên cứu đồng bộ về hệ gen người Việt Nam (với trang thiết bị tầm trung như hiện có) sẽ rất khó khăn, tốn kém về thời gian và chi phí và không khả thi Vì vậy, cần có một dự án (chương trình) mang tầm cỡ quốc gia và hội nhập quốc tế thì mới thực hiện được
Trang 54
A NỘI DUNG 1 BẢN THẢO DỰ ÁN NGHIÊN CỨU KHOA HỌC CƠ BẢN
(BÁO CÁO CƠ SỞ KHOA HỌC CHO DỰ ÁN GIẢI TRÌNH TỰ VÀ PHÂN
TÍCH HỆ GEN NGƯỜI VIỆT NAM)
Trang 65
DỰ ÁN NGHIÊN CỨU KHOA HỌC CƠ BẢN
(GIAI ĐOẠN I: 2012-2015; GIAI ĐOẠN II: 2016 – 2020, TẦM NHÌN ĐẾN 2030)
1.1 Tên Dự án:
Giải mã/ đọc trình tự hệ gen (Genome) người Việt Nam
Tên tiếng Anh: Vietnam Human Genome Sequencing Project Tên viết tắt: Tiếng Việt - HGNV (Hệ gen Người Việt)
18 Hoàng Quốc Việt, Cầu Giấy, Hà Nội
1.6 hời gian hự hiện
9 năm (2011-2020), chia ra thành 2 giai đoạn (2012-2015
và 2016-2020)
1.7 Mục tiêu c a Dự án
Mục tiêu chung: Giải mã hoàn chỉnh hệ gen (genome) người Việt Nam, làm cơ sở
cho các nghiên cứu cơ bản và ứng dụng trong y-dược và các lĩnh vực khác ây dựng được tập thể khoa học mạnh có đủ năng lực về trang thiết bị và con người để thực hiện các dự án giải mã genome người và sinh vật đặc hữu của Việt Nam
Mục tiêu cụ thể:
- Giải mã được hệ gen của một số cá thể người VN (thành viên của một số gia
đình) làm ình ự h n (reference sequence) cho các nghiên cứu lâu dài về hệ
gen người Việt Nam;
Trang 76
- hân tích được đặc điểm đa hình cấu trúc phân tử (đa hình nucleotide đơn, N s) trên toàn bộ hệ gen của các cá thể đại điện cho các nhóm dân tộc trong công đồng người Việt Nam, qua đó xác định nguồn gốc các dân tộc, quan hệ chủng loại phát sinh và tiến hóa nhân chủng học tiến hóa người Việt;
- Giải mã, so sánh toàn bộ hệ gen biểu hiện (exome) của một số người mắc các bệnh: di truyền, ung thư, tiểu đường, tim mạch… ở Việt Nam nhằm phát hiện các chỉ thị phân tử cho chẩn đoán và điều trị
- Xây dựng được tập thể khoa học mạnh, liên ngành để giải quyết các vấn đề khoa học công nghệ trong giải mã gen người; Đào tạo nguồn nhân lực có năng lực để thực hiện các dự án giải mã toàn bộ hệ gen các sinh vật đặc hữu (cây trồng, vật nuôi, vi sinh vật) có giá trị cho khoa học và giá trị thực tiễn của Việt Nam
- Tham gia đào tạo và hợp tác quốc tế với các Trung tâm/ Viện nghiên cứu genome hàng đầu của thế giới
1.8 Nội dung, tổ chức và tiến độ thực hiện
- ự ộ ể (exome) của 50 cá thể (với độ
bao phủ 30 ) mắc một số bệnh di truyền, ung thư, tiểu đường, tim mạch…ở Việt Nam nhằm phát hiện chỉ thị phân tử cho chẩn đoán và điều trị
- ộ ủ ể ộ 2-3 dân tộc hiện đang sinh sống ở
Việt Nam, mỗi dân tộc khoảng 15 - 20 cá thể, với độ bao phủ từ 30 o sánh sự khác biệt về trình tự toàn bộ hệ gen của các cá thể thuộc 2-3 dân tộc nghiên cứu, từ đó tìm hiểu mối quan hệ di truyền giữa các dân tộc trong cộng đồng các dân tộc Việt Nam
G -2020):
- ự ộ ể (exome) của 50 cá thể (với độ bao phủ
30x) mắc một số bệnh di truyền, ung thư, tiều đường, tim mạch…Tìm hiểu sự khác biệt giữa toàn bộ trình tự của những người bệnh so với người thường, từ đó định hướng cho việc tiên lượng và điều trị các bệnh nói trên
- ộ ể ủ ộ đại diện cho 8 nhóm ngôn
ngữ hiện đang sinh sống ở Việt Nam, mỗi dân tộc khoảng 50-60 cá thể, với độ bao phủ từ 30 lần o sánh sự khác biệt về trình tự toàn bộ hệ gen của các cá thể thuộc 8
Trang 8- Thực hiện các nghiên cứu hậu hệ gen: proteome, transcriptome, metagenome…
- Nghiên cứu so sánh hệ gen của các nhóm dân tộc để nghiên cứu về đa dạng di truyền người Việt Nam
- Giải mã và phân tích hệ gen của các sinh vật có giá trị kinh tế, đặc hữu của Việt Nam Từ đó, tìm ra được khả năng nâng cao chất lượng tăng khả năng chống chịu với các điều kiện bất lợi như bệnh tật, điều kiện môi trường…
1.8.1.2 Yêu cầ ầ ết bị và xây dự ơ ở h tầng
Tổng đầu tư trang thiết bị cho dự án và Viện Nghiên cứu Hệ gen (Genome) được chia thành 2 giai đoạn, giai đoạn I được bắt đầu từ 2012 đến 2015, giai đoạn II từ 2016-2020 Trong giai đoạn I, có 3 phương án lựa chọn, tuỳ thuộc vào nguồn kinh phí
có thể lựa chọn phương án I, II hoặc III
- Phương án I là phương án tối thiểu, chỉ có 01 thiết bị giải trình tự thế hệ mới,
01 hệ thống siêu máy tính tối thiểu (512 CPU cores, 1,4 TB RAM và 500 TB storage) Mục tiêu của phương án này là giải trình tự và phân tích hệ gen người Việt Nam với quy mô từ 100 – 500 cá thể
- Trong phương án II, tăng thêm 01 thiết bị giải trình tự thế hệ mới của Roche
và 01 máy khối phổ để phân tích cấu trúc và chức năng protein Thiết bị giải trình tự Roche có thể giải trình tự được các đoạn DNA có kích thước đến 800 nucleotide Ngoài mục tiêu giải trình tự và phân tích hệ gen người, với thiết bị giải trình tự thế hệ mới của Roche, chúng ta có thể thực hiện giải trình tự các sinh vật có giá trị khác Cùng với các thiết bị giải trình tự thế hệ mới là hệ thống phân tích hệ protein (máy khối phổ) cho phép tiến hành các phân tích sâu hơn về hệ protein học của người, từ đó
có thể tìm ra các chỉ thị sinh học giúp chẩn đoán và điều trị các bệnh ở người (truyền nhiễm, ung thư, tim mạch…)
- Phương án III là phương án tối ưu nhất đối với một Viện nghiên cứu hệ gen
và hậu hệ gen Tổng mức đầu tư đã tăng lên 1,5 lần so với phương án I ố thiết bị giải trình tự ở phương án này là 3 – 4 máy (có máy dự phòng, phòng trường hợp máy kia
Trang 9dự án còn thực hiện các dự án giải trình tự và phân tích hệ gen của những cơ thể sinh vật khác
Khi dự án được xem xét phê duyệt đầu tư, cần triển khai đồng thời việc thành lập Viện Nghiên cứu Hệ gen (Genome) Dự án do Viện Nghiên cứu Hệ gen (Genome) quản lý và thực hiện dưới sự điều hành, giám sát của Viện Khoa học và Công nghệ Việt Nam Ban Quản lý dự án do Viện Nghiên cứu Hệ gen (Genome) quyết định thành lập, có nhiệm vụ điều hành toàn bộ quá trình thực hiện, từ giai đoạn đầu tư Dự án được chia thành 2 giai đoạn: giai đoạn I (2012-2015) và giai đoạn II (2016-2020), định hướng phát triển đến 2030 Ở giai đoạn 2012-2013: Đề nghị Viện Khoa học và Công nghệ Việt Nam cho phép tạm thời sử dụng một số diện tích của các đơn vị chức năng đã được giải phóng tại nhà A2 hoặc các tòa nhà khác, sau khi toà nhà điều hành
của Viện được đưa vào sử dụng Nếu cần thiết, xin thuê thêm 80 – 100 m2 tại Khu nhà Ứng dụng - Triển khai của Viện KH&CNVN (18 –Hoàng Quốc Việt); Lập kế hoạch xin cấp đất và xây dựng Dự án nhà làm việc của Viện Nghiên cứu Hệ gen Từ 2013- 2016: xây dựng khu nhà làm việc mới với mặt bằng từ 500-1000m2 (có thể liên kết với các đơn vị khác trong Viện Khoa học và Công nghệ Việt Nam)
Giai đoạn I, thành lập tổ chức nghiên cứu mới là Viện Nghiên cứu Hệ gen
(Genome) do Chủ tịch Viện Khoa học và Công nghệ Việt Nam quyết định thành lập, với quy mô về nhân sự, từ 20-30 (chủ yếu xin Chủ tịch Viện điều động người từ
Trang 109
Phòng Công nghệ ADN ứng dụng, Viện Công nghệ sinh học) Đầu tư trang thiết bị ban đầu cần thiết để thực hiện việc giải mã và phân tích hệ gen người Việt, với mục tiêu kết thúc giai đoạn I có thể giải mã được 100 hệ gen người Việt Nam Đào tạo nguồn nhân lực cần thiết để thực hiện các dự án giải mã hệ gen người và các sinh vật
có giá trị kinh tế và khoa học của Việt Nam Thực hiện việc giải mã toàn bộ hệ gen của 100+ người Việt Nam
Giai đoạn II, nâng cấp Viện nghiên cứu Hệ gen (Genome) thành đơn vị nghiên
cứu Quốc gia (Nghị định chính phủ) thuộc Viện Khoa học và Công nghệ Việt Nam, đạt trình độ khu vực quốc tế, với quy mô về nhân lực từ 50 – 70 người Tiếp tục đầu
tư, nâng cấp trang thiết bị phục vụ do việc giải mã hệ gen người, nghiên cứu chức năng gen và giải mã các cơ thể sinh vật có giá trị khoa học và kinh tế của Việt Nam Tiếp tục đào tạo (trong và ngoài nước) đủ nguồn nhân lực để có thể thực hiện các dự
án giải mã hệ gen Tiến hành giải mã hệ gen người Việt Nam, với mục tiêu kết thúc giai đoạn II sẽ giải mã được 1000+ hệ gen người Việt Nam Thực hiện các nghiên cứu hậu giải mã như nghiên cứu transcriptomics, proteomics… và thực hiện các dự án giải
mã cơ thể sinh vật có giá trịnh khoa học và kinh tế của Việt Nam
Tầm nhìn đến năm 2030 và xa hơn: Nâng quy mô Viện Nghiên cứu Hệ gen
(Genome) lên mức 150 – 180 người, với các chuyên gia đạt trình độ quốc tế về các lĩnh vực hệ gen học (genomics), tin sinh học (bioinformatics), hệ protein học (proteomics)…Đầu tư thêm các trang thiết bị thế hệ mới phục vụ các dự án của Viện Tiếp tục giải mã và phân tích hệ gen người Việt Nam với số lượng lớn hơn Tiến hành các nghiên cứu hậu giải mã và các nghiên cứu giải mã các sinh vật khác
1.9 S n h ự iến
1.9.1 Giai đoạn I (2012- 2015): “100 genome người Việt”
Giải mã hoàn chỉnh hệ gen một số phả hệ (“trios”, 2 – 3 phả hệ, bao gồm 2-3 thế hệ, 10 -15 cá thể khỏe mạnh) được giải mã với số lần lặp lại cao (30 ) Qua đó chọn được 1-2 hệ gen làm “trình tự chuẩn” của người Việt Nam: Lựa chọn lấy 1-2 trình tự làm “trình tự chuẩn” của người Việt Nam để cho các số liệu sau này có thể làm chuẩn tham chiếu
50 hệ gen hoàn chỉnh (lặp lại cao, 30X) của các cá thể thuộc 2-3 dân tộc khác nhau của người Việt Nam, mỗi dân tộc ~15-20 cá thể các dân tộc cho nghiên cứu mối quan hệ, đa dạng di truyền và tiến hóa phân tử
50 hệ gen biểu hiện (exome, lặp lại cao, 30 ) của các bệnh nhân mắc bệnh di truyền, ung thư, tiểu đường, tim mạch
Trang 11số I (Impact actor) cao
Viện Nghiên cứu Hệ gen (Genome) Quốc gia có đủ năng lực về trang thiết bị
để tiến hành các dự án về giải mã hệ gen người và các sinh vật nói chung
Đội ngũ chuyên gia thuộc các lĩnh vực sinh học phân tử, di truyền, tin sinh học, thống kê sinh học đáp ứng nhu cầu của các dự án giải mã hệ gen trong nước
Tham gia thực hiện một số dự án giải mã hệ gen các sinh vật khác: vi sinh vật, cây trồng, vật nuôi (kinh phí vận hành từ các đề tài, dự án khác)
1.9.2 Giai đoạn II (2016- 2020): “1000 genome người Việt”
Tiếp tục giải mã hệ gen các cá thể thuộc 8 nhóm dân tộc trong cộng đồng các dân tộc Việt Nam, đưa tổng số hệ gen được giải mã hoàn chỉnh của cả 2 giai đoạn lên
500 (+450)
Tiếp tục giải mã hệ gen (exome) các bệnh nhân, đưa tổng số exome các bệnh nhân được giải mã lên 500 (+450)
Đến năm 2020, tổng cộng có 1010 -1015 hệ gen (genome) người Việt được giải
mã hoàn chỉnh và phân tích số liệu chi tiết
Tiếp tục tham gia thực hiện một số dự án giải mã hệ gen các sinh vật khác: vi sinh vật, cây trồng, vật nuôi (kinh phí vận hành từ các đề tài, dự án khác)
Viện Nghiên cứu Hệ gen Quốc gia có đủ năng lực về trang thiết bị, đạt trình độ quốc tế về giải mã hệ gen người và các sinh vật nói chung ây dựng cơ sở hạ tầng phòng thí nghiệm cho Trung tâm/ Viện nghiên cứu Hệ gen được triển khai cuối giai đoạn I, đầu giai đoạn II, kết thúc trong 2 - 3 năm
1.8.3 Tầm nhìn đến 2030 và xa hơn:
Phát triển nhanh các nghiên cứu giải mã hệ gen cá thể người Việt Nam, đưa con số hệ gen được giải mã lên 104 - 105, thậm chí lên 106, làm cơ sở khoa học cho phát triển hệ gen dược học (Pharmacogenomics), hệ gen học cá thể (Individual Genomics) và y học cá nhân (Personal Medicine)
Phát triển các hướng nghiên cứu ứng dụng và dịch vụ của nghiên cứu hệ gen người khỏe mạnh và các loại bệnh nan y
Phát triển nhanh các nghiên giải mã hệ gen và ứng dụng đối với các sinh vật đặc hữu của Việt Nam, bao gồm: vi sinh vật, cây trồng, vật nuôi
Phát triển Viện Nghiên cứu Hệ gen Quốc gia đạt trình độ khu vực và quốc tế
Trang 1211
1.10 ổng inh h n ộ ự n (2 giai đ ạn 9 nă 2012-2020):
1.10.1 Phương án I, phương án tối thiểu: 13 005 000 USD
- Các thiết bị văn phòng, hệ thống lưu điện, máy phát điện, xe ô tô đi thực địa
( ều tra, thu thập mẫ ợ i dân tộc thiểu s ): 190 000
USD
- Kinh phí vận hành (thực hi n các nộ o, hợp tác qu c tế): 1 265
nghìn U D/ năm
- Kinh phí mua sắm thiết bị phụ trợ: 850 nghìn U D/ năm
- Kinh phí xây dựng hạ tầng Phòng thí nghiệm của Trung tâm/ Viện nghiên cứu
Hệ gen: 2,5 triệu U D (năm thứ 2 và thứ 3 của giai đoạn I: 2014-2015)
Tổ - : USD ó
- Mua thêm 1 máy giải trình tự gen thế hệ mới hơn: 1, triệu USD
- Thay thế phụ tùng, nâng cấp máy mua trong giai đoạn trước: 0,2 triệu USD
- Nâng cấp hệ siêu máy tính: 0,8 triệu USD
- Kinh phí vận hành: 0,5 triệu U D/ năm = 2,5 triệu U D/ 5 năm
- Kinh phí trả thù lao cán bộ tham gia thực hiện: 60 nghìn/ năm = 300 nghìn/ 5 năm
- Kinh phí mua sắm thiết bị phụ trợ mới: 0,4 triệu U D/ 5 năm
- inh phí đào tạo/ hợp tác quốc tế: 0,1 triệu/ 5 năm
- Thiết bị giải trình tự thế hệ mới Roche FS FLX+: 700 nghìn USD
- Hệ thống phân tích proteome (máy khối phổ): 1,5 triệu USD
- Các thiết bị văn phòng, hệ thống lưu điện, máy phát điện, xe ô tô đi thực địa (điều tra, thu thập mẫu máu các đối tượng là người dân tộc thiểu số): 190 000 USD
Trang 1312
- Kinh phí vận hành (thực hi n các nộ o, hợp tác qu c tế): 1 265
nghìn U D/ năm
- Kinh phí mua sắm thiết bị phụ trợ: 1,3 triệu U D/ năm
- Kinh phí xây dựng hạ tầng Phòng thí nghiệm của Trung tâm/ Viện nghiên cứu
Hệ gen: 2,5 triệu U D (năm thứ 2 và thứ 3 của giai đoạn I: 2014-2015)
Tổ - : USD ó
- Mua thêm 1 máy giải trình tự gen thế hệ mới hơn: 1, triệu USD
- Thay thế phụ tùng, nâng cấp máy mua trong giai đoạn trước: 0,2 triệu USD
- Nâng cấp hệ siêu máy tính: 0,8 triệu USD
- Kinh phí vận hành: 0,5 triệu U D/ năm = 2,5 triệu U D/ 5 năm
- Kinh phí trả thù lao cán bộ tham gia thực hiện: 60 nghìn/ năm = 300 nghìn/ 5 năm
- Kinh phí mua sắm thiết bị phụ trợ mới: 0,4 triệu U D/ 5 năm
- inh phí đào tạo/ hợp tác quốc tế: 0,1 triệu/ 5 năm
- Thiết bị giải trình tự thế hệ mới Roche FS FLX+: 700 nghìn USD
- Kinh phí mua hệ thống siêu máy tính (HPC): 1 hệ thống (1000 cores, 3TB RAM, 1000 TB storage) = 2,4 triệu USD
- Hệ thống phân tích proteome (máy khối phổ, UHPLC, FPLC ): 1.935.000 USD
- Các thiết bị văn phòng, hệ thống lưu điện, máy phát điện, xe ô tô đi thực địa (điều tra, thu thập mẫu máu các đối tượng là người dân tộc thiểu số): 190 000 USD
- Kinh phí vận hành (thực hi n các nộ o, hợp tác qu c tế): 1 265
nghìn U D/ năm
- Kinh phí mua sắm thiết bị phụ trợ: 1,3 triệu U D/ năm
- Kinh phí xây dựng hạ tầng Phòng thí nghiệm của Trung tâm/ Viện nghiên cứu
Hệ gen: 2,5 triệu U D (năm thứ 2 và thứ 3 của giai đoạn I: 2014-2015)
Tổ - : USD ó
- Mua thêm 1 máy giải trình tự gen thế hệ mới hơn: 1, triệu USD
- Thay thế phụ tùng, nâng cấp máy mua trong giai đoạn trước: 0,2 triệu USD
- Nâng cấp hệ siêu máy tính: 0,8 triệu USD
- Kinh phí vận hành: 0,5 triệu U D/ năm = 2,5 triệu U D/ 5 năm
Trang 1413
- Kinh phí trả thù lao cán bộ tham gia thực hiện: 60 nghìn/ năm = 300 nghìn/ 5 năm
- Kinh phí mua sắm thiết bị phụ trợ mới: 0,4 triệu U D/ 5 năm
- inh phí đào tạo/ hợp tác quốc tế: 0,1 triệu/ 5 năm
ự : 3 USD ơ ơ 282 tri ồng
1.10 Dự kiến đầ ư h giai đ ạn tầ nhìn đến 2030 v xa h n
inh phí hàng năm 3-5 triệu USD
Trang 1514
Mục tiêu chung: Giải mã hoàn chỉnh hệ gen (genome) người Việt Nam, làm
cơ sở cho các nghiên cứu cơ bản và ứng dụng trong y-dược và các lĩnh vực khác Xây dựng được tập thể khoa học mạnh có đủ năng lực về trang thiết bị và con người để thực hiện các dự án giải mã hệ gen người và sinh vật đặc hữu của Việt Nam
Mục tiêu cụ th :
- Giải mã được hệ gen của một số cá thể người VN (thành viên của một số gia
đình) làm ình ự h n (reference sequence) cho các nghiên cứu lâu dài về hệ gen
người Việt Nam;
- hân tích được đặc điểm đa hình cấu trúc phân tử (đa hình nucleotide đơn,
N s) trên toàn bộ hệ gen của các cá thể đại điện cho các nhóm dân tộc trong công đồng người Việt Nam, qua đó xác định nguồn gốc các dân tộc, quan hệ chủng loại phát sinh và tiến hóa nhân chủng học tiến hóa người Việt;
- Giải mã, so sánh toàn bộ hệ gen biểu hiện (exome) của một số người mắc các bệnh: di truyền, ung thư, tiểu đường, tim mạch… ở Việt Nam nhằm phát hiện các chỉ thị phân tử cho chẩn đoán và điều trị
- Xây dựng được tập thể khoa học mạnh, liên ngành để giải quyết các vấn đề khoa học công nghệ trong giải mã gen người; Đào tạo nguồn nhân lực có năng lực để thực hiện các dự án giải mã toàn bộ hệ gen các sinh vật đặc hữu (cây trồng, vật nuôi,
vi sinh vật) có giá trị cho khoa học và giá trị thực tiễn của Việt Nam
- Tham gia đào tạo và hợp tác quốc tế với các Trung tâm/ Viện nghiên cứu hệ gen hàng đầu của thế giới
Trang 1615
3.1 C hư ng ình ự n nghi n ứ hệ g n người n hế giới
3.1.1 Dự án Genome người (Human Genome Project, HGP)
Tóm tắt lịch sử của dự án
Dự án Hệ gen người thực hiện trong khoảng 13 năm, chính thức khởi động từ tháng 10 năm 1990 và hoàn thành vào tháng 9 năm 2003, do Nhóm các cơ quan khoa học nhà nước do Mỹ đứng đầu với khoảng 20 nước và vùng lãnh thổ tham gia Trên thực tế, trước khi dự án được vận hành chính thức vào năm 1990, từ trước đó, năm
1983 các thư viện dòng DNA (cosmid) chứa từng nhiễm sắc thể riêng rẽ của người đã được xây dựng tại Phòng thí nghiệm Quốc gia Los Alamos (Los Alamos National Laboratory - LANL) và Phòng thí nghiệm Quốc gia Lawrence Livermore (Lawrence Livermore National Laboratory - LLNL), Hoa Kỳ au năm 2003, công tác phân tích kết quả trình tự của từng nhiễm sắc thể vẫn tiếp tục được tiến hành cho tới năm 2008
Dự án đã chi 3-4 tỷ USD tiền ngân nhà nước cho giải mã hoàn chỉnh hệ gen người (khoảng 3,2 tỷ bp), với DNA lấy từ 5 cá thể đại diện 5 chủng tộc người trên thế giới Đồng thời, việc giải mã hệ gen người cũng đã được Công ty tư nhân Celera Genomics của Mỹ tiến hành (số tiền đã chi ước tính cũng phải hàng tỷ USD) Kết quả
là mỗi nhóm giải mã hoàn chỉnh 1 hệ gen người, đồng thời công bố “bản nháp” trên 2
tạp chí khoa học danh tiếng nhất là Nature, Anh (McPherson et al., 2001), và Science,
Mỹ (Venter et al., 2001) Trình tự của Nhóm được tài trợ từ ngân sách của các chính
phủ đã được công khai, dữ liệu thông tin về hệ gen cho toàn thế giới cùng sử dụng, được gọi là “trình tự chuẩn” hay “trình tự tham chiếu” (reference sequence)
Mục tiêu của dự án
Mục tiêu chung của dự án là nhằm giải mã tất cả khoảng 20.000 đến 25.000 gen người, cung cấp thông tin về cấu trúc và tổ chức của các gen, phục vụ các nghiên cứu sâu hơn về di truyền và bệnh học ở người Bên cạnh đó, dự án còn đặt ra một nhiệm vụ khác là phải giải trình tự toàn bộ hơn 3 tỷ cặp base trong hệ gen của người Như là một phần của dự án Hệ gen người, các nghiên cứu song song tiến hành trên các
Trang 1716
sinh vật mô hình như vi khuẩn Escherichia coli và chuột đã giúp phát triển các kỹ
thuật và giải thích chức năng của các gen đã giải mã
Dự án Hệ gen người được chia thành hai giai đoạn: Giai đoạn 1 từ 1990 đến
1998 và giai đoạn 2 từ 1998 đến 2003 Giai đoạn đầu tiên dự định được tiến hành trong năm năm từ 1990 đến 1995 nhưng sau đó được sửa đổi kế hoạch và kéo dài thời gian thêm ba năm nữa đến năm 1998 (Collins & Galas, 1993) Trong giai đoạn này, các mục tiêu được đặt ra bao gồm:
- Lập b ồ di truyền
Hoàn thành bản đồ với độ phân giải 2 - 5 cM vào năm 1995;
Phát triển kỹ thuật xác định nhanh kiểu gen;
Phát triển các dấu chuẩn (marker) dễ sử dụng;
Phát triển các kỹ thuật lập bản đồ mới
Phát triển kỹ thuật giải trình tự nhanh, tập trung và các hệ thống tích hợp tất
cả các bước từ chuẩn bị khuôn DNA tới phân tích dữ liệu;
Xây dựng công suất giải trình tự cho phép giải trình tự với tốc độ 50 Mb/ năm cho tới cuối giai đoạn
- X ịnh các gen
Phát triển các phương pháp hiệu quả để xác định các gen và sắp xếp các gen
đã biết vào bản đồ vật lý hoặc DNA đã được giải trình tự
- Phát triển kỹ thuật
Mở rộng hỗ trợ phát triển các kỹ thuật mới cũng như cải tiến kỹ thuật hiện tại về giải trình tự DNA nói riêng và đáp ứng như cầu của dự án Hệ gen người nói chung
- Các sinh vật mô hình
Hoàn thành bản đồ STS của hệ gen chuột với độ phân giải 300 kb;
Hoàn thành trình tự hệ gen vi khuẩn Escherichia coli và nấm men
Saccharomyces cerevisiae tới năm 1998 hoặc sớm hơn;
Trang 1817
Tiếp tục giải trình tự hệ gen Caenorhabditis elegans và Drosophila
melanogaster nhằm hoàn chỉnh trình tự C elegans trước năm 1998;
Giải trình tự một số vùng chọn lọc trên DNA chuột cùng với các v ng tương ứng trên DNA người đang nghiên cứu
- Công ngh thông tin
Tiếp tục tạo ra, phát triển và vận hành các cơ sở dữ liệu và các công cụ cơ
sở dữ liệu để có thể dễ dàng truy cập các dữ liệu, bao gồm các công cụ tiện ích và các tiêu chuẩn trao đổi dữ liệu và các liên kết trong cơ sở dữ liệu;
Củng cố, xây dựng và tiếp tục phát triển các phần mềm tiện ích phục vụ các
dự án hệ gen ở quy mô lớn;
Tiếp tục phát triển các công cụ so sánh và giải mã thông tin của hệ gen
- Các vấ ề về ức, luật pháp và xã hội
Tiếp tục xác định và định nghĩa các vấn đề và phát triển các lựa chọn chính sách để giải quyết các vấn đề đó;
Phát triển và phổ biến các chính sách liên quan đến các dịch vụ thử nghiệm
di truyền với mục tiêu sử dụng đại trà;
Khuyến khích sự chấp nhận sự đa dạng di truyền người
- Đ o
Tiếp tục khuyến khích đào tạo các nhà khoa học liên ngành có liên quan đến nghiên cứu hệ gen
- Chuyển giao công ngh
Khuyến khích và tăng cường chuyển giao công nghệ cả trong và ngoài nghiên cứu hệ gen
- Mục tiêu lâu dài
Hợp tác với các cơ quan thiết lập các trung tâm về các vật liệu hệ gen;
Chia sẻ tất cả các thông tin và vật liệu trong vòng 6 tháng, bao gồm gửi thông tin tới cơ sở dữ liệu công khai hoặc cơ sở lưu trữ hoặc cả hai nếu phù hợp
Giai đoạn thứ hai được thực hiện từ năm 1998 và chú trọng vào các nội dung sau
(Collins et al., 2003):
- Gi i trình tự DNA ở i
Hoàn thành trình tự hệ gen hoàn chỉnh của người vào cuối năm 2003;
Hoàn thành 1/3 trình tự DNA người vào cuối năm 2001;
Đạt độ bao phủ ít nhất 90% hệ gen trong bản nháp dựa trên các dòng đã lập bản đồ được vào cuối năm 2001;
Trang 19 ác định các đa hình phổ biến trong các vùng mã hóa của phần lớn các gen được giải mã trong suốt giai đoạn này;
Tạo ra bản đồ SNP của ít nhất 100 000 marker;
Phát triển các cơ sở trí tuệ phục vụ các nghiên cứu về đa dạng trình tự;
Tạo ra các nguồn miễn phí về mẫu DNA và dòng tế bào
- H gen học chứ
Tạo ra một bộ sưu tập các trình tự và các dòng cDNA có kích thước hoàn chỉnh mang các gen của người và của sinh vật mô hình;
Hỗ trợ nghiên cứu về các phương pháp nghiên cứu chức năng của các trình
tự mã hóa các phân tử không phải protein;
Phát triển kỹ thuật phân tích toàn diện sự biểu hiện của gen;
Cải tiến các phương pháp phát sinh đột biến trên quy mô hệ gen;
Phát triển kỹ thuật phân tích protein trên quy mô lớn
- H gen học so sánh
Hoàn thiện trình tự của hệ gen giun tròn C elegans vào năm 1998;
Hoàn thiện trình tự của hệ gen ruồi giấm Drosophila vào năm 2002;
Phát triển bản đồ kết hợp giữa bản đồ vật lý và bản đồ di truyền của chuột, tạo ra nguồn cDNA bổ sung từ chuột, và hoàn thiện trình tự hệ gen chuột vào năm 2008;
ác định các sinh vật mô hình hữu ích khác và hỗ trợ các nghiên cứu hệ gen thích hợp
Trang 20 Khảo sát các vấn đề phát sinh từ việc kết hợp những hiểu biết về hệ gen học
và các tương tác giữa gen với môi trường trong các trường hợp phi lâm sàng;
Tìm hiểu xem những kiến thức di truyền mới này sẽ tương tác như thế nào với một loạt các vấn đề về triết học, lý luận và đạo đức;
Tìm hiểu xem các nhân tố về chủng tộc, dân tộc và kinh tế xã hội sẽ ảnh hưởng như thế nào tới việc sử dụng, hiểu biết và giải thích về thông tin di truyền, sự sử dụng các dịch vụ di truyền và sự phát triển chính sách
- Tin sinh học và sinh học tính toán
Cải tiến nội dung và tính thiết thực của các cơ sở dữ liệu;
Phát triển các công cụ tiên tiến hơn trong việc phát sinh, nắm bắt và giải thích dữ liệu;
Phát triển và cải tiến các công cụ và cơ sở dữ liệu về các nghiên cứu chức năng toàn diện;
Phát triển và cải tiến các công cụ nhằm thể hiện và phân tích mức độ tương đồng và đa dạng của trình tự;
Tạo ra các cơ chế nhằm hỗ trợ các phương pháp hiệu quả trong việc sản xuất các phần mềm mạnh và có tiềm năng xuất khẩu có thể được sử dụng rộng rãi sau này
- Đ o nguồn nhân lực
Đào tạo các nhà khoa học thành thạo trong nghiên cứu hệ gen học;
Hỗ trợ định hướng sự nghiệp khoa học cho các nhà khoa học nghiên cứu hệ gen;
Nâng cao số lượng các học giả có kiến thức chuyên sâu về khoa học hệ gen,
di truyền học và cả trong các lĩnh vực về đạo đức, luật pháp hoặc khoa học
xã hội
Các kết qu ợc của dự án
Trang 2120
Hiện nay, dự án trên quy mô lớn đầu tiên trong lĩnh vực công nghệ sinh học đã được hoàn thành và đã thu được rất nhiều thành tựu như: hàng loạt kỹ thuật mới, các bản đồ di truyền, bản đồ hình thể và phiên mã của hệ gen của một vài loài sinh vật, một số chương trình nghiên cứu khoa học song song tiến hành c ng các chương trình nghiên cứu về đạo đức sinh học (bioethics), và một bản trình tự hoàn chỉnh của hệ gen người đã công bố và sử dụng miễn phí cho tất cả các đối tượng Dự án Hệ gen người không chỉ hoàn thành tất cả các mục tiêu đề ra ban đầu mà thậm chí còn vượt mức các
mục tiêu đó (Bảng 1) (Collins et al., 2003)
Kết quả quan trọng nhất sau khi có bản “nháp” hệ gen người (2003) cho chúng
ta rất nhiều thông tin về số lượng và kích thước trong hệ gen, tỷ lệ mã hóa protein, sự sắp xếp/ phân bố của các vùng trong hệ gen, mức độ đa hình và đột biến trong hệ gen người và những so sánh về hệ gen giữa người với một số sinh vật khác
Về ớc, hệ gen người chứa 3.164,7 triệu nucleotide (A, C, T và G) Kích
thước trung bình của mỗi gen là khoảng 3000 nucleotide, tuy nhiên trên thực tế, kích thước rất khác nhau ở các gen khác nhau Gen có kích thước dài nhất đã biết ở người
là gen mã hóa dystrophin, dài 2,4 triệu nucleotide
B ng 1 Các mụ i an đầu và kết qu đã h n h nh a dự án Hệ gen người
Bản đồ với độ phân giải 1
cM (3.000 marker)
Tháng 9/1994
Trình tự DNA 95% vùng chứa gen của
trình tự gen người được hoàn thành với độ chính xác tới 99,99%
99% vùng chứa gen của trình tự gen người được hoàn thành với độ chính xác 99,99%
nucleotide
1.400 Mb trình tự / năm với giá dưới 0,09 USD/
nucleotide
Tháng 11/2002
Đa dạng trình tự
gen người
Lập bản đồ 100.000 đa hình đơn nucleotide (SNP)
Đã lập bản đồ 3,7 triệu SNP
Trang 22Tổng hợp nhanh các oligonucleotide
1994
Các microarray DNA 1996 Bất hoạt toàn bộ hệ gen,
sinh vật nhân chuẩn (ở nấm men)
1999
Mở rộng quy mô của hệ thống two-hybrid cho tương tác protein-protein
Về s ợng gen, tổng số gen trong hệ gen người ước tính khoảng 30 000 gen,
con số này thấp hơn nhiều so với con số dự đoán (80 000 đến 140 000) dựa trên các ngoại suy từ các vùng giàu gen (hệ gen người được giải thuyết chứa các vùng giàu gen
và các vùng ít gen) Trong số các gen đã được phát hiện, có tới trên 50% gen chưa rõ chức năng Hầu như tất cả trình tự nucleotide (99,9%) đều giống nhau ở tất cả các chủng tộc, các cá thể người và chỉ khác nhau với một tỷ lệ rất nhỏ (0,1%) về cấu trúc
hệ gen (hay ~3 triệu/ ~3,2 tỷ bp của cấu trúc toàn bộ bộ/ hệ gen) Tuy nhiên, phần khác biệt rất nhỏ này lại có ý nghĩa quyết định đối với đặc điểm nhân chủng học của một dân tộc, là yếu tố di truyền liên quan đến sức khỏe của cả dân tộc và mỗi cá thể
Về tỷ l mã hóa protein, chỉ một phần trình tự rất nhỏ trong hệ gen (dưới 2%)
là các trình tự mã hóa cho protein Các trình tự lặp lại không mã hóa protein (“DNA nối” - “junk DNA”) chiếm ít nhất 50% hệ gen người Các trình tự lặp lại này mặc dù không đóng vai trò trực tiếp nào trong việc mã hóa protein, nhưng chúng được cho là góp phần quan trọng và cấu trúc và động lực học của các nhiễm sắc thể Bằng cách tái sắp xếp, những đoạn lặp lại này sẽ sắp xếp lại thành phần trong hệ gen, từ đó tạo ra các gen hoàn toàn mới, và biến đổi và/ hoặc cải tạo lại các gen đang tồn tại trong hệ gen Trong suốt 50 triệu năm qua, tốc độ tích lũy các đoạn lặp lại trong hệ gen người
đã giảm đi một cách đáng kể
Về sự sắp xếp/ phân b , các vùng tập trung nhiều gen trong hệ gen là các vùng
DNA giàu G và C Ngược lại, các vùng ít gen là các vùng DNA giàu A và T Các
v ng GC và AT thường quan sát được dưới kính hiển vi điện tử dưới dạng các băng sáng và tối trên các nhiễm sắc thể Các gen tập trung thành các vùng ngẫu nhiên trong
hệ gen, xen giữa bởi các vùng DNA không mã hóa Các vùng lặp lại giàu GC dài tới
Trang 2322
30.000 nucleotide thường xuất hiện bên cạnh các vùng giàu gen, tạo ra một hàng rào giữa các gen và vùng DNA nối Các “đảo CpG” được cho rằng sẽ tham gia vào các hoạt động điều hòa sự biểu hiện của gen Nhiễm sắc thể 1 là nhiễm sắc thể tập trung nhiều gen nhất (2.968 gen) và nhiễm sắc thể Y là nhiễm sắc thể chứa ít gen nhất (429 gen)
Khi so sánh trình tự hệ gen giữa người với các sinh vật khác, nếu như ở người
các v ng giàu gen được phân bố một cách ngẫu nhiên trong hệ gen thì ở các sinh vật khác, hệ gen được phân bố đồng đều hơn với các gen nằm cách nhau khá đều đặn dọc theo nhiễm sắc thể Do có hiện tượng cắt nối luân phiên (alternative splicing) trong quá trình hoàn thiện phân tử mRNA mà, tính trung bình, số loại protein ở người nhiều gấp 3 lần so với ở ruồi giấm hay giun tròn Quá trình cắt nối luân phiên có thể tạo ra các sản phẩm protein khác nhau được mã hóa từ cùng một gen Số họ protein ở người hầu như giống với ở giun, ruồi giấm và thực vật, nhưng số lượng các thành viên trong
họ gen ở người là lớn nhất, đặc biệt là trong các protein tham gia vào các quá trình phát triển và hệ miễn dịch Các trình tự lặp lại chiếm tỷ lệ rất lớn trong hệ gen người (50%), trong khi đó, các trình tự này chỉ xuất hiện với một tỷ lệ khá khiêm tốn ở các loài khác như cỏ mù tạc (mustard weed) (11%), giun tròn (7%) và ruồi giấm (3%) Mặc d con người được xem là đã dừng việc tích lũy các v ng DNA lặp lại từ hơn 50 triệu năm trước, nhưng hiện tượng này vẫn xảy ra ở các loài gặm nhấm Điều này có thể góp phần vào những khác biệt cơ bản giữa họ người với họ gặm nhấm, mặc dù theo ước tính các gen giữa các loài là khá tương đồng Các nhà khoa học đã đưa ra nhiều giả thuyết giải thích về sự tương phản về mặt tiến hóa giữa người với các loài sinh vật khác, bao gồm tuổi đời, kích thước trong các lứa đẻ, sự giao phối gần, và phiêu dạt di truyền
Về mức độ ng và ột biến, các nhà khoa học đã xác định được khoảng 3
triệu vị trí xảy ra những sai khác về trình tự đơn nucleotide trong DNA của người Thông tin này hứa hẹn sẽ tạo ra một cuộc cách mạng trong việc tìm kiếm các vị trí của các trình tự liên quan đến bệnh trên nhiễm sắc thể và truy tìm lịch sử nhân loại Tỷ lệ các đột biến trong các tế bào mầm (tinh trùng hoặc trứng) là 2 nam : 1 nữ Tốc độ đột biến cao trong các tế bào mầm ở nam giới đã được giải thích là do sự hình thành tinh
tr ng đòi hỏi các tế bào mầm phải phân bào nhiều hơn so với sự hình thành trứng ở nữ giới
Trang 2423
Ứng dụng, thách thứ v ơ
Những hiểu biết vô cùng hữu ích có được từ trình tự DNA đã tạo tiền đề cho nghiên cứu trong các thập niên sắp tới theo hướng hệ thống học sinh học Nhiệm vụ to lớn này sẽ đòi hỏi trình độ chuyên môn và sự sáng tạo của nhiều nhà khoa học từ nhiều ngành trong cả các tổ chức công và tư nhân trên toàn thế giới
Trình tự nháp đã góp một phần quan trọng vào việc tìm ra những gen có liên quan tới các b nh ở i Nhiều gen đã được xác định và chỉ ra có liên quan tới ung
thư vú, các bệnh về cơ, điếc, và mù lòa Ngoài ra, việc phát hiện các trình tự DNA liên quan tới các bệnh phổ biến như tim mạch, tiểu đường, viêm khớp và ung thư đã nhận được sự hỗ trợ rất lớn từ các bản đồ đa dạng ở người ( N ) được tạo ra trong dự án
Hệ gen người cùng với sự cộng tác của một số cơ quan tư nhân Các gen và N này
đã đưa ra các mục tiêu cụ thể trong việc phát triển các phương pháp trị liệu mới Bên cạnh đó, trình tự hệ gen người đã trở thành một công cụ mới cho nghiên cứu sinh học và y học Trước đây, các nhà nghiên cứu chỉ nghiên cứu một hoặc một vài gen tại một thời điểm Nhưng hiện nay, với trình tự hệ gen hoàn chỉnh và các kỹ thuật mới thực hiện trên quy mô lớn, họ hoàn toàn có thể tiếp cận các câu hỏi chưa có lời giải đáp một cách hệ thống và trên quy mô lớn Ví dụ, có thể nghiên cứu tất cả các gen trong hệ gen hoặc tất cả các bản sao phiên mã trong một mô, một cơ quan, một khối u cụ thể hoặc nghiên cứu cách thức tương tác của hàng chục nghìn gen và protein
để phối hợp, duy trì sự hoạt động của các hệ thống hóa sinh trong cơ thể
Bước phát triển logic tiếp theo của công trình giải mã hệ gen người đầu tiên cũng đã được hình thành và đang phát triển tại nhiều quốc gia trên thế giới Trên sơ sở các dữ liệu về hệ gen (trình tự chuẩn) đã được công bố và sử dụng miễn phí, các quốc gia sẽ đi sâu nghiên cứu các đặc điểm gen của các dân tộc, các cá thể khỏe mạnh và mắc các bệnh khác nhau của nước mình; đồng thời thu nhận vật liệu gen (DNA) và sản phẩm gen (protein) của đại điện các dân tộc, các cá thể để nghiên cứu sâu về cấu trúc, chức năng của chúng theo hướng nghiên cứu cơ bản cũng như ứng dụng trong chẩn đoán và điều trị
Trang 2524
3.1.2 Dự án Lập bản đồ kiểu gen đơn bội ở người (Haplotype map of human
genome)
Dự án Lập bản đồ kiểu gen đơn bội quốc tế (hay còn gọi tắt là dự án HapMap)
đã được khởi động từ năm 2002 với mục tiêu phát triển một bản đồ kiểu gen đơn bội của hệ gen người, hay còn gọi là bản đồ HapMap, mô tả những kiểu đa hình phổ biến trong trình tự DNA của người HapMap được kỳ vọng sẽ trở thành một công cụ quan trọng được sử dụng để phát hiện các gen có liên quan chặt chẽ tới sức khỏe, bệnh tật của con người và mở ra hướng mới trong nghiên cứu trị liệu (http://hapmap.ncbi.nlm.nih.gov/) au đây là tóm lược một số thông tin cơ bản về HapMap
HapMap là gì?
HapMap là một catalogue, ghi lại tất cả các đa hình di truyền phổ biến trong vật chất di truyền của con người HapMap sẽ chỉ ra các đa hình này, vị trí của chúng trong phân tử DNA, và cách thức phân bố của chúng trong quần thể người và giữa quần thể người với phần còn lại của thế giới Dự án HapMap quốc tế không sử dụng các thông tin trong HapMap để thiết lập mối liên hệ giữa các đa hình di truyền cụ thể với một bệnh nào đó Ngược lại, dự án này được thực hiện nhằm cung cấp thông tin giúp các nhà nghiên cứu khác có thể sử dụng để liên hệ các đa hình di truyền với nguy
cơ của một bệnh cụ thể, từ đó có thể đưa ra các phương pháp mới để phòng chống, chẩn đoán, và điều trị bệnh
Chúng ta biết rằng DNA trong mỗi tế bào của cơ thể người, giống như trong tế bào của các loài sinh vật khác, là một chuỗi polymer dài được cấu tạo nên bởi bốn loại đơn phân, adenine, thymine, cytosine, và guanine, viết tắt là A, T, C, và G Hơn 6 tỷ đơn phân hóa học này được xâu chuỗi với nhau trong 23 cặp nhiễm sắc thể tồn tại trong mỗi tế bào người Các trình tự di truyền này chứa các thông tin ảnh hưởng tới các tính trạng sinh lý của cơ thể, sự mẫn cảm với các loại bệnh khác nhau và đáp ứng của con người với các tác nhân từ môi trường
Trình tự di truyền các cá thể người tương đồng với nhau tới 99,9% Khi so sánh các nhiễm sắc thể của hai người hoàn toàn không có quan hệ họ hàng gần gũi với nhau, có thể thấy rằng các trình tự DNA của họ có thể giống nhau tới hàng trăm nucleotide Tuy nhiên, trung bình trên mỗi 1200 nucleotide trình tự sẽ có 1 nucleotide sai khác nhau Ví dụ, ở một người, trình tự tại một vị trí nào đó trong trình tự DNA có
Trang 2625
thể là A, trong khi đó, ở một người khác có thể là G, hoặc có thể bị mất nucleotide đó, hoặc thêm một hoặc một số nucleotide khác Mỗi dạng sai khác nhau như vậy tại một vùng trên nhiễm sắc thể được gọi là một allele, và tập hợp các allele trên các nhiễm sắc thể của một người được gọi là một kiểu gen
Những khác biệt trong từng nucleotide, về cơ bản, chính là dạng phổ biến nhất của đa hình di truyền Những khác biệt di truyền này được gọi là các đa hình nucleotide đơn, hay các N (Single Nucleotide Polymorphisms) Bằng cách xác định hầu hết 10 triệu N ước tính xuất hiện phổ biến trong hệ gen người, dự án HapMap quốc tế được kỳ vọng sẽ xác định cơ sở của phần lớn tính đa dạng di truyền của loài người
Đối với các nhà di truyền học, các N đóng vai trò như những chỉ thị để định
vị các gen trong trình tự DNA Ví dụ, khi cho rằng một thay đổi trong trình tự của một gen sẽ làm tăng nguy cơ dẫn tới bệnh cao huyết áp, tuy nhiên các nhà nghiên cứu lại không biết rõ vị trí chính xác của gen này trên nhiễm sắc thể Trong trường hợp này,
họ có thể so sánh các SNP của những người bị cao huyết áp với các SNP của những người không mắc bệnh này Nếu thực sự một N nào đó xuất hiện phổ biến ở những người bị bệnh thì SNP này có thể được sử dụng làm “mốc” để định vị và xác định gen liên quan tới bệnh đó
Tuy nhiên việc kiểm tra tất cả 10 triệu SNP phổ biến trong các nhiễm sắc thể của một người sẽ có chi phí cực lớn Do vậy, việc phát triển HapMap sẽ cho phép các nhà di truyền học quan sát được cách thức tổ chức của các N và các đa hình di truyền khác trên các nhiễm sắc thể Các đa hình di truyền nằm gần nhau thường có xu hướng được di truyền cùng nhau Ví dụ, tất cả những người có nucleotide A thay vì G tại một vị trí nào đó trên một nhiễm sắc thể có thể có các đa hình di truyền tại các SNP khác trên vùng nhiễm sắc thể xung quanh nucleotide A này Những vùng đa hình liên kết này được gọi là các kiểu đơn bội (haplotype) (Hình 1)
Bản đồ HapMap mô tả các kiểu đa dạng di truyền phổ biến ở người Nó bao gồm các vùng nhiễm sắc thể với các nhóm SNP liên kết chặt với nhau, các kiểu đơn bội của các v ng đó và các N gắn với chúng Ngoài ra, bản đồ này còn đưa ra những vùng nhiễm sắc thể mà tại đó các N chỉ có liên kết yếu hay lỏng lẻo với nhau
Trang 2726
Hình 1 Các SNP, ki đ n ội v SNP “đ ôi” (“ ag” SNP)
(a) ác định các SNP trong các mẫu DNA của các cá thể người khác nhau (b) Các SNP cạnh nhau được di truyền c ng nhau được tập hợp vào các kiểu đơn bội (c) Các N “đuôi” (“tag” N s) trong các kiểu đơn bội được xác định là các SNP chỉ xuất hiện duy nhất ở kiểu đơn bội đó Bằng phương pháp xác định kiểu gen của ba N “đuôi” như đã chỉ ra trong hình, các nhà nghiên cứu có thể xác định kiểu đơn bội nào trong bốn kiểu đơn bội ở đây có mặt trong mỗi cá thể (The International HapMap Consortium, 2003)
Trong nhiều phần của nhiễm sắc thể, chỉ một phần rất nhỏ các kiểu đơn bội được tìm thấy ở người Trong một quần thể nhất định, 55% số người chỉ có một phiên bản của một kiểu đơn bội, 30% có thể có một phiên bản khác, 8% có thể có phiên bản thứ ba, và phần còn lại chứa nhiều kiểu đơn bội ít phổ biến Dự án HapMap quốc tế đang xác định các kiểu đơn bội phổ biến này trong bốn quần thể người từ các v ng địa
lý khác nhau trên thế giới Ngoài ra, dự án còn xác định các N “đuôi” đặc trưng duy nhất cho các kiểu đơn bội đó Bằng phương pháp xác định kiểu gen của một cá thể người, các nhà nghiên cứu có thể xác định tập hợp các kiểu đơn bội trong DNA của một người Số lượng các N “đuôi” chứa hầu hết các thông tin về kiểu đa hình di truyền được ước tính vào khoảng 300.000 tới 600.000, ít hơn nhiều so với con số 10 triệu SNP phổ biến
Trang 2827
Khi thông tin về các N “đuôi” từ HapMap được công bố, các nhà nghiên cứu
đã sử dụng chúng để định vị các gen liên quan tới các tính trạng quan trọng về mặt y học Thay vì xác định mức độ tương đồng của tất cả các SNPs trong DNA của một người, các nhà nghiên cứu sẽ xác định kiểu gen của một số N “đuôi” với số lượng ít hơn rất nhiều, từ đó, xác định tập hợp các kiểu đơn bội có mặt Các nhà nghiên cứu sau đó có thể tập trung vào các gen ứng viên cụ thể có thể liên quan tới một bệnh nào
đó, hoặc thậm chí xem xét trên toàn bộ hệ gen để tìm ra các vùng nhiễm sắc thể có liên quan tới bệnh đó Quay lại ví dụ về bệnh cao huyết áp, nếu những người mắc bệnh này cùng có một kiểu đơn bội nào đó, thì các đa hình liên quan tới bệnh này có thể nằm đâu đó trong hoặc gần kiểu đơn bội này
Thực hi n dự án HapMap qu c tế
Dự án HapMap quốc tế được thực hiện với sự tham gia của rất nhiều phòng thí nghiệm, viện nghiên cứu, trường đại học của Nhật Bản, Anh, Canada, Trung Quốc, Nigeria, và Hoa Kỳ Nhóm của Canada được thực hiện dưới sự chỉ đạo của Thomas J Hudson tại trường Đại học McGill, Montreal và tập trung vào các nhiễm sắc thể số 2
và 4p Nhóm của Trung Quốc do Huanming Yang lãnh đạo với các trung tâm nghiên cứu tại Bắc inh, Thượng Hải và Hồng Kông tập trung nghiên cứu trên nhiễm sắc thể
số 3, 8p và 21 Nhóm của Nhật Bản, dưới sự chỉ đạo của Yusuke Nakamura tại trường Đại học Tokyo, tập trung vào các nhiễm sắc thể số 5, 11, 14, 15, 16, 17 và 19 Nhóm tại Anh do David R Bentley tại viện anger làm trưởng nhóm tập trung nghiên cứu trên các nhiễm sắc thể số 1, 6, 10, 13 và 20 Bốn nhóm khác của Hoa Kỳ sẽ tập trung vào các nhiễm sắc thể còn lại: Một nhóm tại công ty Illumina tại San Diego do Mark Chee và Arnold Oliphant lãnh đạo (nhiễm sắc thể 8q, 9, 18q, 22 và X), một nhóm tại viện Broad ở Cambridge (Hoa Kỳ) do David Altshuler lãnh đạo (nhiễm sắc thể 4q, 7q, 18p, Y và DNA ty thể), một nhóm tại trường Cao đẳng Y khoa Baylor tại Houston do Richard A Gibbs lãnh đạo (nhiễm sắc thể 12) và một nhóm tại trường Đại học California, San Francisco, do Pui-Yan wok lãnh đạo (nhiễm sắc thể 7p) (The International HapMap Consortium, 2003)
Dự án HapMap quốc tế được thực hiện trong 2 giai đoạn Giai đoạn 1 được thực hiện từ năm 2002 và các dữ liệu hoàn chỉnh thu được từ giai đoạn này đã được công bố vào tháng 10 năm 2005 Việc phân tích bộ dữ liệu trong giai đoạn 2 được công bố vào tháng 10 năm 2007
Trang 2928
Giai đoạn 1 của dự án HapMap được đặt ra với mục tiêu xác định kiểu gen của
ít nhất một SNP phổ biến trên mỗi 5 kb dọc theo hệ gen từ 269 mẫu DNA (90 cá thể
từ vùng Yoruba ở Ibadan, Nigeria (viết tắt là YRI); 90 cá thể ở Utah, USA thu thập từ
bộ bộ sưu tập của Trung tâm d’Etude du olymorphism Humain - viết tắt là CEU; 45
cá thể người Hán tại Bắc Kinh, Trung Quốc (viết tắt CHB); và 44 cá thể người Nhật Bản tại Tokyo, Nhật Bản (viết tắt J T) HapMap giai đoạn 1 đã xác định được 1.007.329 N đảm bảo đủ tiêu chuẩn và có đa hình trên cả 269 mẫu cá thể Việc xác định kiểu gen của N được tiến hành tại 10 trung tâm nghiên cứu sử dụng một số kỹ thuật xác định kiểu gen khác nhau (Bảng 3) Kết quả của giai đoạn này cho thấy chỉ 3,3% các khoảng cách giữa SNP (inter- N distances) là dài hơn 10 kb, chiếm 11,9%
hệ gen Tuy nhiên, có một ngoại lệ là nhiễm sắc thể giới tính , nơi tập trung rất nhiều các SNP hiếm hoặc đơn hình, vì thế mật độ của các SNP phổ biến thường thấp hơn trên các nhiễm sắc thể khác (The International HapMap Consortium, 2005)
B ng 2 C ng â x đ nh ki u gen (The International HapMap
Consortium, 2005)
RIKEN 5, 11, 14, 15, 16, 17, 19 Third Wave Invader Viện Wellcome Trust Sanger 1, 6, 10, 13, 20 Illumina BeadArray Đại học McGill và Trung tâm Sáng tạo
Génome Québec
Tổ chức HapMap Trung Quốc 3, 8p, 21 Sequenom
MassExtend, Illumina BeadArray
Viện Harvard và MIT 4q, 7q, 18p, Y, mtDNA Sequenom
MassExtend, Illumina BeadArray
Trường Y học và Khoa học sinh học
ParAllele của Baylor
Đại học California, San Francisco,
c ng Đại học Washington tại St Louis
Acycloprime-FP Khoa học Perlegen 5 Mb (ENCODE) trên
NST 2, 4, 7
High-density oligonucleotide array
Trang 3029
Trong giai đoạn 2, mục tiêu của dự án là xác định kiểu gen của thêm 4.373.926 SNP khác nhau trong mỗi mẫu HapMap Hầu hết các dữ liệu kiểu gen bổ sung trong giai đoạn này đều thu được bằng một kỹ thuật sử dụng các array oligonucleotide để xác định các SNP trên DNA đã được khuếch đại từng đoạn nhờ phản ứng long-range PCR (Kỹ thuật Perlegen amplicon-based platform) Sự đa hình về mật độ SNP trong HapMap giai đoạn 2 đã chỉ ra rằng, trung bình có 1,1 N đa hình trên mỗi kb (khoảng cách trung bình là 875 bp) và 98,6% hệ gen có phân bố của các N đa hình
là cứ cách 5 kb sẽ có một N đa hình gần nhất
Ứng dụng củ H M i với sức khỏ i
Ngoài những giá trị trong các nghiên cứu phát sinh chủng loại của loài người,
dự án HapMap quốc tế còn có những giá trị thiết thực đối với sức khỏe con người thông qua việc cung cấp một nguồn dữ liệu dồi dào mà các nhà nghiên cứu có thể sử dụng để phát hiện các đa hình di truyền liên quan đến bệnh và các đáp ứng của cá thể với các tác nhân trong trị liệu hi các đa hình này được phát hiện, các nhà nghiên cứu
có thể rút ra được nhiều thông tin về nguồn gốc bệnh và các cách ngăn chặn, chẩn đoán và điều trị các bệnh đó
Mục đích của dự án không phải để xác định các gen liên quan tới bệnh một cách trực tiếp, mà ngược lại, bằng cách xác định các kiểu đơn bội, HapMap cung cấp một công cụ có thể được sử dụng trong các nghiên cứu liên ngành Trong các nghiên cứu này, các nhà nghiên cứu so sánh các kiểu đơn bội trong các cá thể mắc bệnh với các kiểu đơn bội của các cá thể không mắc bệnh (đối chứng) Nếu một kiểu đơn bội nào đó xuất hiện thường xuyên hơn trong các cá thể bị bệnh khi so với đối chứng, thì gen liên quan tới bệnh đó có thể nằm trong hoặc gần kiểu đơn bội đó
Các bệnh phổ biến như ung thư, tim mạch, tiểu đường, suy nhược, hen suyễn thường do tác động tổng hợp của nhiều nhân tố bao gồm cả di truyền và môi trường Theo một giả thuyết về đa hình phổ biến - bệnh phổ biến, nguy cơ nhiễm các bệnh phổ biến bị ảnh hưởng bởi các đa hình di truyền xuất hiện tương đối phổ biến trong quần thể Tuy rằng chưa có nhiều bằng chứng chứng minh cho giả thuyết này, nhưng ngày càng nhiều các đa hình di truyền được phân bố rộng trong hệ gen có liên quan tới các bệnh phổ biến đã được phát hiện, bao gồm các đa hình liên quan tới các bệnh tự miễn, tâm thần phân liệt, tiểu đường, hen suyễn, đột quỵ và tim mạch
Trang 3130
Những hiểu biết rút ra từ ứng dụng của HapMap cũng sẽ đưa tới những tiến bộ
về y học trong dự đoán và phòng bệnh hương pháp điều trị y khoa có thể sẽ được tùy chỉnh, dựa trên cấu trúc di truyền của bệnh nhân, để tối đa hóa hiệu quả điều trị và giảm thiểu các tác dụng phụ Các đa hình di truyền đóng vai trò trong kéo dài tuổi thọ hoặc khả năng kháng bệnh có thể sẽ được xác định, đưa tới những phương pháp trị liệu mới với rất nhiều lợi ích Tuy vậy, bên cạnh những cơ hội thuận lợi, HapMap cũng sẽ vẫn gặp phải rất nhiều thách thức và những khó khăn mới trong tương lai
3.1.3 Dự án 1000 Bộ gen (1000 Genomes Project)
Dự án 1000 Bộ gen quốc tế, được khởi sự từ tháng 1 năm 2008, là một nghiên cứu quốc tế với nỗ lực nhằm thiết lập một bản đồ chi tiết các đa hình di truyền ở người Các nhà khoa học dự định giải trình tự hệ gen của ít nhất một nghìn cá thể giấu tên từ nhiều nhóm dân tộc khác nhau trong ba năm liên tục, sử dụng nhiều kỹ thuật mới được phát triển nhanh hơn và ít tốn kém hơn Năm 2010, dự án đã kết thúc giai đoạn thử nghiệm Từ cuối năm 2010, dự án đã bước vào giai đoạn nâng công suất với mục tiêu giải trình tự của 2000 cá thể
Dự án quy tụ rất nhiều nhóm nghiên cứu khác nhau từ nhiều viện nghiên cứu trên toàn thế giới, bao gồm Anh, Mỹ và Trung Quốc Mỗi nhóm sẽ đóng góp dữ liệu nghiên cứu được vào tập hợp trình tự và dần dần hoàn thiện bản đồ hệ gen người, từ
đó cung cấp dữ liệu truy cập tự do phục vụ cộng đồng khoa học và công chúng nói chung
Bằng cách đưa ra một cái nhìn tổng quan về tất cả các đa hình di truyền, không chỉ những đa hình liên quan tới các vấn đề sinh y học, nghiên cứu này sẽ tạo ra một công cụ vô cùng giá trị đóng góp vào lĩnh vực khoa học tự nhiên, đặc biệt là trong di truyền học, y học, dược học, hóa sinh học và tin sinh học (http://www.1000genomes.org/)
Giới thi u chung về dự án 1000 Bộ gen
Những tiến bộ gần đây trong kỹ thuật giải trình tự (kỹ thuật giải trình tự thế hệ mới) đã làm giảm đáng kể chi phí giải trình tự Dự án 1000 Bộ gen là dự án đầu tiên tiến hành giải mã trình tự với số lượng cá thể lớn, nhằm cung cấp một nguồn thông tin toàn diện về các đa hình di truyền ở người
Trang 3231
Như những dự án hệ gen người khác, các dữ liệu thu được từ dự án 1000 Bộ gen sẽ được công bố tới cộng đồng khoa học trên toàn thế giới thông qua các cơ sở dữ liệu công bố được phép truy cập tự do
Mục tiêu của dự án 1000 Bộ gen là tìm ra, xác định hơn 95% các đa dạng di truyền phổ biến nhất trong hệ gen có tần số ít nhất bằng 1% trong các quần thể nghiên cứu từ 5 nhóm quần thể chính (các quần thể nằm trong hoặc có cùng tổ tiên tại châu
Âu, Đông Á, Nam Á, Tây hi và châu Mỹ) (Durbin et al., 2010) Mục tiêu này có thể
đạt được bằng cách giải trình tự của nhiều cá thể Để giải trình tự hệ gen của một người, nhiều bản sao DNA sẽ được phân thành nhiều đoạn ngắn và sau đó sẽ giải trình
tự của từng đoạn Nhiều bản sao của DNA nghĩa là các đoạn DNA được phân bố một cách ngẫu nhiên trong hệ gen Các đoạn này sau đó được so sánh với trình tự tham chiếu và nối với nhau Để tìm ra trình tự hệ gen hoàn chỉnh của một người với hệ thống giải trình tự hiện tại, cần phải giải trình tự DNA của một người tương đương với khoảng 30 lần (30X) Nếu trình tự được thực hiện chỉ trung bình 1 lần dọc theo hệ gen (1X) thì nhiều đoạn trình tự sẽ có thể bị bỏ qua, do một số vùng trình tự trong hệ gen
sẽ được bao phủ bởi một số đoạn trong khi đi một số vùng khác thì không Mức độ phủ của trình tự càng cao thì hệ gen càng được bao phủ bởi ít nhất một đoạn Ngoài ra,
do con người là dạng lưỡng bội; trình tự càng được bao phủ càng cao thì nhiều khả năng tại một vị trí trên cả hai nhiễm sắc thể cũng sẽ được bao phủ Ngoài ra, mức độ bao phủ cao đặc biệt hữu dụng trong việc phát hiện các đa hình cấu trúc, và cho phép sửa chữa các lỗi do đọc trình tự tạo ra
Nếu tiến hành giải trình tự ở mức chi tiết nhiều mẫu trong dự án thì kinh phí cho việc này sẽ rất lớn Tuy nhiên, bất kỳ vùng trình tự cụ thể nào trong hệ gen cũng thường chứa một số lượng nhất định các dạng đơn bội Dữ liệu có thể được tổ hợp từ nhiều mẫu để cho phép phát hiện hiệu quả hầu hết các đa hình ở vùng này Hiện nay,
dự án đang lập kế hoạch giải trình tự mỗi mẫu với độ bao phủ khoảng 4X Với mức độ này, việc giải trình tự có thể không đưa ra được kiểu hình hoàn chỉnh của mỗi mẫu, nhưng có thể cho phép phát hiện hầu hết các đa hình có tần số thấp tới 1% Kết hợp với các dữ liệu thu được từ 2500 mẫu sẽ cho phép tính toán với độ chính xác cao các
đa hình và các kiểu gen của mỗi mẫu không quan sát được trực tiếp qua giải trình tự
Trang 3332
giải trình tự công suất cao, dự án đã tiến hành ba nghiên cứu, sử dụng các mẫu từ bộ
sưu tập HapMap mở rộng (Durbin et al., 2010)
Dự án bộ ba: Giải trình tự toàn bộ hệ gen với độ bao phủ cao (trung bình là
2 ) hai gia đình, một gia đình Yoruba từ Ibadan, Nigeria (YRI); một gia đình có tổ tiên châu Âu tại Utah (CEU) Mỗi gia đình đều gồm ba thành viên, bố - mẹ - con Mỗi thế hệ con được giải trình tự bằng ba hệ thống và tại nhiều trung tâm khác nhau
Dự ộ bao phủ thấp: Giải trình tự toàn bộ hệ gen với độ bao phủ thấp (2 -
6X) của 59 cá thể từ YRI, 60 cá thể từ CEU, 30 cá thể người Hán từ Bắc Kinh, Trung Quốc (CHB), và 30 cá thể người Nhật Bản từ Tokyo, Nhật Bản (JPT) Tất cả các cá thể nghiên cứu đều không có quan hệ họ hàng với nhau
Dự án vùng gen hay còn gọi là dự án exon: ác định 8140 exon từ 906 gen
được chọn lọc ngẫu nhiên (tổng kích thước là 1,4 Mb) bằng cách giải trình tự với độ bao phủ cao (trung bình trên 50X) của 697 cá thể từ 7 quần thể có tổ tiên từ châu Phi (YRI, Luhya ở Webuye, Kenya (LWK)), châu Âu (CEU, Toscan ở Italia (TSI)) và
Đông Á (CHB, J T, Hoa ở Denver, Colorado (CHD)) (Durbin et al., 2010)
B ng 3 Ba nghiên cứu thực hiện trong dự án thử nghiệm
2-4X Giải trình tự toàn
bộ hệ gen của
179 cá thể
Đã hoàn thành giải trình tự vào tháng 10/2008
2- Bộ ba
(Trios)
Đánh giá độ bao phủ, hệ thống kỹ thuật và các trung tâm
20 - 60X Giải trình tự toàn
bộ hệ gen của hai
bộ ba mẹ-bố-con
Đã hoàn thành giải trình tự vào tháng 10/2008
50X 1000 vùng gen
trong 900 mẫu
Đã hoàn thành giải trình tự vào tháng 6/2009
Thiết kế thí nghiệm của ba nghiên cứu này về căn bản khác nhau ở cả khả năng thu được các dữ liệu về các đa hình ở các dạng và các tần số khác nhau lẫn ở các
Trang 34Trong dự án chính, kế hoạch thực hiện nhằm giải trình tự khoảng 2500 mẫu với
độ bao phủ 4X Tập hợp mẫu đầu tiên để giải trình tự bao gồm 1167 mẫu sẵn có và có thể được thu thập rất nhanh chóng từ 13 quần thể, để giải trình tự trong năm 2010 và đầu năm 2011 Tập hợp thứ hai bao gồm 633 mẫu đang được thu thập, từ 7 quần thể,
sẽ được giải trình tự trong đầu năm 2011 Tập hợp thứ ba, gồm 700 mẫu, đang được mong đợi sẽ giải trình tự vào cuối năm 2011 (http://www.1000genomes.org/)
Ứng dụng của các dữ li u và mẫu trong dự án
Trong các nghiên cứu so sánh ở mức toàn bộ hệ gen (genome-wide association studies - GWAS), các nhà nghiên cứu sẽ tập trung phát hiện các vùng trên hệ gen có liên quan tới một bệnh hay một tính trạng cụ thể nào đó iểu gen từ hàng trăm tới hàng nghìn người mắc bệnh và không mắc bệnh sẽ được xác định để tìm ra hàng trăm tới hàng nghìn, thậm chí hàng triệu N và đa hình về cấu trúc Các nhà khoa học từ
đó sẽ xác định được vùng trên hệ gen chứa các đa hình phổ biến (hay còn gọi là đa hình nguy cơ) hay đa hình kém phổ biến (hay còn gọi là đa hình bảo vệ) ở những người mắc bệnh so với những người không mắc bệnh Do các đa hình di truyền trong một v ng thường liên hệ với nhiều đa hình khác trong v ng đó (sự mất cân bằng liên kết, linkage disequilibrium - LD) nên một đa hình liên quan tới một bệnh sẽ chính là marker cho vùng chứa đa hình đó Nhưng các mô hình LD lại không cho phép xác định đa hình cụ thể nào, hoặc gen nào hay yếu tố di truyền nào là nguyên nhân gây ra nguy cơ mắc bệnh
Các nhà nghiên cứu bệnh học sẽ sử dụng các dữ liệu từ dự án 1000 Bộ gen theo hai cách Họ sẽ tổng hợp các dữ liệu của dự án với các dữ liệu về kiểu gen trong nghiên cứu GWAS về bệnh học để gán các kiểu gen trong các mẫu của họ cho hàng triệu đa hình ngoài những đa hình mà họ đã trực tiếp xác định kiểu gen Các dữ liệu kiểu gen bổ sung này sẽ cho phép các nhà nghiên cứu định vị các vùng có liên quan tới bệnh một cách chính xác hơn
Một khi đã xác định được vị trí của vùng liên quan tới bệnh, các nhà khoa học
sẽ muốn tìm hiểu tất cả các đa hình trong v ng đó Dự án này sẽ cung cấp các dữ liệu của hầu hết các đa hình có tần số ít nhất 1% trong quần thể nghiên cứu Việc này sẽ
Trang 35Bên cạnh đó, các dữ liệu trình tự thu được từ dự án còn được sử dụng trong các nghiên cứu ở mức chi tiết hơn (mức tế bào) về sự đa hình trong các v ng hệ gen cụ thể Các dòng tế bào sẽ cho phép nghiên cứu các kiểu hình của tế bào như sự biểu hiện của gen, các mô hình di truyền ngoại sinh, và đáp ứng với thuốc Các dữ liệu kiểu gen rộng rãi có sẵn trên các mẫu, và bộ ba mẫu cho một số các quần thể, sẽ cho phép các nhà nghiên cứu lập bản đồ được các vùng của hệ gen có ảnh hưởng tới các kiểu hình của tế bào, cũng như cho phép họ nghiên cứu tính di truyền của các kiểu hình đó
3.1.4 Dự án Epigenome ở người (Human Epigenome Project, HEC)
Như đã nói trong những phần trên, việc giải mã các thông tin được mã hóa trong hệ gen người là chìa khóa để chúng ta hiểu sâu hơn nữa về sự tiến hóa, sinh lý
và sinh học người Với trình tự “nháp” hệ gen người đã công bố, việc nghiên cứu các thông tin về epigenome trong hệ gen người trở nên dễ tiếp cận hơn Các cơ chế về di truyền ngoại sinh được thực hiện thông qua các biến đổi về mặt hóa học của chính DNA hoặc những biến đổi trong các protein có liên quan mật thiết với DNA Những khiếm khuyết trong điều hòa di truyền ngoại sinh liên quan tới các quá trình như in dấu (imprinting), bất hoạt nhiễm sắc thể , điều hòa phiên mã của gen, cũng như các đột biến ảnh hưởng tới các enzyme methyl hóa DNA chính là nguyên nhân của nhiều căn bệnh ở người Được tổ chức và thực hiện bởi Tổ chức Epigenome (Human Epigenome Consortium - HEC), dự án Epigenome ở người (Human Epigenome Project) là một nỗ lực chung của sự hợp tác quốc tế nhằm xác định và giải thích các
mô hình methyl hóa DNA trên quy mô hệ gen ở tất cả các gen ở người trong tất cả các
mô chính trong cơ thể, qua đó giải thích các cơ chế của sự phát triển, tính mẫn cảm
với bệnh tật cũng như tính bền vững của hệ gen (Beck et al., 1999;
Trang 3635
http://www.epigenome.org/) Các vị trí đa methyl hóa khác nhau được cho là có ảnh hưởng tới hoạt động của gen, dạng mô và trạng thái bệnh và là những marker di truyền ngoại sinh rất hữu dụng cho chúng ta biết về trạng thái động học của hệ gen Tương tự các SNP, các vị trí đa methyl hóa sẽ giúp làm sáng tỏ cũng như chẩn đoán
chính xác cơ chế ở mức phân tử các bệnh ở người (Eckhardt et al., 2004)
Các thành viên hiện tại của HEC bao gồm viện Wellcome Trust Sanger (trụ sở đặt tại Anh, và là viện nghiên cứu hàng đầu về các hệ thống giải trình tự hệ gen với công suất cao, tin học và phân tích chức năng gen sử dụng các phương pháp di truyền
áp dụng trên nhiều sinh vật mô hình và con người), Epigenomics AG (một công ty công nghệ sinh học có trụ sở đặt tại Berlin, Đức và một chi nhánh đặt tại Seattle, Washington, Hoa Kỳ Công ty này tiên phong trong lĩnh vực y dược thông qua việc khám phá thông tin về các mô hình methyl hóa DNA), và Trung tâm Quốc gia về Kiểu gen (The Centre National de Génotypage) (có trụ sở tại Pháp, sử dụng các thông tin về trình tự hệ gen để xác định các gen và chức năng của chúng) (http://www.epigenome.org/)
Trong dự án này, các mục tiêu cụ thể được đặt ra như sau (Beck et al., 1999):
1 Lập b ồ trên quy mô h gen tr ng thái methyl hóa của các dinucleotide CpG Bản đồ methyl hóa được tạo ra từ các tập hợp chọn lọc các tổ hợp hệ gen khuếch
đại của DNA được phân lập từ các mô khỏe mạnh và mô bệnh Việc lập bản đồ sẽ khởi đầu với các quần thể các đoạn đã biết rõ của vài nghìn vùng riêng biệt trong mỗi thí nghiệm (ví dụ như từ các gen đã biết) và bao gồm các cụm nhỏ có mật độ cao nằm trên các vùng khác rải rác khắp hệ gen Các vị trí methyl hóa đã được chọn lọc do chúng là những vị trí tín hiệu di truyền ngoại sinh đã biết nằm trong DNA hệ gen Bên cạnh đó, các dấu (foodprint) methyl hóa trong nhiễm sắc chất cũng sẽ đưa ra những thông tin giá trị về tính bền vững trong hệ gen và cách thức đóng gói của toàn bộ chất nhiễm sắc
2 X ịnh và phân tích các locus di truyền ngo i sinh trong tổ chứ ơ ợp
mô chính (Major histocompatibility complex - MHC) MHC là một mô hình lý tưởng
cho nghiên cứu thử nghiệm epigenetic Bên cạnh các v ng giàu gen và đa hình của hệ gen người, MHC cũng liên quan với nhiều loại bệnh hơn bất kỳ vùng nào trong hệ gen Tuy nhiên, nguyên nhân và cơ chế (một số được cho là có nguồn gốc từ epigemone) của hầu hết các bệnh này vẫn còn là một bí ẩn Một số gen liên quan tới MHC, như các gen mã hóa thụ thể khứu giác, còn được biết tới trong quá trình điều hòa sự biểu hiện thông qua bất hoạt allele Gần đây, trình tự hệ gen hoàn chỉnh của
Trang 3736
MHC ở người đã được công bố cùng với MHC của gà và chuột Những trình tự này sẽ
là cơ sở cho các nhóm tham gia dự án nghiên cứu và so sánh các mô hình methyl hóa cao độ trong các vùng liên quan tới bệnh
3 Phân tích so sánh thông tin về epigenome từ các sinh vật khác nhau Nhiệm vụ
này sẽ song song với các nỗ lực quốc tế khác về giải trình tự hệ gen so sánh đã và đang được thực hiện bởi viện Quốc gia về Khỏe (Hoa Kỳ) sử dụng chuột là sinh vật
mô hình Trong nghiên cứu đầu tiên này, các mô hình methyl hóa ở chuột và người sẽ được so sánh về các vùng quan tâm và mở rộng ra các vùng khác khi dự án giải trình
tự hệ gen chuột hoàn thành Mô hình chuột được sử dụng như một hệ thống hiệu quả trong nghiên cứu điều hòa các quá trình phát triển, các tác động được cảm ứng bởi các yếu tố gây bệnh (yếu tố phát sinh khối u) cũng như các tác động của môi trường tới các chương trình di truyền ngoại sinh trong cơ thể Đặc biệt, toàn bộ các đột biến được tạo ra trong chuột (ví dụ, các mô hình knockout gen ở chuột được tạo ra trong chương trình phát sinh đột biến ENU trên quy mô lớn được tiến hành ở châu Âu và Hoa Kỳ)
sẽ cung cấp một nguồn cực kỳ dồi dào cho các nghiên cứu di truyền ngoại sinh
Các nghiên cứu ban đầu sẽ so sánh các mô hình methyl hóa của chuột và người trên hai vùng chọn lọc, MHC và một domain nhiễm sắc chất hệ gen được in dấu Tuy nhiên, khi các kỹ thuật của nghiên cứu này được hoàn thiện, thì hy vọng có thể thể thực hiện nghiên cứu về các mối quan hệ của các loài sinh chưởng bậc cao và các loài khác có quan hệ họ hàng gần gũi Thông tin di truyền ngoại sinh phụ thuộc vào những thay đổi nhanh chóng hơn là chính trình tự DNA Vì thế, các nghiên cứu này sẽ cho phép phân lập các chiều hướng di truyền ngoại sinh của quá trình tiến hóa gần đây Ví
dụ, di truyền ngoại sinh có thể được sử dụng để giải thích mức độ phân dị tương đối nhanh của người từ các loài khác
Trong giai đoạn thử nghiệm, dự án sẽ phát triển một hệ thống kỹ thuật tích hợp dựa trên hệ gen học Các kỹ thuật này bao gồm xử lý tự động bisulphate DNA từ các mẫu sinh thiết mô nhỏ, CR bisulphate đặc hiệu gen và giải trình tự trên quy mô lớn các amplicon PCR Việc phân tích và đánh giá các mô hình methyl hóa sẽ thu được thông qua các thí nghiệm quang phổ khối lượng và microarray Năm 2009, các nhà khoa học Hoa Kỳ đã công bố bản đồ epigenome người đầu tiên (Lister & Ecker, 2009;
Lister et al., 2009) HEC dự kiến sẽ nghiên cứu 1000 epigenome cá thể người
Trang 3837
3.1.5 Dự án hệ gen người Neanderthal (Neanderthal Genome Project)
Dự án hệ gen người Neanderthal là dự án hợp tác giữa các nhà khoa học thuộc
viện Max Planck về Nhân chủng học tiến hóa tại Đức và công ty tư nhân 5 Life
Science tại Hoa Kỳ để giải trình tự hệ gen người Neanderthal
Được bắt đầu từ tháng 7 năm 2006, dự án đã công bố những kết quả thu được vào tháng 10 năm 2010 trên tạp chí cience, đưa ra bản nháp đầu tiên về trình tự
người Neanderthal dựa trên sự phân tích 4 tỷ cặp base Nghiên cứu này đã chỉ ra rằng
có một số pha trộn trong các gen xảy ra giữa người Neanderthal và người hiện đại và
đã đưa ra những bằng chứng cho rằng các yếu tố trong hệ gen của người Neanderthal
vẫn còn sót lại trong hệ gen của người hiện đại không có nguồn gốc từ châu Phi
(Green et al., 2010)
Tóm tắt lịch sử của dự án
Năm 2006, hai nhóm nghiên cứu làm việc trên mẫu lấy từ người Neanderthal
đã công bố các kết quả của họ, nhóm của Richard Green trên Nature (Green et al., 2006) và nhóm của Noonan trên Science (Noonan et al., 2006) Các kết quả này đã
nhận được một số chì trích chủ yếu xoay quanh vấn đề pha trộn của hệ gen người
Neanderthal vào hệ gen người hiện đại Gen mã hóa protein O 2 liên quan đến khả
năng ngôn ngữ mang cùng những đột biến như ở người hiện đại đã được phát hiện trong DNA cổ tách từ các mẫu El idrón 1253 và 1351c đã cho thấy rằng người Neanderthal có thể có cùng khả năng ngôn ngữ cơ bản như người hiện đại
au đó, cũng vào năm 2006, nhóm nghiên cứu của Richard Green đã sử dụng một kỹ thuật giải trình tự mới được phát triển bởi công ty 454 Life Science, có khả năng khuếch đại các đơn phân tử để đọc trình tự và đã thu được trên ¼ triệu các đoạn trình tự ngắn duy nhất (gọi là “đoạn đọc”) ỹ thuật này đọc ngẫu nhiên các đoạn đọc,
vì thế các trình tự quan tâm, ví dụ các gen khác nhau giữa người hiện đại và người Neanderthal, cũng sẽ hiển thị ngẫu nhiên
Nhóm nghiên cứu của Noonan sử dụng một kỹ thuật khác, trong đó DNA của người Neanderthal được chuyển vào vi khuẩn để tạo ra hàng nghìn bản sao của một đoạn duy nhất Họ chứng minh rằng các trình tự hệ gen người Neanderthal có thể được thu lại sử dụng phương pháp dựa trên thư viện metagenome Tất cả DNA trong mẫu sẽ bị “làm bất động” trong thư viện metagenome au đó, lựa chọn một đoạn DNA và nhân bản nó trong vi sinh vật DNA người Neanderthal có thể được giải trình
tự và sau đó một số trình tự đặc hiệu sẽ được nghiên cứu
Trang 3938
Nhìn chung, những kết quả này khá giống nhau Một nhóm đưa ra giả thuyết rằng có một dấu hiệu mặc dù không rõ ràng lắm về sự pha trộn trong hệ gen giữa người hiện đại vàn người Neanderthal, trong khi đó một nhóm khác thì không Tuy nhiên, cả hai nhóm đều công nhận rằng bộ dữ liệu thu được khi đó là chưa đủ lớn để đưa ra câu trả lời thuyết phục
Công bố của Noonan et al đã cho thấy các trình tự DNA của người
Neanderthal tương đồng với DNA của tinh tinh, chứ không phải với DNA của người hiện đại, tại nhiều vị trí, vì thế cho phép tính toán chính xác thời điểm tồn tại của tổ
tiên chung gần nhất của người Homo sapiens và người H neanderthalensis Nhóm nghiên cứu này đã xác định tổ tiên chung gần nhất từ trình tự tham chiếu của mẫu H neanderthalensis và H sapiens nghiên cứu đã sống khoảng 706.000 năm về trước, và
dự đoán thời gian phân ly của quần thể người hiện đại và người Neanderthal khỏi tổ
tiên chung là vào khoảng 370.000 năm trước đây (Noonan et al., 2006)
Những nghiên cứu cùng những kết quả tiền đề này chính là cơ sở để các nhà khoa học xây dựng và vận hành một dự án lớn hơn - dự án hệ gen người Neanderthal - nhằm nghiên cứu sâu hơn, chính xác hơn về trình tự hệ gen người Neanderthal, từ đó đưa ra những kết luận về nguồn gốc tiến hóa của người Neanderthal so với người hiện đại
Những kết qu chính
Kết quả chính của dự án đã chỉ ra rằng với khoảng 3,2 tỷ nucleotide, hệ gen của người Neanderthal có kích thước tương tự với hệ gen của người hiện đại Theo các trình tự sơ bộ, tới 99,7% cặp base trong hệ gen của người hiện đại và người Neanderthal là giống nhau, trong khi đó con người chỉ giống tinh tinh 98,8% trình tự
hệ gen (Green et al., 2010) Các nhà nghiên cứu đã phục hồi được mẫu DNA cổ từ
người Neanderthal bằng cách tách chiết DNA từ xương đ i của ba mẫu người phụ nữ Neanderthal có niên đại 38 nghìn năm tuổi thu thập tại hang Vindija, Croatia, và các mẫu xương khác tại Tây Ban Nha, Nga và Đức Do chỉ cần khoảng 1 nửa gram xương phục vụ cho giải trình tự, nên dự án đã gặp rất nhiều khó khăn trong quá trình tiến hành như mẫu xương bị nhiễm các vi khuẩn đã khu trú trong cơ thể người Neanderthal
và trong những người thực hiện dự án tại thực địa và tại phòng thí nghiệm
Năm 2010, công bố về sự phát hiện và phân tích DNA ty thể (mtDNA) từ
người Denisova homini ở iberia đã cho thấy rằng D homini khác so với người hiện
đại ở 385 nucleotide trong mtDNA với kích thước khoảng 16500 nucleotide, trong khi
Trang 4039
đó sự khác biệt giữa người hiện đại và người Neanderthal chỉ vào khoảng 202 nucleotide Ngược lại, sự khác biệt này ở người hiện đại và tinh tinh lại rất lớn, lên tới khoảng 1462 nucleotide trong mtDNA Phân tích DNA nhân của các mẫu thí nghiệm vẫn đang được tiến hành và được mong đợi sẽ làm sáng tỏ hơn nữa về nguồn gốc tiến hóa của loài người
3.1.6 Dự án 100 hệ gen người Trung Quốc (Yanhuang Project)
Trung Quốc là quốc gia đầu tiên, tiên phong trong việc giải trình tự toàn bộ hệ gen trên quy mô lớn của nhiều cá thể người thuộc các dân tộc trong nước Tháng 10 năm 2007, Viện nghiên cứu Genome Bắc inh, cơ sở tại Thẩm Quyến đã thông báo hoàn thành việc giải trình tự hệ gen lưỡng bội của một người Hán Trung Quốc, đại diện cho quần thể châu Á Bộ gen này là hệ gen khởi đầu cho một dự án giải mã 100
cá thể người Trung Quốc trong ba năm - dự án Viêm Hoàng (Yanhuang Project) (theo tên của Hoàng Đế và Viêm Đế là hai vị hoàng đế - thủy tổ của người Trung Quốc) (http://yh.genomics.org.cn/)
Trung Quốc đã có kinh nghiệm tham gia Chương trình giải mã hệ gen người quốc tế nhiều năm qua Vừa qua, Trung Quốc đã đầu tư hàng trăm thiết bị giải mã gen thế hệ mới, hiệu năng cao (Illumina, 5 …) cũng như các máy tính khổng lồ, siêu tốc phục vụ cho phân tích gen Chỉ riêng ở tại Viện nghiên cứu Genome Bắc Kinh (Beijing Genome Institute, BGI) đã có trên 120 máy đọc trình tự gen, 10 máy tính hiệu năng cao và 500 terabytes ổ lưu trữ số liệu Trung Quốc đã vượt qua háp và Đức
về đầu tư trang thiết bị giải mã gen, chiếm vị trí thứ 4 trên thế giới về cơ sở vật chất và trở thành cường quốc đứng thứ 7 trong số 16 quốc gia đi đầu trong lĩnh vực nghiên cứu hệ gen người
Dự án Viêm Hoàng đã thiết lập một cơ sở dữ liệu (cơ sở dữ liệu YH (Yanhuang)) của toàn bộ trình tự DNA đã được giải mã dựa trên 3,3 tỷ đoạn đọc (tương đương 117,7 Gb dữ liệu thô) được cho ra bởi hệ thống máy giải trình tự genome Illumina (Illumina Genome Analyzer) Tổng cộng 102,9 Gb đã được lập bản
đồ trong trình tự người tham chiếu trên NCBI nhờ phần mềm so sánh trình tự các oligonucleotide ngắn (Short Oligonucleotide Alignment Program - OA ) và đã xác
định được 3,07 triệu SNP (Li et al., 2009) Năm 2008, hệ gen lưỡng bội đầu tiên của
người Trung Quốc và châu Á đã được giải mã xong và được công bố trên tạp chí danh
tiếng Nature (Wang et al., 2008b)