Dựa vào trình tự bộ gen có thể lập bản đồ và xâydựng được hệ thống marker phân tử bao phủ toàn bộ genome; chú giải cấu trúc hệgen; nghiên cứu chức năng sinh học của gen và chức năng của
Trang 1CHUYÊN ĐỀ 1.1 Tách chiết ADN với số lượng cực lớn, chất lượng cao của 30 giống lúa
bản địa ưu tú được tuyển chọn
I MỞ ĐẦU
Việt Nam là một trong những trung tâm phát sinh và đa dạng di truyền nguồngen cây lúa Với nhiều tập đoàn giống lúa địa phương phong phú, đa đạng và rất nhiềunguồn gen lúa có các đặc tính nông sinh học quí (như: chịu hạn, chịu mặn, kháng rầynâu, đạo ôn, khô vằn, bạc lá…vv) nhưng chưa được khai thác và sử dụng một cách cóhiệu quả Để khai thác và sử dụng có hiệu quả các nguồn gen lúa bản địa trong cácchương trình chọn và lai tạo giống, đòi hỏi phải có những thông tin về phenotype vàgenotype Việc giải mã toàn bộ hệ gen của các giống lúa bản địa sẽ cung cấp thông tin
ở mức phân tử một cách đầy đủ nhất Dựa vào trình tự bộ gen có thể lập bản đồ và xâydựng được hệ thống marker phân tử bao phủ toàn bộ genome; chú giải cấu trúc hệgen; nghiên cứu chức năng sinh học của gen và chức năng của gen trong việc điều hòahay tương tác với các gen và các phân tử khác; nghiên cứu biểu hiện của gen; xác địnhcác locus tính trạng số lượng (QTL - Quantitative Trait Loci) vv
Để giải mã thành công hệ gen của một loài thực vật nào đó, một công đoạn rấtquan trọng là quá trình tách chiết ADN với số lượng lớn, nồng độ cao, tinh sạch vàchất lượng cực tốt (ADN không bị đứt gãy) để xây dựng thư viện hệ gen phục vụ choquá trình giải mã
II TỔNG QUAN
2.1 Các phương pháp và chiến lược giải trình tự hệ gen mới
Do yêu cầu cao của việc giải trình tự trong một thời gian ngắn với chi phí thấp
đã dẫn đến kĩ thuật giải trình tự hiệu suất cao: bằng cách tạo ra hàng nghìn hay hàngtriệu trình tự cùng lúc Giải trình tự hiệu suất cao được mong đợi làm giảm giá thànhgiải trình tự ADN so với phương pháp trước kia [13]
2.1.1 Phương pháp khuếch đại dòng tại chỗ
Hầu hết các phương pháp giải trình tự đều sử dụng bước nhân dòng trong ốngnghiệm để khuếch đại các phân tử ADN, bởi vì các kĩ thuật phát hiện ADN không đủnhạy cho việc giải trình tự một phân tử riêng lẻ Trong kĩ thuật PCR nhũ tương(Emulsion PCR): từng phân tử ADN riêng lẻ cùng với hạt mang mồi được bao bọctrong các giọt nước nằm trong pha dầu, phản ứng chuỗi trùng hợp sau đó bao bọc cáchạt cùng với các bản sao của phân tử ADN được bất động hóa cho việc giải trình tựtiếp theo Phản ứng PCR nhũ tương được sử dụng trong phương pháp của Marguilis
và cộng sự (được thương mại hóa trong hệ thống máy 454 Life Sciences, Roche) Shendure và cộng sự còn đưa ra phương pháp “giải trình tự xúc xích” (Polony
Trang 2sequencing) và phương pháp giải trình tự rắn (Solid sequencing), (được phát triển bởi
Agencourt, nay là Applied Biosystems).Một kĩ thuật khác là PCR cầu: các phân đoạnđược khuếch đại dựa vào các mồi được gắn với bề mặt rắn, được sử dụng trong hệ
thống phân tích hệ gen Illumina Kĩ thuật đơn phân tử được phát triển bởi phòng thí
nghiệm của Stephen Quake (sau này được thương mại hóa bởi hãng Helicos) là mộtngoại lệ: nó sử dụng huỳnh quang phát sáng và sự kích thích tia laze để phát hiện từng
sự kiện pyrosequencing ở từng phân tử ADN riêng lẻ đã cố định trên một bề mặt, loại
bỏ sự cần thiết phải khuếch đại phân tử ADN [21], [22]
2.1.2 Giải trình tự ngang hàng
Các phân tử ADN được gắn vào một bề mặt và việc giải trình tự được diễn rasong song (ngang hàng giữa các phân tử ADN) Giải trình tự bằng cách tổng hợp,giống như giải trình tự bằng cách điện di phần kết thúc nhuộm, sử dụng một phân tửADN polymerase để xác định trình tự cơ sở Các kĩ thuật phần kết thúc thuận nghịch(được sử dụng trong hệ thống Illumina và Helicos) sử dụng các phiên bản thuậnnghịch của phần kết thúc nhuộm, bổ sung một nuleotide vào cùng một thời điểm, cốđịnh huỳnh quang ở mỗi vị trí trong thời gian thực hiện, bằng cách lặp lại việc loại bỏnhóm bị khóa để cho phép việc kéo dài chuỗi với các nuleotide khác Pyrosequencing(được sử dụng trong hệ máy 454, Roche) cũng sử dụng sự kéo dài chuỗi ADN, bằngcách bổ sung một loại ADN vào một thời điểm và đồng thời xác định số lượngnucleotide được bổ sung để đưa ra vị trí thông qua phát sáng bằng cách loại bỏ nhómpyriphosphate gắn kèm [22]
2.1.3 Giải trình tự bằng phản ứng gắn
Giải trình tự bằng phản ứng gắn sử dụng một enzyme ADN ligase để xác địnhtrình tự đích, nó được sử dụng trong phương pháp “xúc xích” và trong công nghệSOLiD của AB Phương pháp này sử dụng một tập hợp có thể tồn tại cácoligonucleotide có chiều dài xác định, được đánh dấu theo vị trí biết trước Cácoligonucleotide được tôi luyện và gắn lại; các ADN có trình tự bổ sung sẽ bắt cặp vàotừng vị trí và sẽ được xác định trình tự [37]
2.1.4 Giải trình tự bằng phương pháp Sanger vi lỏng
Trong phương pháp này, toàn bộ chu trình nhiệt khuếch đại ADN cũng như phântách chúng bằng điện di được thực hiện trong một bản kích xốp (đường kính xấp xỉ 10cm) do đó giảm thiểu hóa chất cũng như chi phí Tuy nhiên phương pháp này vẫn chỉđang trong giai đoạn thử nghiệm chưa có báo cáo cụ thể về việc thương mại hóa [37]
2.2 Sự phát triển của thiết bị giải mã ADN và phương pháp giải mã hệ gen
Trang 3Từ khi phương pháp giải mã ADN được phát minh giữa thập niên 70 của thế kỷ
20, thiết bị công nghệ cho giải đã trải qua các thế hệ sau:
- Thiết bị giải mã ADN thủ công (1975-1985): dựa trên phương pháp hóa học
hoặc kết thúc chuỗi với các thiết bị cần thiết như: điện di tấm/bản gel, đánh dấu phóng
xạ, chụp ảnh phóng xạ tự ghi Quá trình giải mã ADN diễn ra chậm chạp hoàn toànthủ công và độc hại
- Thiết bị giải mã ADN bán tự động và thiết bị giải mã gen tự động thế hệ I
(1986-2000) dựa trên phương pháp kết thúc chuỗi với một số thay đổi, đánh dấuhuỳnh quang mồi, đọc qua đầu dò phát hiện bằng tia laze
- Thiết bị giải mã ADN tự động thế hệ I nâng cấp (từ 2000 đến nay): dựa trên
phương pháp kết thúc chuỗi nhưng cải tiến đánh dấu huỳnh quang trên các ddNTPs(nhuộm phần kết thúc), điện di mao quản Các thiết bị thuộc thế hệ I nâng cấp chophép giải trình tự cùng một lúc vài trăm phân mảnh ADN với kích thước từ 300-900nucleotide (số lượng và kích thước phân mảnh ADN có thể xác định trình tự phụthuộc đời máy) Hiện nay, các thiết bị thuộc thế hệ I (đang chiếm số lượng lớn trên thếgiới và cả ở Việt Nam) là thiết bị cơ bản cho bất kỳ phòng thí nghiệm liên quan đếnnghiên cứu di truyền học và phân tích hệ gen Tuy nhiên, với các hệ gen có kích thướclớn thì cần có các phòng thí nghiệm trang bị nhiều máy thế hệ I nâng cấp hoặc cần sựkết hợp của nhiều phòng thí nghiệm của quốc gia hoặc quốc tế cho từng dự án lớn bêncạnh yêu cầu về số lượng nhân sự có trình độ để vận hành và phân tích kết quả
- Thiết bị giải mã ADN tự động thế hệ II (từ 2007): dựa trên công nghệ chip
ADN, khuếch đại từng phân tử ADN, giải trình tự ngang hàng cùng lúc hàng nghìnhoặc hàng triệu phân tử ADN cho phép nâng hiệu suất giải trình tự lên vài trăm lầnthậm chí vài nghìn lần so với thế hệ thứ I nâng cấp [37] Hiện nay, có nhiều hãng vớinhiều công nghệ khác nhau đã thương mại hóa các thiết bị thế hệ II này Tuy nhiên,giá thành còn rất cao nên mới được các phòng thí nghiệm có quy mô và ngân sách lớnđưa vào sử dụng Các máy thế hệ thứ II là công cụ quan trọng không thể thiếu với các
dự án genome quy mô lớn để phân tích hệ gen của nhiều cá thể
- Thế hệ giải mã ADN tự động thế hệ III: đây là thế hệ dự kiến có tính năng vượt
trội, như hệ thống Helicos Biosciences' Heliscope của Helicos Biosciences dự kiến là
hệ thống giải trình tự ADN thế hệ thứ III đầu tiên được thương mại hóa vào cuối năm
2010 (next-next generation sequencing)
Về phương pháp giải mã hệ gen, cùng với sự phát triển của kĩ thuật giải mãADN và sự xuất hiện của các thiết bị giải mã ADN tự động có hiệu suất cao phươngpháp giải mã hệ gen đã có nhiều thay đổi Khởi đầu với kĩ thuật cũ sử dụng đánh dấuphóng xạ và phương pháp giải trình tự thủ công người ta chỉ giải được hệ gen của cácsinh vật có kích thước tương đối nhỏ như các thực khuẩn thể, các virus Các gen được
Trang 4nhân bản và giải mã lần lượt và được sắp xếp lại với nhau nhờ bản đồ liên kết (bản đồ
di truyền) đã được xây dựng trước đó Nhưng với các hệ gen lớn hơn thì để giải mãchúng, con người phải chờ đợi các máy giải trình tự tự động ra đời Lúc này người tatiến hành cắt nhỏ hệ gen và đưa chúng vào các vector (xây dựng thư viện hệ gen: thưviện BAC hay YAC ) và việc giải trình tự được tiến hành lần lượt trên các NST nhântạo này, đây được gọi là chiến lược nhân dòng lần lượt (clone by clone) Tiếp đó khi
có các thế hệ máy giải trình tự ADN thế hệ I nâng cấp cùng với sự phát triển của tinsinh học và giá thành của các siêu máy vi tính giảm đi người ta đã tiếp cận vấn đề theocách khác, giải trình tự ngẫu nhiên (shotgun sequence) [10] Nếu tiến hành theo cáchgiải trình tự lần lượt thì với các bộ gen lớn (bộ gen của người) chúng ta không thểhoàn thành trong 13 năm như thực tế, bởi nó có tốc độ quá chậm chạp Bằng cách giảitrình tự ngẫu nhiên hệ gen được chia nhỏ hơn nữa, việc giải trình tự được tiến hànhđộc lập giữa các phân mảnh nhỏ, sau đó dữ liệu được thu thập và xử lý bằng các phầnmềm với các thuật toán đặc biệt để sắp xếp chúng thành các đoạn có kích thước lớnhơn Theo cách tiếp cận này một đoạn ADN có thể được giải tình tự nhiều lần, cácphần trùng lặp sẽ được phần mềm xác định và sử dụng để lắp ghép chúng lại với nhau.Mặc dù giải nhiều lần nhưng do hệ thống máy thế hệ I nâng cấp có hiệu suất tương đốicao và sự phát triển của tin sinh học cùng nỗ lực của nhiều viện nghiên cứu mà dự án
hệ gen ở người đã được hoàn thành năm 2003 [7] Đó là bước đột phá trong kĩ thuậtgiải mã hệ gen ở các sinh vật có hệ gen phức tạp, hàng loạt dự án giải mã hệ gen cáthể người, giải mã hệ gen các động vật quan trọng hay hệ gen người cổ, các sinh vậthóa thạch đã được tiến hành và đã có hàng loạt hệ gen được công bố Bên cạnh đó, hệgen của các cây trồng quan trọng cũng đã được giải mã và công bố lần lượt từ năm
2003 đến nay Tuy nhiên cách tiếp cận bằng các thiết bị giải mã gen thế hệ I nâng cấpvẫn không đủ đáp ứng nhu cầu về tốc độ cũng như số lượng với các dự án giải mã hệgen hiện nay, đặc biệt là với các dự án phân tích SNPs (sự đa hình trình tự nucleotideđơn lẻ)
2.4 Các chương trình, dự án giải mã gen trên thế giới
Kể từ năm 1977 khi Sanger và cộng sự bằng phương pháp giải trình tự kết thúcchuỗi đã giải mã thành công hệ gen ADN của sinh vật đầu tiên là thực khuẩn thể Φ-X174 có kích thước hệ gen tương đối nhỏ (5386bp), đã mở ra thời kỳ giải mã hệ gencủa các sinh vật sống trên thế giới Tuy nhiên, do hạn chế về kĩ thuật nên trong 2 thập
kỷ tiếp theo chỉ có các sinh vật có kích thước hệ gen nhỏ được giải mã hoàn thiện nhưcác vi khuẩn hay virus gây bệnh Cho đến cuối thập niên 90, mới có giun tròn là sinhvật đa bào đầu tiên có hệ gen được giải mã Riêng với hệ gen người, chương trình giải
mã hệ gen người được manh nha từ đầu thập niên 80 của thế kỷ trước tại Mỹ và chínhthức được thực hiện từ năm 1990 với nguồn quỹ của Bộ Năng lượng và Viện sức khỏe
Trang 5quốc gia Mỹ (quỹ ban đầu là 3 tỷ USD để giải mã hệ gen người trong 15 năm) [3], [6],[7] Tuy nhiên, thời kỳ đầu dự án tiến triển rất chậm chạp, hầu như không có tiến bộđáng kể nào được công bố do hạn chế của thiết bị và phương pháp tiếp cận Đến năm
2000, nhờ sự ra đời của máy giải trình tự ADN thế hệ I nâng cấp cùng với các siêumáy tính và phần mềm tin học, dự án gen người đã tăng tốc, phiên bản đầu tiên của bộgen đã được công bố bởi tổng thống Mỹ Bill Clinton và Thủ tướng Anh Tony Blairvào ngày 26 tháng 6 năm 2000 [41] Hầu hết dữ liệu quan trọng đạt được vào giaiđoạn cuối, đến tháng 4 năm 2003 (sớm hơn 2 năm so với dự tính) phiên bản hoànthiện đã được công bố dự án gen người của chính phủ Mỹ và công ty tư nhân Celera.Sau đó, tổng thống Mỹ quyết định công bố toàn bộ dữ liệu hệ gen người cho toàn thếgiới cùng sử dụng Sau thành công của dự án hệ gen người hàng loạt dự án giải mã hệgen ở các sinh vật khác được khởi động và tái khởi động với hàng loạt các mục tiêu đề
ra nhằm cải thiện hiểu biết cơ bản của chúng ta về sự sống của chính con người vàsinh giới: tiến hóa, tổ chức và chức năng của các gen và đồng thời làm cơ sở cho việc
dự báo di truyền, cảnh báo bệnh, bảo tồn và tạo ra các giống cây, con có ưu thế vớinhu cầu ngày càng đa dạng của con người [39]
2.5 Các chương trình, dự án giải mã gen ở thực vật (cây trồng)
Tương tự như động vật, chương trình giải mã hệ gen ở các loài thực vật quan
trọng cũng đã được tiến hành như dự án giải mã hệ gen lúa Indica của trung quốc, dự
án giải mã hệ gen ngô của Mỹ, dự án giải mã hệ gen nho của Pháp và Ý Hiện nay,theo công bố chính thức thì đã có các cây trồng sau được giải mã hệ gen:
- Lúa Indica, hệ gen kích thước khoảng 420 Mb gồm khoảng 32-50.000 gen,
hoàn thành năm 2002 bởi viện nghiên cứu gen Bắc Kinh và Viện Hàn lâm Khoa họcTrung Quốc [35]
- Lúa Japonica, hệ gen kích thước khoảng 466 Mb, gồm khoảng 46.022-55.615
gen, hoàn thành năm 2002 bởi công ty Syngenta và Myriad [13]
- Nho PN40024, hệ gen kích thước khoảng 490 Mb, gồm khoảng 30.434 genhoàn thành năm 2007 bởi sự hợp tác giữa Pháp và Ý [19]
- Giống đu đủ “Sun up”, hệ gen kích thước khoảng 372 Mb gồm khoảng 28.629gen hoàn thành năm 2008 bởi trung tâm nghiên cứu nông nghiệp Hawaii [23]
- Giống ngô B73, hệ gen kích thước khoảng 2.800 Mb gồm khoảng 32.000 genhoàn thành năm 2009 bởi viện NSF [27]
- Giống dưa chuột dài (dòng 9930), hệ gen kích thước 367 Mb gồm khoảng26.682 gen hoàn thành năm 2009 bởi viện Hàn Lân khoa học Nông nghiệp Bắc Kinh,Trung Quốc [17]
- Gần đây nhất là đậu tương với hệ gen 1100 Mb gồm khoảng 46.430 gen đượccông bố năm 2010 bởi đại học Purdue, Mỹ [18]
Trang 6Ngoài ra còn có các cây công nghiệp lấy dầu như Brassica napus, Elaeis guineensis đã được các công ty tư nhân giải mã nhưng không công bố trình tự rộng
rãi
2.6 Quá trình giải trình tự hệ gen của lúa trồng
Lúa được cho là cây lương thực quan trọng nhất của thế giới và do kích thước bộgen của nó nhỏ so với các loại ngũ cốc khác Lúa đã được chọn là loài cây trồng môhình cho việc giải mã bộ gen đầy đủ Dự án giải trình tự hệ gen lúa gạo (IRGSP) baogồm nhiều phòng thí nghiệm từ mười quốc gia khác nhau đã giải trình tự dựa trên bản
đồ chất lượng cao của 12 nhiễm sắc thể của giống lúa 'Nipponbare'
Dự án IRGSP được thành lập năm 97 nhằm giải trình tự hệ gen giống lúaNipponbare với chiến lược giải trình tự nhân dòng lần lượt (clone by clone) dựa trênbản đồ chất lượng tốt của 12 NST của giống lúa này Để xây dựng trình tự dựa trênbản đồ vật lý có sẵn, 2 phương án tiếp cận đã được sử dụng Nhóm nghiên cứu hệ gen(RGP) tại Nhật đã gắn các clone của hệ gen bằng cách sử dụng các vị trí EST/STS(Expressed Sequence Tags/Sequence Tagged) và các dấu chuẩn từ bản đồ di truyền vàbản đồ phiên mã của lúa [41], [14] Viện nghiên cứu hệ gen của đại học Clemson,Viện nghiên cứu hệ gen Arizona sử dụng một hệ thống hiệu suất cao dấu vân tay cácnhiễm sắc thể nhân tạo (BAC) và hệ thống lắp ghép tự động các BAC thành cáccontig bằng phần mềm FPC [28] và gắn các contig với hệ gen lúa bằng việc sàng lọcdựa trên các phép lai [4] Trình tự được tạo ra dựa trên bản đồ vật lý có sẵn theo 2hướng trên đã bao phủ 95% hệ gen của lúa, và từ 92%-100% đối với từng NST Cótổng cộng 3453 BAC đã được sử dụng để xây dựng hệ thống này Tháng 12 năm
2002, một trình tự nháp chất lượng tốt với kích thước khoảng 336 Mb đã được công
bố Cho đến tháng 12 năm 2004, trình tự hoàn chỉnh có kích khoảng 370 Mb bao phủkhoảng 95% hệ gen, khoảng 99% vùng NST thật đã được hoàn thành và đến ngày 11tháng 8 năm 2005 đã công bố trên tạp chí Nature và công khai cho tất cả những ai cónhu cầu sử dụng Trình tự này cũng bao hàm 3 trình tự của vùng trung tâm, các vùngrDNA, các vùng chứa các yếu tố di truyền vận động khác nhau (chiếm đến 35% kíchthước hệ gen) Trình tự này hiện nay được coi là chuẩn mực vàng (gold stADNard)cho các nghiên cứu về hệ gen của lúa
Một chiến lược khác cũng được sử dụng giải trình tự ngẫu nhiên (shot-gun) toàn
bộ hệ gen đã được sử dụng bởi nhiều dự án khác Trong chiến lược này, một chươngtrình hiệu suất cao sẽ sắp xếp hàng triệu trình tự shot-gun thành trình tự hệ gen hoànchỉnh Hai nhóm độc đã sử dụng phương pháp này là Viện nghiên cứu hệ gen BắcKinh trên giống lúa indica 93-11 và công ty Syntagen (Basel, Thụy Sỹ) trên giống lúa
Trang 7Nipponbare [35], [17] (Đây cũng là chiến lược đã được sử dụng trong việc giải trình
tự 2.9 Gb hệ gen người [32])
2.7 Ứng dụng của việc giải trình tự hoàn chỉnh hệ gen ở lúa
Để biết được thực sự có bao nhiêu gen trong hệ gen của lúa, cần phải có cáctrình tự các cDNA hoàn chỉnh cùng với thông tin về các codon mở đầu và codon kếtthúc mà không bị ngắt quãng Trình tự hệ gen hoàn chỉnh sẽ cung cấp các thông tinthống kê cần thiết để xác định các điểm ghép nối Một vài chương trình dự đoán đãđược phát triển sử dụng cho từng hệ gen thực vật khác nhau, với cây lúa chương trìnhFGENESH đã được sử dụng để phân tích tổng số gen và mô hình hóa cấu trúc gen.Nếu không tính các yếu tố di truyền vận động, hệ gen của lúa chứa khoản 45 nghìntrình tự mã hóa protein, mật độ gen tương ứng là 1 gen/8200bp Nhiễm sắc thể số 1 và
số 3 là những NST giàu gen nhất trong khi NST số 12 lại là NST ít gen nhất Việc giảitrình tự hệ gen cũng cung cấp câu trả lời quan trọng về cấu trúc hệ gen của lúa Cácgen liền nhau có rất nhiều trong cả 12 NST Mật độ cao các gen đa bản trong hệ gencủa lúa chưa từng được biết đến trong các bộ gen khác kể cả cây mô hình Arabidopsis
thaliana Bên cạnh đó người ta còn thấy một tần số thấp của việc cắt nối trong hệ gen
của lúa khi so sánh trình tự hệ gen với các cDNA hoàn chỉnh Có lẽ điều này là cầnthiết cho cây lúa trong việc chuẩn bị một tập hợp gen cho một bản phiên mã tương tựtrong điều kiện nào đó Các nghiên cứu sâu hơn về promoter sẽ làm sáng tỏ câu hỏibằng cách nào và khi nào các gen tương đồng đa bản này được biểu hiện ở từng loại
mô khác nhau ở lúa
Trình tự hoàn chỉnh của hệ gen lúa còn được ứng dụng trong công tác chọngiống Dựa vào trình tự hệ gen của lúa, chúng ta có thể kiểm soát tính di truyền cáctính trạng nông học và cung cấp các công cụ cho công tác cải tiến giống cây trồng.Hầu hết các tính trạng nông học được kiểm soát đa gen và cơ chế di truyền số lượngphức tạp Do đó, các nỗ lực đều tập trung vào việc phân lập các QTL (QuantitativeTrait Loci) liên kết với các tính trạng có giá trị Các allen QTL có giá trị kinh tế đều
đã được đánh dấu bằng các marker ADN và đã được chuyển vào các giống lúa ưu tútheo phương pháp chọn lọc nhờ dấu chuẩn phân tử (Marker Assisted Selection -MAS) Các allen QTL là nguồn biến dị di truyền hữu dụng và không bị giới hạn khi
áp dụng cho các sản phẩm nông nghiệp, hiện đã có khoảng 8000 QTL được phát hiện
và được tập hợp trên cơ sở dữ liệu Gramme – QTL, Một yếu tố quyết định thành côngtrong việc xác định và sử dụng các QTL cho các tính trạng nông học là mức độ ảnhhưởng của kiểu gen so với ảnh hưởng của môi trường Một vài QTL có ảnh hưởng lớn
đã được nhân dòng bằng chiến thuật dựa trên bản đồ, ví dụ điển hình là QTL quy định
số lượng hạt [2] Tuy nhiên việc lập bản đồ chính xác các allen QTL vẫn còn là một
Trang 8thách thức cho dù tính trạng đã được đặc trưng hóa bởi nhiều nhà nghiên cứu khácnhau [33] Nguyên nhân chính của vấn đề là khả năng phát hiện thấp của việc phântích QTL bằng việc sử dụng quần thể F2 và các dòng cận giao phối tái tổ hợp(Recombinant inbred Lines - RIL) Để khắc phục hạn chế của việc lập bản đồ dựa trênquần thể truyền thống người ta đã phát triển các dòng thay thế các đoạn NST(Chromosome Segment Substitution Line – CSSL) Khi có sự khác biệt về kiểu hìnhgiữa một CSSL và cây bố mẹ người ta có thể xác định ngay vùng NST có chứa QTL
vì mỗi CSSL thường chỉ có chứa một mảnh NST của cây cho [1], [8], [16], [31] Bằng
cách sử dụng CSSL Fukuoka và cs đã xác định QTL pi21 quy định tính kháng đạo ôn
gồm 12 allen và chỉ có những cây thiếu 2 allen trở lên mới có khả năng kháng và các
allen này có mặt trong một số giống Japonica điều này có thể giúp cải thiện việc
kháng đạo ôn của lúa trên thế giới [11] [12] Bên cạnh đó, CSSL còn rút ngắn thờigian trong việc xác định mối tương tác giữa các QTL đặc biệt là các trường hợp cómức độ nhiễu cao do đồng dạng di truyền bằng cách sử dụng con cháu của cặp laigiữa các CSSL có chứa các QTL quan tâm [34] Tuy vậy, khả năng của các nghiêncứu sử dụng CSSL lại phụ thuộc vào việc xác định và mức độ sẵn sàng của các dòngcho, điều này phụ thuộc vào việc chúng ta phải phân tích cấu trúc di truyền của cácgiống lúa qua phân tích RFLP toàn bộ hệ gen Việc giải trình tự toàn bộ hệ gen sẽ giúpchúng ta đánh giá mức độ đa dạng di truyền toàn hệ gen nhanh và chuẩn xác hơn, xácđịnh được các dòng cho để từ đó xác định ý nghĩa của từng allen cũng như giải thíchcác tính trạng nông học phức tạp ở lúa
Hiện nay, các trình tự SSR vẫn là một nguồn dấu chuẩn ADN quan trọng trongphân tích di truyền và chọn giống lúa, nhưng các đa hình đơn nucleotide (SNPs) sẽ trởthành một nguồn dấu chuẩn di truyền thường gặp nhất của đa hình ADN Sau khi chitiết trình tự hệ gen lúa được IRGSP công bố năm 2005, các SNPs giữa giốngNipponbare và 2 giống lúa indica (93-11 và GLA3) đã được công bố [9], [15], [37].Với sự sáng tạo về công nghệ trong các máy giải trình tự hiệu năng cao, thông tin vềSNPs giữa các giống lúa có thể được xác định nhanh và chi phí thấp Gần đây, với
việc giải trình tự lại 20 giống lúa Japonica và Indica 160.000 SNPs đã được xác định
[36], điều này cho phép chúng ta đưa được một lượng lớn các QTL ở mức độ chi tiếtvào chương trình chọn giống Việc sự dụng các SNPs có thể xác thực hiệu quả củaviệc lập bản đồ kết hợp toàn bộ hệ gen (Genome Wide Association Mapping - GWA)trong việc phát hiện các nguồn tài nguyên di truyền tự nhiên có giá trị kinh tế [25].Việc tập hợp thông tin về SNPs sẽ giúp chúng ta trong việc lập kế hoạch cho chươngtrình chọn giống và phát hiện tái tổ hợp xảy ra giữa các khối haplotype (các cá thế cóSNPs) Để có được số lượng SNPs đủ cho mục tiêu này, chúng ta phải giải trình tựtoàn bộ hệ gen của các giống đại điện để xây dựng được một cơ sở dữ liệu dựa trên
Trang 9các SNPs toàn bộ hệ gen để chọn lọc các SNPs và xác định tần số SNPs trong quầnthể Dữ liệu SNPs đầy đủ của hệ gen sẽ tạo điều kiện cải tiến cây lúa một cách hiệuquả khi kết hợp với hệ thống chọn giống dựa trên dấu chuẩn (MAS) [34].
Ngoài ra, khả năng sử dụng dữ liệu hệ gen lúa phụ thuộc vào hiệu quả của cơ
sở thông tin hạ tầng bởi dữ liệu về hệ gen lúa tăng theo cấp số nhân theo từng ngày do
sự nỗ lực của rất nhiều nhà khoa học Trình tự hệ gen là nền tảng cho các phân tíchphía sau như: xác định từng gen, dự đoán các protein mà gen đó quy định, xác địnhkhi nào và ở đâu gen đó biểu hiện và sự tương tác với từng điều kiện cụ thể Vì vậy,cần phải kết nối nhiều nguồn thông tin khác nhau dựa trên một trình tự hệ gen lúa tiêuchuẩn Hiện nay, các nghiên cứu giải trình tự hệ gen các giống lúa vẫn đang tiếp tục
để làm rõ bức tranh về bản chất hệ gen của cây lúa
2.8.Phương pháp giải trình tự bằng hệ thống Illumina.
Công nghệ giải trình tự tổng hợp (SBS) của Illumina hiện nay là một nền tảngthành công nhất và được sử dụng rộng rãi trong các hệ thống máy giải trình tự thế hệ
II trên thế giới hiện nay Công nghệ của Illumina được cấu thành dựa trên quyền sửdụng hai phát minh quan trọng là công nghệ nano của nhóm Oxford NanoporeTechnologies và công nghệ giải trình tự trên sợi ADN trong quá trình tổng hợp củaSolexa Sự kết hợp hai phát minh này trong công nghệ SBS cho phép Illumina sở hữuđộc quyền công nghệ giải trình tự ngang hàng ADN quy mô lớn Công nghệ nano củanhóm Oxford Nanopore Technologies cho phép Illumina gắn hàng loạt cácoligonucleotide ngẫu nhiên trên diện tích rất nhỏ và đầu dò (camera) có thể thu nhậntín hiệu riêng biệt của từng oligonucleotide
Để giải trình tự bằng hệ thống Illumina chúng ta cần tạo ra một thư viện cácphân mảnh đại diện cho mẫu genome cần giải trình tự, đây là giai đoạn chuẩn bị mẫu Trước hết các mẫu DNA quan tâm sẽ bị cắt thành các phân mảnh có kích thước thíchhợp (trung bình 400 ~ 500bp) bằng cách sử dụng một thiết bị cắt bằng sóng âm Cácđầu tận cùng của các phân mảnh DNA được làm bằng, và hai trình tự adapter đặc hiệuđược gắn vào các phân mảnh theo quy trình của hãng (Genomic DNA Sample PrepKit) Tổng thời gian cho quá trình này ít hơn 6 giờ và thời gian thao tác chỉ có 3 giờ.Khác với hệ thống 454 và hệ thống của ABI sử dụng một phản ứng PCR dựatrên hạt nhũ tương để tạo ra "polonies", Illumina sử dụng một phản ứng duy nhất "cầunối" khuếch đại xuất hiện trên bề mặt của tế bào dòng chảy (flow cell), về cơ bản làmột tấm kính rất nhỏ có khả năng bám nước rất chặt để cung cấp một diện tích bề mặtlớn cho hàng ngàn phản ứng hóa học song song có thể xảy ra trên đó Giai đoạn nàygồm 5 bước có thể tạm dịch là giai đoạn tạo ra các cụm bằng phương pháp khuếch đại
Trang 10cầu (bridge amplification) trên hệ thống chuyên biệt Cbot cluster generation system(tạm dịch là hệ thống tạo các cụm Cbot) Với hệ thống Cbot tổng thời gian cho giaiđoạn này chỉ hết 4 giờ trong đó thao tác chỉ hết 10 phút
Các dòng tế bào bề mặt được phủ chuỗi đơn oligonucleotides tương ứng với cáctrình tự của các adapter đã gắn với các phân mảnh trong giai đoạn chuẩn bị mẫu Cácphân mảnh sợi đơn đã gắn với adapter được liên kết với bề mặt của tế bào dòng chảy;được tiếp xúc với các chất phản ứng và được mở kéo dài trên enzyme polyermase.Mồi để xảy ra phản ứng tổng hợp chính là trình tự chuỗi đơn oligonucleotide đã gắntrên bề mặt tế bào dòng chảy Quá trình lặp đi lặp lại việc biến tính và mở rộng dẫnđến việc khuếch đại tại chỗ một phân tử thành hàng triệu phân tử tại từng vị trí duynhất trên bề mặt tế bào Quá trình này xảy ra trong những gì được gọi là "trạm cluster"của Illumina (một dòng tế bào xử lý tự động)
Quá trình giải trình tự trong khi tổng hợp được tiến hành trên hệ thống máyIllumina cũng theo nguyên lý gắn mầu huỳnh quang cho nucleotide cuối cùng nhưtrên máy giải trình tự thế hệ I nhưng với sự khác biệt là đầu dò có thể thu nhận tínhiệu huỳnh quang của từng loại nucleotide riêng biệt khi gắn vào từng cụm các trình
tự (cluster hay còn được gọi là polony) nên phương pháp này còn được gọi là giảitrình tự xúc xích (polony sequencing) trong quá trình tổng hợp Ưu điểm của hệ thốngIllumina là không bị hạn chế về số lượng cụm được giải trình tự tuy nhiên lại bị hạnchế về độ dài của phản ứng khuếch đại cầu Với thế hệ máy Illumina mới nhất độ dài
đã được nâng lên đến 100bp mỗi chiều và hiệu suất của hệ thống là sau 8 ngày có thểgiải trình tự tổng cộng từ 150-200Gb
Giai đoạn cuối cùng sẽ sử dụng phần mềm chuyên biệt (RTA version 1.7 vàCASAVA version 1.7) để sắp xếp các trình tự riêng biệt thành một trình tự thống nhấtcủa hệ gen Giai đoạn này tùy theo kích thước hệ gen và trình tự tham khảo có sẵn haykhông, thông thường với hệ gen như của người hệ thống mất 2 ngày và với 30 phútthao tác Người ta đã từng đặt câu hỏi về khả năng của các hệ thống giải trình tựngang hàng khi so sánh với phương pháp giải trình tự truyền thống (Sanger), tuy nhiênTakasi và cs khi tiến hành giải trình tự lại một vùng 800-kb ở vai ngắn của NST số 6của giống lúa Nipponbare bằng hệ thống của Roche, đã chứng minh phương pháp nàychính xác đến 99.95% Các tác giả cũng cho rằng khi kết hợp đúng đắn các phươngpháp giải trình tự thế hệ mới với các phương pháp hiện tại (cơ sở dữ liệu có sẵn) sẽtạo ra một cuộc cách mạng về giá thành và hiệu quả giải trình tự lại hệ gen lúa và sẽlàm sáng tỏ quá trình tiến hóa của lúa gạo hiện nay từ các loài lúa hoang dại [30]
2.9 Các phương pháp tách chiết ADN
Trang 11Phân tích sinh học phân tử được bắt đầu từ việc thu nhận dịch chiết ADN từ tếbào sống đủ sạch để thực hiện các phân tích tiếp theo Tuỳ theo vật liệu nghiên cứu
mà có phương pháp tách chiết ADN phù hợp Dung dịch ADN sau khi kiểm tra hàmlượng và độ sạch được sử dụng để phân tích theo những mục đích khác nhau nhưSouthem blot, Northem blot, PCR, RFLP, AFLP, và xác định trình tự ADN Điềuquan tâm hàng đầu là các kĩ thuật tách chiết axit nucleic để thu nhận các phân tử ởtrạng thái nguyên vẹn không bị phân huỷ bởi các tác nhân cơ học hoặc hoá học Tất cảcác phương pháp đều thực hiện theo nguyên lý cơ bản sau:
* Nguyên tắc
Để tiến hành tách ADN từ tế bào thì ta phải tiến hành phá bỏ màng tế bào vàmàng nhân, sau đó biến tính protein để loại bỏ lượng protein chứa trong dịch tách,loại bỏ RNA và sau cùng là kết tủa ADN Tủa sau khi thu được được hòa tan lại trongdung dịch đệm TE hoặc nước cất vô trùng tùy theo mục đích nghiên cứu Khác vớitách mô động vật, khi tách mô thực vật thì ta phải tiến hành loại bỏ đường (thành phần
có nhiều trong mô thực vật) Để loại bỏ đường, chủ yếu dùng phương pháp táchCTAB tức là dùng dung dịch đệm CTAB để tách ADN ra khỏi mô thực vật Chất nàychỉ hòa tan ADN chứ không hòa tan được đường, nhờ vậy mà có thể loại bỏ đường rakhỏi dịch chiết tách ADN
* Các bước tiến hành
- Phá bỏ màng tế bào và màng nhân: Người ta có thể phá bỏ màng tế bào vàmàng nhân bằng phương pháp hóa học hay cơ học (phương pháp cơ học, nghiền nátbằng máy xay trong nitơ lỏng)
- Chiết ADN và loại bỏ protein: Sau khi phá bỏ màng tế bào thì dùng dung dịchđệm CTAB để hòa tan ADN Nhưng trong dịch chiết có lẫn protein và ARN nên đểthu nhận được ADN tinh sạch ta phải tiến hành bước loại bỏ protein và ARN Ở đâythường dùng phenol, chloroform và isoamylalcohol Phenol có tác dụng làm biến tínhprotein và không hòa tan nucleic acid Chloroform cũng có tác dụng làm biến tínhprotein nhưng nó còn có tác dụng loại bỏ hoàn toàn phenol ra khỏi phần dung dịch cóchứa ADN Isoamylalcohol có tác dụng ổn định giữa hai pha nước và pha chloroform
- Kết tủa ADN: Để loại bỏ CTAB thì cần phải kết tủa CTAB và ADN rồi sau
đó hòa tan ADN trong dung dịch NaCl mà tủa CTAB không tan trong dung dịch này
- Loại bỏ CTAB và làm sạch ADN: Sau khi loại bỏ CTAB bằng dung dịch HCl1M, ta tiến hành kết tủa ADN bằng etanol nguyên chất lạnh, để tăng khả năng kết tủa
ta có thể pha thêm dung dịch muối CH3COONa 3M (2 thể tích ethanol/thể tích dungdịch cần tủa, 0.1 thể tích dung dịch muối/ thể tích dung dịch cần tủa Ngoài ra còn có
Trang 12thể tủa bằng isopropanol (0.8-1 thể tích Isopropanol/ thể tích dung dịch cần tủa Muốilẫn trong ADN sẽ ảnh hưởng đến kết quả các thí nghiệm sau này nên người tathường tiến hành rửa tủa ADN bằng dung dịch ethanol 70%.
Genome chứa toàn bộ thông tin di truyền và các chương trình cần thiết cho cơthể hoạt động Ở các sinh vật nhân thật (eukaryote), 99% genome nằm trong nhân tếbào và phần còn lại nằm trong một số cơ quan tử như ty thể và lạp thể Trình tựgenome của những sinh vật mô hình rất có ý nghĩa trong những nghiên cứu của mộtchuyên ngành khoa học mới đó là genome học (genomics) Dựa vào đây, các nhà sinhhọc phân tử có thể phân tích cấu trúc, hoạt động và chức năng của các gen, làm sáng
tỏ được vai trò của DNA lặp lại, DNA không chứa mã di truyền Điều đặc biệt có ýnghĩa là khi so sánh các genome với nhau, có thể hiểu được hoạt động của genometrong các cơ thể sống, mối quan hệ giữa chúng, sự đa dạng sinh học và mức độ tiếnhóa Do vậy chúng ta cần phải tìm phương pháp tối ưu nhất để tách chiết được toàn bộgenome của chúng mà không bị đứt gãy trong quá trình thao tác để trong quá trìnhgiải trình tự không bị rối và nhiễu
Để xây dựng thư ADN hệ gen, có nhiều phương pháp phải được phát triển đểphân lập ADN phân tử lượng rất lớn - kích thước megabase từ thực vật Để phân lậplượng ADN như vậy, protoplasts hoặc nhân trước tiên phải được nhúng vào trong nútthạch agarose hoặc microbeads Thạch agarose đóng vai trò như là một lưới cứngvững chắc đồng thời có các lỗ xốp cho phép khuếch tán của các chất phản ứng khácnhau để tinh chế ADN và những thao tác sau đó trong khi ngăn chặn hiện tượng biếndạng DNA Microbeads được sử dụng nhiều hơn các nút thạch do sử dụng các hạttăngdiện tích bề mặt xung quanh các mẫu mô khoảng 1000 nếp gấp do đó cho phép sựkhuếch tán nhanh và hiệu quả hơn là đưa hóa chất và enzyme vào và ra khỏi các hạtagarose Sau khi nhúng, protoplasts hoặc nhân được phân giải và loại protein đã biếntính với sự hiện diện của 0,5M EDTA 1% sarcosyl, và 0,1-1,0 mg/ml proteinase-K ở
500 C Sau khi ly giải tế bào và sự thoái hóa protein, ADN còn lại là phù hợp vớinhững tác động biến đổi gây ra bởi enzym Hầu hết các quy trình tách chiết ADN kíchthước megabase từ cây cỏ sử dụng phương pháp này [5] Mặc dù phương phápprotoplast tách được lượng lớn DNA megabase chất lượng cao, nhưng quá trình nàylại tốn kém và tốn nhiều công lao động Một ví dụ là để chuẩn bị tách protoplasts từ
cà chua, lá non được cạo sạch lông với một lưỡi dao cạo trước khi được ủ 4-5 giờ vớicác enzyme phân hủy thành vách tế bào Với cây lúa miến, Woo và cs (1995) tìm thấycách tốt nhất để tạo ra lượng lớn Protoplasts để tách DNA megabase là để chàcarborundum trên cả hai mặt của lá cây với một cây cọ, 50 vết mỗi bên, trước khi ủ 4-
5 giờ với emzyme cellulysin Do đó, lượng thời gian trước khi nhúng trong agarose có
Trang 13thể lên tới 7-9 tiếng, tùy thuộc vào lượng nguyên liệu lá được xử lý Hơn nữa, vì mỗiloài thực vật đòi hỏi một tập hợp các điều kiện khác nhau để tạo ra protoplasts,phương pháp chỉ hiệu quả nếu được nghiên cứu thiết kế đặc trưng cho từng loài thựcvật
Một số nhà nghiên cứu đã thử nghiệm tách ADN kích thước megabase từ nhânvới mức độ thành công khác nhau: Mô tươi hoặc đông lạnh được đồng nhất với mộtmáy xay hoặc cối và chày Nhân sau đó bị tách và nhúng như trên Chất lượng củaADN tốt tương đương ADN tách từ protoplasts, thường đậm đặc hơn, và có chứa mộtlượng thấp hơn của ADN lục lạp Ưu điểm chính của phương pháp này là kinh tế vàkhông mất nhiều công lao động như các phương pháp tách từ lục lạp Thời gian cần đểtách DNA nhân và gắn trên thạch thường ít hơn 2 giờ
Năm 1997, Peterson và cộng sự đã xây dựng một qui trình tách chiết ADN đểthu được nồng độ ADN lớn và độ tinh sạch cao từ cây cà chua Quy trình có nhữngđặc điểm đặc trưng phù hợp để sử dụng trong việc xây dựng thư viện ADN cũng nhưnhiều ứng dụng sinh học phân tử khác:
(a) Trước khi đồng nhất hóa, mô được được xử lý với ether để làm nhân dễ vỡ vụnhơn Xử lý bằng ether làm tăng đáng kể lượng nhân [38] Quá trình đồng nhấtđược thực hiện sử dụng máy trộn đơn giản
(b) Đệm phân lập nhân (MEB) được thiết kế để xử lý các vấn đề thường gặp trongquá trình tách chiết ADN thực vật Đầu tiên, đệm có chứa 2-methyl-2,4-pentanediol (MPD), một chất giúp ổn định nhân và ngăn quá trình phân giảitrước trưởng thành (premature) Lượng nhân thu được sử dụng MEB cao hơn
10 lần so với đệm chỉ sử dụng sucrose [24] Đệm cũng có chứa chất chống oxihóa beta-mercaptoethanol, sodium diethyldithiocarbamate và sodiummetabisulfite Các chất này hạn chế sự oxi hóa của các polyphenols Ở dạng đãoxy hóa, polyphenols tạo liên kết đồng hóa trị với ADN làm chuyển thành màunâu và không còn sử dụng được Polivinylpyrrolidone trong đệm hấp phụ cácchất polyphenolic ngăn nó tương tác với ADN L-lysine và EGTA ngăn enzymenội sinh tiêu hủy ADN
(c) pH thấp của đệm (pH 6.0) ngăn quá trình oxi hóa polyphenol Sau khi đồngnhất hóa, thêm triton X-100 với nồng độ 0.5% tác dụng ưu tiên phân giải lụclạp và ti thể Sự có mặt của cation hóa trị 2 (Mg2+) trong MEB ngăn sự phângiải nhân gây ra bởi Triton X-100
(d) Nhân được tách ra khỏi đám tạp vụn bằng cách ly tâm theo thang gradientPercoll Các bước ly tâm tốc độ thấp được dùng để loại bỏ một số (thậm chí là
đa số) các hạt tinh bột thường kết vón với nhân