VÀ MỘT SỐ ỨNG DỤNG
Chương 10 NHẬN DIỆN ĐOẠN TĂNG CƯỜN BIỂU HIỆN GEN
3. Enhancer được xác định bởi chiến lược so sánh bộ gen
So sánh trình tự gen các loài đã được thể hiện là một cách tiếp cận hiệu quả để xác định các khu vực giả định chức năng trong DNA không mã hoá ngay cả trước khi toàn bộ trình tự bộ gen của con người và vật có xương sống
biến thể của loài được so sánh và phương pháp so sánh khác nhau, nhưng tất cả đều dựa trên nguyên tắc cơ bản giống như các trình tự chức năng có liên quan đang được chọn lọc, trong khi khu vực không có chức năng có thể di truyền và ngày càng trở nên khác nhau giữa các loài với sự gia tăng khoảng cách phát sinh loài. Kết quả là, trình tự chức năng thường "bảo tồn" hơn so với các trình tự không có chức năng khi trình tự bộ gen của các loài khác nhau được so sánh. Trình tự bảo tồn giữa các loài khác nhau do đó có thể được sử dụng để xác định các khu vực giả định chức năng, và trong số này sẽ là yếu tố điều hòa cis.
3.1. Sử dụng so sánh bộ gen với phương pháp tiếp cận
Phương pháp tiếp cận từ dưới lên đã cung cấp nền tảng ban đầu cho các so sánh giữa các loài để xác định các yếu tố điều hòa cis trong trình tự bộ gen của một gene quan tâm (ví dụ ban đầu, xem tài liệu tham khảo [36,37]). Trong trường hợp không công khai các chuỗi dữ liệu có sẵn trong toàn bộ hệ gen và các công cụ tính toán chuyên ngành cho các mục đích này, chiến lược này thường bao gồm nhân bản và trình tự của orthologous trình tự không mã hóa từ hai hoặc nhiều sinh vật, sự liên kết sử dụng và xác định các vùng bảo tồn ở cấp độ nucleotide, thường tập trung vào nhân tố phiên mã các phần tương ứng liên kết. Trong tài liệu tham khảo để thử nghiệm khám phá những trình tự này qua DNase footprinting, cách tiếp cận như vậy được gọi là "footprinting phát sinh loài".
Trong nghiên cứu này, gen là trung tâm cung cấp một bằng chứng quan trọng nhưng các giả thuyết cho rằng trình tự bảo tồn là một yếu tố dự báo chung của không mã hóa các trình tự quy định rất khó để xác minh kết luận trong trường hợp không có dữ liệu để so sánh trình tự toàn gen. Vì vậy, các tiềm năng nhận dạng so sánh hệ gen của toàn vùng trình tự điều hòa cis sớm được công nhận là một động lực quan trọng để so sánh trình tự bộ gen của chuột và vật có xương sống khác ngoài các hệ gen của con người.
3.2. Sử dụng dữ liệu về gen ở phương pháp so sánh
Ngay cả trước khi dữ liệu đầy đủ để so sánh trình tự toàn bộ hệ gen đã sẵn sàng, những giá trị của phương pháp so sánh để xác định enhancer được xác nhận trong các nghiên cứu có liên quan đến việc lập trình tự bộ gen với khoảng thời gian lớn. Ví dụ, Gottgens et al. [40] sắp xếp một khoảng 320kb của các bệnh bạch cầu tế bào gốc (SCL) vị trí ở con người, chuột, và gà để xác định loài được chọn ở khu vực quy định. Một phần của các vùng này tương ứng để biết các yếu tố điều tiết và kiểm tra chức năng của đỉnh bảo tồn trước đây dẫn đến việc phát hiện ra một enhancer thần kinh mới trong vị trí SCL. Trong một nghiên cứu khác, Loots et al. [41] xác định nhiều yếu tố không mã hóa quy định interleukin-4, -5, và -13 của một trình tự gen và sắp xếp megabase của nhiễm sắc thể 5 của con người và chuột orthologous. Các kết quả hỗ trợ thêm quan điểm cho rằng bảo tồn các trình tự không mã hóa có
thể được sử dụng để dự đoán khu vực chức năng bao gồm cả yếu tố điều hòa trong dữ liệu chuỗi gen.
Các công bốbộ gen của chuột và cá nóc vào năm 2002 đánh dấu sự kick-off cho toàn bộ gen cách tiếp cận so sánh kể từ khi lần đầu tiên có hệ thống so sánh lớn của con người với bộ gen của động vật có xương sống [42,43]. Phân tích so sánh hệ gen người và chuột đã được đặc biệt tạo ra bởi vì kích thước tương tự, 90% các gen được tổ chức trong khối syntenic trong đó thứ tự tương ứng của các gen được duy trì, và trong một phân tích ban đầu 40% của hai bộ gen đã được tìm thấy được alignable ở cấp độ nucleotide.
Thật thú vị, trong khi chỉ có ~ 1,5% bộ gen của con người và chuột mã hóa các protein, ~ 5% của các bộ gen động vật có vú đã được ước tính cho thấy nhiều hơn các chức năng mã hóa protein thường bị hạn chế trong hệ gen của chúng ta [43]. Tuy nhiên, vô số các chức năng trên DNA có khả năng không mã hóa protein, bao gồm sự hoạt hóa và quy định ràng buộc các vùng, được biết và chưa biết chức năng RNA, và các tính năng cấu trúc nhiễm sắc. Hầu hết trong số này có thể không được dự báo đáng tin cậy của những phương pháp tính toán, do vậy, có sự liên quan chức năng của các khu vực hạn chế không mã hóa ban đầu.
Sau đó chức năng kiểm tra các khu vực như bảo tồn tiết lộ, tuy nhiên, một trong những chức năng chủ yếu của hạn chế DNA không mã hóa trong thực tế dường như là không gian và có các mô đặc biệt quy định của biểu hiện gen. Một trong những lý do có thể cho điều này là kích thước lớn và các trình tự enhancer nhiều, bảo tồn qua hàng trăm basepairs, và nó có thể nhận dạng chúng thông qua so sánh toàn bộ bộ gen. Trong những thứ sau đây, tác giả cung cấp một tổng quan về chiến lược so sánh cho đến nay đã thành công sử dụng để tìm các yếu tố như cis regulatory (cho một cuộc thảo luận chi tiết hơn về các cân nhắc về việc so sánh trên một khoảng cách tiến hóa khác nhau, bao gồm cả những ưu điểm và hạn chế của các so sánh xa và gần, xem tham khảo [44]).
3.2.1. So sánh loài xa: con người - cá
Trong thời đại tiền di truyền, nghiên cứu tập trung vào gen cho rằng những tiến hóa xa so sánh có thể hữu ích để xác định các khu vực quy định liên quan đến khía cạnh cốt lõi của phát triển vật có xương sống.Ví dụ như hơn 10 năm trước đây, Aparicio et al. [45] được sử dụng so sánh giữa chuột và cá nóc (Takifugu rubripes) để xác định các yếu tố chức năng điều hòa trong vị tríHoxb4 dựa trên không mã hóa bảo tồn. Những các kết quả đã chứng minh rằng sự so sánh sâu là một công cụ hiệu quả để tăng cường khả năng dự đoán, nhưng ứng dụng củatoàn bộ gen là không thể vào thời điểm đó.
Một nghiên cứu gần đây hơn có hệ thống khai thác các tiềm năng đáng chú ý khi so sánh trình tự như xa ở động vật có xương sống để xác định các chất tăng cường gen ở quy mô lớn hơn khoảng cách di truyền [46]. Trong nghiên cứu này, các vùng gen thưa thớt xung quanh vị trí DACH của con
người đã được quét để kiểm tra trình tự mà không chỉ bảo tồn cao giữa các động vật có vú, nhưng cũng đã có trình tự bảo tồn đáng kể trongếch Nam Phi cũng như trong cá nóc. Sử dụng một trong các khảo nghiệm bộ tăng cường cơ thể, các khu vực này cực kỳ bảo tồn đã được tìm thấy sẽ làm giàu chất hỗ trợ cho vùng sao chép gen cụ thể trong phôi. Trong thực tế, rất nhiều các yếu tố bảo tồn hiện đang được thử nghiệm trong một biến đổi gen quy mô lớn tại trong phòng thí nghiệm (xem mục 4.3) được xác định bằng cách sử dụng cá nhân bảo tồn ở cá và người.
Tuy nhiên, có một số hạn chế quan trọng khi tiếp cận xa so sánh. Trước tiên, tùy thuộc vào phương pháp liên kết, chiến lược so sánh, vàsự nghiêm ngặt của các ứng dụng chọn lọc, con số báo cáo trước đó của các yếu tố không mã hoá bảo tồn được xác định bằng cách so sánh sự khác nhau giữa 1400 [47] và 5700 [48]. So với dự toán tổng số các gen mã hóa protein trong hệ gen của con người [49], điều này dẫn đến cường độ thấp hơn, cho thấy nhiều khu vực điều tiết được bỏ qua bởi những so sánh đó xa rồi. Thứ hai, để làm tăng thêm vấn đề này, nhiều yếu tố với sự bảo tồn cực kỳ sâu sắc như vậy xảy ra trong các cụm xung quanh các gen liên quan đến cơ chế phiên mã và phát triển (gen transdev).Ví dụ, 85% của 1.400 CNSs người - cá mô tả bởi Woolfe et al. [47] được tìm thấy trong các cụm trong năm hoặc nhiều yếu tố. Tổng cộng, chỉ có 165 cụm riêng biệt đã được xác định và 93% của các cụm có liên quan đến gen trans-dev. Ngược lại, phần lớn các gen có chức năng khác không liên quan với bất kỳ yếu tố vô cùng bảo tồn, mặc dù mô-đun của biểu hiện gen trong thời gian và không gian. Thứ ba, so sánh rất xa dự kiến sẽ xác định chủ yếu là các yếu tố pháp lý có liên quan đến cơ chế phân tử, phát triển hoặc sinh lý mà tồn tại trong cả hai loài được xem xét, từ đó giải thích tại sao chúng được bảo tồn. So sánh giữa người và cá do đó sẽ là các tiện ích giới hạn cho các nghiên cứu về chất hỗ trợ có liên quan đến động vật có vú, cụ thể là quá trình phát triển. Ví dụ, tác giả thực hiện phân tích so sánh truy về một tập hợp con của trái tim-cụ thể trình tự điều hòa cis ban đầu được xác định qua các nghiên cứu chức năng. Những yếu tố này biểu hiện gen trong lĩnh vực trướctim, một cấu trúc thoáng qua phát triển, và vùng trái tim bắt nguồn từ nó [50]. Đại đa số thiếu bảo tồn bên ngoài của động vật có vú, có thể là một phần do sự khác biệt trong sự phát triển tim giữa động vật có vú và động vật không phải động vật có vú (hình 1B).
3.2.2. Bảo tồn cực độ trong động vật có vú
Nếu so sánh các tiêu chí thông thường như nhận dạng 70% trong ít nhất 100 bp được sử dụng, so sánh con người-động vật gặm nhấm được sử dụng giới hạn để xác định các yếu tố enhancer. Điều này là do thực tế là hai loài chia sẻ một sự phân kỳ thời gian tương đối ngắn kể từ khi tổ tiên chung của họ cuối cùng mà kết quả tương tự như tổng thể của họ cao ngay cả trong không có chức năng khu vực bộ gen. Điều này dẫn đến việc xác định một cách thái quá của các yếu tố như được minh họa bởi những quan sát mà ~
40% của bộ gen người và chuột được alignable, nhưng chỉ 5% của bộ gen người được ước tính là dưới thanh lọc lựa chọn [43]. Trong kết quả, sử dụng con người-chuột so sánh với các thông số nhận dạng tương đối về phần trăm cho dự báo Enhancer là rất nhạy cảm, nhưng kết quả ở một tỷ lệ dương tính giả là quá cao để có ích cho hầu hết các ứng dụng [58,59].
Trong khi một giải pháp rõ ràng là để tìm kiếm loài xa hơn để so sánh hệ gen của con người, vấn đề này một phần có thể được khắc phục bằng cách sử dụng các tiêu chí bảo tồn nghiêm ngặt hơn trong so sánh con người-động vật gặm nhấm. Con người-động vật gặm nhấm "ultraconserved" là một trong những yếu tố cực kỳ bảo tồn của con người -động vật gặm nhấm và được quy định như trình tự của 200 bp hoặc hơn, gần 100% giống hệt nhau giữa con người và chuột nhà và chuột cống [60]. Vì vậy, những trình tự này của con người, chuột liên tục bảo tồn lấy ví dụ điển hình chỉ có được khoảng 250 các yếu tố như vậy mà không trùng lặp với các trình tự mã hóa protein trong hệ gen của chúng ta. Chức năng của các yếu tố này đã không được khám phá tận cùng, nhưng các nghiên cứu của các yếu tố duy nhất ultraconserved [46,61]
cũng như mã hóa di truyền của họ trong các cụm vùng gần các gen quan trọng phát triển [62] cho thấy rằng nhiều người trong số họ có thể là sự điều hòa xa của gen phiên mã.
Trong khi các yếu tố ultraconserved được đánh giá cao khả năng là chất hỗ trợ hoặc các yếu tố chức năng khác, giá trị của mình để dự đoán mô lớn của các chất hỗ trợ được giới hạn bởi vì chúng chỉ là một tập hợp tương đối nhỏ của các trình tự bảo tồn chức năng trong hệ gen của con người. Tổng số thấp của chúng cho thấy độ nhạy kém, cho thấy rằng nhiều yếu tố hoặc chức năng sẽ được bỏ qua nếu ultraconservation được sử dụng cho một đoạn của bộ gen quan tâm. Hơn nữa, bởi vì trong các tiêu chuẩn bảo tồn cực đoan của các yếu tố ultraconserved, hầu hết trong số chúng trùng với các vùng mà cũng bảo tồn giữa con người và cá. Tuy nhiên, gần đây đã cho rằng phương pháp thống kê nghiêm ngặt hơn so với khái niệm ban đầu của ultraconservation có thể cung cấp một cách lớn hơn với các ràng buộc từ so sánh con người-động vật gặm nhấm, làm tăng độ nhạy trong khi duy trì những đặc trưng gắn liền với các yếu tố ultraconserved [48 ] (xem Phần 4.1.2). các công cụ tính toán để khai thác khái niệm này đang trở nên ngày càng có sẵn [48,63,64].
3.2.3. So sánh các loài gần: bóng phát sinh loài
Đối với nghiên cứu các yếu tố pháp lý liên quan đến các khía cạnh của sinh học cụ thể đối với con người hoặc động vật linh trưởng, nhưng không tồn tại ở nhiều loài động vật gặm nhấm như so sánh xa chỉ có ích trong trường hợp trước đây đã có các tính năng quản lý đã giả định một chức năng mới trong các loài linh trưởng. Tuy nhiên, so sánh xa sẽ bỏ lỡ các yếu tố đã phát triển gần đây và có thể cụ thể cho các nhánh phát sinh loài linh trưởng. Mặt khác, so sánh với các loài linh trưởng khác không mang lại kết quả hữu ích
kể từ khi tổ tiên chung cuối cùng trong loài linh trưởng, ví dụ: ~ 25 triệu năm cho người và khỉ kiểu cũ [65].
Đây là ví dụ điển hình ở một trong các so sánh về con người và tinh tinh, trong đó tách ra từ tổ tiên chung của họ ~ 7 triệu năm trước. Giữa hai bộ gen ~ 99% của tất cả các nucleotide được bảo tồn [66], khiến các phương pháp thông thường so sánh vô ích bởi vì hầu như tất cả các vùng của bộ gen xuất hiện rất tương tự. Vấn đề này có thể được khắc phục bằng cách sử dụng mộtcách tiếp cận"bóng phát sinh loài" [67]. Trong phương pháp này, các trình tự của nhiều loài tiến hóa gần gũi như con người, khỉ không đuôi và khỉ thẳng hàng. Đây chiều sâu của một số loài cung cấp sự đa dạng nucleotide khác có thể sẽ đạt được thông qua so sánh nhiều hơn xa từng cặp như chuột- người.
Hơn nữa, cách tiếp cận này kết hợp một mô hình phát sinh loài phân tử để xem xét các mối quan hệ phát sinh loài trong số các loài khác nhau được so sánh như vậy mà thay đổi diễn ra trong một mức độ chặt chẽ hơn các loài có liên quan được đưa ra hơn so với những người ở xa hơn các loài liên quan.
Trong hệ thống sinh vật cần liên kết chặt chẽ trình tự từ nhiều loài có liên quan và vì thế cho đến nay chỉ được sử dụng trong bối cảnh các nghiên cứu tập trung vào các loci đặc biệt quan tâm [67,68]. Tuy nhiên, phương pháp này có thể sẽ trở nên ngày càng được sử dụng cho việc xác định các yếu tố pháp lý nhưng nhiều hơn và chặt chẽ hơn hệ gen liên quan có sẵn [69].