BLAST là một công cụ tìm kiếm tương tự cục bộ được sử dụng rộng rãi để xác định trình tự tương đồng. Khi trình tự gen (trình tự protein hoặc trình tự nucleotide) được sử dụng làm truy vấn để tìm kiếm trình tự tương đồng trong bộ gen, kết quả tìm kiếm, được biểu thị dưới dạng danh sách các cặp điểm cao (HSP), là các đoạn của gen ứng cử viên thay vì gen ứng cử viên đầy đủ chiều dài. Các HSP có liên quan (Tín hiệu có liên quan), đại diện cho các gen ứng cử viên trong trình tự bộ gen đích, được chôn trong một báo cáo có chứa hàng trăm đến hàng ngàn HSP ngẫu nhiên (tiếng ồn ầm ầm). Do đó, kết quả BLAST thường áp đảo và khó hiểu ngay cả với người dùng có kinh nghiệm. Để sử dụng hiệu quả BLAST, cần có một chương trình để trích xuất các HSP có liên quan đại diện cho các gen tương đồng ứng cử viên từ toàn bộ báo cáo HSP. Để đạt được mục tiêu này, chúng tôi đã thiết kế một thuật toán dựa trên đồ thị, genBlastA, tự động lọc HSP thành các nhóm được xác định rõ, mỗi nhóm đại diện cho một gen ứng cử viên trong bộ gen mục tiêu. Tính mới của genBlastA là một số liệu độ dài cạnh phản ánh một tập hợp các yêu cầu có động cơ sinh học để mỗi con đường ngắn nhất tương ứng với một nhóm HSP đại diện cho một gen tương đồng. Chúng tôi đã chứng minh rằng thuật toán mới này vừa hiệu quả vừa chính xác để xác định các chuỗi tương đồng và nó vượt trội hơn so với các phương pháp tiếp cận hiện có với các chức năng tương tự. Tính mới của genBlastA là một số liệu độ dài cạnh phản ánh một tập hợp các yêu cầu có động cơ sinh học để mỗi con đường ngắn nhất tương ứng với một nhóm HSP đại diện cho một gen tương đồng. Chúng tôi đã chứng minh rằng thuật toán mới này vừa hiệu quả vừa chính xác để xác định các chuỗi tương đồng và nó vượt trội hơn so với các phương pháp tiếp cận hiện có với các chức năng tương tự. Tính mới của genBlastA là một số liệu độ dài cạnh phản ánh một tập hợp các yêu cầu có động cơ sinh học để mỗi con đường ngắn nhất tương ứng với một nhóm HSP đại diện cho một gen tương đồng. Chúng tôi đã chứng minh rằng thuật toán mới này vừa hiệu quả vừa chính xác để xác định các chuỗi tương đồng và nó vượt trội hơn so với các phương pháp tiếp cận hiện có với các chức năng tương tự. Ví dụ: BLAST phát hiện các vùng tương tự giữa chuỗi truy vấn và chuỗi mục tiêu trong cơ sở dữ liệu. Như minh họa trong Hình 1, mỗi trận đấu giữa đoạn chuỗi truy vấn và đoạn chuỗi đích được báo cáo là một cặp điểm cao (HSP), bao gồm một cặp chuỗi: Q, T, trong đó Q là một đoạn từ chuỗi truy vấn (nghĩa là , phân đoạn truy vấn) và T là phân đoạn khớp từ chuỗi mục tiêu trong cơ sở dữ liệu đích (nghĩa là phân đoạn đích). Khi tìm kiếm BLAST trả về nhiều HSP cho một gen truy vấn (chuỗi protein hoặc chuỗi cDNA) trong bộ gen đích, nó cho thấy sự tồn tại của một hoặc nhiều gen tương đồng trong bộ gen (hoặc cơ sở dữ liệu nucleotide), với mỗi HSP thường tương ứng với một exon BLAST chỉ định cho mỗi HSP một điểm bit, giá trị kỳ vọng ( E value), cũng như tỷ lệ phần trăm nhận dạng (PID) và các giá trị tương tự. Ví dụ, khi protein được mã hóa bởi Caenorhabd viêm Elegansgen C11G6.3 được sử dụng làm truy vấn TBLASTN cho bộ gen C. Elegans , nhiều HSP được báo cáo. Mỗi HSP là duy nhất, với E value và PID tương ứng . Trong số các HSP này, một số có thể đại diện cho các gen ứng cử viên và có thể cung cấp cho các nhà sinh vật học một điểm khởi đầu có ý nghĩa để nghiên cứu thêm, trong khi những người khác là các cú đánh ngẫu nhiên. Do đó, mặc dù BLAST và các công cụ tìm kiếm tương tự khác tạo ra danh sách các HSP, chúng không tiết lộ HSP nào đại diện cho các gen ứng cử viên, chứ đừng nói đến việc có bao nhiêu gen tương đồng tồn tại trong bộ gen đích.
Trang 1BLAST là một công cụ tìm kiếm tương tự cục bộ được sử dụng rộng rãi để xác định trình tự tương đồng Khi trình tự gen (trình tự protein hoặc trình tự nucleotide) được sử dụng làm truy vấn để tìm kiếm trình tự tương đồng trong bộ gen, kết quả tìm kiếm, được biểu thị dưới dạng danh sách các cặp điểm cao (HSP), là các đoạn của gen ứng cử viên thay vì gen ứng cử viên đầy
đủ chiều dài Các HSP có liên quan (Tín hiệu có liên quan), đại diện cho các gen ứng cử viên trong trình tự bộ gen đích, được chôn trong một báo cáo có chứa hàng trăm đến hàng ngàn HSP ngẫu nhiên (tiếng ồn ầm ầm) Do đó, kết quả BLAST thường áp đảo và khó hiểu ngay cả với người dùng có kinh nghiệm Để sử dụng hiệu quả BLAST, cần có một chương trình để trích xuất các HSP có liên quan đại diện cho các gen tương đồng ứng cử viên từ toàn bộ báo cáo HSP Để đạt được mục tiêu này, chúng tôi đã thiết kế một thuật toán dựa trên đồ thị, genBlastA, tự động lọc HSP thành các nhóm được xác định rõ, mỗi nhóm đại diện cho một gen ứng cử viên trong bộ gen mục tiêu Tính mới của genBlastA là một số liệu độ dài cạnh phản ánh một tập hợp các yêu cầu có động cơ sinh học để mỗi con đường ngắn nhất tương ứng với một nhóm HSP đại diện cho một gen tương đồng Chúng tôi đã chứng minh rằng thuật toán mới này vừa hiệu quả vừa chính xác để xác định các chuỗi tương đồng và nó vượt trội hơn so với các phương pháp tiếp cận hiện
có với các chức năng tương tự Tính mới của genBlastA là một số liệu độ dài cạnh phản ánh một tập hợp các yêu cầu có động cơ sinh học để mỗi con đường ngắn nhất tương ứng với một nhóm HSP đại diện cho một gen tương đồng Chúng tôi đã chứng minh rằng thuật toán mới này vừa hiệu quả vừa chính xác để xác định các chuỗi tương đồng và nó vượt trội hơn so với các phương pháp tiếp cận hiện có với các chức năng tương tự Tính mới của genBlastA là một số liệu độ dài cạnh phản ánh một tập hợp các yêu cầu có động cơ sinh học để mỗi con đường ngắn nhất tương ứng với một nhóm HSP đại diện cho một gen tương đồng Chúng tôi đã chứng minh rằng thuật toán mới này vừa hiệu quả vừa chính xác để xác định các chuỗi tương đồng và nó vượt trội hơn
so với các phương pháp tiếp cận hiện có với các chức năng tương tự Ví dụ: BLAST phát hiện các vùng tương tự giữa chuỗi truy vấn và chuỗi mục tiêu trong cơ sở dữ liệu Như minh họa trong Hình 1, mỗi trận đấu giữa đoạn chuỗi truy vấn và đoạn chuỗi đích được báo cáo là một cặp điểm cao (HSP), bao gồm một cặp chuỗi: [Q, T], trong đó Q là một đoạn từ chuỗi truy vấn (nghĩa
là , phân đoạn truy vấn) và T là phân đoạn khớp từ chuỗi mục tiêu trong cơ sở dữ liệu đích (nghĩa
là phân đoạn đích) Khi tìm kiếm BLAST trả về nhiều HSP cho một gen truy vấn (chuỗi protein hoặc chuỗi cDNA) trong bộ gen đích, nó cho thấy sự tồn tại của một hoặc nhiều gen tương đồng trong bộ gen (hoặc cơ sở dữ liệu nucleotide), với mỗi HSP thường tương ứng với một
exon BLAST chỉ định cho mỗi HSP một điểm bit, giá trị kỳ vọng ( E -value), cũng như tỷ lệ
phần trăm nhận dạng (PID) và các giá trị tương tự Ví dụ, khi protein được mã hóa
bởi Caenorhabd viêm Elegansgen C11G6.3 được sử dụng làm truy vấn TBLASTN cho bộ gen C Elegans , nhiều HSP được báo cáo Mỗi HSP là duy nhất, với E -value và PID tương
ứng Trong số các HSP này, một số có thể đại diện cho các gen ứng cử viên và có thể cung cấp cho các nhà sinh vật học một điểm khởi đầu có ý nghĩa để nghiên cứu thêm, trong khi những người khác là các cú đánh ngẫu nhiên Do đó, mặc dù BLAST và các công cụ tìm kiếm tương tự khác tạo ra danh sách các HSP, chúng không tiết lộ HSP nào đại diện cho các gen ứng cử viên, chứ đừng nói đến việc có bao nhiêu gen tương đồng tồn tại trong bộ gen đích
Trang 2Hình 1.
Nhóm các HSP thành các nhóm đại diện cho parolog (Gene1 và Gene2) song song trong bộ gen đích Để đơn giản, con số này chỉ hiển thị một phần nhỏ HSP được BLAST trả về Mỗi HSP có thể tương ứng với một đoạn mã hóa (có thể là exon) của gen, do đó một nhóm HSP có thể đại diện chung cho một gen có
chiều dài đầy đủ Mỗi ô được tô bóng ở dưới cùng của các hình đại diện cho một HSP ở vị trí bộ gen
tương ứng của nó Các gen ứng cử viên được hiển thị trên bộ gen, với exon (hộp đen) được kết nối bởi các intron (dòng) Các nhóm HSP đại diện tốt nhất cho các gen được hiển thị dưới các gen tương ứng, với các HSP có liên quan trong các nhóm được khoanh tròn Hai gen paroteous song song (Gene1 và Gene2) được hiển thị Ranh giới của hai gen phải được giải quyết chính xác.
Trong những năm qua, các giải pháp đặc biệt đã được phát triển để lọc và nhóm HSP, được sản xuất bằng BLAST và các công cụ tìm kiếm dựa trên sự tương tự khác, thành các nhóm đại diện cho gen Vấn đề là các giải pháp ad hoc này có thể giải quyết một số gen nhưng thất bại trong nhiều trường hợp Chương trình nổi tiếng nhất cung cấp chức năng phân nhóm HSP là WU-BLAST ( Lopez và cộng sự 2003), một dẫn xuất chương trình BLAST Nó có thể phân loại các HSP thành các nhóm khi người dùng kích hoạt tùy chọn topcomboE trực tiếp Trong mỗi nhóm được sản xuất bởi WU-BLAST, HSP thường liền kề và cộng tuyến Mặc dù WU-BLAST có thể nhóm thành công một số HSP thành các cấu trúc giống như gen, đối với các HSP đại diện cho các gen ứng cử viên trong các cụm song song trong bộ gen mục tiêu, WU-BLAST chắc chắn thất bại Đối với những trường hợp này, WU-BLAST có xu hướng nhóm các HSP tương ứng với các gen khác nhau vào cùng một nhóm, như được thảo luận sau Một chương trình dựa trên thuật toán tăng dần dài nhất (LIS) đã được phát triển để lọc và nhóm BLAST HSP (Zhang
2003) Tương tự như chương trình WU-BLAST, nó không giải thích một cách đáng tin cậy các HSP đại diện cho nhiều gen di truyền Một chương trình khác, BLAST2GENE, đã được phát triển để giải quyết cụ thể vấn đề đa gen di truyền (Suyama et al 2004);
Gần đây, Cui et al (2007)đã phát triển một thuật toán lọc và nhóm mới xử lý các kết quả
BLAST, lần lượt được sử dụng để xác định các gen tương đồng Các nhà điều tra đã áp dụng quy trình ba bước để lọc và nhóm các HSP đại diện cho các gen ứng cử viên: (1) lọc tất cả các HSP bằng cách loại bỏ các HSP có điểm thấp hơn giá trị heuristic; (2) nhóm HSP dựa trên khoảng cách vật lý của chúng dọc theo nhiễm sắc thể; và (3) tiếp tục lọc HSP bằng cách ước tính khoảng cách bộ gen của các vùng mục tiêu Tất cả các HSP nằm ngoài vùng mục tiêu được loại trừ khỏi phân tích sâu hơn So sánh với WU-BLAST, thất bại trong việc lọc và nhóm các HSP đại diện cho tất cả các gen tương đồng song song, chương trình này lọc chính xác và nhóm các HSP đại diện cho một số gen tương đồng song song Tuy nhiên, chương trình này có một điểm yếu quan trọng, đó là sự phụ thuộc của nó vào khoảng cách vật lý (bước 2) giữa các cấu trúc gen (các nhóm HSP) với các nhóm riêng biệt Nó giả định rằng khoảng cách giữa các gen khác nhau lớn hơn đáng kể so với khoảng cách giữa các HSP trong một nhóm, điều này không đúng, đặc biệt là đối với các gen paroteous trong các cụm song song Do việc sử dụng ngưỡng khoảng cách ad hoc
Trang 3để tách các gen liền kề, chương trình bằngCui et al (2007) không giải quyết được các gen di truyền riêng lẻ trong các cụm song song Một mặt, nếu giá trị ngưỡng khoảng cách để tách gen quá lớn, các HSP tương ứng với nhiều gen sẽ được gộp lại thành một nhóm lớn Mặt khác, nếu giá trị ngưỡng quá nhỏ, các HSP tương ứng với cùng một gen có thể được chia thành các nhóm HSP khác nhau Ngoài điểm yếu quan trọng này, chương trình của Cui et al (2007) không thể được áp dụng để lọc các HSP đại diện cho gen vì chương trình này không loại bỏ các HSP ngẫu nhiên rơi vào vùng gen có chứa gen ứng cử viên
Nhiệm vụ lọc và nhóm đặc biệt khó khăn khi gen truy vấn có số lượng lớn gen di truyền song song trong bộ gen đích, như minh họa trong Hình 1.Hình 1 cho thấy một gen truy vấn có thể có hai (hoặc nhiều) gen tương đồng (Gene1 và Gene2) nằm ở các vùng gen liền kề Người ta biết rằng một số lượng lớn gen trong hầu hết các bộ gen được giải trình tự cho đến nay là một phần
của cụm gen tương đồng song song Ví dụ, trong bộ gen của giun tròn C Elegans , hơn 1400 gen
hóa trị tạo thành nhiều cụm gen song song, mỗi gen chứa hai hoặc nhiều gen tương đồng
( Robertson và Thomas 2006) Do đó, một chương trình có khả năng lọc và lắp ráp các HSP đại diện cho các gen trong các cụm song song là rất quan trọng
Trong dự án này, chúng tôi đã phát triển một thuật toán dựa trên đồ thị mới, genBlastA, để giải quyết trực tiếp thách thức được mô tả ở trên, trong số các vấn đề khác, trong việc lọc và lắp ráp HSP vào các vùng gen gen Một tính năng đặc biệt của genBlastA là nó không phụ thuộc vào việc sử dụng ngưỡng ad hoc để lọc các HSP nhiễu và khoảng cách vật lý giữa các gen mục tiêu Thay vào đó, genBlastA mô hình hóa các mối quan hệ và các ràng buộc giữa các HSP dưới dạng biểu đồ có hướng, chỉ định biểu đồ HSP và mô hình hóa vấn đề lọc và lắp ráp HSP như một tìm kiếm các đường đi ngắn nhất trong biểu đồ này Tính mới của thuật toán dựa trên biểu đồ này
là một số liệu độ dài cạnh sáng tạo phản ánh một tập hợp các yêu cầu có động lực sinh học để mỗi con đường ngắn nhất tương ứng với một nhóm HSP đại diện cho một gen tương
đồng Không giống như các phương pháp phân nhóm ad hoc hiện có,tối ưu hóa độ dài đường dẫn
để nắm bắt tốt nhất chất lượng của một nhóm HSP làm gen ứng cử viên Do đó, phương pháp của chúng tôi mạnh mẽ hơn và nó tìm ra một giải pháp tối ưu (liên quan đến một số liệu độ dài nhất định) mà không áp đặt một ràng buộc trước đó (tức là ngưỡng ad hoc) trên cấu trúc gen Chúng tôi đã thử nghiệm hiệu suất của genBlastA trong việc lọc và lắp ráp các HSP được tìm
thấy trong bộ gen của hai loài tuyến trùng có liên quan chặt chẽ với nhau: C
Elegans ( Consortium 1998 ) và Caenorhabd viêm briggsae ( Stein và cộng sự 2003 ) Những bộ gen này đã được chọn để thử nghiệm vì cả hai đã được chú thích rộng rãi Nghiên cứu của chúng tôi cho thấy hiệu suất của genBlastA tốt hơn đáng kể so với WU-BLAST và chương trình
của Cui et al (2007)
Đi đến:
Các kết quả
Trong dự án này, chúng tôi đã phát triển chương trình genBlastA (được mô tả trong Phương thức) sử dụng thuật toán dựa trên biểu đồ mới, cung cấp cho chương trình khả năng tuyệt vời để xác định các nhóm HSP đại diện cho orthologs (gen ở các loài khác nhau nhưng có cùng nguồn gốc trong quá trình tiến hóa), parolog ( các gen được nhân đôi trong một loài), cũng như các gen mới (các gen chưa được xác định)
Trang 4Giải quyết các gen di truyền trong các cụm song song
Để kiểm tra khả năng của ba chương trình để giải quyết các gen trùng lặp song song, chúng tôi
đã kiểm tra các nhóm HSP được tạo ra cho 30 gen truy vấn trong bộ gen kiểm tra là thành viên của các họ gen lớn Để so sánh, sau khi chúng tôi xác định các nhóm HSP sử dụng genBlastA, WU-BLAST và ML, chúng tôi đã giữ lại tất cả các khu vực ứng cử viên với độ bao phủ truy vấn
≥50% Các nhóm HSP sau đó đã được kiểm tra và chia thành hai loại: Các nhóm đặc biệt và các nhóm không chuyên biệt Một nhóm HSP được gọi là cụ thể nếu vùng gen tương ứng chỉ chứa một gen chú thích và được gọi là không đặc hiệu nếu vùng đó có nhiều gen chú thích Các nhóm HSP có độ tương tự cao với truy vấn và chỉ chứa các gen đơn lẻ có khả năng là parolog thực
sự.Hình 2 minh họa một ví dụ, trong đó có năm gen paroteous trong một cụm gen song
song Đúng như dự đoán, WU-BLAST chỉ xác định chính xác một gen mục tiêu và không thể tạo
ra các nhóm HSP tương ứng với bốn gen còn lại ML đã tạo ra ba nhóm, hai trong số đó chứa nhầm HSP tương ứng với các gen lân cận khác ML đã bỏ lỡ các nhóm cho hai gen mục tiêu
(T27B7.4 [ nhr-115 ] và T27B7.6a [ nhr-228 ]) và nhóm HSP bị nhầm lẫn tương ứng với
T27B7.6a với nhóm HSP tương ứng với T27B7.5 ( nhr-227 ) (Hình 2 ) Ngược lại, genBlastA đã giải quyết thành công tất cả năm gen, tạo ra năm nhóm HSP
Trang 5Hình 2.
Nhóm các HSP thành các nhóm đại diện cho các gen riêng lẻ genBlastA đã có thể giải quyết tất cả năm thành viên, trong khi ML chỉ giải quyết được hai và WU chỉ có một Các mô hình gen được hiển thị trong theo dõi Mô hình gen HSP được hiển thị dưới dạng hộp màu xanh trong bản nhạc Tất cả HSP Màu sắc biểu thị các PID khác nhau cho HSP Màu tối hơn cho thấy PID cao hơn Các bản nhạc genBlastA Group,
ML Group và WU Group hiển thị các nhóm HSP được trả về bởi genBlastA, ML và WU-BLAST, tương ứng.
Tóm lại, khi BLAST được thực thi với cài đặt chưa được khai thác trong các bộ EvsE, tỷ lệ trung bình của các nhóm HSP cụ thể theo genBlastA là ∼80%, cao hơn đáng kể so với WU-BLAST (∼20%) hoặc ML (20%) 40%) ( Hình 3) Các kết quả tương tự đã được quan sát khi BLAST được thực hiện với cài đặt bị rách Do đó, trong mọi trường hợp, genBlastA có thể giải quyết các nhóm HSP cụ thể hơn theo các bản sao song song so với WU-BLAST hoặc ML WU-BLAST thường tạo ra nhiều nhóm HSP, nhưng chúng thường kéo dài các vùng có nhiều gen (do đó không đặc hiệu) Do đó, các nhóm WU-BLAST kết hợp các gen di truyền song song, dẫn đến hiệu suất kém trong việc giải quyết các gen di truyền song song ML có hiệu suất kém do sử
Trang 6dụng ngưỡng khoảng cách Đặc biệt, khi ngưỡng khoảng cách tăng lên, khả năng ML giải quyết các nhóm parologous khoảng cách gần nhau sẽ giảm
Hình 3.
Nhóm các HSP để biểu diễn các gen tương đồng riêng lẻ trong các cụm song song Hình này cho thấy tỷ
lệ phân giải trung bình cho tổng số 30 cụm gen được nhân đôi trong bộ dữ liệu EvsE cho genBlastA (GB), Cui et al (2007) (ML) và WU-Blast (WU) Tỷ lệ của các nhóm cụ thể được tính bằng số lượng gen được phân giải trên tổng số gen trong mỗi cụm gen song song Một gen được coi là được giải quyết nếu nhóm HSP trùng lặp với chỉ một gen duy nhất trong WormBase và độ tương tự nhịp là ≥50% Gaps và unsaps đại diện cho hai kết quả BLAST độc lập bằng cách sử dụng cài đặt bị rách hoặc cài đặt không bị chặn Giá trị alpha GB là 0,5 Ngưỡng khoảng cách ML là 1000 Thanh lỗi, SE (***) Ý nghĩa thống kê
( P <0,001) theo t- test của Sinh viên được ghép nối
Tìm kiếm các nhóm chỉnh hình
Trong thử nghiệm này, nhóm HSP được xếp hạng hàng đầu tương ứng với từng gen truy vấn được đánh giá bằng cách so sánh với gen dự kiến được chú thích trong WormBase (WS170) Đầu
tiên, chúng tôi so sánh tỷ lệ chính xác của ba chương trình khi các gen C Elegans được sử dụng làm gen truy vấn để tìm kiếm các gen được xếp hạng hàng đầu trong C Elegansbộ gen Tỷ lệ
chính xác được xác định là tỷ lệ phần trăm của các nhóm HSP được lắp ráp chính xác Tỷ lệ chính xác cho genBlastA là 97,2%, cao hơn nhiều so với WU-BLAST và ML, tương ứng là 67,0% và 82,8% Để so sánh chính xác hơn, sự giống nhau hoặc trùng lặp giữa nhóm HSP và gen
dự kiến đã được định lượng Chúng tôi đã sử dụng hai tiêu chí sau để đánh giá các nhóm HSP được xếp hạng hàng đầu: (1) phạm vi truy vấn và (2) khoảng cách gen Phạm vi truy vấn đo lường sự tương đồng giữa nhóm HSP và gen truy vấn Nó được định nghĩa là tỷ lệ của chuỗi truy vấn được bao phủ bởi các HSP trong nhóm HSP được xác định bởi mỗi trong số ba chương trình Một chương trình nên xác định nhóm HSP bao gồm tốt nhất gen truy vấn Khoảng cách bộ gen đo lường mức độ chồng chéo giữa vùng gen được đưa ra bởi nhóm HSP và vùng gen dự kiến trong bộ gen mục tiêu Chúng tôi đã đánh giá điều này bằng cách sử dụng độ tương tự của
Trang 7Jaccard: Đối với vùng gen mục tiêu được chú thích RA và vùng gen được báo cáo R R , sự giống nhau của chúng là (| R A R R | / | R A R R |) Kết quả này bằng 0 khi hai vùng không trùng nhau
Kiểm tra phạm vi truy vấn
Hình 4, A và C , hiển thị phạm vi truy vấn trung bình cho 464 gen truy vấn trong bộ gen thử nghiệm Khi BLAST được thực thi bằng cách sử dụng cài đặt chưa được khai thác trong thử nghiệm EvsE (Hình 4A ) và thử nghiệm EvsB (Hình 4 ), genBlastA xác định các nhóm HSP với
độ bao phủ truy vấn gần 100% và vượt trội đáng kể cả WU-BLAST và ML Tương tự, khi BLAST được thực thi bằng cài đặt bị rách, genBlastA vượt trội đáng kể so với cả WU-BLAST
và ML trong thử nghiệm EvsE (Hình 4A ) và thử nghiệm EvsB (Hình 4 )
Hinh 4.
( A ) Phạm vi bảo hiểm trung bình cho tập dữ liệu EvsE ( B ) Độ tương tự nhịp trung bình cho tập dữ liệu EvsE ( C ) Bảo hiểm trung bình cho tập dữ liệu EvsB ( D ) Độ tương tự nhịp trung bình cho tập dữ liệu
EvsB Trong mọi trường hợp, số liệu biểu thị kết quả trung bình trên 464 gen thử nghiệm cho ba chương trình khác nhau genBlastA (GB), Cui et al (2007) (ML) và WU-Blast (WU) Gaps và unsaps đại diện cho hai kết quả BLAST độc lập bằng cách sử dụng cài đặt bị rách hoặc cài đặt không bị chặn Độ tương tự của khoảng cách được tính bằng độ tương tự của Jaccard Giá trị alpha GB là 0,5 Ngưỡng khoảng cách ML là
1000 Thanh lỗi, SE (***) Ý nghĩa thống kê ( P <0,001) theo t- test của Sinh viên được ghép nối
Trang 8Kiểm tra nhịp gen
Như được hiển thị trong Hình 4B , khi BLAST được chạy bằng cài đặt chưa được khai thác, đối với cả hai thử nghiệm EvsE và EvsB, genBlastA vượt trội đáng kể so với cả WU-BLAST và ML bởi các lề lớn, cho thấy rằng các vùng gen được dự đoán bởi WU-BLAST và ML các khu vực genomic thực sự Tương tự, khi BLAST được chạy bằng cài đặt bị rách, đối với cả hai bài kiểm tra EvsE và EvsB, genBlastA vượt trội hơn cả WU-BLAST và ML, trong khi WU-BLAST vượt trội hơn ML
Được kết hợp với nhau, genBlastA vượt trội hơn cả WU-BLAST và ML trong việc xác định các nhóm HSP chỉnh hình
Xác định gen mới
Vì genBlastA có thể được áp dụng để xác định hiệu quả các vùng gen tương đồng trong bộ gen mục tiêu, chúng tôi cho rằng nó có thể được sử dụng để xác định các gen di truyền mới đã bị bỏ qua bởi các phương pháp khác Để chứng minh điều này, chúng tôi đã kiểm tra xem genBlastA
có thể được sử dụng để xác định các nhóm HSP trong bộ gen C Elegans tương đồng với các gen
kiểm tra và không trùng lặp với bất kỳ chú thích gen hiện có nào, do đó, xác định các gen tiểu thuyết giả định hoặc các giả thuyết mới
Chúng tôi đã đánh giá tất cả các vùng gen tương đồng ứng cử viên cho 464 gen truy vấn cho những gen thể hiện cả phạm vi bao phủ gen truy vấn quan trọng (> 80%) và không tương ứng với các gen đã biết Chúng tôi tìm thấy tám ứng cử viên Đặc biệt, bốn trong số chúng chứa các gen tiểu thuyết giả định tương đối dài (> 300 axit amin) (Bảng bổ sung 1; Hình 5 ) Những gen tiểu thuyết giả định này sẽ được thử nghiệm trong phòng thí nghiệm để kiểm tra xem chúng có phải là gen thật hay không Do bộ gen thử nghiệm chiếm ∼2% bộ gen của C Elegans , chúng tôi ước tính genBlastA sẽ xác định hàng trăm gen tương đồng mới (bao gồm hàng trăm gen dài) trong toàn bộ bộ gen Do đó, phát hiện của chúng tôi đã chứng minh rằng genBlastA có khả năng xác định các gen di truyền mới
Trang 9Hình 5.
( A ) HSP được trả về bởi BLAST Q 1 , Q 2 , Q 3 và Q 4 đại diện cho các phân đoạn truy vấn, trong khi T 1 ,
T 2 , T 3 , T 4 , T 5 và T 6 đại diện cho các phân đoạn mục tiêu ( B ) Ví dụ về các nhóm HSP ( C ) Biểu đồ HSP, với các đường liền nét thể hiện các cạnh và các chấm chấm biểu thị các cạnh bỏ qua ( D ) Biểu đồ
HSP, với các thanh dọc biểu thị các cạnh tách biệt.
Đi đến: Thảo luận
BLAST và các chương trình tìm kiếm có liên quan đã được sử dụng rộng rãi để xác định trình tự tương đồng vì chúng nhạy cảm và hiệu quả trong việc tìm kiếm các đoạn tương đồng cho các gen truy vấn Tuy nhiên, kết quả BLAST thường chứa một số lượng lớn HSP và có thể là thách thức nếu không áp đảo cho người dùng cuối GenBlastA chương trình của chúng tôi cung cấp một cách hiệu quả để diễn giải danh sách HSP lớn được báo cáo bởi BLAST để cho phép người dùng tập trung vào các mục tiêu mà họ thấy thú vị genBlastA cho phép người dùng xác định một cách hiệu quả các vùng gen tương đồng đại diện cho các gen ứng cử viên có chiều dài đầy đủ, thay vì các đoạn của gen (HSP) Do đó, genBlastA trao quyền cho người dùng bằng cách cho phép họ xác định hiệu quả các gen ứng cử viên trong bộ gen mục tiêu Điều này sẽ làm cho BLAST và các chương trình liên quan thậm chí hữu ích hơn
Phân tích của chúng tôi đã chỉ ra rõ ràng rằng genBlastA vượt trội hơn các chương trình hiện có được phát triển trước đây với các mục tiêu tương tự Đặc biệt, genBlastA rất hiệu quả trong việc nhóm các HSP tương ứng với các gen riêng lẻ trong các cụm gen tương đồng Cả WU-BLAST
và chương trình được phát triển bởi Cui et al (2007) thất bại trong nhiệm vụ này Ngoài ra, mặc
dù ML hoạt động tốt hơn WU-BLAST trong việc giải quyết nhiều gen di truyền trong các cụm song song, chương trình ML hiện tại chưa sẵn sàng cho công việc này vì chương trình ML hiện tại không có khả năng loại bỏ HSP ngẫu nhiên trong các vùng gen
Trang 10Khả năng giải quyết hiệu quả các nhóm HSP bằng genBlastA sẽ cho phép người dùng tận dụng các nhóm HSP, rất hữu ích theo nhiều cách Đầu tiên, genBlastA có thể được các nhà nghiên cứu
sử dụng để nhanh chóng xác định vị trí cấu trúc gen ứng cử viên trong các vùng gen tương đồng
đã xác định trong bộ gen mục tiêu So với bộ sưu tập HSP lớn được báo cáo bởi BLAST và các chương trình tương tự, các nhóm HSP được xếp hạng cung cấp thông tin hữu ích hơn nhiều liên quan đến cấu trúc gen mục tiêu đầy đủ, thay vì các đoạn gen mục tiêu Vì người dùng cuối như nhà sinh học thực nghiệm thường quan tâm đến gen hơn, genBlastA làm cho kết quả tìm kiếm dễ tiếp cận và có ý nghĩa hơn đối với họ
Thứ hai, genBlastA có thể được sử dụng để tiền xử lý các chuỗi DNA bộ gen cho các chương trình tìm kiếm gen, bao gồm cả genewise ( Birney et al 2004 ) và exon Cả ( Slater và Birney
2005) Cả genewise và exon Cả đều được sử dụng rộng rãi để dự đoán gen dựa trên tương
đồng Tuy nhiên, cả hai chương trình, đặc biệt là genewise, đều có giá trị tính toán khi được sử dụng để tìm kiếm các gen ứng cử viên trong toàn bộ bộ gen Hiệu suất của chúng có thể được tăng cường đáng kể nếu không gian tìm kiếm bộ gen của chúng bị giảm genBlastA, có khả năng xác định các vùng gen ứng cử viên, có thể được sử dụng một cách hiệu quả để xử lý trước các trình tự gen để giảm không gian tìm kiếm Nó cũng có thể được tích hợp vào chương trình bởi Cui et al (2007) để xác định các gen tương đồng
Thứ ba, các HSP này có thể được sử dụng để giải quyết các cấu trúc gen, bằng tay hoặc tính toán Các mô hình gen ứng cử viên có thể được xác định chính xác bởi các HSP trong mỗi nhóm HSP, thông tin ghép nối exron intron ở các cạnh của HSP, cũng như sự tương đồng giữa các gen truy vấn và ứng cử viên Một chương trình dự đoán gen dựa trên điều này đang được phát triển
và sẽ được báo cáo riêng
Đi đến: Phương pháp
Định nghĩa vấn đề
Trong nghiên cứu này, chúng tôi nghiên cứu vấn đề sau: đưa ra một chuỗi truy vấn (gen), đó là protein (sản phẩm gen) và cơ sở dữ liệu về trình tự gen mục tiêu, chúng tôi muốn xác định tất cả các vùng gen tương đồng có chứa gen mục tiêu (gen trong trình tự đích tương đồng với gen truy vấn) Đầu tiên, là một bước tiền xử lý, chúng tôi áp dụng BLAST để tìm sự sắp xếp cục bộ giữa chuỗi truy vấn và chuỗi mục tiêu Bước này tạo ra một danh sách các HSP, với mỗi HSP chứa thông tin sau: (1) phân đoạn đích T và vị trí của nó trong chuỗi mục tiêu và phân đoạn truy vấn
tương ứng Q và vị trí của nó trong chuỗi truy vấn, (2) một E-giá trị và (3) một giá trị PID Trong
bước thứ hai, chúng tôi lọc và nhóm các HSP sao cho mỗi nhóm HSP tạo thành một vùng ứng cử viên chứa gen mục tiêu, được gọi là vùng gen ứng cử viên genBlastA tập trung vào bước thứ hai
Một ví dụ về danh sách các HSP được hiển thị trong Hình 5A , trong đó sự tương ứng giữa phân đoạn đích (T) và phân đoạn truy vấn (Q) trong HSP được minh họa bằng các đường chấm
chấm Ví dụ: [Q 1 , T 1 ] và [Q 1 , T 2 ] đại diện cho hai HSP khác nhau HSP có thể trùng lặp về vị trí bộ gen và / hoặc tương ứng truy vấn của chúng Lưu ý rằng các HSP được hiển thị trong hình