Mục đích cuối cùng của các chương trình ghi chú gene là chỉ định hay dự đoán một cách chính xác trình tự của từng gene một trong bộ gene của một sinh vật nào đó.. Dựa trên bộ gene của
Trang 1Chỉ định gene:
Lấp lỗ hổng bộ
gene giun tròn
Mục đích cuối cùng của các
chương trình ghi chú gene là chỉ định hay dự đoán một cách chính xác trình tự của từng gene một trong bộ gene của một sinh vật
nào đó Dựa trên bộ gene
của Caenorhabditis elegants và
bằng cách sử dụng chương trình
Trang 2ghi chú gene có tên là
TWINSCAN, Wei và cộng sự
(Genome Res, 15, 577-582 (2005))
đã khám phá 1.119 gene mới của lòai giun tròn này
Mặc dù bộ gene của C elegants đã
hòan tất và công bố rộng rãi từ năm
1998, nhưng đến nay vẫn còn hàng ngàn gene mà người ta chưa tìm
thấy các dấu hiệu hay bằng chứng
là thực sự chúng tồn tại (các bằng chứng cho sự hiện diện của một
gene có thể dò thấy bằng cDNA
hay EST) Do vậy, đến nay đã có rất nhiều chương trình ghi chú gene
đã được phát triển và tối ưu hóa
riêng cho lòai giun tròn này Nằm
Trang 3trong khuynh hướng nghiên cứu đó, Wei và cộng sự đã sử dụng các
nguồn dữ liệu sẵn có để tiến hành các phân tích của riêng họ Điểm
đặc biệt là Wei và cộng sự lại sử
dụng thuật tóan TWINSCAN vốn
là một thuật tóan trước đây được
xây dựng để ghi chú gene người
Điểm nổi bật trong phương pháp
của họ là sự kết hợp khuynh hướng HMM (Hidden Markov Model) với các thông tin thu được từ quá trình
so sánh genome cần so sánh (C
elegants) và genome chuẩn (C
briggsae)
Khi sử dụng thông tin từ tòan bộ
genome C elegants, các tác giả đã
Trang 4chỉ ra được 2.891 khung đọc mở không trùng với các khung đọc mở
đã được ghi chú trên kho dữ liệu WormBase Kế tiếp họ kiểm tra
256 khung đọc mở này bằng quy trình khuyếch đại và tạo dòng Kết quả cho thấy 146 khung đọc mở
(55%) là những khung đọc mở
hòan tòan mới Điều đặc biệt phải chú ý là những gene mới khám phá
có đặc tính bảo thủ khá kém giữa
hai lòai C elegant và C briggsae,
nên nhớ những gene bảo thủ kém thường rất khó khăn để chỉ định và phân biệt chúng Qua đó cho thấy phương pháp mà các tác giả sử
dụng đã chứng tỏ điểm mạnh của
nó
Trang 5Câu hỏi đặt ra là tại sao hướng
nghiên cứu của We và cộng sự lại thành công (?) Các tác giả giải
thích rằng chính là nhờ mô hình mà TWINSCAN sử dụng để phân biệt, chỉ định gene Mô hình này dựa
trên (1) điểm nối
GC-AG, (2) phép phân bố độ dài
intron và (3) kết quả sắp xếp
genome C elegants với C
briggsae Chính mô hình này quyết
định độ chính xác khi nhận diện,
chỉ định gene của TWINSCAN
Như vậy, theo kết quả nghiên cứu của Wei và cộng sự thì tổng số
lượng gene thực chất ở lòai C
Trang 6elegants sẽ có sự thay đổi, mặc dù
bộ gene của C elegants là một
trong những bộ gene được ghi chú
kỹ lưỡng nhất Phương pháp này có khả năng áp dụng cho nhiều bộ
gene khác như Arapidopsis
thaliana vốn còn hơn 1000 gene
chưa được ghi chú và hàng ngàn
gene bị ghi chú sai Được đánh giá
là phương pháp dựa trên máy tính đầu tiên đạt được độ nhạy 60%
trong việc chỉ định nhận diện chính xác protein trong cơ thể sinh vật đa bào, nên việc nghiên cứu ghi chú
bộ gene khác trong tương lai sẽ có nhiều thuận lợi hơn