Dựa trên việc vận dụng các kỹ thuật phân lớp và gom cụm, kếthợp khai thác tính chất của dữ liệu, luận án đã có những đóng góp chính như sau.Một là, luận án đề xuất các phương pháp nhằm n
Trang 1ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
LÊ VĂN VINH
PHÂN LOẠI TRÌNH TỰ METAGENOMICS
TRÊN CƠ SỞ PHÂN LỚP VÀ GOM CỤM
LUẬN ÁN TIẾN SĨ KỸ THUẬT
Trang 2ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
LÊ VĂN VINH
PHÂN LOẠI TRÌNH TỰ METAGENOMICS
TRÊN CƠ SỞ PHÂN LỚP VÀ GOM CỤM
LUẬN ÁN TIẾN SĨ KỸ THUẬT
Chuyên ngành: Khoa học Máy tính
Mã số chuyên ngành: 62480101
NGƯỜI HƯỚNG DẪN KHOA HỌC
1 PGS TS Trần Văn Lăng
2 PGS TS Trần Văn Hoài
Trang 3LỜI CAM ĐOAN
Tác giả xin cam đoan đây là công trình nghiên cứu của bản thân tác giả Các kết quả nghiêncứu và các kết luận trong luận án này là trung thực, và không sao chép từ bất kỳ một nguồnnào và dưới bất kỳ hình thức nào Việc tham khảo các nguồn tài liệu (nếu có) đã được thựchiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định
Tác giả luận án
Lê Văn Vinh
Trang 4TÓM TẮT LUẬN ÁN
Metagenomics (còn được gọi là environmental genomics hay community genomics) là lĩnh
vực nghiên cứu cộng đồng vi sinh vật Khác với phương pháp nghiên cứu vi sinh vật truyền
thống (được gọi là microbial genomics), lĩnh vực này cho phép phân tích trực tiếp mẫu thực
nghiệm mà không cần trải qua giai đoạn nuôi cấy và phân tách từng cá thể trong phòng thínghiệm Những dự án nghiên cứu metagenomics mang đến lợi ích trong nhiều lĩnh vực như:nông nghiệp, công nghệ sinh học, khoa học môi trường
Một trong những việc quan trọng của một dự án metagenomics, được gọi là phân loại
trình tự (taxonomic binning), là nhằm sắp xếp trình tự vào các nhóm có quan hệ sinh loài
gần nhau Công việc này cũng giúp xác định nguồn gốc của trình tự trong mẫu thực nghiệm,cũng như xác định chúng quan hệ ra sao với sinh vật đã biết Kết quả của bài toán phân loại
có thể được sử dụng như là đầu vào của những bài toán khác trong một dự án metagenomicsnhư: xác định vị trí xuất hiện gien trên trình tự (annotation), ráp nối trình tự (assembly)
Có ba yếu tố chính mang đến thách thức cho bài toán phân loại trình tự metagenomics hiệnnay Thứ nhất, hầu hết công nghệ giải mã trình tự thế hệ mới (next-generation sequencing)hiện tại chỉ cho phép xử lý cho trình tự ngắn hoặc rất ngắn (nhỏ hơn 700bp) Tuy nhiên, độdài trình tự ngắn làm giảm chất lượng phân loại vì thiếu thông tin chứa đựng trong trình tự.Thứ hai, hiệu năng của giải pháp phân loại có giám sát phụ thuộc vào mức độ chính xác
và mức độ đầy đủ của cơ sở dữ liệu tham khảo Điều này dẫn đến là những giải pháp nàythường khó khăn trong việc phân loại bởi vì phần lớn vi sinh vật trên trái đất chưa đượckhám phá Cuối cùng, dự án metagenomics thường phải xử lý cho lượng dữ liệu rất lớn Yếu
tố này không chỉ làm tăng thời gian thực thi, mà còn làm giảm độ chính xác khi phân loạicủa các giải pháp
Nghiên cứu này nhằm mục tiêu đề xuất giải pháp phân loại cho dữ liệu metagenomics,
có khả năng xử lý tốt cho trình tự ngắn, và giải quyết hiệu quả cho trường hợp cơ sở dữ liệu
ii
Trang 5tham khảo không đầy đủ Dựa trên việc vận dụng các kỹ thuật phân lớp và gom cụm, kếthợp khai thác tính chất của dữ liệu, luận án đã có những đóng góp chính như sau.
Một là, luận án đề xuất các phương pháp nhằm nâng cao chất lượng của vấn đề phân loạitrình tự dựa trên sự phong phú của hệ gien Ba đóng góp chính của luận án trong vấn đề nàylà: (1) Sử dụng mô hình thu giảm vốn đòi hỏi ít chi phí tính toán để tìm ước lượng khả năngcực đại của tham số cho mô hình thống kê; (2) Vận dụng phương pháp lựa chọn mô hìnhnhằm phát hiện số cụm trong tập dữ liệu, giúp làm tăng chất lượng phân loại (3) Đề xuấtmột phương pháp đếm l-mer với độ dài thay đổi, giúp làm tăng chất lượng của giải phápphân loại dựa trên sự phong phú của hệ gien khi dữ liệu không có lỗi giải mã
Hai là, luận án đề xuất ý tưởng xây dựng tập đại diện của một tập trình tự cùng hệ giendựa trên thông tin gối đầu trình tự Tập đại diện này cho thấy nó vẫn chứa đựng đặc trưngtương đồng và hợp thành của tập trình tự ban đầu Do đó, nó có khả năng bảo toàn đặc trưngcủa tập dữ liệu gốc và có thể được vận dụng nhằm giúp giảm chi phí tính toán mà vẫn giữđược chất lượng của giải pháp phân loại
Ba là, một giải pháp không giám sát được đề xuất cho phân loại trình tự sử dụng đặctrưng tần số xuất hiện l-mer, và thông tin gối đầu giữa các trình tự Giải pháp đề xuất này,được gọi là BiMeta, sử dụng ý tưởng tìm tập đại diện của tập trình tự thuộc cùng hệ giennhằm mục đích vừa giảm chi phí tính toán, vừa đạt được chất lượng phân loại tốt BiMetabao gồm hai pha chính Trong pha đầu, trình tự được gom thành từng nhóm dựa trên thôngtin gối đầu giữa chúng Pha hai trộn các nhóm vào các cụm dựa trên đặc trưng phân bố tần
số xuất hiện l-mer được rút trích từ tập đại diện của các nhóm này
Bốn là, một giải pháp phân lớp bán giám sát, được gọi là SeMeta, được đề xuất nhằmphân loại gán nhãn cho trình tự SeMeta cũng sử dụng ý tưởng tìm tập đại diện của tập dữliệu, nhưng giải pháp này vận dụng khả năng bảo toàn tính tương đồng của chúng để phânloại trình tự Giải pháp này bao gồm hai bước chính Sau bước gom cụm sử dụng phươngpháp cải tiến của BiMeta, nó thực hiện gán nhãn từng cụm vào từng đơn vị phân loại phù
Trang 6quá trình so sánh tương đồng cũng được áp dụng giúp làm tăng chất lượng phân loại củagiải pháp.
Kết quả thực nghiệm trên dữ liệu giả lập và dữ liệu thực tế cho thấy, các giải pháp dựatrên sự phong phú của hệ gien (MetaAB và MetaAB-adv) và BiMeta đạt độ chính xác caohơn và tốn ít chi phí tính toán hơn so với các giải pháp không sử dụng dữ liệu tham khảothường được sử dụng Bên cạnh đó, SeMeta cho thấy đạt được chất lượng phân loại tốt hơn,đồng thời chi phí tính toán giảm đáng kể so với các giải pháp có giám sát dựa trên tính tươngđồng phổ biến hiện nay Các giải pháp này hứa hẹn là công cụ hữu ích cho vấn đề phân tíchmẫu thực nghiệm từ môi trường vi sinh vật
Mặc dù các giải pháp được đề xuất trong luận án này cho thấy là có khả năng phân tíchhiệu quả cho trình tự metagenomics, một số khía cạnh cần được nghiên cứu trong tương lai
kể cả về mặt lý thuyết và thực nghiệm nhằm nâng cao chất lượng phân loại Để làm tăng độchính xác của các giải pháp đề xuất, những dấu hiệu hệ gien, hay độ đo khoảng cách vectơtần số l-mer khác có thể được nghiên cứu và áp dụng cho BiMeta và SeMeta Ngoài ra, khảnăng gán nhãn trình tự vào vị trí trên cây sinh loài của SeMeta có thể được cải tiến khi mức
độ tương đồng khác nhau giữa các BLAST hits tin cậy được quan tâm, cũng như ngưỡnggiá trị thể hiện mức độ tương đồng của các trình tự theo từng bậc phân loại được khảo sát.Bên cạnh đó, vấn đề sửa lỗi trình tự hay việc áp dụng các công nghệ tính toán hiệu năng caocũng là hướng nghiên cứu có thể giúp làm tăng chất lượng phân loại, hoặc giảm chi phí tínhtoán của các giải pháp đề xuất
iv
Trang 7Metagenomics (or environmental genomics, community genomics) is the study of
micro-bial communities The discipline, different from traditional methods (micromicro-bial genomics),enables analyzing microbial samples directly, without the needs of isolating and culturingsingle organisms in laboratories Metagenomic projects have contributed in advances inmany fields, e.g., agriculture, biotechnology, and environmental science
One of the crucial tasks in a metagenomic project, referred to as binning problem, is to
sort reads into groups of closely related organisms This task also helps in identifying theorigin of the reads in an environmental sample, as well as determining how they are related
to known taxa Results of binning approaches can be used in other tasks of metagenomicanalysis, such as DNA annotation, sequence assembly
There are three main factors posing current research challenges in this field Firstly, most
of the next-generation sequencing techniques only produce short or very short reads ever, the length of short reads reduces much classification quality due to the lack of thesequence information Secondly, the performance of supervised approaches depends on theaccuracy and completeness of reference database As a result, those methods are difficult
How-to classify reads correctly because the majority of microorganisms on Earth remain covered Finally, metagenomic projects usually are performed on a huge amount of data.This factor not only makes binning approaches suffer from computational expense, but alsoreduces the classification accuracy
undis-This dissertation aims to propose efficient binning approaches for metagenomic readswhich are able to work well with sort reads, and deal with the lack or the incompleteness ofreference database Basing on the usage of classification and clustering techniques as well
as discovering characteristics of sequences, the dissertation has the following contributions
Trang 8the problems: (1) using a reduced statistical model which requires small costs to find imum likelihood estimates of its parameters; (2) applying a method of model selection todetect the number of clusters in datasets automatically, which could improve the classifi-cation quality; (3) proposing a variable-length l-mer counting method in order to boost thequality of abundance-based binning approaches in case of error-free sequencing sequences.
max-Secondly, the dissertation proposes an idea of selecting a representative of a group ofreads belonging to the same genomes using the sequence overlapping information betweenreads The representative shows that it still contains similarity-based and composition-basedfeatures Thus, it is able to preserve features of the original read group and can be applied
to reduce computational costs while still keeping the quality of binning approaches
Thirdly, a novel unsupervised method is proposed to classify metagenomic reads usingthe feature of l-mer frequency and the sequence overlapping information between reads Theproposed approach, called BiMeta, uses the idea of the selection of group representative toreduce computational costs as well as achieve good classification quality BiMeta consists
of two main phases In the first phase, reads are grouped by utilizing the information ofsequence overlapping The second phase merges the groups basing on the feature of l-merfrequency extracted from their representative
Fourthly, a semi-supervised classification method, called SeMeta, is proposed to classifyand label reads SeMeta also applies the idea of selecting representative of a read group,but it utilizes the ability of preserving the similarity-based feature to separate reads The ap-proach consists of two major steps After clustering reads using an improvement of BiMeta,
it assigns each cluster to the best suitable taxon basing on the similarity between reads in
a representative of the cluster and reference databases Besides, an efficient filtering nique is also proposed to reduce noises (ambitious hits) in results of the similarity search,which aims to produce better classification quality
tech-Experimental results on both simulated and real metagenomic datasets demonstrate thatthe abundance-based binning approaches (MetaAB and MetaAB-adv) and BiMeta are able
to achieve high accuracy and require less computational costs comparing with used unsupervised binning methods Besides, SeMeta gets higher classification quality in
commonly-vi
Trang 9different aspects, as well as need lower costs than other well-known similarity-based proaches Those methods can be used as promising tools to analyze samples from microbialcommunities.
ap-Although the proposed approaches demonstrate to be able to analyze effectively for nomic sequences, some aspects should be investigated by future theoretical and empiricalstudies to improve the proposed approaches In order to improve the quality of the pro-posed methods, other genomic signatures, or distance matrices between l-mer frequencydistributions can be studied and applied for BiMeta and SeMeta Besides, the classifica-tion quality of SeMeta on assigning sequences into an exact position in a phylogenetic treecould be improved if the differences of homologous degrees between trusted BLAST hitsare considered, and the thresholds of the homologous degrees for each taxonomic levelsare investigated The correction of sequencing errors or the applying of high-performancetechniques are also potential research trends which could help to enhance the classificationquality or reduce computational costs of the proposed approaches
Trang 10metage-LỜI CẢM ƠN
Tôi xin chân thành cảm ơn trường Đại học Bách Khoa Tp Hồ Chí Minh nói chung, và khoaKhoa học và Kỹ thuật máy tính nói riêng đã tạo mọi điều kiện và môi trường nghiên cứuthuận lợi cho tôi thực hiện luận án
Em xin chân thành cảm ơn thầy Trần Văn Lăng và thầy Trần Văn Hoài đã tận tình chỉbảo và hướng dẫn em trong suốt quá trình nghiên cứu để có thể hoàn thành đề tài này Emcũng chân thành cảm ơn thầy Lê Thanh Bình (Viện Công nghệ Sinh học - Viện Hàn lâmKhoa học và Công nghệ Việt Nam) đã hỗ trợ em trong quá trình nghiên cứu
Em xin gửi lời cảm ơn đến Thầy Cô trong khoa Khoa học và Kỹ thuật Máy tính nói chung,
và bộ môn Khoa học Máy tính, cũng như bộ môn Hệ thống và Mạng máy tính nói riêng đã
có những đóng góp quý báu để em hoàn thành tốt công việc
Con xin chân thành cảm ơn cha mẹ, cảm ơn gia đình nhỏ, và những người khác tronggia đình đã luôn ở bên cạnh ủng hộ, động viên, giúp đỡ về mọi mặt để con có thể thực hiệntốt đề tài nghiên cứu
Tôi xin chân thành cảm ơn các đồng nghiệp, bạn bè đã có những lời khuyên, góp ý hữuích trong quá trình tôi thực hiện đề tài nghiên cứu này
Tp Hồ Chí Minh, ngày 18 tháng 2 năm 2016
Lê Văn Vinh
viii
Trang 11MỤC LỤC
DANH MỤC CÁC HÌNH ẢNH xiii
DANH MỤC BẢNG BIỂU xviii
DANH MỤC CÁC TỪ VIẾT TẮT, THUẬT NGỮ VÀ KÝ HIỆU xix
CHƯƠNG 1 GIỚI THIỆU 1
1.1 Metagenomics và bài toán phân loại trình tự 1
1.2 Vấn đề tồn tại cần giải quyết 4
1.2.1 Độ chính xác 4
1.2.2 Chi phí tính toán 4
1.3 Mục tiêu của luận án 5
1.4 Phương pháp và nội dung nghiên cứu 6
1.5 Đóng góp của luận án 6
1.5.1 Về mặt khoa học 6
1.5.2 Về mặt thực tiễn 6
1.6 Nội dung luận án 7
CHƯƠNG 2 NỀN TẢNG KIẾN THỨC VÀ TÌNH HÌNH NGHIÊN CỨU 8
2.1 Nền tảng kiến thức 8
2.1.1 DNA và hệ gien 8
2.1.2 Công nghệ giải mã trình tự DNA 9
2.1.3 Đặc trưng sử dụng cho phân loại trình tự 10
2.1.4 Phân lớp và gom cụm dữ liệu 14
Trang 122.2 Tình hình nghiên cứu 17
2.2.1 Phương pháp có giám sát 18
2.2.2 Phương pháp không có giám sát 20
2.2.3 Phương pháp bán giám sát 23
CHƯƠNG 3 GIẢI PHÁP PHÂN LOẠI KHÔNG GIÁM SÁT DỰA TRÊN SỰ PHONG PHÚ CỦA HỆ GIEN 25
3.1 Giới thiệu 25
3.2 Phương pháp 26
3.2.1 Mô hình hỗn hợp của tần số xuất hiện các l-mer 26
3.2.2 Mô hình thu giảm 27
3.2.3 Ước lượng tham số trong mô hình đề xuất 29
3.2.4 Ước lượng số cụm sử dụng BIC 32
3.2.5 Thuật toán MetaAB 33
3.2.6 Phương pháp đếm l-mer với độ dài thay đổi 36
3.2.7 Độ phức tạp của giải thuật 38
3.3 Kết quả thực nghiệm 38
3.3.1 Dữ liệu thực nghiệm 39
3.3.2 Kết quả trên tập dữ liệu không có lỗi giải mã 39
3.3.3 Kết quả trên tập dữ liệu có lỗi giải mã trình tự 43
3.3.4 Sự ảnh hưởng của các tham số 44
3.4 Kết luận 46
CHƯƠNG 4 CHỌN ĐẠI DIỆN CỦA MỘT TẬP TRÌNH TỰ DỰA TRÊN TÍNH CHẤT GỐI ĐẦU 47
4.1 Giới thiệu 47
4.2 Định nghĩa bài toán 48
4.2.1 Một số ký hiệu và khái niệm 48
4.2.2 Tính chất của tập đại diện 49
4.2.3 Định nghĩa bài toán tìm tập đại diện 49
4.3 Sự bảo toàn đặc trưng của nhóm trình tự 50
4.3.1 Tính tương đồng 51
4.3.2 Tính hợp thành dựa trên tần số xuất hiện l-mer 52
x
Trang 134.4 Kết luận 54
CHƯƠNG 5 GIẢI PHÁP PHÂN LOẠI KHÔNG GIÁM SÁT SỬ DỤNG DẤU HIỆU HỆ GIEN 56
5.1 Giới thiệu 56
5.2 Phương pháp 57
5.2.1 Nền tảng của phương pháp đề xuất 57
5.2.2 Thuật toán BiMeta 58
5.2.3 Độ phức tạp của giải thuật 62
5.3 Kết quả thực nghiệm 62
5.3.1 Dữ liệu thực nghiệm 63
5.3.2 Kết quả thực nghiệm trên dữ liệu giả lập 65
5.3.3 Kết quả thực nghiệm trên dữ liệu thực tế 69
5.3.4 Sự ảnh hưởng của các tham số 70
5.3.5 Sự ảnh hưởng của phương pháp tìm seed 71
5.4 Kết luận 73
CHƯƠNG 6 GIẢI PHÁP PHÂN LOẠI BÁN GIÁM SÁT SỬ DỤNG ĐẶC TRƯNG KẾT HỢP 74
6.1 Giới thiệu 74
6.2 Phương pháp 75
6.2.1 Nền tảng của phương pháp đề xuất 75
6.2.2 Thuật toán SeMeta 77
6.2.3 Độ phức tạp của giải thuật 83
6.2.4 Cơ sở dữ liệu tham khảo 84
6.2.5 Phương pháp đánh giá chất lượng phân loại 84
6.3 Kết quả thực nghiệm 85
6.3.1 Dữ liệu thực nghiệm 86
6.3.2 Kết quả thực nghiệm trên dữ liệu giả lập 86
6.3.3 Kết quả thực nghiệm trên dữ liệu thực tế 94
6.3.4 Sự ảnh hưởng của các tham số 97
Trang 146.4 Thảo luận 105
6.5 Kết luận 106
CHƯƠNG 7 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 108
7.1 Kết luận 108
7.2 Hướng phát triển 109
DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ 111
TÀI LIỆU THAM KHẢO 121
PHỤ LỤC 122
xii
Trang 15DANH MỤC CÁC HÌNH ẢNH
1.1 Quy trình xử lý của một dự án trong lĩnh vực metagenomics 2
1.2 Minh họa mục tiêu của bài toán phân loại trình tự metageonmic 3
2.1 Ví dụ về phân tử DNA (Nguồn: The U.S National Library of Medicine) 9
2.2 Kỹ thuật giải mã trình tự đoạn ngắn Đoạn gạch dưới thể hiện thông tin gối đầu giữa các trình tự 10
2.3 Tỉ lệ trung bình các l được chia sẻ bởi các hệ gien 13
2.4 Ví dụ về sự phong phú của hệ gien 14
2.5 Các hướng tiếp cận chính của bài toán phân loại trình tự metagenomics 21
3.1 Phân bố l-mer và việc sử dụng các ngưỡng countmin, numminđể loại bỏ l-mer không tin cậy 35
3.2 Ví dụ về sự lặp lại các l-mer có độ dài khác nhau trong tập dữ liệu metagenomics.37 3.3 Sử dụng l-mer có độ dài thay đổi để đếm số lần xuất hiện của chúng trong tập dữ liệu metagenomics 39
3.4 F-measure của AbundanceBin, MetaAB, và MetaAB-adv cho tập dữ liệu thử nghiệm Biểu đồ bên trái thể hiện cho tập trình tự từ S1 đến S7 Biểu đồ bên phải thể hiện cho tập trình tự từ T1 đến T7 43
3.5 F-measure trung bình của MetaAB trên tập dữ liệu từ S1 đến S5, với giá trị nummin khác nhau 44
3.6 F-measure trung bình của MetaAB trên tập dữ liệu từ T1 đến T5, với giá trị countminkhác nhau 45
Trang 164.1 Một nhóm bao gồm 17 trình tự thuộc cùng một hệ gien Một đại diện của
nhóm gồm 6 trình tự không gối đầu 504.2 Đồ thị mô phỏng tập trình tự DNA thuộc cùng hệ gien thực Tập đỉnh đại
diện (màu đen đậm) bao gồm các đỉnh không kề nhau 514.3 Tần số xuất hiện 4-mer của 4 nhóm chứa các trình tự không gối đầu nhau
được lấy mẫu từ 2 hệ gien của hai loài: Bacillus thuringiensis (BT-group1,
BT-group2) and Alicycliphilus denitrificans (AD-group1, AD-group2) 55
5.1 Quá trình phân loại của BiMeta 585.2 Hiệu năng của MetaCluster 5.0, AbundanceBin và BiMeta trên các tập dữ
liệu từ S1 đến S10 665.3 Hiệu năng của MetaCluster 5.0, BiMeta, AbundanceBin và MetaAB trên
các tập dữ liệu từ L1 đến L6 675.4 Hiệu năng của MetaCluster 2.0 và BiMeta trên các tập dữ liệu từ R1 đến R9 695.5 Độ chính xác trung bình của việc gom nhóm trình tự ở pha 1, và F-measure
trung bình của BiMeta với giá trị m khác nhau 705.6 F-measure trung bình của BiMeta với giá trị l khác nhau Đồ thị bên trái thể
hiện kết quả trên tập trình tự từ S1 đến S5 Đồ thị bên phải thể hiện kết quả
trên tập trình tự R1 đến R5 715.7 Kết quả thực nghiệm cho các trường hợp tìm seed khác nhau của BiMeta 736.1 Ví dụ về kết quả gióng hàng trình tự trong đại diện của cụm với cơ sở dữ
liệu tham khảo 766.2 Chất lượng phân loại của BiMeta trong các trường hợp loại bỏ những nhóm
nhỏ với kích thước q khác nhau 786.3 Quá trình thực hiện của SeMeta 796.4 Minh họa quá trình tìm đơn vị phân loại chung thấp nhất 816.5 F-measure của MEGAN, SOrt-ITEMS, và SeMeta trên các tập dữ liệu giả
lập cho trường hợp Loài đã biết Lược đồ trên cùng là cho tập dữ liệu ds1,
lược đồ ở giữa là cho tập dữ liệu ds2, lược đồ dưới cùng là cho tập dữ liệu ds3 89
xiv
Trang 176.6 F-measure của MEGAN, SOrt-ITEMS, và SeMeta trên các tập dữ liệu giả
lập cho trường hợp Loài chưa biết Lược đồ trên cùng là cho tập dữ liệu ds1,
lược đồ ở giữa là cho tập dữ liệu ds2, lược đồ dưới cùng là cho tập dữ liệu ds3 926.7 Độ nhạy và độ chính xác của MEGAN, SOrt-ITEMS, và SeMeta ở khía
cạnh gán nhãn đúng và chính xác tại bậc phân loại thấp nhất được thể hiện
trên các tập dữ liệu giả lập 936.8 Số lượng truy vấn BLAST của MEGAN/SOrt-ITEMS, và SeMeta cho các
tập dữ liệu giả lập 946.9 Kết quả thực thi của SeMeta trên tập dữ liệu thực AMD 956.10 Độ nhạy (A) và độ chính xác (A) của SeMeta với giá trị min-score sminkhác
nhau cho trường hợp Loài đã biết, trên tập dữ liệu ds2 996.11 Độ nhạy (A) và độ chính xác (A) của SeMeta với giá trị min-score sminkhác
nhau cho trường hợp Loài chưa biết, trên tập dữ liệu ds2 996.12 Độ nhạy (A) và độ chính xác (A) của SeMeta với giá trị top-percent ptop
khác nhau cho trường hợp Loài đã biết, trên tập dữ liệu ds2 996.13 Độ nhạy (A) và độ chính xác (A) của SeMeta với giá trị top-percent ptop
khác nhau cho trường hợp Loài chưa biết, trên tập dữ liệu ds2 1006.14 Độ nhạy (A) và độ chính xác (A) của SeMeta với giá trị max-occur omax
khác nhau cho trường hợp Loài đã biết, trên tập dữ liệu ds2 1006.15 Độ nhạy (A) và độ chính xác (A) của SeMeta với giá trị max-occur omax
khác nhau cho trường hợp Loài chưa biết, trên tập dữ liệu ds2 1006.16 Độ nhạy (B) và độ chính xác (B) của SeMeta với giá trị khác nhau của
min-score smin cho trường hợp Loài chưa biết, trên tập dữ liệu ds2 1016.17 Độ nhạy (B) và độ chính xác (B) của SeMeta với giá trị khác nhau của
top-percent ptopcho trường hợp Loài chưa biết, trên tập dữ liệu ds2 1016.18 Độ nhạy (B) và độ chính xác (B) của SeMeta với giá trị khác nhau của
max-occur omax cho trường hợp Loài chưa biết, trên tập dữ liệu ds2 1026.19 Sự ảnh hưởng của độ dài l-mer lên hiệu năng của SeMeta, trường hợp Loài
đã biết 1036.20 Sự ảnh hưởng của độ dài l-mer lên hiệu năng của SeMeta, trường hợp Loài
Trang 186.22 Độ nhạy (A) và độ chính xác (A) của SeMeta và phiên bản không sử dụng
đại diện của cụm trên tập dữ liệu ds2, cho trường hợp Loài đã biết 1056.23 Hiệu năng của SeMeta và phiên bản không sử dụng đại diện của cụm trên
tập dữ liệu ds2, cho trường hợp Loài chưa biết 105
1 Kết quả thực nghiệm này là về khoảng cách trung bình giữa các cặp hệ gien
trong nhóm 132
xvi
Trang 19DANH MỤC BẢNG BIỂU
3.1 Ví dụ về số lần xuất hiện của 4-mer trong tập dữ liệu 283.2 Độ chính xác và độ nhạy của AbundanceBin, MetaAB và MetaAB-adv trên
tập dữ liệu từ S1 đến S7 413.3 Độ chính xác và độ nhạy của AbundanceBin, MetaAB, và MetaAB-adv trên
tập dữ liệu từ T1 đến T7 425.1 Tập dữ liệu chứa trình tự dạng Roche 454 635.2 Tập dữ liệu chứa trình tự dạng Illumina 645.3 F-measure của MetaCluster 5.0, AbundanceBin và BiMeta trên tập dữ liệu
từ S1 đến S10 665.4 Thời gian tính toán của MetaCluster 5.0, AbundanceBin, MetaAB, và BiMeta
trên các tập dữ liệu từ L1 đến L6 685.5 Giá trị F-measure của MetaCluster 2.0 và BiMeta trên các tập dữ liệu từ R1
đến R9 696.1 Hiệu năng của MEGAN, SOrt-ITEMS và SeMeta trên các tập dữ liệu giả
lập ở các bậc phân loại - Trường hợp Loài đã biết 876.2 Hiệu năng của MEGAN, SOrt-ITEMS và SeMeta trên các tập dữ liệu giải
lập ở các bậc phân loại - Trường hợp Loài chưa biết 906.3 Thời gian chạy của MEGAN, SOrt-ITEMS, và SeMeta trên tập dữ liệu ds2 936.4 Danh sách các loài phổ biến trong tập MH0051 của bộ dữ liệu thực HGM
được phát hiện bởi SeMeta 96
Trang 201 Tập dữ liệu thực nghiệm cho MetaAB 122
2 Khoảng cách Euclide trong cặp hệ gien - mức chi (genus) 123
3 Khoảng cách Euclide trong cặp hệ gien - mức họ (family) 127
4 Khoảng cách Euclide trong cặp hệ gien - mức loài (species) 130
5 Tập dữ liệu thực nghiệm cho BiMeta - Tập trình tự dài 133
6 Tập dữ liệu thực nghiệm cho BiMeta - tập trình tự ngắn 133
7 Tập dữ liệu ds1 137
8 Tập dữ liệu ds2 138
9 Tập dữ liệu ds3 139
xviii
Trang 21DANH MỤC CÁC TỪ VIẾT TẮT, THUẬT NGỮ VÀ KÝ
HIỆU
DANH MỤC CÁC TỪ VIẾT TẮT:
DNA: Deoxyribonucleic acid
LCA: Lowest common ancestor
EM: Expectation Maximization
bp: base pair (Đơn vị độ dài của trình tự DNA)
MLE: Maximum Likelihood Estimates
BIC: Bayesian Information Criterion
iid: Independent and identically distributed
DANH MỤC THUẬT NGỮ:
l-mer: Đoạn trình tự ngắn có độ dài là l
Hệ gien: Là tổng thể tất cả các phân tử DNA trong tế bào
single-end/paired-end: Hai loại trình tự khác nhau Trình tự dạng single-end chỉ chứa một
đoạn các nucleotide ở một vùng trên hệ gien Trình tự dạng paired-end chứa hai đoạn cácnucleotide ở hai vùng khác nhau trên hệ gien
contig: Đoạn trình tự dài hay một nhóm các trình tự ngắn ở vị trí liên tiếp nhau trên hệ gien Đơn vị phân loại (taxon): Là một nhóm sinh vật có mối quan hệ sinh loài với nhau Đơn vị
phân loại: Cá (ở bậc phân loại loài (specie)), động vật lưỡng cư (ở bậc phân loại lớp (class))
Bậc phân loại (taxonomic level/rank): Mức độ quan hệ của các nhóm sinh vật (taxon)
trong hệ thống cấp bậc phân loại Ví dụ các bậc phân loại như: loài, chi, họ, bộ, lớp, ngành,giới, vực, sự sống
BẢNG KÝ HIỆU:
Ký hiệu Ý nghĩa
./ Thể hiện hai trình tự thuộc cùng hệ gien Ví dụ r và s thuộc cùng hệ gien: r / s
u Thể hiện hai trình tự gối đầu nhau Ví dụ, r và s gối đầu nhau: r u s
Trang 22CHƯƠNG 1
GIỚI THIỆU
Đóng vai trò là những sinh vật chiếm đa số trong sự đa dạng sinh học của sự sống, vi sinhvật (như vi khuẩn (bacteria), vi rút (virus), hay vi khuẩn cổ (archaea)) ảnh hưởng trực tiếpđến cuộc sống của con người [1] Vì vậy, sự hiểu biết về cộng đồng vi sinh vật mang đếnlợi ích trong nhiều lĩnh vực như: y học, nông nghiệp, công nghệ sinh học, nghiên cứu nănglượng thay thế, môi trường [2]
Một số nghiên cứu đầu tiên về vi sinh vật là vào khoảng những năm 1970, khi hệ gien củamột số vi sinh vật được giải mã [3] Trong phương pháp nghiên cứu vi sinh vật truyền thống,mẫu thực nghiệm sau khi được thu thập từ môi trường thực tế sẽ được nuôi cấy (culture) vàphân tách (isolate) theo từng loài vi sinh vật trước được đưa vào giai đoạn giải mã trình tựDNA Trình tự của từng loài vi sinh vật sau đó được đưa vào quá trình phân tích dữ liệu Tuynhiên, một trở ngại lớn đối với phương pháp này là hầu hết vi sinh vật (hơn 99%) không thểnuôi cấy và phân tách được trong phòng thí nghiệm [4]
Bởi vì những hạn chế của phương pháp truyền thống, một hướng tiếp cận khác trongnghiên cứu vi sinh vật ra đời và dần trở thành phương pháp được sử dụng phổ biến, được gọi
là metagenomics Theo hướng này, mẫu thực nghiệm sau khi được thu thập từ môi trường,
không cần trải qua giai đoạn nuôi cấy và phân tách trong phòng thí nghiệm, mà được đưatrực tiếp vào quá trình giải mã Những vấn đề trong lĩnh vực metagenomics bắt đầu được tậptrung nghiên cứu từ khoảng năm 2007 với sự ra đời của dự án nghiên cứu vi sinh vật trong
1
Trang 23cơ thể con người [5] Hàng trăm dự án nghiên cứu vi sinh vật khác tiếp sau đó ra đời nhằmnghiên cứu các môi trường khác nhau như: nước thải axit từ khu mỏ (acid mine drainage[6]), nước biển (seawater [7]), và đường ruột cơ thể người (human gut [8]) Đồng thời, nhiềubài toán được đặt ra cho những người nghiên cứu trong lĩnh vực tin sinh học nhằm hỗ trợcho quá trình phân tích dữ liệu trình tự metagenomics.
Hình 1.1: Quy trình xử lý của một dự án trong lĩnh vực metagenomics
Trong một dự án metagenomics, mẫu thực nghiệm được đưa trực tiếp vào giai đoạn giải
mã trình tự sau khi được thu thập từ môi trường thực tế (hình 1.1) Do đó, dữ liệu nomics thường không chứa trình tự của từng sinh vật riêng biệt, mà bao gồm trình tự củanhiều loài khác nhau (có khi hơn 10.000 loài trong một mẫu [2]) Vì vậy, một trong nhữngvấn đề quan trọng cần giải quyết là phân loại trình tự metagenomics (taxonomic binning).Bài toán này được phát biểu như sau (theo Thomas và cộng sự [9]):
metage-"Phân loại trình tự metagenomics là quá trình sắp xếp trình tự DNA vào các nhóm bao gồm
Trang 24Có thể định nghĩa bài toán phân loại trình tự metagenomics một cách tổng quát như sau.Cho một tập gồm n trình tự metagenomics R = {r1, r2, , rn} Giả sử, tập trình tự này thuộc
về k, (k ≤ n), nhóm sinh vật Mục tiêu của bài toán phân loại trình tự là nhằm chia tập Rthành k tập con C1,C2, ,Ck sao cho:
đã biết)
Hình 1.2: Minh họa mục tiêu của bài toán phân loại trình tự metageonmic
Bài toán này có ý nghĩa quan trọng đối với nhà nghiên cứu về sinh học nhằm xác địnhnhững nhóm vi sinh vật nào tồn tại trong mẫu thực nghiệm, tỉ lệ xuất hiện của chúng trongmôi trường ra sao, và giúp họ có thể thực hiện nghiên cứu trên trình tự của từng nhóm riêngbiệt Ngoài ra, trong quy trình thông thường của một dự án metagenomics (hình 1.1), kết quảtrả về của bài toán phân loại có thể được sử dụng cho bài toán chú giải hệ gien (annotation)nhằm xác định vị trí mang mã di truyền trên trình tự Bên cạnh đó, bài toán phân loại có
3
Trang 25thể được sử dụng với vai trò là bước tiền xử lý cho bài toán ráp nối trình tự nhằm tăng độchính xác và giảm chi phí tính toán cho quá trình tái xây dựng hệ gien [1] Về mặt lý thuyết,nếu trình tự DNA được ráp nối thành chuỗi dài hơn (thành các scaffold hay hệ gien) thì giảipháp phân loại áp dụng cho trình tự dài có thể đạt chất lượng cao hơn Tuy nhiên, bài toánráp nối trình tự metagenomics (metagenome assembly) là một vấn đề khó và có nhiều tháchthức lớn vẫn chưa được giải quyết một cách hiệu quả [9], và nó không nằm trong nội dungnghiên cứu của luận án này.
Độ chính xác là một trong những khía cạnh quan trọng nhất cần được quan tâm của bàitoán Một số các yếu tố chính ảnh hưởng đến độ chính xác của các giải pháp hiện tại, cầnđược quan tâm giải quyết như:
+ Độ dài trình tự: Độ dài trình tự càng ngắn đồng nghĩa với việc thông tin chứa đựng
trong trình tự càng ít, dẫn đến độ chính xác khi phân loại giảm đi [10] Mặc dù vậy,hầu hết các công nghệ giải mã trình tự hiện nay chỉ cho phép giải mã trình tự có độdài ngắn hoặc rất ngắn (nhỏ hơn 700 bp) Từ kết quả thử nghiệm được công bố củanhững nghiên cứu trước đây, có thể thấy rõ sự ảnh hưởng này Chẳng hạn, RAIphy vàPhymm đạt độ chính xác khoảng 32% – 36% cho trình tự dài 100 bp, trong khi đốivới trình tự dài 1000 bp là 65% – 80% [11]
+ Thiếu cơ sở dữ liệu tham khảo: Nhiều giải pháp phân loại hiện nay thực hiện tham
khảo trên cơ sở dữ liệu chứa hệ gien hay trình tự của sinh vật đã biết Tuy nhiên, phầnlớn vi sinh vật trên trái đất vẫn chưa được phát hiện [12] dẫn đến sự thiếu hiệu quảcủa nhóm giải pháp này
Chi phí tính toán là khía cạnh quan trọng khác cần được quan tâm bởi vì một dự án
Trang 26Phần lớn giải pháp phân loại trình tự có giám sát hiện nay thực hiện so sánh tương đồnggiữa trình tự cần phân tích với trình tự hay hệ gien đã biết Mặc dù hướng tiếp cận này có
ưu điểm là có thể đạt độ chính xác cao hơn so với các nhóm giải pháp khác, nhưng đòi hỏinhiều thời gian xử lý, đặc biệt khi cơ sở dữ liệu tham khảo lớn Ví dụ, MEGAN, sử dụngngân hàng dữ liệu NCBI-NR, cần 34 ngày để thực thi cho bộ dữ liệu khoảng 70.000 trình tự[13]
Nhóm giải pháp không có giám sát thì gặp trở ngại vì số lượng nghiệm bùng nổ ngay
cả khi dữ liệu không quá lớn Bài toán này là một dạng của bài toán phân hoạch, đã đượcchứng minh không thể xét toàn bộ không gian nghiệm trong thời gian chấp nhận được bởi
hệ thống máy tính hiện nay (theo Brian và cộng sự [14], tham khảo từ sách của Liu [15])
Vì lý do này, hầu hết các giải pháp phân loại không giám sát hiện nay (được tìm thấy bởi đềtài nghiên cứu này) đều sử dụng phương pháp heuristic hay tìm kiếm cục bộ (local search)
để tìm nghiệm của bài toán trong thời gian chấp nhận được Việc mở rộng không gian tìmkiếm có thể giúp cải thiện chất lượng nghiệm nhưng thường làm chi phí tính toán tăng cao
Mục tiêu của luận án là nhằm đề xuất giải pháp phân loại cho dữ liệu metagenomics, cókhả năng xử lý tốt cho trình tự ngắn, và giải quyết hiệu quả cho trường hợp cơ sở dữ liệutham khảo không đầy đủ
Cụ thể, ba hướng giải quyết chính được đặt ra trong luận án, bao gồm:
Thứ nhất, thực hiện phân loại trình tự metagenomics dựa trên sự phong phú của hệ gientrong trường hợp không tồn tại cơ sở dữ liệu tham khảo Giải pháp phân loại cho phép phânchia trình tự vào các nhóm sao cho mỗi nhóm chứa trình tự thuộc hệ gien có độ phong phútương tự nhau
Thứ hai, thực hiện phân loại trình tự metagenomics trường hợp không tồn tại cơ sở dữliệu tham khảo sao cho trình tự trong mỗi nhóm thuộc cùng loài hoặc có quan hệ sinh loàigần nhau
Thứ ba, phân loại trình tự metagenomics trong trường hợp tồn tại cơ sở dữ liệu thamkhảo Giải pháp phân loại này vừa giúp phân chia trình tự vào các nhóm, vừa xác định trình
tự thuộc về nhóm vi sinh vật nào đã biết
5
Trang 271.4 Phương pháp và nội dung nghiên cứu
Luận án này tập trung vào việc nghiên cứu sử dụng tính chất của dữ liệu (thông tin gốiđầu trình tự, đặc trưng tần số xuất hiện l-mer, tính tương đồng của trình tự) nhằm đề xuấtphương pháp phân loại mới Đồng thời, luận án vận dụng các kỹ thuật nền tảng về phân lớp
và gom cụm đã có (thuật toán Expectation Maximization, thuật toán k-means, thuật toánLowest Common Ancestor) để phát triển các giải pháp phân loại
• Đề xuất phương pháp dự đoán số cụm trong tập dữ liệu sử dụng phương pháp lựa chọn
mô hình cho vấn đề phân loại dựa trên sự phong phú của hệ gien
• Cũng nhằm làm tăng chất lượng của giải pháp phân loại trình tự dựa trên sự phongphú của hệ gien, luận án đề xuất một phương pháp đếm l-mer với độ dài thay đổi giúpước lượng mức độ phong phú của hệ gien hiệu quả hơn
• Đề xuất ý tưởng chọn đại diện của tập trình tự thuộc cùng hệ gien dựa trên thông tingối đầu trình tự Tập này cho thấy có khả năng bảo toàn đặc trưng hợp thành và tươngđồng chứa đựng trong tập dữ liệu gốc Ý tưởng này có khả năng làm tăng chất lượngphân loại hay giảm chi phí tính toán cho các bài toán phân loại trình tự metagenomics
Luận án đã đề xuất ba giải pháp phân loại trình tự metagenomics, bao gồm:
Trang 28• Đề xuất giải pháp BiMeta cho phép phân loại trình tự metagenomics dựa trên đặctrưng hợp thành, không sử dụng cơ sở dữ liệu tham khảo.
• Đề xuất giải pháp SeMeta cho phép phân loại trình tự metagenomics có sử dụng cơ
sở dữ liệu tham khảo
Cấu trúc của luận án bao gồm 7 chương Chương 1 giới thiệu bài toán, trình bày nhữngđóng góp và mục tiêu của luận án Chương 2 trình bày nền tảng kiến thức cần thiết cho luận
án và tình hình nghiên cứu hiện nay Những phương pháp đóng góp cho vấn đề phân loạitrình tự metagenomics dựa trên sự phong phú của hệ gien được trình bày trong chương 3.Chương 4 trình bày ý tưởng chọn tập đại diện của một tập trình tự dựa trên thông tin gối đầu
sẽ được vận dụng ở hai chương tiếp theo của luận án Chương 5 trình bày giải pháp phân loạikhông giám sát sử dụng đặc trưng dấu hiệu hệ gien và thông tin gối đầu giữa trình tự Giảipháp phân loại bán giám sát SeMeta được trình bày trong chương 6 của luận án Chương 7
là kết luận và hướng phát triển Phần phụ lục trình bày một số thông tin về dữ liệu được sửdụng trong các thực nghiệm được trình bày trong luận án, và một số kết quả thực nghiệmchi tiết
7
Trang 29cơ này để phân biệt các loại nucleotide, và được ký hiệu tương ứng là: A, C, G và T Trongmỗi chuỗi đơn, các nucleotide liên kết cộng hóa trị với nhau theo nguyên tắc gốc đường củanucleotide này liên kết với gốc phosphate của nucleotide tiếp theo (cấu trúc sugar-phosphatebackbone) Hai chuỗi đơn của một phân tử DNA liên kết với nhau bằng liên kết hidro giữacác nucleotide thuộc về từng chuỗi theo nguyên tắc: A liên kết với T; G liên kết với C Độdài của một phân tử DNA được đo bằng số cặp nucleotide liên kết giữa hai chuỗi đơn haycòn gọi là cặp base (base-pair, viết tắt là bp).
Tổng thể tất cả các phân tử DNA trong một tế bào sống cấu thành hệ gien (genome) của
một sinh vật Thông thường, trong vi khuẩn, hệ gien là một nhiễm sắc thể đơn chứa mộtchuỗi DNA
Trang 30Hình 2.1: Ví dụ về phân tử DNA (Nguồn: The U.S National Library of Medicine).
Giải mã trình tự DNA là quá trình xác định dãy các nucleotide trong trình tự đó Phương
pháp Sanger [17], hay còn được gọi là phương pháp dideoxy sequencing, là công nghệ được
sử dụng từ những năm 1970 đến nay Trình tự được tạo ra bởi phương pháp Sanger thường
có độ dài khoảng 500 - 1000 bp Nhược điểm của phương pháp này là chi phí cao và hiệusuất xử lý thấp, không đáp ứng được yêu cầu của những dự án lớn
Khoảng từ năm 2005, một nhóm các công nghệ trình tự giải mã mới ra đời, dần thaythế cho phương pháp Sanger như: 454 pyrosequencing, Illumina Genome Analyzer, ABSOLiD [18, 19] Chúng được gọi chung là công nghệ giải mã trình tự thế hệ tiếp theo (Next-generation sequencing [20]) Ưu điểm của những phương pháp này là hiệu suất cao hơn sovới phương pháp Sanger, cho phép giải mã một khối lượng lớn trình tự trong một đơn vị thờigian Tuy nhiên, hạn chế của những công nghệ này là độ dài của các trình tự được giải mãthường có kích thước ngắn hoặc rất ngắn (nhỏ hơn 700 bp [21]) Chẳng hạn, trình tự đượcgiải mã bởi công nghệ Illumina có độ dài trung bình khoảng 36-300 bp [22] (trình tự dạngsingle-end hoặc paired-end)
Mẫu DNA cần được giải mã trong thực tế thường rất dài, có khi là toàn bộ hệ gien Chẳnghạn, hệ gien của một vi khuẩn E coli là khoảng 5 Mbp (bằng 5.000.000 bp) Trong khi đó,
9
Trang 31máy giải mã trong các công nghệ trên chỉ cho phép giải mã cho trình tự có kích thước ngắn.
Vì vậy, kỹ thuật nền tảng được sử dụng cho các công nghệ này là kỹ thuật giải mã trình tựđoạn ngắn (shotgun sequencing) Kỹ thuật này thực hiện nhân bản và cắt ngẫu nhiên mẫuDNA thành những mảnh nhỏ (fragment) có độ dài phù hợp cho từng công nghệ giải mã(hình 2.2) Máy giải mã trình tự xử lý cho từng mảnh DNA nhỏ và thông tin được lưu trữtrên máy tính được gọi là trình tự (read/sequence) Mục đích của việc nhân bản các mẫuDNA và cắt ngẫu nhiên là nhằm tạo ra tập trình tự gối đầu nhau Thông tin gối đầu này làthông tin quan trọng cho phép ráp nối trình tự nhằm khôi phục nội dung của trình tự dài banđầu Riêng trong lĩnh vực metagenomics, thông tin này có thể được sử dụng cho việc gomnhóm trình tự thuộc cùng hệ gien
GATTTCATAT TATTAATGTC AATTGTCGG TTACTTTGA TAAGAAAAT AATACTCTATC
CTCTATC CTATC GATTTCATATTATT AATGTCAAAT TGTCGGTTAC TTTGATAAG AAAATAATA
ACTCTATC
GATTT CATATTATTA ATGTCAAA TTGTCGGTTA CTTTGATAAGA AAATAATACT
GATTTCATATTATT AATGTCAAA TTGTCGGTTA CTTTGATAA GAAAATAAT
Nhân bản và cắt ngắn trình tự
Hệ gien
Giải mã trình tựMáy giải mã
Hình 2.2: Kỹ thuật giải mã trình tự đoạn ngắn Đoạn gạch dưới thể hiện thông tin gối đầugiữa các trình tự
Trang 32Phần này trình bày những tính chất được rút trích từ trình tự hoặc tập trình tự metagenomics
và thường được sử dụng là đặc trưng để phân biệt các sinh vật chứa chúng
có quan hệ sinh loài xa nhau [23] Giải pháp xác định mức độ tương đồng giữa các trình tựthường được dùng như BLAST [24], BLAT [25]
2.1.3.2 Dấu hiệu hệ gien
Dấu hiệu hệ gien (genomic signature) là cấu trúc toán học đặc trưng theo loài mà có thểxây dựng từ một trình tự sinh học [26] Dấu hiệu hệ gien của trình tự cùng loài giống nhaunhiều hơn so với của trình tự thuộc hai loài khác nhau, và hai loài gần nhau có dấu hiệu hệgien của trình tự giống nhau nhiều hơn so với giữa hai loài xa nhau [27] Nhờ tính chất này
mà dấu hiệu hệ gien có thể được sử dụng cho việc phân loại trình tự Nhiều dấu hiệu hệ gien
đã được nghiên cứu như: GC-content [28], dấu hiệu dựa trên tần số xuất hiện l-mer (đoạntrình tự ngắn có độ dài là l, thường được gọi là oligonucleotide) [29], dấu hiệu dựa trên môhình Markov [30, 31] Phần này chỉ trình bày nhóm dấu hiệu dựa trên tần số xuất hiện l-mer,vốn được vận dụng trong giải pháp được đề xuất trong nghiên cứu này
Dấu hiệu dựa trên tần số xuất hiện l-mer
Dấu hiệu này thể hiện tần số xuất hiện của những đoạn nucleotide ngắn có kích thướcthường là từ 2 - 4 nucleotide trong trình tự DNA, được gọi là tần số xuất hiện của cặpnucleotide (dinucleotide frequencies), bộ ba nucleotide (trinucleotide frequencies), hay bộbốn nucleotide (tetranucleotide frequencies) Có nhiều dấu hiệu hệ gien khác nhau được xâydựng dựa trên các tần số xuất hiện này Một số dấu hiệu sử dụng trong phân tích dữ liệumetagenomics được Gori và cộng sự trình bày trong [29] Phần này trình bày dấu hiệu phổbiến thường được dùng là dấu hiệu symmetrized signature (đặt tên theo cách trình bày trong
11
Trang 33[29]) như sau.
Mỗi trình tự được đại diện bởi một vectơ tần số f = { f1, f2, , f4l} Trong đó, fi, i ∈{1, , 4l}, là tần số xuất hiện (được chuẩn hóa) của l-mer i trong trình tự, được tính nhưsau [32, 33]:
• Tính duy nhất của đoạn trình tự l-mer trong tập dữ liệu: Hầu hết các l-mer không
được chia sẻ bởi các hệ gien khác nhau khi l đủ lớn [34]
Tính chất này được sử dụng trong một số giải pháp phân loại như TOSS [35], Cluster 4.0 [36], MetaCluster 5.0 [34], và AbundanceBin [37] Một thực nghiệm đượcthực hiện trong nghiên cứu này nhằm quan sát tỉ lệ l-mer bị chia sẻ bởi các hệ gien
Meta-vi khuẩn Tập dữ liệu được quan sát gồm 100 cặp hệ gien với khoảng cách di truyềnkhác nhau Tỉ lệ số l-mer được chia sẻ bởi các hệ gien trong mỗi cặp được tính theocác giá trị l khác nhau như sau:
Tỉ lệ các l-mer chung = nc
Trong đó, nc là số lượng l-mer được chia sẻ bởi hai hệ gien, nd1là số l-mer riêng biệttrong hệ gien thứ nhất, và nd2 là số lượng l-mer riêng biệt trong hệ gien thứ hai Hình2.3 thể hiện tỉ lệ trung bình các l-mer được chia sẻ bởi hệ gien với giá trị khác nhaucủa l Có thể thấy rằng tỉ lệ trung bình các l-mer được chia sẻ bởi các hệ gien là rấtnhỏ khi l đủ lớn (nhỏ hơn 1.02% khi l ≥ 30)
Trang 35Hình 2.4: Ví dụ về sự phong phú của hệ gien.
Sự phong phú của một loài là số lượng cá thể của loài đó trong một khu vực hay cộngđồng sinh vật cụ thể Trong một mẫu thực nghiệm được thu thập từ môi trường vi sinhvật, sự phong phú của hệ gien phản ánh sự phong phú của loài trong môi trường đó.Thông thường, một mẫu thực nghiệm có thể chứa nhiều hệ gien của các loài với mức
độ phong phú khác nhau Ví dụ ở hình 2.4 thể hiện sự tỉ lệ thuận giữa sự phong phúcủa hệ gien và tần số xuất hiện l-mer thuộc hệ gien đó Một số trình tự trong tập dữliệu được giải mã từ cùng một vùng trên hệ gien g1 và hệ gien g2 Giả sử, độ phongphú của hệ gien g1 cao hơn độ phong phú của hệ gien g2 (3 so với 2) Khi đó, tần sốxuất hiện của các 4-mer thuộc hệ gien g1 cũng cao hơn so với tần số xuất hiện các4-mer thuộc hệ gien g2 Chẳng hạn như 4-mer u (thuộc hệ gien g1) và v (thuộc hệ gien
g2) trên hình này Dựa trên tính chất này, chúng ta có thể phân loại các l-mer thànhcác cụm có độ phong phú khác nhau Từ đó, trình tự chứa các l-mer này cũng có thểđược phân loại dựa trên kết quả của việc phân loại l-mer
2.1.4.1 Phân lớp dữ liệu
Phân lớp dữ liệu (classification) là quá trình nhằm sắp xếp các đối tượng dữ liệu vàocác lớp (classes) đã biết Nhóm phương pháp này cho phép gán nhãn dữ liệu dựa trên thôngtin từ tập dữ liệu tham khảo Những phương pháp chỉ sử dụng thông tin từ tập dữ liệu tham
Trang 36cũng cho phép gán nhãn nhưng sử dụng kết hợp thông tin rút trích từ tập trình tự đang đượcphân tích và tập dữ liệu tham khảo.
Học bán giám sát là phương pháp hiệu quả trong nhiều lĩnh vực, đặc biệt là những lĩnhvực đòi hỏi gán nhãn cho một lượng dữ liệu lớn Một số phương pháp phân loại bán giámsát khác nhau đã được đề xuất bởi cộng đồng nghiên cứu [38], chẳng hạn như: mô hìnhtổng quát (Generative models), self-training, và co-training Phương pháp gom cụm và gánnhãn (cluster-and-label) - một trường hợp của phương pháp generative models - được vậndụng trong luận án này Phương pháp này thực thi hai bước riêng biệt Bước một sử dụnggiải thuật gom cụm để gom dữ liệu vào từng cụm Bước hai thực hiện gán nhãn cho từngcụm Một giả định cần được sử dụng cho phương pháp gom cụm và gán nhãn là: nếu các đốitượng dữ liệu thuộc cùng một cụm, chúng có xu hướng thuộc cùng một lớp dữ liệu [39]
2.1.4.2 Gom cụm dữ liệu
Gom cụm dữ liệu là một hình thức của phương pháp học không có giám sát, nhằmphân chia các đối tượng dữ liệu vào các cụm, sao cho các đối tượng có đặc tính giốngnhau thuộc cùng một cụm và các đối tượng có đặc tính khác nhau thuộc về các cụm khácnhau [40] Nhiều phương pháp gom cụm đã được đề xuất, và có thể phân chia các phươngpháp này thành các nhóm như (theo [40]): gom cụm bằng phân hoạch (partition clustering),gom cụm bằng phân cấp (hierarchical clustering), gọm cụm dựa trên mật độ (density-basedclustering), gom cụm dựa trên mô hình (model-based clustering), hay gom cụm dựa trên đồthị (graph-theoretic clustering) Phần này trình bày hai nhóm phương pháp được vận dụngtrong luận án là gom cụm bằng phân hoạch, và gom cụm dựa trên mô hình
Gom cụm bằng phân hoạch
Phương pháp này thực hiện phân chia dữ liệu dựa trên sự khác biệt (dissimilarity) giữa cácđối tượng dữ liệu [40] Ý tưởng chung của phương pháp này như sau Ban đầu, chọn ngẫunhiên k phần tử làm phần tử đại diện của k cụm (giá trị k cho trước) Các phần tử này đượcgọi là điểm trung tâm của cụm Hai bước sau được thực hiện lặp lại cho đến khi giải thuậthội tụ hoặc thỏa điều kiện ràng buộc cho trước Bước một phân nhóm các phần tử còn lạidựa trên việc tính khoảng cách với các điểm trung tâm bằng một độ đo khoảng cách (chẳnghạn độ đo Euclide) Bước hai xác định lại giá trị trung tâm của từng cụm Có hai cách xácđịnh điểm trung tâm của cụm, tương ứng với hai nhóm giải thuật chính: giải thuật dạng
15
Trang 37centroid và dạng medoid Giải thuật dạng centroid chọn điểm trung bình là vectơ trung bình(mean vector) của các phần tử trong cụm Trong khi đó, giải thuật dạng medoid chọn mộtphần tử gần nhất với vectơ trung bình của các phần tử trong cụm làm điểm trung tâm Giảithuật dạng medoid phổ biến nhất là k-means, được sử dụng cho giải pháp phân loại được đềxuất trong luận án này.
Gom cụm dựa trên mô hình
Phương pháp gom cụm dựa trên mô hình sử dụng giả định rằng các đối tượng dữ liệu tuântheo một mô hình nào đó, thường là một phân phối thống kê hợp (mixture distribution)[40, 41] Quá trình gom cụm là nhằm ước lượng tham số của mô hình thống kê sao cho
mô hình phù hợp nhất với dữ liệu được quan sát Tham số của mô hình là thông tin chobiết khả năng thuộc về cùng một thành phần (hay cụm) của các đối tượng dữ liệu Phươngpháp ước lượng tham số trong mô hình thống kê phổ biến là ước lượng khả năng cực đại(Maximum Likelihood Estimation - MLE), với giải thuật thường được dùng là cực đại hóa
kỳ vọng (Expectation Maximization - EM) Thuật toán EM ban đầu gán khởi tạo các tham
số cho mô hình Tiếp đó, hai bước sau được thực hiện cho đến khi thuật toán hội tụ hoặcthỏa điều kiện ràng buộc cho trước Bước một, được gọi là bước kỳ vọng hóa (E-step), gáncác đối tượng dữ liệu vào các cụm dựa trên tham số của mô hình Bước hai, được gọi làbước cực đại hóa (M-step), tìm tham số mới của mô hình mà cực đại hóa hàm kỳ vọng củalog-likelihood của dữ liệu Phương pháp gom cụm dựa trên mô hình thường được sử dụngtrong các giải pháp phân loại trình tự metagenomics dựa trên độ phong phú của hệ gien[37, 42] Trong đó, tần số xuất hiện các l-mer hiếm (tức là với độ dài l đủ lớn) trong tập dữliệu metagenomics được giả định tuân theo phân phối hợp Poisson Khi đó, quá trình ướclượng tham số trong mô hình cho phép gom cụm các l-mer Từ đó, trình tự được gom cụmdựa trên thông tin gom cụm các l-mer thuộc về chúng
Phần này trình bày các độ đo được sử dụng đánh giá chất lượng của các giải pháp phân
loại Ba độ đo độ chính xác (precision), độ nhạy (recall hay sensitivity), và F-measure được
sử dụng chung cho việc đánh giá Tuy nhiên, mặc dù cùng tên gọi nhưng cách tính của các
Trang 38• Phân loại không giám sát (gom cụm): Đặt m là số loài trong một tập trình tự
metage-nomics, và k là số cụm trả về bởi giải thuật phân loại không giám sát Đặt Ai j là số
trình tự thuộc loài j được gán vào cụm i Độ chính xác và độ nhạy được định nghĩa
như sau [34]
Độ chính xác = ∑
k i=1maxjAi j
∑ki=1∑mj=1Ai j
m j=1maxiAi j
∑ki=1∑mj=1Ai j+ Số trình tự không được phân loại. (2.4)
Trong đó, độ nhạy thể hiện tỉ lệ các trình tự từ cùng loài mà được gán vào cùng một cụm, độ chính xác thể hiện tỉ lệ các trình tự được gán vào cùng một cụm mà thực tế
thuộc về cùng một loài
• Phân loại có giám sát (phân lớp): Độ chính xác và độ nhạy của một giải pháp phân
loại có giám sát có thể được tính như sau (theo [43, 44]):
Độ chính xác = Số trình tự được phân loại đúng
Độ nhạy = Số trình tự được phân loại đúng
Tổng số trình tự được phân loại. (2.6)
Hai độ đo độ chính xác và độ nhạy cần được xem xét cùng nhau Chỉ sử dụng một trong
hai độ đo không thể thể hiện đầy đủ hiệu năng của giải pháp phân loại Vì vậy, nghiên cứu
này cũng sử dụng độ đo F-measure, vốn thể hiện cả hai khía cạnh độ chính xác và độ nhạy
như sau [45]:
1 precision+sensitivity1 . (2.7)
Những hướng tiếp cận chính của bài toán là phương pháp có giám sát (supervised ods), phương pháp không có giám sát (unsupervised methods), và phương pháp bán giámsát (semi-supervised methods) Trong khi phương pháp có giám sát sử dụng cơ sở dữ liệutham khảo để phân loại trình tự, phương pháp không có giám sát chỉ dựa trên thông tin đượcrút trích từ tập dữ liệu đang được phân tích Hướng tiếp cận bán giám sát vừa thực hiện phân
meth-17
Trang 39loại dựa trên cơ sở dữ liệu tham khảo, vừa sử dụng thông tin được rút trích từ tập dữ liệuđang được phân tích (hình 2.5).
Theo hướng tiếp cận này, trình tự DNA được phân loại dựa trên mức độ tương đồng trình
tự hay mức độ giống nhau giữa dấu hiệu hệ gien của chúng với hệ gien hay trình tự của sinhvật đã biết trong cơ sở dữ liệu tham khảo Có thể chia các giải pháp có giám sát thành banhóm như sau
2.2.1.1 Phương pháp dựa trên tính tương đồng
Trình tự metagenomics được phân loại dựa trên việc so sánh để tìm ra mức độ tương đồngvới trình tự trong ngân hàng gien hoặc protein Trong các giải pháp theo hướng này, côngviệc so sánh tương đồng thường được thực hiện bởi các công cụ đã có sẵn như BLAST [24]hay BLAT [25] MEGAN [46, 47] là phương pháp dựa trên tính tương đồng sử dụng thuậttoán LCA (lowest common ancestor) để tìm tổ tiên chung thấp nhất cho trình tự dựa trênđiểm bit (bit-score) trả về bởi giải thuật BLAST Một trong những hạn chế của thuật toánLCA là nếu BLAST trả về nhiều kết quả chứa các bit-score không rõ ràng (thường là giá trịbit-score thấp) có thể dẫn đến việc trình tự được gán nhãn tại mức phân loại cao MEGANgiải quyết hạn chế này bằng cách sử dụng các ngưỡng để lọc các bit-score không rõ ràngnày Một số giải pháp dựa trên BLAST khác, SOrt-ITEMS [48], và CARMA3 [49], cũnggiải quyết hạn chế trên bằng việc sử dụng bước tìm kiếm tương hỗ (reciprocal search) đểxác định các bit-score quan trọng
Phương pháp dựa trên tính tương đồng có khả năng phân loại cho trình tự ngắn với độchính xác cao hơn so với các hướng tiếp cận khác Tuy nhiên, nhược điểm của phương phápnày đến từ thực tế là một phần lớn trình tự không thể được phân loại bởi vì chúng khôngtương đồng hay tương đồng với bit-score rất thấp với trình tự trong cơ sở dữ liệu tham khảo.Ngoài ra, phương pháp này thường rất chậm bởi vì quá trình tìm kiếm tương đồng đòi hỏichi phí tính toán cao, đặc biệt với cơ sở dữ liệu tham khảo có kích thước lớn
Trang 402.2.1.2 Phương pháp dựa trên tính hợp thành
Phương pháp này sử dụng dấu hiệu hệ gien (genomic signature) được rút trích từ hệ gienhay trình tự tham khảo để phân loại Một số dấu hiệu hệ gien thường được sử dụng như:GC-content, tần số xuất hiện l-mer Hầu hết các giải pháp thuộc nhóm này như TACOA[50], TAC-ELM [51], AKE [52] chỉ phù hợp cho xử lý trình tự dài Trong đó, TACOA [50]
sử dụng phương pháp k-NN (k-nearest neighbor), có khả năng phân loại trình tự độ dài lớnhơn 800 bp Một nghiên cứu khác, TAC-ELM [51] áp dụng phương pháp học máy ExtremeLearning Machine, vận dụng kết hợp hai đặc trưng GC-content và tần số xuất hiện l-mer.Một số nghiên cứu gần đây như MetaCV [53], MetaID [54] hướng đến việc xử lý cho trình
tự ngắn
Ưu điểm của phương pháp dựa trên tính hợp thành (composition feature) là thời gian
xử lý nhanh, đạt hiệu quả cao khi xử lý trình tự dài Tuy nhiên, hầu hết các giải pháp đượcđánh giá là thiếu hiệu quả khi phân loại trình tự ngắn Chẳng hạn, TACOA chỉ đạt độ nhạy(sensitivity) từ 3% đến 17% cho trình tự có độ dài 800 bp tại mức bộ (order) và chi (genus).Điều này có thể được giải thích rằng độ dài trình tự ngắn dẫn đến đặc trưng hợp thành đượcrút trích từ trình tự không phản ánh đúng đặc trưng vốn có chứa đựng trong hệ gien chứachúng
2.2.1.3 Phương pháp lai
Sử dụng điểm mạnh từ sự kết hợp tính tương đồng và tính hợp thành là mục đích chínhcủa các giải pháp lai Chẳng hạn, nhằm giảm chi phí tính toán, nhưng vẫn đạt được độ chínhxác như các giải pháp chỉ dựa trên tính tương đồng, SPHINX [55] trước hết gom cụm trình
tự trong cơ sở dữ liệu tham khảo, và tính khoảng cách giữa từng trình tự với phần tử trungtâm (centriod) của các cụm Giải pháp này sau đó chỉ cần thực hiện tìm kiếm tương đồng(bởi giải thuật BLAST) giữa trình tự cần phân loại với trình tự trong mỗi cụm, mà khôngcần thực hiện trên toàn bộ trình tự trong cơ sở dữ liệu tham khảo MetaCluster-TA [56] vàPhymmBL [57] là hai giải pháp lai khác cho trình tự metagenomics Tuy nhiên, mục tiêu củahai giải pháp này là nhằm cải tiến độ chính xác trong phân loại, mặc dù sự kết hợp hai đặctrưng này có thể dẫn đến thực tế là chúng tốn nhiều chi phí tính toán hơn PhymmBL, mộtgiải pháp mở rộng của Phymm [57], sử dụng giải thuật BLAST để tìm kiếm tương đồng chotất cả trình tự nhằm cung cấp thêm thông tin hỗ trợ cho quá trình phân loại trong Phymm
19