Lắp ráp trình tự và phân tích genome (Trình tự genome thô hình cầu)

Một phần của tài liệu Nguyễn Trương Phi - 1813508 .Pdf (Trang 44 - 47)

Chương 2: Vật liệu và phương pháp

2.3.6. Lắp ráp trình tự và phân tích genome (Trình tự genome thô hình cầu)

Trình tự genome thô sau khi giải trình tự có định dạng *.fastq.gz, gồm 2 tệp cho mỗi phage với hai chiều đọc trình tự. Đầu tiên dữ liệu thô sẽ được đánh giá bằng phần mềm FastQC42 để đánh giá chất lượng trình tự, độ dài các read, %GC, mức độ lặp lại của các trình tự,... Vì ta cần một lượng read phù hợp để lắp ráp genome, với độ bao phủ trên 30X là đã đủ để lắp ráp bộ gene của thực khuẩn thể hoàn chỉnh, tuy nhiên nếu coverage quá cao có thể dẫn đến các lỗi về thuật toán khiến các phần mềm lắp ráp không thể lắp được genome hoàn chỉnh43. Cho nên nếu độ bao phủ (coverage) quá lớn (>200X), ta cần phải lựa chọn ngẫu nhiên một lượng read (subsample) sao cho trình tự sau lắp ráp có độ bao phủ ~50 - 100X là phù hợp44. Để ước tính được lượng read cần lấy để độ bao phủ đạt 100X, ta áp dụng công thức sau:

Lượng read cần = Độ bao phủ mong muốn × Kích thước genome Độ dài trung bình các read

Với độ bao phủ mong muốn là 100X, kích thước genome ta sẽ ước tính bằng chương trình kmercountexact trong gói phần mềm BBtools45, độ dài trung bình các read ~150 bp. Từ đó ta có thể điều chỉnh độ bao phủ mong muốn, nếu lượng read bé hơn lượng read cần để độ bao phủ đạt 100X thì ta sẽ không thực hiện subsample.

Nhằm loại bỏ các read chất lượng thấp gây nhiễu trong quá trình lắp ráp ta sẽ sử dụng phần mềm bbduk cũng trong gói BBtools. Nếu lượng read quá nhiều so với lượng cần để lắp ráp, ta cần thực hiện subsample bằng phần mềm seqtk46. Tiếp theo là thực

Lưu đồ 2.5 Quy trình phân tích genome

28

hiện lắp ráp genome bằng phần mềm SPAdes47, khi lắp ráp xong ta có thể quan sát trực quan kết quả lắp ráp bằng phần mềm Bandage48 và thống kê kết quả lắp ráp bằng bbmap của BBtools. Tiếp đến ta sẽ chọn NODE dài và có coverage lớn nhất (thường là NODE1) trong file contigs.fasta từ kết quả xuất ra của SPAdes làm genome của phage lưu vào 1 file fasta riêng.

Tiếp theo để xem xét độ bao phủ của các read trong trình tự thô đối với genome phage sau lắp ráp ta sử dụng phần mềm Bowtie249 để thực hiện sắc giống các read đối với genome của phage như là một trình tự tham khảo. Vì kết quả sắp giống của Bowtie2 ở định dạng *.sam nên ta dùng phần mềm Samtools50 để chuyển về định dạng *.bam và sắp xếp lại các read và có thể quan sát bằng phần mềm IGV tool51. Ngoài ra có thể thống kê các thông số về dữ liệu thô sau khi đã có bam file bằng phần mềm Qualimap v252. Sau đó dùng file bam cùng với trình tự genome để sửa lỗi và hoàn thiện genome bằng phần mềm Pilon53 để có phiên bản genome hoàn chỉnh nhất.

Khi đã đó genome, ta có thể tiến hành đánh giá sơ bộ bằng cách thực hiện BLAST nucleotide (BLASTN)54 toàn bộ genome trên trang wed của NCBI và vẽ đối chứng các orf bằng Easyfig55, kiểm tra kiểu kết thúc của genome bằng PhageTerm56 hoặc xem trực quan các phage có mối quan hệ gần bằng PhageClouds57.

Sau đó thực hiện chú giải cấu trúc bằng Gimmler/Genmark được tích hợp trong phần mềm DNA Master. Tiếp theo sẽ chú giải chức năng và sàng lọc thủ công các Open Reading Frame (orf) mà phần mềm ghi nhận được dựa trên các kết của của GenMark58, BLAST, HHPred59 và Conserved Domain Database (CDD)60 cùng với đó là một số cơ sở lý luận. Cách sử dụng DNA Master và quy trình chú giải dựa theo hướng dẫn của Science Education Alliance-Phage Hunters (SEA-PHAGES)61.

Sau khi đã thực hiện chú giải, ta sẽ kiểm tra tính an toàn của phage, xem có khả thi khi áp dụng vào liệu pháp thực tế hay không. Để kiểm tra các yếu tố gây độc trong phage, ta sử dụng cơ sở dữ liệu Virulence Factor Database (VFDB)62, kiểm tra các gene kháng kháng sinh trong phage bằng Comprehensive Antibiotic Resistance Database (CARD) 202063. Sau đó vẽ bản đồ gene bằng BRIG64 và thiết lập phát sinh loài dựa trên gene mã hóa terminase large subunit để sắp gióng nhiều trình tự bằng phần mềm MUSCLE65, xây dựng phát sinh loài bằng phần mềm bằng phần mềm IQ-TREE66 sử

29

dụng phương pháp Maximum Likelihood (ML), bootstrap 1000, cuối cùng vẽ cây phát sinh loài bằng phần mềm iTOL67.

30

Một phần của tài liệu Nguyễn Trương Phi - 1813508 .Pdf (Trang 44 - 47)

Tải bản đầy đủ (PDF)

(81 trang)