luận văn nghiên cứu sự phát triển của virut cúm

Với sự phát triển mạnh mẽ của công nghệ sinh học, một khối lượng lớn dữ liệu sinh học phân tử gene, protein, genome đã được thu thập, lưu trữ và chia sẻ tại các ngân hàng dữ liệu thế giớ

Trang 1

Nguyễn Văn Sáu

NGHIÊN CỨU SỰ PHÁT TRIỂN CỦA VIRUT CÚM

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: khoa học máy tính

Trang 2

Mục lục 1

Lời nói đầu 3

Chương I Giới thiệu về sinh học phân tử và tin-sinh học 4

1 Giới thiệu về sinh học phân tử 4

2 Giới thiệu về tin-sinh học 5

2.1 Sắp hàng đa chuỗi 5

2.2 Cây tiến hóa 7

Chương II Virut cúm 8

1.Sơ lược về virut cúm 8

2 Các loại virut cúm 8

3 Cấu trúc và tính chất 9

4 Một số thống kê và sự lây lan của virut cúm 10

4.1 Một số thống kê về dịch cúm 10

4.2 Sự lây lan của virut cúm 12

Chương III Ngân hàng gene virut cúm 13

1 Giới thiệu tổng quan 13

2 Các chức năng đã xây dựng 13

2.1 Quá trình xây dựng ngân hàng gene 14

Trang 3

2.1.2 Xây dựng cơ sở dữ liệu 16

2.2 Tìm kiếm các chuỗi 21

2.3 Tiện ích tải chuỗi 23

2.4 Tiện ích sắp hàng đa chuỗi 23

2.5 Tiện ích xây dựng cây tiến hóa 24

2.6 Bản đồ phân bố của virut cúm 25

2.6 Biểu đồ thống kê về virut cúm 28

Tài liệu tham khảo 31

Các hình ảnh tham khảo 33

Các bảng tham khảo 35

Trang 4

Lời nói đầu

Tin-sinh học (Bioinformatics) là một lĩnh vực nghiên cứu đang phát triển rất mạnh mẽ Tin-sinh học áp dụng những phương pháp trong tin học để giải quyết các bài toán trong sinh học phân tử Với sự phát triển mạnh mẽ của công nghệ sinh học, một khối lượng lớn dữ liệu sinh học phân tử (gene, protein, genome) đã được thu thập, lưu trữ và chia sẻ tại các ngân hàng dữ liệu thế giới như NCBI (National Center for Biotechnology Information) Tin sinh học hiện đang được ứng dụng phổ biến trong sinh học phân tử, y-dược học, nông nghiệp, công nghệ thực phẩm, môi trường và kiểm soát bệnh

Hiện nay, tin-sinh học đang được ứng dụng rộng trong việc phát hiện và kiểm soát bệnh Một trong các ứng dụng cụ thể là kiểm soát bệnh cúm, với các dịch bệnh đang lây lan như cúm gia cầm H5N1, cúm H1N1 Để góp phần vào việc cung cấp thông tin, cũng như các công cụ phân tích cho việc kiểm soát bệnh cúm ởViệt Nam, đề tài tập trung vào những mục tiêu chính sau: (1) cung cấp dữ liệu vềcúm trên thế giới và Việt Nam, (2) cung cấp các công cụ phân tích cơ bản như tìm kiếm, sắp hàng đa chuỗi, xây dựng cây tiến hóa, (3) cung cấp dữ liệu về virut cúm chi tiết tới từng tỉnh thành của Việt Nam, (4) cung cấp bản đồ phân tán của virut cúm trên thế giới và cho các tỉnh thành ở Việt Nam, (5) cung cấp biểu đồ thống kê virut cúm cho các vùng của Việt Nam, và trên thế giới”

Đề tài hy vọng sẽ góp phần vào việc nghiên cứu và kiểm soát các dịch bệnh liên quan đến virut cúm ở Việt Nam

Trang 5

Chương I Giới thiệu về sinh học phân tử và tin-sinh học

1 Giới thiệu về sinh học phân tử

Mọi cơ thể sống đều cấu tạo từ các tế bào

Tế bào có cấu tạo gồm vỏ và nhân, trong đó

nhân tế bào chứa ADN (hoặc ARN) Hình

1 mô tả cấu tạo của tế bào

ADN (acid deoxyribo nucleic) mang

thông tin di truyền, được cấu tạo từ 4 thành

phần cơ bản (gọi là các nucleotide –

Brown, 2000) Adenine (A), Cytosine (C),

Guanine (G), Thymine (T) như hình 2

Trong các chuỗi ADN, một số đoạn được

gọi là gene mang thông tin di truyền của các

loài sinh vật Các nucleotide trong gene sẽ

kết hợp với nhau để tổng hợp ra protein Cụ

thể là, một bộ ba nucleotide liên tiếp sẽ tạo

ra 1 axit amin Có 20 loại axit amin khác

nhau (Brown, 2002) là Phe (Phenylalanine),

Leu (Leucine), Ser (Serine), Tyr (Tyrosine),

Cys (Cysteine), Trp (Tryptophan), Pro

(Pro-line), His (Histidine), Gln (Glutamine), Arg

(Arginine), Ile (Isoleucine), Thr (Threonine), Asn (Asparagine), Lys (Lysine), Val(Valine), Ala (Alanine), Asp (Aspartic Acid), Glu (Glutamic Acid), Gly (Glycine).Hình 3 mô tả sự kết hợp của các ADN để tạo ra các axit amin Từ các axit amin

Trang 6

ARN (Ribonucleic acid) cũng tương

tự như ADN nhưng trong thành phần cơ

bản của nó thì T được thay bằng U (Uracil)

2 Giới thiệu về tin-sinh học

Trong phần này chúng tôi sẽ trình bày một

số bài toán cơ bản trong tin-sinh học như 1

Sắp hàng đa chuỗi, 2 Cây tiến hóa

nucleo-2 Chèn là một hoặc vài nucleotide được chèn thêm vào chuỗi cũ.

3 Xóa là một hoặc một vài nucleotide bị xóa đi ở chuỗi cũ.

Do 3 phép biến đổi chính ở trên làm cho các ADN sinh vật bị thay đổi Vì thế, để biết được mối quan hệ giữa các loài sinh vật (ADN) chúng ta phải dùng sắp hàng đa chuỗi để tìm ra mối quan hệ này

Gióng hàng các chuỗi ADN, ARN hay protein là cách gióng sao cho chúng giống nhau nhất Các chuỗi này sau khi gióng hàng sẽ có cùng chiều dài Trường hợp đơn giản nhất của gióng hàng là sắp hàng 2 chuỗi

Trang 7

Sắp hàng 2 chuỗi là trường hợp riêng của sắp hàng đa chuỗi Ví dụ chúng ta

có hai chuỗi ADN của Human và Chimpanzee như bảng 1 dưới đây

Sau khi gióng hàng hai chuỗi thì hai chuỗi sẽ có chiều dài bằng nhau như bảng 2 bên dưới (Waterman, 2000)

Gióng hàng đa chuỗi là thực hiện tìm sự giống nhau của nhiều chuỗi thay

cho một cặp như gióng hàng 2 chuỗi Ví dụ, ta có gióng hàng đa chuỗi của 8 chuỗisau ở bảng 3 (Waterman, 2000; Higgins, 2003)

Trang 8

Hiện tại có một số phần mềm sắp hàng đa chuỗi được sử dụng rộng rãi là MUSCLE (Edgar, R.C., 2004), CLUSTALAW (Thompson et al., 1994) hoặc T-COFFEE (Notredame et al., 2000) Sắp hàng đa chuỗi tạo ra tệp kết quả là đầu vào

để cho ta tìm ra cây tiến hóa giữa các loài Cây tiến hóa chính là biểu diễn trực quan của mối quan hệ giữa các loài

2.2 Cây tiến hóa

Cây tiến hóa là biểu diễn mối quan hệ tiến hóa giữa các loài sinh vật một cách trực

quan dưới dạng cây Dựa vào cây tiến hóa người ta có thể xác định được loài nào

có quan hệ nguồn gốc với loài nào

Trong nghiên cứu về virut

cúm, thông qua cây tiến hóa người

ta xác định được loài virut nào có

quan hệ tiến hóa từ loài virut nào,

tức là xác định được sự lây lan virut

từ nơi này qua nơi khác thông qua

quan hệ nguồn gốc giữa chúng Từ

đó, người ta đề ra các biện pháp

phòng, chống lây lan dịch tốt hơn

Trong hình 4 là ví dụ mô tả về cây

tiến hóa của các loài virut cúm ở

Việt Nam từ năm 2001 đến 2007

(Wan X-F, Nguyen T, Davis -CT,

Smith CB, Zhao Z-M, et al, 2008),

ta thấy virut HK79-like, GX22-like,

F1-like có chung một gốc và nằm ở

2 nhánh nên chúng có quan hệ nguồn gốc với nhau Hiện tại có phần mềm thông dụng sinh ra cây tiến hóa như CLUSTALAW (Thompson et al., 1994), PHYLIP (Joe Felsenstein, mid-1995) và phần mềm xem cây tiến hóa như TreeView (Ro-

Trang 9

Chương II Virut cúm

1.Sơ lược về virut cúm

Virut cúm được biết đến từ một trận dịch cúm xuất phát từ chim ở Tây Ban Nha vào năm 1918 đã giết chết khoảng 40-50 triệu người (khoảng một nửa dân số thếgiới vào thời điểm đó - Theo thống kê của tổ chức y tế thế giới WHO) Cho đến ngày hôm nay, các nhà khoa học mới giải mã được cách mà loại virut cúm này từng làm kinh hoàng thế giới bằng cách lây từ vật sang người và gây bệnh, vượt qua ranh giới về loài

Virut cúm tên khoa học là influenza virus, thường được gọi là cúm (flu), là tác nhân gây bệnh truyền nhiễm từ chim và động vật có vú, nó là virut ARN thuộc

họ Orthomyxoviridae (Voyles, 2002) Dưới đây ta sẽ tìm hiểu các loài virut chính thường gặp nhất

Trang 10

Cúm B là một loại virut cúm

thường gây bệnh ở người, thường

gây bệnh nhẹ và xảy ra ít hơn so

với cúm A Người ta mới chỉ phát

hiện ra một loài vật khác bị

nhiễm cúm B là loài hải cẩu Loại

cúm B này có tần số thay đổi 2-3

lần và ít hơn sự thay đổi của cúm

A

Cúm C là một loại virut cúm

gây bệnh chủ yếu ở người và lợn,

có thể gây ốm và lây lan cục bộ

Cúm C gặp ít hơn hai loại cúm A, cúm B rất nhiều và thường gây ốm nhẹ ở trẻ

em Tính chất dễ gây bệnh và lây lan của virut chính là do đặc điểm về cấu trúcgenome của virut gây nên Dưới đây chúng ta nói rõ hơn về cấu trúc và tính chất này

3 Cấu trúc và tính chất.

Cúm A, B và C có cấu trúc tương tự nhau Chúng có chiều dài khoảng 80-120 nomet và thường có hình cầu, mặc dù có cả hình sợi (NBCI GenBank)

na-Genome là thành phần lõi của virut Virut cúm có 8 đoạn (với cúm A và B)

và 7 đoạn (đối với cúm C) trong bộ genome của chúng (Nippon Rinsho, 1997) Trong GenBank người ta lần lượt ký hiệu các đoạn này theo số từ 1 đến 8 là 1 (PB2), 2 (PB1), 3 (PA), 4 (HA), 5 (NP), 6 (NA), 7 (M1 và M2), 8 (NS1 và NS2)đối với cúm A và B Đối với cúm C thì 7 đoạn là 1 (PB2), 2 (PB1), 3 (P3), 4 (HE),

5 (NP), 6 (MP), 7 (NS) (Nippon Rinsho, 1997) Genome của cúm A và B mã hóa

11 loại protein là hemagglutinin (HA), neuraminidase (NA), nucleoprotein (NP), M1, M2, NS1, NS2 (NEP), PA, PB1, PB1-F2 và PB2 Còn genome của cúm C

Trang 11

mã hóa 9 loại protein PB1, PB2, P3, HE, NP, M1, CM2, NS1, NS2 (NCBI, Bank) Hai protein quan trọng của virut cúm là HA và NA.

Gen-Virut cúm có 2 protein lớn HA và NA (nhưng đơn giản) hầu như quy địnhtính độc hại của virut HA là đoạn liên kết của virut tới tế bào vật thể bị lây sang, trong khi NA là bao gồm thay đổi của virut mới sinh ra từ những tế bào bị nhiễm bằng cách chia tách phân tử này Vì thế, những protein được sinh ra từ biến đổi

này có tính kháng thuốc Do đó, chúng được gọi là những gen kháng (antigen)

Cúm A được phân loại dựa vào kiểu trên kháng thể tương ứng HA và NA, ví dụ: H5N1

Coding region của một gene là một phần của ADN hoặc ARN mà nó làm nhiệm vụ sao chép phiên mã sang ARN khác, giống như ARN thông tin hoặc một ARN không mã hóa (cho trường hợp chuyển ARN hoặc một ribosom ARN) Một đoạn mang phiên mã có thể dùng để giải mã protein Đối với đoạn này thì nó không chứa những vùng gene như vị trí nhận dạng, chuỗi lặp, hoặc chuỗi kết thúc.Chính do cấu trúc và tính chất genome của virut cúm làm cho chúng dễ gây bệnh Sau đây là một số thông kê về dịch cúm

4 Một số thống kê và sự lây lan của virut cúm

Dịch cúm H5N1, H1N1, bùng phát đã làm kinh hoàng loài người kể từ trận đại dịch cúm Tây Ban Nha 1918 và đến nay nó vẫn là một trong những dịch hết sức nguy hiểm đối với loài người Sau đây, chúng ta điểm qua những trận dịch trong lịch sử

4.1 Một số thống kê về dịch cúm

Các trận đại dịch kinh hoàng trong lịch sử được thống kê trong bảng 4 dưới đây

Trang 13

4.2 Sự lây lan của virut cúm

Thông thường virut cúm không

thể lây nhiễm trực tiếp sang

người mà phải thông qua vật

chủ trung gian như lợn, gà,…

Khi ở trong vật thể trung gian

này thì virut từ người và virut

cúm của một loài khác sẽ kết

hợp với nhau bằng cách trao đổi

các thành phần trong tế bào của

chúng để tạo nên loại virut cúm

mới có khả năng gây bệnh ở

người Có hai quá trình lây lan

của virut cúm là drift và shift.

Chi tiết về hai quá trình lây lan

này có thể tham khảo từ trung

tâm ngăn chặn và kiểm soát dịch bệnh CDC info/flu-viruses.html”

Trang 14

“http://www.cdc.gov/flu/avian-/gen-Chương III Ngân hàng gene virut cúm

1 Giới thiệu tổng quan

Luận án này nghiên cứu về sự phát triển của virut cúm Công việc của luận án là xây dựng một ngân hàng gene virut cúm cho tất cả các nước trên thế giới và chi tiết tới từng tỉnh thành/vùng miền của Việt Nam Phần mềm này lấy dữ liệu tựđộng từ ngân hàng gene NCBI (một trong 3 ngân hàng gene lớn nhất thế giớiNCBI http:// www.ncbi.nih.gov), tích hợp các công cụ phân tích dữ liệu tin sinh

học tượng tự như của NCBI và “làm rõ thông tin cho hầu hết các chuỗi cập nhật được về Việt Nam mà chỉ có lượng rất nhỏ thông tin có sẵn khi cập nhật từ NCBI”.

Để góp phần vào việc cung cấp thông tin, cũng như các công cụ phân tích cho việc kiểm soát bệnh cúm ở Việt Nam, đề tài tập trung vào những mục tiêu chính sau(1) cung cấp dữ liệu về cúm trên thế giới và Việt Nam, (2) cung cấp các công cụphân tích cơ bản như tìm kiếm, sắp hàng đa chuỗi, xây dựng cây tiến hóa, (3) cung cấp dữ liệu về virut cúm chi tiết tới từng tỉnh thành của Việt Nam, (4) cung cấp bản đồ phân tán của virut cúm trên thế giới và cho các tỉnh thành ở Việt Nam, (5) cung cấp biểu đồ thống kê virut cúm cho các vùng của Việt Nam, và trên thế giới”

2 Các chức năng đã xây dựng

- Tự động cập nhật

- Tìm kiếm chuỗi

- Thực hiện sắp hàng đa chuỗi, sinh tệp tin biểu diễn toán học cây tiến hóa

- Cho phép tải tệp tin chứa các chuỗi dạng fasta, genbank, sắp hàng đa chuỗi, cây tiến hóa

- Xây dựng bản đồ phân tán của virut cúm

Trang 15

Dưới đây sẽ đi vào trình bày cách xây dựng ngân hàng gen virut cúm như thế nào.

2.1 Quá trình xây dựng ngân hàng gene

Mô hình hoạt động của ngân hàng gen xây dựng như hình 7 bên dưới

Việc đầu tiên và hết sức quan trọng cho việc xây dựng ngân hàng gene virut cúm cho Việt Nam là thu thập dữ liệu và thông tin chi tiết các gene của Việt Nam Dưới đây là quá trình thu thập này

Trang 16

2.1.1 Quá trình thu thập dữ liệu chi tiết cho Việt Nam

Quá trình thu thập dữ liệu chi tiết cho Việt Nam là quá trình đầu tiên và quan trọng nhất trong xây dựng ngân hàng gene virut cúm cho Việt Nam Trong khi cập nhật

dữ liệu trực tiếp từ NCBI thông qua việc lấy các tệp tin ‘genomeset.dat’, za.dat’, ‘influenza_aa.dat’, ‘influenza_na.dat’, ‘influenza.faa’, ‘influenza.fna’, ‘in-fluenza.cds’ chia sẻ từ địa chỉ ftp:// ftp.ncbi.nih.gov/genomes/INFLUENZA/ Các thông tin nhận được ở trên trong các tệp tin sẽ được tách ra để cho vào cơ sở dữliệu được xây dựng ở bên dưới Trong các tệp tin này thông tin rõ ràng chuỗi nào ởtỉnh thành/vùng nào của Việt Nam là rất ít Vì thế, kết hợp với các tài liệu đáng tin cậy từ các thông tin tìm kiếm trên các bài báo của các tác giả nghiên cứu virut cúm

‘influen-ở Việt Nam (các bài báo đăng trên pubmed, thông tin trực tiếp từ tác giả của chuỗi gen đó, ) Sau đây là một số bài báo trên pubmed có thông tin chi tiết về các tỉnh thành của Việt Nam

được chi tiết về Việt Nam

kể trên sẽ được chuẩn hóa

và được cập nhật vào tệp

tin “listTown.txt” để cập

nhật vào cơ sở dữ liệu

“listTown.txt” là tệp tin có

Trang 17

/vùng chưa chuẩn hóa => tỉnh thành/vùng của Việt Nam được chuẩn hóa Ví dụthông tin từ một bài báo tìm được (bài báo có dữ liệu năm 2005-2007 ở trên).Chuẩn hóa dữ liệu chi tiết về Việt Nam được cho ở bảng 6.

Sau khi đã có thông tin chi tiết về Việt Nam chúng ta bắt tay vào xây dựng

cơ sở dữ liệu lưu trữ các gene đó

2.1.2 Xây dựng cơ sở dữ liệu

Xây dựng cơ sở dữ liệu là

phần tiếp theo sau khi đã

có thông tin chi tiết hầu

hết các gene về Việt Nam

phải đăng nhập vào hệ

thống để quản lý cập nhật dữ liệu Từ trang chủ, người dùng chọn tab “Login” đểvào trang đăng nhập như hình 9 ở bên Tên người dùng và mật khẩu của người

Trang 18

Tự động cập nhật

thông tin các chuỗi từ

ngân hàng gene NCBI

Sau đây là các tệp tin được tải tự động về từ NCBI

Tệp genomeset.dat chứa thông tin về accession, host, segment, subtype, country,

year, length, name, age, gender (như bảng 7)

my $ftp = new NET::FTP(“ftp://ftp.ncbi.nih.gov/genomes/INFLUENZA”);

$ftp->login(“annynomous”, “annynomous”);

$ftp->cwd(“ftp://ftp.ncbi.nih.gov/genomes/INFLUENZA/updates/”);

$ftp->get(“filename”);

Trang 19

Tệp influenza.cds chứa thông tin về gb(genbank), accession, length, name,

seg-ment, sequence (như bảng 8)

Tệp influenza.dat chứa thông tin về accession nucleotide (ANuc), accession

pro-tein (APro) (như bảng 9 bên dưới)

Tệp influenza.faa là tệp tin fasta chứa số accession của nucleotide của GenBank,

số accession của protein của GenBank , chỉ ra là protein coding region, hai trường tiếp theo (nếu có) là lặp lại nếu một chuỗi của nucleotide mã hóa nhiều hơn một protein và sau cùng là chuỗi (bảng 10)

Tệp influenza.fna là tệp tin fasta chứa thông tin về gi|genbank identify|gb|

acces-sion|name và sau đó là chuỗi (như bảng 11)

Tiêu đề	Nghiên cứu sự phát triển của virut cúm
Tác giả	Nguyễn Văn Sáu
Trường học	Đại Học Quốc Gia Hà Nội - Trường Đại Học Công Nghệ
Chuyên ngành	Khoa Học Máy Tính
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2009
Thành phố	Hà Nội

Định dạng
Số trang	37
Dung lượng	1,67 MB