Đề tài này trình bày giải pháp xây dựng cơ sở dữ liệu để có thể bổ sung dữ liệu virus cúm ở Việt Nam cho đến mức độ tỉnh thành; đồng thời xây dựng các công cụ giúp cho việc khai thác thô
Trang 1MỤC LỤC
MỤC LỤC 1
DANH MỤC HÌNH 2
DANH MỤC BẢNG 3
TÓM TẮT 4
CHƯƠNG 1: TỔNG QUAN 1
1.1 GIỚI THIỆU VỀ VIRUS CÚM 1
1.2 TÌNH HÌNH NGHIÊN CỨU TRONG VÀ NGOÀI NƯỚC 4
1.3 MỤC TIÊU ĐỀ TÀI: 5
CHƯƠNG 2: NỘI DUNG THỰC HIỆN 7
2.1 PHƯƠNG PHÁP NGHIÊN CỨU 7
2.2 THIẾT KẾ MỘT CƠ SỞ DỮ LIỆU VIRUSBANK CHỨA THÔNG TIN VỀ VIRUS CÚM CHI TIẾT HÓA ĐẾN MỨC ĐỘ TỈNH THÀNH Ở VIỆT NAM 7
2.2.1 Mô hình quan niệm dữ liệu 7
2.2.2 Diễn giải 10
2.2.3 Mô hình logic dữ liệu 14
2.3 MODULE TỰ ĐỘNG DOWNLOAD DỮ LIỆU TỪ NGÂN HÀNG DỮ LIỆU NCBI 14
2.4 MODULE TỰ ĐỘNG CẬP NHẬT DỮ LIỆU VÀO CƠ SỞ DỮ LIỆU VIRUSBANK 16
2.5 CÔNG CỤ CUNG CẤP THÔNG TIN VIRUS CÚM 17
CHƯƠNG 3: KẾT LUẬN 18
3.1 KẾT QUẢ ĐẠT ĐƯỢC 18
3.2 HƯỚNG PHÁT TRIỂN 18
TÀI LIỆU THAM KHẢO 19
Trang 2Hình 1: Cấu trúc hệ gen của 3 loại cúm: cúm A, cúm B, cúm C 2
Hình 2: Các đại dịch cúm xảy ra trên thế giới cho đến nay 3
Hình 3: Mô hình quan niệm dữ liệu VirusBank 10
Hình 4: Mô hình logic dữ liệu VirusBank 14
Hình 5: Giao diện form kết nối dữ liệu 15
Hình 6: Giao diện form tạo file đường dẫn 16
Hình 7: Giao diện form Download tự động, update tự động 17
Trang 3
Bảng 1: Tổng kế các đặc điểm chính của virus 1
Bảng 2: Thống kê số người nhiễm cúm H5N1 cho đến năm 2009 4
Bảng 3: Ví dụ nội dung file influenza_na.dat 7
Bảng 4: Ví dụ về nội dung file influenza.dat 8
Trang 4Virus cúm (influenza) là một loại RNA virus, chính là nguyên nhân gây ra bệnh cúm ở người và động vật Với khả năng biến đổi và lan truyền nhanh từ động vật sang động vật, từ động vật sang người, và đặc biệt là từ người sang người; virus cúm là một trong những loài virus nguy hiểm nhất cho nền kinh tế cũng như sức khỏe con người trên toàn thế giới từ trước đến nay Chính vì vậy, sự hiểu biết về cấu trúc phân tử của nó là một nhu cầu lớn trong các nghiên cứu về dịch bệnh Hiện nay, các tổ chức y tế, cũng như các ngân hàng dữ liệu trên thế giới đã lưu trữ nhiều trình tự sinh học liên quan đến virus cúm Tuy nhiên, các ngân hàng dữ liệu sinh học này không chứa thông tin chi tiết đến các tỉnh thành của một quốc gia Vì vậy, chúng ta không có đầy đủ thông tin để biểu diễn quá trình lây nhiễm, cũng như phân tích virus cúm ở Việt Nam một cách đầy đủ, đặc biệt có đủ thông tin để phục vụ cộng đồng
Đề tài này trình bày giải pháp xây dựng cơ sở dữ liệu để có thể bổ sung dữ liệu virus cúm ở Việt Nam cho đến mức độ tỉnh thành; đồng thời xây dựng các công cụ giúp cho việc khai thác thông tin theo tiêu chí người dùng về virus cúm nhanh chóng và hiệu quả Bên cạnh đó, đề tài cũng trình bày giải pháp cho phép cập nhật dữ liệu một cách tự động từ các ngân hàng dữ liệu về virus cúm trên thế giới, đặc biệt là ngân hàng dữ liệu của NCBI (National Center for Biotechnology Information)
Trang 5
1.1 GIỚI THIỆU VỀ VIRUS CÚM
Virus cúm (influenza) - một loại RNA virus - là nguyên nhân gây ra bệnh cúm ở
người và động vật Virus cúm được chia thành ba loại chính là cúm A, cúm B, và cúm C Cúm A bao gồm nhiều chủng (subtype) khác nhau (ví dụ H1N1, H2N2,
H5N1,…) và là virus cúm phổ biến và nguy hiểm nhất Hình 1Error! Reference source not found mô tả cấu trúc hệ gen của ba loại virus cúm: cúm A, cúm B,
cúm C Cúm A và cúm B có 8 loại gen giống nhau, trong khi cúm C có 7 loại gen Tổng kết về virus cúm - loại virus, kích thước hệ gen, các loại gen, các loại protein chính, các động vật chủ phổ biến - được nêu ra ở Bảng 1
Bảng 1: Tổng kế các đặc điểm chính của virus
Người, chim, gia cầm, động vật có vú Cúm B ~12 Kb PB1, PB2, NP, HA,
NA, PA, NS, M
PB1, PB2, PA, HA, NA,
NP, M1, BM2, NS1, NS2 Người, hải cẩu Cúm C ~10 Kb PB1, PB2, NP, PA,
NS, M, HEF
PB1, PB2, P3, HE, NP, M1, CM2, NS1, NS2 Người, lợn
Trang 6Hình 1: Cấu trúc hệ gen của 3 loại cúm: cúm A, cúm B, cúm C
Với khả năng biến đổi và lan truyền nhanh từ động vật sang động vật, từ động vật sang người, và đặc biệt là từ người sang người, virus cúm là một trong những loài virus nguy hiểm nhất cho nền kinh tế cũng như sức khỏe con người trên toàn thế
giới từ trước đến nay Hình 2 chỉ ra các mốc thời gian diễn ra các đại dịch cúm
trên thế giới do tổ chức y tế thế giới thống kê Đầu tiên là đại dịch cúm Tây Ban Nha H1N1 diễn ra năm 1918 đã giết khoảng 20-50 triệu người trên toàn thế giới Tiếp sau đó, một loạt các đại dịch cúm khác gây thiệt hại lớn đến nền kinh tế và sức khỏe con người như cúm châu Á H2N2 năm 1957, cúm Hồng Kông H3N2 năm 1968, v.v…
Từ năm 2003 đến nay, thế giới và đặc biệt là châu Á và Việt Nam đang bị dịch cúm gia cầm H5N1 Cúm gia cầm H1N1 có khả năng lây nhanh giữa gia cầm và gia cầm, dẫn đến làm chết và phải thiêu hủy hàng loạt gia cầm Đặc biệt nguy hiểm hơn, chúng có khả năng lây từ gia cầm sang con người
Trang 7Hình 2: Các đại dịch cúm xảy ra trên thế giới cho đến nay
Cho đến ngày 24/9/2009, cả thế giới đã có 262 người chết vì cúm gia cầm, trong
đó Việt Nam có 56 trường hợp (xem Bảng 2 do tổ chức y tế thế giới thống kê) Trung tâm kiểm soát và phòng chống bệnh Mỹ dự đoán dịch cúm gia cầm H5N1
có thể ảnh hưởng đến 15-35% dân số Mỹ với thiệt hại kinh tế khoảng 70-167 tỉ USD
Hiện nay, cả thế giới, và đặc biệt ở Việt Nam, đang đối mặt với dịch cúm lợn H1N1 Điều đặc biệt nguy hiểm của cúm lợn H1N1 là chúng có khả năng lây từ người sang người và gây tử vong trong thời gian ngắn Tổ chức y tế thế giới (WHO) thông báo ngày 11/10/2009 có hơn 399.232 trường hợp bị nhiễm cúm H1N1, trong đó hơn 4.735 trường hợp bị tử vong (xem
http://www.who.int/csr/don/2009_10_16/en/index.html) Việt Nam đã ghi nhận hơn 10 nghìn trường hợp bị nhiễm cúm H1N1, trong đó đã có hơn hai mươi ca tử vong
Sự phát triển mạnh mẽ của công nghệ sinh học đã giúp chúng ta giải mã bộ gen của virus cúm trong một thời gian ngắn với chi phí vừa phải Dự án giải mã toàn
bộ hệ gen của virus cúm đã được triển khai tại nhiều nơi như Viện nghiên cứu quốc gia về các bệnh truyền nhiễm, Hoa Kỳ (NIAID) từ những năm 2004 [1]
Một lượng lớn dữ liệu sinh học phân tử (các trình tự DNA/protein) của virus cúm
đã được giải mã và lưu trữ ở các cơ sở dữ liệu dùng chung của thế giới như Trung tâm Thông tin về công nghệ sinh học Hoa Kỳ - NCBI (National Center for Biotechnology Information) NCBI hiện đang lưu giữ hơn 100.000 trình tự DNA/protein của virus cúm được thu thập và giải mã từ nhiều quốc gia trên thế giới trong suốt thời gian qua
Trang 8Bảng 2: Thống kê số người nhiễm cúm H5N1 cho đến năm 2009
Với một lượng dữ liệu khổng lồ đã được thu thập, việc xây dựng các hệ thống thông tin, xây dựng các công cụ tìm kiếm và phân tích dữ liệu đang được phát triển mạnh mẽ trên thế giới Qua đó giúp chúng ta hiểu được cơ chế lây nhiêm, tạo
ra vắc-xin mới, theo dõi và kiểm soát dịch bệnh
Nổi bật trong các hệ thống đó là hệ thống thông tin virus cúm của NCBI (http://www.ncbi.nlm.nih.gov/genomes/FLU/) được phát triển bởi Bao và các đồng nghiệp năm 2008 [2] Hệ thống hiện lưu giữ hơn 100.000 trình tự DNA/protein của các loài virus cúm khác nhau Một số chức năng chính của hệ thống là:
− Cung cấp thông tin về virus cúm theo nhiều tiêu chí khác nhau như: loại virus cúm (cúm A, cúm B, cúm C), động vật chủ (người, gia cầm, ), quốc gia, loại protein
Cung cấp một số công cụ tìm kiếm và phân tích dữ liệu như: tìm kiếm BLAST [1], sắp hàng đa trình tự [5], xây dựng cây phát sinh loài [8], v.v…
Tuy nhiên, các thông tin do hệ thống NCBI cung cấp chỉ chi tiết đến mức độ quốc gia Tức là không chi tiết đến mức độ các tỉnh thành trong một quốc gia Hệ thống cũng không cung cấp công cụ cho phép hiện thị và theo dõi quá trình lây nhiểm của virus cúm
1.2 TÌNH HÌNH NGHIÊN CỨU TRONG VÀ NGOÀI NƯỚC
¾ Ngoài nước:
Trang 9− Trung tâm Thông tin về công nghệ sinh học Hoa Kỳ - NCBI (National Center for Biotechnology Information)
http://www.ncbi.nlm.nih.gov/genomes/FLU/
− Viện nghiên cứu genome Bắc Kinh, Trung Quốc, xây dựng
¾ Trong nước:
− Viện Công nghệ sinh học (Institute of Biotechnology - IBT)
đã tiến hành nghiên cứu và giải mã nhiều trình tự virus cúm H5N1
− Cục thú y trung ương đã tiến hành giải mã toàn bộ hệ gen của 33 virus cúm ở nhiều tỉnh thành khác nhau từ 10/2005 đến 5/2007: Đồng tháp, Sóc Trăng, An Giang, Hà Tây, Vĩnh Long, Hà Nội,v.v…
− Nhóm nghiên cứu của TS Lê Sỹ Vinh ở Trường Đại học Công nghệ, thuộc Đại học Quốc gia Hà Nội tiến hành phát triển các phương pháp và công cụ tin sinh học để phân tích
dữ liệu virus cúm thu được
− Nhóm nghiên cứu của PGS Trần Văn Lăng ở Phân viện Công nghệ thông tin tại TPHCM trước đây, nay là Viện Cơ học và Tin học ứng dụng (Institute of Mechanics and Informatics – IAMI) thuộc Viện Khoa học và Công nghệ Việt Nam đã nhiều năm nghiên cứu, xây dựng các công cụ tin sinh phục vụ cho việc nghiên cứu các trình tự DNA/protein làm nền tảng cho việc nghiên cứu vi khuẩn và virus
1.3 MỤC TIÊU ĐỀ TÀI:
Việc áp dụng Công nghệ thông tin (CNTT) vào giải quyết các bài toán trong Công nghệ sinh học là một lĩnh vực mới trên thế giới cũng như ở Việt Nam Nhờ sự phát triển của Công nghệ sinh học, hiện nay chúng ta đã có khả năng trích chọn dữ liệu sinh học phân tử (trình tự DNA, hay trình tự amino acid) từ virus qua đó giúp chúng ta phân tích sự phát triển và lan rộng của virus cúm
Mặc dù nhiều nghiên cứu về virus cúm đã được tiến hành ở Việt Nam, các nghiên cứu chủ yếu tập trung vào việc giải mã các trình tự DNA và protein, qua đó tiến hành một số phân tích để tim hiểu mối quan hệ giữa chúng
Trang 10Tuy nhiên, hiện nay chúng ta còn thiếu một hệ thống tin giúp các nhà quản lý (bộ, ngành y tế); các nhà chuyên môn; và người dân có được thông tin, dữ liệu, cũng như những công cụ phân tích (thống kê, mô hình) về virus cúm trên thế giới, đặc biệt chi tiết hóa cho virus cúm ở Việt Nam
Đề tài này tập trung xây dựng công cụ cung cấp thông tin về virus cúm bao gồm các chức năng:
¾ Thiết kế một cơ sở dữ liệu chứa thông tin về virus cúm trên thế giới và chi tiết hóa dữ liệu virus cúm ở Việt Nam cho đến mức độ tỉnh thành
¾ Tự động cập nhật dữ liệu từ ngân hàng dữ liệu NCBI
¾ Xây dựng công cụ cung cấp thông tin virus cúm
Trang 11− Các công cụ xây dựng hướng tới người dùng Việt Nam
− Khảo sát và tìm kiếm những thông tin đã được công bố để bổ sung cho
cơ sở dữ liệu những thông tin đặc thù ở Việt Nam
− Tận dụng tối đa và cập nhật thường xuyên dữ liệu virus cúm từ các cơ sở
dữ liệu quốc tế như NCBI
2.2 THIẾT KẾ MỘT CƠ SỞ DỮ LIỆU VIRUSBANK CHỨA THÔNG TIN VỀ VIRUS CÚM CHI TIẾT HÓA ĐẾN MỨC ĐỘ TỈNH THÀNH Ở VIỆT NAM
2.2.1 Mô hình quan niệm dữ liệu
ftp://ftp.ncbi.nih.gov/genomes/INFLUENZA/
Gồm các file
- genomeset.dat – có bảng chứa dữ liệu tổng quan về gen
- influenza_na.dat – Bảng chứa dữ liệu tổng quan về nucleotic
- influenza_aa.dat – Bảng chứa dữ liệu tổng quan về protein
- influenza.dat – Bảng chứa nucleotide, protein và định danh các vùng mã
(coding regions IDs)
Ví dụ về nội dung file influenza_na.dat
Bảng 3: Ví dụ nội dung file influenza_na.dat
H3N8 AJ31075
0
Equine 6 H3N8 India 1987 1450 Equine influenza virus
H3N8
yes S73497 Seal 5 H7N7 USA 1980 90 Influenza A virus
(A/seal/Mass/1/1980(H
Trang 127N7)) V01087 Avian 4 H3N8 Ukraine 1963 1765 Influenza A virus
(A/duck/Ukraine/1/196 3(H3N8))
Ví dụ về nội dung file influenza.dat
Bảng 4: Ví dụ về nội dung file influenza.dat
6 gb|AB000608:4-1128 BAA75837 (gb|AB000608:4-731, 960) BAA75838 gb|AB000608:709-1128
Và thông tin từng file dữ liệu của Nucleotic, Protein, Gene
Các file này chứa đầy đủ thông tin của 1 gene, 1 protein hoặc 1 nucleotic Yêu cầu cần thiết phải thiết kế một cơ sở dữ liệu có thể lưu trữ các thông tin này nhưng phải thêm phần chi tiết đến tỉnh thành ở Việt Nam, đồng thời phải dễ dàng cho việc cập nhật tự động, truy xuất và hiển thị thông tin
Xem hình về file thông tin của 1 nucleotic
Trang 13hemagglutinin (HA) gene, partial cds
LOCUS GU811748 1584 bp cRNA linear VRL 21-APR-2010 DEFINITION Influenza A virus (A/chicken/Egypt/1052S-NLQP/2010(H5N1)) segment 4 hemagglutinin (HA) gene, partial cds
ACCESSION GU811748
VERSION GU811748.1 GI:289900038
KEYWORDS
SOURCE Influenza A virus (A/chicken/Egypt/1052S-NLQP/2010(H5N1))
ORGANISM Influenza A virus (A/chicken/Egypt/1052S-NLQP/2010(H5N1))
Viruses; ssRNA negative-strand viruses; Orthomyxoviridae;
Influenzavirus A
REFERENCE 1 (bases 1 to 1584)
AUTHORS Arafa,A.A., Hagag,N.M., Abdullah,M.H., Yehia,N.M.,
Abdel-Halim,A.M., Kilany,W.H., Ahmed,M.S., Zanaty,A.M.,
Abdel-Aziz,O.M., Hassan,M.K and Aly,M.M
TITLE Genetic analysis of recent Egyptian H5N1 viruses
JOURNAL Unpublished
REFERENCE 2 (bases 1 to 1584)
AUTHORS Arafa,A.A., Hagag,N.M., Abdullah,M.H., Yehia,N.M.,
Abdel-Halim,A.M., Kilany,W.H., Ahmed,M.S., Zanaty,A.M.,
Abdel-Aziz,O.M., Hassan,M.K and Aly,M.M
TITLE Direct Submission
JOURNAL Submitted (18-FEB-2010) National Laboratory for Veterinary Quality Control on Poultry Production, Nadi-Elsaid Street, Dokki, Giza
ORIGIN
1 atgcaaacaa ctcaacagag caggttgaca caataatgga aaagaacgtc actgttacac
61 acgctcaaga catactggaa aagacacaca acgggaaact ctgcgatcta gatggagtga
121 agcctctaat tttaagagat tgtagtgtag ctggatggct cctcgggaac ccaatgtgtg
Trang 14Từ các thông tin trên, mô hình quan niệm dữ liệu được thiết kế như sau:
1,1
0,n
0,n 1,1
1,1
0,n
1,1 0,n
1,1
1,1 0,n
(1,1) 0,n
1,1
0,n
LoaiVirusCum MaLoaiVirusCum MoTaLoaiVirus
A(1) LVA(100)
BT LVA(30)
QuanHuyen MaQuanHuyen TenQuanHuyen
LI LVA(50)
QuocGia MaQuocGia TenQuocGia
VA(5) LVA(50)
QG_CL QH_QG
Nucleotide Nuc_MaSo Nuc_MaDK Nuc_GI Nuc_PhienBan Nuc_MoTa Nuc_Ngay Nuc_Giong Nuc_Tuoi Nuc_KichThuoc Nuc_NoiDung KTDayDu
LI VA(10) VA(10) BT LVA(200) D BL BT I VA(5000) BL
CDS CDS_MaSo CDS_Vung CDS_KichThuoc CDS_NoiDung
LI VA(50) I LVA(5000)
Protein Pro_MaSo Pro_MaDK Pro_PhienBan Pro_GI Pro_MoTa Pro_KichThuoc Pro_NoiDung
LI VA(10) BT VA(10) LVA(200) I VA(5000)
LoaiProtein MaLoaiProtein TenLoaiProtein
BT VA(6)
ThuocLoaiProtein
CDS_Protein CDS_NucCore
Pro_Virus STT_Virus BT NucCore_Virus
Nuc_QH
Hình 3: Mô hình quan niệm dữ liệu VirusBank 2.2.2 Diễn giải
1- LOAIVIRUS(MaLoaiVirus, MoTaLoaiVirus)
Vi rút cúm được chia thành ba loại chính là cúm A, cúm B, và cúm C
Khóa truy xuất trong Nucleotide :
/organism="Influenza A virus (A/Egypt/N04434/2010(H5N1))"
Mỗi loại Virus có nhiều chủng (Subtype) khác nhau Ví dụ cúm A có các
chủng H1N1, H2N2, H5N1,… và là vi rút cúm phổ biến và nguy hiểm nhất
Trang 15Khóa truy xuất trong Nucleotide : Source/serotype="H5N1"
5- LoaiGen(MaLoaiGen, MoTaLoaiGen)
Các loại gien có trong các loại virus: HA; MP; NA; NP; NS; P3; PA; PB1; PB2
Khóa truy xuất trong Nucleotide :
gene /gene= "HA"
CDS/gene="HA"
Trong Nucleotide, số thứ tự phân đoạn (segment) của các gene phụ thuộc vào loại virus :
Loại vi rút Các loại gen
Cúm A 1-PB2, 2-PB1, 3-PA, 4-HA, 5-NP, 6-NA, 7-MP, 8-NS
Cúm B 1-PB1, 2-PB2, 3-PA, 4-HA, 5-NP, 6-NA, 7-MP, 8-NS
Danh mục các loại động vật (Organism)
Truy xuất cột thứ 2 trong các file genomeset.dat, influenza_na.dat, influenza_aa.dat
7- DONGVATCHU(MaDongVatChu, TenDongVatChu):
Danh mục động vật mang virus
Khóa truy xuất trong Nucleotide :
Danh mục quốc gia (Country), mỗi quốc gia thuộc một vùng
Khóa truy xuất trong Nucleotide :
source/country="Egypt: Qaliobia"
source/country="Egypt: Fayoum"
10- QUANHUYEN(MaQuanHuyen, TenQuanHuyen)