Đề tài “Lập chỉ mục theo nhóm để nâng cao hiệu quả khai thác cơ sở dữ liệu virus cúm” là đề tài được đưa ra nhằm mục đích đem ứng dụng thực tiễn để lưu trữ những thông tin phổ thông về s
Trang 1CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 9
2.1 Giới thiệu tổng quan:9
2.2 Giới thiệu công nghệ LinQ – Visual 2008: 9
2.4.3 Biểu diễn thông tin virus cúm trên bản đồ: 12
2.3.4 Lưu trữ, hiển thị và tìm kiếm thông tin gen: 12
CHƯƠNG 3: XÂY DỰNG WEBSITE QUẢN LÝ THÔNG TIN SINH Y HỌC
Trang 23.3.1 Hiển thị thông tin virus cúm 20
3.3.2 Lưu trữ, hiển thị và tìm kiếm thông tin gene sinh học: 20
3.3.3 Thiết kế giao diện hiển thị và tìm kiếm thông tin gene 22
3.4 Tích hợp liên kết các chức năng vào website quản lý thông tin sinh học:23
3.4.1 Tìm kiếm thông tin virus cúm:23
3.4.2 Tra cứu thông tin virus cúm: 24
3.4.3 Biểu diễn thông tin virus cúm trên google map: 24
Trang 3Hình 1.1:Trang chủ của bme.vn 2
Hình 1.2:Trang chủ của thietbiysinh.com3
Hình 1.3:Trang chủ sinh học Việt Nam 4
Hình 1.4:Trang chủ của NCBI 5
Hình 1.5:trang chủ của biomedical 5
Hình 1.6:trang chủ của obofoundry 6
Hình 1.7:trang chủ của flukebiomedical 7
Hình 2.1:Tài khoản 10
Hình 2.2:cơ sở dữ liệu LinQ file *.dbml 10
Hình 2.3: Mô hình cơ sở dữ liệu thông tin virus cúm 12
Hình 3.1: trang chủ sinh học Việt Nam 13
Hình 3.7: Trang chi tiết tin tức 18
Hình 3.8: Trang chi tiết nghiên cứu khoa học 19
Hình 3.9: hiển thị virus cúm 20
Hình 3.10: Minh họa 1 file kết quả thu được sau khi tìm kiếm trình tự Nucleotic trên NCBI dạng FASTA 20
Hình 3.11: Minh họa một file kết quả thu được sau khi tìm kiếm trình tự
Aminoacid do CDS mã hóa trên NCBI dạng FASTA 21
Hình 3.12: Kết quả tổng hợp trình tự Nucleotide sau khi tìm kiếm 21
Hình 3.13: Trang Gene Admin 22
Hình 3.14: giao diện thông tin gene 22
Hình 3.15: Giao diện công cụ tìm kiếm trình tự sinh học 23
Trang 4Đề tài “Lập chỉ mục theo nhóm để nâng cao hiệu quả khai thác cơ sở dữ liệu virus cúm” là đề tài được đưa ra nhằm mục đích đem ứng dụng thực tiễn để lưu trữ những thông tin phổ thông về sinh học và những thông tin về các nghiên cứu khoa học về sinh học đồng thời giúp cho việc khai thác cơ sở dữ liệu sinh học, đặc biệt là cơ sở dữ liệu virus cúm, hiệu quả và tiện lợi bằng cách dùng phương pháp lập chỉ mục theo nhóm
Đề tài cũng xây dựng thành công website quản lý sinh học, cung cấp cho người dùng những thông tin về sinh học và hỗ trợ cho những người nghiên cứu sinh học những công cụ hỗ trợ trong quá trình nghiên cứu sinh học như: sắp hàng đa trình
tự sinh học, biễu diễn – tìm kiếm thông tin virus cúm, so sánh cấu trúc protein …
Website sẽ là nơi được những nhà quản trị thu thập và lưu trữ những thông tin, dữ liệu nghiên cứu về sinh học Là môi trường để liên kết, tích hợp những ứng dụng trong nghiên cứu sinh học
Trang 5Việc áp dụng Công nghệ thông tin vào giải quyết các bài toán trong sinh học là một lĩnh vực mới trên thế giới cũng như ở Việt Nam Đã có rất nhiều nghiên cứu
về sinh học đã được tiến hành ở Việt Nam, nhưng các nghiên cứu chủ yếu tập trung vào việc giải mã các trình tự DNA và protein, qua đó tiến hành một số phân tích để tìm hiểu mối quan hệ giữa chúng
Hiện nay chúng ta còn thiếu một hệ thống thông tin giúp các nhà quản lý như bộ,
sở ngành y tế, các nhà chuyên môn và người dân có được thông tin, dữ liệu cũng như công cụ phân tích về sinh học, đặc biệt là ở Việt Nam
Chính vì vậy đề tài “Lập chỉ mục theo nhóm để nâng cao hiệu quả khai thác cơ sở
dữ liệu virus cúm” đáp ứng một phần tìm hiểu về thông tin sinh học ở Việt Nam Với bài nghiên cứu này tác giả xây dựng một website nhằm quản lý thông tin sinh học và cung cấp các ứng dụng có liên quan trong việc nghiên cứu sinh học, hơn nữa còn áp dụng cách lập chỉ mục theo nhóm để cho việc khai thác thông tin trở nên nhanh chóng và hiệu quả
• Tình hình phát triển:
Trang 6website Tuy nhiên, những nội dung đóng góp miễn phí cho BMEVN sẽ trở thành kho tư liệu được cung cấp hoàn toàn miễn phí cho cộng đồng.
Hình 1.:Trang chủ của bme.vnNội dung chủ đạo mà BMEVN hướng đến là phục vụ cho giáo dục, đào tạo và cung cấp thông tin cho cộng đồng Trước mắt, chúng tôi sẽ tập trung chính vào 3 mảng sau:
+ Những kiến thức cơ bản và chuyên sâu liên quan đến lĩnh vực kỹ thuật y sinh.+ Giới thiệu những sản phẩm, công nghệ mới được phát triển, ứng dụng tại Việt Nam và Thế giới
+ Trao đổi tài liệu với mục đích học tập, nghiên cứu.Ngoài ra để website phản ánh sát thực tế, chúng tôi cũng hướng đến các nội dung:
+ Những tin tức mới liên quan đến sự phát triển của ngành Kỹ thật y sinh tại Việt Nam
+ Thông tin giao lưu, trao đổi
* http://www.thietbiysinh.com.vn
Website này cung cấp cho người xem những thông tin mới nhất trong lĩnh vực y sinh, những ứng dụng kỹ thuật hiện đại vào phương pháp chẩn đoán y học
và phương pháp điều trị bệnh tật Ngoài ra cũng cung cấp những kiến thức cơ bản
về y học trong đời sống thường ngày, giúp cho người xem có thể tự bảo vệ sức
Trang 8Hình 1.:Trang chủ sinh học Việt NamWebsite Sinh học Việt Nam (http://sinhhocvietnam.com) được định hướng
là nơi hội tụ các nhà Sinh học người Việt đang sinh sống và làm việc khắp mọi nơi trên thế giới Nguyên tắc hoạt động của SHVN là tự nguyện, dựa trên sự đóng góp của cộng đồng Tất cả những nội dung trên SHVN là phi lợi nhuận.Tôn chỉ của SHVN là nghiêm túc và thuần tuý chuyên môn
Ngoài ra còn có một số website khác như:
Trang 9Hình 1.:Trang chủ của NCBI
Là trang trung tâm thông tin quốc gia về công nghệ sinh học, nơi cung cấp thông tin, dữ liệu cơ sở cho công đồng, quản lý các nghiên cứu khoa học trong lĩnh vực sinh học tính toán và phát triển các công cụ phần mềm cho phân tích dữ liệu Là một thư viện khổng lồ về sinh học
* http://biomedical.com
Trang 10Hình 1.:trang chủ của biomedicalBiomedical là trang web chuyên phân tích các mẫu nuleotit và gene được cung cấp
từ các phòng nghiên cứu trên thế giới
* http://www.obofoundry.org:
chuyên cung cấp các thí nghiệm thực thể liên quan đến lĩnh vực sinh học.trang web cũng phân tích các mẫu tiến trình Đây cũng là nơi thảo luận về cơ sở hạ tầng, các dich vụ, các công nghệ mới trong lĩnh vực này
Trang 11Hình 1.:trang chủ của obofoundry
* http://www.flukebiomedical.com
Flukebiomedical dẫn đầu thế giới trong sản xuất thử nghiệm sinh học và các sản phẩm mô phỏng, bao gồm cả kiểm tra an toàn điện, mô phỏng bệnh nhân, phân tích hiệu suất, và thử nghiệm hiệu năng tích hợp đầy đủ , tự động và hệ thống tài liệu flukebiomedical cũng cung cấp một số các hình ảnh chẩn đoán đáng tin cậy nhất và chính xác, an toàn bức xạ, và ung thư bảo đảm chất lượng các giải pháp để tuân thủ quy định
Trang 12Hình 1.:trang chủ của flukebiomedicalNgày nay, các nhà sản xuất thiết bị y tế, các chuyên gia sinh học, vật lý, lĩnh vực dịch vụ, và nhân viên y tế khác phải đáp ứng ngày càng tăng các nguyên tắc quy định, tiêu chuẩn chất lượng cao hơn, và sự phát triển công nghệ nhanh chóng trong khi thực hiện công việc của họ nhanh hơn và hiệu quả hơn bao giờ hết flukebiomedical cung cấp đa dạng các công cụ phần mềm và phần cứng để đáp ứng những thách thức hiện nay.
Ngoài ra còn có một số trang website khác như:
sở dữ liệu sinh học Mục đích chi tiết của đề tài:
Thiết kế CSDL lưu trữ thông tin Sinh học trên sever
Xây dựng hệ thống website quản lý thông tin sinh học
Cung cấp một số công cụ cần thiết cho người dùng nghiên cứu về sinh học như
Trang 13sắp hàng đa trình tự, biểu diễn cây sinh học, tìm kiếm thông tin gene,
Đem lại thông tin nghiên cứu bổ ích và kiến thức mới cho mọi người xem và sử dụng các thông tin như:
+ Các thông tin hiện nay về sinh học
+ Các thông tin nghiên cứu hiện nay về sinh học
Giúp mọi người hiểu thêm về quy luật sinh học để hiểu thêm về tác nhân gây bệnh cho con người thông qua hình thức thống kê bằng biểu đồ và bảng đồ một cách trực quan, sinh động
Các thông tin được thể hiện một cách khoa học
Trang 14CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Giới thiệu tổng quan:
Hiện nay trên thế giới có nhiều nguồn cơ sở ngôn ngữ để chúng ta có thể xây dựng một website thông tin và tích hợp các ứng dụng như: ASP.NET, joomla, php, java… và dựa trên các hệ cơ sở dữ liệu MS SQL, MySQL, Oracle … Mỗi ngôn ngữ và hệ cơ sở dữ liệu đều có đặc điểm nổi trội riêng biệt, trong các ngôn ngữ và hệ quản trị cơ sở dữ liệu trên chúng em đã chọn nền ngôn ngữ ASP.NET (C#) để xây dựng website và hệ quả trị MS SQL để quản lý cơ sở dữ liệu
2.2 Giới thiệu công nghệ LinQ – Visual 2008:
2.2.1 Giới Thiệu:
LINQ [1][2]là viết tắt của từ Language – Integrated Query tạm dịch là ngôn ngữ tích hợp truy vấn là một sự đổi mới trong Visual Studio 2008 và NET Framework 3.5 là cầu nối khoảng cách giữa thế giới của các đối tượng với thế giới của dữ liệu Theo truyền thống các câu truy vấn trên dữ liệu được thể hiện một cách dễ dàng giống như các chuỗi kí tự đơn giản mà không cần đến kiểu kiểm tra tại thời điểm biên dịch hoặc sự hỗ trợ của trình hỗ trợ trực quan Hơn nữa người dùng cần phải tìm hiểu một ngôn ngữ truy vấn khác nhau cho mỗi loại dữ liệu liệu nguồn khác nhau như: Cở sở dữ liệu SQL, tài liệu XML, các dịch vụ Web LINQ làm cho một truy vấn một lớp đầu tiên xây dựng trong ngôn ngữ C# và Visual Basic Người dùng viết một câu truy vấn dựa trên tập hợp các đối tượng bằng cách
sử dụng ngôn ngữ, các từ khóa các toán tử quen thuộc
Trong Visual Studio 2008 người dùng có thể viết các câu truy vấn LINQ[3] trong Visual Basic hoặc C# với cơ sở dữ liệu SQL Server[4], các tài liệu XML, ADO.NET Datasets và bất kỳ tập đối tượng được hỗ trợ IEnumerable hoặc có đặc điểm chung giống giao diện IEnumerable<T> LINQ hỗ trợ cho các thực thể ADO.NET Framework và LINQ đang được các nhà cung cấp hiện nay viết bởi bên thứ ba cho nhiều dịch vụ Web và các triển khai dữ liệu khác Người dùng có thể sử dụng các truy vấn LINQ trong các dự án mới hoặc trong các dự án hiện có Một yêu cầu duy nhất là các dự án đó được xây dựng trên NET Framework 3.5
* Ba phần của một biểu thức LINQ: Tất cả các biểu thức LINQ làm việc theo ba
Trang 15Mô hình chuẩn ba lớp của LinQ là các lớp đối tượng trong Visual được xây dựng theo mô hình chuẩn gồm có:
Lớp cơ sở dữ liệu – database
Lớp kết nối cơ sở dữ liệu – data access player
Đây là lớp chịu trách nhiệm chính trong việc truy xuất và xử lý các yêu cầu từ client đối với database trên server
Lớp điều hướng cơ sở dữ liệu – bussiness player
Đây là lớp chịu trách nhiệm chuyển hướng các đối tượng từ client đến lớp xử lý kết nối cơ sở dữ liệu
2.2.2.2 Demo:
Cơ sở dữ liệu:
Hình 2.:Tài khoản
Ta sử dụng các procedure sau:
Procedure hiển thị bảng dữ liệu: sp_taikhoan_show
Procedure hiển thị bảng dữ liệu theo mã tài khoản: sp_taikhoan_showbyid
Procedure thêm dữ liệu: sp_taikhoan_insert
Procedure cập nhật dữ liệu: sp_taikhoan_update
Procedure xóa dữ liệu: sp_taikhoan_delete
Procedure kiểm tra mật khẩu: sp_taikhoan_checkpass
Trang 16Hình 2.:cơ sở dữ liệu LinQ file *.dbml
Lớp data access player:
_ Xây dựng các lớp đối tượng truy xuất dữ liệu:
• Thêm – insert:
• Cập nhật – update:
• Xóa – delete:
• Hiển thị bảng – showlist:
• Hiển thị theo điều kiện – showbyid:
Lớp điều hướng – bussiness player:
_ Xây dựng các lớp điều hướng:
• Hiển thị giá trị theo điều kiện
• Hiển thị giá tri theo danh sách
• Truy xuất xử lý truy vấn cơ sở dữ liệu
2.3 Lập chỉ mục theo nhóm:
Mục tiêu của thuật toán là để biểu diễn kết quả so sánh các chuỗi sinh học thành từng
nhóm tương đồng dựa trên công cụ BLAST (Basic Local Alignment Search Tool).
Bước 1: Tìm chuỗi xk’ có số điểm cao nhất (phần tử đầu tiên trong tập Θ)
Bước 2: Xác định chuỗi neo xk: là chuỗi có láng giềng đến chuỗi xk’
Bước 3: Tạo nhóm Ak là tập hợp tất cả các chuỗi có láng giềng đến chuỗi neo xk
Bước 4: Khởi tạo lại danh sách Θ: danh sách được tạo lại bằng cách loại bỏ tất cả các chuỗi trong nhóm AK ra khỏi danh sách Θ
Lặp lại bước 1
Trong đó
Đơn vị đo không đồng dạng của BLAST
Chuỗi y là một ε láng giềng đến chuỗi x nếu
Trang 17Với 0 < < 1
2.4 Các ứng dụng tích hợp vào website:
2.4.1 Sắp hàng đa trình tự sinh học và biểu diễn theo dạng cây sinh học
Từ những năm cuối thế kỷ 20, di truyền học và kỹ thuật gen đã phát triển nhanh chóng và đạt được nhiều thành tựu to lớn Sự phát triển này giúp cho con người ngày càng hiểu rõ hơn cơ sở khoa học về sự sống Và chính sự hiểu biết này đóng góp vai trò rất lớn đối với lĩnh vực chăm sóc và bảo vệ sức khoẻ con người Chẳng hạn, việc chẩn đoán, dự phòng, trị liệu, v.v Từ đó, nâng cao chất lượng cuộc sống và bảo vệ môi trường thiên nhiên Đi kèm với sự phát triển của lĩnh vựcsinh học, một vấn đề đặt ra là sự tham gia của các ngành khoa học khác, đặc biệt
là ngành khoa học máy tính Ngành sinh học phân tử càng phát triển, càng đòi hỏi
sự hỗ trợ rất lớn từ phía tin học, qua đó có thể giải quyết các bài toán lớn và phức tạp nhằm phục vụ cho những hiểu biết của con người về thế giới sinh vật, cũng như chính bản thân con người Sự thành công của các dự án nghiên cứu về gen, cùng với sự hỗ trợ của các công cụ tin học, đã dẫn đến một sự thay đổi lớn trong việc nghiên cứu các vấn đề liên quan đến sinh học Người ta chuyển dịch dần từ
sự quan tâm cấu trúc của các đa phân tử sinh học sang sự phân tích các trình tự sinh học (sequence analysis) bằng các phương tiện tin học Phương tiện tin học không phải chỉ dừng lại ở việc tạo ra các cơ sở dữ liệu lớn, mà còn tạo ra các công
cụ hữu hiệu để phân tích và tìm hiểu bản chất của các các đa phân tử sinh học Chính vì vậy, trong quá trình nghiên cứu của các nhà sinh học, bước đầu tiên và cũng là bước quan trọng trong quá trình nghiên cứu là quá trình phân tích trình tự
2.4.2 Hiển thị thông tin và tìm kiếm thông tin virus cúm:
Thông tin dữ liệu virus cúm đã được thiết kế trên hệ quản trị cơ sở dữ liệu
MS SQL Thiết kế giao diện hiển thị, tìm kiếm và xây dựng module chức năng hiển thị, tìm kiếm trên môi trường website ASP.NET
Trang 18Hình 2.: Mô hình cơ sở dữ liệu thông tin virus cúm
2.4.3 Biểu diễn thông tin virus cúm trên bản đồ:
Dựa vào ứng dụng google map biễu diễn thông tin virus cúm lên bản đồ từ
cơ sở dữ liệu thông tin virus cúm trên môi trường website ASP.NET
2.3.4 Lưu trữ, hiển thị và tìm kiếm thông tin gen:
Khảo sát thông tin gen, xây dựng mô hình cơ sở dữ liệu trên hệ quản trị cơ sở dữ liệu MS SQL và xây dựng các module chức năng trên môi trường website ASP.NET
Trang 19CHƯƠNG 3: XÂY DỰNG WEBSITE QUẢN LÝ THÔNG TIN SINH Y HỌC 3.1 Xây dựng mô hình cơ sở dữ liệu website quản lý thông tin sinh học:
3.1.1. Tham khảo các website trong và ngoài nước:
* Thông tin website: http://www.sinhhocvietnam.com/vn/index.php
Chức năng của website:
• Giới thiệu tất cả thông tin về y học và sinh học
• Giới thiệu về nghiên cứu khoa học
• Các tin tức về sinh học
• Tin sinh học trong nước
• Tin sinh học ngoài nước
• Bài viết tổng hợp
• Tìm kiếm nghiên cứu khoa học
Trang 20• Biểu diển câsinh học
• Hiển thị thông tin virus cúm
• So sánh cấu trúc protein
• Tìm kiếm thông tin virus cúm
• Biểu đồ biểu diện sự lây lan của virus cúm
Hình 3.: trang chủ NCBIMột số trang website khác:
Trang 21thông tin và những bài báo cáo nghiên cứu khoa học về sinh học chưa tích hợp các tiện ích công cụ hỗ trợ vào website để hỗ trợ người nghiên cứu khoa học lĩnh vực sinh học trong nước.
3.1.2 Xây dựng mô hình cơ sở dữ liệu:
Hình 3.:Mô hình cơ sở dữ liệu MS SQL
3.2 Xây dựng website hiển thị thông tin sinh học (user interface – UI):
Trang 224 Tìm kiếm Hiển thị thông tin sinh học khi tìm kiếm dữ
liệu
6 Hiển thị bài nghiên cứu
khoa học Hiển thị chi tiết thông tin của bài nghiên cứu khoa học
3.2.2 Thiết kế giao diện:
* Trang chủ
Hình 3.:Trang chủ
* Trang tin tức