Internet là mạng máy tính toàn cầu để liên kết các tổ chức, trung tâm, viện nghiên cứu, trường học....Để máy tính hoạt động hiệu quả thì chúng phải cùng chia sẻ một phương tiện truyền thông được gọi chung là TCP/IP.
Trang 1Bộ GIáO DụC Và Đào tạo
tr ờng đại học nông nghiệp hà nội
Bài giảng Tin sinh họC
ThS Phan Trọng Nhật
Bộ môn Công nghệ sinh học
Trang 2CHƯƠNG I: GIỚI THIỆU VỀ INTERNET VÀ
SỰ RA ĐỜI CỦA TIN SINH HỌC
1.1 Giới thiệu về Internet
Trang 3Các máy tính giao tiếp với nhau bằng cách nào?
TCP/IP (Transmission Control Protocol/ Internet Protocol) gọi là giao thức truyền dữ liệu/ giao thức Internet Giao thức này cho phép các máy tính trên mạng trao đổi dữ liệu với nhau một cách thống nhất, tương tự như một ngôn ngữ quốc tế được mọi người cùng sử dụng để có thể hiểu nhau
Mỗi máy tính trên internet được đặt một tên duy nhất đó là địa chỉ IP
Ví dụ: IP: 203.162.8.82 hay IP: http:// www.hau1.edu.vn
Trang 41.1.1 Lịch sử ra đời của Internet
• Năm 1969: Mạng ARPANET được ra đời dưới sự tài
trợ của cơ quan quản lý các dự án nghiên cứu phát
thuộc Bộ Quốc phòng Mỹ (US Department of Defence)
Mỹ:
Đại học California Los Angeles (UCLA)
Trang 5 Đó là mạng liên khu vực (WAN: Wide Area Network) đầu tiên được xây dựng, đánh dấu sự ra đời của internet ngày nay.
triển chuẩn kết nối Ethernet Những năm 1980, giao thức TCP/IP trên Ethernet trở thành giao thức thông dụng trên mạng cục bộ
hai mạng con:
trường đại học, viện nghiên cứu
Trang 6• Năm 1986, Tổ chức quỹ khoa học quốc gia NSF (National
Science Foudation) thành lập mạng NSFNET Nhiều doanh
nghiệp chuyển từ ARPANET sang NSFNET
• Năm 1995, NSFNET thu lại thành một mạng nghiên cứu còn Internet thì vẫn tiếp tục phát triển
móng cho việc chuyển tải thông tin đa phương tiện (multimedia) thông qua các siêu liên kết (hyperlink) rất
tiện dụng cho việc khai thác internet Tổ chức W3C (World Wide Web Consorticum) ra đời: nghiên cứu các
chuẩn chung cho Web
Trang 7 Cuối năm 1992, xuất hiện nhà cung cấp thông tin thương mại đầu tiên là Delphi
Hiện nay: Vài trăm triệu website
kiểm soát internet mà mỗi nhà quản trị chỉ quản lý phần mạng của tổ chức mình
thì hiệp hội internet và W3C có nhiệm vụ phát triển các giao thức truyền thông tin chung trên internet và theo dõi các chuẩn về web
Trang 91.1.2 Sự hình thành Internet ở Việt Nam
Education Network) được thành lập, tạo tiền đề cho việc hình thành mạng lưới internet Việt Nam VARENET ra đời
từ Chương trình hợp tác nghiên cứu khoa học, triển khai công nghệ mạng tại Viện Công nghệ Thông tin thuộc Viện Khoa học và Công nghệ Việt Nam với sự hợp tác khoa học của Đại học Quốc gia Australia (ANU) Máy chủ của mạng VARENET đặt tại ANU
• Năm 1993: VARENET chỉ có một chức năng duy nhất là phục vụ thư điện tử (E-mail) cho các văn phòng đại diện nước ngoài, các Cty liên doanh hay 100% vốn nước ngoài
do tính chất mới và chi phí tài chính cao tại Việt Nam
Trang 10• Ngày 19 – 11 - 1997, khi Chính phủ Việt Nam quyết định
chính thức kết nối internet thì tên miền (.vn) được phía
Australia bàn giao cho Tổng cục Bưu điện Việt Nam Sự hình thành của hàng loạt các nhà cung cấp dịch vụ internet sau đó đã làm mờ nhạt vai trò của VARENET
• Sau VARENET, mạng diện rộng thứ hai là VINANET
(Vietnam Network) ra đời ở Việt Nam của Trung tâm Thông tin Thương mại thuộc Bộ Thương mại VINANET cung cấp thông tin giá cả thị trường trong nước và quốc tế, địa chỉ doanh nghiệp, văn bản tư pháp Tốc độ truy cập thời kỳ này là 2,4kbps qua đường dây điện thoại
Trang 11• Năm 1997, hàng loạt các nhà cung cấp dịch vụ internet (ISP) và các nhà cung cấp thông tin lên internet (ICP) như: VNN, FPT, Saigonnet, Netnam và CINET
• VNN ( Vietnam Network) là mạng máy tính của Công ty
Datacommunication Company) thuộc Tổng công ty Bưu chính viễn thông Việt Nam, hình thành năm 1997
• FPT ( Company for Financing and Promoting Technology) là Công ty Tài chính và Kỹ thuật Quảng cáo, thành lập năm 1997
Trang 12• Saigonnet thuộc Công ty Cổ phần Bưu chính viễn
Service Corporation), thành lập năm 1997
• Netnam thuộc Viện Công nghệ thông tin, thành lập
năm 1998
• CINET ( Culture and Information Net ) thuộc Bộ Văn
hoá và Thông tin, thành lập năm 1997
thế vừa là IAP (cung cấp cổng truy cập internet) vừa là cung cấp dịch vụ internet ISP (Internet Service Provider) và ICP (cung cấp nội dung trên internet)
Trang 131.2 Kết cấu mạng Internet
1.2.1 Các kiểu mạng:
Network)
Mạng cục bộ LAN: là mạng nhỏ nhất, trong vòng vài
km, ngoại trừ trường hợp máy tính đơn kết nối trực tiếp với internet, tất cả các máy tính có nối mạng đều nối vào mạng LAN Mạng LAN được dùng cho một toà nhà, trường học, thư viện, bệnh viện…
Trang 14 Một đặc điểm của mạng LAN là khi một máy tính truyền
dữ liệu thì tất cả các máy tính trong mạng đều có thể nhận dữ liệu đó, đặc tính này gọi là broadcasting
Máy tính trong mạng LAN sử dụng kỹ thuật gọi là Carrier Sense Multiple Access/ Collision Detect (CSMA/CD) nghĩa
là không gửi khi máy tính khác đang gửi và kiểm tra những gì gửi đi có xung đột với các máy tính khác
Công nghệ LAN mới nhất hiện nay là mạng không dây
sử dụng tia hồng ngoại hay sóng radio thay cho cáp để truyền tín hiệu mạng Tốc độ truyền từ 1 đến 11 Mbps,
nó thích hợp cho những người di chuyển thường xuyên hay những nơi mà không thể đặt dây cáp
Trang 15 Mạng vùng trung tâm MAN
Khác với mạng LAN là dùng chung một thiết bị truyền trong mạng nên cho phép nhiều máy tính kết nối vào cùng một sợi dây, mạng MAN sử dụng các kết nối điểm đến điểm (point to point) với chỉ một máy tính tại cuối mỗi liên kết Các máy tính tại cuối mỗi liên kết của MAN cũng có thể kết nối với các mạng LAN, MAN và WAN
Trang 16 Mạng diện rộng WAN
Phạm vi của mạng có thể là một quốc gia hay thậm chí cả lục địa Cũng giống như đa số MAN, mạng WAN dùng các kết nối vật lý điểm đến điểm nhưng dùng cáp xoắn Công nghệ WAN thường có nguồn gốc từ các hệ thống xây dựng để phục vụ cho các công ty điện thoại
Trang 171.2.2 Kết nối Internet
Kết nối vật lý: kết nối các thiết bị phần cứng như modem, dây cáp để thực hiện việc nối từ một máy tính đến mạng internet thông qua các nhà cung cấp mạng
Sau khi kết nối vật lý, việc kết nối internet có thể thực hiện theo hai cách:
V35 của thiết bị định tuyến (Router) để kết nối trực tiếp vào internet thông qua kênh thuê bao riêng Các loại dịch
vụ kết nối do các nhà cung cấp dịch vụ internet bao gồm:
Đường truyền thường trực (Leased Line)
(Asymetrical Digital Subcribe Line)
Trang 18 Kết nối gián tiếp: chỉ cần một modem và một đường dây điện thoại để quay số vào mạng Dịch vụ này có:
Quay số kết nối qua mạng điện thoại Dial-UpMạng số tích hợp đa dịch vụ (Intergrated Service Digital Network)
So với kết nối internet gián tiếp, kết nối internet trực tiếp
có nhiều ưu điểm như: băng thông rộng, tốc độ cao và ổn định, hoạt động liên tục (online 24/24) Đương nhiên chi phí cho việc kết nối trực cũng tốn kém hơn nhiều so với loại gián tiếp
Trang 19Sau khi đã lựa chọn cách kết nối internet thì chúng ta quan tâm đến dịch vụ nào cho phép chúng ta lướt trên internet Có 2 nhóm chính là:
Các dịch vụ trực tuyến (online service) như America Online (AOL) và CompuServe thường cung cấp một lượng lớn các dịch vụ Intergrative Digital bao gồm Information retrieval, thư điện tử (e-mail), bảng tin (bulletin board) và “chat room’’ nhờ đó người sử dụng trực tuyến đồng thời có thể quan tâm đến một vài lĩnh vực cùng một lúc
Các nhà cung cấp dịch vụ internet ISP (Internet Service Provider) bao gồm việc cấp tài khoản truy cập internet cho người sử dụng đồng thời cung cấp các dịch vụ internet
Trang 201.3 Một số nét khái quát về WWW (World Wide Web)
Trang 21 Siêu văn bản là các tư liệu chứa văn bản, hình ảnh tĩnh, hình ảnh động, âm thanh, video… được liên kết với nhau qua các siêu liên kết (hyperlink) Thông qua các siêu liên kết, người dùng có thể nhanh chóng tham khảo các tư liệu liên quan một cách dễ dàng.
hàng sử dụng web (Web Client) phải sử dụng chương trình có chức năng duyệt các thông tin dạng siêu văn bản gọi là trình duyệt web Có nhiều loại trình duyệt web như: Internet Explorer, Netscape Navigator, Opera, Neoplanet… Trong số đó, 2 trình duyệt được sử dụng phổ biến là Internet Explorer và Netscape Navigator
Trang 221.3.2 Vài nét cơ bản của trình duyệt Web
Tiềm năng của Internet chỉ thực sự phát huy được khi có các trình duyệt web ra đời Chúng cho phép truy cập tới nguồn thông tin ở các vị trí khác nhau Các Browser là các trạm công tác có khả năng xử lý hoặc yêu cầu lấy thông tin hoặc các chương trình ứng dụng từ máy chủ của mạng Trong đó trang chủ là điểm trung gian giữa browser và server Hiện nay có một số Web browser đang dùng phổ biến là Lynx cho hệ điều hành Unix hoặc VMS; Mosaic cho các máy Apple Mac, X-Windows; Internet Explorer và Netscape Navigator cho các máy Windows
Trang 24Các nguyên tắc duyệt Web:
truy tìm thông tin
Có thể mở nhiều của sổ cho mỗi website trong việc tìm kiếm bằng cách chọn File/New Windows hoặc tổ hợp phím Ctrl + N
chuột và chọn Open link in new windows
Trang 25Chức năng của trình duyệt:
Các trình duyệt đều sử dụng đĩa cứng để tạm ghi các địa chỉ trang web (gọi là cache) mà người sử dụng vừa lướt qua, có thể điều chỉnh tuỳ theo nhu cầu của mỗi người
trang web mang nội dung xấu, phản động và có thể thay đổi phông chữ, kích thước
Trang 261.4 Các dịch vụ, tài nguyên và đạo đức trên Internet
1.4.1 Các dịch vụ:
• E-mail (Electronic mail): Thư điện tử
Trang 27• VoIP (Voice over Internet Protocol): Kỹ thuật chuyển tải giọng nói qua giao thức Internet hay còn gọi là điện thoại Internet.
• Video Conference: Hội nghị truyền hình.
• WAI (Wireless Application Protocol): Giao thức sử dụng công nghệ không dây
Trang 281.4.2 Luật lệ, đạo đức và các quy định hoạt động của Internet
hệ thống đòi hỏi phải có Username và Password
Internet (gieo rắc, phát tán virus)
những tập tin quá lớn mà chẳng để làm gì, đặc biệt trong giờ cao điểm
riêng tư của người khác
Trang 291.5 Sự ra đời và vai trò của tin sinh học
1.5.1 Buổi bình minh của trình tự
Trình tự ProteinTrình tự axit nucleic1.5.2 Sự ra đời của tin sinh học
Do sự xuất hiện của các thông tin về cấu trúc, chức năng
và trình tự của protein, DNA từ đó dẫn tới nhu cầu quản
lý, so sánh và dự đoán cấu trúc và chức năng của sinh vật và sự phát triển của các ngành khoa học khác đặc biệt là công nghệ thông tin, máy tính Do nhu cầu đó mà Tin sinh học đã được ra đời
Trang 301.5.3 Khái niệm Tin sinh học
nhờ sự hỗ trợ của máy tính và các công cụ thống kê
Tin sinh học protein
Tin sinh học tiến hoá
Tin sinh học nông nghiệp
Tin sinh học y học
Phát triển các công cụ và cơ sở nền
Trang 311.5.4 Vai trò và xu hướng phát triển của Tin sinh học
a/ Vai trò của Tin sinh học:
dữ liệu
các kết quả nghiên cứu
Hỗ trợ trong các nghiên cứu về cấu trúc không gian phân tử
vật
Trang 32b/ Xu hướng phát triển của Tin sinh học
Những lĩnh vực của Tin sinh học đang được tập trung nghiên cứu:
Quản lý cơ sở dữ liệu
Phân tích, biên dịch dữ liệu
Phát triển các thuật toán
Các cấu trúc cơ sở dữ liệu
Thiết kế các giao diện và hiển thị
Trang 33c/ Địa chỉ có thể tìm hiểu thêm những tài liệu về Tin sinh học:
http://www.iscb.org
http://www.ncbi.nlm.nih.gov
http://www.bioinformatics.org
Các tạp chí về Bioinformatics
Các công cụ tìm kiếm (Google, Yahoo…)
Các hội nghị, hội thảo
Các thư viện
Trang 34CHƯƠNG 2 TÌM KIẾM THÔNG TIN TRÊN INTERNET
2.1 Khái niệm về thông tin
1 Thông tin là gì?
Thông tin là các dữ liệu và tri thức được sử dụng trong thựctiễn để giải quyết một số vấn đề hoặc một nhiệm vụ nào đó
2 Các thuộc tính của thông tin
Chất lượng của thông tinTrình độ của người sử dụng
Chính xác và đáng tin cậyKịp thời
Đặc trưng và định hướng cho người dùng thi cụ thể
Trang 35 Khái niệm chung về tìm tin:
Tìm tin là một thuật ngữ chung để chỉ công việc tìm tài liệu hay nguồn của tài liệu, cũng như thông tin về dữ liệu và
sự kiện mà tài liệu đó cung cấp
2.2 Các công cụ tìm kiếm thông tin
Biểu thức tìm tin:
Biểu thức tìm tin là một tập hợp các từ khóa được liên kết với nhau bằng các toán tử logic
Các loại toán tử logic thường sử dụng khi tìm tin:
Phép nối đồng thời hai từ khóa hay và (and, +): Ví dụ:
“Cây lúa” + “hoa màu” hoặc “Cây lúa” & “Hoa màu”
Trang 36 Phép lựa chọn hay hoặc: Ví dụ: “Cây lúa” or
“Hoa màu”
Phép loại trừ: Ví dụ: “Cây lúa” – “Hoa màu”
Phép phủ định (Not, !): Ví dụ: Internet &!
Trang 37 Những lưu ý về việc chọn lựa từ khóa
Trong khi tìm kiếm các tài liệu tiếng nước ngoài không nên sử dụng các mạo từ, giới từ
Sắp xếp các từ khóa quan trọng trước theo thứ tự ưu tiên
Nên sử dụng ít nhất là hai từ khoá (thường là 3) và kết hợp các từ khóa thành những cụm từ
Tránh sử dụng các từ thường sử dụng (tần suất lặp lại rất nhiều ở hầu hết các tài liệu)
mà có thể sẽ là tiêu đề cho tài liệu hoặc tên trang Web
Trang 382.3 Cách tìm kiếm thông tin
Các cách tìm tin
hợp các tài liệu có liên quan đến thông tin mà chúng ta cần tìm kiếm
thông tin cụ thể, chính xác và ít xuất hiện trong các kết
quả tìm kiếm
Trang 39 Khi nào nên sử dụng các thư mục chủ đề:
Khi muốn xem thông tin nào sẵn có trên trang Web trong một lĩnh vực, phạm vi cụ thể liên quan đến vấn đề mình quan tâm trong thời gian ngắn
Excite (http://www.excite.com/)
Magellan (http://magellan.excite.com/)Open Directory Project (http://www.dmoz.org)Snap (http://www.snap.com/)
Trang 42b/ Tìm tin theo từ khóa:
Để tìm thông tin theo từ khoá ngoài việc xác định từ khóa
và biểu thức tìm tin chúng ta cần phải lựa chọn một công
cụ để tìm kiếm tin hay còn gọi là các search engine
Việc tìm kiếm nhờ các search engine có rất nhiều lợi thế vì:
Thứ nhất thông tin tìm được sẽ cụ thể và chi tiết hơn
Thứ hai có rất nhiều tiêu chuẩn để lọc thông tin như: tìm thông tin theo thời gian, ngôn ngữ, định dạng file
Trang 43c/ Tìm tin theo các trường
Tìm kiếm theo tiêu đề: Title: “từ khóa”, kết quả sẽ cho
ra tất cả các trang Web có tên như từ khóa đã chọn Nhanh hơn rất nhiều so với tìm kiếm từ khóa trong toàn
bộ tài liệu
Tìm kiếm theo tên miền: Tên miền gồm 3 chữ viết tắt của một lĩnh vực mà trang web đó chứa thông tin liên quan Vi dụ: www.hau1.edu.vn khi đó domain là: edu
Ngoài ra còn có nhiều trường tìm kiếm khác như: object, text, sound, pictures, date, anchor, applet và language
Trang 452.4 Cách chọn và đánh giá độ tin cậy của thông tin
2.4.1 Cách chọn thông tin
2.4.2 Đánh giá độ tin cậy của thông tin
Trang 46CHƯƠNG 3: CƠ SỞ DỮ LIỆU SINH HỌC VÀ
CÁC NGÂN HÀNG CƠ SỞ DỮ LIỆU
3.1 Khái quát chung về cơ sở dữ liệu sinh học
đề cập đến các thông tin về trình tự axit nucleic (ADN, ARN), trình tự axit amin của các phân tử protein, thông tin về cấu trúc và giải phẫu của một số genom, mô hình cấu trúc không gian của các đại phân tử
Các thông tin này được sắp xếp và lưu trữ bởi một hệ thống các máy chủ rất mạnh của 3 ngân hàng gen lớn nhất thế giới là NCBI, EMBL và DDBJ
Trang 483.2 Phân tích dữ liệu ADN và Protein
Các thông tin về dữ liệu ADN, protein: chủ yếu là trình
tự nucleotit và trình tự axit amin
sách, trong đó mỗi cuốn sách chính là một trình tự nucleotit ADN hoặc axit amin của protein và chúng đều được đánh số
trình tự cần quan tâm Tuy nhiên, vấn đề ở đây không phải là tìm bằng cách nào mà chúng ta phải hiểu được cuốn sách đó viết về cái gì và sử dụng nó như thế nào?