S ự ra đờ i c ủ a tin sinh h ọ c Buổi bình minh của trình tự: Trình tự Protein, trình tự axit nucleic Sự xuất hiện của các thơng tin về cấu trúc, chức năng và Sự xuất hiện của các thơn
Trang 2Bài 1: Mở ñầu
Gi
Giớiiii thi thi thiệu u u vvvvề tin tin tin h h học cc c và và và ứng ng ng d d dụng ng ng tin tin tin h h học cc c
trong trong sinh sinh sinh h h học cc c
“The two technologies that will
Informatics applycation in biology 2
“The two technologies that will
shape the next century are biotechnology and information
technology” Bill Gates
Trang 3S ự ra đờ i c ủ a tin sinh h ọ c
Buổi bình minh của trình tự: Trình tự Protein, trình tự axit nucleic
Sự xuất hiện của các thơng tin về cấu trúc, chức năng và
Sự xuất hiện của các thơng tin về cấu trúc, chức năng và trình tự của protein, DNA dẫn tới nhu cầu quản lý, so sánh
và dự đốn cấu trúc và chức năng của sinh vật
Sự phát triển của các ngành khoa học khác đặc biệt là
cơng nghệ thơng tin, máy tính
Informatics applycation in biology 3
Trang 4Tin sinh học (Bioinformatic) cĩ thể hiểu là mộtngành khoa học phân tích và dự đốn đặc tính của đối
tượng sinh học, trên cơ sở tích hợp năng lực hoạt động hữu
cơ của 3 lĩnh vực khoa học cơng nghệ:
- khoa học sinh học
Bio (Sinh h ọ c) + informatics (Khoa h ọ c tính tốn) = Bioinformatics
(Giải quyết các bài tốn sinh học bằng việc sử dụng các phương pháp
của khoa học tính tốn)
Informatics applycation in biology 4
- khoa học sinh học
- năng lực quản trị và xử lý số liệu của máy tính
- tổ chức quản lý khai thác dữ liệu thơng tin trên quy mơ
tồn cầu
Các t ừ đồ ng ngh ĩ a: Computational biology,
Computational molecular biology, Biocomputing
Trang 5Informatics applycation in biology 5
Trang 6Một số bài toán ñối với tin sinh học
Informatics applycation in biology 6
Trang 7Informatics applycation in biology 7
Trang 8Informatics applycation in biology 8
Trang 9Vai trò c ủ a Tin sinh h ọ c
Trang 10Xu h ướ ng phát tri ể n c ủ a Tin sinh h ọ c
Trang 11Mục tiêu môn học
-Đại cương mạng internet và các trang web liên
quan ñến sinh học
- Cơ sở dữ liệu công nghệ sinh học
- Nghiên cứu về cấu trúc chuỗi DNA, amino acid
Informatics applycation in biology 11
- Nghiên cứu về cấu trúc chuỗi DNA, amino acid
và các phần mềm hỗ trợ
- Các phầm mềm về thiết kế và lựa chọn ñoạn
mồi, hiển thị cấu trúc không gian của các hợp chất sinh học, phân tích cấu trúc tương ñồng…
Trang 13Tài liệu tham khảo
1) Nguyễn Văn Cách (2006) Tin sinh học, Nxb Khoa học và Kỹ
thuật, Hà nội
2) Arthur M L (2002) Introduction to Bioinformatics, Published in
the United States by Oxford University Press Inc., New York
3) Baxevanis,A D and Francis Ouellette, B.F (2001) Bioinformatics
a Practical guide to the Analysis of Genes and Protein, John
Informatics applycation in biology 13
a Practical guide to the Analysis of Genes and Protein, John
Wiley & Sons, INC
4) Bryan B (2001) Bioinformatics Computing, Pretice Hall Pub
5) David W.M (2003) Bioinformatics: Sequence and Genome
Analysis, Cold Spring Harbor Press, New York.
6) Shui Q.Y (2008)Bioinformatics: A Practical Approach, CRC
Press, Taylor & Francis Group
Trang 14Tài liệu tham khảo Thư viện Trường ñại học Nha Trang
1, Intelligent Bioinformatics: The Application of Artificial
Intelligence Techniques to Bioinformatics Problems
2, Machine Learning in Bioinformatics (Wiley Series in
Bioinformatics)
Informatics applycation in biology 14
Bioinformatics)
3, Bioinformatics: Tools and Applications
4, Bioinformatics Research and Application - ISBRA 2011
5, Essential Bioinformatics
6, Intelligent Bioinformatics: The Application of Artificial
Intelligence Techniques to Bioinformatics Problems
Trang 15Khái ni ệ m v ề internet và ñị a ch ỉ trên m ạ ng
Thông tin trên internet
M ộ t s ố d ị ch v ụ trên internet
Truy c ậ p tìm ki ế m d ữ li ệ u thông tin qua internet
Informatics applycation in biology 15
Trang 16Gi ớ i thi ệ u v ề Internet
• Internet là mạng máy tính toàn cầu ñể liên kết các tổchức, trung tâm, viện nghiên cứu, trường học
chức, trung tâm, viện nghiên cứu, trường học
• Để máy tính hoạt ñộng hiệu quả thì chúng phải cùngchia sẻ một phương tiện truyền thông ñược gọi chung làTCP/IP
Informatics applycation in biology 16
Trang 17Giao th ứ c này cho phép các
máy tính trên m ạ ng trao
Trang 18Mỗi máy tính trên
Trang 19L ch s ra ñ i c a Internet
• S ự ra ñờ i c ủ a máy tính chính là kh ở i ñầ u c ủ a cu ộ c cách
m ạ ng v ề internet
• N ă m 1969: M ạng ARPANET ñượ c ra ñờ i d ướ i s ự tài tr ợ c ủ a
c ơ quan qu ả n lý các d ự án nghiên c ứ u phát tri ển ARPA
(American Research Projects Agency) thuộ c B ộ Qu ố c
(American Research Projects Agency) thuộ c B ộ Qu ố c phòng M ỹ (US Department of Defence).
• Kh ở i ñ i ể m là 4 nút m ạ ng ñặ t t ạ i 4 tr ườ ng ñạ i h ọ c c ủ a M ỹ :
Đạ i h ọ c California Los Angeles (UCLA)
H ọ c vi ệ n nghiên c ứ u Standford (SRI)
Đạ i h ọ c California Santa Barbara (UCSB)
Đạ i h ọ c Utah
Informatics applycation in biology 19
Trang 20Đó là mạng liên khu vực (WAN: Wide Area Network)ñầu tiên ñược xây dựng, ñánh dấu sự ra ñời củainternet ngày nay.
Trung tâm nghiên cứu Xeroc Corporation Palo Alto pháttriển chuẩn kết nối Ethernet Những năm 1980, giaothức TCP/IP trên Ethernet trở thành giao thức thôngdụng trên mạng cục bộ
dụng trên mạng cục bộ
Năm 1983, Bộ Quốc phòng Mỹ ñã tách ARPANET làm
hai mạng con:
MILNET: dành cho các ho ạ t ñộ ng quân s ự
ARPANET m ớ i: dành cho các ho ạ t ñộ ng phi quân
s ự , tr ườ ng ñạ i h ọ c, vi ệ n nghiên c ứ u.
Informatics applycation in biology 20
Trang 21• Năm 1986, Tổ chức quỹ khoa học quốc gia NSF (National
Science Foudation) thành lập mạng NSFNET Nhiềudoanh nghiệp chuyển từ ARPANET sang NSFNET
• Năm 1990, ARPANET ngừng hoạt ñộng sau gần 20 năm
• Năm 1995, NSFNET thu lại thành một mạng nghiên cứucòn Internet thì vẫn tiếp tục phát triển
còn Internet thì vẫn tiếp tục phát triển
• Năm 1991, WWW (World Wide Web) ra ñời ñặt nền móngcho việc chuyển tải thông tin ña phương tiện (multimedia)thông qua các siêu liên kết (hyperlink) rất tiện dụng choviệc khai thác internet Tổ chức W3C (World Wide Web
Consorticum) ra ñời: nghiên cứu các chuẩn chung choWeb
Informatics applycation in biology 21
Trang 22Cu ố i n ă m 1992, xu ấ t hi ệ n nhà cung c ấ p thông tin th ươ ng m ạ i ñầ u tiên là Delphi.
Trang 23Internet trở thành mạng lớn nhất thế giới: mạng của cácmạng và xuất hiện trong mọi lĩnh vực: Chính trị, quân
sự, thương mại, nghiên cứu, giáo dục, văn hoá, xã hội
Không có bất kỳ cá nhân hay tổ chức nào có toàn
Không có bất kỳ cá nhân hay tổ chức nào có toànquyền kiểm soát internet mà mỗi nhà quản trị chỉ quản
lý phần mạng của tổ chức mình
Informatics applycation in biology 23
Trang 24S hình thành Internet Vi t Nam
• Năm 1993 mạng VARENET (Vietnam Academic Research
Education Network) ñược thành lập, tạo tiền ñề cho việchình thành mạng lưới internet Việt Nam VARENET ra ñời
từ Chương trình hợp tác nghiên cứu khoa học, triển khaicông nghệ mạng tại Viện Công nghệ Thông tin thuộc ViệnKhoa học và Công nghệ Việt Nam với sự hợp tác khoa
Khoa học và Công nghệ Việt Nam với sự hợp tác khoahọc của Đại học Quốc gia Australia (ANU) Máy chủ củamạng VARENET ñặt tại ANU
• Năm 1993: VARENET chỉ có một chức năng duy nhất làphục vụ thư ñiện tử (E-mail) cho các văn phòng ñại diệnnước ngoài, các Cty liên doanh hay 100% vốn nước ngoài
do tính chất mới và chi phí tài chính cao tại Việt Nam
Informatics applycation in biology 24
Trang 25• Ngày 19 – 11 - 1997, khi Chính phủ Việt Nam quyết ñịnhchính thức kết nối internet thì tên miền (.vn) ñược phíaAustralia bàn giao cho Tổng cục Bưu ñiện Việt Nam Sựhình thành của hàng loạt các nhà cung cấp dịch vụinternet sau ñó ñã làm mờ nhạt vai trò của VARENET.
• Sau VARENET, mạng diện rộng thứ hai là VINANET
• Sau VARENET, mạng diện rộng thứ hai là VINANET
(Vietnam Network) ra ñời ở Việt Nam của Trung tâmThông tin Thương mại thuộc Bộ Thương mại VINANETcung cấp thông tin giá cả thị trường trong nước và quốc
tế, ñịa chỉ doanh nghiệp, văn bản tư pháp Tốc ñộ truycập thời kỳ này là 2,4kbps qua ñường dây ñiện thoại
Informatics applycation in biology 25
Trang 26• Năm 1997, hàng loạt các nhà cung cấp dịch vụ internet(ISP) và các nhà cung cấp thông tin lên internet (ICP)như: VNN, FPT, Saigonnet, Netnam và CINET.
• VNN (Vietnam Network) là mạng máy tính của Công ty
Điện toán và truyền số liệu VDC (Vietnam
Datacommunication Company) thuộc Tổng công ty Bưuchính viễn thông Việt Nam, hình thành năm 1997
• FPT (Company for Financing and Promoting Technology) là Công ty Tài chính và Kỹ thuật Quảngcáo, thành lập năm 1997
Informatics applycation in biology 26
Trang 27• Saigonnet thuộ c Công ty C ổ ph ầ n B ư u chính vi ễ n thông Sài
gòn SPT (Saigon Post and Telecommunication Service
• Trong s ố các ISP k ể trên, VNN d ẫ n ñầ u danh sách v ớ i ư u th ế
v ừ a là IAP (cung c ấ p c ổ ng truy c ậ p internet) v ừ a là cung c ấ p
d ị ch v ụ internet ISP (Internet Service Provider) và ICP (cung
c ấ p n ộ i dung trên internet).
Informatics applycation in biology 27
Trang 28K ế t c ấ u m ạ ng Internet
Các ki u m ng:
• M ạ ng c ụ c b ộ LAN (Local Area Network)
• M ạ ng vùng trung tâm MAN (Metropolitan Area
Network)
• M ạ ng di ệ n r ộ ng WAN (Wide Area Network)
• M ạ ng di ệ n r ộ ng WAN (Wide Area Network)
Mạng cục bộ LAN: là mạng nhỏ nhất, trong vòng vài
km, ngoại trừ trường hợp máy tính ñơn kết nối trực tiếpvới internet, tất cả các máy tính có nối mạng ñều nốivào mạng LAN Mạng LAN ñược dùng cho một toà nhà,trường học, thư viện, bệnh viện…
Informatics applycation in biology 28
Trang 29Informatics applycation in biology 29
Trang 30Công nghệ LAN mới nhất hiện nay là mạng không dây sửdụng tia hồng ngoại hay sóng vô tuyến (Wireless Fidelity)thay cho cáp ñể truyền tín hiệu mạng.
Informatics applycation in biology 30
Trang 31Mạng vùng trung tâm MAN
LAN là dùng chung một
thiết bị truyền trong mạng
nên cho phép nhiều máy
tính kết nối vào cùng một
sợi dây, mạng MAN sử
dụng các kết nối ñiểm ñến
dụng các kết nối ñiểm ñến
ñiểm (point to point) với chỉ
một máy tính tại cuối mỗi
liên kết Các máy tính tại
cuối mỗi liên kết của MAN
cũng có thể kết nối với các
mạng LAN, MAN và WAN
Informatics applycation in biology 31
Trang 33K t n i Internet
Kết nối vật lý: kết nối các thiết bị phần cứng như modem,dây cáp ñể thực hiện việc nối từ một máy tính ñến mạnginternet thông qua các nhà cung cấp mạng
Sau khi kết nối vật lý, việc kết nối internet có thể thựchiện theo hai cách:
Kết nối trực tiếp: cần có modem tốc ñộ cao nối với cổngV35 của thiết bị ñịnh tuyến (Router) ñể kết nối trực tiếpvào internet thông qua kênh thuê bao riêng Các loại dịch
vụ kết nối do các nhà cung cấp dịch vụ internet bao gồm:
Đường truyền thường trực (Leased Line)Đường dây thuê bao số bất ñối xứng ADSL
(Asymetrical Digital Subcribe Line)
Informatics applycation in biology 33
Trang 34Kết nối gián tiếp: chỉ cần một modem và một ñường dây ñiện thoại ñể quay số vào mạng Dịch vụ này có:
Quay số kết nối qua mạng ñiện thoại Dial-UpMạng số tích hợp ña dịch vụ (Intergrated Service Digital Network)
So với kết nối internet gián tiếp, kết nối internet trực tiếp
có nhiều ưu ñiểm như: băng thông rộng, tốc ñộ cao và ổnñịnh, hoạt ñộng liên tục (online 24/24) Đương nhiên chiphí cho việc kết nối trực cũng tốn kém hơn nhiều so vớiloại gián tiếp
Informatics applycation in biology 34
Trang 35Truy cập, tìm kiếm dữ liệu thông tin qua internet
Informatics applycation in biology 35
Trang 36Lu t l , o ñ c và các quy ñ nh ho t ñ ng c a Internet
• Không ñượ c truy c ậ p (Access) b ấ t h ợ p pháp vào nh ữ ng h ệ
th ố ng ñ òi h ỏ i ph ả i có Username và Password.
• Không phá ho ạ i và gây r ố i lo ạ n h ệ th ố ng l ư u thông trên Internet (gieo r ắ c, phát tán virus).
• Không lãng phí ngu ồ n tài nguyên (không download nh ữ ng
t ậ p tin quá l ớ n mà ch ẳ ng ñể làm gì, ñặ c bi ệ t trong gi ờ cao
t ậ p tin quá l ớ n mà ch ẳ ng ñể làm gì, ñặ c bi ệ t trong gi ờ cao
ñ i ể m.
• Không xoá t ậ p tin c ủ a ng ườ i khác.
• Không xâm ph ạ m, phát tán nh ữ ng thông tin có tính ch ấ t riêng
t ư c ủ a ng ườ i khác.
• Không truy c ậ p, phát tán nh ữ ng thông tin ph ả n ñộ ng….
Informatics applycation in biology 36
Trang 37Một số thuật ngữ tin sinh thường gặp trên internet
Accession
Alignment Plasmid Transcription
DNA sequencing Primer Translation
Hairpin Restriction enzyme BLAST (Basic Local
Informatics applycation in biology 37
Hairpin Restriction enzyme BLAST (Basic Local
Alignment Search Tool)
Intron Restriction map FASTA
Trang 38CHƯƠNG 2: CƠ SỞ SINH HỌC CỦA TIN SINH HỌC
Informatics applycation in biology 38
Trang 39- Cấu trúc xoắn kép của phân tử DNA
- Quá trình tái bản DNA
- Quá trình phiên mã và dịch mã
Informatics applycation in biology 39
Trang 40Informatics applycation in biology 40
Trang 41Informatics applycation in biology 41
Trang 42Low molecular weight organic
compound which is by definition not a polymer
Informatics applycation in biology 42
Trang 43Informatics applycation in biology 43
Trang 44Informatics applycation in biology 44
Trang 45Informatics applycation in biology 45
Trang 46Informatics applycation in biology 46
Trang 47Informatics applycation in biology 47
Trang 48Informatics applycation in biology 48
Trang 49Informatics applycation in biology 49
Trang 50Informatics applycation in biology 50
Trang 51Informatics applycation in biology 51
Trang 52Informatics applycation in biology 52
Trang 53Informatics applycation in biology 53
Trang 54Informatics applycation in biology 54
Trang 55Informatics applycation in biology 55
Trang 56Đặc ñiểm cơ sở dữ liệu công nghệ sinh học
Một số cơ sở dữ liệu lớn trên thế giới
Trang 57Đặ c ñ i ể m c ơ s ở d ữ li ệ u công ngh ệ sinh h ọ c
-Ngu ồ n c ơ s ở d ữ li ệ u vô cùng ñ a d ạ ng, phong phú, gia
t ă ng m ạ nh m ẽ theo th ờ i gian
- Chi ế m kh ố i l ượ ng l ớ n nh ấ t và ñ a d ạ ng nh ấ t là các k ế t
qu ả nghiên c ứ u trên các ñố i t ượ ng sinh h ọ c
qu ả nghiên c ứ u trên các ñố i t ượ ng sinh h ọ c
- Các d ữ li ệ u này ñượ c bi ể u di ễ n d ướ i d ạ ng s ố hay ký
t ự trong các t ệ p d ữ li ệ u ñơ n l ẻ hay d ướ i d ạ ng các thu ậ t toán hoàn ch ỉ nh ñể c ấ t gi ữ ho ặ c trao ñổ i
- V ề c ấ u trúc, d ữ li ệ u này g ồ m m ả ng d ữ li ệ u s ơ c ấ p và
d ữ li ệ u th ứ c ấ p
Informatics applycation in biology 57
Trang 58- D ữ li ệ u thông tin thông th ườ ng: sách, báo, t ạ p chí…
- D ữ li ệ u v ề phân lo ạ i h ọ c
- D ữ li ệ u v ề c ấ u trúc và ñặ c tính c ủ a nucleotide và genom
M ỗ i c ơ s ở d ữ li ệ u có th ể ñị nh h ướ ng t ậ p trung vào
Informatics applycation in biology 58
M ỗ i c ơ s ở d ữ li ệ u có th ể ñị nh h ướ ng t ậ p trung vào các m ả ng thông tin riêng Song ph ả i ñả m b ả o tiêu chí:
d ễ dàng truy c ậ p, qu ả n lý và khai thác cho ng ườ i khác
d ữ li ệ u, nh ằ m h ỗ tr ợ và giúp h ọ tìm ñượ c thông tin mong muôn!
Trang 59Cơ sở dữ liệu sinh học (CSDL): các thông tin về trình tự axit nucleic (ADN, ARN), trình tự axit amin của các phân tử protein, thông tin về cấu trúc và giải phẫu của một số genom, mô hình cấu trúc không gian của các ñại phân tử
Các thông tin này ñược sắp xếp và lưu trữ bởi một hệ thống các máy chủ rất mạnh của 3 ngân hàng gen lớn
nhất thế giới là NCBI, EMBL và DDBJ.
Informatics applycation in biology 59
Trang 60Phân tích dữ liệu DNA và Protein
Các thông tin về dữ liệu DNA, protein: chủ yếu là trình
tự nucleotit và trình tự axit amin
Ngân hàng gen cũng có thể ñược coi như một thư việnsách, trong ñó mỗi cuốn sách chính là một trình tựnucleotit DNA hoặc axit amin của protein và chúng ñềuñược ñánh số
Bằng cách này hay cách khác chúng ta có thể tìm ñượctrình tự cần quan tâm Tuy nhiên, vấn ñề ở ñây khôngphải là tìm bằng cách nào mà chúng ta phải hiểu ñượccuốn sách ñó viết về cái gì và sử dụng nó như thế nào?
Informatics applycation in biology 60
... class="text_page_counter">Trang 38CHƯƠNG 2: CƠ SỞ SINH HỌC CỦA TIN SINH HỌC
Informatics applycation in biology 38
Trang 37Một số thuật ngữ tin sinh thường gặp internet
Accession
Alignment Plasmid