1. Trang chủ
  2. » Kỹ Thuật - Công Nghệ

Tài liệu TIN SINH HỌC - CHƯƠNG II. TÌM KIẾM DỮ LIỆU SINH HỌC doc

39 1,4K 13
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tìm Kiếm Dữ Liệu Sinh Học
Tác giả Trần Thị Phương Anh
Người hướng dẫn TS. Võ Văn Toàn
Trường học Trường Đại Học
Chuyên ngành Tin Sinh Học
Thể loại Tài liệu
Định dạng
Số trang 39
Dung lượng 2,64 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Khái quát chung về cơ sở dữ liệu sinh học Cơ sở dữ liệu sinh học CSDL trong chương này chủ yếu đề cập đến các thông tin về trình tự Axit nucleic ADN, ARN, trình tự axit amin của các phâ

Trang 1

Người hướng dẫn: TS.VÕ VĂN TOÀN

Người thực hiện: TRẦN THỊ PHƯƠNG

ANH Lớp: Sinh học thực nghiệm khóa 15

Trang 2

1 CƠ SỞ DỮ LIỆU SINH HỌC

CHƯƠNG II TÌM KIẾM DỮ LIỆU SINH HỌC

1.1 Khái quát chung về cơ sở dữ liệu sinh học

Cơ sở dữ liệu sinh học (CSDL) trong chương này chủ yếu đề cập đến các thông tin về trình tự Axit nucleic (ADN, ARN), trình tự axit amin của các phân tử Protein, thông tin về cấu trúc và giải phẫu của một số Genom, mô hình cấu trúc không gian của các đại phân tử

Trang 3

CHƯƠNG II TÌM KIẾM DỮ LIỆU SINH HỌC

1.1 Khái quát chung về cơ sở dữ liệu sinh học

Trang 4

Năm cơ sở dữ liệu trình tự chính trên mạng Internet cung cấp thông tin về trình tự Nucleotide và Protein:

- The GenBank sequence database

- The DNA Data Bank of Japan (DDBJ)

- The Swiss-Prot

- Protein Information Resource (PIR)

1.2 Cơ sở dữ liệu về các trình tự

Trang 5

Năm cơ sở dữ liệu trình tự chính trên mạng Internet cung cấp thông tin về trình tự nucleotide và protein:

1.2 Cơ sở dữ liệu về các trình tự

a.EMBL Cơ sở dữ liệu trình tự nucleotide (còn được gọi

là ngân hàng EMBL) cấu thành tài nguyên trình tự nucleotide chính của châu Âu

Trang 6

CSDL của EMBL/EBI

Trang 7

Năm cơ sở dữ liệu trình tự chính trên mạng Internet cung cấp thông tin về trình tự nucleotide và protein:

1.2 Cơ sở dữ liệu về các trình tự

a EMBL Cơ sở dữ liệu trình tự nucleotide (còn được gọi

là ngân hàng EMBL) cấu thành tài nguyên trình tự nucleotide chính của châu Âu

b GenBank là một phần của chương trình hợp tác quốc tế

về cơ sở dữ liệu trình tự nucleotide, bao gồm ngân hàng dữ liệu ADN của Nhật Bản (DDBJ), Phòng thí nghiệm Sinh học phân tử châu Âu (EMBL), và GenBank tại NCBI

Trang 8

b GenBank là một phần của chương trình hợp tác quốc tế

về cơ sở dữ liệu trình tự nucleotide, bao gồm ngân hàng dữ liệu ADN của Nhật Bản (DDBJ), Phòng thí nghiệm Sinh học phân tử châu Âu (EMBL), và GenBank tại NCBI

GenBank là một bộ sưu tập của tất cả các trình tự DNA được công khai Trong GenBank các cá nhân, các nhà khoa học từ khắp nơi trên thế giới, cũng như từ các trung tâm lớn tham gia vào dự án nghiên cứu bộ gen con người Số lượng các trình tự DNA được lưu trữ trong cơ sở dữ liệu GenBank,

từ tất cả các sinh vật, gần đây đã đạt đến số lượng khổng lồ

và tiếp tục phát triển với một tốc độ nhanh chóng

Trang 9

Năm cơ sở dữ liệu trình tự chính trên mạng Internet cung cấp thông tin về trình tự nucleotide và protein:

và GenBank / NCBI trên cơ sở hàng ngày, ba cơ sở dữ liệu chia sẻ dữ liệu hầu như tất cả dữ liệu tại bất kỳ thời gian nào

Trang 10

CSDL của DDBJ

Trang 11

Năm cơ sở dữ liệu trình tự chính trên mạng Internet cung cấp thông tin về trình tự nucleotide và protein:

d Swiss-Prot là một cơ sở dữ liệu protein Cơ sở dữ liệu

này cố gắng để cung cấp những thông tin ở mức độ cao bao

gồm: các mô tả về chức năng của các protein và cấu trúc của

nó, sự cải biến sau phiên mã, các dạng biến đổi và những

thông tin khác

Trang 12

Năm cơ sở dữ liệu trình tự chính trên mạng Internet cung cấp thông tin về trình tự nucleotide và protein:

Hiện nay, PIR cung cấp các nguồn lực hàng đầu thế giới

để hỗ trợ các dữ liệu protein và di truyền

Trang 13

CSDL của PIR

Trang 14

CHƯƠNG II TÌM KIẾM DỮ LIỆU SINH HỌC

1.1 Khái quát chung về cơ sở dữ liệu sinh học

1.2 Cơ sở dữ liệu về các trình tự

Trong thập niên 70, các phương pháp cô lập trình tự ADN đã

được thành lập và ý tưởng về lập bản đồ toàn bộ bộ gen được hình thành Một số loài sinh vật (virút, E.coli, nấm men, ruồi giấm) đã

nhanh chóng được nghiên cứu Một danh sách cập nhật của tất cả

http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=genomeprj

Thông tin về bộ gen của một số loài (con người, cây Arabidopsis, Saccharomyces cerevisiae) được cung cấp bởi MIPS (http://mips.gsf.de ) The Munich Information Center Protein

Sequences

1 CƠ SỞ DỮ LIỆU SINH HỌC

Trang 15

CHƯƠNG II TÌM KIẾM DỮ LIỆU SINH HỌC

1.1 Khái quát chung về cơ sở dữ liệu sinh học

1.2 Cơ sở dữ liệu về các trình tự

NCBI thành lập vào ngày 04 Tháng Mười Một 1988, như

một bộ phận của Thư viện Y khoa Quốc gia (NLM ) tại Viện

Y tế Quốc gia (NIH) NLM đã được lựa chọn do kinh nghiệm của họ trong việc tạo ra và duy trì cơ sở dữ liệu y sinh học NIH là cơ sở nghiên cứu y sinh học lớn nhất trên thế giới.

1 CƠ SỞ DỮ LIỆU SINH HỌC

Trang 16

CSDL của NCBI

Trang 17

CHƯƠNG II TÌM KIẾM DỮ LIỆU SINH HỌC

1.1 Khái quát chung về cơ sở dữ liệu sinh học

Trang 18

CHƯƠNG II TÌM KIẾM DỮ LIỆU SINH HỌC

1.1 Khái quát chung về cơ sở dữ liệu sinh học

bao gồm SWISS-PROT, TrEMBL, PIR

Cơ sở dữ liệu protein (NCBI)

http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Protein

1 CƠ SỞ DỮ LIỆU SINH HỌC

Trang 19

Trình tự Protein : UniProt (Universal Resource Protein)

http://www.expasy.uniprot.org

Trang 20

CHƯƠNG II TÌM KIẾM DỮ LIỆU SINH HỌC

1.1 Khái quát chung về cơ sở dữ liệu sinh học

Trang 21

Protein cấu trúc: Ngân hàng dữ liệu protein (PDB)

http://www.rcsb.org/pdb/

Trang 22

PDB là kho lưu trữ duy nhất trên toàn thế giới, thông tin về các cấu trúc 3D của các phân tử sinh học lớn, bao gồm cả protein và axit nucleic Đây là những phân tử của sự sống được tìm thấy trong tất

cả các sinh vật bao gồm vi khuẩn, nấm men, thực vật, ruồi, động vật khác, và con người Hiểu biết về hình dạng của một phân tử giúp chúng ta hiểu nó hoạt động như thế nào Kiến thức này có thể được

sử dụng để giúp suy ra vai trò của một cấu trúc trong sức khỏe con người và bệnh tật, và trong thuốc phát triển PDB miễn phí cho người sử dụng Các kho lưu trữ PDB được cập nhật thứ tư mỗi tuần

Trang 23

Cơ sở dữ liệu di truyền

Toàn bộ hệ gen (NCBI)

Các cơ sở dữ liệu có thể được tìm kiếm có hệ thống, bởi các từ

khoá, hoặc bằng trình tự giống nhau

Trang 24

1.3 Cơ sở dữ liệu về các tác phẩm và sáng chế

Các trình duyệt Entrez cũng cung cấp khả năng tìm kiếm

MEDLINE (cơ sở dữ liệu về y học)

(http://www.ncbi.nlm.nih.gov/entrez/query.fcgi)

một cơ sở dữ liệu về ấn phẩm sinh học và y tế có thể được truy cập tại Thư viện Y khoa Quốc gia Trích dẫn bao gồm cả thông tin về trình tự protein hoặc nucleotide được liên kết với các

cơ sở dữ liệu tương ứng và các trích dẫn khác có liên quan Cơ sở này cho phép tìm thấy một số lượng lớn các trích dẫn mà bạn quan tâm một khi bạn đã tìm thấy một vài trích dẫn có liên quan,

và làm tăng khả năng tìm kiếm của bạn lên đáng kể

Trang 25

http://www.ncbi.nlm.nih.gov/entrez/query.fcgi )

Trang 26

Một trình tìm kiếm các bằng sáng chế của Mỹ đang được

(http://www.uspto.gov/patft/index.html).

Trang 27

The Bioinformatic Links Directory

(http://bioinformatics.ubc.ca/resources/links_directory/)

là một nguồn tài nguyên cộng đồng trực tuyến có chứa các công cụ, cơ sở dữ liệu, tài nguyên cho tin sinh học và nghiên cứu sinh học phân tử

Trang 28

2 CÁC CÔNG CỤ TÌM KIẾM, PHÂN TÍCH CÁC CSDL

2.1 Công cụ của EMBL/EBI

a/ Similarity & Homology: Công cụ phân tích mức độ giống

nhau và tương đồng giữa các trình tự

• Các công cụ như: Fasta, Blast, MPsrch và Scanps Dạng tìm kiếm và kết quả trả về qua email cũng được phát triển

• Hai chương trình có thể được sử dụng để tìm kiếm, so sánh mức độ giống nhau và mức độ tương đồng suy diễn

là BLAST or Fasta

Trang 29

Công cụ tìm kiếm DNA và Protein chung

phương pháp shotgun Whole genome shotgun - WGS)

Trang 30

Các công cụ tìm kiếm chuyên biệt cho DNA Công cụ

Ứng dụng, mô tả

(HGBASE).

Trang 31

b/ Protein Functional Analysis: Phân tích chức năng của protein

c/ Proteomic Services

Bao gồm các phương thức truy cập vào các dịch vụ

proteomic do EBI cung cấp

Dasty Công cụ cho phép trình bày những thông tin về đặc

điểm trình tự protein dưới dạng dễ quan sát

UniProt

DAS Máy chủ UniProt DAS cho phép các nhà nghiên cứu trình bày kết quả nhiên cứu của mình, chẳng

hạn xác định các peptide hoặc các trình tự tín hiệu trên máy chủ UniProt dưới dạng mô tả của UniProtKB/Swiss-Prot

Trang 32

d/ Sequence Analysis: Phân tích trình tự

• Sử dụng rất nhiều phương pháp tin sinh học để xác định chức năng sinh học, cấu trúc của các gen và protein

mà chúng mã hóa

Các công cụ như Transeq có thể giúp xác định các

vùng mã hóa protein của một trình tự DNA ClustalW

được sử dụng để so sánh trình tự DNA hoặc protein để làm sáng tỏ mối quan hệ cũng như nguồn gốc tiến hóa của chúng

Trang 33

e/ Phân tích cấu trúc (Structural Analysis):

Một trong những công cụ đó là DALI và MSDfold Công

cụ của MSDfold hoặc DALI cho phép xác định cấu trúc

protein cần nghiên cứu và so sánh nó với các cấu trúc trong PDB (Protein Data Bank)

Trang 34

2.2 Công cụ của NCBI

a/ Các công cụ phân tích trình tự

• Cluster of Orthologous Groups (COGs): Một hệ thống

của các họ gen từ các genom hoàn chỉnh

• Gene Expression Omnibus (GEO): Kho dữ liệu gen biểu

hiện và các nguồn trực tuyến cho việc thu nhận các dữ liệu gen biểu hiện

• HomoloGene: So sánh các trình tự nucleotide giữa các

cặp sinh vật để xác định các gen ở các loài khác nhau được tiến hóa từ một gen tổ tiên chung do quá trình phân loài và chúng thường vẫn giữ được nguyên chức năng trong quá trình tiến hóa

Trang 35

Tìm khung đọc mở (ORF Finder): Một công cụ phân

tích hiện thị dưới dạng đồ hoạ cho phép tìm các khung

đọc mở của một đoạn trình tự hoặc một trình tự có

trong CSDL

b/ Tìm kiếm trình tự giống nhau (Sequence Similarity

Searching)

c/ Hệ thống đơn vị phân loại (Taxonomy)

d/ Đăng ký trình tự (Sequence Submission)

• Sequin: Một công cụ đăng ký trình tự bao gồm cả ORF

finder, một công cụ để sửa chữa và xem trình tự

e/ Tìm kiếm các thuật ngữ (Text Term Searching)

• Entrez: Truy cập vào các dữ liệu trình tự protein và DNA

từ hơn 100000 sinh vật cùng với các cấu trúc protein 3D, các thông tin và bản đồ gen và PubMed MEDLINE

Trang 36

f/ Các công cụ cho thể hiện cấu trúc 3D và các kết quả tìm kiếm trình tự giống nhau (Tools for 3d structure

display and similarity searching)

g/ CSDL bản đồ (MAPS)

Truy cập tới các dạng bản đồ vật lý và di truyền khác nhau

Trang 37

CHƯƠNG II TÌM KIẾM DỮ LIỆU SINH HỌC

1 CƠ SỞ DỮ LIỆU SINH HỌC

2 CÁC CÔNG CỤ TÌM KIẾM, PHÂN TÍCH CÁC CSDL

3 THỰC HÀNH TÌM KIẾM CÁC DLSH

Nguyên tắc:

Ngày đăng: 20/02/2014, 01:20

HÌNH ẢNH LIÊN QUAN

được thành lập và ý tưởng về lập bản đồ tồn bộ bộ gen được hình thành.  Một  số  loài  sinh  vật  (virút,  E.coli,  nấm  men,  ruồi  giấm)  đã  nhanh chóng được nghiên cứu - Tài liệu TIN SINH HỌC - CHƯƠNG II. TÌM KIẾM DỮ LIỆU SINH HỌC doc
c thành lập và ý tưởng về lập bản đồ tồn bộ bộ gen được hình thành. Một số loài sinh vật (virút, E.coli, nấm men, ruồi giấm) đã nhanh chóng được nghiên cứu (Trang 14)
cơ sở dữ liệu Mơ hình hóa phân tử (NCBI) - Tài liệu TIN SINH HỌC - CHƯƠNG II. TÌM KIẾM DỮ LIỆU SINH HỌC doc
c ơ sở dữ liệu Mơ hình hóa phân tử (NCBI) (Trang 20)

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w