BÀI 2: TÌM KiẾM TRÌNH TỰ SINH HỌC Câu 1: Tìm kiếm trình tự gene AKT1 của loài gallus gallus Câu 2: Tìm kiếm trình tự gene của eIF4E của loài drosophila melanogaster, lấy trình tự gene
Trang 1LÝ THUYẾT THỰC HÀNH-SINH TIN HỌC
BÀI 1: - CÁC NGUYÊN TẮC TÌM KiẾM TÀI LIỆU
Trang 2Kết hợp thuật toán Boolean để tìm kiếm
lipocalin NOT disease (530 results)
Trang 3Lưu trữ và tìm kiếm trong My NCBI
My NCBI lưu trữ các tìm kiếm và cho phép tự động
cập nhật và gửi email kết quả tìm kiếm từ lần tìm kiếm
Trang 4Đăng ký tài khoản NCBI
Trang 5Clipboard: lưu tạm thời các biểu ghi thư mục đã chọn
Email: gởi các biểu ghi thư mục đã chọn qua email
Trang 6Giới thiệu môn học 6
Trang 7Sent to….MY NCBI
Trang 8Thẻ Giới hạn phạm vi tìm kiếm
[AB]: Tóm tắt - abstract
[AU]: Tên tác giả - author name
[DP]: Ngày xuất bản – publication date
[CY]: Nơi phát xuất bản tạp chí – country
[IP]: :Số phát hành của tạp chí
[IS]: International Standard Serial Number of
Journal (ISSN)
[LA]: Ngôn ngữ của bài báo – language
[PG]: Số trang – page number
[TI]: Tựa đề - title word
[VI]: Tập (số) – volume
Trang 9TÌM KIẾM DỮ LIỆU QUA TẠP CHÍ CHUYÊN NGÀNH
http://www.plantcell.org/search.dtl (tạp chí chuyên ngành thực vật)
http://www.who.int/en/(tổ chức Y tế thế giới (WHO))
Trang 10Bài 1: Tìm kiếm các tạp chí chuyên ngành
1 Tìm các từ khoá lipocalin AND disease (sử dụng các
lệnh OR, NOT) trong Pubmed của NCBI, trả lời có bao nhiêu kết quả tìm kiếm
2 Lưu các kết quả tìm kiếm được trong My NCBI với
các tên là lipocalin AND disease
3 Bằng công cụ PMC hãy tìm các bài báo toàn văn liên quan đến các từ khoá lipocalin AND disease (OR,
NOT)
Trang 114 Bằng công cụ Journal list hãy trả lời tên tạp chí, tạp chí này xuất bản bao nhiêu kỳ, lần xuất bản đầu tiên vào năm nào.
5 Bằng công cụ Adance search trong NCBI hãy tìm bài
có tên tác giả là Liu KD và được xuất bản vào năm 2013
6 Bằng thẻ tìm kiếm hãy tìm bài báo sau có tên tác giả
là Le và công trình tên tác giả nghiên cứu liên quan đến HIV, bài báo này được tiến hành tại Việt nam
Trang 13Kết quả trình tự nucleotide trong Genebank
được ghi toàn bộ trong phần đầu
Trình tự
Trang 14modification date
Phần đầu
GenBank Record
Locus Name Sequence Length
Molecule Type
GenBank Division
Modification Date Accession Number
Version Number
Trang 15Đặc trưng
Link to Seq
Trang 16Trình tự
Trang 17Thẻ giới hạn phạm vi tìm kiếm DNA
[ALL] : Tất cả các trường tìm kiếm
[ACCN]: Mã số truy cập của trình tự - Accession number
[GI] : Số gi
[AUTH] : Tên tác giả giải trình tự- author name
[PDAT] : Ngày trình tự được chỉnh sửa hay ngày trình tự
được cập nhật (update) – publication date
[ORGN] : Sinh vật chứa trình tự đó - organism
[TITL] :Định nghĩa trình tự trong mẫu tin – title
[SLEN] :Chiều dài của trình tự - Sequence length
[GENE] : Tên gene
Tìm kiếm trình tự môn học 17
Trang 18Bản đồ Map Viewer
công cụ quan sát bản đồ nhiễm sắc thể của hơn 17
loài sinh vật
Map Viewer trình bày một hoặc nhiều bản đồ đã được
so sánh với nhau dựa trên các chỉ thị và các gen, đối với bản đồ trình tự dựa vào mức độ giống nhau giữa các trình tự
Hiện nay, có các bản đồ của Arabidopsis, Ruồi giấm (fruit fly), người (human), bản đồ tương đồng của người và chuột, sốt rét, muỗi, chuột, giun tròn (nemato), chuột (rat), Zebrafish…
Trang 19BÀI 2: TÌM KiẾM TRÌNH TỰ SINH HỌC
Câu 1: Tìm kiếm trình tự gene AKT1 của loài gallus gallus
Câu 2: Tìm kiếm trình tự gene của eIF4E của loài
drosophila melanogaster, lấy trình tự gene và protein dưới dạng fasta
Trang 20
Câu 3: Tìm kiếm trình tự gen có tên là ST GENE của loài drosophila melanogaster
và lấy đoạn nucleotide theo định dạng FASTA.
a Kết quả có bao nhiêu mục tìm thấy ?
b Trình tự DNA này dài bao nhiêu ? Nó mã hoá cho protein gì? Công trình này được đăng tải bởi tạp chí nào? Tác giả là ai?
c Xác định đoạn gene này nằm trong NST nào, tên NST
Câu 4: Bằng thẻ tìm kiếm hãy tìm trình tự sinh học của gene G6PD của loài
homosapiens
Câu 3:Bằng công cụ tìm kiếm trình tự gene của G6PD của loài homosapiens
Trang 21Tìm kiếm đoạn gen qua bản đồ gene
Trang 22Bản đồ gene
Bản đồ gene
Trang 231 CM (centimorgan= 1000 kb)
Trang 24Tìm marker qua đoạn gene
1. Sử dụng công cụ gene để tìm đoạn gene HFE của
loài homo sapiens
Trang 25Tìm marker qua đoạn gene
Trang 26Tìm đoạn gene của bệnh liên quan trong Pubmed
Tìm kiếm trình tự sinh học 26
Trang 27Tìm kiếm trình tự sinh học 27
Trang 28Tìm kiếm trình tự sinh học 28
Trang 29Bài tập phân tích cấu trúc protein
Tìm trình tự virus H1N1 trong NCBI với tên
mission/1/1918 strain
Xác định mã số truy cập của protein của virus
Xác định cấu trúc bậc 2 và bậc 4 của protein
Xác định trình trình tự protein và DNA của virus
Trang 30Phân tích cấu trúc Protein virus
Tìm hiểu cấu trúc protein virus để tạo ra thuốc
Tìm hiểu cơ chế gây bệnh của virus trên tế bào
chủ
Trang 31Tìm ID của protein qua NCBI
Tìm trình tự đoạn protein có tên NA
Sử dụng Blast để tìm ID của protein NA
Sử dụng Cơ sở dữ liệu protein để tìm cấu trúc bậc 2, bậc 4 của NA
Phân tích cấu trúc DNA mã hoá cho protein NA
Trang 33Xác nhận ID protein qua Protein Blast
Trang 34Xác nhận ID protein qua Protein Blast
Trang 35Nhập ID protein trong PDB
Trang 36Xác định trình tự protein
Trang 37Download trình tự protein NA
>3BEQ:A|PDBID|CHAIN|SEQUENCE
VILTGNSSLCPISGWAIYSKDNGIRIGSKGDVFVIREPFISCSHLECRTFFLTQGALLN DKHSNGTVKDRSPYRTLMSCPVGEAPSPYNSRFESVAWSASACHDGMGWLTIGIS GPDNGAVAVLKYNGIITDTIKSWRNNILRTQESECACVNGSCFTIMTDGPSNGQASY KILKIEKGKVTKSIELNAPNYHYEECSCYPDTGKVMCVCRDNWHGSNRPWVSFDQN LDYQIGYICSGVFGDNPRPNDGTGSCGPVSSNGANGIKGFSFRYDNGVWIGRTKST SSRSGFEMIWDPNGWTETDSSFSVRQDIVAITDWSGYSGSFVQHPELTGLDCMRP CFWVELIRGQPKENTIWTSGSSISFCGVNSDTVGWSWPDGAELPFSI
>3BEQ:B|PDBID|CHAIN|SEQUENCE
VILTGNSSLCPISGWAIYSKDNGIRIGSKGDVFVIREPFISCSHLECRTFFLTQGALLN DKHSNGTVKDRSPYRTLMSCPVGEAPSPYNSRFESVAWSASACHDGMGWLTIGIS GPDNGAVAVLKYNGIITDTIKSWRNNILRTQESECACVNGSCFTIMTDGPSNGQASY KILKIEKGKVTKSIELNAPNYHYEECSCYPDTGKVMCVCRDNWHGSNRPWVSFDQN LDYQIGYICSGVFGDNPRPNDGTGSCGPVSSNGANGIKGFSFRYDNGVWIGRTKST SSRSGFEMIWDPNGWTETDSSFSVRQDIVAITDWSGYSGSFVQHPELTGLDCMRP CFWVELIRGQPKENTIWTSGSSISFCGVNSDTVGWSWPDGAELPFSI
Trang 38Download cấu trúc bậc 2 protein
Trang 39Mã hoá đoạn protein ra DNA qua EMBL
Bioinformatics Tools for Sequence Translation < EMBL-EBI
Trang 40Sử dụng Protein Sequence Back-translation
Trang 41Chuyển đổi Protein qua DNA
Trang 42Kết quả trình tự DNA mã hoá protein
Trang 43Xác định vị trí của đoạn gene trên NST
Vị trí của đoạn gene trên NST
Các nhà khoa học ước tính rằng có khoảng từ 3 triệu đến 100 triệu loài sinh vật trên Trái đất.
Nhà phân loại học, người chuyên xác định và phân loại sự sống trên hành tinh của chúng ta -
đã đặt tên cho khoảng 1,7 triệu loài cho đến nay.
Mỗi năm, khoảng 13.000 loài mới được bổ sung vào danh sách các sinh vật được biết đến.
Vì vậy, làm thế nào để các nhà khoa học phân loại (tổ chức) tất cả các hàng triệu loài?
TAXONOMY
Trang 45TAXONOMY(PHÂN LOẠI)
Trang 47Kingdom Cell
Archaebacteria Prokaryotic Đơn bào Autotroph &
heterotroph Bacteria from extreme
environments Eubacteria Prokaryote Đơn bào Autotroph &
heterotroph BacteriaProtist Eukaryote Đơn bào or
Đa bào Autotroph & heterotroph Paramecium, ameoba Fungi Eukaryote Đa bào or
đơn bào (yeast)
Heterotroph Mushroom,
mildew, mold
Plant Eukaryote Đa bào Autotroph,
heterotroph (rarely)
Redwood, tulips,
grasses Animal Eukaryote Đa bào Heterotroph Insects,
mammals, fishes
Trang 48(“cây hạt trần”)
Angiosperms
(Hạt kín)
Trang 50PHÂN LOẠI ĐỘNG VẬT
Trang 52Trong thực vật học
Danh pháp bộ: ghép hậu tố -ales vào thân từ của tên họ mẫu
Danh pháp lớp: ghép hậu tố -opsida vào thân từ của tên bộ mẫu
Danh pháp ngành: ghép bằng hậu tố -phyta
Lớp chim (Aves) và lớp cá (Pisces) có các bộ mang hậu tố –
iformes
Lớp thú (Mammalia), lớp côn trùng (Insecta) có các bộ mang
những hậu tố rất đa dạng, khó hệ thống hóa như: ptera, odea,
-ates, idea
Đối với Tảo:
* Danh pháp lớp có hậu tố -phyceae
Đối với Nấm:
* Danh pháp ngành có hậu tố -mycota
* Danh pháp lớp có hậu tố -mycetes
* Danh pháp phân lớp có hậu tố -mycetidae.
TÊN DANH PHÁP CÁC GiỚI
Trang 54Panthera tigris altaica Siberian or Amur
Tiger, Southeast Russia/China
Panthera tigris tigris India
Panthera tigris amoyensis Southern
China
Panthera tigris corbetti Indochina
Panthera tigris sumatrae Sumatran
Tiger, Sumatra
Trang 56Eukarya Domain eucaryotes
(có chứa xương sống)
Primates
sapiens Species our species
Trang 57Bài 3
Câu 1: Bằng công cụ Taxonomy hãy phân
loài các trình tự id lần lượt là: 56636
10090, 9031, 562, 5833, 4472 (hướng dẫn bằng cách sử dụng công cụ CD
tree trong Taxonomy) Lưu các trình tự DNA, protein vừa tìm được dưới định dạng Fasta
Trang 58Câu 2: Bằng công cụ Taxonomy hãy phân loại 12 id:
2214 Methanosarcina, 498970 Bacillus_firmus strain QJGY18, 187420
Trang 59Sử dụng taxonomy để phân loại các sinh vật sau
Trang 60Nhập các ID trong taxonomy
Trang 61Xây dựng cây phân loài
Trang 62Kết quả xuất hiện cây phân loài
Trang 63Kết quả xuất hiện cây phát sinh loài
Trang 64Bài tập 4
Câu 1: Tìm kiếm trình tự gene của eIF4E của loài
drosophila melanogaster, lấy trình tự gene và protein
dưới dạng fasta.
Câu 2: Tìm đoạn gene 4E-II với mã số truy cập U54469.1 [gene=eIF4E] [prot=eukaryotic initiation factor 4E-II], lấy trình tự nucleotide, Xác định độ dài đoạn gene trên nhiễm sắc thể, Đăng ký trình tự bằng Sequin, phân vùng mã hóa các trình tự sau: 201->224, 1550-
>1920, 1986->2085,2317->2404
Trang 65Cách đăng ký trình tự đã được giải mã qua phần mềm sequin
Trang 66Điền tựa đề
Trang 67Điền thông tin tác giả
Trang 68Chọn các dạng trình tự
Trang 69Giới thiệu môn học 69
Trang 70Điền thông tin nơi làm việc, nghiên cứu
Trang 71Chọn các dạng trình tự
Trang 72Nhập trình tự nucleotide
Trang 73Nhập tên sinh vật
Trang 74Nhập tên sinh vật
Trang 75Nhập tên sinh vật
Trang 76Kết quả biên tập với sequin
Trang 77Lưu tập tin với đuôi Sqn
Trang 78Phân vùng trình tự mã hóa bằng sequin
Trang 79Giới thiệu môn học 79
Trang 80Giới thiệu môn học 80
Trang 81HIỆU CHỈNH TRÌNH TỰ
Bước 1: Chuyển trình tự dạng Peak sang dạng nucleotide
Trang 82Bước 2: Dẫn đường dẫn đến file đích
Trang 83Mở file giải trình “tự xuôi” và giải trình tự ngược với phần mềm Bioedit
Trang 84Bước 3: Revers complemnet sequence đoạn trình tự ngược
Trang 85Xuất trình tự ngược dạng peak (.ab1) sang dạng nucleotide (fasta)
Trang 86Bước 2: Algin - Sắp giống hàng cột Trình tự xuôi, ngược và tham khảo Bằng phần mềm BIOEDIT
Trang 87Load trình tự xuôi ngược, tham khảo
Trang 88Chọn đường dẫn đến file cần aglin
Trang 89Chọn các trình tự cần aglin
Trang 90Algin các trình tự
Trang 91Hiệu chỉnh trình tự
Nguyên tắc hiện chỉnh
Nếu match (bắt cặp) đúng giữa hai mạch xuôi
ngược và
trình tự tham khảo Chọn Chọn
Nếu match đúng giữa hai mạch xuôi và ngược
nhưng khác
trình tự tham khảo xem lại peak Chọn
Trang 92 Nếu match khác giữa mạch xuôi và mạch ngược và khác trình tự tham khảo:
phần
khi cần thiết.
Trang 93 Theo kinh nghiệm
Phần đầu của trình tự sẽ dựa vào trình tự ngược hơn là trình
tự xuôi (vì: giai đoạn đầu của phản ứng giải trình tự sẽ không
ổn định, tuy nhiên giai đoạn sau ổn định hơn)
Trang 94Các trường hợp thường gặp trong hiệu chỉnh trình tự
overlapping
Trang 95Giới thiệu môn học 95
Trang 96Giới thiệu môn học 96
Trang 97Giới thiệu môn học 97
Example of a "blurry" or poorly
resolved trace chromatogram
collected using a ABI 3730
50cm array.
Trang 98Bước 2: Algin - Sắp giống hàng cột
Trình tự xuôi, ngược và tham khảo Bằng phần mềm
ClustalX
Giao diện
Trang 99Giới thiệu môn học 99
Trang 100Giới thiệu môn học 100