Thu thập nguồn gene và tổ chức dữ liệu gene 1

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC NÔNG LÂM TP HỒ CHÍ MINH

BỘ MÔN CÔNG NGHỆ SINH HỌC

  

KHÓA LUẬN TỐT NGHIỆP

THU THẬP VÀ TỔ CHỨC DỮ LIỆU GENE PHỤC VỤ NGHIÊN CỨU CÂY TRỒNG

BIẾN ĐỔI DI TRUYỀN

Trang 2

BIẾN ĐỔI DI TRUYỀN

TS NGUYỄN CÔNG VŨ

Thành phố Hồ Chí Minh Tháng 9/2005

Trang 3

iii

LỜI CẢM ƠN

Chúng em chân thành cảm ơn:

- Ban Giám hiệu trường Đại học Nông Lâm thành phố Hồ Chí Minh

- Ban Giám đốc Trung tâm Phân tích Thí nghiệm Trường Đại học Nông Lâm thành phố Hồ Chí Minh

- Ban chủ nhiệm Bộ Môn Công nghệ Sinh học cùng toàn thể Quý Thầy Cô đã truyền đạt kiến thức cho chúng em trong suốt quá trình học tập tại trường

Chúng em xin gửi lòng biết ơn sâu sắc đến:

Trang 4

iv

TÓM TẮT

Tên đề tài: THU THẬP VÀ TỔ CHỨC DỮ LIỆU GENE PHỤC VỤ NGHIÊN CỨU CÂY TRỒNG BIẾN ĐỔI DI TRUYỀN, do hai sinh viên: NGUYỄN KỲ TRUNG và LÊ THÀNH TRUNG thực hiện tháng 9/2005

Giảng viên hướng dẫn: PGS.TS BÙI THỌ THANH

TS BÙI MINH TRÍ

TS NGUYỄN CÔNG VŨ

Đề tài thực hiện nhằm mục đích tập hợp, tổ chức dữ liệu gene phục vụ cho nghiên cứu cây trồng biến đổi di truyền Công việc được tiến hành tại Trung Tâm Phân Tích Hóa Sinh (Đại học Nông Lâm TP.HCM), Phòng thực hành mạng (Khoa Công Nghệ Thông Tin, Đại học Nông Lâm TP.HCM)

Công việc được tiến hành chia ra nhiều giai đoạn:

 Khai thác thông tin ấn phẩm bài báo về cây trồng biến đổi di truyền trên kho dữ liệu khổng lồ trên internet bằng hai công cụ tìm kiếm trang web Google

và Scirus

 Khai thác thông tin trình tự trên GenBank tại NCBI bằng hai công cụ Entrez và BLAST

 Tổ chức thông tin dữ liệu với ngôn ngữ Perl

 Xử lý dữ liệu, tạo giao diện sử dụng khai thác dữ liệu cho người dùng với Biojava, công nghệ Java servlet và công cụ thiết kế web Frontpage, Dreamweaver

Kết quả tạo ra qui trình tìm trình tự gene mong muốn trên cơ sở dữ liệu trình tự chung GenBank và tạo được cơ sở dữ liệu riêng về các gene liên quan đến cây trồng biến đổi di truyền phục vụ khai thác dễ dàng thuận lợi cho các nhà nghiên cứu trong lĩnh vực này

Trang 5

Supervisors: Assoc prof PhD THANH BUI THO

PhD TRI BUI MINH PhD VU NGUYEN CONG

The purpose of this research is to collect, orgarnize gene data to surve research in genetic modified plant The research was carried out at the Chemical and Biological Analysis and Experiment Center and the practical network department (in the Information Facuty at Nong Lam University)

The process was devided in various phases as following:

Accessing articles about GM plants on the internet with two web search engines Google and Scirus

Accessing comparing and selecting sequences of interest from the GenBank at NCBI with Entrez and BLAST tools

Organizing data with Perl language

Processing data, designing user interfaces with Biojava, Java Servlet technology in combination with Frontpage and Dreamweaver

The establishing database allows researchers in the related fields easily to access and satisfied with basic requirement in genetic research

Trang 6

vi

MỤC LỤC

Trang tựa ii

Lời cảm ơn iii

Tóm tắt iv

Sumary v

Mục lục vi

Danh sách các chữ viết tắt x

Danh sách các sơ đồ và bảng xi

Danh sách các hình xii

PHẦN A: GIỚI THIỆU 1

I Đặt vấn đề 1

II Mục đích của đề tài 2

III Yêu cầu của đề tài 2

IV Các giai đoạn tiến hành 3

V Giới hạn 3

PHẦN B: TỔNG QUAN TÀI LIỆU 4

I GIỚI THIỆU VỀ SINH HỌC 4

I.1 Cơ sở sinh học về gene 4

I.1.1 Thuật ngữ và quan niệm về gene 4

I.1.2 DNA ở các sinh vật khác nhau 5

I.1.2.1 Sự khác nhau giữa các phân tử DNA 5

I.1.2.2 Cấu trúc acid nucleic 6

I.1.3 Mã di truyền 8

I.1.3.1 Thuật ngữ 8

I.1.3.2 Từ điển mã di truyền 8

I.1.3.3 Ba đặc tính quan trọng của mã di truyền 10

I.1.4 Cấu trúc căn bản của một gene eukaryote 12

I.2 Cơ sở sinh học về chuyển gene 13

Trang 7

vii

I.2.1 Các vấn đề chủ yếu trong việc cải biến di truyền 14

I.2.2 Các phương pháp chuyển gene 14

I.2.3 Những khó khăn trong chuyển gene 17

I.2.4 Sản phẩm của kỹ thuật di truyền 18

I.2.5 Tiềm năng của chuyển gene 19

I.2.5.1 Các chức năng mới trong cải biến di truyền thực vật 19

I.2.5.2 Các tính trạng mới (News traits) 20

I.2.5.3 Sự biểu hiện gene 21

I.2.6 Locus chuyển gene 22

I.3 Hiện trạng sản xuất cây trồng chuyển gene trên thế giới 24

II GIỚI THIỆU VỀ BIOINFORMATICS 28

II.1 Khái niệm về Bioinformatics 28

II.2 Vài nét về các cơ sở dữ liệu Sinh học 29

II.2.1 NCBI 29

II.2.2 EMBL 29

II.2.3 DDBJ 30

II.3 Vài công cụ Bioinformatics hiện nay 31

II.3.1 Readseq 31

II.3.2 BLAST 31

II.3.3 BLAT 32

II.3.4 ClustalW 32

II.3.5 HMMER 32

II.3.6 MEME/MAST 33

II.3.7 EMBOSS 33

II.4 Ngôn ngữ dùng trong Bioinformatics 34

III CƠ SỞ TIN HỌC CHO VIỆC XÂY DỰNG CƠ SỞ DỮ LIỆU TRÌNH TỰ 35

III.1 Khái niệm về lập trình 35

III.2 Ngôn ngữ Perl dùnh trong Bioinformatics 39

III.2.1 Giới thiệu Perl 39

III.2.2 Thành phần cơ bản trong Perl 39

III.3 Công nghệ Java ứng dụng trong công việc xử lý dữ liệu Bioinformatics 50

III.3.1 Biojava 50

Trang 8

viii

III.3.2 Biojava và CSDL 50

III.3.3 Tổng quan về công nghệ servlet cho các ứng dụng trên Web 51

III.3.4 Chức năng cơ bản của servlet 52

III.3.5 Thuận lợi của servlet so với các công nghệ thiết kế web khác 53

III.3.6 Sự xây dựng ứng dụng servlet 55

PHẦN C: PHƯƠNG TIỆN VÀ PHƯƠNG PHÁP TIẾN HÀNH 57

I PHƯƠNG TIỆN 57

I.1 Thiết bị 57

I.2 Thời gian và địa điểm xây dựng CSDL 57

II TÌM KIẾM DỮ LIỆU BÀI BÁO 58

II.1 Tìm kiếm tổng hợp tính trạng 58

II.2 Tổng hợp dữ liệu Primer dùng trong phát hiện GMO 64

III TÌM KIẾM DỮ LIỆU TRÌNH TỰ 66

III.1 Tìm kiếm trình tự bằng Keyword 66

III.2 Tìm kiếm trình tự bằng Primer 70

PHẦN D: KẾT QUẢ VÀ THẢO LUẬN 82

I Kết quả thu được từ quá trình tìm kiếm ấn phẩm khoa học 82

II Kết quả thu được từ quá trình tìm kiếm trình tự trên NCBI 82

II.1 Kết quả tìm kiếm trình tự bằng keyword 83

II.2 Kết quả tìm kiếm trình tự bằng Primer 84

II.3 Dùng Perl xử lý kết quả thu được 85

II.3.1 Loại bỏ trùng lắp dữ liệu, tổng hợp danh sách tổng hợp 85

II.3.2 Tải trình tự 90

III Các kết quả thu được từ quá trình tải trình tự từ Genbank 92

IV Tổ chức dữ liệu 93

IV.1 Cách thức tổ chức dữ liệu 93

IV.2 Tiến hành tổ chức, phân loại dữ liệu 94

V Java xử lý dữ liệu 98

V.1 Các yêu cầu đặt ra 98

V.2 Xử lý yêu cầu bằng Java và Biojava 99

V.3 Thiết kế giao diện 101

V.4 Lập trình hiển thị giao diện sử dụng 104

Trang 9

ix

VI Kết quả giao diện tìm kiếm với dữ liệu tập hợp đƣợc 108

PHẦN E: KẾT LUẬN VÀ ĐỀ NGHỊ 118

I Kết luận 118

II Đề nghị 119

TÀI LIỆU THAM KHẢO 121

Phụ lục A 126

Phụ lục B 139

Phụ lục C 152

Phụ lục D 173

Phụ lục E 197

Trang 10

x

DANH SÁCH CÁC CHỮ VIẾT TẮT

A adenine

API application programing interface

BLAST Basic Local Alignment Search Tools

BLAT BLAST-Like Alignment Tool

C cytosine

CDS coding sequence

CGI common gateway interface

CIB the Center for Information Biology

CSDL Cơ sở dữ liệu

DDBJ DNA Data Bank of Japan

DNA deoxyribonucleic acid

EBI the European Bioinformatics Institute

EMBL the European Molecular Biology Laborary

EPSP 5-enolpyruvyl-shikimate-3-phosphate synthase

E-value expected value

G guanine

gi GenInfo Indentifier

Gln Glutamine

GM plant Genetic modified plant

GMO Genetic modified organism

HTML hypertext markup language

HTTP hypertext transfer protocol

ID identify

J2EE Java 2 Enterprise Edition

JDBC Java Database Connectivity

JSP JavaServer page

Met methionine

mRNA messenger ribonucleic acid

NCBI the National Center for Biotechnology Information

NIG the National Institute of Genetics

NIH the National Institutes of Health

NLM the Nation Library of Medicine

NOS noplaine synthase

Phe phenylalanine

RNA ribonucleic acid

SQL Structure Query Language

STDIN standard input

T thymine

T-DNA transfer DNA

tRNA tranfer ribonucleic acid

Trp tryptophan

Trang 11

xi

DANH SÁCH CÁC SƠ ĐỒ VÀ BẢNG

PHẦN A

PHẦN B

Bảng 1.1: Một số loài đã được chuyển gene 19

Bảng 1.2: Bảng thống kê danh sách các tính trạng được chuyển vào cây trồng 24

Bảng 2.1: Bảng liệt kê một số chương trình BLAST 31

Sơ đồ 3.1: Sơ đồ một ứng dụng phần mềm 54

Sơ đồ 3.2: Cấu trúc của một ứng dụng Servlet (Servlet Application) 56

Sơ đồ 3.3: Một cấu trúc phổ biến hơn của một server application 56

PHẦN C Sơ đồ 2.1: Quy trình tìm kiếm thông tin sinh học 58

Bảng 2.1: Địa chỉ những phương tiện tìm kiếm trên Internet 59

PHẦN D Sơ đồ 4.1: Mô hình tổ chức một hệ thống ứng dụng 93

Trang 12

xii

DANH SÁCH CÁC HÌNH

PHẦN A

PHẦN B

Hình 1.1: Sự biểu hiện thông tin di truyền 4

Hình 1.2: Cấu trúc xoắn kép DNA 6

Hình 1.3: Cấu trúc của các base pyrimidine và purine 6

Hình 1.4: Cấu trúc của Oligonucleotide 7

Hình 1.5: Chi tiết cấu trúc của chuỗi Polynucleotide 8

Hình 1.6: Sao chép và dịch mã 9

Hình 1.7: Mã di truyền của nhân (các codon của mRNA) 9

Hình 1.8: Mã di truyền ty thể người 10

Hình 1.9: Các kiểu wobble trong tế bào chất (ở các hữu nhũ) 11

Hình 1.10: Các trình tự được sao chép của DNA (gene) 12

Hình 1.11: Cắt DNA Plasmid sử dụng enzyme cắt giới hạn 13

Hình 1.12: Gắn gene chuyển vào vector (Plasmid) 13

Hình 1.13: Plasmid dùng trong chuyển gene đậu nành 15

Hình 1.14: Chuyển gene thông qua môi trường Agrobacterium tumefaciens 16

Hình 1.15: Súng bắn gene được dùng trong chuyển gene 16

Hình 1.16: Chuyển gene thông qua vi 17

Hình 1.17: Ví dụ cấu trúc di truyền được dùng ức chế gene UDP 6-glucose dehydrogenease trong đậu nành 23

Hình 1.18: Bản đồ một số nước chính có cây trồng chuyển gene lớn trên thế giới 27

Hình 1.19: Diện tích cây trồng chuyển gene các nước trên thế giới 27

Hình 1.20: Biểu đồ tỷ lệ các gene kháng được chuyển vào cây trồng trên thế giới 27

Hình 3.1: Một chu kỳ sống của CGI 53

Hình 3.2: Chu kỳ sống của CGI hiện nay 54

PHẦN C Hình 2.1: Trang kết quả tìm kiếm bằng Google sau khi nhập từ khóa 60

Hình 2.2: Trang tìm kiếm Scirus.com nâng cao 61

Trang 13

xiii

Hình 2.3: Trang kết quả của Scirus sau khi tìm kiếm 62

Hình 2.4: Trang chủ NCBI 62

Hình 2.5: Trang Entrez PubMed của NCBI 63

Hình 2.6: Trang kết quả Entrez PubMed sau khi tìm kiếm 63

Hình 2.7: Trang chủ Agbios.com 64

Hình 2.8: Kết quả tìm kiếm bằng Google với keyword 65

Hình 2.9: Trang Entrez Nucleotide với từ khóa cần tìm 66

Hình 2.10: Trang kết quả của Entrez Nucleotide sau tìm kiếm 67

Hình 2.11: Trang kết quả Entrez Nucleoide dạng text 67

Hình 2.12: Kết quả sau khi nhấp vào mục Details 68

Hình 2.13: Nhập từ khóa cần tìm vào khung tìm kiếm 69

Hình 2.14: Xem chi tiết (Details) khi kết quả không tìm thấy 70

Hình 2.15: Trang BLAST của cơ sở dữ liệu NCBI 70

Hình 2.16: Trang BLAST Nucleotide của NCBI 71

Hình 2.17: Khung nhập trình tự 71

Hình 2.18: Phần tùy chọn của trang BLAST Nucleotide 72

Hình 2.19: Phần lựa chọn định dạng trang kết quả BLAST 73

Hình 2.20: Trang trung gian kết quả BLAST 74

Hình 2.21: Phần đầu của trang kết quả BLAST 74

Hình 2.22: Phần ảnh minh họa tổng thể kết quả BLAST 75

Hình 2.23: Phần tóm tắt kết quả BLAST 75

Hình 2.24: Phần xem chi tiết về sự gióng trình tự trên trang kết quả BLAST 76

Hình 2.25: Lấy trình tự cần từ trang kết quả BLAST 76

Hình 2.26: Nhập trình tự Primer vào khung tìm kiếm gene cryIA(b) 77

Hình 2.27: Kết quả tìm kiếm với Primer gene cryIA(b) 78

Hình 2.28: Kết quả tìm kiếm sau khi thay đổi thông số 78

Hình 2.29: Lựa chọn lại thông số là Pat thay vì nr 79

Hình 2.30: Kết quả tìm kiếm với Database Pat 79

Hình 2.31: Trang lấy kết quả từ chương trình BLAST 80

Hình 2.32: Tìm kiếm trình tự bằng số xác định qua trang BLAST 80

Hình 2.33: Kết quả BLAST dạng HTML 81

Hình 2.34: Kết quả BLAST dạng text 81

Trang 14

xiv

PHẦN D

Hình 2.1: Kết quả dạng text khi tìm kiếm bằng keyword 1 83

Hình 2.2: Kết quả dạng text khi tìm kiếm bằng keyword 2 83

Hình 2.3: Kết quả dạng text khi tìm kiếm bằng keyword 84

Hình 2.4: Kết quả dạng text khi tìm kiếm bằng Primer 85

Hình 2.5: Minh họa 1 file kết quả thu được sau khi tìm kiếm trình tự trên NCBI 86

Hình 2.6: Chương trình Perl bắt đầu chạy 88

Hình 2.7: Nhập đường dẫn đến thư mục chứa file kết quả tìm kiếm 89

Hình 2.8: Chương trình Perl đã chạy xong 89

Hình 2.9: Lưu danh sách này vào file tonghopdulieu.txt 89

Hình 2.10: Nội dung file tonghopdulieu.txt 90

Hình 2.11: Chương trình load.pl đang chạy 92

Hình 2.12: Minh họa kết quả các trình tự được tải về 92

Hình 4.1: Vị trí thể hiện Division trong nội dung của 1 record Genbank 95

Hình 4.2: Chương trình phân chia Division bắt đầu chạy 96

Hình 4.3: Chương trình đã chạy xong 96

Hình 4.4: Kết quả cuối cùng sau khi chương trình phân Division đã chạy xong 97

Hình 5.1: Các trường tìm kiếm chính xác 99

Hình 5.2: Các trường cung cấp thông tin trình tự cần tách 100

Hình 5.3: Trang giao diện tìm kiếm GM Databases 102

Hình 5.4: Nội dung trang tìm kiếm 103

Hình 5.5: Một trường hợp tìm kiếm trên web 105

Hình 5.6: Thể hiện kết quả tìm kiếm với nội dung tóm tắt 107

Hình 6.1: Trang chủ tìm kiếm trình tự GM Plants bằng keyword 109

Hình 6.2: Nhập keyword cần tìm vào khung tìm kiếm 110

Hình 6.3: Trang kết quả tìm kiếm mặc định là dạng Summary 111

Hình 6.4: Trang biểu diễn kết quả dạng GenBank 113

Hình 6.5: Trang biểu diễn kết quả dạng FASTA 114

Hình 6.6: Trang biểu diễn vùng trình tự mã hóa (CDS) dạng FASTA 114

Hình 6.7: Trang Biểu diễn trình tự aminoacid do CDS mã hóa, dạng FASTA 115

Hình 6.8: Trang biểu diễn kết quả dạng text của kiểu GenBank 116

Trang 15

Tuy nhiên, các nhà nghiên cứu cơ bản lẫn nghiên cứu ứng dụng đang vướng phải một khó khăn rất lớn đó chính là việc tìm kiếm, phân tích, so sánh, trích tải những dữ liệu sinh học liên quan đến các nghiên cứu của họ

Chính những thông tin đa dạng, quá phong phú trong các cơ sở dữ liệu khổng lồ trên thế giới, được tải trên nhiều trang thông tin khác nhau đã trở thành những khó khăn đầu tiên cho các nhà nghiên cứu Việc tìm kiếm những thông tin ngắn gọn, dễ dàng và nhanh chóng nhưng vẫn đảm bảo tính chính xác nhằm phục vụ riêng cho từng

cá nhân nghiên cứu ở mỗi phòng thí nghiệm là hết sức cần thiết

Công nghệ di truyền thực vật nói chung và sự xuất hiện của cây trồng và thực phẩm biến đổi di truyền nói riêng (GM Plants, GM Food) hiện là vấn đề toàn cầu Diện tích cây trồng biến đổi di truyền không ngừng tăng qua các năm Theo thống kê gần đây nhất về diện tích canh tác cây chuyển gene được thể hiện ở bảng dưới đây:

(Agrifood Awareness Australia Limited- AFAA, February 2005)

Bên cạnh các thành tựu đã thành công và thương mại hóa như: chuyển gene kháng bệnh, kháng côn trùng, kháng thuốc trừ cỏ; chuyển gene có năng suất nông học cao hay chuyển gene có đặc tính mong muốn từ các thực vật khác cho mục đích dinh dưỡng và dược liệu … là những mối nguy hại mà cây trồng chuyển gene có thể ảnh hưởng tiềm ẩn như: sự đa dạng của cây trồng, ảnh hưởng độc và dị ứng, khả năng phát sinh cỏ dại, sự xâm chiếm hay sự phóng thích ngoài ý muốn của gene ra quần thể cây trồng, các cây trồng không phải cây trồng đích …

Tiêu đề	Thu thập và tổ chức dữ liệu gene phục vụ nghiên cứu cây trồng biến đổi di truyền
Tác giả	Nguyễn Kỳ Trung, Lê Thành Trung
Người hướng dẫn	PGS.TS. Bùi Thọ Thanh, TS. Bùi Minh Trí, TS. Nguyễn Công Vũ
Trường học	Đại học Nông Lâm TP. Hồ Chí Minh
Chuyên ngành	Công nghệ sinh học
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2005
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	22
Dung lượng	760,4 KB