1. Trang chủ
  2. » Luận Văn - Báo Cáo

Dự đoán và phân tích các trạng thái của histone trong chuỗi DNA bằng phương pháp conditional random fields

15 282 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 15
Dung lượng 330,27 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

CHƯƠNG 3: SỬ DỤNG MÔ HÌNH CRFs ĐỂ DỰ ĐOÁN SỰ CHIẾM CHỖ CỦA NUCLEOSOME VÀ TRẠNG THÁI THAY ĐỔI CỦA HISTONE TRONG CHUỖI DNA .... 4.1.1 Dự đoán sự choán chỗ của nucleosome và sự thay đổi trạ

Trang 1

TRẦN ĐĂNG HƯNG

DỰ ĐOÁN VÀ PHÂN TÍCH CÁC TRẠNG THÁI CỦA HISTONE TRONG CHUỖI DNA BẰNG PHƯƠNG PHÁP CONDITIONAL RANDOM FIELDS

Chuyên ngành: Công Nghệ Thông Tin

Mã số: 1.01.10

LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC

GS.TSKH HỒ TÚ BẢO

Trang 2

MỤC LỤC

MỤC LỤC 2

LỜI CẢM ƠN 5

DANH MỤC HÌNH VẼ 6

DANH MỤC BẢNG 7

DANH MỤC TỪ VIẾT TẮT 8

MỞ ĐẦU 9

CHƯƠNG 1: GIỚI THIỆU CHUNG Error! Bookmark not defined 1.1 Các khái niệm cơ bản Error! Bookmark not defined 1.1.1 Tin-sinh là gì? Error! Bookmark not defined 1.1.2 DNA(deoxyribonucleic acid) Error! Bookmark not defined 1.1.3 RNA(ribonucleic acid) Error! Bookmark not defined 1.1.4 Protein Error! Bookmark not defined 1.2 Nucleosome Error! Bookmark not defined 1.2.1 Nucleosome là gì? Error! Bookmark not defined 1.2.2 Sự choán chỗ của nucleosome trong chuỗi DNAError! Bookmark not defined.

1.2.3 Histone là gì? Error! Bookmark not defined 1.2.4 Trạng thái thay đổi của Histone Error! Bookmark not defined 1.3 Mục tiêu của luận văn Error! Bookmark not defined.

Trang 3

CHƯƠNG 2: MÔ HÌNH CONDITIONAL RANDOM FIELDError! Bookmark not defined.

2.1 Giới thiệu Error! Bookmark not defined 2.2 Mô hình Markov ẩn Error! Bookmark not defined 2.2.1 Giới thiệu Error! Bookmark not defined 2.2.2 Bài toán gán nhãn cho dữ liệu chuỗi Error! Bookmark not defined 2.2.3 Hạn chế của mô hình Generative Error! Bookmark not defined 2.3 Mô hình Maximum Entropy Markov Error! Bookmark not defined 2.3.1 Giới thiệu Error! Bookmark not defined 2.3.2 Vấn đề Bias Error! Bookmark not defined 2.4 Mô hình Condition Random Field Error! Bookmark not defined 2.4.1 Mô hình đồ thị vô hướng Error! Bookmark not defined 2.4.2 Cấu trúc đồ thị của CRFs Error! Bookmark not defined 2.4.3 Nguyên lý Maximum Entropy Error! Bookmark not defined 2.4.4 Hàm khả năng cho CRFs Error! Bookmark not defined 2.4.5 Một số thuật toán ước lượng tham số cho CRFsError! Bookmark not defined.

CHƯƠNG 3: SỬ DỤNG MÔ HÌNH CRFs ĐỂ DỰ ĐOÁN SỰ CHIẾM CHỖ CỦA NUCLEOSOME VÀ TRẠNG THÁI THAY ĐỔI CỦA HISTONE TRONG

CHUỖI DNA Error! Bookmark not defined 3.1 Bài toán Error! Bookmark not defined 3.1.1 Giới thiệu Error! Bookmark not defined 3.1.2 Phương pháp thực nghiệm Error! Bookmark not defined 3.2 Dữ liệu Error! Bookmark not defined.

Trang 4

3.2.1 Dữ liệu thực nghiệm Error! Bookmark not defined 3.2.2 Chuyển dữ liệu thực nghiệm về dữ liệu có nhãnError! Bookmark not defined.

3.2.3 Huấn luyện và kiểm thử với mô hình CRFs trên dữ liệu đã chuẩn bị

Error! Bookmark not defined CHƯƠNG 4: KẾT QUẢ VÀ THẢO LUẬN Error! Bookmark not defined 4.1 Kết quả Error! Bookmark not defined.

4.1.1 Dự đoán sự choán chỗ của nucleosome và sự thay đổi trạng thái của

histone trong chuỗi DNA Error! Bookmark not defined.

4.1.2 Tìm các vùng trên chuỗi DNA ảnh hưởng đến mức độ trạng thái khác

nhau của Histone Error! Bookmark not defined 4.2 Thảo luận Error! Bookmark not defined 4.2.1 Dự đoán sự choán chỗ và các trạng thái thay đổi của histone Error! Bookmark not defined.

4.2.2 Phân tích các vùng hữu ích của chuỗi DNA ảnh hưởng đến các tính chất

của histone Error! Bookmark not defined KẾT LUẬN Error! Bookmark not defined 5.1 Nội dung của luận văn Error! Bookmark not defined 5.1.1 Các kết quả đạt được Error! Bookmark not defined 5.1.2 Một số hạn chế cần khắc phục Error! Bookmark not defined 5.2 Công việc tiếp theo Error! Bookmark not defined PUBLICATION Error! Bookmark not defined.

TÀI LIỆU THAM KHẢO 11

Trang 5

LỜI CẢM ƠN

Vui mừng khi hoàn thành luận văn, tôi không quên công ơn của các thầy cô, bạn bè đồng nghiệp và gia đình, những người đã dạy bảo và ủng hộ tôi trong suốt quá trình học tập

Trước hết tôi muốn gửi lời cảm ơn đến các thầy cô giáo ở trường Đại học Công Nghệ, Đại học Quốc gia Hà Nội và Viện Công nghệ thông tin đã quan tâm tổ chức chỉ đạo và trực tiếp giảng dạy khóa cao học của chúng tôi Đặc biệt tôi xin gửi lời cảm ơn sâu sắc đến thầy giáo hướng dẫn GS.TSKH Hồ Tú Bảo, người đã tận tình chỉ bảo và góp ý về chuyên môn cho tôi trong suốt quá trình làm luận văn Ngoài

ra, bằng sự giúp đỡ của thầy tôi đã có cơ hội được thực tập sinh 1 năm tại Viện Khoa học và Công nghệ tiên tiến Nhật Bản (JAIST), nơi mà tôi được tiếp cận với môi trường nghiên cứu hiện đại và đầy đủ điều kiện để hoàn thành luận văn Đồng thời tôi cũng muốn gửi lời cảm ơn đến người thầy giáo cũ của tôi, TS Phạm Thọ Hoàn, người đã hết sức giúp đỡ tôi cả về chuyên môn và cuộc sống trong những năm vừa qua Tôi cũng xin chân thành cảm ơn GS Kenji Satou, một chuyên gia trong lĩnh vực Tin-sinh học của JAIST, đã cho tôi những góp ý quý báu trong thời gian thực tập sinh ở JAIST

Cũng qua đây, tôi xin chân thành cảm ơn lãnh đạo khoa Công nghệ Thông tin và lãnh đạo trường Đại học Sư phạm Hà nội, nơi tôi công tác, đã tạo mọi điệu kiện thuận lợi cho tôi trong thời gian làm nghiên cứu ở nước ngoài

Cuối cùng, tôi xin cảm ơn bố mẹ, vợ và con trai, những người đã luôn ủng hộ và động viên để tôi yên tâm nghiên cứu và hoàn thành luận văn

Tuy nhiên, do bản thân mới bắt đầu trên con đường nghiên cứu khoa học đầy thách thức, chắc chắn bản luận văn vẫn còn nhiều thiếu sót Rất mong được nhận được sự góp ý của các thầy cô và đồng nghiệp

Trang 6

DANH MỤC HÌNH VẼ

Hình 1 Cấu trúc xoắn kép của DNA 12

Hình 2 Một phân tử tRNA 14

Hình 3 Các dạng cấu trúc của protein 15

Hình 4 Cấu tạo của nucleosome 16

Hình 5 Cấu trúc đóng gói của chuỗi DNA tạo thành một nhiễm sắc thể 17

Hình 6 Các nucleosome liên tiếp nhau được nối bởi linker DNA 18

Hình 7 Cấu tạo của histone octamer 19

Hình 8 Các protein có trong nhân histone 20

Hình 9 Cấu trúc chi tiết của nhân histone 20

Hình 10 Các vị trí trên đuôi của các histone có thể đính thêm các nhóm chức 22

Hình 11 Cấu trúc đồ thị của HMM bậc 1 Error! Bookmark not defined Hình 12 Cấu trúc đồ thị của mô hình MEMM bậc 1.Error! Bookmark not defined Hình 13 Một ví dụ về vấn đề bias Error! Bookmark not defined Hình 14 Cấu trúc đồ thị của CRFs cho trường hợp chuỗi.Error! Bookmark not defined.

Hình 15 Lược đồ của phương pháp ChIP-chip [21] Error! Bookmark not defined Hình 16 Chuyển dữ liệu định lượng về dữ liệu định tính.Error! Bookmark not defined.

Hình 17 Tạo dữ liệu có nhãn từ dữ liệu gene của loài Yeast và dữ liệu định tính

Error! Bookmark not defined Hình 18 Biểu diễn dãy DNA dưới dạng vector (với k = 3).Error! Bookmark not defined.

Trang 7

Hình 19 Dữ liệu đã có nhãn Gồm vector biểu diễn chuỗi DNA và nhãn tương ứng

Error! Bookmark not defined.

Hình 20 Biểu diễn gene thành chuỗi quan sát p1,p2,p3,p4 là các vị trí được đo trên gene x1, x2, x3, x4 là các quan sát biểu diễn các đoạn DNA chứa các vị trí tương

ứng Error! Bookmark not defined.

DANH MỤC BẢNG

Bảng 1 Một số kiểu trạng thái của histone Chữ cái trong ngoặc là kí hiệu thay cho

amino acid tương ứng Error! Bookmark not defined Bảng 2 Một số vị trí thay đổi trạng thái của histone đã biết.Error! Bookmark not defined.

Bảng 3 Danh sách kháng thể [27] Error! Bookmark not defined Bảng 4 Các trường trong file dữ liệu thực nghiệm Error! Bookmark not defined Bảng 5 Dữ liệu thực nghiệm [27] Error! Bookmark not defined Bảng 6 Các tập dữ liệu về sự choán chỗ của histone, sự acetyl hóa Error! Bookmark not defined.

Bảng 7 Kết quả dự đoán khả năng choán chỗ, acetyl hóa, methyl hóa của histone,

với kích thước của cửa sổ k = 4, k = 5 và k = 6 Error! Bookmark not defined.

Bảng 8 Kết quả dự đoán khả năng choán chỗ, acetyl hóa, methyl hóa của histone,

với kích thước của cửa sổ k = 7; k = 4,5 và k = 5,6 Error! Bookmark not defined.

Bảng 9 Một số feature hữu ích cho lớp positive được chọn từ mô hình CRFs, trong trường hợp k = 4 và k = 5 T.số: là trọng số của feature tương ứng sau khi huấn

luyện mô hình CRFs Error! Bookmark not defined.

Trang 8

Bảng 10 Một số feature hữu ích cho lớp negative được chọn từ mô hình CRFs, trong trường hợp k = 4 và k = 5 T.số: là trọng số của feature tương ứng sau khi

huấn luyện mô hình CRFs Error! Bookmark not defined.

Trang 9

DANH MỤC TỪ VIẾT TẮT

Trang 10

MỞ ĐẦU

Trong một vài thập niên gần đây bài toán khai phá dữ liệu đã trở thành một trong những hướng nghiên cứu quan trọng trong lĩnh vực khoa học máy tính và trí tuệ nhân tạo Điều này dễ hiểu vì khối lượng dữ liệu mà con người có là rất lớn nhưng việc tìm ra dữ liệu có ích lại là vấn đề khó Trước đây người ta thường dùng các phương pháp thực nghiệm và kinh nghiệm của con người để rút ra các tri thức

có nghĩa trong khối lượng dữ liệu khổng lồ Có rất nhiều các nghiên cứu và đề xuất được ứng dụng trong đời sống khẳng định đây là hướng nghiên cứu bền lâu và có ý nghĩa thực tiễn rất lớn

Khai phá dữ liệu được hiểu một cách đơn giản là từ những dữ liệu đang có, bằng các phương pháp tính toán khoa học trích rút ra các dữ liệu có ích đối với con người Các kỹ thuật chính được áp dụng chính trong lĩnh vực này được kế thừa từ nhiều lĩnh vực khác nhau như: Cơ sở dữ liệu, học máy (machine learning), trí tuệ nhân tạo (artificial intelligence), lý thuyết thông tin (information theory), và xác suất thống kê (probability and statistics) Cho đến nay, các phương pháp khai phá

dữ liệu đã được áp dụng trong nhiều lĩnh vực khác nhau như xử lý ngôn ngữ tự nhiên, xử lý tiếng nói, tin-sinh học, …

Dữ liệu sinh học trên thế giới ngày càng nhiều và đa dạng, việc phân tích và

xử lý khối dữ liệu khổng lồ đó cần phải sử dụng đến các công cụ khai phá dữ liệu hiệu quả Vì thế, trong mấy thập niên gần đây xuất hiện một ngành khoa học mới có tên là tin-sinh học Dù mới ra đời nhưng tin-sinh học có một vai trò quan trọng trong cuộc sống, như hỗ trợ việc chẩn đoán bệnh tật, tìm ra các mối quan hệ di truyền giữa các loài sinh vật hay phát hiện ra chức năng của các đại phân tử trong sinh học phân tử,…

Trong khi tìm hiểu các bài toán trong lĩnh vực tin-sinh học, chúng tôi đã phát hiện ra vị trí, cấu tạo và trạng thái của các histone trong chuỗi DNA ảnh hưởng đến các tiến trình sinh học trong tế bào Đã có nhiều các nghiên cứu trước đây nghiên

Trang 11

cứu vấn đề này, nhưng đều là các nghiên cứu thực nghiệm Trong luận văn này, chúng tôi áp dụng một phương pháp tính toán để dự đoán sự choán chỗ của nucleosome và các trạng thái thay đổi của nó trong chuỗi DNA Chúng tôi đã sử dụng mô hình Conditional Random Fields (CRFs), một mô hình xác suất điều kiện được đánh giá là hiệu quả trong nhiều lĩnh vực khác nhau Ngoài ra, dựa vào mô hình này, chúng tôi còn phân tích được nhiều đặc trưng quan trọng của chuỗi DNA liên quan đến các dấu hiệu của quá trình thể hiện gene

Ngoài phần mở đầu và kết luận, luận văn được chia làm 4 chương, cụ thể nội dung các chương như sau:

Chương 1 trình bày các khái niệm chung của sinh học phân tử Giải thích cấu tạo

cơ bản và chức năng của các đại phân tử sinh học Mục đích của chương này nhằm làm rõ các khái kiệm liên quan đến bài toán mà luận văn đề cập

Chương 2 giới thiệu mô hình CRFs đối với bài toán phân đoạn và gán nhãn Trước

khi trình bày định nghĩa và cấu tạo của mô hình CRFs chúng tôi đã trình bày ngắn gọn về các mô hình trước đó như mô hình Markov ẩn (HMM), mô hình Maximum Entropy Markov (MEMM) và hạn chế của các mô hình này

Chương 3 áp dụng mô hình CRFs vào bài toán dự đoán sự choán chỗ của

nucleosome và các trạng thái thay đổi của histone trong chuỗi DNA Phần đầu chương trình bày nội dung của bài toán, các yêu cầu cần đạt được Phần tiếp theo trình bày các nghiên cứu thực nghiệm và phần cuối trình bày cách chuyển từ dữ liệu thực nghiệm về dữ liệu có nhãn và áp dụng mô hình CRFs để huấn luyện và kiểm thử trên các tập dữ liệu đã chuẩn bị

Chương 4 trình bày các kết quả thu được sau khi áp dụng mô hình CRFs vào bài

toán đã mô tả trong chương 3 Trong chương này, chúng tôi cũng trình bày các nhận xét và đánh giá về các kết quả so với các nghiên cứu trước đây

Trang 12

TÀI LIỆU THAM KHẢO

Tiếng Việt

1 Hồ Huỳnh Thùy Dương (2003), Sinh học phân tử, NXB Giáo dục

2 Nguyễn Tiến Thắng, Nguyễn Đình Huyên (1998), Giáo trình sinh hóa

hiện đại, NXB Giáo dục

Tiếng Anh

3 Alberts B et al (2002), Molecular Biology of the CELL, 4th edition, Gerland Science Publishing

4 Ben B., Robert F., and et al (2000), “Genome-wide location and

function of DNA binding proteins”, Science, 290(500) , pp.2306-2309

5 Berger S.L (2002), “Histone modifications in transcriptional

regulation”, Curr Opin Genet Dev., (12), pp.142-148

6 Bernstein B.E., Humphrey E.L., Erlich R.L and Schreiber S.L (2002),

“Methylation of histone H3 Lys 4 in coding regions of active genes”,

Pro Natl Acad Sci USA

7 Bernstein B.E.,Liu C.L., Humphrey E.L and Schreuber S.L (2004),

“Global nucleosome occupancy in yeast”, Genome Biology, 5(9),R62

8 Boeger H., Griesenbeck J., Strattan J.S., and Kornberg R.D (2003),

“Nucleosomes unfold completely at a transcriptionally active

promoter”, Mol.Cell 11,pp.1587-1598

9 Culotta A, Kulp D and McCallum A (2005), “Gene Prediction with

Conditional Random Fields”, Techical Report IR-443, University of

Massachusetts

10 Darroch J and Ratcliff D (1972), “Generalized iterative scaling”, The

Annals of Mathematical Statistics, (43), pp.1470-1480

Trang 13

11 Deckert J and Struhl K (2001), “Histone acetylation at promoters is

differentially affected by specific activators and repressors”, Mol Cell

Biol.,( 21),pp 2726-2735

12 Della S., Della V., and Lafferty J (1997), “Inducing features of random

fields”, IEEE transaction on pattern analysis and machine intelligence

models, 19(4), pp 380-393

13 Feng Q., Wang H, Ng H.H., Tempst P., Struhl K., Zhang Y (2002),

“Methylation of H3-Lysine 79 is Mediated by a New Family of

HMTases without a SET Domain”, Current Biology, 12(2),

pp.1052-1058

14 Kouzarides T (2002), “Histone methylation in transcriptional control”,

Curr Opin Genet Dev., 12(2), pp.198-209

15 Kurdistani S.K., Tavazoie S., and Grunstein M (2004), “Mapping

global histone acetylation patterns to gene expression”, Cell, 117(6), pp.721-733

16 Lafferty L., McCallum A and Fereia F (2001), “Conditional Random Fields: Probabilistic Models for Segmenting and Labelling Seqence

Data”, Proc International Conference on Machine Learning

17 Lee C.K., Shibata Y., Rao B., Strahl B.D, and Lieb J.D (2004),

“Evidence for nucleosome depletion at active regulatory regions

genome-wide”, Nat Genet., 36(8), pp.900-905

18 Luger K., Mader A.W., Richmond R.K., Sargent D.F., and Richmond T.J (1997), “Crystal structure of the nucleosome core particle at 2.8 A

resolution”, Nature, 389(6648), pp.251-260

19 McCallum A (2003), “Efficiently Inducing Features of Conditional

Random Fields”, Proc Uncertainty in Artifical Intelligence

20 McCallum A and Pereira F (2000), “Maximum Entropy Markov

Models for Information Extraction and Segmentation”, Proc

International Conference on Machine Learning

21 Michael J.B.,Jason D.L.(2004), “ChIP-chip: Considerstions for the

Ngày đăng: 11/11/2016, 22:56

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w