CHƯƠNG 3: SỬ DỤNG MÔ HÌNH CRFs ĐỂ DỰ ĐOÁN SỰ CHIẾM CHỖ CỦA NUCLEOSOME VÀ TRẠNG THÁI THAY ĐỔI CỦA HISTONE TRONG CHUỖI DNA .... 4.1.1 Dự đoán sự choán chỗ của nucleosome và sự thay đổi trạ
Trang 1TRẦN ĐĂNG HƯNG
DỰ ĐOÁN VÀ PHÂN TÍCH CÁC TRẠNG THÁI CỦA HISTONE TRONG CHUỖI DNA BẰNG PHƯƠNG PHÁP CONDITIONAL RANDOM FIELDS
Chuyên ngành: Công Nghệ Thông Tin
Mã số: 1.01.10
LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC
GS.TSKH HỒ TÚ BẢO
Trang 2MỤC LỤC
MỤC LỤC 2
LỜI CẢM ƠN 5
DANH MỤC HÌNH VẼ 6
DANH MỤC BẢNG 7
DANH MỤC TỪ VIẾT TẮT 8
MỞ ĐẦU 9
CHƯƠNG 1: GIỚI THIỆU CHUNG Error! Bookmark not defined 1.1 Các khái niệm cơ bản Error! Bookmark not defined 1.1.1 Tin-sinh là gì? Error! Bookmark not defined 1.1.2 DNA(deoxyribonucleic acid) Error! Bookmark not defined 1.1.3 RNA(ribonucleic acid) Error! Bookmark not defined 1.1.4 Protein Error! Bookmark not defined 1.2 Nucleosome Error! Bookmark not defined 1.2.1 Nucleosome là gì? Error! Bookmark not defined 1.2.2 Sự choán chỗ của nucleosome trong chuỗi DNAError! Bookmark not defined.
1.2.3 Histone là gì? Error! Bookmark not defined 1.2.4 Trạng thái thay đổi của Histone Error! Bookmark not defined 1.3 Mục tiêu của luận văn Error! Bookmark not defined.
Trang 3CHƯƠNG 2: MÔ HÌNH CONDITIONAL RANDOM FIELDError! Bookmark not defined.
2.1 Giới thiệu Error! Bookmark not defined 2.2 Mô hình Markov ẩn Error! Bookmark not defined 2.2.1 Giới thiệu Error! Bookmark not defined 2.2.2 Bài toán gán nhãn cho dữ liệu chuỗi Error! Bookmark not defined 2.2.3 Hạn chế của mô hình Generative Error! Bookmark not defined 2.3 Mô hình Maximum Entropy Markov Error! Bookmark not defined 2.3.1 Giới thiệu Error! Bookmark not defined 2.3.2 Vấn đề Bias Error! Bookmark not defined 2.4 Mô hình Condition Random Field Error! Bookmark not defined 2.4.1 Mô hình đồ thị vô hướng Error! Bookmark not defined 2.4.2 Cấu trúc đồ thị của CRFs Error! Bookmark not defined 2.4.3 Nguyên lý Maximum Entropy Error! Bookmark not defined 2.4.4 Hàm khả năng cho CRFs Error! Bookmark not defined 2.4.5 Một số thuật toán ước lượng tham số cho CRFsError! Bookmark not defined.
CHƯƠNG 3: SỬ DỤNG MÔ HÌNH CRFs ĐỂ DỰ ĐOÁN SỰ CHIẾM CHỖ CỦA NUCLEOSOME VÀ TRẠNG THÁI THAY ĐỔI CỦA HISTONE TRONG
CHUỖI DNA Error! Bookmark not defined 3.1 Bài toán Error! Bookmark not defined 3.1.1 Giới thiệu Error! Bookmark not defined 3.1.2 Phương pháp thực nghiệm Error! Bookmark not defined 3.2 Dữ liệu Error! Bookmark not defined.
Trang 43.2.1 Dữ liệu thực nghiệm Error! Bookmark not defined 3.2.2 Chuyển dữ liệu thực nghiệm về dữ liệu có nhãnError! Bookmark not defined.
3.2.3 Huấn luyện và kiểm thử với mô hình CRFs trên dữ liệu đã chuẩn bị
Error! Bookmark not defined CHƯƠNG 4: KẾT QUẢ VÀ THẢO LUẬN Error! Bookmark not defined 4.1 Kết quả Error! Bookmark not defined.
4.1.1 Dự đoán sự choán chỗ của nucleosome và sự thay đổi trạng thái của
histone trong chuỗi DNA Error! Bookmark not defined.
4.1.2 Tìm các vùng trên chuỗi DNA ảnh hưởng đến mức độ trạng thái khác
nhau của Histone Error! Bookmark not defined 4.2 Thảo luận Error! Bookmark not defined 4.2.1 Dự đoán sự choán chỗ và các trạng thái thay đổi của histone Error! Bookmark not defined.
4.2.2 Phân tích các vùng hữu ích của chuỗi DNA ảnh hưởng đến các tính chất
của histone Error! Bookmark not defined KẾT LUẬN Error! Bookmark not defined 5.1 Nội dung của luận văn Error! Bookmark not defined 5.1.1 Các kết quả đạt được Error! Bookmark not defined 5.1.2 Một số hạn chế cần khắc phục Error! Bookmark not defined 5.2 Công việc tiếp theo Error! Bookmark not defined PUBLICATION Error! Bookmark not defined.
TÀI LIỆU THAM KHẢO 11
Trang 5LỜI CẢM ƠN
Vui mừng khi hoàn thành luận văn, tôi không quên công ơn của các thầy cô, bạn bè đồng nghiệp và gia đình, những người đã dạy bảo và ủng hộ tôi trong suốt quá trình học tập
Trước hết tôi muốn gửi lời cảm ơn đến các thầy cô giáo ở trường Đại học Công Nghệ, Đại học Quốc gia Hà Nội và Viện Công nghệ thông tin đã quan tâm tổ chức chỉ đạo và trực tiếp giảng dạy khóa cao học của chúng tôi Đặc biệt tôi xin gửi lời cảm ơn sâu sắc đến thầy giáo hướng dẫn GS.TSKH Hồ Tú Bảo, người đã tận tình chỉ bảo và góp ý về chuyên môn cho tôi trong suốt quá trình làm luận văn Ngoài
ra, bằng sự giúp đỡ của thầy tôi đã có cơ hội được thực tập sinh 1 năm tại Viện Khoa học và Công nghệ tiên tiến Nhật Bản (JAIST), nơi mà tôi được tiếp cận với môi trường nghiên cứu hiện đại và đầy đủ điều kiện để hoàn thành luận văn Đồng thời tôi cũng muốn gửi lời cảm ơn đến người thầy giáo cũ của tôi, TS Phạm Thọ Hoàn, người đã hết sức giúp đỡ tôi cả về chuyên môn và cuộc sống trong những năm vừa qua Tôi cũng xin chân thành cảm ơn GS Kenji Satou, một chuyên gia trong lĩnh vực Tin-sinh học của JAIST, đã cho tôi những góp ý quý báu trong thời gian thực tập sinh ở JAIST
Cũng qua đây, tôi xin chân thành cảm ơn lãnh đạo khoa Công nghệ Thông tin và lãnh đạo trường Đại học Sư phạm Hà nội, nơi tôi công tác, đã tạo mọi điệu kiện thuận lợi cho tôi trong thời gian làm nghiên cứu ở nước ngoài
Cuối cùng, tôi xin cảm ơn bố mẹ, vợ và con trai, những người đã luôn ủng hộ và động viên để tôi yên tâm nghiên cứu và hoàn thành luận văn
Tuy nhiên, do bản thân mới bắt đầu trên con đường nghiên cứu khoa học đầy thách thức, chắc chắn bản luận văn vẫn còn nhiều thiếu sót Rất mong được nhận được sự góp ý của các thầy cô và đồng nghiệp
Trang 6DANH MỤC HÌNH VẼ
Hình 1 Cấu trúc xoắn kép của DNA 12
Hình 2 Một phân tử tRNA 14
Hình 3 Các dạng cấu trúc của protein 15
Hình 4 Cấu tạo của nucleosome 16
Hình 5 Cấu trúc đóng gói của chuỗi DNA tạo thành một nhiễm sắc thể 17
Hình 6 Các nucleosome liên tiếp nhau được nối bởi linker DNA 18
Hình 7 Cấu tạo của histone octamer 19
Hình 8 Các protein có trong nhân histone 20
Hình 9 Cấu trúc chi tiết của nhân histone 20
Hình 10 Các vị trí trên đuôi của các histone có thể đính thêm các nhóm chức 22
Hình 11 Cấu trúc đồ thị của HMM bậc 1 Error! Bookmark not defined Hình 12 Cấu trúc đồ thị của mô hình MEMM bậc 1.Error! Bookmark not defined Hình 13 Một ví dụ về vấn đề bias Error! Bookmark not defined Hình 14 Cấu trúc đồ thị của CRFs cho trường hợp chuỗi.Error! Bookmark not defined.
Hình 15 Lược đồ của phương pháp ChIP-chip [21] Error! Bookmark not defined Hình 16 Chuyển dữ liệu định lượng về dữ liệu định tính.Error! Bookmark not defined.
Hình 17 Tạo dữ liệu có nhãn từ dữ liệu gene của loài Yeast và dữ liệu định tính
Error! Bookmark not defined Hình 18 Biểu diễn dãy DNA dưới dạng vector (với k = 3).Error! Bookmark not defined.
Trang 7Hình 19 Dữ liệu đã có nhãn Gồm vector biểu diễn chuỗi DNA và nhãn tương ứng
Error! Bookmark not defined.
Hình 20 Biểu diễn gene thành chuỗi quan sát p1,p2,p3,p4 là các vị trí được đo trên gene x1, x2, x3, x4 là các quan sát biểu diễn các đoạn DNA chứa các vị trí tương
ứng Error! Bookmark not defined.
DANH MỤC BẢNG
Bảng 1 Một số kiểu trạng thái của histone Chữ cái trong ngoặc là kí hiệu thay cho
amino acid tương ứng Error! Bookmark not defined Bảng 2 Một số vị trí thay đổi trạng thái của histone đã biết.Error! Bookmark not defined.
Bảng 3 Danh sách kháng thể [27] Error! Bookmark not defined Bảng 4 Các trường trong file dữ liệu thực nghiệm Error! Bookmark not defined Bảng 5 Dữ liệu thực nghiệm [27] Error! Bookmark not defined Bảng 6 Các tập dữ liệu về sự choán chỗ của histone, sự acetyl hóa Error! Bookmark not defined.
Bảng 7 Kết quả dự đoán khả năng choán chỗ, acetyl hóa, methyl hóa của histone,
với kích thước của cửa sổ k = 4, k = 5 và k = 6 Error! Bookmark not defined.
Bảng 8 Kết quả dự đoán khả năng choán chỗ, acetyl hóa, methyl hóa của histone,
với kích thước của cửa sổ k = 7; k = 4,5 và k = 5,6 Error! Bookmark not defined.
Bảng 9 Một số feature hữu ích cho lớp positive được chọn từ mô hình CRFs, trong trường hợp k = 4 và k = 5 T.số: là trọng số của feature tương ứng sau khi huấn
luyện mô hình CRFs Error! Bookmark not defined.
Trang 8Bảng 10 Một số feature hữu ích cho lớp negative được chọn từ mô hình CRFs, trong trường hợp k = 4 và k = 5 T.số: là trọng số của feature tương ứng sau khi
huấn luyện mô hình CRFs Error! Bookmark not defined.
Trang 9DANH MỤC TỪ VIẾT TẮT
Trang 10MỞ ĐẦU
Trong một vài thập niên gần đây bài toán khai phá dữ liệu đã trở thành một trong những hướng nghiên cứu quan trọng trong lĩnh vực khoa học máy tính và trí tuệ nhân tạo Điều này dễ hiểu vì khối lượng dữ liệu mà con người có là rất lớn nhưng việc tìm ra dữ liệu có ích lại là vấn đề khó Trước đây người ta thường dùng các phương pháp thực nghiệm và kinh nghiệm của con người để rút ra các tri thức
có nghĩa trong khối lượng dữ liệu khổng lồ Có rất nhiều các nghiên cứu và đề xuất được ứng dụng trong đời sống khẳng định đây là hướng nghiên cứu bền lâu và có ý nghĩa thực tiễn rất lớn
Khai phá dữ liệu được hiểu một cách đơn giản là từ những dữ liệu đang có, bằng các phương pháp tính toán khoa học trích rút ra các dữ liệu có ích đối với con người Các kỹ thuật chính được áp dụng chính trong lĩnh vực này được kế thừa từ nhiều lĩnh vực khác nhau như: Cơ sở dữ liệu, học máy (machine learning), trí tuệ nhân tạo (artificial intelligence), lý thuyết thông tin (information theory), và xác suất thống kê (probability and statistics) Cho đến nay, các phương pháp khai phá
dữ liệu đã được áp dụng trong nhiều lĩnh vực khác nhau như xử lý ngôn ngữ tự nhiên, xử lý tiếng nói, tin-sinh học, …
Dữ liệu sinh học trên thế giới ngày càng nhiều và đa dạng, việc phân tích và
xử lý khối dữ liệu khổng lồ đó cần phải sử dụng đến các công cụ khai phá dữ liệu hiệu quả Vì thế, trong mấy thập niên gần đây xuất hiện một ngành khoa học mới có tên là tin-sinh học Dù mới ra đời nhưng tin-sinh học có một vai trò quan trọng trong cuộc sống, như hỗ trợ việc chẩn đoán bệnh tật, tìm ra các mối quan hệ di truyền giữa các loài sinh vật hay phát hiện ra chức năng của các đại phân tử trong sinh học phân tử,…
Trong khi tìm hiểu các bài toán trong lĩnh vực tin-sinh học, chúng tôi đã phát hiện ra vị trí, cấu tạo và trạng thái của các histone trong chuỗi DNA ảnh hưởng đến các tiến trình sinh học trong tế bào Đã có nhiều các nghiên cứu trước đây nghiên
Trang 11cứu vấn đề này, nhưng đều là các nghiên cứu thực nghiệm Trong luận văn này, chúng tôi áp dụng một phương pháp tính toán để dự đoán sự choán chỗ của nucleosome và các trạng thái thay đổi của nó trong chuỗi DNA Chúng tôi đã sử dụng mô hình Conditional Random Fields (CRFs), một mô hình xác suất điều kiện được đánh giá là hiệu quả trong nhiều lĩnh vực khác nhau Ngoài ra, dựa vào mô hình này, chúng tôi còn phân tích được nhiều đặc trưng quan trọng của chuỗi DNA liên quan đến các dấu hiệu của quá trình thể hiện gene
Ngoài phần mở đầu và kết luận, luận văn được chia làm 4 chương, cụ thể nội dung các chương như sau:
Chương 1 trình bày các khái niệm chung của sinh học phân tử Giải thích cấu tạo
cơ bản và chức năng của các đại phân tử sinh học Mục đích của chương này nhằm làm rõ các khái kiệm liên quan đến bài toán mà luận văn đề cập
Chương 2 giới thiệu mô hình CRFs đối với bài toán phân đoạn và gán nhãn Trước
khi trình bày định nghĩa và cấu tạo của mô hình CRFs chúng tôi đã trình bày ngắn gọn về các mô hình trước đó như mô hình Markov ẩn (HMM), mô hình Maximum Entropy Markov (MEMM) và hạn chế của các mô hình này
Chương 3 áp dụng mô hình CRFs vào bài toán dự đoán sự choán chỗ của
nucleosome và các trạng thái thay đổi của histone trong chuỗi DNA Phần đầu chương trình bày nội dung của bài toán, các yêu cầu cần đạt được Phần tiếp theo trình bày các nghiên cứu thực nghiệm và phần cuối trình bày cách chuyển từ dữ liệu thực nghiệm về dữ liệu có nhãn và áp dụng mô hình CRFs để huấn luyện và kiểm thử trên các tập dữ liệu đã chuẩn bị
Chương 4 trình bày các kết quả thu được sau khi áp dụng mô hình CRFs vào bài
toán đã mô tả trong chương 3 Trong chương này, chúng tôi cũng trình bày các nhận xét và đánh giá về các kết quả so với các nghiên cứu trước đây
Trang 12TÀI LIỆU THAM KHẢO
Tiếng Việt
1 Hồ Huỳnh Thùy Dương (2003), Sinh học phân tử, NXB Giáo dục
2 Nguyễn Tiến Thắng, Nguyễn Đình Huyên (1998), Giáo trình sinh hóa
hiện đại, NXB Giáo dục
Tiếng Anh
3 Alberts B et al (2002), Molecular Biology of the CELL, 4th edition, Gerland Science Publishing
4 Ben B., Robert F., and et al (2000), “Genome-wide location and
function of DNA binding proteins”, Science, 290(500) , pp.2306-2309
5 Berger S.L (2002), “Histone modifications in transcriptional
regulation”, Curr Opin Genet Dev., (12), pp.142-148
6 Bernstein B.E., Humphrey E.L., Erlich R.L and Schreiber S.L (2002),
“Methylation of histone H3 Lys 4 in coding regions of active genes”,
Pro Natl Acad Sci USA
7 Bernstein B.E.,Liu C.L., Humphrey E.L and Schreuber S.L (2004),
“Global nucleosome occupancy in yeast”, Genome Biology, 5(9),R62
8 Boeger H., Griesenbeck J., Strattan J.S., and Kornberg R.D (2003),
“Nucleosomes unfold completely at a transcriptionally active
promoter”, Mol.Cell 11,pp.1587-1598
9 Culotta A, Kulp D and McCallum A (2005), “Gene Prediction with
Conditional Random Fields”, Techical Report IR-443, University of
Massachusetts
10 Darroch J and Ratcliff D (1972), “Generalized iterative scaling”, The
Annals of Mathematical Statistics, (43), pp.1470-1480
Trang 1311 Deckert J and Struhl K (2001), “Histone acetylation at promoters is
differentially affected by specific activators and repressors”, Mol Cell
Biol.,( 21),pp 2726-2735
12 Della S., Della V., and Lafferty J (1997), “Inducing features of random
fields”, IEEE transaction on pattern analysis and machine intelligence
models, 19(4), pp 380-393
13 Feng Q., Wang H, Ng H.H., Tempst P., Struhl K., Zhang Y (2002),
“Methylation of H3-Lysine 79 is Mediated by a New Family of
HMTases without a SET Domain”, Current Biology, 12(2),
pp.1052-1058
14 Kouzarides T (2002), “Histone methylation in transcriptional control”,
Curr Opin Genet Dev., 12(2), pp.198-209
15 Kurdistani S.K., Tavazoie S., and Grunstein M (2004), “Mapping
global histone acetylation patterns to gene expression”, Cell, 117(6), pp.721-733
16 Lafferty L., McCallum A and Fereia F (2001), “Conditional Random Fields: Probabilistic Models for Segmenting and Labelling Seqence
Data”, Proc International Conference on Machine Learning
17 Lee C.K., Shibata Y., Rao B., Strahl B.D, and Lieb J.D (2004),
“Evidence for nucleosome depletion at active regulatory regions
genome-wide”, Nat Genet., 36(8), pp.900-905
18 Luger K., Mader A.W., Richmond R.K., Sargent D.F., and Richmond T.J (1997), “Crystal structure of the nucleosome core particle at 2.8 A
resolution”, Nature, 389(6648), pp.251-260
19 McCallum A (2003), “Efficiently Inducing Features of Conditional
Random Fields”, Proc Uncertainty in Artifical Intelligence
20 McCallum A and Pereira F (2000), “Maximum Entropy Markov
Models for Information Extraction and Segmentation”, Proc
International Conference on Machine Learning
21 Michael J.B.,Jason D.L.(2004), “ChIP-chip: Considerstions for the