2 Tìm ra các đặc trưng quan trọng của chuỗi DNA liên quan đến các vị trí mà tại đó sự choán chỗ của histone và trạng thái thay đổi của histone ở mức cao và mức thấp bằng cách dựa vào trọ
Trang 1MỤC LỤC
MỤC LỤC 2
LỜI CẢM ƠN 5
DANH MỤC HÌNH VẼ 6
DANH MỤC BẢNG 7
DANH MỤC TỪ VIẾT TẮT 8
MỞ ĐẦU 9
CHƯƠNG I : GIỚI THIỆU CHUNG 11
1.1 Các khái niệm cơ bản 11
1.1.1 Tin-sinh là gì? 11
1.1.2 DNA(deoxyribonucleic acid) 12
1.1.3 RNA(ribonucleic acid) 13
1.1.4 Protein 14
1.2 Nucleosome 15
1.2.1 Nucleosome là gì? 15
1.2.2 Sự choán chỗ của nucleosome trong chuỗi DNA 18
1.2.3 Histone là gì? 19
1.2.4 Trạng thái thay đổi của Histone .21
1.3 Mục tiêu của luận văn 23
Trang 22.2 Mô hình Markov ẩn 26
2.2.1 Giới thiệu 26
2.2.2 Bài toán gán nhãn cho dữ liệu chuỗi 27
2.2.3 Hạn chế của mô hình Generative 28
2.3 Mô hình Maximum Entropy Markov 29
2.3.1 Giới thiệu 29
2.3.2 Vấn đề Bias 31
2.4 Mô hình Condition Random Field 33
2.4.1 Mô hình đồ thị vô hướng 33
2.4.2 Cấu trúc đồ thị của CRFs 34
2.4.3 Nguyên lý Maximum Entropy 35
2.4.4 Hàm khả năng cho CRFs 37
2.4.5 Một số thuật toán ước lượng tham số cho CRFs 38
CHƯƠNG III : SỬ DỤNG MÔ HÌNH CRFs ĐỂ DỰ ĐOÁN SỰ CHIẾM CHỖ CỦA NUCLEOSOME VÀ TRẠNG THÁI THAY ĐỔI CỦA HISTONE TRONG CHUỖI DNA 44
3.1 Bài toán 44
3.1.1 Giới thiệu 44
3.1.2 Phương pháp thực nghiệm 49
3.2 Dữ liệu 52
3.2.1 Dữ liệu thực nghiệm 52
3.2.2 Chuyển dữ liệu thực nghiệm về dữ liệu có nhãn 55
3.2.3 Huấn luyện và kiểm thử với mô hình CRFs trên dữ liệu đã chuẩn bị 60
CHƯƠNG IV: KẾT QUẢ VÀ THẢO LUẬN 63
Trang 34.1 Kết quả 63
4.1.1 Dự đoán sự choán chỗ của nucleosome và sự thay đổi trạng thái của histone trong chuỗi DNA 63
4.1.2 Tìm các vùng trên chuỗi DNA ảnh hưởng đến mức độ trạng thái khác nhau của Histone 66
4.2 Thảo luận 69
4.2.1 Dự đoán sự choán chỗ và các trạng thái thay đổi của histone .69
4.2.2 Phân tích các vùng hữu ích của chuỗi DNA ảnh hưởng đến các tính chất của histone 70
KẾT LUẬN 71
5.1 Nội dung của luận văn 71
5.1.1 Các kết quả đạt được 71
5.1.2 Một số hạn chế cần khắc phục .72
5.2 Công việc tiếp theo 72
PUBLICATION 74
TÀI LIỆU THAM KHẢO 75
Trang 4LỜI CẢM ƠN
Vui mừng khi hoàn thành luận văn, tôi không quên công ơn của các thầy cô, bạn bè đồng nghiệp và gia đình, những người đã dạy bảo và ủng hộ tôi trong suốt quá trình học tập
Trước hết tôi muốn gửi lời cảm ơn đến các thầy cô giáo ở trường Đại học Công Nghệ, Đại học Quốc gia Hà Nội và Viện Công nghệ thông tin đã quan tâm tổ chức chỉ đạo và trực tiếp giảng dạy khóa cao học của chúng tôi Đặc biệt tôi xin gửi lời cảm ơn sâu sắc đến thầy giáo hướng dẫn GS.TSKH Hồ Tú Bảo, người đã tận tình chỉ bảo và góp ý về chuyên môn cho tôi trong suốt quá trình làm luận văn Ngoài
ra, bằng sự giúp đỡ của thầy tôi đã có cơ hội được thực tập sinh 1 năm tại Viện Khoa học và Công nghệ tiên tiến Nhật Bản (JAIST), nơi mà tôi được tiếp cận với môi trường nghiên cứu hiện đại và đầy đủ điều kiện để hoàn thành luận văn Đồng thời tôi cũng muốn gửi lời cảm ơn đến người thầy giáo cũ của tôi, TS Phạm Thọ Hoàn, người đã hết sức giúp đỡ tôi cả về chuyên môn và cuộc sống trong những năm vừa qua Tôi cũng xin chân thành cảm ơn GS Kenji Satou, một chuyên gia trong lĩnh vực Tin-sinh học của JAIST, đã cho tôi những góp ý quý báu trong thời gian thực tập sinh ở JAIST
Cũng qua đây, tôi xin chân thành cảm ơn lãnh đạo khoa Công nghệ Thông tin và lãnh đạo trường Đại học Sư phạm Hà nội, nơi tôi công tác, đã tạo mọi điệu kiện thuận lợi cho tôi trong thời gian làm nghiên cứu ở nước ngoài
Cuối cùng, tôi xin cảm ơn bố mẹ, vợ và con trai, những người đã luôn ủng hộ và động viên để tôi yên tâm nghiên cứu và hoàn thành luận văn
Tuy nhiên, do bản thân mới bắt đầu trên con đường nghiên cứu khoa học đầy thách thức, chắc chắn bản luận văn vẫn còn nhiều thiếu sót Rất mong được nhận được sự góp ý của các thầy cô và đồng nghiệp
Trang 5DANH MỤC HÌNH VẼ
Hình 1 Cấu trúc xoắn kép của DNA 12
Hình 2 Một phân tử tRNA 14
Hình 3 Các dạng cấu trúc của protein 15
Hình 4 Cấu tạo của nucleosome 16
Hình 5 Cấu trúc đóng gói của chuỗi DNA tạo thành một nhiễm sắc thể 17
Hình 6 Các nucleosome liên tiếp nhau được nối bởi linker DNA 18
Hình 7 Cấu tạo của histone octamer 19
Hình 8 Các protein có trong nhân histone 20
Hình 9 Cấu trúc chi tiết của nhân histone 20
Hình 10 Các vị trí trên đuôi của các histone có thể đính thêm các nhóm chức 22
Hình 11 Cấu trúc đồ thị của HMM bậc 1 27
Hình 12 Cấu trúc đồ thị của mô hình MEMM bậc 1 .30
Hình 13 Một ví dụ về vấn đề bias .31
Hình 14 Cấu trúc đồ thị của CRFs cho trường hợp chuỗi 35
Hình 15 Lược đồ của phương pháp ChIP-chip [21] .51
Hình 16 Chuyển dữ liệu định lượng về dữ liệu định tính .56
Hình 17 Tạo dữ liệu có nhãn từ dữ liệu gene của loài Yeast và dữ liệu định tính 57
Hình 18 Biểu diễn dãy DNA dưới dạng vector (với k = 3) .58 Hình 19 Dữ liệu đã có nhãn Gồm vector biểu diễn chuỗi DNA và nhãn tương ứng
Trang 6Hình 20 Biểu diễn gene thành chuỗi quan sát p1,p2,p3,p4 là các vị trí được đo trên
ứng 60
DANH MỤC BẢNG Bảng 1 Một số kiểu trạng thái của histone Chữ cái trong ngoặc là kí hiệu thay cho amino acid tương ứng 46
Bảng 2 Một số vị trí thay đổi trạng thái của histone đã biết .47
Bảng 3 Danh sách kháng thể [27] .53
Bảng 4 Các trường trong file dữ liệu thực nghiệm .54
Bảng 5 Dữ liệu thực nghiệm [27] .55
Bảng 6 Các tập dữ liệu về sự choán chỗ của histone, sự acetyl hóa 60
Bảng 7 Kết quả dự đoán khả năng choán chỗ, acetyl hóa, methyl hóa của histone, với kích thước của cửa sổ k = 4, k = 5 và k = 6 .65
Bảng 8 Kết quả dự đoán khả năng choán chỗ, acetyl hóa, methyl hóa của histone, với kích thước của cửa sổ k = 7; k = 4,5 và k = 5,6 65
Bảng 9 Một số feature hữu ích cho lớp positive được chọn từ mô hình CRFs, trong trường hợp k = 4 và k = 5 T.số: là trọng số của feature tương ứng sau khi huấn luyện mô hình CRFs 68
Bảng 10 Một số feature hữu ích cho lớp negative được chọn từ mô hình CRFs, trong trường hợp k = 4 và k = 5 T.số: là trọng số của feature tương ứng sau khi huấn luyện mô hình CRFs 69
Trang 7DANH MỤC TỪ VIẾT TẮT
Trang 8MỞ ĐẦU
Trong một vài thập niên gần đây bài toán khai phá dữ liệu đã trở thành một trong những hướng nghiên cứu quan trọng trong lĩnh vực khoa học máy tính và trí tuệ nhân tạo Điều này dễ hiểu vì khối lượng dữ liệu mà con người có là rất lớn nhưng việc tìm ra dữ liệu có ích lại là vấn đề khó Trước đây người ta thường dùng các phương pháp thực nghiệm và kinh nghiệm của con người để rút ra các tri thức
có nghĩa trong khối lượng dữ liệu khổng lồ Có rất nhiều các nghiên cứu và đề xuất được ứng dụng trong đời sống khẳng định đây là hướng nghiên cứu bền lâu và có ý nghĩa thực tiễn rất lớn
Khai phá dữ liệu được hiểu một cách đơn giản là từ những dữ liệu đang có, bằng các phương pháp tính toán khoa học trích rút ra các dữ liệu có ích đối với con người Các kỹ thuật chính được áp dụng chính trong lĩnh vực này được kế thừa từ nhiều lĩnh vực khác nhau như: Cơ sở dữ liệu, học máy (machine learning), trí tuệ nhân tạo (artificial intelligence), lý thuyết thông tin (information theory), và xác suất thống kê (probability and statistics) Cho đến nay, các phương pháp khai phá
dữ liệu đã được áp dụng trong nhiều lĩnh vực khác nhau như xử lý ngôn ngữ tự nhiên, xử lý tiếng nói, tin-sinh học, …
Dữ liệu sinh học trên thế giới ngày càng nhiều và đa dạng, việc phân tích và
xử lý khối dữ liệu khổng lồ đó cần phải sử dụng đến các công cụ khai phá dữ liệu hiệu quả Vì thế, trong mấy thập niên gần đây xuất hiện một ngành khoa học mới có tên là tin-sinh học Dù mới ra đời nhưng tin-sinh học có một vai trò quan trọng trong cuộc sống, như hỗ trợ việc chẩn đoán bệnh tật, tìm ra các mối quan hệ di truyền giữa các loài sinh vật hay phát hiện ra chức năng của các đại phân tử trong sinh học phân tử,…
Trong khi tìm hiểu các bài toán trong lĩnh vực tin-sinh học, chúng tôi đã phát hiện ra vị trí, cấu tạo và trạng thái của các histone trong chuỗi DNA ảnh hưởng đến các tiến trình sinh học trong tế bào Đã có nhiều các nghiên cứu trước đây nghiên
Trang 9cứu vấn đề này, nhưng đều là các nghiên cứu thực nghiệm Trong luận văn này, chúng tôi áp dụng một phương pháp tính toán để dự đoán sự choán chỗ của nucleosome và các trạng thái thay đổi của nó trong chuỗi DNA Chúng tôi đã sử dụng mô hình Conditional Random Fields (CRFs), một mô hình xác suất điều kiện được đánh giá là hiệu quả trong nhiều lĩnh vực khác nhau Ngoài ra, dựa vào mô hình này, chúng tôi còn phân tích được nhiều đặc trưng quan trọng của chuỗi DNA liên quan đến các dấu hiệu của quá trình thể hiện gene
dung các chương như sau:
Chương I trình bày các khái niệm chung của sinh học phân tử Giải thích cấu tạo cơ
bản và chức năng của các đại phân tử sinh học Mục đích của chương này nhằm làm
rõ các khái kiệm liên quan đến bài toán mà luận văn đề cập
Chương II giới thiệu mô hình CRFs đối với bài toán phân đoạn và gán nhãn Trước
khi trình bày định nghĩa và cấu tạo của mô hình CRFs chúng tôi đã trình bày ngắn gọn về các mô hình trước đó như mô hình Markov ẩn (HMM), mô hình Maximum Entropy Markov (MEMM) và hạn chế của các mô hình này
Chương III áp dụng mô hình CRFs vào bài toán dự đoán sự choán chỗ của
nucleosome và các trạng thái thay đổi của histone trong chuỗi DNA Phần đầu chương trình bày nội dung của bài toán, các yêu cầu cần đạt được Phần tiếp theo trình bày các nghiên cứu thực nghiệm và phần cuối trình bày cách chuyển từ dữ liệu thực nghiệm về dữ liệu có nhãn và áp dụng mô hình CRFs để huấn luyện và kiểm thử trên các tập dữ liệu đã chuẩn bị
Chương IV trình bày các kết quả thu được sau khi áp dụng mô hình CRFs vào bài
toán đã mô tả trong chương III Trong chương này, chúng tôi cũng trình bày các nhận xét và đánh giá về các kết quả so với các nghiên cứu trước đây
Trang 10CHƯƠNG I : GIỚI THIỆU CHUNG
Các đại phân tử sinh học như DNA, RNA, protein, và tương tác giữa chúng là đối tượng nghiên cứu cơ bản của sinh học phân tử Việc xác định được cấu tạo và chức năng của chúng sẽ giúp chúng ta hiểu được các cơ chế diễn ra trong tế bào, cũng như sự di truyền các đặc tính từ đời này sang đời khác Mục đích của chương là cung cấp một số khái niệm cơ bản trong sinh học phân tử và chức năng của chúng
1.1 Các khái niệm cơ bản
1.1.1 Tin-sinh là gì?
Tin-sinh (bioinformatics) là một ngành khoa học liên ngành, bao gồm sinh học, toán học và tin học Đối tượng nghiên cứu chính của tin-sinh là các đại phân tử sinh học và các tiến trình sinh học giữa chúng Nhiệm vụ của các nhà nghiên cứu trong lĩnh vực tin-sinh là xây dựng và phát triển các thụât toán, chương trình nhằm
mô phỏng các tiến trình sinh hóa và phân tích dữ liệu của sinh học phân tử
Các đại phân tử sinh học là protein, nucleic acid, lipid và polysaccaride, trong
đó quan trọng hơn cả là nucleic acid lưu trữ thông tin di truyền và protein - biểu hiện của vật chất sống Protein được hình thành từ 20 loại amino acid, có cấu trúc không gian đặc trưng Chức năng của protein rất đa dạng: tham gia vào cấu tạo tế bào, xúc tác các phản ứng chuyển hóa, nhận biết các phân tử lạ, tham gia vào các quá trình sống như actin và myosin trong sự vận động cơ Nucleic acid được hình thành từ 4 loại nucleotide (adenine, thymine, cytosine, và guanine) và gồm hai loại: DNA và RNA Phân tử DNA là một chuối xoắn kép do sự kết hợp của hai mạch bổ sung RNA là một phân tử mạch đơn, gồm ba loại: mRNA mang thông tin mã hóa cho protein, rRNA là một thành phần của ribosome và tRNA tham gia vào quá trình dịch mã Trong phần này chúng tôi giới thiệu tổng quan về một số đối tượng nghiên cứu của tin-sinh
Trang 111.1.2 DNA(deoxyribonucleic acid)
Phân tử DNA là một chuỗi xoắn kép gồm hai mạch đơn, mỗi mạch đơn là một chuỗi nucleotide Mỗi nucleotide gồm có nhóm phosphate, đường desoxyribose và một trong bốn base (adenine - A, cytosine - C, guanine - G và thymine - T) Hai mạch đơn kết hợp với nhau nhờ các liên kết hydro hình thành giữa các base bổ sung nằm trên hai mạch A bổ sung cho T và C bổ sung cho G Mỗi mạch đơn là một trình tự có định hướng với một đầu là 5’phosphate tự do, đầu kia là đầu 3’hydroxyl
tự do (hướng quy ước là 5’->3’) Hướng mạch đơn của hai chuỗi xoắn kép là ngược nhau, người ta gọi chúng là hai mạch đối song song Mỗi mạch đơn có một trình tự những base khác nhau, như vậy mỗi mạch đơn mang thông tin khác với mạch kia Hai mạch đơn liên kết với nhau bởi một quan hệ bổ sung Quan hệ này giải thích được cấu trúc chặt chẽ của phân tử DNA và đặc biệt là phương cách tự sao chép để tạo ra hai phân tử con từ một phân tử mẹ Hình 1 chỉ ra cấu trúc của nucleotide và cấu trúc xoắn kép của chuỗi DNA
Hình 1 Cấu trúc xoắn kép của DNA Cấu trúc xoắn kép của DNA được phát hiện năm 1953 bởi James Watson và Francis Crick Chuỗi DNA được tạo thành từ 4 loại nucleotide liên kết với nhau tạo thành chuỗi polynucleotide Mỗi sợi DNA gồm 2 sợi đơn (strand) bổ sung cho nhau bằng các liên kết hydro giữa các cặp base
Trang 12mã hóa trong DNA cũng sẽ được biểu hiện thông qua cơ chế phiên mã (transcription) tạo thành RNA và sau đó RNA được dịch mã (translation) thành protein Sự biến đổi của vật chất di truyền trong cả ba quá trình sao chép (replication), phiên mã và dịch mã chính là nguồn gốc của sự tiến hóa và tính đa dạng của các loài sinh vật
Phân tử DNA trong nhiễm sắc thể (chromosome) của sinh vật eucaryote có dạng thẳng, còn ở phần lớn tế bào procaryote phân tử này có dạng vòng Tuy nhiên
dù ở dạng nào thì các DNA đều ở dạng cuộn chặt DNA của eucaryote có kích thước rất lớn (ví dụ: ở người DNA có thể dài đến 1m) mà DNA lại nằm trong nhân của tế bào với kích thước rất nhỏ, nên các chuỗi DNA được nén với nhiều mức độ khác nhau, mức độ thấp nhất là nucleosome và mức độ cao nhất là nhiễm sắc chất (chromatin)
1.1.3 RNA(ribonucleic acid)
Phân tử RNA có cấu trúc giống với DNA nhưng có một số điểm khác biệt so với DNA Phân tử RNA luôn là chuỗi đơn, vẫn có 4 loại base như DNA nhưng T được thay thế bằng U (uracil) Trong tế bào có 3 loại RNA chính, với các vai trò khác nhau
RNA thông tin (mRNA) là bản sao của những trình tự nhất định trên phân tử DNA đóng vai trò trung gian chuyển thông tin mã hóa trên phân tử DNA đến bộ máy giải mã thành phân tử protein tương ứng Các mRNA có cấu trúc đa dạng, kích thước nhỏ hơn so với DNA vì chỉ chứa thông tin mã hóa cho một hoặc vài protein, mRNA chiếm khoảng 2-5% tổng số RNA trong tế bào
RNA vận chuyển (tRNA) đóng vai trò vận chuyển các amino acid cần thiết đến bộ máy dịch mã để tổng hợp protein từ mRNA tương ứng Các tRNA có cấu trúc ổn định nhờ các liên kết bổ sung có ở nhiều vùng của phân tử tRNA Hai vị trí không có liên kết bổ sung đóng vai trò đặc biệt quan trọng đối với chức năng của tRNA Một là tình tự anticodon gồm 3 nucleotide bổ sung cho codon (tức bộ ba
Trang 13nucleotide mã hóa trên mRNA) Hai là trình tự CCA có khả năng nối cộng hóa trị với một amino acid đặc trưng (hình 2)
Ribosome RNA (rRNA) chiếm đến 80% tổng số RNA của tế bào Các rRNA kết hợp với các protein chuyên biệt tạo thành ribosome (một thành phần của bộ máy dịch mã của tế bào) Ribosome của mọi tế bào đều gồm một tiểu đơn vị nhỏ và một tiểu đơn vị lớn, mỗi tiểu đơn vị có mang nhiều protein và rRNA
1.1.4 Protein
Amino acid là đơn vị cơ sở cấu thành protein, có khoảng 20 loại amino acid chính tham gia xây dựng thành protein Các amino acid được nối với nhau bởi các liên kết peptide Liên kết này được hình thành do sự kết hợp nhóm amine của một amino acid với nhóm carboxyl của amino acid kế tiếp Peptide là một chuỗi nối tiếp nhiều amino acid (nhỏ hơn 30), còn với số lượng lớn hơn thì gọi là polypeptide Từ
"protein" được dùng để chỉ một cấu trúc phức tạp trong không gian chứ không chỉ đơn thuần là trình tự các amino acid Protein có bốn mức độ tổ chức: Cấu trúc bậc 1 (primary protein structure): là trình tự sắp xếp các amino acid trong chuỗi polypeptide Cấu trúc bậc 2 (secondary protein structure): phát sinh từ việc uốn các
Hình 2 Một phân tử tRNA (A) Cấu trúc dạng cỏ ba lá (B,C) Góc nhìn thực khi sử dụng phân tích nhiễu xạ tia x (D) Chuỗi nucleotide dạng thẳng của phân tử tRNA
Trang 14gian Cấu trúc bậc 4 (quarternary protein structure): là sự tổ chức nhiều chuỗi polypeptide thành một phân tử protein
Protein có vai trò rất lớn đối với cơ thể sống Nó tham gia vào hầu hết các quá trình sinh học Protein đóng vai trò là các enzyme làm chất xúc tác trong hầu hết các phản ứng hóa học trong hệ thống sống, nhận biết các lọai phân tử khác nhau, chịu trách nhiệm về sự vận động của động vật ở mức tế bào và cơ thể
1.2 Nucleosome
1.2.1 Nucleosome là gì?
DNA trong nhân tế bào của các loài eucaryote được chia vào trong một tập hợp gồm các nhiễm sắc thể (chromosome) khác nhau Chẳng hạn ở người có 23 cặp nhiễm sắc thể Mỗi nhiễm sắc thể bao gồm một sợi DNA rất dài kết hợp với một số protein rồi cuộn tròn và đóng gói lại thành một cấu trúc phức hợp gọi là nhiễm sắc chất, tập hợp các nhiễm sắc chất này liên kết lại với nhau theo một trình tự tạo thành một nhiễm sắc thể
Hình 3 Các dạng cấu trúc của protein Cấu trúc không gian của protein rất phức tạp, việc tìm ra cấu trúc không gian của protein
là một vấn đề khó và nhiều thách thức Từ cấu trúc không gian của protein có thể cho chúng ta biết
về chức năng của nó trong các tiến trình sinh học
Trang 15Mặc dù DNA của các loài prokaryote cũng chứa đựng các thông tin di truyền
và DNA của nó cũng được đóng gói lại thành các nhiễm sắc thể Nhưng vai trò và chức năng của các protein tạo phức hợp với chuỗi DNA có nhiều điểm khác so với các protein trong nhiễm sắc thể của loài eucaryote Cho đến nay thì sự hiểu biết về nhiễm sắc thể của loài này còn rất ít Nên khi nói đến cấu trúc của nhiểm sắc thể thì đều được hiểu là cấu trúc của nhiễm sắc thể của loài eucaryote
Nucleosome được hiểu là một tiểu đơn vị của nhiễm sắc chất, cấu tạo của nó bao gồm một đoạn ngắn DNA (khoảng 146-147 nucleotide) quấn quanh một nhân gồm tám protein (nhân này được gọi là histone octamer) và một histone khác gọi là H1 histone, histone này có nhiệm vụ gắn chặt sợi DNA với histone octamer Hình 4 cho thấy cấu tạo chi tiết của một nucleosome
Hệ gene của con người gồm khoảng 3 tỉ cặp nucleotide và được tổ chức thành
23 cặp nhiễm sắc thể Như vậy, nếu duỗi thẳng ra thì chiều dài của chuỗi DNA chứa trong mỗi nhiễm sắc thể là khoảng 1.7cm đến 8.5cm [3], so với kích thước của một
tế bào thì điều này là không thể, nên theo một cách tự nhiên các chuỗi DNA trong tế bào được tổ chức dưới các dạng cấu trúc đóng gói với nhiều mức độ khác nhau
Hình 4 Cấu tạo của nucleosome Sợi màu đỏ quấn quanh là DNA, nhân gồm 8 protein màu đen được gọi là histone octamer và sợi màu xanh là H1 histone Đường kính của nucleosome là khoảng 11nm
Trang 16nucleosome Hình ảnh về mức thấp hơn được phóng đại bằng cách trích một tiểu đơn vị trong mức cao
Như vậy, nucleosome gồm có hai thành phần chính là một nhân gồm 8 protein gọi là histone octamer và một đoạn ngắn chuỗi xoắn kép DNA bao quanh (Hình 6) Các nucleosome liên tiếp nhau được liên kết bởi các đoạn DNA (gọi là linker DNA) Như vậy nếu coi nhiễm sắc thể bao gồm tập hợp các nucleosome liên kết với nhau thì mỗi nucleosome có khoảng 200 cặp nucleotide
Hình 5 Cấu trúc đóng gói của chuỗi DNA tạo thành một nhiễm sắc thể Mức 1: chuỗi xoắn kép DNA Mức 2: chuỗi DNA quấn quanh nhân histone tạo thành nucleosome Mức 3: chuỗi liên tiếp các nucleosome tạo thành nhiễm sắc chất Mức 4: các đơn
vị nhiễm sắc chất quấn lại theo cùng một khuôn dạng để tạo thành nhiễm sắc thể
Trang 171.2.2 Sự choán chỗ của nucleosome trong chuỗi DNA
Việc xác định vị trí các nucleosome trong chuỗi lớn DNA là một việc khó và
có nhiều thách thức Cho đến nay người ta vẫn chưa có phương pháp chính xác để các định các vị trí của nucleosome trong một chuỗi DNA Vì mật độ các nucleosome là không đồng đều Có đoạn thì nucleosome xuất hiện với mức độ dày,
có đoạn thì lại xuất hiện với mật độ thưa, và khoảng cách giữa các nucleosome cũng không cố định mà dài ngắn khác nhau Nguyên nhân của sự không đều thì có nhiều, nhưng chủ yếu là do khả năng quấn vòng quanh của chính các chuỗi DNA và sự ảnh hưởng của các nhân tố bên ngoài lên chuỗi DNA Sự choán chỗ của các nucleosome được hiểu là sự xuất hiện hiện tượng quấn quanh nhân histone của đoạn DNA Giữa hai nucleosome liên tiếp có một đoạn nối khoảng từ 10-80 nucleotide gọi là DNA-linker Bằng phương pháp thực nghiệm, các nhà sinh học cũng đã đưa
ra các con số đo mức độ xuất hiện của nucleosome trên từng vùng của chuỗi DNA
Hình 6 Các nucleosome liên tiếp nhau được nối bởi linker DNA Hình màu vàng là nhân histone octamer với đường kính 11nm, sợi màu đỏ là chuỗi DNA gồm 146 cặp nucleotide quấn quanh histone hai vòng
Trang 181.2.3 Histone là gì?
Trong phần trước chúng ta đã nhắc đến khái niệm histone khi nói về cấu tạo của nucleosome Trong phần này chúng ta sẽ tìm hiểu về cấu tạo và vai trò của nó đối với các tiến trình sinh học Histone là một tập hợp gồm các protein kiềm nhỏ cùng một họ hàng và có thứ tự amino acid rất bảo thủ [2] Trong cấu trúc của nucleosome gồm có hai loại histone Một là nhân gồm 8 protein tạo thành histone octamer và một protein giàu Lys (histone H1) gắn vào sợi DNA Việc gắn H1 vào sợi DNA phụ thuộc vào tích điện âm mạnh của nucleic acid và tích điện dương của protein Tuy nhiên trong luận văn này chúng tôi tập trung vào tìm hiểu histone octamer Từ đây về sau nói đến histone sẽ ngầm hiểu là histone octamer Hình 7 chỉ
ra cấu tạo của histone octamer
Mỗi nhân histone bao gồm 8 phân tử protein của 4 loại histone H2A, histone H2B, histone H3 và histone H4, mỗi loại có 2 phân tử Cả 4 loại protein tạo nên nhân histone đều là các protein loại nhỏ chỉ gồm khoảng từ 102-135 amino acid, giàu lysin và arginine, và có chung một khuôn dạng (motif) cấu trúc (hình 8) [3]
Hình 7 Cấu tạo của histone
2 H2B, 2 H3 và 2 H4.
Trang 19Cụ thể, nhân của histone được cấu tạo như sau: H3 và H4 bắt cặp với nhau theo một tương tác kiểu “bắt tay” tạo thành một phức hợp gọi là H3-H4 dimer, H2A
và H2B bắt cặp với nhau tạo thành một phức hợp H2A-H2B dimer, rồi hai phân tử H3-H4 dimer kết hợp với nhau tạo thành H3-H4 tetramer Cuối cùng phân tử H3-H4 tetramer kết hợp với 2 phân tử H2A-H2B tạo thành nhân histone octamer Hình
9 chỉ ra sự kết hợp của các protein tạo thành nhân histone
Hình 8 Các protein có trong nhân
có 2 phần, phía N được gọi là đuôi, phần này sẽ “thò” ra ngoài khỏi nhân histone và phần thứ hai, phía C, nằm trong nhân histone (B) Cấu trúc cuộn của các protein trong nhân histone (C) H2A và H2B tạo thành một dimer thông qua một tương tác kiểu như “bắt tay”
Hình 9 Cấu trúc chi
H3-H4 dimer và H2B dimer được tạo thành
H2A-từ tương tác kiểu “bắt tay” H3-H4 tetramer tạo thành một phức hợp kiểu giàn giáo với 2 phân tử H2A- H2B dimer để tạo thành nhân histone Các đầu N đều “thò” ra ngoài
Trang 20Mối quan hệ giữa DNA và nhân histone rất chặt chẽ, có khoảng 142 liên kết hydro hình thành giữa DNA và nhân histone trong mỗi nucleosome Gần một nửa
số đó là liên kết giữa amino acid của histone và nucleotide của DNA Các liên kết này giữ cho DNA và nhân histone tạo thành nucleosome
Một điểm đặc biệt là các protein có trong nhân histone đều chia làm hai phần, phía đầu N tương đối dài và được thò ra ngoài nhân histone (tạm gọi là các đuôi của histone) và phần còn lại (đầu C) được đóng gói trong nhân histone (hình 9) Các đuôi của histone có vai trò quan trọng đối với cấu trúc của histone, vì đây là đối tượng dễ bị thay đổi khi có các nhóm chức khác “đính” thêm vào các amino acid, sự biến đổi này có thể là acetyl hóa, methyl hóa hoặc phosphory hóa Trong phần sau chúng ta sẽ thảo luận chi tiết hơn vì đây là các đối tượng nghiên cứu chính của luận văn
1.2.4 Trạng thái thay đổi của Histone
Trong các nghiên cứu gần đây người ta phát hiện ra rằng: trạng thái thay đổi của histone (histone modification) có vai trò quan trọng đối với quá trình điều chỉnh
và sao chép gene [4,5,6,14,15,17,27] Sự thay đổi trạng thái của histone xảy ra trên các phần đuôi thò ra ngoài của các histone H3, H4, H2A, H2B khi có thêm một hoặc nhiều nhóm chức đính thêm (hoặc rời đi) vào các amino acid Việc đính thêm (rời đi) được thực hiện bởi các enzim có trong nhân tế bào Chẳng hạn nhóm acetyl được đính thêm vào các vị trí có amino acid lysine bởi enzim có tên là histone acetyl transferaza (HATs) Cho đến nay người ta phát hiện ra bốn loại nhóm chức làm thay đổi trạng thái của histone là acetyl, methyl, phosphoryl, ubiquitin và sumoyl Tuy nhiên, các nhóm này chỉ tác động đến một số loại amino acid, như nhóm acetyl thì tác động đến lysine (K), nhóm methyl thì tác động đến lysine và arginine (R), nhóm phosphoryl thì tác động đến serine (S),…Mỗi amino acid lysine
có thể tiếp nhận không chỉ một mà có thể hai hoặc ba nhóm methyl [3] Hình 10 minh họa các vị trí khác nhau trên đuôi của các histone nơi mà các nhóm chức có thể đính thêm
Trang 21Hàng năm người ta vẫn đưa ra thêm các vị trí mới được phát hiện, điều này chứng tỏ hầu như tất cả các vị trí trên đuôi của các histone H3, H4, H2A, H2B đều
có khả năng bị thay đổi bởi các enzim có trong nhân Hai sự thay đổi được nghiên cứu nhiều nhất là acetyl hóa (acetylation) và methyl hóa (methylation)
Các nghiên cứu gần đây chỉ ra rằng có một mối liên hệ giữa mức độ thay đổi trạng thái của histone và các họat động của gene, nhất là trong việc duy trì các đặc tính di truyền Tại vùng các promoter (promoter là một đoạn ngắn trên chuỗi DNA
mà tại đó các protein đính với chuỗi DNA để bắt đầu của quá trình phiên mã DNA thành RNA) và các vùng mã hóa (coding regions) luôn có mối quan hệ tương quan với sự acetyl hóa, methyl hóa của histone
Mặc dù các nghiên cứu về trạng thái thay đổi của histone được bắt đầu từ cách đây 40 năm nhưng cho đến nay các kết quả vẫn còn chưa được thống nhất [27] Sự hiểu biết của chúng ta về acetyl hóa và methyl hóa thì tương đối rõ ràng, còn một số
sự thay đổi khác (như phốt pho hóa, ) thì vẫn còn hạn chế Trong luận văn này chúng tôi cũng chỉ nghiên cứu trên các dữ liệu về acetyl hóa và methyl hóa của histone
Hình 10 Các vị trí trên đuôi của các histone có thể đính
Acetyl, Me = nhóm Methyl, P = nhóm Phosphotyl, u = nhóm ubiquitin Ac: H2BK5, H2BK12, H2BK15, H2BK20, H3K9, H3K14,…Me: H3K9 , H3K27, H4K20 P: H3S10, H3S28, H4S1 u: H2BK120
Trang 221.3 Mục tiêu của luận văn
Trong luận văn này, chúng tôi sẽ áp dụng phương pháp tính toán vào bài toán
dự đoán sự choán chỗ và trạng thái thay đổi của histone trong chuỗi DNA Có khá nhiều các nghiên cứu trước đây nghiên cứu vấn đề này [4,6,7,11,14,17,18,27] Nhưng hầu như các nghiên cứu này đều là nghiên cứu thực nghiệm, và kết quả của các nghiên cứu nhiều khi chưa đồng nhất [27] Nghiên cứu của chúng tôi sẽ dựa trên
dữ liệu thực nghiệm của nhóm Pokholok et al.[27] Công trình của nhóm này được
công bố trên tạp chí Cell ngày 26/08/2005
Từ dữ liệu định lượng của nhóm Pokholok et al chúng tôi sẽ chuyển về dạng
dữ liệu định tính, và phát biểu bài toán dưới dạng bài toán gán nhãn cho các đối tượng, sau đó áp dụng các mô hình tính toán vào việc dự đoán
Conditional Random Fields (CRFs) là một mô hình xác suất điều kiện áp dụng vào các bài toán gán nhãn cho dữ liệu dạng chuỗi Mô hình này được John Lafferty
đề xuất năm 2001 [16] Mô hình này hiệu quả hơn các mô hình trước đó như HMMs [28], MEMMs [20] Trong luận văn này chúng tôi đặt ra hai mục tiêu cụ thể: (1) Xây dựng một mô hình CRFs áp dụng vào bài toán dự đoán sự choán chỗ của nucleosome (thể hiện qua sự choán chỗ của histone H3, H4) và trạng thái thay đối của histone (acetyl hóa, methyl hóa) trong chuỗi DNA của loài Yeast (2) Tìm ra các đặc trưng quan trọng của chuỗi DNA liên quan đến các vị trí mà tại đó sự choán chỗ của histone và trạng thái thay đổi của histone ở mức cao và mức thấp bằng cách dựa vào trọng số của các đặc trưng của dữ liệu sau khi huấn luyện dữ liệu với mô hình CRFs đã xây dựng
Trang 23CHƯƠNG II : MÔ HÌNH CONDITIONAL RANDOM FIELD
Phân đọan và gán nhãn là các bài toán xuất hiện trong nhiều lĩnh vực khác nhau
Có nhiều mô hình toán học được sử dụng để giải loại bài toán này, trong đó mô hình Markov ẩn được dùng khá phổ biến Tuy nhiên, mô hình Markov ẩn và một số
mô hình xác suất khác vẫn bộc lộ những hạn chế nhất định Gần đây, mô hình CRFs được giới thiệu và áp dụng khá thành công trong các lĩnh vực như xử lý ngôn ngữ
tự nhiên, xử lý tiếng nói, tin-sinh học,…Trong chương này chúng tôi giới thiệu định nghĩa, cấu tạo và một số thuật toán ước lượng tham số cho mô hình CRFs
2.1 Giới thiệu
Bài toán phân đoạn (segmenting) và gán nhãn (labeling) cho các chuỗi dữ liệu
là một bài toán xuất hiện trong nhiều lĩnh vực, bao gồm tin-sinh học, xử lý ngôn ngữ, xử lý tiếng nói, vv
và thành công trong loại bài toán này HMM thuộc lớp mô hình generative, mô hình
này sử dụng một xác suất liên kết (joint probability) p(x,y) để ghép đôi một chuỗi
quan sát (observation sequence) và một chuỗi nhãn (label sequence) Để định nghĩa được một xác suất liên kết thì các mô hình generative phải liệt kê (enumrate) toàn
bộ các khả năng có thể của chuỗi quan sát Nhưng trong thực tế thì đây là một bài toán khó trong hầu hết các lĩnh vực trừ phi các phần tử quan sát được biểu diễn như các đơn vị riêng rẽ, độc lập (independent) giữa các phần tử trong cùng một tập, nhưng trong thực tế thì hầu hết các chuỗi quan sát đều tồn tại trong một mối quan hệ giữa các phần tử hoặc là phụ thuộc long-range giữa các phần tử trong chuỗi quan sát
Trang 24mãn cả hai điều kiện trên là sử dụng một mô hình được định nghĩa bằng xác suất điều kiện (conditional probability) trên một chuỗi nhãn và một chuỗi quan sát đã
cho Mô hình xác suất điều kiện được sử dụng để gán nhãn cho một chuỗi x bằng cách chọn chuỗi nhãn y sao cho thu được cực đại xác suất điều kiện p(y|x)
Một số mô hình xác suất điều kiện gần đây đã được xây dựng để thay thế cho các mô hình generative trong các bài toán gán nhãn Một trong số đó là các mô hình lọai non-generative Markov, trong khi một số mô hình khác lại dựa trên phân bố xác suất đơn thay cho xác suất liên kết của một chuỗi nhãn trên một dãy quan sát Nhưng các mô hình loại non-generative đều có chung một điểm yếu là mắc phải vấn đề label bias (label bias problem) Chi tiết về vấn đề này được thảo luận trong phần sau khi nói đến mô hình MEMM
Để tận dụng được những lợi ích của việc sử dụng được xác suất điều kiện cho bài toán gán nhãn và đồng thời vượt qua được vấn đề bias, Lafferty đã đề xuất mô hình Conditional Random Field (CRFs) Đây là một dạng mô hình sử dụng đồ thị
vô hướng định nghĩa một phân bố log-linear cho xác suất liên kết của một chuỗi nhãn trên chuỗi quan sát đã cho CRFs được đánh giá là tốt hơn mô hình HMM và MEMM [16,33,35]
Trong bài báo của mình Jonh Lafferty và các đồng nghiệp của ông cũng đã đưa ra hai thuật toán để ước lượng các tham số cho CRFs Các thuật toán này dựa trên các kỹ thuật của việc ước lượng các tham số cho mô hình cực đại entropy log-linear Một thuật toán có tên là improved iterative scaling (IIS) và thuật toán kia là generalised iterative scaling (GIS) Tuy nhiên, cả hai thuật toán này đều có nhược điểm là chậm [35], có thể sau nhiều vòng lặp mới đạt được sự hội tụ của hàm mục tiêu Kể từ thời điểm mô hình được giới thiệu đã có rất nhiều tác giả đã tìm cách cải tiến thuật toán ước lượng tham số cho CRFs [19,33,35]
và các hạn chế mà các mô hình này mắc phải Tiếp theo là giới thiệu mô hình CRFs
và một số thuật toán ước lượng tham số cho bài toán huấn luyện (training) mô hình
Trang 252.2 Mô hình Markov ẩn
2.2.1 Giới thiệu
Mô hình Markov ẩn đã được áp dụng thành công trong nhiều bài toán gán nhãn như phân tích từ vựng, nhận dạng tiếng nói và phân tích chuỗi gene [16,28,33] HMM là một mô hình xác suất hữu hạn trạng thái theo kiểu phát sinh tiến trình bằng cách định nghĩa xác suất liên kết trên các chuỗi quan sát và chuỗi nhãn Mỗi chuỗi nhãn coi như được sinh ra (generated) bởi một chuỗi các phép chuyển trạng thái, bắt đầu từ trạng thái khởi đầu cho đến khi thu được trạng thái kết thúc Tại mỗi trạng thái thì một phần tử của chuỗi quan sát được coi như phát sinh ngẫu nhiên trước khi chuyển sang trạng thái tiếp theo Các trạng thái của HMM được coi như là ẩn bên trong mô hình vì tại mỗi thời điểm chúng ta chỉ nhìn thấy các kí hiệu quan sát còn các trạng thái cũng như sự chuyển đổi trạng thái được vận hành ẩn bên trong mô hình
Định nghĩa HMM đầy đủ bao gồm các thành phần sau:
lần lượt là trạng thái của mô hình tại thời điểm t và quan sát tại thời điểm t Hình vẽ
Trang 26Hình 11 Cấu trúc đồ thị của HMM bậc 1
Điểm đặc biệt của mô hình này là xác suất của trạng thái tại thời điểm t chỉ phụ thuộc duy nhất vào trạng thái của thời điểm t-1 trước đó (hoặc vài trạng thái trước đó với HMM bậc cao) Tương tự, quan sát được sinh ra tại thời điểm t cũng chỉ phụ thuộc vào trạng thái của mô hình tại thời điểm t Các quan hệ độc lập này cùng với các luật của xác suất chuỗi sự kiện có thể tính được phân bố xác suất liên kết của chuỗi trạng thái s và chuỗi quan sát x bằng một tích như sau:
t s p x s s
p s
x p s p x s p
2
1 1
1
(),(
n là chiều dài của chuỗi quan sát
2.2.2 Bài toán gán nhãn cho dữ liệu chuỗi
Việc gán nhãn cho một chuỗi quan sát là xác định chuỗi nhãn tương ứng sao cho tốt nhất với chuỗi quan sát theo một nghĩa nào đó Mặt khác khi chọn chuỗi nhãn phù hợp nhất cho một chuỗi quan sát x thì chúng ta mong muốn chọn được
một chuỗi nhãn y* sao cho xác suất điều kiện của chuỗi nhãn với chuỗi quan sát đã
cho đạt được cực đại Tức là:
)
| ( max arg
Tuy nhiên, vì phân bố xác suất được định nghĩa bằng HMM là một phân bố xác suất liên kết trên chuỗi quan sát và chuỗi trạng thái nên chuỗi nhãn phù hợp nhất với với một chuỗi quan sát bất kì thu được bằng cách tìm chuỗi trạng thái s*
(1)
(2)
Trang 27sao cho xác suất điều kiện của chuỗi trạng thái đó với chuỗi quan sát đã cho đạt được cực đại Có thể tìm được s* từ phân bố liên kết sử dụng công thức Bayes’:
)(
),(maxarg
*
x p
s x p
s = s
Việc tìm chuỗi trạng thái tối ưu bằng cách sử dụng kỹ thuật quy hoạch động rất có hiệu quả, và một thuật toán nổi tiếng được sử dụng trong mô hình HMM là thuật toán Viterbi Thuật toán này được mô tả chi tiết trong [28]
2.2.3 Hạn chế của mô hình Generative
Mặc dù được sử dụng phổ biến HMM và các mô hình generative khác đều chưa phải là phù hợp nhất cho bài toán gán nhãn dữ liệu chuỗi Các mô hình
generative định nghĩa một phân bố xác suất liên kết p(x,y) trên chuỗi quan sát x và
chuỗi nhãn y Điều này sẽ rất hữu ích khi mô hình huấn luyện sử dụng dữ liệu generative, tuy nhiên phân bố ưa thích của dữ liệu gán nhãn là phân bố điều kiện p(y|x) trên chuỗi nhãn và chuỗi quan sát đã cho Định nghĩa một phân bố liên kết trên chuỗi nhãn và chuỗi quan sát nghĩa là phải liệt kê tất cả các khả năng có thể của chuỗi quan sát, đây là một việc rất khó nếu các phần tử của chuỗi quan sát được giả
sử là có sự phụ khoảng cách xa (long-distance dependencies) Vì thế các mô hình generative phải có các giả thiết về tính độc lập chặt chẽ Chẳng hạn trong trường hợp của mô hình HMM thì quan sát tại thời điểm t được giả sử là chỉ phụ thuộc duy nhất vào trạng thái tại thời điểm t và như vậy mỗi phần tử của chuỗi quan sát coi như hoàn toàn độc lập với các phần tử khác trong chuỗi
coi là một đơn vị độc lập mà nó có sự phụ thuộc và ảnh hưởng với các phần tử khác trong chuỗi Sự phụ thuộc giữa các phần tử đó có khi lại rất hữu ích trong việc gán nhãn cho chúng Chẳng hạn trong bài toán dự đoán cấu trúc bậc hai của một protein
(3)
Trang 28Các mô hình điều kiện (conditional models) với bài toán gán nhãn chuỗi dữ liệu đã cung cấp một phương pháp thuận lợi để vượt qua được giả thiết về tính độc lập mạnh của các mô hình generative Thay vì sử dụng phân bố xác suất liên kết p(x,s), mô hình điều kiện định nghĩa một phân bố điều kiện p(s|x) trên các chuỗi trạng thái và một chuỗi quan sát cụ thể Điều này dẫn đến việc xác định chuỗi trạng thái thích hợp cho một chuỗi quan sát đã cho có thể sử dụng trực tiếp phân bố điều kiện, thay vì phải sử dụng công thức:
)(
),(maxarg)
|(maxarg
*
x p
s x p x
s p
Mô hình MEMM là một dạng của mô hình điều kiện cho bài toán gán nhãn
Mô hình này được thiết kế từ các hạn chế nảy sinh trong các mô hình generative nói chung và mô hình HMM nói riêng Mô hình này vượt qua được hạn chề về giả thuyết tính độc lập mạnh của mô hình HMM [20]
Giống với mô hình HMM, MEMM cũng dựa trên khái niệm của một mô hình xác suất hữu hạn trạng thái Tuy nhiên, MEMM coi các phần tử của chuỗi quan sát
là các sự kiện có điều kiện chứ không phải là được sinh ra Do đó, thay vì định
nghĩa hai loại xác suất: P(s’|s) xác suất chuyển từ trạng thái s sang trạng thái s’ và P(x|s) xác suất phát sinh quan sát x khi trạng thái hiện thời là s, MEMM chỉ định
thái s sang trạng thái s’ dựa trên quan sát x Thực chất các hàm chuyển trạng thái
nhằm chỉ ra cho mô hình một sự lựa chọn một trạng thái tại thời điểm tiếp theo t+1
mà chỉ phụ thuộc vào thời trạng thái của mô hình ở thời điểm t Việc sử dụng một hàm chuyển trạng thái dựa trên chuỗi quan sát làm cho mô hình MEMM có cảm
(4)
Trang 29giác như chuỗi quan sát là điều kiện để phát sinh trạng thái tiếp theo của mô hình chứ không phải là được sinh ra như trong mô hình HMM Hình vẽ dưới đây minh họa cấu trúc đồ thị của mô hình MEMM bậc 1
Hình 12 Cấu trúc đồ thị của mô hình MEMM bậc 1
Giả sử mỗi trạng thái tương ứng với một nhãn cụ thể thì theo quy luật của chuỗi xác suất và sự phụ thuộc trong cấu trúc đồ thị của MEMM thì xác suất liên kết của chuỗi nhãn y với chuỗi quan sát x có thể được biểu diễn bởi công thức sau đây:
y p x y p x y p
2
1 1
1| ) ( | , )(
),(
Khi coi các quan sát như là các sự kiện thay vì được sinh ra bởi mô hình, điều này làm cho xác suất của mỗi phép chuyển trạng thái có thể phụ thuộc vào cả những đặc trưng của chuỗi quan sát Trong bài báo của mình, McCallum và các đồng nghiệp của ông đã sử dụng nguyên lý cực đại hóa entropy để định nghĩa các hàm xác suất chuyển trạng thái theo log-linear:
p exp ( , )
),(
1)
|
thái tiếp theo của mô hình Có nhiều thuật toán để ước lượng tham số cho mô hình
(5)
(6)
Trang 301 )
MEMM và các mô hình non-generative đều gặp một vấn đề gọi là bias Các
mô hình kiểu này đều sử dụng một hàm mũ để tính xác suất cho trạng thái tiếp theo, trong trường hợp nếu tại một thời điểm nào đó, mà xác suất của hai trạng thái khác nhau lại bằng nhau, thì khi đó sẽ xảy ra xung đột trong việc chọn lựa trạng thái để chuyển tiếp Vấn đề này có thể được mô tả qua ví dụ sau:
(2) The robot wheels are round
[B-NP I-NP I-NP B-VP B-ADJP]
Nếu quan sát hiện thời là ‘the’
Các trường hợp khác
Nếu b(x)=1 và s=s’
Các trường hợp khác
Trang 31Bây giờ, dựa vào mô hình trên, chúng ta muốn tìm ra một chuỗi nhãn phù hợp nhất cho câu (2) chẳng hạn, tức là tìm ra chuỗi nhãn s sao cho p(s|x) là cực đại Mà chúng ta biết rằng, xác suất liên kết của một dãy trạng thái s của một chuỗi quan sát
s p
),
|()
|(
t-1 ,x t ) sao cho phù hợp nhất với dãy quan sát Với ví dụ hiện thời, thì tại bước thứ
nhất và thứ hai, các quan sát là “the” và “robot” phù hợp với các phép chuyển trạng thái từ trạng thái 0 đến trạng thái 1 và từ trạng thái 1 đến trạng thái 2 Tiếp theo đến quan sát là “wheels” thì nó phù hợp với cả hai phép chuyển, thứ nhất là từ trạng thái
2 chuyển sang trạng thái 3, thứ hai là từ trạng thái 2 chuyển sang trạng thái 7 Đến đây thì chúng ta có 2 dãy trạng thái có thể là: 0123 và 0127 Để xác định chuỗi trạng thái nào phù hợp nhất thì chúng ta phải quan sát cách mà các chuỗi này có thể
mở rộng để phù hợp nhất với phần còn lại của chuỗi quan sát và so sánh xác suất của chuỗi trạng thái kết quả
Trên hình vẽ chúng ta nhìn thấy, cả trạng thái 3 và trạng thái 7 đều chỉ có 1 cách chuyển trạng thái ra khỏi nó Mà chúng ta đã biết rằng, tại mỗi trạng thái của
mô hình và với một chuỗi quan sát thì tổng các xác suất chuyển trạng thái bằng 1 Mặt khác, xác suất liên kết của một chuỗi trạng thái với 1 chuỗi nhãn đã cho được phân rã thành tích của 1 tích các xác suất điều kiện của trạng thái tiếp theo khi biết trạng thái hiện thời và quan sát tiếp theo Vì thế, chúng ta giả sử: p(4|3,Fred) = p(8|7,Fred) = 1 Tuy nhiên giả thiết này là hoàn toàn ko được chấp nhận vì dữ liệu huấn luyện của mô hình đã cho ko chứa một phép chuyển nào từ trạng thái 7 sang trạng thái 8 dựa trên quan sát là “Fred” Vì thế, chúng ta mong muốn các xác suất của các sự kiện không xuất hiện trong dữ liệu huấn luyện mô hình là thấp
(7)
Trang 32“B-NP I-NP B-VP B-NP B-PP” và “B-NP I-NP I-NP B-VP B-ADJP” Như vậy, với giả thiết là xác suất của các phép chuyển trạng thái ra khỏi trạng thái 2 là gần bằng nhau thì vấn đề label bias được hiểu là xác suất của mỗi chuỗi nhãn với 1 chuỗi quan sát đã cho x sẽ cũng gần bằng nhau mà không cần tính đến chuỗi quan sát Đây chính là vấn đề hạn chế của mô hình MEMM và các mô hình non-generative khác
2.4 Mô hình Condition Random Field
Vào năm 2001 Jonh Lafferty và đồng nghiệp của ông đã giới thiệu mô hình CRFs [16] Mô hình này khắc phục được các nhược điểm mà mô hình HMM và MEMM mắc phải Nó đã giải phóng được giả thuyết độc lập mạnh trong mô hình HMM và khắc phục được vấn đề bias trong mô hình MEMM Cũng giống mô hình MEMM, mô hình CRFs cũng là mô hình chuỗi xác suất điều kiện, tuy nhiên thay vì
sử dụng mô hình đồ thị có hướng thì CRFs sử dụng mô hình đồ thị vô hướng [16,35] Điều này cho phép lấy xác suất liên kết trên toàn bộ chuỗi trạng thái chứ không chỉ là xác suất của trạng thái tiếp theo dựa trên trạng thái hiện thời Điều kiện
tự nhiên của các phân bố trên chuỗi nhãn cho phép CRFs mô hình hóa dữ liệu thực bằng các đặc trưng của các chuỗi quan sát Trong phần này chúng tôi trình bày về
mô hình đồ thị vô hướng, đồ thị của CRFs và các thuật toán ước lượng tham số cho
mô hình CRFs
2.4.1 Mô hình đồ thị vô hướng
Mô hình đồ thị vô hướng (còn gọi là Markov Radom Field) là một đồ thị không có chu trình G=(V,E), trong đó V là tập các đỉnh, E là tập các cạnh vô hướng giữa chúng Một đỉnh của đồ thị biểu diễn một biến ngẫu nhiên liên tục hoặc ngẫu nhiên rời rạc, coi như có 1 ánh xạ 1-1 giữa các đỉnh và các biến ngẫu nhiên
điều kiện với mối quan hệ giữa các nút trong cấu trúc của đồ thị Chẳng hạn xác
Trang 33suất liên kết của các biến ngẫu nhiên được biểu biễn bằng các đỉnh v d 1 , v d 2 , , v d n có
thể được viết dưới dạng:
)
|()
, ,,
i
d n d d
i
v v p v
v v
Markov Random Field là khó để mà sử dụng mô hình đồ thị có hướng Mặc dù có thể gán mỗi đỉnh một xác suất điều kiện với các đỉnh láng giềng quanh nó, nhưng cũng khó để chắc chắn rằng xác suất điều kiện của các nút láng giềng với một đỉnh
có phù hợp (consistent) với xác suất điều kiện của các đỉnh khác trong đồ thị hay không Điều này làm cho chúng ta không chắc chắn là xác suất điều kiện được gán cho các đỉnh có mang lại một phân bố liên kết đơn trên tòan bộ các biến ngẫu nhiên
có trong đồ thị Vì lý do này nên phân bố liên kết của một Markov random field không thể tham số hóa trong một số hạng của xác suất điều kiện, nhưng có thể được định nghĩa như là tích của một tập các hàm cục bộ (local function) từ tập các tiên
đề điều kiện độc lập Bước đầu tiên trong tham số hóa của một mô hình đồ thì vô hướng G = (V,E) là xác định tập các đỉnh mà mỗi hàm cục bộ sẽ có hiệu lực
2.4.2 Cấu trúc đồ thị của CRFs
Như phần trước đã nói, mô hình đồ thị vô hướng được sử dụng để định nghĩa phân bố xác suất liên kết của một chuỗi nhãn với một chuỗi quan sát Cho X và Y là các biễn ngẫu nhiên (random variables) có phân bố xác suất liên kết với nhau, X là biến trên chuỗi quan sát cần được gán nhãn, còn Y là biến trên chuỗi nhãn tương ứng
tập các đỉnh của G thì (X,Y) được gọi là một conditional random field khi lấy điều
(8)
Trang 34Về lý thuyết thì đồ thị G có thể có hình dạng bất kì sao cho mô tả được điều kiện độc lập trong chuỗi nhãn Tuy nhiên, với bài toán gán nhãn thì G có dạng tuyến
Hình 14 Cấu trúc đồ thị của CRFs cho trường hợp chuỗi
2.4.3 Nguyên lý Maximum Entropy
Lafferty [16] đã chọn hàm khả năng (potential function) cho CRFs dựa vào nguyên lý maximum entropy (ME) ME là một khung cho việc ước lượng phân bố xác suất từ tập dữ liệu huấn luyện sao cho bất kì một giả thuyết nào tạo lên phân bố thì đều được đảm bảo bởi dữ liệu Như chúng ta đã biết, Entropy là một độ đo tính đồng nhất (uniformity) của một phân bố xác suất, hoặc là tính không chắc chắn của
phân bố xác suất [20,35] Entropy điều kiện H(Y|X) của một mô hình phân bố trên chuỗi nhãn với chuỗi quan sát đã cho q(y|x) được cho bởi:
Y H
,
)
|(log),(
~)
|(
liệu huấn luyện H(Y|X) sẽ đạt giá trị lớn nhất khi phân bố trên chuỗi nhãn q(y|x) là
đồng nhất có thể Nguyên lý ME xác định rằng phân bố xác suất có thể được xây dựng từ các thông tin không đầy đủ, như là dữ liệu huấn luyện chỉ bao gồm tập hợp các ràng buộc, thì sẽ có ME tùy thuộc vào việc biểu diễn những thông tin đã biết
Để xây dựng được một mô hình có thể biểu diễn được chính xác các thông tin
đã biết của dữ liệu huấn luyện, chúng ta cần một vài phương pháp biểu diễn các thông tin đã biết này Một trong những phương pháp phổ biến là sử dụng các hàm
(9)
Trang 35đặc trưng (feature functions) để mô tả các đặc trưng của dữ liệu Chẳng hạn trong lĩnh vực xử lý ngôn ngữ tự nhiên, giả sử dữ liệu huấn luyện chứa câu :
The robot wheels Fred round
và chuỗi nhãn tương ứng của các từ trong câu đó là:
hình được ràng buộc sao cho kì vọng của mỗi đặc trưng f với dữ liệu huấn luyện
được cho bởi:
∑
=
y y
E
, )
, (
trị đặc trưng Ngoài ra một điều thú vị nữa là phân bố này cũng là phân bố cực đại
sự tương tự Gibbs (maximum likelihood distribution) hoặc là phân bố cực tiểu Kullback-Leiber sự khác nhau giữa phân bố empirical và phân bố của mô hình Việc xác định phân bố cực đại entropy thỏa mãn các ràng buộc của dữ liệu
(10)
(11)
Các trường hợp khác
Trang 36x Z x y
p exp ( , )
)(
1)
|
2.4.4 Hàm khả năng cho CRFs
Trong thực tế, thì việc chọn hàm khả năng cho CRFs thường là theo mô hình cực đại hóa entropy hoặc là cực tiểu hóa sự phân biệt ME cung cấp một gợi ý có ý nghĩa cho việc chọn hàm khả năng của CRFs có dạng giống như công thức (13) Điều này được thể hiện bằng cách định nghĩa mỗi hàm khả năng như sau:
(y x k f k c y c x
ψ
trong đó c là một tập gồm các đỉnh của một đồ thị con đầy đủ cực đại của đồ thị vô
Ngoài ra, để thỏa mãn các yêu cầu hàm khả năng phải dương và nhận giá trị thực, thì việc chọn hàm khả năng của một phân bố liên kết trên chuỗi nhãn Y và chuỗi quan sát X đã cho có dạng:
x y c f x
Z x y
p exp ( , , )
)(
1)
Z
,
),,(exp
Trang 37đại của G chỉ là các cạnh của nó, chẳng hạn một cạnh e = (i, i-1), i và i-1 là hai đỉnh liền kề Khi đó thì công thức (13) sẽ được khai triển có dạng như sau:
chuỗi quan sát Sự triển khai này cho phép công thức tính xác suất liên kết của một chuỗi nhãn với chuỗi quan sát đã cho sẽ được viết dưới dạng:
i i k k i
x y g x
y y f x
Z x y
p exp ( , , ) ( , )
)(
1)
0
1)
1)
2.4.5 Một số thuật toán ước lượng tham số cho CRFs
Ước lượng tham số cho mô hình, hay nói cách khác là huấn luyện mô hình là bài toán cần điều chỉnh các tham số của mô hình sao cho mô hình có tính tương
Trang 38Giả sử dữ liệu huấn luyện bao gồm một tập gồm có N cặp, mỗi cặp (x(i),y(i)) gồm chuỗi quan sát và chuỗi nhãn tương ứng Kí hiệu tập dữ liệu huấn luyện là D =
∏
=
y
y x p
x y p L
,
) (
~
) ,
| ( log )
lý cực đại sự tương tự:
)(max
Tuy nhiên trong tính toán, người ta thường dùng hàm logarithm để thay thế các phép nhân thành phép cộng mà không ảnh hưởng đến việc lấy giá trị cực đại của hàm Khi đó công thức (18) có dạng:
∑
=
y
x y p y x p L
,
),
|(log),(
~)
i k
x Z x
y
p exp ( , , ) ( , )
)(
1),
y
x Z x p g
f y
x p
L( ) ~( , ) ~( )log( ( ))
,
μλ
ý rằng các vị trí cực đại này là cực đại địa phương chứ chưa hẳn là cực đại toàn cục