Ngược lại với các cách tiếp cận trước đây, chúng tôi đánh giá một kỹ thuật tiên tiến dựa trên việc kết hợp giữa học máy sử dụng tập đặc trưng phong phú với các tài nguyên tri thức miền đ
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
LÊ HOÀNG QUỲNH
MỘT HƯỚNG TIẾP CẬN LAI
ĐỂ NHẬN DẠNG CÁC ỨNG VIÊN KIỂU HÌNH
TRONG VĂN BẢN SINH HỌC
TÓM TẮT LUẬN VĂN CAO HỌC
Hanoi – 2012
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
LÊ HOÀNG QUỲNH
MỘT HƯỚNG TIẾP CẬN LAI
ĐỂ NHẬN DẠNG CÁC ỨNG VIÊN KIỂU HÌNH
TRONG VĂN BẢN SINH HỌC
Chuyên ngành : Khoa học máy tính
Mã số : 60 48 01
TÓM TẮT LUẬN VĂN CAO HỌC Giáo viên hướng dẫn: PGS.TS Hà Quang Thụy
Hanoi – 2012
Trang 3Table of Contents
1.1 Motivation and problem definition 1
1.2 Phenotype definition 2
1.3 The challenges of phenotype entity recognition 3
2 Related works 6 2.1 Useful resources 6
2.1.1 GENIA and JNLPBA corpora 7
2.1.2 The online mendelian inheritance in man 7
2.1.3 The human phenotype ontology 8
2.1.4 The mammalian phenotype ontology 9
2.1.5 The unified medical language system 9
2.1.6 KMR corpus 10
2.2 Related researches 11
2.2.1 Baseline method: Khordad et al (2011) 11
3 Methods 16 3.1 Schema 16
3.2 Annotated data sources 20
3.3 Proposed model 22
3.3.1 Pre-processing 22
3.3.2 Machine learning labeler 22
3.3.3 Knowledge-based labeler 24
3.3.4 Merge results 25
4 Experimental results and evaluation 29 4.1 Metrics 29
4.2 Experiments on the KMR corpus 31
Trang 4TABLE OF CONTENTS v
4.3 Experiments on the Phenominer corpus 32
4.4 Discussion 35
4.4.1 Discussion on corpora 35
4.4.2 Discussion on results 36
Trang 5Tóm tắt
Nhận dạng thực thể định danh (NER) đã được nghiên cứu rộng rãi cho tên gen và các sản phẩm của gen, tuy nhiên lại có rất ít giải pháp được đề xuất cho kiểu hình Kiểu hình được trông đợi sẽ đóng vai trò quan trọng trong việc suy luận vai trò của gen trong các bệnh di truyền phức tạp, tuy nhiên ngữ nghĩa phức tạp và phạm vi của kiểu hình làm cho nó trở nên rất khó để phân tích Ngược lại với các cách tiếp cận trước đây, chúng tôi đánh giá một kỹ thuật tiên tiến dựa trên việc kết hợp giữa học máy sử dụng tập đặc trưng phong phú với các tài nguyên tri thức miền đã có Phương pháp của chúng tôi được đánh giá trên hai tập dữ liệu chuẩn, một trong số đó là tập dữ liệu mới mà chúng tôi xây dựng bao gồm 112 tóm tắt PMC thu được từ việc tìm kiếm ngữ nghĩa với các bệnh tự động miễn dịch trên ciw sở dữ liệu Online Mendelian Inheritance of Man Kết quả của phương pháp lai rất đáng khích lệ, tốt hơn kết quả thu được khi sử dụng HMM, CRF và phương pháp dựa trên tri thức F1 của hệ thống là 75.37 cho thực thể BF và micro average F1 của toàn hệ thống là 84.01
Từ khóa- trường ngẫu nhiên điều kiện; y sinh học; học máy; rối loạn di
truyền; kiểu hình, khai phá văn bản
Trang 62
CHƯƠNG 1 GIỚI THIỆU
Nhận dạng thực thể (NER) y sinh học là một kỹ thuật tính toán sử dụng
để nhân dạng và phân lớp một chuỗi văn bản xác định các khái niệm quan trọng trong y sinh học
Luận văn này tập trung vào việc phân tích và nhận dạng một lớp thực thể mới: kiểu hình (phenotype) Theo Hoehndorf et al (2010), kiểu hình rất quan trọng khi phân tích cơ chế phân tử của bệnh, nó cũng được dự kiến là sẽ đóng vai trò chủ chốt trong việc suy luận vai trò của gen trong các bệnh di truyền phức tạp
Định nghĩa của chúng tôi dựa trên các phân tích trong nghiên cứu của Scheuermann et al (2009)
Định nghĩa: Thực thể kiểu hình là một (hoặc tổ hợp các) đặc trưng
cơ thể của sinh vật được xác định bởi sự tương tác của các nguyên nhân di truyền và môi trường
Ví dụ: [lack of kidney] (thiếu thận), [abnormal cell migration] (bất thường trong việc chuyển đổi tế bào), [absent ankle reflexes] (không có phản xạ mắt cá chân), [susceptibility to ulcerative colitis] (nhạy cảm với viêm loét đại tràng)
Định nghĩa này của kiểu hình yêu cầu xác định nguyên nhân tiềm ẩn của kiểu hình Việc này thường rất khó khăn, vì vậy luận văn này tập trung vào nhận dạng các đặc trưng cơ thể như là ứng viên của kiểu hình, nguyên nhân gây nên nó sẽ được xác định ở các bước xử lý sau này
Định nghĩa: Thực thể đặc trưng cơ thể (BF) là một đề cập đến đặc tính của các bộ phận cơ thể trong sinh vật
Trang 7CHƯƠNG 2 CÁC NGHIÊN CỨU LIÊN QUAN
Những động lực và thách thức như chúng tôi đã đề cập đến trong chương 1 dẫn tới rất nhiều các giải pháp khác nhau được đề xuất dựa trên nhiều nguồn tài nguyên
2.1 Các tài nguyên hữu ích
Sử dụng các tài nguyên có sẵn không chỉ giúp chúng ta tận dụng tri thức từ các nghiên cứu khác mà còn giúp giảm thiểu công sức Cho đến nay, có rất nhiều tài nguyên được sử dụng trong tin sinh học Một số trong
đó có thể hữu ích cho bài toán nhận dạng thực thể trong dữ liệu y sinh học
- Tập dữ liệu JNLPBA thu được từ dữ liệu GENIA phiên bản 3.02
corpus, bao gồm 2000 tóm tắt (20,546 câu, hơn 400,000 từ), chỉ sử dụng các lớp protein, DNA, RNA, cell line và cell type
- Online mendelian inheritance in man (OMIM) là một danh mục cập
nhật liên tục của gen, rối loạn di truyền và đặc điểm di truyền của con người Có hơn 4500 bản tóm lược lâm sàng trong OMIM
- Human phenotype ontology (HPO) bao gồm hơn 9500 thuật ngữ gốc
(hơn 15000 từ đồng nghĩa) mô tả các đặc trưng kiểu hình của con người (thống kê năm 2012)
- Mammalian phenotype ontology (MP) có hơn 9000 thuật ngữ gốc
(khoảng 24000 đồng nghĩa) về các mô tả bất thường trong kiểu hình của chuột (thống kê năm 2012)
- Unified medical language system (UMLS) là một tập hợp các tập tin
và phần mềm mang lại rất nhiều từ vựng và tiêu chuẩn của lĩnh vực y sinh học và sức khỏe
- Tập ngữ liệu KMR được chú thích thủ công trong nghiên cứu
Khordad et al (2011) Tập ngữ liệu này chứa 3784 token (120 câu) với 110 đề cập đến kiểu hình Ngữ liệu KMR được thu từ 4 bài báo của PubMed trong năm 2009 trong lĩnh vực di truyền của con người
2.2 Phương pháp so sánh cơ sở: Khordad et al (2011)
Luận văn sử dụng phương pháp của Khordad et al (2011) là phương pháp cơ sở để so sánh trong các thực nghiệm
Phương pháp của Khordad et al (2011) dựa trên MetaMap, UMLS Metathesaurus và Human Phenotype Ontology Từ một hệ thống cơ bản chỉ sử dụng các tài nguyên nói trên, năm luật nhằm nắm bắt các đặc điểm
Trang 84
ngôn ngữ và hình thái của kiểu hình được áp dụng để nâng cao hiệu năng
hệ thống Hình 2.3 mô tả mô hình của hệ thống này
Hình 2.3: Mô hình hệ thống nghiên cứu của Khordad et al (2011)
Trang 9CHƯƠNG 3 PHƯƠNG PHÁP
3.1 Lược đồ
Luận văn tiến hành nhận dạng hai loại thực thể: GGP (gen và các sản phẩm của gene) và BF (đặc tính cơ thể)
Định nghĩa: Thực thể gen và sản phẩm của gen (GGP) là một đề cập đến một trong ba thành phần phân tử vĩ mô chính: DNA, RNA hoặc protein DNA và RNA chuỗi axit nucleic chứa các chỉ dẫn di truyền được sử dụng trong quá trình phát triển và các chức năng của một sinh vật Protein là chuỗi polypeptide, hoặc các bộ phận của chuỗi polypeptide, tạo thành những cấu trúc thuận lợi cho chức năng sinh học
Như đã giải thích trong chương 1, luận văn này sử dụng khái niệm đặc tính cơ thể như là ứng viên kiểu hình
Định nghĩa: Thực thể đặc trưng cơ thể (BF) là một đề cập đến đặc tính của các bộ phận cơ thể trong sinh vật
Hình 3.1 là mô hình tổng quan (không chính thức) của thực thể BF Mô hình này đưa ra một mô tả trực quan của các dạng có thể của thực thể kiểu hình thông qua việc khảo sát dữ liệu, đó là: thuộc tính cấu trúc, thuộc tính định tính, thuộc tính về chức năng và thuộc tính về quá trình
3.2 Tài nguyên dữ liệu đã được gán nhãn
Trong nghiên cứu này, chúng tôi thu thập và gán nhãn một bộ ngữ liệu
mới: Phenominer corpus Ngữ liệu Phenominer phiên bản 1.0 chứa 112
tóm tắt mà chúng tôi lựa chọn từ PubMed Central (PMC) 19 bệnh tự miễn dịch (bệnh phát sinh từ các phản ứng miễn dịch không phù hợp của cơ thể chống lại các chất và các mô bình thường hiện diện trong cơ thể) được lựa chọn từ OMIM chúng tôi thu thập tập ngữ liệu Phenominer dựa trên các bệnh này
Việc gán nhãn được thực hiện bởi chuyên gia gán nhãn có kinh nghiệm trong lĩnh vực y sinh học đã gán nhãn GENIA corpus, sử dụng công cụ Brat
Trang 106
Tổng số token (câu) trong ngữ liệu Phenominer là 26,026 (1976), trong
đó có 1611 thực thể GGP và 472 thực thể BFMột số thực thể khác liên quan đến kiểu hình cũng được gán nhãn: ORGANISM (sinh vật), ANATOMY (bộ phận cơ thể), DISEASE (bệnh) and CHED (hóa chất và thuốc), các thực thể này có thể sẽ được sử dụng trong bước tiếp theo của nghiên cứu Không có sự giao nhau nào về mặt câu giữa ngữ liệu
Phenominer và ngữ kiệu KMR
Hình 3.1: Mô hình tổng quan không chính thức của thực thể BF
3.3 Mô hình đề xuất
Hệ thống luận văn xây dựng bao gồm bộ gán nhãn học máy và bộ gán nhãn dựa trên tri thức, được kết hợp bằng mô-đun kết hợp kết quả sử dụng luật Hệ thống được mô tả trong hình 3.2
3.3.1 Bộ gán nhãn học máy
Trong bộ gán nhãn học máy, chúng tôi so sánh hai phương pháp học máy được sử dụng rộng rãi: mô hình Markov ẩn (Hidden Markov Models-HMM) và trường ngẫu nhiên điều kiện (Conditional Random Fields -
Trang 11CRF) Cả hai đều là mô hình học có giám sát, nhãn lớp dựa trên chuẩn BIO
Bộ gán nhãn học máy sử dụng một tập đặc trưng phong phú kết hợp giữa các đặc trưng thông dụng và hiệu quả nhất thường được sử dụng cho NER trong văn bản y sinh học và hai đặc trưng mới thu được từ MetaMap
và bộ gán nhãn Genia tagger (bảng 3.3)
Bảng 3.3: Tập đặc trưng được sử dụng trong bộ gán nhãn học máy
OR Orthography initCap, isDate, allCap,
isDigit
(context) History context Future context Conjoined context
wi-2, wi-1
wi+1, wi+2
wi-2. wi-1
3.3.2 Bộ gán nhãn dựa trên tri thức
Bộ gán nhãn dựa trên tri thức chia thành đun đối sánh luật và mô-đun đối sánh từ điển
- Đối sánh luật triển khai cách tiếp cận của Khordad et al (2011) sử
dụng MetaMap, một phần của UMLS, HPO và 5 luật dựa trên kinh nghiệm để nhận dạng kiểu hình
- Đối sánh từ điển sử dụng kỹ thuật đối sánh chuỗi dài nhất (longest
string matching) để nhận dang thực thể từ các tài nguyên:
o Thực thể BF: HPO (9500 thuật ngữ, 15819 từ đồng nghĩa) và
MP (9162 thuật ngữ, 23712 từ đồng nghĩa)
o Thực thể GGP: Danh sách gen cung cấp bởi National Center for Biotechnology Information (khoảng 9 triệu tên gen)
3.3.3 Mô-đun kết hợp kết quả
Từ hai bộ gán nhãn nói trên, ta thu được 5 kết quả đầu ra (một của bộ gán nhãn học máy, một của mô-đun đối sánh luật và 3 của mô-đun đối sánh từ điển) Nếu có xung đột xảy ra giữa các đầu ra này, mô-đun kết hợp
Trang 128
kết quả sẽ chịu trách nhiệm chọn ra một kết quả cuối cùng Mô-đun kết hợp kết quả sử dụng các luật sau đây (xử lý theo từng câu):
- Theo Jimeno et al (2008), chúng tôi kết hợp nhãn thực thể giả định
bằng cách thu thập bất kỳ kết quả thực thể nào được đề xuất bởi ít nhất một trong các phương pháp Nhãn O có độ ưu tiên thấp nhất
- Dựa trên việc phân tích bản thể học của BF và GGP, chúng tôi nhận
thấy rằng có nhiều trường hợp GGP là một phần nằm trong BF Nhãn GGP có độ ưu tiên thấp hơn BF
- Nếu có sự xung đột về ranh giới từ, chúng tôi hợp nhất các thực thể
“láng giềng” có sự chia sẻ một chuỗi token nào đó thành một thực thể duy nhất và chọn cho nó nhãn có độ ưu tiên cao nhất
Hình 3.2: Kiến trúc gán nhãn kiểu hình
Trang 13
CHƯƠNG 4 KẾT QUẢ THỰC NGHIỆM
VÀ ĐÁNH GIÁ
4.1 Các độ đo
- Luận văn sử dụng các độ đo tiêu chuẩn (độ chính xác P, độ hồi tường
R và F1), trong đó F1 là cơ sở chính cho các so sánh
- F1 cho cả hệ thống được tính toán theo hai kiểu tính trung bình: micro-average F1 và macro-average F1
- Việc đối sánh với ngữ liệu tiêu chuẩn sử dụng đối sánh một phần (partial matching), tức là một đối sánh được tính là chính xác khi thực thể được gán nhãn trong dữ liệu tiêu chuẩn và thực thể được gán nhãn bởi hệ thống có một phần trùng nhau
4.2 Thực nghiệm trên tập dữ liệu KMR
Kết quả thực nghiệm trên tập dữ liệu KMR đưa ra trong bảng 4.1
Bảng 4.1 Kết quả nhận dạng thực thể BF trên bộ dữ liệu KMR sử dụng
mô hình lai (hybrid) và phương pháp đối sánh một phần
Model Lớp Metric Khordad HMM CRF KB Hybrid
BF
P 90.74 37.54 65.09 87.64 86.37
R 88.44 31.18 71.83 79.36 84.19
F 89.58 34.07 68.29 83.29 85.27
4.3 Thực nghiệm trên tập dữ liệu Phenominer
Kết quả thực nghiệm trên tập dữ liệu Phenominer được đưa ra trong bảng 4.2
Bảng 4.2: Kết quả cho từng thực thể trên bộ dữ liệu Phenominer sử dụng
mô hình lai (hybrid) và phương pháp đối sánh một phần
Model Lớp Metric Khordad GENIA HMM CRF KB Hybrid
BF
P 65.89 - 34.17 63.23 61.24 74.49
R 57.44 - 36.81 64.09 60.91 76.28
F 61.38 - 35.44 63.66 61.07 75.37
Trang 1410
GGP
P - 78.35 62.54 74.96 92.74 85.11
R - 83.61 64.27 83.46 61.31 83.37
F - 80.98 63.39 78.98 73.82 84.23
Total Micro avg F1 - - 54.31 74.71 71.62 84.01
Macro avg F1 - - 49.42 71.32 67.45 79.80
4.4 Thảo luận
- Tập ngữ liệu Phenominer phức tạp hơn tập ngữ liệu KMR về cả mặt cấu trúc kiểu hình và ngữ cảnh chứa chúng Độ dài trung bình của kiểu hình trong tập ngữ liệu KMR là 1.72 tokens với kiểu hình dài nhất chứa 5 tokens Ngược lại, độ dài trung bình của thực thể BF trong Phenominer là 2.89 tokens, BF dài nhất chứa 16 tokens, thực thể GGP dài nhất cũng chứa
16 tokens
- Kết quả của hệ thống trên tập ngữ liệu Phenominer (F1: 75.37 đối với
BF và micro-average F1: 84.01 của toàn hệ thống) là đáng khích lệ, và như chúng tôi hy vọng, đã chứng minh sức mạnh của việc kết hợp giữa học máy và các tri thức miền
Trang 15CHƯƠNG 5 KẾT LUẬN
Luận văn trình bày về một cách tiếp cận lai kết hợp giữa phương pháp học máy và phương pháp dựa trên tri thức để nhận dạng thực thể kiểu hình Trong bộ gán nhãn học máy, ngoài các đặc trưng thường gặp cho nhận dạng thực thể y sinh học, chúng tôi đề xuất hai đặc trưng mới thu được từ MetaMap và bộ gán nhãn Genia Bộ gán nhãn dựa trên tri thức sử dụng nhiều tài nguyên hữu ích như HPO, MP, v.v
Luận văn xây dựng một tập ngữ liệu mới “phenominer corpus”, bao gồm 112 tóm tắt Các tóm tắt này được lựa chọn từ PMC dựa trên 19 bệnh
tự miễn dịch
Các thực nghiệm đánh giá đã chứng minh rằng phương pháp lai cho kết quả tốt cả trên tập ngữ liệu KMR cũng như tập ngữ liệu Phenominer (F: 85.27 trên tập ngữ liệu KMR và 84.01 trên tập ngữ liệu Phenominer) Trong các bước tiếp theo của nghiên cứu này, chúng tôi có rất nhiều ý tưởng để thực hiện, ví dụ như nhận dạng thêm các thực thể khác liên quan đến kiểu hình, áp dụng học máy cho mô-đun kết hợp kết quả, mở rộng tập
dữ liệu Phenominer phiên bản 1.0 với nhiều thể hiện của kiểu hình hơn, v.v