1. Trang chủ
  2. » Giáo Dục - Đào Tạo

A hybrid approach to finding phenotype candidates in genetic text

17 40 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 17
Dung lượng 859,38 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Ngược lại với các cách tiếp cận trước đây, chúng tôi đánh giá một kỹ thuật tiên tiến dựa trên việc kết hợp giữa học máy sử dụng tập đặc trưng phong phú với các tài nguyên tri thức miền đ

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

LÊ HOÀNG QUỲNH

MỘT HƯỚNG TIẾP CẬN LAI

ĐỂ NHẬN DẠNG CÁC ỨNG VIÊN KIỂU HÌNH

TRONG VĂN BẢN SINH HỌC

TÓM TẮT LUẬN VĂN CAO HỌC

Hanoi – 2012

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

LÊ HOÀNG QUỲNH

MỘT HƯỚNG TIẾP CẬN LAI

ĐỂ NHẬN DẠNG CÁC ỨNG VIÊN KIỂU HÌNH

TRONG VĂN BẢN SINH HỌC

Chuyên ngành : Khoa học máy tính

Mã số : 60 48 01

TÓM TẮT LUẬN VĂN CAO HỌC Giáo viên hướng dẫn: PGS.TS Hà Quang Thụy

Hanoi – 2012

Trang 3

Table of Contents

1.1 Motivation and problem definition 1

1.2 Phenotype definition 2

1.3 The challenges of phenotype entity recognition 3

2 Related works 6 2.1 Useful resources 6

2.1.1 GENIA and JNLPBA corpora 7

2.1.2 The online mendelian inheritance in man 7

2.1.3 The human phenotype ontology 8

2.1.4 The mammalian phenotype ontology 9

2.1.5 The unified medical language system 9

2.1.6 KMR corpus 10

2.2 Related researches 11

2.2.1 Baseline method: Khordad et al (2011) 11

3 Methods 16 3.1 Schema 16

3.2 Annotated data sources 20

3.3 Proposed model 22

3.3.1 Pre-processing 22

3.3.2 Machine learning labeler 22

3.3.3 Knowledge-based labeler 24

3.3.4 Merge results 25

4 Experimental results and evaluation 29 4.1 Metrics 29

4.2 Experiments on the KMR corpus 31

Trang 4

TABLE OF CONTENTS v

4.3 Experiments on the Phenominer corpus 32

4.4 Discussion 35

4.4.1 Discussion on corpora 35

4.4.2 Discussion on results 36

Trang 5

Tóm tắt

Nhận dạng thực thể định danh (NER) đã được nghiên cứu rộng rãi cho tên gen và các sản phẩm của gen, tuy nhiên lại có rất ít giải pháp được đề xuất cho kiểu hình Kiểu hình được trông đợi sẽ đóng vai trò quan trọng trong việc suy luận vai trò của gen trong các bệnh di truyền phức tạp, tuy nhiên ngữ nghĩa phức tạp và phạm vi của kiểu hình làm cho nó trở nên rất khó để phân tích Ngược lại với các cách tiếp cận trước đây, chúng tôi đánh giá một kỹ thuật tiên tiến dựa trên việc kết hợp giữa học máy sử dụng tập đặc trưng phong phú với các tài nguyên tri thức miền đã có Phương pháp của chúng tôi được đánh giá trên hai tập dữ liệu chuẩn, một trong số đó là tập dữ liệu mới mà chúng tôi xây dựng bao gồm 112 tóm tắt PMC thu được từ việc tìm kiếm ngữ nghĩa với các bệnh tự động miễn dịch trên ciw sở dữ liệu Online Mendelian Inheritance of Man Kết quả của phương pháp lai rất đáng khích lệ, tốt hơn kết quả thu được khi sử dụng HMM, CRF và phương pháp dựa trên tri thức F1 của hệ thống là 75.37 cho thực thể BF và micro average F1 của toàn hệ thống là 84.01

Từ khóa- trường ngẫu nhiên điều kiện; y sinh học; học máy; rối loạn di

truyền; kiểu hình, khai phá văn bản

Trang 6

2

CHƯƠNG 1 GIỚI THIỆU

Nhận dạng thực thể (NER) y sinh học là một kỹ thuật tính toán sử dụng

để nhân dạng và phân lớp một chuỗi văn bản xác định các khái niệm quan trọng trong y sinh học

Luận văn này tập trung vào việc phân tích và nhận dạng một lớp thực thể mới: kiểu hình (phenotype) Theo Hoehndorf et al (2010), kiểu hình rất quan trọng khi phân tích cơ chế phân tử của bệnh, nó cũng được dự kiến là sẽ đóng vai trò chủ chốt trong việc suy luận vai trò của gen trong các bệnh di truyền phức tạp

Định nghĩa của chúng tôi dựa trên các phân tích trong nghiên cứu của Scheuermann et al (2009)

Định nghĩa: Thực thể kiểu hình là một (hoặc tổ hợp các) đặc trưng

cơ thể của sinh vật được xác định bởi sự tương tác của các nguyên nhân di truyền và môi trường

Ví dụ: [lack of kidney] (thiếu thận), [abnormal cell migration] (bất thường trong việc chuyển đổi tế bào), [absent ankle reflexes] (không có phản xạ mắt cá chân), [susceptibility to ulcerative colitis] (nhạy cảm với viêm loét đại tràng)

Định nghĩa này của kiểu hình yêu cầu xác định nguyên nhân tiềm ẩn của kiểu hình Việc này thường rất khó khăn, vì vậy luận văn này tập trung vào nhận dạng các đặc trưng cơ thể như là ứng viên của kiểu hình, nguyên nhân gây nên nó sẽ được xác định ở các bước xử lý sau này

Định nghĩa: Thực thể đặc trưng cơ thể (BF) là một đề cập đến đặc tính của các bộ phận cơ thể trong sinh vật

Trang 7

CHƯƠNG 2 CÁC NGHIÊN CỨU LIÊN QUAN

Những động lực và thách thức như chúng tôi đã đề cập đến trong chương 1 dẫn tới rất nhiều các giải pháp khác nhau được đề xuất dựa trên nhiều nguồn tài nguyên

2.1 Các tài nguyên hữu ích

Sử dụng các tài nguyên có sẵn không chỉ giúp chúng ta tận dụng tri thức từ các nghiên cứu khác mà còn giúp giảm thiểu công sức Cho đến nay, có rất nhiều tài nguyên được sử dụng trong tin sinh học Một số trong

đó có thể hữu ích cho bài toán nhận dạng thực thể trong dữ liệu y sinh học

- Tập dữ liệu JNLPBA thu được từ dữ liệu GENIA phiên bản 3.02

corpus, bao gồm 2000 tóm tắt (20,546 câu, hơn 400,000 từ), chỉ sử dụng các lớp protein, DNA, RNA, cell line và cell type

- Online mendelian inheritance in man (OMIM) là một danh mục cập

nhật liên tục của gen, rối loạn di truyền và đặc điểm di truyền của con người Có hơn 4500 bản tóm lược lâm sàng trong OMIM

- Human phenotype ontology (HPO) bao gồm hơn 9500 thuật ngữ gốc

(hơn 15000 từ đồng nghĩa) mô tả các đặc trưng kiểu hình của con người (thống kê năm 2012)

- Mammalian phenotype ontology (MP) có hơn 9000 thuật ngữ gốc

(khoảng 24000 đồng nghĩa) về các mô tả bất thường trong kiểu hình của chuột (thống kê năm 2012)

- Unified medical language system (UMLS) là một tập hợp các tập tin

và phần mềm mang lại rất nhiều từ vựng và tiêu chuẩn của lĩnh vực y sinh học và sức khỏe

- Tập ngữ liệu KMR được chú thích thủ công trong nghiên cứu

Khordad et al (2011) Tập ngữ liệu này chứa 3784 token (120 câu) với 110 đề cập đến kiểu hình Ngữ liệu KMR được thu từ 4 bài báo của PubMed trong năm 2009 trong lĩnh vực di truyền của con người

2.2 Phương pháp so sánh cơ sở: Khordad et al (2011)

Luận văn sử dụng phương pháp của Khordad et al (2011) là phương pháp cơ sở để so sánh trong các thực nghiệm

Phương pháp của Khordad et al (2011) dựa trên MetaMap, UMLS Metathesaurus và Human Phenotype Ontology Từ một hệ thống cơ bản chỉ sử dụng các tài nguyên nói trên, năm luật nhằm nắm bắt các đặc điểm

Trang 8

4

ngôn ngữ và hình thái của kiểu hình được áp dụng để nâng cao hiệu năng

hệ thống Hình 2.3 mô tả mô hình của hệ thống này

Hình 2.3: Mô hình hệ thống nghiên cứu của Khordad et al (2011)

Trang 9

CHƯƠNG 3 PHƯƠNG PHÁP

3.1 Lược đồ

Luận văn tiến hành nhận dạng hai loại thực thể: GGP (gen và các sản phẩm của gene) và BF (đặc tính cơ thể)

Định nghĩa: Thực thể gen và sản phẩm của gen (GGP) là một đề cập đến một trong ba thành phần phân tử vĩ mô chính: DNA, RNA hoặc protein DNA và RNA chuỗi axit nucleic chứa các chỉ dẫn di truyền được sử dụng trong quá trình phát triển và các chức năng của một sinh vật Protein là chuỗi polypeptide, hoặc các bộ phận của chuỗi polypeptide, tạo thành những cấu trúc thuận lợi cho chức năng sinh học

Như đã giải thích trong chương 1, luận văn này sử dụng khái niệm đặc tính cơ thể như là ứng viên kiểu hình

Định nghĩa: Thực thể đặc trưng cơ thể (BF) là một đề cập đến đặc tính của các bộ phận cơ thể trong sinh vật

Hình 3.1 là mô hình tổng quan (không chính thức) của thực thể BF Mô hình này đưa ra một mô tả trực quan của các dạng có thể của thực thể kiểu hình thông qua việc khảo sát dữ liệu, đó là: thuộc tính cấu trúc, thuộc tính định tính, thuộc tính về chức năng và thuộc tính về quá trình

3.2 Tài nguyên dữ liệu đã được gán nhãn

Trong nghiên cứu này, chúng tôi thu thập và gán nhãn một bộ ngữ liệu

mới: Phenominer corpus Ngữ liệu Phenominer phiên bản 1.0 chứa 112

tóm tắt mà chúng tôi lựa chọn từ PubMed Central (PMC) 19 bệnh tự miễn dịch (bệnh phát sinh từ các phản ứng miễn dịch không phù hợp của cơ thể chống lại các chất và các mô bình thường hiện diện trong cơ thể) được lựa chọn từ OMIM chúng tôi thu thập tập ngữ liệu Phenominer dựa trên các bệnh này

Việc gán nhãn được thực hiện bởi chuyên gia gán nhãn có kinh nghiệm trong lĩnh vực y sinh học đã gán nhãn GENIA corpus, sử dụng công cụ Brat

Trang 10

6

Tổng số token (câu) trong ngữ liệu Phenominer là 26,026 (1976), trong

đó có 1611 thực thể GGP và 472 thực thể BFMột số thực thể khác liên quan đến kiểu hình cũng được gán nhãn: ORGANISM (sinh vật), ANATOMY (bộ phận cơ thể), DISEASE (bệnh) and CHED (hóa chất và thuốc), các thực thể này có thể sẽ được sử dụng trong bước tiếp theo của nghiên cứu Không có sự giao nhau nào về mặt câu giữa ngữ liệu

Phenominer và ngữ kiệu KMR

Hình 3.1: Mô hình tổng quan không chính thức của thực thể BF

3.3 Mô hình đề xuất

Hệ thống luận văn xây dựng bao gồm bộ gán nhãn học máy và bộ gán nhãn dựa trên tri thức, được kết hợp bằng mô-đun kết hợp kết quả sử dụng luật Hệ thống được mô tả trong hình 3.2

3.3.1 Bộ gán nhãn học máy

Trong bộ gán nhãn học máy, chúng tôi so sánh hai phương pháp học máy được sử dụng rộng rãi: mô hình Markov ẩn (Hidden Markov Models-HMM) và trường ngẫu nhiên điều kiện (Conditional Random Fields -

Trang 11

CRF) Cả hai đều là mô hình học có giám sát, nhãn lớp dựa trên chuẩn BIO

Bộ gán nhãn học máy sử dụng một tập đặc trưng phong phú kết hợp giữa các đặc trưng thông dụng và hiệu quả nhất thường được sử dụng cho NER trong văn bản y sinh học và hai đặc trưng mới thu được từ MetaMap

và bộ gán nhãn Genia tagger (bảng 3.3)

Bảng 3.3: Tập đặc trưng được sử dụng trong bộ gán nhãn học máy

OR Orthography initCap, isDate, allCap,

isDigit

(context) History context Future context Conjoined context

wi-2, wi-1

wi+1, wi+2

wi-2. wi-1

3.3.2 Bộ gán nhãn dựa trên tri thức

Bộ gán nhãn dựa trên tri thức chia thành đun đối sánh luật và mô-đun đối sánh từ điển

- Đối sánh luật triển khai cách tiếp cận của Khordad et al (2011) sử

dụng MetaMap, một phần của UMLS, HPO và 5 luật dựa trên kinh nghiệm để nhận dạng kiểu hình

- Đối sánh từ điển sử dụng kỹ thuật đối sánh chuỗi dài nhất (longest

string matching) để nhận dang thực thể từ các tài nguyên:

o Thực thể BF: HPO (9500 thuật ngữ, 15819 từ đồng nghĩa) và

MP (9162 thuật ngữ, 23712 từ đồng nghĩa)

o Thực thể GGP: Danh sách gen cung cấp bởi National Center for Biotechnology Information (khoảng 9 triệu tên gen)

3.3.3 Mô-đun kết hợp kết quả

Từ hai bộ gán nhãn nói trên, ta thu được 5 kết quả đầu ra (một của bộ gán nhãn học máy, một của mô-đun đối sánh luật và 3 của mô-đun đối sánh từ điển) Nếu có xung đột xảy ra giữa các đầu ra này, mô-đun kết hợp

Trang 12

8

kết quả sẽ chịu trách nhiệm chọn ra một kết quả cuối cùng Mô-đun kết hợp kết quả sử dụng các luật sau đây (xử lý theo từng câu):

- Theo Jimeno et al (2008), chúng tôi kết hợp nhãn thực thể giả định

bằng cách thu thập bất kỳ kết quả thực thể nào được đề xuất bởi ít nhất một trong các phương pháp  Nhãn O có độ ưu tiên thấp nhất

- Dựa trên việc phân tích bản thể học của BF và GGP, chúng tôi nhận

thấy rằng có nhiều trường hợp GGP là một phần nằm trong BF  Nhãn GGP có độ ưu tiên thấp hơn BF

- Nếu có sự xung đột về ranh giới từ, chúng tôi hợp nhất các thực thể

“láng giềng” có sự chia sẻ một chuỗi token nào đó thành một thực thể duy nhất và chọn cho nó nhãn có độ ưu tiên cao nhất

Hình 3.2: Kiến trúc gán nhãn kiểu hình

Trang 13

CHƯƠNG 4 KẾT QUẢ THỰC NGHIỆM

VÀ ĐÁNH GIÁ

4.1 Các độ đo

- Luận văn sử dụng các độ đo tiêu chuẩn (độ chính xác P, độ hồi tường

R và F1), trong đó F1 là cơ sở chính cho các so sánh

- F1 cho cả hệ thống được tính toán theo hai kiểu tính trung bình: micro-average F1 và macro-average F1

- Việc đối sánh với ngữ liệu tiêu chuẩn sử dụng đối sánh một phần (partial matching), tức là một đối sánh được tính là chính xác khi thực thể được gán nhãn trong dữ liệu tiêu chuẩn và thực thể được gán nhãn bởi hệ thống có một phần trùng nhau

4.2 Thực nghiệm trên tập dữ liệu KMR

Kết quả thực nghiệm trên tập dữ liệu KMR đưa ra trong bảng 4.1

Bảng 4.1 Kết quả nhận dạng thực thể BF trên bộ dữ liệu KMR sử dụng

mô hình lai (hybrid) và phương pháp đối sánh một phần

Model Lớp Metric Khordad HMM CRF KB Hybrid

BF

P 90.74 37.54 65.09 87.64 86.37

R 88.44 31.18 71.83 79.36 84.19

F 89.58 34.07 68.29 83.29 85.27

4.3 Thực nghiệm trên tập dữ liệu Phenominer

Kết quả thực nghiệm trên tập dữ liệu Phenominer được đưa ra trong bảng 4.2

Bảng 4.2: Kết quả cho từng thực thể trên bộ dữ liệu Phenominer sử dụng

mô hình lai (hybrid) và phương pháp đối sánh một phần

Model Lớp Metric Khordad GENIA HMM CRF KB Hybrid

BF

P 65.89 - 34.17 63.23 61.24 74.49

R 57.44 - 36.81 64.09 60.91 76.28

F 61.38 - 35.44 63.66 61.07 75.37

Trang 14

10

GGP

P - 78.35 62.54 74.96 92.74 85.11

R - 83.61 64.27 83.46 61.31 83.37

F - 80.98 63.39 78.98 73.82 84.23

Total Micro avg F1 - - 54.31 74.71 71.62 84.01

Macro avg F1 - - 49.42 71.32 67.45 79.80

4.4 Thảo luận

- Tập ngữ liệu Phenominer phức tạp hơn tập ngữ liệu KMR về cả mặt cấu trúc kiểu hình và ngữ cảnh chứa chúng Độ dài trung bình của kiểu hình trong tập ngữ liệu KMR là 1.72 tokens với kiểu hình dài nhất chứa 5 tokens Ngược lại, độ dài trung bình của thực thể BF trong Phenominer là 2.89 tokens, BF dài nhất chứa 16 tokens, thực thể GGP dài nhất cũng chứa

16 tokens

- Kết quả của hệ thống trên tập ngữ liệu Phenominer (F1: 75.37 đối với

BF và micro-average F1: 84.01 của toàn hệ thống) là đáng khích lệ, và như chúng tôi hy vọng, đã chứng minh sức mạnh của việc kết hợp giữa học máy và các tri thức miền

Trang 15

CHƯƠNG 5 KẾT LUẬN

Luận văn trình bày về một cách tiếp cận lai kết hợp giữa phương pháp học máy và phương pháp dựa trên tri thức để nhận dạng thực thể kiểu hình Trong bộ gán nhãn học máy, ngoài các đặc trưng thường gặp cho nhận dạng thực thể y sinh học, chúng tôi đề xuất hai đặc trưng mới thu được từ MetaMap và bộ gán nhãn Genia Bộ gán nhãn dựa trên tri thức sử dụng nhiều tài nguyên hữu ích như HPO, MP, v.v

Luận văn xây dựng một tập ngữ liệu mới “phenominer corpus”, bao gồm 112 tóm tắt Các tóm tắt này được lựa chọn từ PMC dựa trên 19 bệnh

tự miễn dịch

Các thực nghiệm đánh giá đã chứng minh rằng phương pháp lai cho kết quả tốt cả trên tập ngữ liệu KMR cũng như tập ngữ liệu Phenominer (F: 85.27 trên tập ngữ liệu KMR và 84.01 trên tập ngữ liệu Phenominer) Trong các bước tiếp theo của nghiên cứu này, chúng tôi có rất nhiều ý tưởng để thực hiện, ví dụ như nhận dạng thêm các thực thể khác liên quan đến kiểu hình, áp dụng học máy cho mô-đun kết hợp kết quả, mở rộng tập

dữ liệu Phenominer phiên bản 1.0 với nhiều thể hiện của kiểu hình hơn, v.v

Ngày đăng: 07/03/2020, 18:28

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm