NHẬN DẠNG THỰC THỂ TRONG SINH HỌC BẰNG HMM (Hidden Markov Model )

Trang 1

NHẬN DẠNG THỰC THỂ TRONG

SINH HỌC BẰNG HMM (Hidden Markov Model )

Giảng viên: TS Nguyễn Trí Thành Nhóm 5

Trang 2

Nội dung chính

I Giới thiệu bài toán nhận dạng thực thể

trong sinh học

II Cơ sở lý thuyết về HMM

III Phương pháp giải quyết bài toán

IV Thực nghiệm

V Kết luận

Trang 3

Trích xuất thông tin là gì?

Trích chọn thông tin là một lĩnh vực quan trọng trong khai phá dữ liệu văn bản.

Trích xuất thông tin là thực hiện việc trích rút các thông tin có cấu trúc từ các văn bản không có cấu trúc

Tức là rút ra những thông tin đã được định nghĩa trước về các thực thể và mối quan hệ giữa các thực thể từ một văn bản dưới dạng ngôn ngữ tự nhiên và điền những thông tin này vào một văn bản ghi dữ liệu có cấu trúc hoặc một dạng mẫu được định nghĩa trước đó

Trang 4



Trang 5

Giới thiệu bài toàn nhận dạng

thực thể sinh học trong văn bản

Bài toán nhận dạng thực thể sinh học trong văn bản là bài toán phân loại các từ, ngữ liên quan đến các thuật ngữ trong sinh học và tên gọi

VD: Các loại Gen, Protein,DNA, Cell

Mục đích: Nhận dạng, thống kê các thực thể sinh học từ đó xây dựng quan hệ quan hệ giữa các thực thể

Trang 6

không có quy luật nhận biết cụ thể

không được viết hoa

surface receptor và tên thực thể ngắn có thể kết hợp để tạo

ra tên thực thể dài hơn Vì vậy, khó xác định được biên của tên thực thể.

Các khó khăn của bài toán

Trang 7

Cơ sở lý thuyết về HMM

(Hidden Markov Model)

Mô hình Markov ẩn được giới thiệu và nghiên cứu vào cuối những năm 1960 và đầu những năm 1970 ,cho đến nay nó được ứng dụng nhiều trong nhận dạng tiếng nói, tin sinh học và xử lý ngôn ngữ tự nhiên

HMM là mô hình máy trạng thái hữu hạn (probabilistic finite state machine) với các tham số biểu diễn xác suất chuyển trạng thái và xác suất sinh dữ liệu quan sát tại mỗi trạng thái.

Trang 8

Đồ thị có hướng mô tả mô hình HMM

Si là trạng thái tại thời điểm t=i trong chuỗi trạng thái S,

Oi là dữ liệu quan sát được tại thời điểm t=i trong chuỗi O

Xác suất P(S,O) như sau:

Quá trình tìm ra chuỗi trạng thái tối ưu mô tả tốt nhất chuỗi dữ liệu quan sát cho trước có thể được thực hiện bởi một kĩ thuật lập trình quy hoạch động sử dụng thuật toán Viterbi.

Trang 9

Mô hình giải quyết

bài toán

Trang 10

Thực nghiệm

 Môi trường:

Chip: Intel(R) Core(TM) 2 Duo CPU 1.8GHz

Ram: 1.00 GB

Hệ điều hành: Microsoft Windows 7, XP2, Linux

Trình duyệt Mozila Firefox 5.0

 Công cụ

Geniatagger-1.0

Đây là công cụ đánh phân biệt và đánh dấu các thực thể tên y sinh học trong văn bản như Gen, Protien, DNA, RNA

Công cụ do Tsujii laboratory, University of Tokyo phát triển.

Trang 11

GENIA Tagger Demo

Site dùng demo chức năng cho Geniatagger-1.0

http://text0.mib.man.ac.uk/software/geniatagger/

Trang 12

File thử nghiệm

Analysis of myeloid-associated genes in human hematopoietic progenitor cells.

Bello-Fernandez et al Exp Hematol 1997 Oct;25(11)

Các thẻ viết tắt

Trang 13

Kết quả gán các thẻ cho các từ loại

Trang 14

Kết quả nhận dạng các thực thể

Trang 15

 Báo cáo đã hệ thống hóa một số vấn đề lý thuyết về trích chọn thông tin, bài toán nhận biết loại thực thể sinh học đồng thời trình bày, phân tích, đánh giá một số hướng tiếp cận bài toán nhận biết loại thực thể Một số vấn đề và giải pháp đối với bài toán nhận biết loại thực thể sinh học dựa trên mô hinh HMM đã được đề xuất, thực nghiệm và thu được một số kết quả rất khả quan.

 Trên cơ sở bài toán trích chọn thực thể sinh học, chúng tôi dự định tìm hiểu và xây dựng một hệ thống trích chọn quan hệ giữa các thực thể sinh học (protein/gen) từ đó tìm ra mối quan hệ như nơi sinh của một người Và chúng tôi hi vọng sẽ mở rộng framework đối với nhiều loại thực thể khác như dịa danh, tên người, tên bệnh, thuốc và áp dụng cho nhiều dữ liệu hơn nữa.

Kết luận

Trang 16

 [1] Hồ Tú Bảo Giới thiệu về tin sinh học Viện Công nghệ Thông tin, TTKHTN&CNQG, Viện Khoa học và Công nghệ

Tiến tiến Nhật Bản (JAIST)

 [2] Nguyễn Cẩm Tú Nhận biết các loại thực thể trong văn bản tiếng Việt nhằm hỗ trợ web ngữ nghĩa và tìm kiếm

hướng thực thể, Khóa luận tốt nghiệp đại học, Trường Đại học Công Nghệ - ĐH Quốc Gia Hà Nội, 2005

 [3] Trần Thị Ngân, Lê Hoàng Quỳnh, Nguyễn Thanh Sơn Nhận biết một số thực thể đặc trưng cho dữ liệu y tế

tiếng Việt tiếp cận học bán giám sát, Báo cáo NCKH năm 2009, Trường Đại học Công Nghệ - ĐH Quốc Gia Hà Nội

 [4] Đào Minh Tùng, Chu Thị Thủy, Hà Thị Oanh, Trần Phi Dũng Mô hình trích chọn quan hệ tương tác

Protein-Gen dựa trên kỹ thuật Boostrapping và học máy SVM Báo cáo NCKH năm 2011, Trường ĐH Công Nghệ - ĐH Quốc Gia Hà Nội

 [5] Hanna Wallach Efficient Training of Conditional Random Fields Doctor of Philosophy, University Of Edinburgh,

2002

 [6] Marie-Francine Moens Information Extraction: Algorithms and Prospects in a Retrieval Context, Katholieke

Universiteit Leuven, Belgium

 [7] Nigel Collier, Chikashi Nobata and Jun-ichi Tsujii Extracting the Names of Genes and Gene Products with a

Hidden markov Model Department of Infomation Science Graduate School of Science University of Tokyo, Hongo-7-3-1 Bunkyo-ku, Tokyo 113, Japan

 [8] Huang M và cộng sự Discovering patterns to extract protein-protein interactions from full biomedical texts

Bioinformatics, 360-3612

 [9] Kim S và cộng sự PIE: an online prediction system for protein-protein interactions from text Nucleic Acids

Research, Special Issue on Web Services.

 [10] Miwa M và cộng sự Combining multiple layers of syntactic information for protein-protein interaction

extraction In Proceeding of Third International Symposium on Semantic Mining in Biomedicine (SMBM), 101-108,

September 2008.

 [11] Van Landeghem S và cộng sự Extracting protein-protein interactions from text using rich feature vectors

and feature selection In Proceeding of Third International Symposium on Semantic Mining in Biomedicine (SMBM),

TUCS, Turku, Finland, pp.77-84.

 [12] GuoDong Zhou, Jian Su Named Entity Recognition using an HMM-based Chunk Tagger.

 [13].Website: http://vi.wikipedia.org/wiki/M%C3%B4_h%C3%ACnh_Markov_%E1%BA%A9n

Một số tài liệu tham

khảo

Trang 17

Thank you !

Định dạng
Số trang	17
Dung lượng	807,67 KB