NHẬN DẠNG THỰC THỂ TRONG SINH HỌC BẰNG HMM (Hidden Markov Model )
Trang 1NHẬN DẠNG THỰC THỂ TRONG
SINH HỌC BẰNG HMM (Hidden Markov Model )
Giảng viên: TS Nguyễn Trí Thành Nhóm 5
Trang 2Nội dung chính
I Giới thiệu bài toán nhận dạng thực thể
trong sinh học
II Cơ sở lý thuyết về HMM
III Phương pháp giải quyết bài toán
IV Thực nghiệm
V Kết luận
Trang 3Trích xuất thông tin là gì?
Trích chọn thông tin là một lĩnh vực quan trọng trong khai phá dữ liệu văn bản.
Trích xuất thông tin là thực hiện việc trích rút các thông tin có cấu trúc từ các văn bản không có cấu trúc
Tức là rút ra những thông tin đã được định nghĩa trước về các thực thể và mối quan hệ giữa các thực thể từ một văn bản dưới dạng ngôn ngữ tự nhiên và điền những thông tin này vào một văn bản ghi dữ liệu có cấu trúc hoặc một dạng mẫu được định nghĩa trước đó
Trang 4
Trang 5Giới thiệu bài toàn nhận dạng
thực thể sinh học trong văn bản
Bài toán nhận dạng thực thể sinh học trong văn bản là bài toán phân loại các từ, ngữ liên quan đến các thuật ngữ trong sinh học và tên gọi
VD: Các loại Gen, Protein,DNA, Cell
Mục đích: Nhận dạng, thống kê các thực thể sinh học từ đó xây dựng quan hệ quan hệ giữa các thực thể
Trang 6
không có quy luật nhận biết cụ thể
không được viết hoa
surface receptor và tên thực thể ngắn có thể kết hợp để tạo
ra tên thực thể dài hơn Vì vậy, khó xác định được biên của tên thực thể.
Các khó khăn của bài toán
Trang 7Cơ sở lý thuyết về HMM
(Hidden Markov Model)
Mô hình Markov ẩn được giới thiệu và nghiên cứu vào cuối những năm 1960 và đầu những năm 1970 ,cho đến nay nó được ứng dụng nhiều trong nhận dạng tiếng nói, tin sinh học và xử lý ngôn ngữ tự nhiên
HMM là mô hình máy trạng thái hữu hạn (probabilistic finite state machine) với các tham số biểu diễn xác suất chuyển trạng thái và xác suất sinh dữ liệu quan sát tại mỗi trạng thái.
Trang 8Đồ thị có hướng mô tả mô hình HMM
Si là trạng thái tại thời điểm t=i trong chuỗi trạng thái S,
Oi là dữ liệu quan sát được tại thời điểm t=i trong chuỗi O
Xác suất P(S,O) như sau:
Quá trình tìm ra chuỗi trạng thái tối ưu mô tả tốt nhất chuỗi dữ liệu quan sát cho trước có thể được thực hiện bởi một kĩ thuật lập trình quy hoạch động sử dụng thuật toán Viterbi.
Trang 9Mô hình giải quyết
bài toán
Trang 10Thực nghiệm
Môi trường:
Chip: Intel(R) Core(TM) 2 Duo CPU 1.8GHz
Ram: 1.00 GB
Hệ điều hành: Microsoft Windows 7, XP2, Linux
Trình duyệt Mozila Firefox 5.0
Công cụ
Geniatagger-1.0
Đây là công cụ đánh phân biệt và đánh dấu các thực thể tên y sinh học trong văn bản như Gen, Protien, DNA, RNA
Công cụ do Tsujii laboratory, University of Tokyo phát triển.
Trang 11GENIA Tagger Demo
Site dùng demo chức năng cho Geniatagger-1.0
http://text0.mib.man.ac.uk/software/geniatagger/
Trang 12File thử nghiệm
Analysis of myeloid-associated genes in human hematopoietic progenitor cells.
Bello-Fernandez et al Exp Hematol 1997 Oct;25(11)
Các thẻ viết tắt
Trang 13Kết quả gán các thẻ cho các từ loại
Trang 14Kết quả nhận dạng các thực thể
Trang 15 Báo cáo đã hệ thống hóa một số vấn đề lý thuyết về trích chọn thông tin, bài toán nhận biết loại thực thể sinh học đồng thời trình bày, phân tích, đánh giá một số hướng tiếp cận bài toán nhận biết loại thực thể Một số vấn đề và giải pháp đối với bài toán nhận biết loại thực thể sinh học dựa trên mô hinh HMM đã được đề xuất, thực nghiệm và thu được một số kết quả rất khả quan.
Trên cơ sở bài toán trích chọn thực thể sinh học, chúng tôi dự định tìm hiểu và xây dựng một hệ thống trích chọn quan hệ giữa các thực thể sinh học (protein/gen) từ đó tìm ra mối quan hệ như nơi sinh của một người Và chúng tôi hi vọng sẽ mở rộng framework đối với nhiều loại thực thể khác như dịa danh, tên người, tên bệnh, thuốc và áp dụng cho nhiều dữ liệu hơn nữa.
Kết luận
Trang 16 [1] Hồ Tú Bảo Giới thiệu về tin sinh học Viện Công nghệ Thông tin, TTKHTN&CNQG, Viện Khoa học và Công nghệ
Tiến tiến Nhật Bản (JAIST)
[2] Nguyễn Cẩm Tú Nhận biết các loại thực thể trong văn bản tiếng Việt nhằm hỗ trợ web ngữ nghĩa và tìm kiếm
hướng thực thể, Khóa luận tốt nghiệp đại học, Trường Đại học Công Nghệ - ĐH Quốc Gia Hà Nội, 2005
[3] Trần Thị Ngân, Lê Hoàng Quỳnh, Nguyễn Thanh Sơn Nhận biết một số thực thể đặc trưng cho dữ liệu y tế
tiếng Việt tiếp cận học bán giám sát, Báo cáo NCKH năm 2009, Trường Đại học Công Nghệ - ĐH Quốc Gia Hà Nội
[4] Đào Minh Tùng, Chu Thị Thủy, Hà Thị Oanh, Trần Phi Dũng Mô hình trích chọn quan hệ tương tác
Protein-Gen dựa trên kỹ thuật Boostrapping và học máy SVM Báo cáo NCKH năm 2011, Trường ĐH Công Nghệ - ĐH Quốc Gia Hà Nội
[5] Hanna Wallach Efficient Training of Conditional Random Fields Doctor of Philosophy, University Of Edinburgh,
2002
[6] Marie-Francine Moens Information Extraction: Algorithms and Prospects in a Retrieval Context, Katholieke
Universiteit Leuven, Belgium
[7] Nigel Collier, Chikashi Nobata and Jun-ichi Tsujii Extracting the Names of Genes and Gene Products with a
Hidden markov Model Department of Infomation Science Graduate School of Science University of Tokyo, Hongo-7-3-1 Bunkyo-ku, Tokyo 113, Japan
[8] Huang M và cộng sự Discovering patterns to extract protein-protein interactions from full biomedical texts
Bioinformatics, 360-3612
[9] Kim S và cộng sự PIE: an online prediction system for protein-protein interactions from text Nucleic Acids
Research, Special Issue on Web Services.
[10] Miwa M và cộng sự Combining multiple layers of syntactic information for protein-protein interaction
extraction In Proceeding of Third International Symposium on Semantic Mining in Biomedicine (SMBM), 101-108,
September 2008.
[11] Van Landeghem S và cộng sự Extracting protein-protein interactions from text using rich feature vectors
and feature selection In Proceeding of Third International Symposium on Semantic Mining in Biomedicine (SMBM),
TUCS, Turku, Finland, pp.77-84.
[12] GuoDong Zhou, Jian Su Named Entity Recognition using an HMM-based Chunk Tagger.
[13].Website: http://vi.wikipedia.org/wiki/M%C3%B4_h%C3%ACnh_Markov_%E1%BA%A9n
Một số tài liệu tham
khảo
Trang 17Thank you !