Luận án tập trung đề xuất một số giải pháp nhận dạng thực thể cho dữ liệu văn bản tiếng Việt và dữ liệu văn bản y sinh tiếng Anh. Các giải pháp tập trung vào vấn đề kết hợp các mô hình học máy cũng như các tri thức nguồn liên quan đến miền dữ liệu nhằm nâng cao hiệu quả đầu ra đối với các bài toán.
Trang 1Đ I H C QU C GIA HÀ N I Ạ Ọ Ố Ộ
TR ƯỜ NG Đ I H C CÔNG NGH Ạ Ọ Ệ
TR N MAI VŨ Ầ
NGHIÊN C U NH N D NG TH C TH CÓ TÊN VÀ Ứ Ậ Ạ Ự Ể
TH C TH BI U HI N TRONG VĂN B N VÀ NG Ự Ể Ể Ệ Ả Ứ
Ng ườ i h ướ ng d n khoa h c: ẫ ọ PGS.TS Hà Quang
Th y ụ
PGS.TS. Nguy n Lê Minh ễ
Ph n bi n: PGS.TS L ả ệ ươ ng Chi Mai
Ph n bi n: PGS.TS. Lê Thanh H ả ệ ươ ng
Ph n bi n: PGS.TS Nguy n Đình Hóa ả ệ ễ
Trang 2Lu n án s đ ậ ẽ ượ c b o v tr ả ệ ướ c H i đ ng c p Đ i ộ ồ ấ ạ
h c Qu c gia ch m lu n án ti n sĩ h p t i ọ ố ấ ậ ế ọ ạ
vào h i 9 gi ngày 07 tháng 02 năm 2018 ồ ờ
Có th tìm hi u lu n án t i: ể ể ậ ạ
Th vi n Qu c gia Vi t Nam ư ệ ố ệ
Trung tâm Thông tin Th vi n, Đ i h c Qu c gia Hà ư ệ ạ ọ ố
N i ộ
Trang 3a DANH M C CÔNG TRÌNH C A TÁC GI Ụ Ủ Ả
CÓ LIÊN QUAN Đ N LU N ÁN Ế Ậ
1 [CTLA1] Nigel Collier, Ferdinand Paster, MaiVu Tran (2014) The impact of near domain transfer on biomedical named entity recognitions LOUHI 2014, EACL 2014, Sweden, 2014.
2 [CTLA2] Nigel Collier, MaiVu Tran, HoangQuynh
Le, QuangThuy Ha, Anika Oellrich, Dietrich Rebholz Schuhmann (2013). Learning to Recognize Phenotype Candidates in the AutoImmune Literature Using SVM ReRanking. PLoS ONE 8(10): e72965, October 2013.
3 [CTLA3] MaiVu Tran, DucTrong Le (2013). vTools: Chunker and PartofSpeech tools, RIVFVLSP 2013 Workshop.
4 [CTLA4] Nigel Collier, MaiVu Tran, HoangQuynh
Le, Anika Oellrich, Ai Kawazoe, Martin HallMay, Dietrich RebholzSchuhmann (2012) A Hybrid Approach to Finding Phenotype Candidates in Genetic Texts, COLING 2012: 647662.
5 [CTLA5] MaiVu Tran, DucTrong Le, XuanTu Tran and TienTung Nguyen (2012). A Model of Vietnamese Person Named Entity Question Answering System, PACLIC 2012, Bali, Indonesia, October 2012.
6 [CTLA6] HoangQuynh Le, MaiVu Tran, NhatNam Bui, NguyenCuong Phan, QuangThuy Ha (2011). An Integrated Approach Using Conditional Random Fields for Named Entity Recognition and Person Property Extraction in Vietnamese Text. IALP 2011:115118.
7 [CTLA7] HoangQuynh Le, MaiVu Tran, Thanh Hai Dang, Nigel Collier (2015). The UETCAM System in the BioCreAtIvE V CDR Task. In Proceedings of the fifth BioCreative challenge evaluation workshop, Sevilla, Spain, 2015.
Trang 5M Đ U Ở Ầ
b Lý do ch n đ tài ọ ề
Nh n d ng th c th có tên (Named entity recognition: ậ ạ ự ể NER; còn đ ượ c g i là “nh n d ng th c th đ nh danh”) là ọ ậ ạ ự ể ị
m t bài toán chính thu c lĩnh v c x lý ngôn ng t nhiên ộ ộ ự ử ữ ự (NLP). Đây là m t bài toán ti n đ cho các h th ng v hi u ộ ề ề ệ ố ề ể ngôn ng hay khai phá văn b n nh trích xu t s ki n, h i ữ ả ư ấ ự ệ ỏ đáp t đ ng hay tìm ki m ng nghĩa. Chính vì v y, cùng v i ự ộ ế ữ ậ ớ
s phát tri n c a d li u văn b n trên Internet, bài toán này ự ể ủ ữ ệ ả cũng nh n đ ậ ượ ự c s quan tâm c a c ng đ ng nghiên c u trong ủ ộ ồ ứ kho ng 20 năm tr l i đây. ả ở ạ
c M c dù đã có khá nhi u công trình nghiên c u ặ ề ứ cho m t s lo i th c th thông th ộ ố ạ ự ể ườ ng trong văn
b n ti ng Anh chu n tuy nhiên nh ng nghiên ả ế ẩ ữ
c u liên quan đ n các th c th trong ngôn ng ứ ế ự ể ữ khác nh ti ng Vi t hay các mi n d li u đ c ư ế ệ ề ữ ệ ặ
bi t nh mi n d li u y sinh v n còn r t nhi u ệ ư ề ữ ệ ẫ ấ ề
h n ch và thách th c. Có th k đ n là s ạ ế ứ ể ể ế ự khuy t thi u các t p d li u gán nhãn chu n, tài ế ế ậ ữ ệ ẩ nguyên ngôn ng v tri th c mi n hay các đ nh ữ ề ứ ề ị nghĩa hình th c v ki u th c th c n nh n ứ ề ể ự ể ầ ậ
d ng… Lu n án này s ti p n i nh ng nghiên ạ ậ ẽ ế ố ữ
c u tr ứ ướ c đó nh m gi i quy t m t ph n nh ng ằ ả ế ộ ầ ữ
h n ch đ ạ ế ượ c nêu ra trên. M c tiêu c th và ở ụ ụ ể
ph m vi nghiên c u c a lu n án s đ ạ ứ ủ ậ ẽ ượ c mô t ả
k h n ph n ti p theo ỹ ơ ở ầ ế
d M c tiêu c th và ph m vi nghiên c u c a ụ ụ ể ạ ứ ủ
lu n án ậ
Lu n án s t p trung vào bài toán nh n d ng th c th ậ ẽ ậ ậ ạ ự ể
v i hai lo i d li u thu c hai ngôn ng khác nhau là các th c ớ ạ ữ ệ ộ ữ ự
th thu c d li u văn b n ti ng Vi t và các th c th thu c ể ộ ữ ệ ả ế ệ ự ể ộ
d li u văn b n y sinh h c ữ ệ ả ọ
Trang 6M c tiêu c th c a lu n án là phát tri n v n đ , đ ụ ụ ể ủ ậ ể ấ ề ề
xu t gi i pháp và xây d ng th c nghi m cho vi c nh n d ng ấ ả ự ự ệ ệ ậ ạ các lo i th c th thu c hai mi n d li u trên ạ ự ể ộ ề ữ ệ
C th , lu n án gi i đáp các v n đ nghiên c u sau ụ ể ậ ả ấ ề ứ đây:
• Kh o sát và đ a ra các ph ả ư ươ ng án x lý các đ c đi m ử ặ ể riêng bi t c a v i d li u ti ng Vi t và d li u y sinh ệ ủ ớ ữ ệ ế ệ ữ ệ
h c trong văn b n ti ng Anh ọ ả ế
• Đ xu t ph ề ấ ươ ng án ti p c n m i t n d ng đ ế ậ ớ ậ ụ ượ c các nghiên c u tr ứ ướ c đó và ti p c n gi i quy t đ ế ậ ả ế ượ c
nh ng đ c đi m riêng bi t c a mi n d li u đang ữ ặ ể ệ ủ ề ữ ệ xem xét.
• Xây d ng b d li u ph c v cho th c nghi m ự ộ ữ ệ ụ ụ ự ệ
• Xây d ng các th c nghi m đ đánh giá các mô hình ự ự ệ ể
gi i quy t bài toán đã đ xu t ả ế ề ấ
• Xây d ng h th ng ch y th c t đ i v i các mô hình ự ệ ố ạ ự ế ố ớ
đ t k t qu kh quan ạ ế ả ả
• Đ nh h ị ướ ng phát tri n nâng c p nghiên c u ể ấ ứ
e V nghiên c u lý thuy t, lu n án t p trung đ ề ứ ế ậ ậ ề
xu t m t s gi i pháp nh n d ng th c th cho ấ ộ ố ả ậ ạ ự ể
d li u văn b n ti ng Vi t và d li u văn b n y ữ ệ ả ế ệ ữ ệ ả sinh ti ng Anh. Các gi i pháp t p trung vào v n ế ả ậ ấ
đ k t h p các mô hình h c máy cũng nh các ề ế ợ ọ ư tri th c ngu n liên quan đ n mi n d li u nh m ứ ồ ế ề ữ ệ ằ nâng cao hi u qu đ u ra đ i v i các bài toán ệ ả ầ ố ớ
K t qu c a các mô hình đ t hi u qu kh quan ế ả ủ ạ ệ ả ả
có th áp d ng đ ể ụ ượ c trong các h th ng ch y ệ ố ạ
th c t ự ế
f Các k t qu nghiên c u lý thuy t trên đây đ c ế ả ứ ế ượ công b trong m t s n ph m khoa h c có uy ố ộ ố ấ ẩ ọ tín là minh ch ng cho ý nghĩa khoa h c c a lu n ứ ọ ủ ậ án.
Trang 7g V tri n khai ng d ng, lu n án đã đ xu t th c ề ể ứ ụ ậ ề ấ ự
mô hình h i đáp t đ ng ti ng Vi t d a trên ỏ ự ộ ế ệ ự
nh n d ng th c th [CTLA6] Xây d ng h ậ ạ ự ể ự ệ
th ng tra c u và tham kh o các m i quan h ố ứ ả ố ệ
gi a th c th bi u hi n – b nh PhenoMiner (t i ữ ự ể ể ệ ệ ạ
đ a ch http://phenominer.mml.cam.ac.uk/). ị ỉ
h K t qu tri n khai ng d ng thông qua các h ế ả ể ứ ụ ệ
th ng th nghi m và tra c u nói trên cho th y ố ử ệ ứ ấ
th bi u hi n và các th c th liên quan cũng nh ể ể ệ ự ể ư
v n đ thích nghi mi n gi a các t p d li u y sinh ấ ề ề ữ ậ ữ ệ
h c ọ
Ch ươ ng 4
, lu n án gi i thi u m t k thu t nâng ậ ớ ệ ộ ỹ ậ
c p hi u qu c a mô hình đ xu t trong ch ấ ệ ả ủ ề ấ ươ ng 3
b ng k thu t lai ghép các mô hình (ensemble ằ ỹ ậ models) d a trên tri th c và d a trên h c máy đ ự ứ ự ọ ể
nh n d ng th c th trong văn b n y sinh ti ng ậ ạ ự ể ả ế Anh.
Ph n k t lu n ầ ế ậ
t ng h p các k t qu đ t đ ổ ợ ế ả ạ ượ c cũng nh nêu lên m t s h n ch c a lu n án, và ư ộ ố ạ ế ủ ậ
đ ng th i trình bày m t s đ nh h ồ ờ ộ ố ị ướ ng nghiên c u ứ trong t ươ ng lai.
Trang 8th c th đ ự ể ượ c phát bi u b i Aggarwal và Zhai [AZ12]: ể ở
“Bài toán nh n d ng th c th (Named entity ậ ạ ự ể recognition, NER) là bài toán xác đ nh th c th đ nh danh t ị ự ể ị ừ các văn b n d ả ướ ạ i d ng t do và phân l p chúng vào m t t p ự ớ ộ ậ các ki u đ ể ượ c đ nh nghĩa tr ị ướ c nh ng ư ườ i, t ch c và đ a ổ ứ ị
th ch t i ng ể ỉ ớ ườ i "John F. Kennedy”, đ a đi m "sân bay qu c ị ể ố
t JFK", ho c b t k lo i nào khác có cùng d ng vi t t t đó ế ặ ấ ỳ ạ ạ ế ắ
T ươ ng t “Sông Lam Ngh An” có th là đ a đi m ch tên ự ệ ể ị ể ỉ
m t con sông t i t nh Ngh An hay tên m t đ i bóng “Sông ộ ạ ỉ ệ ộ ộ Lam Ngh An”. Đ xác đ nh lo i cho th c th "JFK" hay ệ ể ị ạ ự ể
“Sông Lam Ngh An” xu t hi n trong m t tài li u c th , ệ ấ ệ ộ ệ ụ ể
c n ph i xem xét đ n ng c nh ch a nó ầ ả ế ữ ả ứ
Bên c nh y u t v ng nghĩa, các y u t liên quan ạ ế ố ề ữ ế ố
đ n đ c tr ng ngôn ng cũng góp ph n làm bài toán nh n ế ặ ư ữ ầ ậ
d ng th c th tr nên khó khăn. M t s ngôn ng nh ti ng ạ ự ể ở ộ ố ữ ư ế
Vi t ngoài vi c thi u các tài nguyên x lý ngôn ng t nhiên ệ ệ ế ử ữ ự còn ph i th c hi n m t s bài toán con nh tách t tr ả ự ệ ộ ố ư ừ ướ c khi
nh n d ng th c th , t l l i c a các bài toán con s nh ậ ạ ự ể ỷ ệ ỗ ủ ẽ ả
h ưở ng đ n k t qu c a bài toán nh n d ng th c th Ngoài ế ế ả ủ ậ ạ ự ể
ra, t ng lo i th c th cũng có nh ng thách th c riêng khác ừ ạ ự ể ữ ứ nhau nh h ả ưở ng đ n hi u qu c a mô hình nh n d ng ế ệ ả ủ ậ ạ
Trang 9m 1.1.3. Đ đo đánh giá ộ
Các s đo đánh giá đi n hình đ ố ể ượ ử ụ c s d ng cho nh n ậ
d ng th c th là đ chính xác (precision P), đ h i t ạ ự ể ộ ộ ồ ưở ng (recall R) và đ đo F1 (F1measure). Đ chính xác đ ộ ộ ượ c tính
b ng ph n trăm các k t qu đúng trong t ng s k t qu nhãn ằ ầ ế ả ổ ố ế ả
d ươ ng c a h th ng. ủ ệ ố
n 1.1.4. ng d ng c a nh n d ng th c th Ứ ụ ủ ậ ạ ự ể
Có th k đ n nh n d ng th c th xu t hi n trong ể ể ế ậ ạ ự ể ấ ệ
m t s các ng d ng sau: ộ ố ứ ụ
• Trích xu t quan h là bài toán nh n di n các m i quan ấ ệ ậ ệ ố
h ng nghĩa gi a hai th c th hay gi a m t th c th ệ ữ ữ ự ể ữ ộ ự ể
th hi n các thông tin bi u di n v ai/cái gì đã làm gì, ể ệ ể ễ ề
v i ai/cái gì, bao gi , đâu, b ng cách và t i sao ớ ờ ở ằ ạ
T ươ ng t nh trích xu t quan h , trong trích xu t s ự ư ấ ệ ấ ự
y u t làm tăng kh năng phân tích, hi u câu h i và ế ố ả ể ỏ
d li u tr l i trong h th ng [HWY05] ữ ệ ả ờ ệ ố
o 1.2. L ch s nghiên c u và m t s h ị ử ứ ộ ố ướ ng ti p ế
c n gi i quy t bài toán ậ ả ế
Bài toán nh n d ng th c th đã xu t hi n t đ u ậ ạ ự ể ấ ệ ừ ầ
nh ng năm 90 [RA91], nh ng ch đ ữ ư ỉ ượ c chính th c gi i thi u ứ ớ ệ vào năm 1995 t i h i ngh MUC6 v i t cách là m t bài toán ạ ộ ị ớ ư ộ con c a trích xu t thông tin [GS96]. K t đó, NER đã thu hút ủ ấ ể ừ nhi u s chú ý c a c ng đ ng nghiên c u. Đã có khá nhi u ề ự ủ ộ ồ ứ ề
Trang 10h th ng và ch ệ ố ươ ng trình đ ượ c xây d ng th c thi bài toán ự ự này, có th k đ n Automatic Content Extraction ể ể ế 1, các công
b trong nhi m v c ng đ ng thu c h i ngh Conference on ố ệ ụ ộ ồ ộ ộ ị Natural Language Learning (CoNLL) năm 2002 và 2003 [TD03], và chu i nhi m nh n d ng th c th y sinh t i h i ỗ ệ ậ ạ ự ể ạ ộ
th o BioCreative ả 2 (Critical Assessment of Information Extraction Systems in Biology).
Các nghiên c u đ t hi u qu cao đ i v i nh n d ng ứ ạ ệ ả ố ớ ậ ạ
th c th th ự ể ườ ng d a trên các k thu t h c máy th ng kê và ự ỹ ậ ọ ố
h u h t trong s đó x lý bài toán này nh m t bài toán gán ầ ế ố ử ư ộ nhãn chu i (sequence labeling) ỗ M t trong nh ng ph ộ ữ ươ ng pháp h c máy đ u tiên đ ọ ầ ượ c áp d ng cho NER ụ là mô hình Markov n ẩ (Hidden Markov Models, HMM) Các ph ươ ng pháp h c máy cho NER đ ọ ượ c xây d ng sau đó đã có m t s ự ộ ự chuy n d ch t mô hình sinh nh HMM sang mô hình mô hình ể ị ừ ư
r i r c (discriminative models) nh m kh c ph c các nh ờ ạ ằ ắ ụ ượ c
đi m c a HMM. M t mô hình r i r c thông d ng đ ể ủ ộ ờ ạ ụ ượ c s ử
d ng trong nh n d ng th c th là ụ ậ ạ ự ể mô hình entropy c c đ i ự ạ
(Maximum Entropy Model, MaxEnt) [BPP96].
K t h p mô hình MEM v i m t gi đ nh Markov, ế ợ ớ ộ ả ị
đ ượ c g i là ọ mô hình Markov entropy c c đ i ự ạ (Maximum
Entropy Markov Models, MEMM).
Tr ườ ng ng u nhiên có đi u ki n ẫ ề ệ (Conditional Random
Fields, CRF) là m t mô hình r i r c tiêu bi u khác đ x lý ộ ờ ạ ể ể ử bài toán gán nhãn chu i. Ph ỗ ươ ng pháp này đ ượ c gi i thi u ớ ệ
1 Automatic content extraction (ACE) evaluation.
http://www.itl.nist.gov/iad/mig/tests/ace/
2 http://www.biocreative.org/
Trang 11b i Lafferty và các c ng s cho bài toán gán nhãn chu i ở ộ ự ỗ [LMP01].
p 1.3. Nh n d ng th c th trong d li u văn ậ ạ ự ể ữ ệ
b n ti ng Vi t và m t s nghiên c u liên ả ế ệ ộ ố ứ quan
B t nh p v i tình hình phát tri n chung trên toàn th ắ ị ớ ể ế
gi i, các văn b n ti ng Vi t cũng ngày càng xu t hi n nhi u ớ ả ế ệ ấ ệ ề
d ướ ạ i d ng văn b n đi n t , và cùng v i đó chính là s phát ả ệ ử ớ ự sinh nhu c u khai thác thông tin có giá tr t các văn b n này ầ ị ừ ả
Nh n d ng th c th đóng m t vai trò ch ch t trong khai phá ậ ạ ự ể ộ ủ ố văn b n, chính vì th nó cũng nhanh chóng tr thành m t lĩnh ả ế ở ộ
v c nghiên c u đ ự ứ ượ c nhi u nhà khoa h c trong n ề ọ ướ c quan tâm. Áp d ng đ ụ ượ c NER cho d li u ti ng Vi t đ ng nghĩa ữ ệ ế ệ ồ
v i vi c đ t m t n n t ng quan tr ng trong vi c xây d ng ớ ệ ặ ộ ề ả ọ ệ ự
đ ượ c các h th ng ng d ng cho nhi u lĩnh v c khác nh tài ệ ố ứ ụ ề ự ư chính, kinh t , xã h i, y sinh h c, v.v phù h p v i tình hình ế ộ ọ ợ ớ trong n ướ c.
q 1.4. Nh n d ng th c th trong d li u văn ậ ạ ự ể ữ ệ
b n y sinh ti ng Anh và m t s nghiên c u ả ế ộ ố ứ liên quan
Hi n nay, s l ệ ố ượ ng các văn b n y t và sinh h c d ả ế ọ ướ i
d ng đi n t trên Internet cũng nh đ ạ ệ ử ư ượ ư c l u tr trong các h ữ ệ
th ng y t đang tăng v i t c đ chóng m t. Vi c khai thác ố ế ớ ố ộ ặ ệ
hi u qu ngu n tài nguyên này có th đ a t i ngu n tri th c ệ ả ồ ể ư ớ ồ ứ
h u ích cho ng ữ ườ i dùng nh phát hi n b nh d ch s m, t ng ư ệ ệ ị ớ ổ
h p các kinh nghi m phòng và ch a b nh, nghiên c u các c ợ ệ ữ ệ ứ ơ
ch di truy n, tuyên truy n và nâng cao s c kh e c ng đ ng, ế ề ề ứ ỏ ộ ồ v.v Nh ng nghiên c u liên quan đ n x lý ngôn ng t ữ ứ ế ử ữ ự nhiên cho văn b n y sinh h c (Biomedical Natural Language ả ọ Processing; BioNLP) đã mang đ n nhi u l i ích cho vi c khai ế ề ợ ệ thác ngu n d li u y sinh h c, có th k đ n nh ng c s d ồ ữ ệ ọ ể ể ế ữ ơ ở ữ
li u hay ontology y sinh đ ệ ượ c xây d ng t đ ng h tr cho ự ự ộ ỗ ợ
Trang 12nh ng nhà nghiên c u sinh và hay bác sĩ hay nh ng h th ng ữ ứ ữ ệ ố theo dõi thông tin v di n bi n d ch b nh truy n nhi m đang ề ễ ế ị ệ ề ễ phát tri n trên th gi i. ể ế ớ
Trong nh ng h th ng đ y, nh n d ng th c th y sinh ữ ệ ố ấ ậ ạ ự ể
là m t thành ph n quan tr ng trong quá trình phân tích và ộ ầ ọ
t ng h p thông tin t văn b n y sinh h c. Đây là m t bài toán ổ ợ ừ ả ọ ộ khó vì m i m t lo i th c th y sinh l i bao hàm nhi u tính ỗ ộ ạ ự ể ạ ề
ch t đ c thù khác nhau v ngôn ng và y sinh h c đòi h i ấ ặ ề ữ ọ ỏ
ng ườ i nghiên c u c n ph i có s k t h p ki n th c c x lý ứ ầ ả ự ế ợ ế ứ ả ử ngôn ng t nhiên và ki n th c y sinh h c m i có th đ a ra ữ ự ế ứ ọ ớ ể ư
m t ph ộ ươ ng pháp hay mô hình nh n d ng th c th hi u qu ậ ạ ự ể ệ ả
Tên ng ườ i và nh ng thông tin liên quan đ n ng ữ ế ườ i là
m t trong nh ng t khóa đ ộ ữ ừ ượ c tìm ki m th ế ườ ng xuyên nh t ấ trên các công c tìm ki m web, tuy nhiên, các k t qu tìm ụ ế ế ả
ki m và thông tin tr v đôi khi còn r t m h Vì v y, nhu ế ả ề ấ ơ ồ ậ
c u v m t h th ng đ y đ thông tin, chính xác và t p trung ầ ề ộ ệ ố ầ ủ ậ vào th c th ng ự ể ườ i là r t l n. Th c th tên ng ấ ớ ự ể ườ i luôn g n ắ
li n v i m t s các thu c tính [SJ09, JAJ10], đó là các đ c ề ớ ộ ố ộ ặ
tr ng ho c tính ch t c a m t th c th và trích ch n thu c ư ặ ấ ủ ộ ự ể ọ ộ tính là trích ch n các đ c tr ng ho c tính ch t t ọ ặ ư ặ ấ ươ ng ng v i ứ ớ
m t th c th t d li u văn b n [GR08]. Do đó, trích ch n ộ ự ể ừ ữ ệ ả ọ
Trang 13thu c tính đóng m t vai trò ch ch t trong vi c x lý nh p ộ ộ ủ ố ệ ử ậ
nh ng tên ng ằ ườ i [SJ09]. Ngoài ra, vi c trích ch n th c th ệ ọ ự ể tên ng ườ i cùng v i các thu c tính c a chúng cũng góp m t ớ ộ ủ ộ
ph n quan tr ng đ m r ng các c s d li u và ontology ầ ọ ể ở ộ ơ ở ữ ệ
s 2.2. C s lý thuy t và mô hình đ xu t ơ ở ế ề ấ
t 2.2.1. Mô hình Entropy c c đ i gi i mã b ng ự ạ ả ằ tìm ki m chùm (MEM+BS) ế
Mô hình Entropy c c đ i ự ạ (Maximum Entropy Model, Maxent Model) [BPP96] là m t thu t toán h c máy thông ộ ậ ọ
d ng d a trên xác su t có đi u ki n đ ụ ự ấ ề ệ ượ c s d ng trong ử ụ nhi u nghiên c u v nh n d ng th c th y sinh h c [CN02, ề ứ ề ậ ạ ự ể ọ BON03, CC03, LTC04]. Trong đó, entropy là đ đo v tính ộ ề
đ ng đ u hay tính không ch c ch n c a m t phân ph i xác ồ ề ắ ắ ủ ộ ố
su t, m t phân ph i xác su t có Entropy càng cao thì phân ấ ộ ố ấ
vi c nó ệ ướ ượ c l ng các phân ph i xác su t có đi u ki n theo ố ấ ề ệ trình t gán nhãn, tính u vi t này đã đ ự ư ệ ượ c ch ng minh qua ứ nhi u nghiên c u [ML03, SE04]), và cho đ n nay CRF v n ề ứ ế ẫ đang là m t trong nh ng ph ộ ữ ươ ng pháp h c máy đ ọ ượ ứ c ng
d ng nhi u trong lĩnh v c NLP ụ ề ự
2.3.3. Mô hình đ xu t ề ấ