1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tóm tắt luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng

27 28 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 27
Dung lượng 759,24 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Luận án tập trung đề xuất một số giải pháp nhận dạng thực thể cho dữ liệu văn bản tiếng Việt và dữ liệu văn bản y sinh tiếng Anh. Các giải pháp tập trung vào vấn đề kết hợp các mô hình học máy cũng như các tri thức nguồn liên quan đến miền dữ liệu nhằm nâng cao hiệu quả đầu ra đối với các bài toán.

Trang 1

Đ I H C QU C GIA HÀ N I Ạ Ọ Ố Ộ

TR ƯỜ NG Đ I H C CÔNG NGH Ạ Ọ Ệ

TR N MAI VŨ

NGHIÊN C U NH N D NG TH C TH  CÓ TÊN VÀ  Ứ Ậ Ạ Ự Ể

TH C TH  BI U HI N TRONG VĂN B N VÀ  NG Ự Ể Ể Ệ Ả Ứ  

Ng ườ i   h ướ ng   d n   khoa   h c:   ẫ ọ PGS.TS   Hà   Quang 

Th y

           PGS.TS. Nguy n Lê Minh

Ph n bi n: PGS.TS L ả ệ ươ ng Chi Mai

Ph n bi n: PGS.TS. Lê Thanh H ả ệ ươ ng

Ph n bi n: PGS.TS Nguy n Đình Hóa ả ệ ễ

Trang 2

Lu n án s  đ ậ ẽ ượ c b o v  tr ả ệ ướ c H i đ ng c p Đ i ộ ồ ấ ạ  

h c Qu c gia ch m lu n án ti n sĩ h p t i  ọ ố ấ ậ ế ọ ạ

vào h i 9 gi  ngày 07 tháng 02 năm 2018 ồ ờ

Có th  tìm hi u lu n án t i:  ể ể ậ ạ

Th  vi n Qu c gia Vi t Nam ư ệ ố ệ

Trung tâm Thông tin ­ Th  vi n, Đ i h c Qu c gia Hà ư ệ ạ ọ ố  

N i ộ

Trang 3

a DANH M C CÔNG TRÌNH C A TÁC GI Ụ Ủ Ả 

CÓ LIÊN QUAN Đ N LU N ÁN Ế Ậ

1 [CTLA1] Nigel Collier, Ferdinand Paster, Mai­Vu Tran  (2014)   The   impact   of   near   domain   transfer   on  biomedical   named   entity   recognitions   LOUHI   2014,  EACL 2014, Sweden, 2014.

2 [CTLA2]   Nigel   Collier,   Mai­Vu   Tran,   Hoang­Quynh 

Le, Quang­Thuy Ha, Anika Oellrich, Dietrich Rebholz­ Schuhmann (2013). Learning to Recognize Phenotype  Candidates in the Auto­Immune Literature Using SVM  Re­Ranking. PLoS ONE 8(10): e72965, October 2013.

3 [CTLA3] Mai­Vu Tran, Duc­Trong Le (2013). vTools:  Chunker   and   Part­of­Speech   tools,   RIVF­VLSP   2013  Workshop.

4 [CTLA4]   Nigel   Collier,   Mai­Vu   Tran,   Hoang­Quynh 

Le,   Anika   Oellrich,   Ai   Kawazoe,   Martin   Hall­May,  Dietrich   Rebholz­Schuhmann   (2012)   A   Hybrid  Approach to Finding Phenotype Candidates in Genetic  Texts, COLING 2012: 647­662.

5 [CTLA5] Mai­Vu Tran, Duc­Trong Le, Xuan­Tu Tran  and Tien­Tung Nguyen (2012). A Model of Vietnamese  Person   Named   Entity   Question   Answering   System,  PACLIC 2012, Bali, Indonesia, October 2012.

6 [CTLA6] Hoang­Quynh Le, Mai­Vu Tran, Nhat­Nam  Bui, Nguyen­Cuong Phan, Quang­Thuy Ha (2011). An  Integrated Approach Using Conditional Random Fields  for   Named   Entity   Recognition   and   Person   Property  Extraction in Vietnamese Text. IALP 2011:115­118.

7 [CTLA7] Hoang­Quynh Le, Mai­Vu Tran, Thanh Hai  Dang, Nigel Collier (2015). The UET­CAM System in  the BioCreAtIvE V CDR Task. In Proceedings of the  fifth   BioCreative   challenge   evaluation   workshop,  Sevilla, Spain, 2015.

Trang 5

M  Đ U Ở Ầ

b Lý do ch n đ  tài ọ ề

Nh n d ng th c th  có tên (Named entity recognition: ậ ạ ự ể   NER; còn đ ượ c g i là “nh n d ng th c th  đ nh danh”) là ọ ậ ạ ự ể ị  

m t bài toán chính thu c lĩnh v c x  lý ngôn ng  t  nhiên ộ ộ ự ử ữ ự   (NLP). Đây là m t bài toán ti n đ  cho các h  th ng v  hi u ộ ề ề ệ ố ề ể   ngôn ng  hay khai phá văn b n nh  trích xu t s  ki n, h i ữ ả ư ấ ự ệ ỏ   đáp t  đ ng hay tìm ki m ng  nghĩa. Chính vì v y, cùng v i ự ộ ế ữ ậ ớ  

s  phát tri n c a d  li u văn b n trên Internet, bài toán này ự ể ủ ữ ệ ả   cũng nh n đ ậ ượ ự c s  quan tâm c a c ng đ ng nghiên c u trong ủ ộ ồ ứ   kho ng 20 năm tr  l i đây.  ả ở ạ

c M c dù đã có khá nhi u công trình nghiên c u ặ ề ứ   cho m t s  lo i th c th  thông th ộ ố ạ ự ể ườ ng trong văn  

b n ti ng Anh chu n tuy nhiên nh ng nghiên ả ế ẩ ữ  

c u liên quan đ n các th c th  trong ngôn ng ứ ế ự ể ữ  khác nh  ti ng Vi t hay các mi n d  li u đ c ư ế ệ ề ữ ệ ặ  

bi t nh  mi n d  li u y sinh v n còn r t nhi u ệ ư ề ữ ệ ẫ ấ ề  

h n ch  và thách th c. Có th  k  đ n là s ạ ế ứ ể ể ế ự  khuy t thi u các t p d  li u gán nhãn chu n, tài ế ế ậ ữ ệ ẩ   nguyên ngôn ng  v  tri th c mi n hay các đ nh ữ ề ứ ề ị   nghĩa   hình   th c   v   ki u   th c   th   c n   nh n ứ ề ể ự ể ầ ậ  

d ng… Lu n án này s  ti p n i nh ng nghiên ạ ậ ẽ ế ố ữ  

c u tr ứ ướ c đó nh m gi i quy t m t ph n nh ng ằ ả ế ộ ầ ữ  

h n ch  đ ạ ế ượ c nêu ra   trên. M c tiêu c  th  và ở ụ ụ ể  

ph m vi nghiên c u c a lu n án s  đ ạ ứ ủ ậ ẽ ượ c mô t ả 

k  h n   ph n ti p theo ỹ ơ ở ầ ế

d M c tiêu c  th  và ph m vi nghiên c u c a ụ ụ ể ạ ứ ủ  

lu n án

Lu n án s  t p trung vào bài toán nh n d ng th c th ậ ẽ ậ ậ ạ ự ể 

v i hai lo i d  li u thu c hai ngôn ng  khác nhau là các th c ớ ạ ữ ệ ộ ữ ự  

th  thu c d  li u văn b n ti ng Vi t và các th c th  thu c ể ộ ữ ệ ả ế ệ ự ể ộ  

d  li u văn b n y sinh h c ữ ệ ả ọ

Trang 6

M c tiêu c  th  c a lu n án là phát tri n v n đ , đ ụ ụ ể ủ ậ ể ấ ề ề 

xu t gi i pháp và xây d ng th c nghi m cho vi c nh n d ng ấ ả ự ự ệ ệ ậ ạ   các lo i th c th  thu c hai mi n d  li u trên ạ ự ể ộ ề ữ ệ

C  th , lu n án gi i đáp các v n đ  nghiên c u sau ụ ể ậ ả ấ ề ứ   đây:

• Kh o sát và đ a ra các ph ả ư ươ ng án x  lý các đ c đi m ử ặ ể   riêng bi t c a v i d  li u ti ng Vi t và d  li u y sinh ệ ủ ớ ữ ệ ế ệ ữ ệ  

h c trong văn b n ti ng Anh ọ ả ế

• Đ  xu t ph ề ấ ươ ng án ti p c n m i t n d ng đ ế ậ ớ ậ ụ ượ c các   nghiên   c u   tr ứ ướ c   đó   và   ti p   c n   gi i   quy t   đ ế ậ ả ế ượ   c

nh ng đ c đi m riêng bi t c a mi n d  li u đang ữ ặ ể ệ ủ ề ữ ệ   xem xét.

• Xây d ng b  d  li u ph c v  cho th c nghi m ự ộ ữ ệ ụ ụ ự ệ

• Xây d ng các th c nghi m đ  đánh giá các mô hình ự ự ệ ể  

gi i quy t bài toán đã đ  xu t ả ế ề ấ

• Xây d ng h  th ng ch y th c t  đ i v i các mô hình ự ệ ố ạ ự ế ố ớ  

đ t k t qu  kh  quan ạ ế ả ả

• Đ nh h ị ướ ng phát tri n nâng c p nghiên c u ể ấ ứ

e V  nghiên c u lý thuy t, lu n án t p trung đ ề ứ ế ậ ậ ề 

xu t m t s  gi i pháp nh n d ng th c th  cho ấ ộ ố ả ậ ạ ự ể  

d  li u văn b n ti ng Vi t và d  li u văn b n y ữ ệ ả ế ệ ữ ệ ả   sinh ti ng Anh. Các gi i pháp t p trung vào v n ế ả ậ ấ  

đ  k t h p các mô hình h c máy cũng nh  các ề ế ợ ọ ư   tri th c ngu n liên quan đ n mi n d  li u nh m ứ ồ ế ề ữ ệ ằ   nâng cao hi u qu  đ u ra đ i v i các bài toán ệ ả ầ ố ớ  

K t qu  c a các mô hình đ t hi u qu  kh  quan ế ả ủ ạ ệ ả ả  

có th  áp d ng đ ể ụ ượ c trong các h  th ng ch y ệ ố ạ  

th c t   ự ế

f Các k t qu  nghiên c u lý thuy t trên đây đ c ế ả ứ ế ượ   công b  trong m t s   n ph m khoa h c có uy ố ộ ố ấ ẩ ọ   tín là minh ch ng cho ý nghĩa khoa h c c a lu n ứ ọ ủ ậ   án.

Trang 7

g V  tri n khai  ng d ng, lu n án đã đ  xu t th c ề ể ứ ụ ậ ề ấ ự  

mô hình h i đáp t  đ ng ti ng Vi t d a trên ỏ ự ộ ế ệ ự  

nh n   d ng   th c   th   [CTLA6]   Xây   d ng   h ậ ạ ự ể ự ệ 

th ng tra c u và tham kh o các m i quan h ố ứ ả ố ệ 

gi a th c th  bi u hi n – b nh PhenoMiner (t i ữ ự ể ể ệ ệ ạ  

đ a ch  http://phenominer.mml.cam.ac.uk/).  ị ỉ

h K t qu  tri n khai  ng d ng thông qua các h ế ả ể ứ ụ ệ 

th ng th  nghi m và tra c u nói trên cho th y ố ử ệ ứ ấ  

th  bi u hi n và các th c th  liên quan cũng nh ể ể ệ ự ể ư 

v n đ  thích nghi mi n gi a các t p d  li u y sinh ấ ề ề ữ ậ ữ ệ  

h c ọ

Ch ươ ng 4

   , lu n án gi i thi u m t k  thu t nâng ậ ớ ệ ộ ỹ ậ  

c p hi u qu  c a mô hình đ  xu t trong ch ấ ệ ả ủ ề ấ ươ ng 3  

b ng   k   thu t   lai   ghép   các   mô   hình   (ensemble ằ ỹ ậ   models) d a trên tri th c và d a trên h c máy đ ự ứ ự ọ ể 

nh n d ng th c th  trong văn b n y sinh ti ng ậ ạ ự ể ả ế   Anh. 

Ph n k t lu n ầ ế ậ

     t ng h p các k t qu   đ t đ ổ ợ ế ả ạ ượ   c cũng nh  nêu lên m t s  h n ch  c a lu n án, và ư ộ ố ạ ế ủ ậ  

đ ng th i trình bày m t s  đ nh h ồ ờ ộ ố ị ướ ng nghiên c u ứ   trong t ươ ng lai.

Trang 8

th c th  đ ự ể ượ c phát bi u b i Aggarwal và Zhai [AZ12]: ể ở

“Bài   toán   nh n   d ng   th c   th   (Named   entity ậ ạ ự ể   recognition, NER) là bài toán xác đ nh th c th  đ nh danh t ị ự ể ị ừ  các văn b n d ả ướ ạ i d ng t  do và phân l p chúng vào m t t p ự ớ ộ ậ   các ki u đ ể ượ c đ nh nghĩa tr ị ướ c nh  ng ư ườ i, t  ch c và đ a ổ ứ ị  

th  ch  t i ng ể ỉ ớ ườ i "John F. Kennedy”, đ a đi m "sân bay qu c ị ể ố  

t  JFK", ho c b t k  lo i nào khác có cùng d ng vi t t t đó ế ặ ấ ỳ ạ ạ ế ắ  

T ươ ng t  “Sông Lam Ngh  An” có th  là đ a đi m ch  tên ự ệ ể ị ể ỉ  

m t con sông t i t nh Ngh  An hay tên m t đ i bóng “Sông ộ ạ ỉ ệ ộ ộ   Lam Ngh  An”. Đ  xác đ nh lo i cho th c th  "JFK" hay ệ ể ị ạ ự ể  

“Sông Lam Ngh  An” xu t hi n trong m t tài li u c  th , ệ ấ ệ ộ ệ ụ ể  

c n ph i xem xét đ n ng  c nh ch a nó ầ ả ế ữ ả ứ

Bên c nh y u t  v  ng  nghĩa, các y u t  liên quan ạ ế ố ề ữ ế ố  

đ n đ c tr ng ngôn ng  cũng góp ph n làm bài toán nh n ế ặ ư ữ ầ ậ  

d ng th c th  tr  nên khó khăn. M t s  ngôn ng  nh  ti ng ạ ự ể ở ộ ố ữ ư ế  

Vi t ngoài vi c thi u các tài nguyên x  lý ngôn ng  t  nhiên ệ ệ ế ử ữ ự   còn ph i th c hi n m t s  bài toán con nh  tách t  tr ả ự ệ ộ ố ư ừ ướ c khi  

nh n d ng th c th , t  l  l i c a các bài toán con s   nh ậ ạ ự ể ỷ ệ ỗ ủ ẽ ả  

h ưở ng đ n k t qu  c a bài toán nh n d ng th c th  Ngoài ế ế ả ủ ậ ạ ự ể  

ra, t ng lo i th c th  cũng có nh ng thách th c riêng khác ừ ạ ự ể ữ ứ   nhau  nh h ả ưở ng đ n hi u qu  c a mô hình nh n d ng ế ệ ả ủ ậ ạ

Trang 9

m 1.1.3. Đ  đo đánh giá

Các s  đo đánh giá đi n hình đ ố ể ượ ử ụ c s  d ng cho nh n ậ  

d ng th c th  là đ  chính xác (precision ­ P), đ  h i t ạ ự ể ộ ộ ồ ưở   ng (recall ­ R) và đ  đo F1 (F1­measure). Đ  chính xác đ ộ ộ ượ c tính  

b ng ph n trăm các k t qu  đúng trong t ng s  k t qu  nhãn ằ ầ ế ả ổ ố ế ả  

d ươ ng c a h  th ng.  ủ ệ ố

n 1.1.4.  ng d ng c a nh n d ng th c th Ứ ụ ủ ậ ạ ự ể

Có th  k  đ n nh n d ng th c th  xu t hi n trong ể ể ế ậ ạ ự ể ấ ệ  

m t s  các  ng d ng sau: ộ ố ứ ụ

• Trích xu t quan h  là bài toán nh n di n các m i quan ấ ệ ậ ệ ố  

h  ng  nghĩa gi a hai th c th  hay gi a m t th c th ệ ữ ữ ự ể ữ ộ ự ể 

th  hi n các thông tin bi u di n v  ai/cái gì đã làm gì, ể ệ ể ễ ề  

v i ai/cái gì, bao gi ,   đâu, b ng cách và t i sao ớ ờ ở ằ ạ  

T ươ ng t  nh  trích xu t quan h , trong trích xu t s ự ư ấ ệ ấ ự 

y u t  làm tăng kh  năng phân tích, hi u câu h i và ế ố ả ể ỏ  

d  li u tr  l i trong h  th ng [HWY05] ữ ệ ả ờ ệ ố

o 1.2. L ch s  nghiên c u và m t s  h ị ử ứ ộ ố ướ ng ti p ế  

c n gi i quy t bài toán ậ ả ế

Bài toán nh n d ng th c th   đã xu t hi n t  đ u ậ ạ ự ể ấ ệ ừ ầ  

nh ng năm 90 [RA91], nh ng ch  đ ữ ư ỉ ượ c chính th c gi i thi u ứ ớ ệ   vào năm 1995 t i h i ngh  MUC­6 v i t  cách là m t bài toán ạ ộ ị ớ ư ộ   con c a trích xu t thông tin [GS96]. K  t  đó, NER đã thu hút ủ ấ ể ừ   nhi u s  chú ý c a c ng đ ng nghiên c u. Đã có khá nhi u ề ự ủ ộ ồ ứ ề  

Trang 10

h  th ng và ch ệ ố ươ ng trình đ ượ c xây d ng th c thi bài toán ự ự   này, có th  k  đ n Automatic Content Extraction ể ể ế 1, các công 

b  trong nhi m v  c ng đ ng thu c h i ngh  Conference on ố ệ ụ ộ ồ ộ ộ ị   Natural   Language   Learning   (CoNLL)   năm   2002   và   2003  [TD03], và chu i nhi m nh n d ng th c th  y sinh t i h i ỗ ệ ậ ạ ự ể ạ ộ  

th o   BioCreative ả 2  (Critical   Assessment   of   Information  Extraction Systems in Biology). 

Các nghiên c u đ t hi u qu  cao đ i v i nh n d ng ứ ạ ệ ả ố ớ ậ ạ  

th c th  th ự ể ườ ng d a trên các k  thu t h c máy th ng kê và ự ỹ ậ ọ ố  

h u h t trong s  đó x  lý bài toán này nh  m t bài toán gán ầ ế ố ử ư ộ   nhãn   chu i   (sequence   labeling) ỗ   M t   trong   nh ng   ph ộ ữ ươ   ng pháp h c máy đ u tiên đ ọ ầ ượ c áp d ng cho NER   ụ là mô hình  Markov   n ẩ   (Hidden   Markov   Models,   HMM)   Các   ph ươ   ng pháp h c máy cho NER đ ọ ượ c xây d ng sau đó đã có m t s ự ộ ự  chuy n d ch t  mô hình sinh nh  HMM sang mô hình mô hình ể ị ừ ư  

r i r c (discriminative models) nh m kh c ph c các nh ờ ạ ằ ắ ụ ượ   c

đi m c a HMM. M t mô hình r i r c thông d ng đ ể ủ ộ ờ ạ ụ ượ c s ử 

d ng trong nh n d ng th c th  là   ụ ậ ạ ự ể mô hình entropy  c c đ i ự ạ  

(Maximum Entropy Model, MaxEnt) [BPP96]. 

K t h p mô hình MEM v i m t gi  đ nh Markov, ế ợ ớ ộ ả ị  

đ ượ c   g i   là   ọ mô   hình  Markov   entropy  c c   đ i ự ạ   (Maximum 

Entropy Markov Models, MEMM).

Tr ườ ng ng u nhiên có đi u ki n ẫ ề ệ  (Conditional Random 

Fields, CRF) là m t mô hình r i r c tiêu bi u khác đ  x  lý ộ ờ ạ ể ể ử   bài toán gán nhãn chu i. Ph ỗ ươ ng pháp này đ ượ c gi i thi u ớ ệ  

1 Automatic content extraction (ACE) evaluation. 

http://www.itl.nist.gov/iad/mig/tests/ace/

2 http://www.biocreative.org/

Trang 11

b i   Lafferty   và  các   c ng   s   cho   bài   toán   gán   nhãn   chu i ở ộ ự ỗ   [LMP01].

p 1.3. Nh n d ng th c th  trong d  li u văn ậ ạ ự ể ữ ệ  

b n ti ng Vi t  và m t s  nghiên c u liên ả ế ệ ộ ố ứ   quan

B t nh p v i tình hình phát tri n chung trên toàn th ắ ị ớ ể ế 

gi i, các văn b n ti ng Vi t cũng ngày càng xu t hi n nhi u ớ ả ế ệ ấ ệ ề  

d ướ ạ i d ng văn b n đi n t , và cùng v i đó chính là s  phát ả ệ ử ớ ự   sinh nhu c u khai thác thông tin có giá tr  t  các văn b n này ầ ị ừ ả  

Nh n d ng th c th  đóng m t vai trò ch  ch t trong khai phá ậ ạ ự ể ộ ủ ố   văn b n, chính vì th  nó cũng nhanh chóng tr  thành m t lĩnh ả ế ở ộ  

v c nghiên c u đ ự ứ ượ c nhi u nhà khoa h c trong n ề ọ ướ c quan   tâm. Áp d ng đ ụ ượ c NER cho d  li u ti ng Vi t đ ng nghĩa ữ ệ ế ệ ồ  

v i vi c đ t m t n n t ng quan tr ng trong vi c xây d ng ớ ệ ặ ộ ề ả ọ ệ ự  

đ ượ c các h  th ng  ng d ng cho nhi u lĩnh v c khác nh  tài ệ ố ứ ụ ề ự ư   chính, kinh t , xã h i, y sinh h c, v.v  phù h p v i tình hình ế ộ ọ ợ ớ   trong n ướ c.

q 1.4. Nh n d ng th c th  trong d  li u văn ậ ạ ự ể ữ ệ  

b n y sinh ti ng Anh và m t s  nghiên c u ả ế ộ ố ứ   liên quan

Hi n nay, s  l ệ ố ượ ng các văn b n y t  và sinh h c d ả ế ọ ướ   i

d ng đi n t  trên Internet cũng nh  đ ạ ệ ử ư ượ ư c l u tr  trong các h ữ ệ 

th ng y t  đang tăng v i t c đ  chóng m t. Vi c khai thác ố ế ớ ố ộ ặ ệ  

hi u qu  ngu n tài nguyên này có th  đ a t i ngu n tri th c ệ ả ồ ể ư ớ ồ ứ  

h u ích cho ng ữ ườ i dùng nh  phát hi n b nh d ch s m, t ng ư ệ ệ ị ớ ổ  

h p các kinh nghi m phòng và ch a b nh, nghiên c u các c ợ ệ ữ ệ ứ ơ 

ch  di truy n, tuyên truy n và nâng cao s c kh e c ng đ ng, ế ề ề ứ ỏ ộ ồ   v.v  Nh ng nghiên c u liên quan đ n x  lý ngôn ng  t ữ ứ ế ử ữ ự  nhiên cho văn b n y sinh h c (Biomedical Natural Language ả ọ   Processing; BioNLP) đã mang đ n nhi u l i ích cho vi c khai ế ề ợ ệ   thác ngu n d  li u y sinh h c, có th  k  đ n nh ng c  s  d ồ ữ ệ ọ ể ể ế ữ ơ ở ữ 

li u hay ontology y sinh đ ệ ượ c xây d ng t  đ ng h  tr  cho ự ự ộ ỗ ợ  

Trang 12

nh ng nhà nghiên c u sinh và hay bác sĩ hay nh ng h  th ng ữ ứ ữ ệ ố   theo dõi thông tin v  di n bi n d ch b nh truy n nhi m đang ề ễ ế ị ệ ề ễ   phát tri n trên th  gi i.  ể ế ớ

Trong nh ng h  th ng đ y, nh n d ng th c th  y sinh ữ ệ ố ấ ậ ạ ự ể  

là m t thành ph n quan tr ng trong quá trình phân tích và ộ ầ ọ  

t ng h p thông tin t  văn b n y sinh h c. Đây là m t bài toán ổ ợ ừ ả ọ ộ   khó vì m i m t lo i th c th  y sinh l i bao hàm nhi u tính ỗ ộ ạ ự ể ạ ề  

ch t đ c thù khác nhau v  ngôn ng  và y sinh h c đòi h i ấ ặ ề ữ ọ ỏ  

ng ườ i nghiên c u c n ph i có s  k t h p ki n th c c  x  lý ứ ầ ả ự ế ợ ế ứ ả ử   ngôn ng  t  nhiên và ki n th c y sinh h c m i có th  đ a ra ữ ự ế ứ ọ ớ ể ư  

m t ph ộ ươ ng pháp hay mô hình nh n d ng th c th  hi u qu   ậ ạ ự ể ệ ả

Tên ng ườ i và nh ng thông tin liên quan đ n ng ữ ế ườ i là  

m t trong nh ng t  khóa đ ộ ữ ừ ượ c tìm ki m th ế ườ ng xuyên nh t ấ   trên các công c  tìm ki m web, tuy nhiên, các k t qu  tìm ụ ế ế ả  

ki m và thông tin tr  v  đôi khi còn r t m  h  Vì v y, nhu ế ả ề ấ ơ ồ ậ  

c u v  m t h  th ng đ y đ  thông tin, chính xác và t p trung ầ ề ộ ệ ố ầ ủ ậ   vào th c th  ng ự ể ườ i là r t l n. Th c th  tên ng ấ ớ ự ể ườ i luôn g n ắ  

li n v i m t s  các thu c tính [SJ09, JAJ10], đó là các đ c ề ớ ộ ố ộ ặ  

tr ng ho c tính ch t c a m t th c th  và trích ch n thu c ư ặ ấ ủ ộ ự ể ọ ộ   tính là trích ch n các đ c tr ng ho c tính ch t t ọ ặ ư ặ ấ ươ ng  ng v i ứ ớ  

m t th c th  t  d  li u văn b n [GR08]. Do đó, trích ch n ộ ự ể ừ ữ ệ ả ọ  

Trang 13

thu c tính đóng m t vai trò ch  ch t trong vi c x  lý nh p ộ ộ ủ ố ệ ử ậ  

nh ng tên ng ằ ườ i [SJ09]. Ngoài ra, vi c trích ch n th c th ệ ọ ự ể  tên ng ườ i cùng v i các thu c tính c a chúng cũng góp m t ớ ộ ủ ộ  

ph n quan tr ng đ  m  r ng các c  s  d  li u và ontology ầ ọ ể ở ộ ơ ở ữ ệ

s 2.2. C  s  lý thuy t và mô hình đ  xu t ơ ở ế ề ấ

t 2.2.1. Mô hình Entropy c c đ i gi i mã b ng ự ạ ả ằ   tìm ki m chùm (MEM+BS) ế

Mô hình Entropy  c c đ i ự ạ   (Maximum Entropy Model,  Maxent  Model)  [BPP96] là m t thu t toán h c máy thông ộ ậ ọ  

d ng d a trên xác su t có đi u ki n đ ụ ự ấ ề ệ ượ c s  d ng trong ử ụ   nhi u nghiên c u v  nh n d ng th c th  y sinh h c [CN02, ề ứ ề ậ ạ ự ể ọ   BON03, CC03, LTC04]. Trong đó, entropy là đ  đo v  tính ộ ề  

đ ng đ u hay tính không ch c ch n c a m t phân ph i xác ồ ề ắ ắ ủ ộ ố  

su t, m t phân ph i xác su t có Entropy càng cao thì phân ấ ộ ố ấ  

vi c nó  ệ ướ ượ c l ng các phân ph i xác su t có đi u ki n theo ố ấ ề ệ   trình t  gán nhãn, tính  u vi t này đã đ ự ư ệ ượ c ch ng minh qua ứ   nhi u nghiên c u [ML03, SE04]), và cho đ n nay CRF v n ề ứ ế ẫ   đang là m t trong nh ng ph ộ ữ ươ ng pháp h c máy đ ọ ượ ứ   c  ng

d ng nhi u trong lĩnh v c NLP ụ ề ự

2.3.3. Mô hình đ  xu t ề ấ

Ngày đăng: 02/11/2020, 10:43

HÌNH ẢNH LIÊN QUAN

Mô hình đ ượ c đ  xu t g m có ba pha chính, đ ấồ ượ c mô   hình hóa trong hình 2.3. Đ u vào c a mô hình là t ng câuầủừ   trong văn b n và đ u ra là các câu đã đảầược gán nhãn d a trênự  mô hình nh n d ng. ậạ - Tóm tắt luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng
h ình đ ượ c đ  xu t g m có ba pha chính, đ ấồ ượ c mô   hình hóa trong hình 2.3. Đ u vào c a mô hình là t ng câuầủừ   trong văn b n và đ u ra là các câu đã đảầược gán nhãn d a trênự  mô hình nh n d ng. ậạ (Trang 14)
w. 2.3. M t mô hình h i đáp tên ng ộỏ ườ i áp d ng ụ  nh n d ng th c th  ti ng Vi tậạựể ếệ - Tóm tắt luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng
w. 2.3. M t mô hình h i đáp tên ng ộỏ ườ i áp d ng ụ  nh n d ng th c th  ti ng Vi tậạựể ếệ (Trang 16)
ag. 3.2.2. Mô hình đ  xu ấ - Tóm tắt luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng
ag. 3.2.2. Mô hình đ  xu ấ (Trang 21)
Hình 3.5. Mô hình nh n d ng th c th  bi u hi n và các ệ  th c th  liên quanựể - Tóm tắt luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng
Hình 3.5. Mô hình nh n d ng th c th  bi u hi n và các ệ  th c th  liên quanựể (Trang 22)
MH: Mô hình (M1­M6 t ươ ng  ng v i các mô hình 1­6) ớ - Tóm tắt luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng
h ình (M1­M6 t ươ ng  ng v i các mô hình 1­6) ớ (Trang 24)
Chươ ng 4 – M T MÔ HÌNH NÂNG C Ộ ẤP   HI U QU  NH N D NG TH C TH  Y SINH D AỆẢẬẠỰỂỰ   TRÊN K  THU T LAI GHÉP VÀ H C X P H NGỸẬỌẾẠ - Tóm tắt luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng
h ươ ng 4 – M T MÔ HÌNH NÂNG C Ộ ẤP   HI U QU  NH N D NG TH C TH  Y SINH D AỆẢẬẠỰỂỰ   TRÊN K  THU T LAI GHÉP VÀ H C X P H NGỸẬỌẾẠ (Trang 25)
1. Đ  xu t mô hình k t h p nh n d ng đ ng th i th ự  th  và các thu c tính liên quan đ n th c th .ểộếựể - Tóm tắt luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng
1. Đ  xu t mô hình k t h p nh n d ng đ ng th i th ự  th  và các thu c tính liên quan đ n th c th .ểộếựể (Trang 27)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm