Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt
Trang 1L I CAM OAN
Tôi cam oan r ng n i dung c a lu n án này là k t qu nghiên c u c a
ph n sau c a lu n án Nh ng óng góp trong lu n án là k t qu nghiên c u
Tác gi lu n án
Nguy n Quang Châu
Trang 2L I C M N
c s ào t o giúp t n tình, c quan n i công tác t o m i i u ki n thu n l i và b n bè cùng gia ình th ng xuyên ng viên khích l
Lu n án này không th hoàn thành t t n u không có s t n tình
h ng d n và s giúp quý báu c a PGS.TS Phan Th T i, Ng i
Khoa CNTT- $ i h c Bách Khoa TP H Chí Minh ã giúp và t o
i u ki n cho tôi r t nhi u trong quá trình h c t p và nghiên c u Khoa; c m n Phòng qu n lý sau $ i h c v s h% tr các th t c hoàn thành lu n án
Tôi chân thành c m n Tr ng $ i h c Công Nghi p TP H Chí Minh, &c bi t khoa CNTT, ã h% tr và t o m i i u ki n thu n l i cho tôi trong quá trình hoàn thành khóa h c NCS
Cu i cùng, tôi c m n t t c b n bè và ng i thân ã góp nhi u ý
ki n thi t th c và có nh ng l i ng viên khích l quý báu giúp tôi hoàn thành t t lu n án
Tác gi lu n án
Nguy n Quang Châu
Trang 3TÓM T T
World Wide Web (WWW) phát tri n nhanh chóng cùng v i ngu n tài nguyên thông tin ngày càng phong phú, nhu c u khai thác ngu n thông tin này c a ng i s' d ng ngày càng tr nên c p thi t i v i i s ng c a con
truy h i thông tin (Information Retrieval), tóm l c v n b n (Text Summarization), và rút trích thông tin (Information Extraction),
M t trong các v n c t lõi c a h th ng khai thác này là xác nh và rút trích chính xác các c m t &c tr ng ng ngh(a (CT$TNN) (khái ni m
v)n b n V n này là m i quan tâm c a các nhà ngôn ng h c, c#ng nh các nhà khoa h c trong l(nh v c x' lý ngôn ng t nhiên b ng máy tính
c m t &c tr ng ng ngh(a c a câu trong v)n b n ti ng Vi t, nh m áp
ng nhu c u ang b b! ng! trong các h th ng khai thác thông tin $i u này ã òi h!i và thúc +y vi c nghiên c u và phát tri n mô hình rút trích
c m t &c tr ng ng ngh(a trong ti ng Vi t (Vietnamese Key Phrase
Information Extraction Model - ViKE) Lu n án nghiên c u rút trích c m t
&c tr ng ng ngh(a (CT$TNN) c a câu n ti ng Vi t V i kh o sát t n
su t xu t hi n c a các c m trong các v)n b n ti ng Vi t, lu n án ã t p trung nghiên c u vi c xác nh và rút trích c m danh t &c tr ng ng ngh(a (CDT$TNN) cho câu n ti ng Vi t
Lu n án trình bày mô hình ViKE ViKE là mô hình k t h p hai h ng
ti p c n chính: (1) h ng ngôn ng h c hay h ng ti p c n xác nh c m danh t &c tr ng ng ngh(a, c th là s' d ng ph ng pháp so trùng th
lo i trên Ontology c a Wikipedia; (2) h ng ti p c n rút trích c m danh t
&c tr ng ng ngh(a hay h ng ti p c n h c máy, c th là s' d ng ph ng
Trang 4thái t,ng quát c a CDT$TNN: (a) v trí t trong câu; (b) nhãn t lo i; (c)
c u trúc c m danh t ; (d) các t quan h gi a các c m danh t
TREC06, TREC02 (http://trec.nist.gov/data/) và www.lexxe.com (Qiao,
ng nh n di n c m danh t &c tr ng ng ngh(a b ng ph ng pháp th công K t qu mô hình ViKE t chính xác, bao ph và trung bình
i u hòa l n l t là 89,52% , 87,63% và 88,57% Nh v y v i chính xác, y và trung bình i u hòa c a mô hình ViKE ã c i thi n
hi u su t c a hai mô hình thành ph n (mô hình theo h ng ti p c n rút trích
m c tiêu ra c a lu n án
Trang 5M C L C
DANH M C CÁC B NG 9
DANH M C CÁC HÌNH 10
Ch ng 1 GI I THI U 11
1.1 M c tiêu và ph m vi 11
1.2 Nh ng óng góp chính c a lu n án 16
1.3 C u trúc c a lu n án 17
Ch ng 2 C S LÝ THUY T NGÔN NG TI NG VI T 19
2.1 Gi i thi u 19
2.2 C s lý thuy t 20
2.3 K t ch ng 29
Ch ng 3 T NG QUAN CÁC MÔ HÌNH RÚT TRÍCH C M T C TR NG 31
3.1 Gi i thi u 31
3.2 Các nghiên c u liên quan 32
3.3 S t ng quan gi a h ng ti p c n rút trích và xác nh CT$T 37
3.4 Ph ng pháp ti p c n c a lu n án 38
3.5 K t ch ng 52
Ch ng 4 MÔ HÌNH XÁC NH C M T C TR NG NG NGH A TRONG TI NG VI T (ViKEa) -PH NG PHÁP SO TRÙNG M U D A TRÊN ONTOLOGY 54
4.1 Gi i thi u 54
4.2 Rút trích c m danh t d tuy n……… ……… 55
4.3 Công o n xác nh c m danh t &c tr ng ng ngh(a d a trên ontology……… 62
4.4 K t ch ng ……… ……… 73
Ch ng 5 MÔ HÌNH RÚT TRÍCH C M T C TR NG NG NGH A TRONG TI NG VI T (ViKEe) – PH NG PHÁP H C MÁY 75
Trang 65.3 Phát bi u bài toán rút trích CDT$TNN trong ti ng Vi t .89
5.4 Mô hình ViKEe 90
5.5 K t qu th c nghi m 100
5.6 K t ch ng 101
Ch ng 6 MÔ HÌNH RÚT TRÍCH C M T C TR NG NG NGH A TRONG TI NG VI T (ViKE) - K T H P H NG TI P C N RÚT TRÍCH VÀ H NG TI P C N XÁC NH 102
6.1 Gi i thi u 102
6.2 Mô hình rút trích CDT$TNN trong ti ng Vi t 103
6.3 H th ng rút trích CDT$TNN trong ti ng Vi t 105
6.4 $ánh giá hi u su t rút trích CDT$TNN 107
6.5 K t ch ng 112
Ch ng 7 T NG K T 114
7.1 Gi i thi u .114
7.2 Tóm t"t các k t qu t c 115
7.3 H ng phát tri n 116
7.4 K t lu n 117
CÁC BÀI BÁO C A TÁC GI LIÊN QUAN N LU N ÁN ……119
CÁC CÔNG TRÌNH NCKH LIÊN QUAN N LU N ÁN……… 121
TÀI LI U THAM KH O 122
PH L C……….……….i
Trang 7DANH M C CÁC T VI T T T
approach
Mô hình rút trích c m danh t
&c tr ng ng ngh(a trong ti ng
Vi t theo h ng ti p c n xác
nh CT$TNN
approach
Mô hình rút trích c m danh t
&c tr ng ng ngh(a trong ti ng
Vi t theo h ng ti p c n rút trích CT$TNN
Vi t
10 POS Tagging Part-Of- Speech Tagging Gán nhãn t lo i
11 NP Chunking Noun Phrase Chunking G m c m danh t
Segmentation
Vietnamese Word
Trang 818 NLP Natural Language Processing X' lý ngôn ng t nhiên
H i ngh v truy h i thông tin
tiên vào n)m 1992 b i vi n NIST và B Qu c Phòng M-
Trang 9DANH M C CÁC B NG
B ng 3.1: K t qu gán nhãn t lo i 51
B ng 4.1: B nhãn t lo i c a t 57
B ng 4.2: Các phiên b n Wiktionary(29/1/2008) 63
B ng 4.3: S trang thông tin (# danh hi u), th lo i và trang ,i h ng c a phiên b n Vi.Wikipedia(4/2/2009) 63
B ng 4.4: K t qu rút trích CDT$TNN c a mô hình ViKEa 73
B ng 5.1: Kho ng li u 95
B ng 5.2: $ chính xác c a k t qu phân lo i nhãn gom c m IOB 100
B ng 5.3: K t qu rút trích CDT$TNN c a mô hình ViKEe 101
B ng 6.1: K t qu rút trích c m danh t &c tr ng ng ngh(a trong mô hình ViKE 108
B ng 6.2: So sánh hi u su t rút trích CDT$TNN gi a các mô hình 109
B ng 6.3: Th i gian áp ng khi th c nghi m trên t p C1 v i 10 câu ng u nhiên 110
Trang 10DANH M C CÁC HÌNH
Hình 3.1 Mô hình t,ng quát rút trích c m t &c tr ng ng ngh(a 39
Hình 3.2 Mô hình cho bài toán phân o n t 42
Hình 3.3 Minh h a tìm ki m t trong t i n 43
Hình 3.4 Mô hình gán nhãn k t h p 49
Hình 4.1 Mô hình rút trích c m danh t &c tr ng ng ngh(a theo h ng xác nh 55
Hình 4.2 S th hi n m i quan h gi a c m danh t A và c m danh t B… 67
Hình 4.3 Mô hình rút trích CDT$TNN d a vào so trùng m u và Ontology – ViKEa……….……….68
Hình 5.1 Nguyên lý c c ti u r i ro c u trúc .78
Hình 5.2 Các m&t ph.ng phân tách .79
Hình 5.3 M&t ph.ng phân tách (w,b) cho t p hu n luy n hai chi u 80
Hình 5.4 Ví d v m t tr ng h p không phân bi t c .83
Hình 5.5 Quá trình ánh x t không gian nh p vào không gian &c tr ng 86
Hình 5.6 Mô hình rút trích c m danh t &c tr ng ng ngh(a - ViKEe 91
Hình 6.1 Mô hình t,ng quát rút trích c m danh t &c tr ng ng ngh(a ViKE 103
Hình 6.2 Mô hình ki n trúc ba l p cu h th ng rút trích CDT$TNN trong ti ng Vi t –ViKE……… 106
Hình 6.3 $ th so sánh hi u su t rút trích CDT$TNN gi a các phiên b n… 108
Hình 6.4 $ th so sánh hi u su t rút trích CDT$TNN gi a các mô hình…….109
Hình 6.5 $ th bi u th th i gian áp ng khi th c nghi m trên t p C1 v i 10 câu ng u nhiên……… …… 110