1. Trang chủ
  2. » Luận Văn - Báo Cáo

Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt 10

10 473 8
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Mô Hình Rút Trích Cụm Từ Đặc Trưng Ngữ Nghĩa Trong Tiếng Việt
Tác giả Nguyễn Quang Châu
Người hướng dẫn PGS.TS. Phan Thế Tùng
Trường học Đại Học Bách Khoa TP. HCM
Chuyên ngành Công Nghệ Thông Tin
Thể loại Luận án
Năm xuất bản 2025
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 10
Dung lượng 167,69 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt

Trang 1

L I CAM OAN

Tôi cam oan r ng n i dung c a lu n án này là k t qu nghiên c u c a

ph n sau c a lu n án Nh ng óng góp trong lu n án là k t qu nghiên c u

Tác gi lu n án

Nguy n Quang Châu

Trang 2

L I C M N

c s ào t o giúp t n tình, c quan n i công tác t o m i i u ki n thu n l i và b n bè cùng gia ình th ng xuyên ng viên khích l

Lu n án này không th hoàn thành t t n u không có s t n tình

h ng d n và s giúp quý báu c a PGS.TS Phan Th T i, Ng i

Khoa CNTT- $ i h c Bách Khoa TP H Chí Minh ã giúp và t o

i u ki n cho tôi r t nhi u trong quá trình h c t p và nghiên c u Khoa; c m n Phòng qu n lý sau $ i h c v s h% tr các th t c hoàn thành lu n án

Tôi chân thành c m n Tr ng $ i h c Công Nghi p TP H Chí Minh, &c bi t khoa CNTT, ã h% tr và t o m i i u ki n thu n l i cho tôi trong quá trình hoàn thành khóa h c NCS

Cu i cùng, tôi c m n t t c b n bè và ng i thân ã góp nhi u ý

ki n thi t th c và có nh ng l i ng viên khích l quý báu giúp tôi hoàn thành t t lu n án

Tác gi lu n án

Nguy n Quang Châu

Trang 3

TÓM T T

World Wide Web (WWW) phát tri n nhanh chóng cùng v i ngu n tài nguyên thông tin ngày càng phong phú, nhu c u khai thác ngu n thông tin này c a ng i s' d ng ngày càng tr nên c p thi t i v i i s ng c a con

truy h i thông tin (Information Retrieval), tóm l c v n b n (Text Summarization), và rút trích thông tin (Information Extraction),

M t trong các v n c t lõi c a h th ng khai thác này là xác nh và rút trích chính xác các c m t &c tr ng ng ngh(a (CT$TNN) (khái ni m

v)n b n V n này là m i quan tâm c a các nhà ngôn ng h c, c#ng nh các nhà khoa h c trong l(nh v c x' lý ngôn ng t nhiên b ng máy tính

c m t &c tr ng ng ngh(a c a câu trong v)n b n ti ng Vi t, nh m áp

ng nhu c u ang b b! ng! trong các h th ng khai thác thông tin $i u này ã òi h!i và thúc +y vi c nghiên c u và phát tri n mô hình rút trích

c m t &c tr ng ng ngh(a trong ti ng Vi t (Vietnamese Key Phrase

Information Extraction Model - ViKE) Lu n án nghiên c u rút trích c m t

&c tr ng ng ngh(a (CT$TNN) c a câu n ti ng Vi t V i kh o sát t n

su t xu t hi n c a các c m trong các v)n b n ti ng Vi t, lu n án ã t p trung nghiên c u vi c xác nh và rút trích c m danh t &c tr ng ng ngh(a (CDT$TNN) cho câu n ti ng Vi t

Lu n án trình bày mô hình ViKE ViKE là mô hình k t h p hai h ng

ti p c n chính: (1) h ng ngôn ng h c hay h ng ti p c n xác nh c m danh t &c tr ng ng ngh(a, c th là s' d ng ph ng pháp so trùng th

lo i trên Ontology c a Wikipedia; (2) h ng ti p c n rút trích c m danh t

&c tr ng ng ngh(a hay h ng ti p c n h c máy, c th là s' d ng ph ng

Trang 4

thái t,ng quát c a CDT$TNN: (a) v trí t trong câu; (b) nhãn t lo i; (c)

c u trúc c m danh t ; (d) các t quan h gi a các c m danh t

TREC06, TREC02 (http://trec.nist.gov/data/) và www.lexxe.com (Qiao,

ng nh n di n c m danh t &c tr ng ng ngh(a b ng ph ng pháp th công K t qu mô hình ViKE t chính xác, bao ph và trung bình

i u hòa l n l t là 89,52% , 87,63% và 88,57% Nh v y v i chính xác, y và trung bình i u hòa c a mô hình ViKE ã c i thi n

hi u su t c a hai mô hình thành ph n (mô hình theo h ng ti p c n rút trích

m c tiêu ra c a lu n án

Trang 5

M C L C

DANH M C CÁC B NG 9

DANH M C CÁC HÌNH 10

Ch ng 1 GI I THI U 11

1.1 M c tiêu và ph m vi 11

1.2 Nh ng óng góp chính c a lu n án 16

1.3 C u trúc c a lu n án 17

Ch ng 2 C S LÝ THUY T NGÔN NG TI NG VI T 19

2.1 Gi i thi u 19

2.2 C s lý thuy t 20

2.3 K t ch ng 29

Ch ng 3 T NG QUAN CÁC MÔ HÌNH RÚT TRÍCH C M T C TR NG 31

3.1 Gi i thi u 31

3.2 Các nghiên c u liên quan 32

3.3 S t ng quan gi a h ng ti p c n rút trích và xác nh CT$T 37

3.4 Ph ng pháp ti p c n c a lu n án 38

3.5 K t ch ng 52

Ch ng 4 MÔ HÌNH XÁC NH C M T C TR NG NG NGH A TRONG TI NG VI T (ViKEa) -PH NG PHÁP SO TRÙNG M U D A TRÊN ONTOLOGY 54

4.1 Gi i thi u 54

4.2 Rút trích c m danh t d tuy n……… ……… 55

4.3 Công o n xác nh c m danh t &c tr ng ng ngh(a d a trên ontology……… 62

4.4 K t ch ng ……… ……… 73

Ch ng 5 MÔ HÌNH RÚT TRÍCH C M T C TR NG NG NGH A TRONG TI NG VI T (ViKEe) – PH NG PHÁP H C MÁY 75

Trang 6

5.3 Phát bi u bài toán rút trích CDT$TNN trong ti ng Vi t .89

5.4 Mô hình ViKEe 90

5.5 K t qu th c nghi m 100

5.6 K t ch ng 101

Ch ng 6 MÔ HÌNH RÚT TRÍCH C M T C TR NG NG NGH A TRONG TI NG VI T (ViKE) - K T H P H NG TI P C N RÚT TRÍCH VÀ H NG TI P C N XÁC NH 102

6.1 Gi i thi u 102

6.2 Mô hình rút trích CDT$TNN trong ti ng Vi t 103

6.3 H th ng rút trích CDT$TNN trong ti ng Vi t 105

6.4 $ánh giá hi u su t rút trích CDT$TNN 107

6.5 K t ch ng 112

Ch ng 7 T NG K T 114

7.1 Gi i thi u .114

7.2 Tóm t"t các k t qu t c 115

7.3 H ng phát tri n 116

7.4 K t lu n 117

CÁC BÀI BÁO C A TÁC GI LIÊN QUAN N LU N ÁN ……119

CÁC CÔNG TRÌNH NCKH LIÊN QUAN N LU N ÁN……… 121

TÀI LI U THAM KH O 122

PH L C……….……….i

Trang 7

DANH M C CÁC T VI T T T

approach

Mô hình rút trích c m danh t

&c tr ng ng ngh(a trong ti ng

Vi t theo h ng ti p c n xác

nh CT$TNN

approach

Mô hình rút trích c m danh t

&c tr ng ng ngh(a trong ti ng

Vi t theo h ng ti p c n rút trích CT$TNN

Vi t

10 POS Tagging Part-Of- Speech Tagging Gán nhãn t lo i

11 NP Chunking Noun Phrase Chunking G m c m danh t

Segmentation

Vietnamese Word

Trang 8

18 NLP Natural Language Processing X' lý ngôn ng t nhiên

H i ngh v truy h i thông tin

tiên vào n)m 1992 b i vi n NIST và B Qu c Phòng M-

Trang 9

DANH M C CÁC B NG

B ng 3.1: K t qu gán nhãn t lo i 51

B ng 4.1: B nhãn t lo i c a t 57

B ng 4.2: Các phiên b n Wiktionary(29/1/2008) 63

B ng 4.3: S trang thông tin (# danh hi u), th lo i và trang ,i h ng c a phiên b n Vi.Wikipedia(4/2/2009) 63

B ng 4.4: K t qu rút trích CDT$TNN c a mô hình ViKEa 73

B ng 5.1: Kho ng li u 95

B ng 5.2: $ chính xác c a k t qu phân lo i nhãn gom c m IOB 100

B ng 5.3: K t qu rút trích CDT$TNN c a mô hình ViKEe 101

B ng 6.1: K t qu rút trích c m danh t &c tr ng ng ngh(a trong mô hình ViKE 108

B ng 6.2: So sánh hi u su t rút trích CDT$TNN gi a các mô hình 109

B ng 6.3: Th i gian áp ng khi th c nghi m trên t p C1 v i 10 câu ng u nhiên 110

Trang 10

DANH M C CÁC HÌNH

Hình 3.1 Mô hình t,ng quát rút trích c m t &c tr ng ng ngh(a 39

Hình 3.2 Mô hình cho bài toán phân o n t 42

Hình 3.3 Minh h a tìm ki m t trong t i n 43

Hình 3.4 Mô hình gán nhãn k t h p 49

Hình 4.1 Mô hình rút trích c m danh t &c tr ng ng ngh(a theo h ng xác nh 55

Hình 4.2 S th hi n m i quan h gi a c m danh t A và c m danh t B… 67

Hình 4.3 Mô hình rút trích CDT$TNN d a vào so trùng m u và Ontology – ViKEa……….……….68

Hình 5.1 Nguyên lý c c ti u r i ro c u trúc .78

Hình 5.2 Các m&t ph.ng phân tách .79

Hình 5.3 M&t ph.ng phân tách (w,b) cho t p hu n luy n hai chi u 80

Hình 5.4 Ví d v m t tr ng h p không phân bi t c .83

Hình 5.5 Quá trình ánh x t không gian nh p vào không gian &c tr ng 86

Hình 5.6 Mô hình rút trích c m danh t &c tr ng ng ngh(a - ViKEe 91

Hình 6.1 Mô hình t,ng quát rút trích c m danh t &c tr ng ng ngh(a ViKE 103

Hình 6.2 Mô hình ki n trúc ba l p cu h th ng rút trích CDT$TNN trong ti ng Vi t –ViKE……… 106

Hình 6.3 $ th so sánh hi u su t rút trích CDT$TNN gi a các phiên b n… 108

Hình 6.4 $ th so sánh hi u su t rút trích CDT$TNN gi a các mô hình…….109

Hình 6.5 $ th bi u th th i gian áp ng khi th c nghi m trên t p C1 v i 10 câu ng u nhiên……… …… 110

Ngày đăng: 07/11/2012, 12:13

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm