Áp dụng kỹ thuật phân tích ngữ nghĩa tiềm ẩn trong đối sánh văn bản (Đồ án tốt nghiệp)Áp dụng kỹ thuật phân tích ngữ nghĩa tiềm ẩn trong đối sánh văn bản (Đồ án tốt nghiệp)Áp dụng kỹ thuật phân tích ngữ nghĩa tiềm ẩn trong đối sánh văn bản (Đồ án tốt nghiệp)Áp dụng kỹ thuật phân tích ngữ nghĩa tiềm ẩn trong đối sánh văn bản (Đồ án tốt nghiệp)Áp dụng kỹ thuật phân tích ngữ nghĩa tiềm ẩn trong đối sánh văn bản (Đồ án tốt nghiệp)Áp dụng kỹ thuật phân tích ngữ nghĩa tiềm ẩn trong đối sánh văn bản (Đồ án tốt nghiệp)Áp dụng kỹ thuật phân tích ngữ nghĩa tiềm ẩn trong đối sánh văn bản (Đồ án tốt nghiệp)Áp dụng kỹ thuật phân tích ngữ nghĩa tiềm ẩn trong đối sánh văn bản (Đồ án tốt nghiệp)Áp dụng kỹ thuật phân tích ngữ nghĩa tiềm ẩn trong đối sánh văn bản (Đồ án tốt nghiệp)
Trang 2B GIÁO D O
I H C DÂN L P H I PHÒNG -o0o -
N
Ngành Công ngh thông tin
H I PHÒNG 2016
Trang 3B GIÁO D O
I H C DÂN L P H I PHÒNG -o0o -
N
Ngành Công ngh thông tin
Sinh viên th c hi n: Nguy n Minh Thành
Mã s sinh viên: 1513101003
ng d n: Nguy n Tr
H I PHÒNG 2016
Trang 5- Áp d ng ki n th c trong xâp d ng ph n m m th nghi m.
b Th c nghi m
C CÁC YÊU C U V I SINH VIÊN
- Có tinh th n trách nhi i v i công vi c
- Bi t ít nh t m t ngôn ng l p trình
- Kh c và t ng h p d li u
Trang 7PH N NH N XÉT TÓM T T C A CÁN B NG D N
ng c tài (so v i n i dung yêu c ra trong nhi m v án)
m c a cán b ng d n m ghi b ng s và ch ):
Ngày tháng n
( Ký, ghi rõ h tên )
Trang 8PH N NH A CÁN B CH M PH N BI TÀI T T NGHI P
giá tr th c t , )
2. m c a cán b ph n bi n ( m ghi b ng s ,ch ):
Ngày tháng n
(Ký, ghi rõ h tên )
Trang 9M C L C
M C L C 9
DANH M C HÌNH 12
DANH M C B NG 13
DANH M C T VI T T T 14
15
Gi i thi n 17
1.1 Gi i thi u 17
1.2 Phân tách tài li u thành các t khóa (Filter) 17
1.2.1 Các nghiên c u v c u trúc c a các nhà nghiên c u Vi t Nam 17 1.2.2 Tách tài li u thành các t khóa .22
1.2.3 Gi i pháp tách t Ti ng Anh 23
1.2.4 Gi i pháp cho Ti ng Vi t 23
1.3 Các h th ng g i ý (recommender systems - RS) 25
1.3.1 Các khái ni m v Recommender System 25
1.3.2 X lý tài li u ti ng Vi t 26
1.3.3 X lý tài li u theo ng 27
m n 30
2.1 Ti n x lý 30
b n 30
p 30
p 30
2.2 Tách t 30
2.2.1 Ti ng trong ti ng Vi t 31
2.2.2 T trong ti ng Vi t 31
2.2.3 T d ng và t g c 31
2.3 ph bi n 32
2.3.1 32
2.3.2 TF-IDF Term Frequency Inverse Document Frequency 33
2.3.3 based Learning (TBL) 34
2.3.4 Mô hình tách t b ng WFST và m ng Neural 34
2.3.5 ti ng Vi t d a trên th ng kê t Internet và thu t gi i di truy n 35
Trang 102.4.1 Gi i thi u 36
2.4.2 Khái ni m 37
2.4.3 Cách th c ho ng 38
2.5 n 46
2.5.1 ng 46
2.5.2 n trong Ti ng Vi t 49
2.6 ng cho toàn b n 52
Bài toán áp d ng 53
3.1 Gi i thi u ngôn ng R 53
3.1.1 Gi i thi u R 53
3.1.2 Các l n trong gói phân tích ng m n trong R 54
3.2 t và ch 57
3.2.1 t 57
3.2.2 Ch Error! Bookmark not defined. .65
66
Trang 11L I C
b ng, góp ý cho em trong su t th i gian qua em có th
Trang 12DANH M C HÌNH
c u trúc t c a Nguy n Tài C n 18
Hình 2: Hình minh h a t n 23
Hình 3: Gi i thu t tách t t câu 24
Hình 4: C u trúc gi i thu t LSA 29
Hình 5: S d ng các khái ni i di n cho tài li u 37
SVD c a ma tr n thu t ng tài li u 42
c gi c c a ma tr n thu t ng - tài li u 44
Hình 8: C a s làm vi c c a Rstudio 58
Hình 9: n lsa 60
Hình 10: n lsa 61
Hình 11: File lsa_plot.R 62
Hình 12: L nh return 62
Hình 13: Các thu t ng -tài li u 63
Hình 14: Ma tr n thu t ng tài li u 63
Hình 15: Ma tr n gi m chi u 64
Hình 16: Ma tr n tài li u-tài li u 64
Hình 17: Bi t ng -tài li u 65
Trang 13DANH M C B NG
B ng 1: B ng m t s ví d v c t n 25
B ng 2: S l n xu t hi n c a thu t ng trong m i tài li u 41
Trang 14DANH M C T VI T T T
SVD Singular Value Decompotision Tách giá tr s ít ho c tách giá tr
riêngTF-IDF Term Frequency Inverse
Document Frequency
tính ch t quan tr ng c a m t ttrong tài li u ch a nó (TF-t n su t
xu t hi n c a t trong tài li u) v i tính phân bi t c a t trong t p tài
li u ngu n (IDF-ngh o t n su t tài li u)
Trang 15Trong th i công ngh s hi n nay, các ngu n tài li u là vô cùng phong phú.
Vi c tìm ki m m t tài li u tr n gi n h n bao gi h t, r t nhi u tài li u, thông tin tri th c m i m n t ng gi , giúp chúng ta thu nh n tri th c m i lúc
th c phát hành trên internet nhi u l n t nhi u ngu n, theo nhi u nh d ng khác nhau, trong nhi n t khác nhau, trên nh ng trang web khác nhau Tìm
khá h u hi u cho v này và m t vài công c ph n m m cho phép phát hi n, tìm
ki m m t tài li u ho c m t t p h p các tài li u ngu n phù h p v i yêu c u T p h p các tài li u ngu n có th - t c là các tài li u t p h c trong m n
n t ho c là m , ch ng h p tài li n trên internet
m n c a m t tài li u có n m trong có n m trong m t tài li u khác hay
y u d a trên tìm ki m và so kh p chu i Tuy nhiên,
p chu i ch hi u qu n u t ho c t p t là nguyên Do v y, m t yêu c t ra là làm th phát hi n vi c c các tài
li u có liên quan khi các tài li có s m t s t b ng t ng
Trang 16n th c nghi a trên phân tích ng m
K t lu n
Tài li u tham kh o
Trang 17riêng, là h u ích gi a các tài li u y Và vi u tiên ta ph bi i các
d n ngôn ng t nhiên thành d ng d li u có c u trúc, hay nói cách khác là
x lý d li u vào
1.2 Phân tách tài li u thành các t khóa (Filter)
Các tài nguyên là các tài li c th hi i d t cu n sách, t p chí, hay m t bài báo, bài di n t i nh ng tài li u ti ng Anh, m t t ng có m t âm ti t, ta có th d nh m t t d a vào d u cách (space) ho c d u câu Vi n ti ng Anh thành các t khóa không
1.2.1 Các nghiên c u v c u trúc c a các nhà nghiên c u Vi t Nam
m trong nghiên c u v ng pháp ti ng Vi t, chúng ta có th th y r ng
n th ng nh t v cách g i c a t lo u trúc các
c nhi u tác gi ng nh
Trang 18h p v i ng pháp ti ng Vi t hi n t ng th i, trong quá trình xây d án, tác
gi n hành so sánh và b sung thêm nh ng ph n lý thuy t thu m
c a Nguy n Tài C n và Di p Quan Ban
Nguy n Tài C n (1975) ng Th ng] cho r ng c m danh t (danh ng ) g m
có ba ph n: ph u, ph n trung tâm và ph n cu sau:
Ví d :
Trong th c t danh ng còn có th xu t hi n c i d ng nh ng d ng ch có hai
ph n: ph u+ph n trung tâm, ph n trung tâm + ph n sau ho c ph u + ph n sau
Ph n trung tâm c a danh ng không ph i ch có m t t trung tâm mà bao g m c
b ph n trung tâm ghép g m hai trung tâm T1 và T2, v i hai v trí T1, T2 b ph n trung tâm có th xu t hi i 3 bi n d ng :
: T1T2, ví d : con chim ( này)
o D ng thi u T1 : -T2, ví d : - chim (này)
o D ng thi u T2: T1-, ví d : con ( này)
o Lo nh t do m t m m nhi m, ví d : cu n sách tôi v a mua hôm qua
T t c nh ng cái ch chính xác
Trang 19- Phía ngoài sân
Nguy n Kim Th n (1997) cho r ng vi c nghiên c u c m danh t chính là vi c nghiên c u t t danh t , lo i t chi tuy i trong nhóm danh t Danh t
Trang 20o T t N1 z N2, ví d : quê c a m , nhà b ng g ch, k ho ch v kinh t , sách cho thi u nhi, nhãn
oT t N1 (z) N2, ví d : quê m , nhà g ch, k ho ch kinh t , sách thi u nhi, nhãn
i t )
-T t danh t + th i v t (E):
ví d : hai cái bàn T ch th t bao gi t sau danh t (NF), ví d : bàn s hai, quy n th
o T t danh t ng t , ví d : cá s c sôi, gió lùa, k ho ch làm vi
o T t danh t + tính t , ví d : qu táo vàng, cái áo tr
o T t danh t i t ch nh, ví d : con mèo
trung tâm, ph n ph c, ph n ph sau Ph n trung tâ ng là m t danh t ho c
s p x p theo m t tr t t nh nh ph n ph ng nh c hai v trí có tr t
t nh Ph n ph c c m danh t chuyên dùng ch m t s ng c a s v t nêu trung tâm, ph n ph sau ch y u dùng ch m t ch ng c a s v t nêu trung tâm
Trang 21Câu hoàn ch nh có ho c không s d ng các tr ng t , t c m thán (các
Trang 22V i các tài li u ti ng Anh, các t c phân cách nhau b i d u cách Vi c x lý
Trong ti ng Vi t không th c thành nh ng t riêng b i d u cách Vì
t có th g m m t, hai ho c nhi ng âm ti t (s ng t ghép) Vì th ,
Gi i thu c thi t k ch y offline trong phiên b u tiên Quá trình
c p nh t tài li i qu n tr nh p Chi phí th i gian cho modul này là khá l n,
thành t khóa
Trang 24Hình 3: Gi i thu t tách t t câuTài li c tách thành các câu chu n (hoàn ch nh) Gi i thu t tách các t khóa
t trong câu s c ki m tra xem có t n t i trong t n không
b ng các so sánh nó v i các t trong t n N trong t n, thì tách
t m tra ti p Gi i thu t trên gi m thi u t ng nh p nh ng Tuy
ng h p câu này thì gi i thu t tách sai: H c sinh h c sinh h c
t t (thu a bàn)
Trang 25Chi phí v th i gian cho gi i thu t trên là r t l n c ki m tra t tách ra có
v i ki u d li c t ch c theo 2 ki
M t là m ng các string M i ph n t là t hay c m t c a t n M c
s p x p theo th t n c a mã ASCII (Trong C#, ki u d li u m ng)
T ch c thành m t arraylist mà m i ph n t c a nó là m ng các string M ng các string thu c 1 ph n t nó gi ng nhau v âm ti u tiên c a t Ví d
1.3.1 Các khái ni m v Recommender System
Recommender Systems (RS) là m t h th ng l c bi t, h th ng cho phép l c thông tin d a trên s quan tâm c i dùng và n i dung c n có hai
Trang 26k thu c s d xây d ng m t h th ng RS hi n nay.M t là k thu t
ng n i dung Content based approach, k thu t này cho phép h th
nh ng g i ý phù h p nh t v i nh ng tiêu chu nh H th ng ph i n m
t khoá c i dùng) và s p x p chúng theo nh ng tiêu chu ng
K thu t h ng l c c ng tác Collborative filtering CF l i làm vi c d
D th ph c t p c a bài toán là r t cao b i không gian S là r t l n Ví d
cách ng d ng v g i ý sách, s ng sách có th lên t i hàng tri u quy n Ho c h
Trang 27c h t là các b gõ ch Vi t và thành công c a vi c b mã ch Vi t
c v chu n, r t nhi u cán b CNTT, nhi
ng h lâu dài (http://nomfoundation.org)
VnDOCR c a Vi n Công ngh Thông tin, Vi n Khoa h c
in trên gi y thành các tài li n t i d ng các t n trên máy tính)
(c) Các ph n m m h tr vi c s d ng ti c ngoài, tiêu bi u là các t n
tra c u t Anh-Vi t, Vi t- u ta c n phân bi t là các t n
d ng trong x lý ngôn ng t nhiên (s c p ph n sau)
(d) Các n l c trong vi c làm các ph n m m d ch Anh-Vi t, Vi t-Anh, ch ng h n
d ch EVTRAN và VETRAN
(e) M t lo i vi c n a là Vi t hóa các ph n m m mà g u là k t qu Vi t hóa Windows và Microsoft Office c a Microsoft Vi c này có th
các thông báo ti ng Anh c nh trong các ph n m m thành các thông báo ti ng Vi t
m nguyên th y và các quan h -A,
xây d ng b ng tay, vì v y các mô hình u d ng l i m bi u di n trên m t vài câu V a cách ti p c n này là thi u tri th c
D tri th c (Knowledge-Based):
Trang 28u th ng khai thác tri th c t ng t
có th ph n nào kh c ph c h n ch c ng ti p c n d a trên trí tu nhân
t o (thi u tri th c) K t qu c ng ti p c n này là s i c a m ng WordNet
nh trong t ng h p c th
D a trên ng li u (Corpus Based)
ng ti p c n này s rút ra các quy lu t x lý ng ng th ng kê, b ng máy
cách ti p c c h i sinh và phát tri n m nh t i ngày nay
Hi n nay, cách ti p c n d a trên ng li u k t h p v i tri th c có s ng ti p
c c nhi u nhà ngôn ng h c máy tính quan tâm
1.3.3.2 Phân tích ng m n (Latent Semantic Analystic-LSA)
K thu t LSA là nh ng lý thuy t c cho vi c trích rút và th hi n ng
c nh s d ng ng a t d a trên vi c tính toán thông kê K thu t này cho phép
ng d ng trên m t kho d li n l n c a k thu t là t ng h p t t
nh ng t p ràng bu c l n nhau Nh ng t p ràng bu nh s
ng v a nh ng t và t p h p m i t khác
các hàng c a ma tr t khóa c a m t tài li c dùng làm c t, các tài
li u làm hàng, các ô c a ma tr c kh i t o là t n su t xu t hi n c a t khóa-thu t
ng u LSA dùng k thu t phân tích giá tr riêng (SVD-Singular Value Decomposition gi m b c ma tr n thu t ng -tài li u, không gian N-chi u
s c gi m b t xu ng m t không gian K chi u, K<<N, không gian m c g i
là không gian khái ni m
nh v i tài li u xét Là ngu n quan tr ng trong vi i ý nh ng tài
Trang 29pháp Phân tích ng m n (LSA Latent Sematic Analys).
Ch m c ng m n (LSI) thêm m c quan tr ng cho vi c x lý ch m c tài li u.Thêm vào vi c ghi nh ng t khóa mà m t tài li u ch o sát toàn b t p d li th y nh ng tài li u khác ch a m t s t c v i các
t c phát tri u tiên Bellcore trong cu i nh
tài li u có nhi u t thông d ng tài li u ít t thông d ng là ít
c dù thu t gi i LSI không hi u tí gì v a các t , nó nh n ra các khuân m u
Khi tìm ki m m t CSDL ch m c LSI, công c tìm ki m này xem xét nh ng giá tr
g t mà nó tính toán cho m i t c a n i dung, và tr v các tài li
thích h p nh t v i câu truy v n B i vì hai tài li u có th r t g i nhau th m chí n u chúng không cùng chung m t t c bi t, LSI không yêu c u m t s phân tích l tr v các k t qu h u d ng nh ng v trí mà m t tìm ki m
thì LSI s ng tr v nh ng tài li u liên quan mà không ch a t t c nh ng t khóa
Phân tích ng t khâu r t quan tr ng trong h th ng g c tách t
T p tài li u (t khóa)
X lý LSA (ma
tr n và gi i thu tSVD)
T p các tài li u liên quan t i m t tài li u
C p nh t CSDL
(d li u tài li u liên quan)
Hình 4: C u trúc gi i thu t LSA
Trang 30ki m trong k t qu tr v i dùng l u tiên b ng vi c so kh p các t khóa
c nh p v i các t khóa trong ph n t khóa c a các tài li u Khâu x lý v n i dung
m t n i dung gi a các tài li i ý Có th hai tài li u không có b t khóa gi ng
Trong bài toán phân nhóm, m t nhóm là m t t p h p các ph n t gi
so v i các ph n t thu c nhóm khác M c tiêu là tìm ra m t t p h p các nhóm sao cho
t khác nhau ph i th p
p
d ng cây phân c n m t cách hi u qu Các thu ng có chung
Trang 31âm, ng pháp Khác v i các ngôn ng châu Âu, m i t là m t nhóm các ký
t c cách nhau b i m t kho ng tr ng Ti ng Vi t và các ngôn ng p khác, thì kho ng tr ng không ph c nh n di n t
nh các tài li so sánh Các t y (ví d c g i là t d ng (stopword)
b t không gian ch s và c i thi n th c hi n là nh ng lý do quan tr lo i tr các t
d ng Tuy nhiên, vi c này làm cho m t s b lo i b m c dù nó v n có
u n a là t nhi t t có r t nhi u
Trang 32d ng lúc nó l i là trung tâm c a m y t không
còn g i là LRMM - Left Right Maximum Matching
duy t m t câu t trái sang ph i và ch n t có nhi u âm ti t nh t có m t trong t n và
quy t nh p nh ng t s chúng ta có m t chu i ký t
s áp d ng p u chu u tiên ki m tra xem C1 có ph i là t hay
m tra xem C1C2 có ph i là t hay không, ti p t c th c hi
Trang 33Term Frequency Inverse Document Frequency (TF-IDF) là gi
tr ng s k t h p tính ch t quan tr ng c a m t t trong tài li u ch a nó (TF-t n su t xu t
hi n c a t trong tài li u) v i tính phân bi t c a t trong t p tài li u ngu n (IDF-ngh ch
Trang 35c 2: Xây d ng các kh n t gi m s bùng n t h p khi sinh
ra dãy các t có th t m t dãy các ti ng trong câu, tác gi xu t
h p dùng thêm t h n ch sinh ra các bùng n t h p, c th là n u phát hi n
ph i là t láy, không ph i là danh t lo i b các nhánh xu t phát t
m quan tr ng c a mô hình này c n t p ng li u h
2.3.5 ti ng Vi t d a trên th ng kê t Internet và thu t
gi i di truy n
ti ng Vi t d a trên th ng kê t Internet và thu t gi i di truy n IGATEC (Internet and Genetics Algorithm based Text Categorization for Documents
Trang 36t p ng li u h ng ti p c n này, tác gi k t h p gi a thu t toán di truy n
khái ni m Nói cách khác: ta dùng các thu t ng hình thành khái ni m
i di n cho tài li u
ng s là:
Trang 37Hình 5: S d ng các khái ni i di n cho tài li u
nh m t t ng gi a thành m t m i liên h gi a các truy v n và tài li u Ta
truy v n t3 v i d2, d3, d4 trong t p tr l i d a vào vi n khái
2.4.2 Khái ni m
Phân tích ng m n (Latent Semantic Analysis-LSA) là m t lý thuy t và
chi t xu t, bi u di n ng c a t , b ng cách tính toán th i v i m t t p l n (Landauer and Dumais, 1997) ng là t p
Trang 38LSA khác v i m t s ng kê khác hai khía c nh quan tr ng
gi i quy t v c a LSA là s d ng k thu t SVD (Singular Value
thu t tách giá tr s ít (ho c là tách giá tr riêng), nh m làm
gi c c a ma tr n t n s LSA xem m i tài li u là m dài là k,
b i vì sau khi th c hi n phân tích thành giá tr riêng ch gi l bi u di n ý
ng K thu t này cho phép lo i b nh ng c m t và nhóm c m t mà phân bi c gi a nh ng tài li u khác nhau
(3) nh ng k t qu thu c r t nhi u vào s chi i di
Theo các cách khác nhau, LSA th hi n kh p ki n th c chính xác và