1. Trang chủ
  2. » Công Nghệ Thông Tin

Áp dụng kỹ thuật phân tích ngữ nghĩa tiềm ẩn trong đối sánh văn bản (Đồ án tốt nghiệp)

67 169 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 67
Dung lượng 9,44 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Áp dụng kỹ thuật phân tích ngữ nghĩa tiềm ẩn trong đối sánh văn bản (Đồ án tốt nghiệp)Áp dụng kỹ thuật phân tích ngữ nghĩa tiềm ẩn trong đối sánh văn bản (Đồ án tốt nghiệp)Áp dụng kỹ thuật phân tích ngữ nghĩa tiềm ẩn trong đối sánh văn bản (Đồ án tốt nghiệp)Áp dụng kỹ thuật phân tích ngữ nghĩa tiềm ẩn trong đối sánh văn bản (Đồ án tốt nghiệp)Áp dụng kỹ thuật phân tích ngữ nghĩa tiềm ẩn trong đối sánh văn bản (Đồ án tốt nghiệp)Áp dụng kỹ thuật phân tích ngữ nghĩa tiềm ẩn trong đối sánh văn bản (Đồ án tốt nghiệp)Áp dụng kỹ thuật phân tích ngữ nghĩa tiềm ẩn trong đối sánh văn bản (Đồ án tốt nghiệp)Áp dụng kỹ thuật phân tích ngữ nghĩa tiềm ẩn trong đối sánh văn bản (Đồ án tốt nghiệp)Áp dụng kỹ thuật phân tích ngữ nghĩa tiềm ẩn trong đối sánh văn bản (Đồ án tốt nghiệp)

Trang 2

B GIÁO D O

I H C DÂN L P H I PHÒNG -o0o -

N

Ngành Công ngh thông tin

H I PHÒNG 2016

Trang 3

B GIÁO D O

I H C DÂN L P H I PHÒNG -o0o -

N

Ngành Công ngh thông tin

Sinh viên th c hi n: Nguy n Minh Thành

Mã s sinh viên: 1513101003

ng d n: Nguy n Tr

H I PHÒNG 2016

Trang 5

- Áp d ng ki n th c trong xâp d ng ph n m m th nghi m.

b Th c nghi m

C CÁC YÊU C U V I SINH VIÊN

- Có tinh th n trách nhi i v i công vi c

- Bi t ít nh t m t ngôn ng l p trình

- Kh c và t ng h p d li u

Trang 7

PH N NH N XÉT TÓM T T C A CÁN B NG D N

ng c tài (so v i n i dung yêu c ra trong nhi m v án)

m c a cán b ng d n m ghi b ng s và ch ):

Ngày tháng n

( Ký, ghi rõ h tên )

Trang 8

PH N NH A CÁN B CH M PH N BI TÀI T T NGHI P

giá tr th c t , )

2. m c a cán b ph n bi n ( m ghi b ng s ,ch ):

Ngày tháng n

(Ký, ghi rõ h tên )

Trang 9

M C L C

M C L C 9

DANH M C HÌNH 12

DANH M C B NG 13

DANH M C T VI T T T 14

15

Gi i thi n 17

1.1 Gi i thi u 17

1.2 Phân tách tài li u thành các t khóa (Filter) 17

1.2.1 Các nghiên c u v c u trúc c a các nhà nghiên c u Vi t Nam 17 1.2.2 Tách tài li u thành các t khóa .22

1.2.3 Gi i pháp tách t Ti ng Anh 23

1.2.4 Gi i pháp cho Ti ng Vi t 23

1.3 Các h th ng g i ý (recommender systems - RS) 25

1.3.1 Các khái ni m v Recommender System 25

1.3.2 X lý tài li u ti ng Vi t 26

1.3.3 X lý tài li u theo ng 27

m n 30

2.1 Ti n x lý 30

b n 30

p 30

p 30

2.2 Tách t 30

2.2.1 Ti ng trong ti ng Vi t 31

2.2.2 T trong ti ng Vi t 31

2.2.3 T d ng và t g c 31

2.3 ph bi n 32

2.3.1 32

2.3.2 TF-IDF Term Frequency Inverse Document Frequency 33

2.3.3 based Learning (TBL) 34

2.3.4 Mô hình tách t b ng WFST và m ng Neural 34

2.3.5 ti ng Vi t d a trên th ng kê t Internet và thu t gi i di truy n 35

Trang 10

2.4.1 Gi i thi u 36

2.4.2 Khái ni m 37

2.4.3 Cách th c ho ng 38

2.5 n 46

2.5.1 ng 46

2.5.2 n trong Ti ng Vi t 49

2.6 ng cho toàn b n 52

Bài toán áp d ng 53

3.1 Gi i thi u ngôn ng R 53

3.1.1 Gi i thi u R 53

3.1.2 Các l n trong gói phân tích ng m n trong R 54

3.2 t và ch 57

3.2.1 t 57

3.2.2 Ch Error! Bookmark not defined. .65

66

Trang 11

L I C

b ng, góp ý cho em trong su t th i gian qua em có th

Trang 12

DANH M C HÌNH

c u trúc t c a Nguy n Tài C n 18

Hình 2: Hình minh h a t n 23

Hình 3: Gi i thu t tách t t câu 24

Hình 4: C u trúc gi i thu t LSA 29

Hình 5: S d ng các khái ni i di n cho tài li u 37

SVD c a ma tr n thu t ng tài li u 42

c gi c c a ma tr n thu t ng - tài li u 44

Hình 8: C a s làm vi c c a Rstudio 58

Hình 9: n lsa 60

Hình 10: n lsa 61

Hình 11: File lsa_plot.R 62

Hình 12: L nh return 62

Hình 13: Các thu t ng -tài li u 63

Hình 14: Ma tr n thu t ng tài li u 63

Hình 15: Ma tr n gi m chi u 64

Hình 16: Ma tr n tài li u-tài li u 64

Hình 17: Bi t ng -tài li u 65

Trang 13

DANH M C B NG

B ng 1: B ng m t s ví d v c t n 25

B ng 2: S l n xu t hi n c a thu t ng trong m i tài li u 41

Trang 14

DANH M C T VI T T T

SVD Singular Value Decompotision Tách giá tr s ít ho c tách giá tr

riêngTF-IDF Term Frequency Inverse

Document Frequency

tính ch t quan tr ng c a m t ttrong tài li u ch a nó (TF-t n su t

xu t hi n c a t trong tài li u) v i tính phân bi t c a t trong t p tài

li u ngu n (IDF-ngh o t n su t tài li u)

Trang 15

Trong th i công ngh s hi n nay, các ngu n tài li u là vô cùng phong phú.

Vi c tìm ki m m t tài li u tr n gi n h n bao gi h t, r t nhi u tài li u, thông tin tri th c m i m n t ng gi , giúp chúng ta thu nh n tri th c m i lúc

th c phát hành trên internet nhi u l n t nhi u ngu n, theo nhi u nh d ng khác nhau, trong nhi n t khác nhau, trên nh ng trang web khác nhau Tìm

khá h u hi u cho v này và m t vài công c ph n m m cho phép phát hi n, tìm

ki m m t tài li u ho c m t t p h p các tài li u ngu n phù h p v i yêu c u T p h p các tài li u ngu n có th - t c là các tài li u t p h c trong m n

n t ho c là m , ch ng h p tài li n trên internet

m n c a m t tài li u có n m trong có n m trong m t tài li u khác hay

y u d a trên tìm ki m và so kh p chu i Tuy nhiên,

p chu i ch hi u qu n u t ho c t p t là nguyên Do v y, m t yêu c t ra là làm th phát hi n vi c c các tài

li u có liên quan khi các tài li có s m t s t b ng t ng

Trang 16

n th c nghi a trên phân tích ng m

K t lu n

Tài li u tham kh o

Trang 17

riêng, là h u ích gi a các tài li u y Và vi u tiên ta ph bi i các

d n ngôn ng t nhiên thành d ng d li u có c u trúc, hay nói cách khác là

x lý d li u vào

1.2 Phân tách tài li u thành các t khóa (Filter)

Các tài nguyên là các tài li c th hi i d t cu n sách, t p chí, hay m t bài báo, bài di n t i nh ng tài li u ti ng Anh, m t t ng có m t âm ti t, ta có th d nh m t t d a vào d u cách (space) ho c d u câu Vi n ti ng Anh thành các t khóa không

1.2.1 Các nghiên c u v c u trúc c a các nhà nghiên c u Vi t Nam

m trong nghiên c u v ng pháp ti ng Vi t, chúng ta có th th y r ng

n th ng nh t v cách g i c a t lo u trúc các

c nhi u tác gi ng nh

Trang 18

h p v i ng pháp ti ng Vi t hi n t ng th i, trong quá trình xây d án, tác

gi n hành so sánh và b sung thêm nh ng ph n lý thuy t thu m

c a Nguy n Tài C n và Di p Quan Ban

Nguy n Tài C n (1975) ng Th ng] cho r ng c m danh t (danh ng ) g m

có ba ph n: ph u, ph n trung tâm và ph n cu sau:

Ví d :

Trong th c t danh ng còn có th xu t hi n c i d ng nh ng d ng ch có hai

ph n: ph u+ph n trung tâm, ph n trung tâm + ph n sau ho c ph u + ph n sau

Ph n trung tâm c a danh ng không ph i ch có m t t trung tâm mà bao g m c

b ph n trung tâm ghép g m hai trung tâm T1 và T2, v i hai v trí T1, T2 b ph n trung tâm có th xu t hi i 3 bi n d ng :

: T1T2, ví d : con chim ( này)

o D ng thi u T1 : -T2, ví d : - chim (này)

o D ng thi u T2: T1-, ví d : con ( này)

o Lo nh t do m t m m nhi m, ví d : cu n sách tôi v a mua hôm qua

T t c nh ng cái ch chính xác

Trang 19

- Phía ngoài sân

Nguy n Kim Th n (1997) cho r ng vi c nghiên c u c m danh t chính là vi c nghiên c u t t danh t , lo i t chi tuy i trong nhóm danh t Danh t

Trang 20

o T t N1 z N2, ví d : quê c a m , nhà b ng g ch, k ho ch v kinh t , sách cho thi u nhi, nhãn

oT t N1 (z) N2, ví d : quê m , nhà g ch, k ho ch kinh t , sách thi u nhi, nhãn

i t )

-T t danh t + th i v t (E):

ví d : hai cái bàn T ch th t bao gi t sau danh t (NF), ví d : bàn s hai, quy n th

o T t danh t ng t , ví d : cá s c sôi, gió lùa, k ho ch làm vi

o T t danh t + tính t , ví d : qu táo vàng, cái áo tr

o T t danh t i t ch nh, ví d : con mèo

trung tâm, ph n ph c, ph n ph sau Ph n trung tâ ng là m t danh t ho c

s p x p theo m t tr t t nh nh ph n ph ng nh c hai v trí có tr t

t nh Ph n ph c c m danh t chuyên dùng ch m t s ng c a s v t nêu trung tâm, ph n ph sau ch y u dùng ch m t ch ng c a s v t nêu trung tâm

Trang 21

Câu hoàn ch nh có ho c không s d ng các tr ng t , t c m thán (các

Trang 22

V i các tài li u ti ng Anh, các t c phân cách nhau b i d u cách Vi c x lý

Trong ti ng Vi t không th c thành nh ng t riêng b i d u cách Vì

t có th g m m t, hai ho c nhi ng âm ti t (s ng t ghép) Vì th ,

Gi i thu c thi t k ch y offline trong phiên b u tiên Quá trình

c p nh t tài li i qu n tr nh p Chi phí th i gian cho modul này là khá l n,

thành t khóa

Trang 24

Hình 3: Gi i thu t tách t t câuTài li c tách thành các câu chu n (hoàn ch nh) Gi i thu t tách các t khóa

t trong câu s c ki m tra xem có t n t i trong t n không

b ng các so sánh nó v i các t trong t n N trong t n, thì tách

t m tra ti p Gi i thu t trên gi m thi u t ng nh p nh ng Tuy

ng h p câu này thì gi i thu t tách sai: H c sinh h c sinh h c

t t (thu a bàn)

Trang 25

Chi phí v th i gian cho gi i thu t trên là r t l n c ki m tra t tách ra có

v i ki u d li c t ch c theo 2 ki

M t là m ng các string M i ph n t là t hay c m t c a t n M c

s p x p theo th t n c a mã ASCII (Trong C#, ki u d li u m ng)

T ch c thành m t arraylist mà m i ph n t c a nó là m ng các string M ng các string thu c 1 ph n t nó gi ng nhau v âm ti u tiên c a t Ví d

1.3.1 Các khái ni m v Recommender System

Recommender Systems (RS) là m t h th ng l c bi t, h th ng cho phép l c thông tin d a trên s quan tâm c i dùng và n i dung c n có hai

Trang 26

k thu c s d xây d ng m t h th ng RS hi n nay.M t là k thu t

ng n i dung Content based approach, k thu t này cho phép h th

nh ng g i ý phù h p nh t v i nh ng tiêu chu nh H th ng ph i n m

t khoá c i dùng) và s p x p chúng theo nh ng tiêu chu ng

K thu t h ng l c c ng tác Collborative filtering CF l i làm vi c d

D th ph c t p c a bài toán là r t cao b i không gian S là r t l n Ví d

cách ng d ng v g i ý sách, s ng sách có th lên t i hàng tri u quy n Ho c h

Trang 27

c h t là các b gõ ch Vi t và thành công c a vi c b mã ch Vi t

c v chu n, r t nhi u cán b CNTT, nhi

ng h lâu dài (http://nomfoundation.org)

VnDOCR c a Vi n Công ngh Thông tin, Vi n Khoa h c

in trên gi y thành các tài li n t i d ng các t n trên máy tính)

(c) Các ph n m m h tr vi c s d ng ti c ngoài, tiêu bi u là các t n

tra c u t Anh-Vi t, Vi t- u ta c n phân bi t là các t n

d ng trong x lý ngôn ng t nhiên (s c p ph n sau)

(d) Các n l c trong vi c làm các ph n m m d ch Anh-Vi t, Vi t-Anh, ch ng h n

d ch EVTRAN và VETRAN

(e) M t lo i vi c n a là Vi t hóa các ph n m m mà g u là k t qu Vi t hóa Windows và Microsoft Office c a Microsoft Vi c này có th

các thông báo ti ng Anh c nh trong các ph n m m thành các thông báo ti ng Vi t

m nguyên th y và các quan h -A,

xây d ng b ng tay, vì v y các mô hình u d ng l i m bi u di n trên m t vài câu V a cách ti p c n này là thi u tri th c

D tri th c (Knowledge-Based):

Trang 28

u th ng khai thác tri th c t ng t

có th ph n nào kh c ph c h n ch c ng ti p c n d a trên trí tu nhân

t o (thi u tri th c) K t qu c ng ti p c n này là s i c a m ng WordNet

nh trong t ng h p c th

D a trên ng li u (Corpus Based)

ng ti p c n này s rút ra các quy lu t x lý ng ng th ng kê, b ng máy

cách ti p c c h i sinh và phát tri n m nh t i ngày nay

Hi n nay, cách ti p c n d a trên ng li u k t h p v i tri th c có s ng ti p

c c nhi u nhà ngôn ng h c máy tính quan tâm

1.3.3.2 Phân tích ng m n (Latent Semantic Analystic-LSA)

K thu t LSA là nh ng lý thuy t c cho vi c trích rút và th hi n ng

c nh s d ng ng a t d a trên vi c tính toán thông kê K thu t này cho phép

ng d ng trên m t kho d li n l n c a k thu t là t ng h p t t

nh ng t p ràng bu c l n nhau Nh ng t p ràng bu nh s

ng v a nh ng t và t p h p m i t khác

các hàng c a ma tr t khóa c a m t tài li c dùng làm c t, các tài

li u làm hàng, các ô c a ma tr c kh i t o là t n su t xu t hi n c a t khóa-thu t

ng u LSA dùng k thu t phân tích giá tr riêng (SVD-Singular Value Decomposition gi m b c ma tr n thu t ng -tài li u, không gian N-chi u

s c gi m b t xu ng m t không gian K chi u, K<<N, không gian m c g i

là không gian khái ni m

nh v i tài li u xét Là ngu n quan tr ng trong vi i ý nh ng tài

Trang 29

pháp Phân tích ng m n (LSA Latent Sematic Analys).

Ch m c ng m n (LSI) thêm m c quan tr ng cho vi c x lý ch m c tài li u.Thêm vào vi c ghi nh ng t khóa mà m t tài li u ch o sát toàn b t p d li th y nh ng tài li u khác ch a m t s t c v i các

t c phát tri u tiên Bellcore trong cu i nh

tài li u có nhi u t thông d ng tài li u ít t thông d ng là ít

c dù thu t gi i LSI không hi u tí gì v a các t , nó nh n ra các khuân m u

Khi tìm ki m m t CSDL ch m c LSI, công c tìm ki m này xem xét nh ng giá tr

g t mà nó tính toán cho m i t c a n i dung, và tr v các tài li

thích h p nh t v i câu truy v n B i vì hai tài li u có th r t g i nhau th m chí n u chúng không cùng chung m t t c bi t, LSI không yêu c u m t s phân tích l tr v các k t qu h u d ng nh ng v trí mà m t tìm ki m

thì LSI s ng tr v nh ng tài li u liên quan mà không ch a t t c nh ng t khóa

Phân tích ng t khâu r t quan tr ng trong h th ng g c tách t

T p tài li u (t khóa)

X lý LSA (ma

tr n và gi i thu tSVD)

T p các tài li u liên quan t i m t tài li u

C p nh t CSDL

(d li u tài li u liên quan)

Hình 4: C u trúc gi i thu t LSA

Trang 30

ki m trong k t qu tr v i dùng l u tiên b ng vi c so kh p các t khóa

c nh p v i các t khóa trong ph n t khóa c a các tài li u Khâu x lý v n i dung

m t n i dung gi a các tài li i ý Có th hai tài li u không có b t khóa gi ng

Trong bài toán phân nhóm, m t nhóm là m t t p h p các ph n t gi

so v i các ph n t thu c nhóm khác M c tiêu là tìm ra m t t p h p các nhóm sao cho

t khác nhau ph i th p

p

d ng cây phân c n m t cách hi u qu Các thu ng có chung

Trang 31

âm, ng pháp Khác v i các ngôn ng châu Âu, m i t là m t nhóm các ký

t c cách nhau b i m t kho ng tr ng Ti ng Vi t và các ngôn ng p khác, thì kho ng tr ng không ph c nh n di n t

nh các tài li so sánh Các t y (ví d c g i là t d ng (stopword)

b t không gian ch s và c i thi n th c hi n là nh ng lý do quan tr lo i tr các t

d ng Tuy nhiên, vi c này làm cho m t s b lo i b m c dù nó v n có

u n a là t nhi t t có r t nhi u

Trang 32

d ng lúc nó l i là trung tâm c a m y t không

còn g i là LRMM - Left Right Maximum Matching

duy t m t câu t trái sang ph i và ch n t có nhi u âm ti t nh t có m t trong t n và

quy t nh p nh ng t s chúng ta có m t chu i ký t

s áp d ng p u chu u tiên ki m tra xem C1 có ph i là t hay

m tra xem C1C2 có ph i là t hay không, ti p t c th c hi

Trang 33

Term Frequency Inverse Document Frequency (TF-IDF) là gi

tr ng s k t h p tính ch t quan tr ng c a m t t trong tài li u ch a nó (TF-t n su t xu t

hi n c a t trong tài li u) v i tính phân bi t c a t trong t p tài li u ngu n (IDF-ngh ch

Trang 35

c 2: Xây d ng các kh n t gi m s bùng n t h p khi sinh

ra dãy các t có th t m t dãy các ti ng trong câu, tác gi xu t

h p dùng thêm t h n ch sinh ra các bùng n t h p, c th là n u phát hi n

ph i là t láy, không ph i là danh t lo i b các nhánh xu t phát t

m quan tr ng c a mô hình này c n t p ng li u h

2.3.5 ti ng Vi t d a trên th ng kê t Internet và thu t

gi i di truy n

ti ng Vi t d a trên th ng kê t Internet và thu t gi i di truy n IGATEC (Internet and Genetics Algorithm based Text Categorization for Documents

Trang 36

t p ng li u h ng ti p c n này, tác gi k t h p gi a thu t toán di truy n

khái ni m Nói cách khác: ta dùng các thu t ng hình thành khái ni m

i di n cho tài li u

ng s là:

Trang 37

Hình 5: S d ng các khái ni i di n cho tài li u

nh m t t ng gi a thành m t m i liên h gi a các truy v n và tài li u Ta

truy v n t3 v i d2, d3, d4 trong t p tr l i d a vào vi n khái

2.4.2 Khái ni m

Phân tích ng m n (Latent Semantic Analysis-LSA) là m t lý thuy t và

chi t xu t, bi u di n ng c a t , b ng cách tính toán th i v i m t t p l n (Landauer and Dumais, 1997) ng là t p

Trang 38

LSA khác v i m t s ng kê khác hai khía c nh quan tr ng

gi i quy t v c a LSA là s d ng k thu t SVD (Singular Value

thu t tách giá tr s ít (ho c là tách giá tr riêng), nh m làm

gi c c a ma tr n t n s LSA xem m i tài li u là m dài là k,

b i vì sau khi th c hi n phân tích thành giá tr riêng ch gi l bi u di n ý

ng K thu t này cho phép lo i b nh ng c m t và nhóm c m t mà phân bi c gi a nh ng tài li u khác nhau

(3) nh ng k t qu thu c r t nhi u vào s chi i di

Theo các cách khác nhau, LSA th hi n kh p ki n th c chính xác và

Ngày đăng: 24/02/2018, 20:46

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w