1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phát hiện sao chép giữa các văn bản tiếng việt

40 15 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 40
Dung lượng 14,12 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

5.Phương pháp xác định sao chép giữa các văn bàn với một cơ sò' dữ liệu lớ n .... Kết quả F-measure khi tiến hành thí nghiệm theo hướng tiếp cận thử nhất chi sứ dụng những đặc trưng mặc

Trang 2

M Ụ C L Ụ C

B Á O C Á O TỐNG K É T

I Giới th iệ u

2.Thách th ứ c

3.Tông quan các vấn đê nghiên c ứ u

3 1 Các phương pháp phổ b iế n

3.2.Kiến thức nền tàng

4 Xây dựng Corpus văn bản tiếng V iệ t

5.Phương pháp xác định sao chép giữa các văn bàn với một cơ sò' dữ liệu lớ n

5 1 Mô hình phát hiện những văn ban gần trùim lặp nhau với một cơ sở dữ liệu lớn 5.2.Lựa chọn đặc trư n g

5.3.Tính Fingerprint cho văn b a n

5.4.Xác định cluster cho văn bán

6.Thực n g h iệ m

6 1 Xây dựng phưưnu pháp thí nghiệm và phương pháp đánh g iá

6.2.K et qu a

7.Kết luận

Tài liệu tham k h á o

3 3 4 ì 5 6 8 9 9 0 ] I

~>

2 7 5 6

Trang 3

D anh sách n h ũ n g người th am gia th ự c hiện đề tài (học h à m , h ọ c q u an c ô n g tác)

Trang 4

D an h m ụ c c á c b ả n g số liệu

Bàng I Kết quả F-measure khi tiến hành thí nghiệm theo hướng tiếp cận thử nhất (chi sứ dụng những đặc trưng mặc định (âm tiết) và không sử dụng các đặc trưng riê n g qua xừ lý tiêng Việt) 13 Bảng 2 Kết quả F-measure khi thí nghiệm với mô hình phát hiện sự trùng lặp cua văn ban tiếng Việt

đề xuất 13

Trang 5

Danh m ụ c c á c hình

Hình I M ô hình phương pháp phát hiện sao chép giữa các văn ban tiếng V iệ t 9Hình 2 Biêu đồ thể hiện kết quả thí nghiệm theo hướng tiếp cận thứ n h ấ t 13Hình 3 Biểu đồ kết quả (F-measure) khi sừ dụng mô hình đề xuất 14

\

Trang 6

O V E R V T E W

1 O bjective

P la g ia rism D e te ctio n is one o f the m ost im p o rta n t p ro b le m s a ffe c tin g o u r life and

it is a c tiv e ly studied by m any research groups in the vvorld T a c k lin g th is task can b rin g

m any advantages to the society, e sp e cially to academ ic since there are m any researches

as w e ll as study m aterials p u b lish e d in the In te rn e t vvidely M o re o v e r s o lv in g the

P lagiarism D e te ctio n p ro b le m g re a tly co n trib u te s to Search eneines períorm ance

T h is p ro je ct is to b u ild up an e ffe c tiv e m ethod to ta c k le the task o f P la g ia rism

D etection A d d itio n a lly , the task o f P la g ia rism D e te c tio n fo r V ietnam ese c u rre n tly receives v e ry little studies so that in this p ro je c t w e w o u ld lik e to pay m ore atte n tio n to

s o lv in g the V ietnam ese P la g ia rism

2 Research

M a tch L A S H , S im hash, C h a rika r

database

3 Result

2 publications in the International Conferences pubỉished by IEEE c s

• Cong Thanh T ruong, lh e D uy B u i, Son Bao Pham "N e a r-d u p lica te s detection f o r Vietnamese Docum ents in L a rg e D a t a b a s e 7lh IE E E International Conference on

Advanced Language Processing and W eb In íb rm a tio n T e c h n o lo g y " C hina 2008

Tem pìate-based A p p ro a c h to A u to m a tic a ìỉy Identiýỵ P rim a ry Text C o n te n t o f a Web

P a g e ” , In The l st IE E E International Conterence on K no\vledee and Systems Engineerine

Trang 7

• C ong T ha n h T ru o n g “ N e a r-d u p ìic a te d D e te c tio n f o r Vietnamese D ocum ents in

L a rg e D atubase ", U n d e r-g ra d u a tio n Thesis, C o lle g e o í I e c h n o lo g y , 2008.

• Trần B ìn h G ia n g , “ Vietnamese B lo g P r o f ilin g ’\ U n d e r-g ra d u a tio n Thesis, C o lle g e

o f T e ch n o lo g y 2009

• Phạm Đ ức Đ ăng, " Vietnamese W o rd S egm entation m e th o d u sin g P a rt-O f-

S peech" U n d e r-g ra d u a tio n Thesis C o lle g e o f T e c h n o lo g y 2009.

Scientifìc coníribution

Enhance knovvledge as \v e ll as s k ills fo r m em bers o t'th e la b o ra to ry in N a tu ra l Language Processing

Trang 8

ỉ T óm tắt các kết quả nghiên cứu chính của đề tài

Ket qua vể khoa học (những đ óng g ó p cua đê tài, các công trìn h khoa học đã công bô)

2 bài báo đăng tại các hội nghị quốc tế chuyên ngành (đăng bởi IEEE CS)

• Cong Thanh T ruong The D u y B ui Son Bao Pham "Near-dupHcates detection f o r Vietnamese D ocum ents in L a rg e Database ” , 7lh IE E E In ternational Conference on A dvanced

Language Processing and W cb In íb n n a tio n T e ch n o lo g y" China 2008

Bài báo ứng dụng phươna pháp phát hiện sao chép giữa các văn ban tiế n g V iệ t trong m ột cơ sơ

dữ liệu lớn đề ứng dụng vào phát hiện các tin tức có nội dung gần g iố n g nhau giúp tăng hiệu quả cùa hệ thống tim kiếm thông tin Phương pháp có tác dụna làm tăng hiệu qua về mặt thời gian tim kiêm nội dung trên m ạng internet và tiế t kiệm được tài nguyên vê bộ nhớ lưu trữ

• Dai Ọ uoc N guyen Dat Ọuoc N guyen Son Bao Phani The D uy Bui "A F ast Tem pỉate- hasecì A p p m a c h to A u to m a tic a llỵ ld e n lifi' P rim a rv Text C o n le n i o f a Weh P a g e " In The r '

IHHH International C ontèrence on K now ledge and Systems Hngineering Hanoi V ietnam 2009

Bài háo ứnn dụng phươnạ pháp phát hiện sao chép giữa các văn ban tiế n g V iệ t úng dụng trong việc nhanh chóng tìm ra các tem plate cúa các vvebsite đê xác định các phan nội duníi chính

Két qua p h ụ c vụ thực tê (các san ph à m công nghệ, kha n ăn g áp d ụ n g thự c tê)

Phươna pháp đè xuàt g iá i quyêt bài toán phát hiện sao chép - hay phát hiện sự trù n e lặp giữa các văn ban tiẻna V iệ t đã được áp dụne vào hệ th ô n e tim k iê m thòne tin X a lo v n cua côna t\ T in h Vàn

K ê/ qua đào tạ o (sô lư ợ n g sin h viên, sô lư ợ n g học viên cao học, n ẹ h iên cú n sin h tham g ia thự c hiện lùm việc tr o n iỊ đê là i sô khóa luận, lu ậ n văn đ ã hoàn th à n h và hao vệ)

.ỉ klióa luận tốt nghiệp C:\TT:

• C ong Thanh T ru o n ti "X e u r-i/iip ltc a te c / D e tc c tio n f o r Vietnam esc D ocum ents in L a rạ c

D a ta h a s c " U n d e r-a ra d u a tio n Thesis C o lle a e o f T c c h n o lo2N 2008

• T rầ n B ìn h G ia n g "V ietnam ese B lo g P r o fd in g " U n d e r-g ra d u a tio n Thesis C o lle g e o l'

l e c h n o lo g ) 2009

Trang 9

Phạm Đ ứ c Đ ăng, "P h ư ơ n g p h á p p h â n đoạn từ tiế n g Việt sử d ụ n g g á n n hãn từ lo ạ i

K hóa luận tố t n g h iệp đại học, Đ ạ i học C ông N ghệ 2009

K ê t quả n â n g cao tiêm lự c khoa học (nâng cao trìn h độ cán bộ và tra n g th iê t b ị h ạ c p h â n mêm đã x â y d ự ng được g ia o nộp đưa vào sử d ụ n g tạ i đơ n v ị):

N âng cao năng lực chuyên m ôn cùa cán bộ phòne th í n g h iệm về các lĩn h vực xứ lý nsôn ngừ

tự nhiên và trí tuệ nhân tạo

Trang 10

BÁO C Á O T Ỏ N G K É T

1 G iới thiệu

V ấn đề xác đ ịn h sự g iố n g nhau giữa các văn bản là m ộ t vân đê quan trọ n g vớ i nhiêu tác động tớ i nhiề u lĩn h vực tro n g cuộc sông H iệ n việ c g iả i q u yế t vân đê xác định hai hay nhiều văn bàn có tương đồng nhau đang được tích cực n ghiên cứu G ia i quyêt được bài toán này có thể ứng dụng tro n g nhiều m ặt cua xã h ộ i và m ộ t ứng d ụng cua bài toán này là phát hiện việc "đ ạ o v ă n " k h i mà các tài liệ u và các nghiên cứu được đưa lên trên m ạng In te rn e t

m ột cách rộ n g rãi và phố biến C ùng vớ i sự phát triể n vớ i tốc độ chóng mặt cùa In te rn e t và công nghệ tìm k iế m , g iả i q u yế t đươc bài toán xác đ ịn h được sự tư ơna đồng giữa các văn bản

m ang lại nhiêu ý nghĩa tích cực tro n g việc xâ y dựng các cỗ m áy tim k iê m cũng như tăng hiệu năng hoạt động của toàn hệ th ố n g tìm kiếm

T ro n g các hệ th ố n g tim kiê m th ô n a tin m ột tro n g những m ục tiêu tiên quvêt là trìn h bày những trang th ích hợp tới naười dùng nhanh nhất có thê Đẽ đạt được m ục tiêu này hộ thống tìm k iế m cần phai phát hiện những tra n g trù n g lặp hoặc gằn trù n ạ lập bơi chúng sẽ

phát hiện những trang nội dung trù n g lặp nhau hoàn loàn thì có thê thực hiện khá dề dàn tí nhờ phươne pháp checksum tu y nhiên phát hiện nội dune gàn trù n e lặp nhau thì lại phức tạp hơn rất nhiều C húng ta có thê sứ dụng m ột cách đơn íìian là so sánh từne cặp văn ban m ột với nhau dè k iê m tra độ a.iôna, nhau nhưne vớ i sò lượne các văn ban cực lớn như tro iiíi các

cỗ máy tìm k iê m thì điều này kh ô n g kha th i v ì độ phức tạp quá lởn G ia i quyết vấn đề này có

m ột sô thuật toán như Nearest N e ig h b o r Search [3 ] L o c a lity S e n sitive H ashing [1J DSS DSC-SS [4 ] Sim hash o íC h a r ik a r [2 ] hay I-m a tch [5 j

T ro n a m ô i trườ na In te rn e t ớ V iệ t N am tliỏ n a kè từ 25 trang tin phò biến nhất như

V ie tn a m n e t.co m D a n tri.c o m N aoisao.net Y.v cho thây k h o a n e 2 0 % sô các tin giữa các báo

là trù n a lặp hoặc san trù n a lặp nhau m ỗi nsàỵ D o vậ y việ c phát hiện dược nlũ rn a tin đó sè đóng vai trò quan trọ n s kh ô n g những cho những hệ th ô n a tim k iê m mà còn cho nhũ nu nghiên cứu tio n iì xứ ỉý n °ò n naữ như phàn nhóm văn ban phát hiện chu dê tru \ vết nội duníỊ cũna như nhiè u lìn h vực khác

niũa các văn han Cũn ti dã cỏ nhiêu ửnsỉ d ụ iiíí được rộn Li rãi SU' d ụ im như tro n ” các hệ thõnu tim k iế m th ô n s tin hay tó m tăt da văn ban I L1\ nhiên, các n ííhiẽn cứu và ửnu đ ụ n ” tro n u lĩnh

dựng írna d ụ n a về \ àn đê nàv \ ới nuỏn nuữ tiê n s V iệ t

Trang 11

2 T hách thức

Có những thách thức m à phải vượt qua đế g ia i q u yế t được bài toán này:

tiếng A n h và m ộ t số ngôn ngũ' khác N hữ na khó khăn đó xuất phát từ m ột tro n g những đặcđiểm sau:

o Phân b iệ t các từ kh ô n g xác đ ịn h bang dấu cách bơi m ột từ có thê bao gôm nhiêu

âm tiế t và ch i m ỗ i âm tiế t m ớ i phân cách nhau bới dâu cách Đ iề u này dần dên

nhập nhang tro n g phân đoạn từ tiế n e V iệ t V í dụ: " H ọ c s in h học s in h học ” có thê được phân đoạn từ thành "H ọ c _ s in h học s in h _ h ọ c “ hoặc cũne có thê là "H ọ c _ s in h học_s in h học

nghĩa hay đao trật tự câu và các phép tu từ dẫn đèn nhập nhăna tro n a xác định ý nghĩa cua càu từ

với tiế n g A n h A -R ặ p đê đạt được kêt quá cao

Trang 12

3 T ống quan các vấn đề nghiên cứu

3.1 C á c p h u o n g p h á p p h ổ biến

C ó rất nhiề u phương pháp đã được triể n kh a i đề xác đ ịn h "đ ạ o v ă n " tro na học thuật, trù n g lặp trang tin hay trù n g lặp các ban ehi tro n g cơ sờ dù' liệ u B rin et al [3 ][4 ][5 Ị đã đề xuất hệ th ố n g COPS (C o p y P ro te ctio n S ystem ) để đảm bao ban quyền các văn ban số hóa

S h iva ku m ar et al [4 ][5 ][6 ] đã đề xuất hệ th ố n e S C A M (Stand C o p ỵ A n a lys is M e ch a n ism )

đế kiế m tra m úc độ sao chép tro n g thư v iệ n điền tứ đại học S tantord Hai hệ th ố n s nà> đều hoạt độne trên nguyên lý cơ ban sau:

sớ dữ liệu

lặp tí lệ với độ trù n e lặp eiữa íìn e e rp rin t của chúim

MỘI phương pháp khác là phươne pháp tính DSC 17 ]ỊI 1 ịdựa vào việc tinh loan các

dó lọc ra những phân chung nhât dê so sánh 2 văn ban thỏm ; qua kĩ tlu iậ t tính C osinc

|7 || I 1I I 12 I I 151 hoặc R esem blance [ 7 ] | l l | | 1 2 | N lù m u k ì thuật tín h ná\ hoàn toàn kha thi với kho dữ liệ u lớn bơi độ phức tạp cua cluìne là C)(n2) Cai tiên lu m so với DSC là phương pháp D SC -SS [7Jf 11 I cho phép tính toán các super shin u le (siêu "n h à n ” ) trên dơn \ ị \ ăn han với m ỗ i super s h in a le là tập và i shinale uliép lại M ộ t văn ban sẽ dưựe dặc tn rn ti hóa bơi m ột

sò lượna nho các super s h iim le và việc tính toán độ trù n ” lặp íiiữa các v ăn ban sò dựa vào các super sh in íìle k h i dỏ D SC -SS sẽ m ane lại hiệu năna cao hơn DSC

Phương pháp l-M a tc h [8 J [1 1J xây dựna các sisnature (chừ k ý ) riêng cho m ồi \ă n han dựa trên các từ và tạo ra m ột càu trúc dữ liệu I-M a tc h kh ô n g dựa vào phân tích cú pháp nhirnu lh a \ \ủ o dỏ phưcmt; pháp nà> sư d ụ n íi th ò iiii kè Ucn toàn dữ liệu nhăm xác định nhừim tù' quan trọ n a (có trọ n s sô cao theo m ột hàm th ông kê) đê so sánh tin h toán mức dụ

tn ìiiíi lặp íiiĩra c liú n a I-M a tc h tin h toán trợnsi sô cho các từ bãntỉ ] DI (Inverse D o cu m cn t

F rc q u c n c \) P liirơ n a pháp nà\ tliụ c tlii với dộ phức tạp \â p \ I ()(d lo < id ) tro im Irirớ n ii hợp xâu

thực th i v ớ i đ ộ p h írc lạ p ( ) ( d ) (đ là số các M ìn han tro n g tập dữ liệ u )

Trang 13

L A S H [2 ] là m ộ t thuật toán áp dụng N ear N e ig h b o r Search tro n a khôna aian đa chiêu

Ý tường của L A S H là giám số lượne chiều cùa dữ liệu và sư d ụne hàm băm L đè giam thờ i gian chạy thuật toán

Sim hash chiếu m ỗ i đặc trư ng vào khône gian b -chiêu băna cách chọn ngẫu nhiên b giá trị từ {-1 1} Phép chiếu này là đồng nhất đối với toàn bộ các văn ban V ớ i m ồ i văn ban

m ột ve cto r b chiêu được xâv dựng lên bang cách chiêu toàn bộ các đặc tn rn e lên chuỗi dặc trưng của nó

xác định nhữ ng bản g h i trù n g lặp ttừ nhiều nguồn cơ sớ dữ liệ u [9 ][ 10][ 13]T o à n bộ các ban

nào đó M o i lân các ban g h i được săp xếp theo khóa đó các ban ehi vớ i số lirợ ne lán” íiiê n ti nho dưực so sánh với nhữ ng ban g h i khác và từ dó xác định các ban ghi trùng lặp hoặc nân trùng lặp

3.2 Kiến t h ú c nền tảng

A Các phương plíáp tính toán độ đo sự giống nhau (Similarity metrics)

Chú nu ta sứ d ụna vài hệ đo tương tụ' dè xác (.lịnh SỤ' liiõ n a nhau uiữa 2 vãn han bơi việc xác ctịnh m ột mức cô đ ịn h nào đỏ làm ranh iiiớ i aiùa sụ- trù n ii lặp va khôníí tru n íi lặp giữa 2 văn han là khó khăn Hơn thế nữa nêu 2 văn ban có chứa nộ i đuníi ngữ niíhũi líân tương tự nhau th i nó là trù n g lặp cho dù cú pháp cua nó có thê kh ô n g khớp nhau Do vậy cân

có độ đo th ích hợp đê đo sự e iố n g nhau giữa 2 văn ban

Đ ộ đo R esem blance là m ột tro n g nhữne độ đo sự a iô n s nhau phô b iè t nhất hiện na> Theo dó vớ i nm rỡim t đè xác đ ịn h độ íỉiô n íỉ nhau 2 văn ban được coi là aiô n a nhau nêu như

dược tính như sau:

-S(D j I L Si Di

T ro im đó S (D i) S (D ị) là các dặc tn rn g cua \ă n ban D i D ị

D ộ do thử 2 thư ờnti dược SU' dụnti dỏ tính toán sự líiò im nhau tỉiữa 2 \ ăn han la dộ do

C osinc tin h toán dựa trẽn k lio a im cách íiiữa 2 \ ector tu irn u ưng cua 2 \ã n han tló K h i C osinc tính đuưc «iữa 2 \ă n han tic n c à iiíi nằn tới Líiá trị 1 hai \ã n han cang dirọc coi là líiõ n íi nhan

Trang 14

Cosine (D i D i) = -— ————

|1Di| |TDj|

T ro n g đó | D là v e cto r biếu diễn cua văn bản D

C ũng như vớ i độ đo Resem blance sứ dụng giá trị C osine vớ i m ột ngưỡne t nào đó có thê đùng đê xác đ ịn h sự gần tư ơns tự nhau giữa các văn bàn

li Thuật toán Charikar

T h u ậ t toán C h a rik a r sư dụng k ỹ thuật aiam chiều cua dừ liệu N ó ánh xạ uiữa m ột

v cc to r nhiêu chiêu với m ột lìn a e rp rin t với kích tlnrớc nho hơn rất nhiều K ỹ thuật lù n dược

áp dụng cho các văn ban như sau: đàu tiên, ch ú n s la sư d ụ im các phưư nii pháp trích chọn dặc trưng đê chuyên m ột văn ban thành m ột tập các đặc trư im cho nó ví dụ các âm tiẽt từ \ \ với các trọ n g sô iư ư im ứ n ti l ập các dặc trưna và iiiá trị tirư im ứníi dỏ tạo thành m ột ve cto r

đa chiêu, và băng phép băm Sim hash v c c to r đa chiêu dó dược chuyên thành m ột lin iie rp rin t

có 1'bit với í' là m ột sô nho S im hasli có thê dam hao dược nhữníi dặc diêm :

o M ỗ i t ì n e e r p r i n t c u a m ộ t v ã n b a n là h à m b ă m c á c tlặc I r ư n u c u a v ã n h a n do

o N h ữ n e v ă n b a n s i ố r m n h a u c ó !2Ìá trị b ă m a i ò n u nhau

V ó i m oi dặc trưng cua vãn ban dược chiêu lèn k h ô n ” íỉian chiêu băne việc chọn niíẫu

n h i ê n b a i á trị t r o n a 1-1 1 Ị v ới b là m ộ t h ă n g sô c h o t r ướ c P h é p c h i ê u n à y á p dụní i với tất

cua toàn bộ các dặc trưne, tro n a chuỗi đặc trư na cua nỏ C u ò i cùna các ííiá trị (.lươn tí tro n ”

v e c t o r c u a m ỗ i v ă n b a n đ ư ợ c e á n bănsi 1 \ á c á c e i á trị k h ò n t i d ư o n u d ư ợ c a á n lại bă n Li 0 Với các veetor n à \ độ s iô n a nhau ai lìa 2 văn ban ti lệ với sỏ h it iiiô n ii nhau cua 2 \ cctn r tiRynti ửni> vớ i chúnti

S a u p h é p b ă m t h u ậ t t o á n C h a r i k a r s ư d ụ n g k h o a n g c á c h H a m m i n g dè li nh t o á n

k h o a n ti cách u iừ a các \ ăn ban và tă iiíi dàn k h o u n u cách đõ c h ọ n ra tiiá trị k llií c h hợp n liâ l

T huật toán phụ thuộc \ ào kì thuật trích chọn dặc trưng cùng nhu sỏ lượng các dặc trirns> c ù n ”

n h ư p l n r ơ n u p h á p t i n h d i r ợ c l i i á t r ị C U Í 1 d ặ c t r ư i i í i c h o t Ú n l i v ã n h a n N t i o à i r a t l i u ậ t l o a n s ư

d ụ n g \ iộc s o s á n h t ừ i m c ặ p c á c v ă n han dc t ì m SỤ' i m n g lặp h a \ g à n t r u n y lặp nh a u C h í n h \ i nhĩrne lý do trên k h i làm việ c với số lượ iiíì cac văn han qua lớn C h a rik a r sò gặp nhữnu kho khàn \ề liiỘLi Iiăna hoạt d ộ im ha\ thờ i gian chạ) lơn

Trang 15

4 X ây d ự n g C o r p u s v ăn bản tiến g V iệt

M ộ t tro n g những kh ó khăn đê g ia i quyết bài toán đó là th iế u nhữne kho dữ liệu văn bán tiế n g V iệ t được gán nhãn (corpus) vớ i k ích cỡ đu lớn đè có thể tiến hành khao sát nghiên cứu cũ n g như tiế n hành th í n ghiệm đánh giá kết qua D o vậy côna việc quan trọ n e trong thực hiện đê tài xâ y dựne được m ộ t corpus văn bản tiê n e V iệ t được aán nhãn sẵn về sự (gần) g iố n g nhau giữa chúng

í ôi chọn nguồn dừ liệ u tiế n hành xâv dựng corpus là từ các trane báo điện tir tiếna

V iệ t bơi nó dáp ứng được nhữ ng yêu cầu:

o De llu i thập dữ liệ u bới có rất nhiều trang báo diện tư tiếna V iệ t hiện nay

o Các bàn tin giữa các tra n g báo điện tư thường có xay ra sự trù n a lập

D ữ liệ u cho còng đoạn xây dựng Corpus văn ban tiếnsì V iệ t được thu thập từ các trano báo diện tư tiê n u V iệ t với sỏ lượng imười dục nhiều nhất B ầim các bộ thu thập dữ liệu (cravvler) các ban tin tức dược lấy vè tù' nhiều các tranu báo diện tư khác nhau tro n ” khoaní> thời gian 2 năm trớ lại d à ) l)ê dam bao tính chính xác cua C orpus văn ban tiếnu V iệ t can cho nghiên cửu này Các ban tin được qua các bước xư lý thu côníi dưới dây:

t i ế n h à n h b ă n u c á c h t h u c ỏ n a s ã p n h ữ n e b a n t i n c ỏ Iiíiá _ \ đ ã n í i u iìn s á t n h a u \ Ì U ) m ộ t

n h ỏ m T r o n u m ồ i n h ỏ m , s ă p x ê p c á c b a n tin íi iam d ã n t h e o d uni i l ượn tỉ c u a hun tin \ á đọc và kiê m tra tính íỉàn trù n a lặp cua các nhóm ban tin na\

cách chọn từ tập ban tin thu dược nà} m ột sô lượna ban tin rmầu nhiên n lum Sì dam bao tín h khôns trù n a lặp nhau vớ i số đoạn tro n ” m ồi ban tin lớn hơn 2 và hoán v ị các đoạn nhàm tạo ra n liữ n a ban tin trù n a lặp \ ói nhữim ban tin dó

K ế t q u á : c o rp u s h a o %ồi)i 1 0 0 0 0 h a n t in 4 0 0 0 0 0 0 âm tiẽ t 2 3 0 0 0 0 0 l i r va I (J 2110.0(11) h i- grain.s.

Trang 16

5 P h ư ơ n g p h á p x á c đ ịn h sao c h ép giữa các văn bản vó'i m ột c ơ sỏ' d ữ liệu lón

5.1 M ô hìn h p hát hiện n h ữ n g văn bán gần trù ng lặp nhau v ó i m ột CO' só' d ữ liệu ló'n

m ột cluster sẽ à íiânlìiô n iì nhau

H ìn h 1 M ô h ìn h p h ư o n g p h á p p h á t hiện sao chép g iũ a các vă n ban tiế n g V iệ t

H ình 1 là m ò hình quá trìn h xư lý việc phát hiện các văn ban gán trù n g lặp nhau trong một cơ

m ột cơ sơ dữ liệ u lớn dó vào các clu stc r và dam hao răng tàt ca các \ã n han trong cùng một

<■>

Trang 17

cluster sẽ là gần trù n g lặp nhau M ô hình gồm 3 thành phần ch in h : lựa chọn đặc trirn e tính

F in g e rp rin t cho văn ban đang xét, và X ác định clu ste r cho vãn ban đầu vào K ết qua xác dịnh sao chép, hay xác đ ịn h sự g iố n g nhau giữa các văn ban tro n g cơ sơ dữ liệu nằm ơ các cluster

5.2 L ựa ch ọn đ ặc t r u n g

Thành phân Lựa chọn đặc trư ng tro n g m ô hỉnh phương pháp xác đ ịn h sao chép vãn bán nhằm m ục đ ích đặc trư n g hóa văn bản đầu vào g iữ lại những tliỏ n e tin quan trọ n ii nhất của văn ban đó Đ iề u này kh ô n g nhữns làm tăna lốc độ cho quá trìn h xứ K mà còn iiiú p tãna

dộ c h ín h xá c bư i \ iệc là m g ia m " n h iề u " tr o n íi quá trin h XU’ K I hành phan lựa ch ọ n dặc

toán tân số xuât hiện cua dặc trirn s dánh trọ n g sỏ cho các dặc trưnu trích ra các ãm tiết n- grams tro n g văn ban nhàn từ loại cho từ

T ro n g tiê n g V iệ t, có thè nói từ đ ó n ii vai trò là m ột tron tỉ những dặc tnrrm quan trọnu nhât Iro n a văn ban bơi n ộ i d u n s cua v ăn han dược ihê hiện tliỏ n u qua \ imhìa cua các từ và khi các lừ dược đặt tro n ụ m ột văn canh N iio à i yêu tò từ các vêu tò n ln r âm tiêt các n-iiram s

I'uy nhiên k h ò n ti p lia i các dặc trư im dẽu m aim \ nuhĩa Iilu r nhau, có n lũ m n dặc trư im

m ang nhiều th ò n g tin ve nộ i duna chính cua văn ban tro n g kh i có n lù rn iỉ từ m ans rât ít th ô n ii tin Ví dự " M á y v i lin h là m ộ t p h á t m in h lớ n c im lo à i n g ư ờ i" thi tù' " M á y VI t in h " m a i m

nhiều thònsi tin h ư n t ừ " la Ni i oà i ra t h ử ụr c u a d ặ c t r ư n g CŨI1ÍỊ d ó n g \ ai trò q u a n I i ọ n u hơi

nó thê hiện được phần nào văn canh mà các đặc trưntí thê hiện I)o \ ặ \ nuoai \ iệc uiừ lại các dặc tn rn a m ộ t cách thuãn tú> tò i còn danh trọ n g sô cho các dặc trưng - dặc trirm> m aim íiiá trị Irọ n a số cao hơn sè thè hiện mansì nhiêu > nghĩa hon những dặc tn rn g khác V iệ c tinh toán trọ im số cho dặc trim u dược dựa tròn thông kẽ tàn sỏ x iiã t hiện 11)1 cua dặc tru n g dó

I rọne số cua dặc trirn a 1 dược tính như sau:

• F (t) là l ằ n sổ xu á t h i ệ n (11)1) cua d ặ c trưiiỊỊ I t n m g lậ p d ừ liệu

• F n i a \ là t ần cua dặc tiLinu xuấ t h i ệ n nhi òu nh ã t t r o n y lậ p d ữ liệu

Trang 18

• F m in là tần số cua đặc trư n g xuất hiện ít nhất tro n a tập dữ liệ u

V iệ c loại bo những đặc trư n g vớ i m ục đích làm eiám "n h iễ u " và giam thiểu số lượng cỏrm việc cần xứ lý cho toàn hệ th ố n g được thực hiện bầns việc loại di tất ca các đặc trưng mà tần

5.3 Tính F in g e r p r in t ch o văn bản

M ồ i văn ban có m ột tập các đặc trưng, m ồ i đặc trưne tươna ứne với nó là một trọ n u số

P ingerprint cho văn bán được xác đ ịn h như sau:

t hành p h â n t h ử i c u a V t ì i am di m ộ t íiiá trị băn li trọiiii sỏ c u a d ặ c t r ư i m dant i XÓI

aiá trị dươniì tro n u V b ănii 1 và các trườne íiiá trị k liò n a duưno cho băna iiiá trị 0

5.4 X á c đ ịnh c l u s t e r cho văn bản

T h à n h p h ầ n 1Ù1\ iíiừ \ ai trò x á c d i n h x e m m ộ t vã n b a n sò đ ư ợ c x è p v à o c l u s t e r nào

V iệ c xác đ ịn h được thực hiện theo nhữne n a u \ ên tăc sau:

• Nếu k h o a im cách H a m m in s từ văn ban đano xét tới m ột clu ste r náo dó dà có nho lum

• V iệ c tính kh o a n ” cách Liiữa \ ăn han tới clu ste r dược thục hiện qua \ iệc tinh khoanucách H a m m iiiíi iiiữ a lu m c rp rin t cua \ă n ban dó \ớ i các \ă n han dà co săn iro n iíclu ste r n à \ m i cặp nhật giá trị lớn nhài

Trang 19

nghiệm đê tìm ra g iá trị tô l nhãt cho nhũng tham số sau:

G iá trị k được tiế n hành th í nehiệm tro n g khoána 1 đến 10 và liiá trị I nhận lá I tro im các uiátrị sau: 32 64 và 128 T ô i lây mau ngẫu nhiên các cặp (ìn íie rp rin t vớ i khoang cách I lu m m in iỉ nhỏ hơn hoặc bang k Đ ộ do được sư dụng là r-m easure dè dành uiá kèt qua thí nííhiộni

-! MếỉVíi dcc VGiĩS: ị Cữỉ ĩ (?Ci CỈOc pcĩưs

- Correct c/oc pairs: so các cặp văn hau Ịiiìn irims: lụp ctiniỊỉ

6.2 Kct q uả

B i n " 1 d u'1 t"i kct qua lín h theo dộ do I'-n ica su rc kh i tiên hanh thí nghiệm theo cuch tiế p cận thử nhất (c h i sư ciụne những dặc trưng mặc dịnh (âm tic t) \ á không sư dụng eac dặc

Trang 20

trưng riêng qua xứ lý tiế n g V iệ t) K ế t qua cao nhất đạt được là 54.2% Với aiá tr ị k = 2 và F =

Bảng 1 Kết quả F -m e a s u r e khi tiến hành thí n ghiệ m t h e o huón g tiếp cận thú nhất (chỉ s ử dụn g n h ữ n g đặc t r u n g mặc định (âm tiết) và k h ô n g su d ụng các đặc trung riêng

Hình 2 Biêu đồ thê hiện kết qua thi nghiệ m th e o h uớn g tiếp cận thu nhất

cua tiế n tì V iệ t dược trích chọn qua \ iệe xu 1> nuon ngữ t iã ií Ị V iệ t dược cho trong hang 2

Bàng 2 Kết quá F -m e a s u r e khi thí nghiệ m vói m ô hìn h phát hiện sụ trùng lặp cua văn ban

tiếng Việt đề xuất

Ngày đăng: 18/03/2021, 17:38

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm