5.Phương pháp xác định sao chép giữa các văn bàn với một cơ sò' dữ liệu lớ n .... Kết quả F-measure khi tiến hành thí nghiệm theo hướng tiếp cận thử nhất chi sứ dụng những đặc trưng mặc
Trang 2M Ụ C L Ụ C
B Á O C Á O TỐNG K É T
I Giới th iệ u
2.Thách th ứ c
3.Tông quan các vấn đê nghiên c ứ u
3 1 Các phương pháp phổ b iế n
3.2.Kiến thức nền tàng
4 Xây dựng Corpus văn bản tiếng V iệ t
5.Phương pháp xác định sao chép giữa các văn bàn với một cơ sò' dữ liệu lớ n
5 1 Mô hình phát hiện những văn ban gần trùim lặp nhau với một cơ sở dữ liệu lớn 5.2.Lựa chọn đặc trư n g
5.3.Tính Fingerprint cho văn b a n
5.4.Xác định cluster cho văn bán
6.Thực n g h iệ m
6 1 Xây dựng phưưnu pháp thí nghiệm và phương pháp đánh g iá
6.2.K et qu a
7.Kết luận
Tài liệu tham k h á o
3 3 4 ì 5 6 8 9 9 0 ] I
~>
2 7 5 6
Trang 3D anh sách n h ũ n g người th am gia th ự c hiện đề tài (học h à m , h ọ c q u an c ô n g tác)
Trang 4D an h m ụ c c á c b ả n g số liệu
Bàng I Kết quả F-measure khi tiến hành thí nghiệm theo hướng tiếp cận thử nhất (chi sứ dụng những đặc trưng mặc định (âm tiết) và không sử dụng các đặc trưng riê n g qua xừ lý tiêng Việt) 13 Bảng 2 Kết quả F-measure khi thí nghiệm với mô hình phát hiện sự trùng lặp cua văn ban tiếng Việt
đề xuất 13
Trang 5Danh m ụ c c á c hình
Hình I M ô hình phương pháp phát hiện sao chép giữa các văn ban tiếng V iệ t 9Hình 2 Biêu đồ thể hiện kết quả thí nghiệm theo hướng tiếp cận thứ n h ấ t 13Hình 3 Biểu đồ kết quả (F-measure) khi sừ dụng mô hình đề xuất 14
\
Trang 6O V E R V T E W
1 O bjective
P la g ia rism D e te ctio n is one o f the m ost im p o rta n t p ro b le m s a ffe c tin g o u r life and
it is a c tiv e ly studied by m any research groups in the vvorld T a c k lin g th is task can b rin g
m any advantages to the society, e sp e cially to academ ic since there are m any researches
as w e ll as study m aterials p u b lish e d in the In te rn e t vvidely M o re o v e r s o lv in g the
P lagiarism D e te ctio n p ro b le m g re a tly co n trib u te s to Search eneines períorm ance
T h is p ro je ct is to b u ild up an e ffe c tiv e m ethod to ta c k le the task o f P la g ia rism
D etection A d d itio n a lly , the task o f P la g ia rism D e te c tio n fo r V ietnam ese c u rre n tly receives v e ry little studies so that in this p ro je c t w e w o u ld lik e to pay m ore atte n tio n to
s o lv in g the V ietnam ese P la g ia rism
2 Research
M a tch L A S H , S im hash, C h a rika r
database
3 Result
2 publications in the International Conferences pubỉished by IEEE c s
• Cong Thanh T ruong, lh e D uy B u i, Son Bao Pham "N e a r-d u p lica te s detection f o r Vietnamese Docum ents in L a rg e D a t a b a s e 7lh IE E E International Conference on
Advanced Language Processing and W eb In íb rm a tio n T e c h n o lo g y " C hina 2008
Tem pìate-based A p p ro a c h to A u to m a tic a ìỉy Identiýỵ P rim a ry Text C o n te n t o f a Web
P a g e ” , In The l st IE E E International Conterence on K no\vledee and Systems Engineerine
Trang 7• C ong T ha n h T ru o n g “ N e a r-d u p ìic a te d D e te c tio n f o r Vietnamese D ocum ents in
L a rg e D atubase ", U n d e r-g ra d u a tio n Thesis, C o lle g e o í I e c h n o lo g y , 2008.
• Trần B ìn h G ia n g , “ Vietnamese B lo g P r o f ilin g ’\ U n d e r-g ra d u a tio n Thesis, C o lle g e
o f T e ch n o lo g y 2009
• Phạm Đ ức Đ ăng, " Vietnamese W o rd S egm entation m e th o d u sin g P a rt-O f-
S peech" U n d e r-g ra d u a tio n Thesis C o lle g e o f T e c h n o lo g y 2009.
Scientifìc coníribution
Enhance knovvledge as \v e ll as s k ills fo r m em bers o t'th e la b o ra to ry in N a tu ra l Language Processing
Trang 8ỉ T óm tắt các kết quả nghiên cứu chính của đề tài
Ket qua vể khoa học (những đ óng g ó p cua đê tài, các công trìn h khoa học đã công bô)
2 bài báo đăng tại các hội nghị quốc tế chuyên ngành (đăng bởi IEEE CS)
• Cong Thanh T ruong The D u y B ui Son Bao Pham "Near-dupHcates detection f o r Vietnamese D ocum ents in L a rg e Database ” , 7lh IE E E In ternational Conference on A dvanced
Language Processing and W cb In íb n n a tio n T e ch n o lo g y" China 2008
Bài báo ứng dụng phươna pháp phát hiện sao chép giữa các văn ban tiế n g V iệ t trong m ột cơ sơ
dữ liệu lớn đề ứng dụng vào phát hiện các tin tức có nội dung gần g iố n g nhau giúp tăng hiệu quả cùa hệ thống tim kiếm thông tin Phương pháp có tác dụna làm tăng hiệu qua về mặt thời gian tim kiêm nội dung trên m ạng internet và tiế t kiệm được tài nguyên vê bộ nhớ lưu trữ
• Dai Ọ uoc N guyen Dat Ọuoc N guyen Son Bao Phani The D uy Bui "A F ast Tem pỉate- hasecì A p p m a c h to A u to m a tic a llỵ ld e n lifi' P rim a rv Text C o n le n i o f a Weh P a g e " In The r '
IHHH International C ontèrence on K now ledge and Systems Hngineering Hanoi V ietnam 2009
Bài háo ứnn dụng phươnạ pháp phát hiện sao chép giữa các văn ban tiế n g V iệ t úng dụng trong việc nhanh chóng tìm ra các tem plate cúa các vvebsite đê xác định các phan nội duníi chính
Két qua p h ụ c vụ thực tê (các san ph à m công nghệ, kha n ăn g áp d ụ n g thự c tê)
Phươna pháp đè xuàt g iá i quyêt bài toán phát hiện sao chép - hay phát hiện sự trù n e lặp giữa các văn ban tiẻna V iệ t đã được áp dụne vào hệ th ô n e tim k iê m thòne tin X a lo v n cua côna t\ T in h Vàn
K ê/ qua đào tạ o (sô lư ợ n g sin h viên, sô lư ợ n g học viên cao học, n ẹ h iên cú n sin h tham g ia thự c hiện lùm việc tr o n iỊ đê là i sô khóa luận, lu ậ n văn đ ã hoàn th à n h và hao vệ)
.ỉ klióa luận tốt nghiệp C:\TT:
• C ong Thanh T ru o n ti "X e u r-i/iip ltc a te c / D e tc c tio n f o r Vietnam esc D ocum ents in L a rạ c
D a ta h a s c " U n d e r-a ra d u a tio n Thesis C o lle a e o f T c c h n o lo2N 2008
• T rầ n B ìn h G ia n g "V ietnam ese B lo g P r o fd in g " U n d e r-g ra d u a tio n Thesis C o lle g e o l'
l e c h n o lo g ) 2009
Trang 9• Phạm Đ ứ c Đ ăng, "P h ư ơ n g p h á p p h â n đoạn từ tiế n g Việt sử d ụ n g g á n n hãn từ lo ạ i
K hóa luận tố t n g h iệp đại học, Đ ạ i học C ông N ghệ 2009
K ê t quả n â n g cao tiêm lự c khoa học (nâng cao trìn h độ cán bộ và tra n g th iê t b ị h ạ c p h â n mêm đã x â y d ự ng được g ia o nộp đưa vào sử d ụ n g tạ i đơ n v ị):
N âng cao năng lực chuyên m ôn cùa cán bộ phòne th í n g h iệm về các lĩn h vực xứ lý nsôn ngừ
tự nhiên và trí tuệ nhân tạo
Trang 10BÁO C Á O T Ỏ N G K É T
1 G iới thiệu
V ấn đề xác đ ịn h sự g iố n g nhau giữa các văn bản là m ộ t vân đê quan trọ n g vớ i nhiêu tác động tớ i nhiề u lĩn h vực tro n g cuộc sông H iệ n việ c g iả i q u yế t vân đê xác định hai hay nhiều văn bàn có tương đồng nhau đang được tích cực n ghiên cứu G ia i quyêt được bài toán này có thể ứng dụng tro n g nhiều m ặt cua xã h ộ i và m ộ t ứng d ụng cua bài toán này là phát hiện việc "đ ạ o v ă n " k h i mà các tài liệ u và các nghiên cứu được đưa lên trên m ạng In te rn e t
m ột cách rộ n g rãi và phố biến C ùng vớ i sự phát triể n vớ i tốc độ chóng mặt cùa In te rn e t và công nghệ tìm k iế m , g iả i q u yế t đươc bài toán xác đ ịn h được sự tư ơna đồng giữa các văn bản
m ang lại nhiêu ý nghĩa tích cực tro n g việc xâ y dựng các cỗ m áy tim k iê m cũng như tăng hiệu năng hoạt động của toàn hệ th ố n g tìm kiếm
T ro n g các hệ th ố n g tim kiê m th ô n a tin m ột tro n g những m ục tiêu tiên quvêt là trìn h bày những trang th ích hợp tới naười dùng nhanh nhất có thê Đẽ đạt được m ục tiêu này hộ thống tìm k iế m cần phai phát hiện những tra n g trù n g lặp hoặc gằn trù n ạ lập bơi chúng sẽ
phát hiện những trang nội dung trù n g lặp nhau hoàn loàn thì có thê thực hiện khá dề dàn tí nhờ phươne pháp checksum tu y nhiên phát hiện nội dune gàn trù n e lặp nhau thì lại phức tạp hơn rất nhiều C húng ta có thê sứ dụng m ột cách đơn íìian là so sánh từne cặp văn ban m ột với nhau dè k iê m tra độ a.iôna, nhau nhưne vớ i sò lượne các văn ban cực lớn như tro iiíi các
cỗ máy tìm k iê m thì điều này kh ô n g kha th i v ì độ phức tạp quá lởn G ia i quyết vấn đề này có
m ột sô thuật toán như Nearest N e ig h b o r Search [3 ] L o c a lity S e n sitive H ashing [1J DSS DSC-SS [4 ] Sim hash o íC h a r ik a r [2 ] hay I-m a tch [5 j
T ro n a m ô i trườ na In te rn e t ớ V iệ t N am tliỏ n a kè từ 25 trang tin phò biến nhất như
V ie tn a m n e t.co m D a n tri.c o m N aoisao.net Y.v cho thây k h o a n e 2 0 % sô các tin giữa các báo
là trù n a lặp hoặc san trù n a lặp nhau m ỗi nsàỵ D o vậ y việ c phát hiện dược nlũ rn a tin đó sè đóng vai trò quan trọ n s kh ô n g những cho những hệ th ô n a tim k iê m mà còn cho nhũ nu nghiên cứu tio n iì xứ ỉý n °ò n naữ như phàn nhóm văn ban phát hiện chu dê tru \ vết nội duníỊ cũna như nhiè u lìn h vực khác
niũa các văn han Cũn ti dã cỏ nhiêu ửnsỉ d ụ iiíí được rộn Li rãi SU' d ụ im như tro n ” các hệ thõnu tim k iế m th ô n s tin hay tó m tăt da văn ban I L1\ nhiên, các n ííhiẽn cứu và ửnu đ ụ n ” tro n u lĩnh
dựng írna d ụ n a về \ àn đê nàv \ ới nuỏn nuữ tiê n s V iệ t
Trang 112 T hách thức
Có những thách thức m à phải vượt qua đế g ia i q u yế t được bài toán này:
tiếng A n h và m ộ t số ngôn ngũ' khác N hữ na khó khăn đó xuất phát từ m ột tro n g những đặcđiểm sau:
o Phân b iệ t các từ kh ô n g xác đ ịn h bang dấu cách bơi m ột từ có thê bao gôm nhiêu
âm tiế t và ch i m ỗ i âm tiế t m ớ i phân cách nhau bới dâu cách Đ iề u này dần dên
nhập nhang tro n g phân đoạn từ tiế n e V iệ t V í dụ: " H ọ c s in h học s in h học ” có thê được phân đoạn từ thành "H ọ c _ s in h học s in h _ h ọ c “ hoặc cũne có thê là "H ọ c _ s in h học_s in h học
nghĩa hay đao trật tự câu và các phép tu từ dẫn đèn nhập nhăna tro n a xác định ý nghĩa cua càu từ
với tiế n g A n h A -R ặ p đê đạt được kêt quá cao
Trang 123 T ống quan các vấn đề nghiên cứu
3.1 C á c p h u o n g p h á p p h ổ biến
C ó rất nhiề u phương pháp đã được triể n kh a i đề xác đ ịn h "đ ạ o v ă n " tro na học thuật, trù n g lặp trang tin hay trù n g lặp các ban ehi tro n g cơ sờ dù' liệ u B rin et al [3 ][4 ][5 Ị đã đề xuất hệ th ố n g COPS (C o p y P ro te ctio n S ystem ) để đảm bao ban quyền các văn ban số hóa
S h iva ku m ar et al [4 ][5 ][6 ] đã đề xuất hệ th ố n e S C A M (Stand C o p ỵ A n a lys is M e ch a n ism )
đế kiế m tra m úc độ sao chép tro n g thư v iệ n điền tứ đại học S tantord Hai hệ th ố n s nà> đều hoạt độne trên nguyên lý cơ ban sau:
sớ dữ liệu
lặp tí lệ với độ trù n e lặp eiữa íìn e e rp rin t của chúim
MỘI phương pháp khác là phươne pháp tính DSC 17 ]ỊI 1 ịdựa vào việc tinh loan các
dó lọc ra những phân chung nhât dê so sánh 2 văn ban thỏm ; qua kĩ tlu iậ t tính C osinc
|7 || I 1I I 12 I I 151 hoặc R esem blance [ 7 ] | l l | | 1 2 | N lù m u k ì thuật tín h ná\ hoàn toàn kha thi với kho dữ liệ u lớn bơi độ phức tạp cua cluìne là C)(n2) Cai tiên lu m so với DSC là phương pháp D SC -SS [7Jf 11 I cho phép tính toán các super shin u le (siêu "n h à n ” ) trên dơn \ ị \ ăn han với m ỗ i super s h in a le là tập và i shinale uliép lại M ộ t văn ban sẽ dưựe dặc tn rn ti hóa bơi m ột
sò lượna nho các super s h iim le và việc tính toán độ trù n ” lặp íiiữa các v ăn ban sò dựa vào các super sh in íìle k h i dỏ D SC -SS sẽ m ane lại hiệu năna cao hơn DSC
Phương pháp l-M a tc h [8 J [1 1J xây dựna các sisnature (chừ k ý ) riêng cho m ồi \ă n han dựa trên các từ và tạo ra m ột càu trúc dữ liệu I-M a tc h kh ô n g dựa vào phân tích cú pháp nhirnu lh a \ \ủ o dỏ phưcmt; pháp nà> sư d ụ n íi th ò iiii kè Ucn toàn dữ liệu nhăm xác định nhừim tù' quan trọ n a (có trọ n s sô cao theo m ột hàm th ông kê) đê so sánh tin h toán mức dụ
tn ìiiíi lặp íiiĩra c liú n a I-M a tc h tin h toán trợnsi sô cho các từ bãntỉ ] DI (Inverse D o cu m cn t
F rc q u c n c \) P liirơ n a pháp nà\ tliụ c tlii với dộ phức tạp \â p \ I ()(d lo < id ) tro im Irirớ n ii hợp xâu
thực th i v ớ i đ ộ p h írc lạ p ( ) ( d ) (đ là số các M ìn han tro n g tập dữ liệ u )
Trang 13L A S H [2 ] là m ộ t thuật toán áp dụng N ear N e ig h b o r Search tro n a khôna aian đa chiêu
Ý tường của L A S H là giám số lượne chiều cùa dữ liệu và sư d ụne hàm băm L đè giam thờ i gian chạy thuật toán
Sim hash chiếu m ỗ i đặc trư ng vào khône gian b -chiêu băna cách chọn ngẫu nhiên b giá trị từ {-1 1} Phép chiếu này là đồng nhất đối với toàn bộ các văn ban V ớ i m ồ i văn ban
m ột ve cto r b chiêu được xâv dựng lên bang cách chiêu toàn bộ các đặc tn rn e lên chuỗi dặc trưng của nó
xác định nhữ ng bản g h i trù n g lặp ttừ nhiều nguồn cơ sớ dữ liệ u [9 ][ 10][ 13]T o à n bộ các ban
nào đó M o i lân các ban g h i được săp xếp theo khóa đó các ban ehi vớ i số lirợ ne lán” íiiê n ti nho dưực so sánh với nhữ ng ban g h i khác và từ dó xác định các ban ghi trùng lặp hoặc nân trùng lặp
3.2 Kiến t h ú c nền tảng
A Các phương plíáp tính toán độ đo sự giống nhau (Similarity metrics)
Chú nu ta sứ d ụna vài hệ đo tương tụ' dè xác (.lịnh SỤ' liiõ n a nhau uiữa 2 vãn han bơi việc xác ctịnh m ột mức cô đ ịn h nào đỏ làm ranh iiiớ i aiùa sụ- trù n ii lặp va khôníí tru n íi lặp giữa 2 văn han là khó khăn Hơn thế nữa nêu 2 văn ban có chứa nộ i đuníi ngữ niíhũi líân tương tự nhau th i nó là trù n g lặp cho dù cú pháp cua nó có thê kh ô n g khớp nhau Do vậy cân
có độ đo th ích hợp đê đo sự e iố n g nhau giữa 2 văn ban
Đ ộ đo R esem blance là m ột tro n g nhữne độ đo sự a iô n s nhau phô b iè t nhất hiện na> Theo dó vớ i nm rỡim t đè xác đ ịn h độ íỉiô n íỉ nhau 2 văn ban được coi là aiô n a nhau nêu như
dược tính như sau:
-S(D j I L Si Di
T ro im đó S (D i) S (D ị) là các dặc tn rn g cua \ă n ban D i D ị
D ộ do thử 2 thư ờnti dược SU' dụnti dỏ tính toán sự líiò im nhau tỉiữa 2 \ ăn han la dộ do
C osinc tin h toán dựa trẽn k lio a im cách íiiữa 2 \ ector tu irn u ưng cua 2 \ã n han tló K h i C osinc tính đuưc «iữa 2 \ă n han tic n c à iiíi nằn tới Líiá trị 1 hai \ã n han cang dirọc coi là líiõ n íi nhan
Trang 14Cosine (D i D i) = -— ————
|1Di| |TDj|
T ro n g đó | D là v e cto r biếu diễn cua văn bản D
C ũng như vớ i độ đo Resem blance sứ dụng giá trị C osine vớ i m ột ngưỡne t nào đó có thê đùng đê xác đ ịn h sự gần tư ơns tự nhau giữa các văn bàn
li Thuật toán Charikar
T h u ậ t toán C h a rik a r sư dụng k ỹ thuật aiam chiều cua dừ liệu N ó ánh xạ uiữa m ột
v cc to r nhiêu chiêu với m ột lìn a e rp rin t với kích tlnrớc nho hơn rất nhiều K ỹ thuật lù n dược
áp dụng cho các văn ban như sau: đàu tiên, ch ú n s la sư d ụ im các phưư nii pháp trích chọn dặc trưng đê chuyên m ột văn ban thành m ột tập các đặc trư im cho nó ví dụ các âm tiẽt từ \ \ với các trọ n g sô iư ư im ứ n ti l ập các dặc trưna và iiiá trị tirư im ứníi dỏ tạo thành m ột ve cto r
đa chiêu, và băng phép băm Sim hash v c c to r đa chiêu dó dược chuyên thành m ột lin iie rp rin t
có 1'bit với í' là m ột sô nho S im hasli có thê dam hao dược nhữníi dặc diêm :
o M ỗ i t ì n e e r p r i n t c u a m ộ t v ã n b a n là h à m b ă m c á c tlặc I r ư n u c u a v ã n h a n do
o N h ữ n e v ă n b a n s i ố r m n h a u c ó !2Ìá trị b ă m a i ò n u nhau
V ó i m oi dặc trưng cua vãn ban dược chiêu lèn k h ô n ” íỉian chiêu băne việc chọn niíẫu
n h i ê n b a i á trị t r o n a 1-1 1 Ị v ới b là m ộ t h ă n g sô c h o t r ướ c P h é p c h i ê u n à y á p dụní i với tất
cua toàn bộ các dặc trưne, tro n a chuỗi đặc trư na cua nỏ C u ò i cùna các ííiá trị (.lươn tí tro n ”
v e c t o r c u a m ỗ i v ă n b a n đ ư ợ c e á n bănsi 1 \ á c á c e i á trị k h ò n t i d ư o n u d ư ợ c a á n lại bă n Li 0 Với các veetor n à \ độ s iô n a nhau ai lìa 2 văn ban ti lệ với sỏ h it iiiô n ii nhau cua 2 \ cctn r tiRynti ửni> vớ i chúnti
S a u p h é p b ă m t h u ậ t t o á n C h a r i k a r s ư d ụ n g k h o a n g c á c h H a m m i n g dè li nh t o á n
k h o a n ti cách u iừ a các \ ăn ban và tă iiíi dàn k h o u n u cách đõ c h ọ n ra tiiá trị k llií c h hợp n liâ l
T huật toán phụ thuộc \ ào kì thuật trích chọn dặc trưng cùng nhu sỏ lượng các dặc trirns> c ù n ”
n h ư p l n r ơ n u p h á p t i n h d i r ợ c l i i á t r ị C U Í 1 d ặ c t r ư i i í i c h o t Ú n l i v ã n h a n N t i o à i r a t l i u ậ t l o a n s ư
d ụ n g \ iộc s o s á n h t ừ i m c ặ p c á c v ă n han dc t ì m SỤ' i m n g lặp h a \ g à n t r u n y lặp nh a u C h í n h \ i nhĩrne lý do trên k h i làm việ c với số lượ iiíì cac văn han qua lớn C h a rik a r sò gặp nhữnu kho khàn \ề liiỘLi Iiăna hoạt d ộ im ha\ thờ i gian chạ) lơn
Trang 154 X ây d ự n g C o r p u s v ăn bản tiến g V iệt
M ộ t tro n g những kh ó khăn đê g ia i quyết bài toán đó là th iế u nhữne kho dữ liệu văn bán tiế n g V iệ t được gán nhãn (corpus) vớ i k ích cỡ đu lớn đè có thể tiến hành khao sát nghiên cứu cũ n g như tiế n hành th í n ghiệm đánh giá kết qua D o vậy côna việc quan trọ n e trong thực hiện đê tài xâ y dựne được m ộ t corpus văn bản tiê n e V iệ t được aán nhãn sẵn về sự (gần) g iố n g nhau giữa chúng
í ôi chọn nguồn dừ liệ u tiế n hành xâv dựng corpus là từ các trane báo điện tir tiếna
V iệ t bơi nó dáp ứng được nhữ ng yêu cầu:
o De llu i thập dữ liệ u bới có rất nhiều trang báo diện tư tiếna V iệ t hiện nay
o Các bàn tin giữa các tra n g báo điện tư thường có xay ra sự trù n a lập
D ữ liệ u cho còng đoạn xây dựng Corpus văn ban tiếnsì V iệ t được thu thập từ các trano báo diện tư tiê n u V iệ t với sỏ lượng imười dục nhiều nhất B ầim các bộ thu thập dữ liệu (cravvler) các ban tin tức dược lấy vè tù' nhiều các tranu báo diện tư khác nhau tro n ” khoaní> thời gian 2 năm trớ lại d à ) l)ê dam bao tính chính xác cua C orpus văn ban tiếnu V iệ t can cho nghiên cửu này Các ban tin được qua các bước xư lý thu côníi dưới dây:
t i ế n h à n h b ă n u c á c h t h u c ỏ n a s ã p n h ữ n e b a n t i n c ỏ Iiíiá _ \ đ ã n í i u iìn s á t n h a u \ Ì U ) m ộ t
n h ỏ m T r o n u m ồ i n h ỏ m , s ă p x ê p c á c b a n tin íi iam d ã n t h e o d uni i l ượn tỉ c u a hun tin \ á đọc và kiê m tra tính íỉàn trù n a lặp cua các nhóm ban tin na\
cách chọn từ tập ban tin thu dược nà} m ột sô lượna ban tin rmầu nhiên n lum Sì dam bao tín h khôns trù n a lặp nhau vớ i số đoạn tro n ” m ồi ban tin lớn hơn 2 và hoán v ị các đoạn nhàm tạo ra n liữ n a ban tin trù n a lặp \ ói nhữim ban tin dó
K ế t q u á : c o rp u s h a o %ồi)i 1 0 0 0 0 h a n t in 4 0 0 0 0 0 0 âm tiẽ t 2 3 0 0 0 0 0 l i r va I (J 2110.0(11) h i- grain.s.
Trang 165 P h ư ơ n g p h á p x á c đ ịn h sao c h ép giữa các văn bản vó'i m ột c ơ sỏ' d ữ liệu lón
5.1 M ô hìn h p hát hiện n h ữ n g văn bán gần trù ng lặp nhau v ó i m ột CO' só' d ữ liệu ló'n
m ột cluster sẽ à íiânlìiô n iì nhau
H ìn h 1 M ô h ìn h p h ư o n g p h á p p h á t hiện sao chép g iũ a các vă n ban tiế n g V iệ t
H ình 1 là m ò hình quá trìn h xư lý việc phát hiện các văn ban gán trù n g lặp nhau trong một cơ
m ột cơ sơ dữ liệ u lớn dó vào các clu stc r và dam hao răng tàt ca các \ã n han trong cùng một
<■>
Trang 17cluster sẽ là gần trù n g lặp nhau M ô hình gồm 3 thành phần ch in h : lựa chọn đặc trirn e tính
F in g e rp rin t cho văn ban đang xét, và X ác định clu ste r cho vãn ban đầu vào K ết qua xác dịnh sao chép, hay xác đ ịn h sự g iố n g nhau giữa các văn ban tro n g cơ sơ dữ liệu nằm ơ các cluster
5.2 L ựa ch ọn đ ặc t r u n g
Thành phân Lựa chọn đặc trư ng tro n g m ô hỉnh phương pháp xác đ ịn h sao chép vãn bán nhằm m ục đ ích đặc trư n g hóa văn bản đầu vào g iữ lại những tliỏ n e tin quan trọ n ii nhất của văn ban đó Đ iề u này kh ô n g nhữns làm tăna lốc độ cho quá trìn h xứ K mà còn iiiú p tãna
dộ c h ín h xá c bư i \ iệc là m g ia m " n h iề u " tr o n íi quá trin h XU’ K I hành phan lựa ch ọ n dặc
toán tân số xuât hiện cua dặc trirn s dánh trọ n g sỏ cho các dặc trưnu trích ra các ãm tiết n- grams tro n g văn ban nhàn từ loại cho từ
T ro n g tiê n g V iệ t, có thè nói từ đ ó n ii vai trò là m ột tron tỉ những dặc tnrrm quan trọnu nhât Iro n a văn ban bơi n ộ i d u n s cua v ăn han dược ihê hiện tliỏ n u qua \ imhìa cua các từ và khi các lừ dược đặt tro n ụ m ột văn canh N iio à i yêu tò từ các vêu tò n ln r âm tiêt các n-iiram s
I'uy nhiên k h ò n ti p lia i các dặc trư im dẽu m aim \ nuhĩa Iilu r nhau, có n lũ m n dặc trư im
m ang nhiều th ò n g tin ve nộ i duna chính cua văn ban tro n g kh i có n lù rn iỉ từ m ans rât ít th ô n ii tin Ví dự " M á y v i lin h là m ộ t p h á t m in h lớ n c im lo à i n g ư ờ i" thi tù' " M á y VI t in h " m a i m
nhiều thònsi tin h ư n t ừ " la Ni i oà i ra t h ử ụr c u a d ặ c t r ư n g CŨI1ÍỊ d ó n g \ ai trò q u a n I i ọ n u hơi
nó thê hiện được phần nào văn canh mà các đặc trưntí thê hiện I)o \ ặ \ nuoai \ iệc uiừ lại các dặc tn rn a m ộ t cách thuãn tú> tò i còn danh trọ n g sô cho các dặc trưng - dặc trirm> m aim íiiá trị Irọ n a số cao hơn sè thè hiện mansì nhiêu > nghĩa hon những dặc tn rn g khác V iệ c tinh toán trọ im số cho dặc trim u dược dựa tròn thông kẽ tàn sỏ x iiã t hiện 11)1 cua dặc tru n g dó
I rọne số cua dặc trirn a 1 dược tính như sau:
• F (t) là l ằ n sổ xu á t h i ệ n (11)1) cua d ặ c trưiiỊỊ I t n m g lậ p d ừ liệu
• F n i a \ là t ần cua dặc tiLinu xuấ t h i ệ n nhi òu nh ã t t r o n y lậ p d ữ liệu
Trang 18• F m in là tần số cua đặc trư n g xuất hiện ít nhất tro n a tập dữ liệ u
V iệ c loại bo những đặc trư n g vớ i m ục đích làm eiám "n h iễ u " và giam thiểu số lượng cỏrm việc cần xứ lý cho toàn hệ th ố n g được thực hiện bầns việc loại di tất ca các đặc trưng mà tần
5.3 Tính F in g e r p r in t ch o văn bản
M ồ i văn ban có m ột tập các đặc trưng, m ồ i đặc trưne tươna ứne với nó là một trọ n u số
P ingerprint cho văn bán được xác đ ịn h như sau:
t hành p h â n t h ử i c u a V t ì i am di m ộ t íiiá trị băn li trọiiii sỏ c u a d ặ c t r ư i m dant i XÓI
aiá trị dươniì tro n u V b ănii 1 và các trườne íiiá trị k liò n a duưno cho băna iiiá trị 0
5.4 X á c đ ịnh c l u s t e r cho văn bản
T h à n h p h ầ n 1Ù1\ iíiừ \ ai trò x á c d i n h x e m m ộ t vã n b a n sò đ ư ợ c x è p v à o c l u s t e r nào
V iệ c xác đ ịn h được thực hiện theo nhữne n a u \ ên tăc sau:
• Nếu k h o a im cách H a m m in s từ văn ban đano xét tới m ột clu ste r náo dó dà có nho lum
• V iệ c tính kh o a n ” cách Liiữa \ ăn han tới clu ste r dược thục hiện qua \ iệc tinh khoanucách H a m m iiiíi iiiữ a lu m c rp rin t cua \ă n ban dó \ớ i các \ă n han dà co săn iro n iíclu ste r n à \ m i cặp nhật giá trị lớn nhài
Trang 19nghiệm đê tìm ra g iá trị tô l nhãt cho nhũng tham số sau:
G iá trị k được tiế n hành th í nehiệm tro n g khoána 1 đến 10 và liiá trị I nhận lá I tro im các uiátrị sau: 32 64 và 128 T ô i lây mau ngẫu nhiên các cặp (ìn íie rp rin t vớ i khoang cách I lu m m in iỉ nhỏ hơn hoặc bang k Đ ộ do được sư dụng là r-m easure dè dành uiá kèt qua thí nííhiộni
-! MếỉVíi dcc VGiĩS: ị Cữỉ ĩ (?Ci CỈOc pcĩưs
- Correct c/oc pairs: so các cặp văn hau Ịiiìn irims: lụp ctiniỊỉ
6.2 Kct q uả
B i n " 1 d u'1 t"i kct qua lín h theo dộ do I'-n ica su rc kh i tiên hanh thí nghiệm theo cuch tiế p cận thử nhất (c h i sư ciụne những dặc trưng mặc dịnh (âm tic t) \ á không sư dụng eac dặc
Trang 20trưng riêng qua xứ lý tiế n g V iệ t) K ế t qua cao nhất đạt được là 54.2% Với aiá tr ị k = 2 và F =
Bảng 1 Kết quả F -m e a s u r e khi tiến hành thí n ghiệ m t h e o huón g tiếp cận thú nhất (chỉ s ử dụn g n h ữ n g đặc t r u n g mặc định (âm tiết) và k h ô n g su d ụng các đặc trung riêng
Hình 2 Biêu đồ thê hiện kết qua thi nghiệ m th e o h uớn g tiếp cận thu nhất
cua tiế n tì V iệ t dược trích chọn qua \ iệe xu 1> nuon ngữ t iã ií Ị V iệ t dược cho trong hang 2
Bàng 2 Kết quá F -m e a s u r e khi thí nghiệ m vói m ô hìn h phát hiện sụ trùng lặp cua văn ban
tiếng Việt đề xuất