1. Trang chủ
  2. » Luận Văn - Báo Cáo

Information retrieval and web search = truy xuất thông tin và truy cập web

84 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Thông tin chung về truy xuất thông tin và khai phá dữ liệu Web
Tác giả Giang Vren Huống Đặng
Trường học Trường Đại Học Ngoại Ngữ - Tin Học TP.HCM
Chuyên ngành Truy xuất Thông tin và Truy cập Web
Thể loại Báo cáo môn học
Năm xuất bản 2012
Thành phố TP Hồ Chí Minh
Định dạng
Số trang 84
Dung lượng 42,3 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Tir khoa truy vfin Keyword queries N guai dung nhfin m~nh thong tin rna hQ cfin v6i mQt danh sach til khoav6i m\lC tieu tim nhfrng tai li~u chua mQt vai ho~c chua tfit ca troy vfin cua h

Trang 2

Ma £)Au 1

Chuang 1 NHUNG KHAI NI$M Cd BAN VB THU THAI> THONG TIN 4

1.6 Cau h6i ngon ngu tlJ nhien (Natural language question) 6

5 3 C' ac cong~ Vl~C ~ ben xu y.} , I' kh'ac ch0 van- b'an .30

Trang 3

7.1 Phan tich gia trj dan (Singular Value Decomposition) 507.2 Troy vftn va trich xuftt (Query and Retrieval) 52

Chuang 9 SlED TiM KIEM vA KET HOP NHIEU BANG XEP H~G 62

Trang 4

Htr&ng phat tri~n 77

Trang 5

thong tin thS gi6i.

Cung v6i nhfrng tiSn bQ VU'Q'tb?c cua cong ngh~ thong tin la S\f phat

tri~n m?nh me cua m?ng thong tin toan cfiu, ngu6n dU'li~u Web tra thanh kho

dfr li~u kh6ng 16 Nhu c:1uvS tim kiSm va xu ly thong tin, cung v6i yeu c:1uvSkha nang kip thai khai thac chung d~ mang l?i nhU'ng nang su~t va ch~t lugng

cho cong tac quc~mly, ho?t dQng kinh doanh, dft tra nen c~p thiSt trong xft

hQi hi~n d?i Nhung v~n dS tim kiSm va su d\mg ngu6n tri thuc do nhu th~nflOd~ ph\lc V\l cho cong vi~c cua minh l?i Ia v~n dS kho khan d6i v6i nguai

su d\lng D~ dap trng phfin nao yeu cfiu nay, nguai ta dft xay d\ffig cac cong C\ltim ki~m va xu ly thong tin nh~m giup cho nguai dung tim ki~m duQ'c cacthong tin cfin thi~t cho minh, nhung v6i S\f rQng l6n, d6 sQ cua ngu6n dfr li~utren Internet dft lam cho nguai su d\lng cam th~y kho khan tru6c nhfrng k~tqua tim duQ'c

V6i cac phuong phap khai thac co So' dfr li~u truySn th6ng chua dapung duQ'c cac yeu c:1u do D~ giai quy~t v~n dS nay, mQt hu6ng di m6i do langhien cuu va ap d\lng ky thu?t khai pha dfr li~u va kham pha tri thuc trongmoi truang Web Do do, vi~c nghien CUll cac mo hinh dfr li~u m6i va ap d\lng

cacphuong phap khai pha dfr li~u trong khai pha tai nguyen Web la mQt xuth~ t~t y~u vLraco y nghia khoa hQc vua mang y nghia thvc t~ cao

Trang 6

Web search co ngu6n g6c Ia trich xuAt thong tin (information retrievalho?c g<)i t~t Ia IR), mQt trong nhfrng linh V\l'Ccua vi~c nghien clm Ia giupnguai dung tim nhl1ng thong tin cftn thiSt til' mQt bQ suu t~p tai Ii~u kh6ng 16.

Theo cach truy~n th6ng IR gia dinh r~ng cac dan vi thong tin ca ban Ia

document, va mQt bQ suu t~p cua nhfrng tai Ii~u Ian co thS dSn til' ca s6 dfr

li~u van ban Tren web, nhfrng tai Ii~u do Ia Web Pages

Thu th~p thong tin chi dan gian Ia tim mQt t~p cua tai I~u rna co lienquan tai cac diu truy v~n cua nguai dung MQtS\I s~p xSp cua cac t~p tai Ii~ucling thuang duQ'c th\Ic hi~n theo cac diSm co lien quan tai diu truy v~n C~utruc cua cau truy v~n thuang duQ'c sir d\lng nh~t Ia mQt danh sach cackeywords, nhfrng cai do duQ'c g<)iIa terms IR thi khac vai dfr Ii~u nh~n duQ'c

trong ca s6 dfr li~u sir d\lilg cac cau troy v~ SQL, b6i vi dfr Ii~u trong ca s6 dfr

Ii~u thi co c~u trUc c~p cao va Iuu trfr trong cac bang quan h~, con dfr Ii~u vanban thi khong co c~u trUc Khong co c~u truc nao gi6ng ngon ngfr truy v~nSQL cho thu th~p dfr Ii~u van ban

Di~u do noi len r~ng Web search Ia ling d\lng quan tr<)ng duy nh~t cua

IR 6 muc dQ Ian han, web search giup dO'IR Th\l'c S\l',S\l'thanh cong Ian cuacac cong C\ltim kiSm la dfty IR tai giai do~n trung tam Tim kiSm khong danthuftn Ia mQt ling d\lng dan gian cua mo hinh IR truy~n th6ng

Truac tien, hi~u qua Ia mQt v~n d~ quan tr<)ng trong web search, nhung

no chi dung thu 2 trong h~ th6ng IR truy~n th6ng, chu ySu do th\l'c tS Ia taiIi~u thu th~p duQ'c 6 hftu hSt cac h~ th6ng IR Ia khong Ian I~m Tuy nhien, s6

trang tren web thi I~i r~t Ian Vi d\l, Google I~p chi m\lc cho han 8 t)/ trang

khi no duQ'c viSt ra Nguai dung Web cling doi hoi S\l'phan h6i nhanh Du thS

Trang 7

Ia ban cgu truc MQt trang web khong chi dan gian Ia mQt vai do~n van bangi6ng nhu tai li~u truySn th6ng MQt trang web co cac truang khac bi~t, vi d\lnhu: tieu dS, sieu du Ii~u, phftn than Thong tin dugc chua trong nhfrng

truang nhgt dinh thi quan trQng han nhfrng phftn khac Han nua, nQi dungtrong mQt trang thuang dugc t6 chuc va trinh bay trong mQt s6 cgu truc kh6i.MQt vai kh6i thi quan trQng va mQt s6 thi khong Vi~c bao v~ hi~u qua cackh6i nQi dung chinh cua mQt trang web thi huu feh cho vi~c tim ki@m trenweb boi vi thuat ngfr xugt hi~n trong nhfrng kh6i nhu v~y Ia dt quan trQng

Cu6i cung, spamming Ia mQt vgn dS chinh tren web, nhung khong lien

quan d@nIR truySn th6ng £)0 la boi vi vi tri ranh gi6i cua trang dugc tra vSboi mQt cong C\l tim ki@mIa vo cling quan trQng N@umQt trang web co lienquan t6i cau truy vgn nhung vi tri cua no a dt thgp (vi d\l ngoai top 30), thi selam cho nguai dung khong thich xem trang do nua N@udo la trang ban hang,thi do la mQt diSu tai t~ cho cac doanh nghi~p £)@tang x@ph~ng cua mQt s6

trang chinh, "bgt hgp phap" gQi Ia spamming, nghla Ia thuang xuyen Slr d\lng

d@tang x@ph~ng cua chung rna tac h~i Ia anh huang d@nchgt Iugng tim ki@m

va kinh nghi~m tim ki@mcua nguoi Slr d\lng

Trang 8

NHUNG KHN NIBM co BAN VE THU THAI> THONG TIN

nguaidimg

Troy vin nguai dimg

S~p x~p cac flll li~u

Heth6ngtrlchxu~t

Trong hinh 1, nguai dung v6i nhu cau thong tin can giri m9t cau troyvfin t6i retrieval system thong qua mo-dun query operation Mo-dun trichxufit sir d\illg document index dS lfiy nhfing tai li~u chua trong cau truy vfin,tinh toan s6 diSm thich hQ'p cho chung, va sau do x~p h?ng tai li~u thu th~pduQ'c theo s6 diSm do Vi~c x~p h?ng sau do duQ'c dua cho nguai dung xem.Document collection la dS chi text database, rna duQ'C I~p chi m\lC boiindexer cho vi~c thu th~p duQ'c hi~u qua

M9t troy vfin nguai dung d?i di~n cho nhu cau thong tin cua nguaidung do la m9t trong nhfing hinh thuc sau:

Trang 9

NHONG KHAI NIBM coBAN VB THU THAP THONG TIN 5

1.1 Tir khoa truy vfin (Keyword queries)

N guai dung nhfin m~nh thong tin rna hQ cfin v6i mQt danh sach til khoav6i m\lC tieu tim nhfrng tai li~u chua mQt vai ho~c chua tfit ca troy vfin cua hQ.Cac di@ukhoan trong danh sach duQ'c gia dinh dS kSt n6i v6i mQt phien ban

"m@m" cua logic AND Vi d\l, nSu mQt nguai quan Him trong vi~c tim kiSmthong tin v@Web mining, thi diu troy vfin cua hQ co thS la "Web mining" dSnmQt IR ho~c cong C\l tim kiSm "Web mining" duQ'c phan tlch 113. "Web ANDmining" H~th6ng thu t~p thong tin se tim nhfrng tai li~u co lien quan va xSph~ng chung mQt cach hQ'p ly dS trinh ra cho nguai dung Chu y 113. tai li~u thuth~p duQ'c khong nhfit thiSt fai chua tfit ca tu khoa trong diu troy vfin TrongmQt vai h~ th6ng IR, thu t\1'cua cac til dIng co y nghTa quan trQng va se anhhuemg t6i kSt qua tim kiSm

1.2 Truy vfin logic (Boolean queries)

Nguai dung co thS dung toan tu logic, AND, OR va NOT dS xay d\fllgcau truy vfin phuc t~p Do do, troy vfin nhu v~y bao gc3ms6 h~ng va toan tulogic Vi d\l, 'data OR web' la mQt diu truy vfin v6i yeu cfiu 113. tai li~u phaichua til 'data' ho~c til 'web' MQt trang tra v@toan tu troy vfin nSu cau troyvfin do dung logic trong trang M~c du mQt nguai co thS viSt nhfrng cau toan

tu troy vfin phuc t~p su d\lng ba toan tu tren, nhung hiSm khi nguai dung viStnhfrng cau truy vfin d~ng nhu v~y

1.3 M~nh d~ truy vfin (Phrase queries)

MQt cau troy vfin bao gc3mmQt day cac til, mQt day til do lam nen mQtm~nh d@.M6i tai li~u tra v@phai chua it nhfit mQt til trong m~nh d@.Trongcac cong C\l tim kiSm, mQt m~nh d@truy vfin thuang kern theo dfiu ngo~c kep

Vi d\l, nguai dung co thS suo d\lng m~nh d@ truy vfin sau "web miningtechniques and application" dS tim kiSm tai li~u co chua chinh xac m~nh d@do.

1.4 Truy vfin g~n (Proximity queries)

Proximity 113. d~ng rna rQng cua m~nh d@troy vfin va co thS kSt hQ'Ps6h~ng va m~nh d@.Troy vfin gfin tim kiSm trong nhung troy vfin cu M~t dQduQ'c dung nhu mQt ySu t6 trong danh sach tra v@cua tai li~u ho?c trang Vid\l, mQt tai li~u co chua tfit ca cac thu~t ngu troy vfin gfin nhau duQ'c coi 113. colien quan nhi@uhan mQt trang trong do cac di@uki~n truy vfin khac xa nhau

Trang 10

NHUNG KHN NIBM co BAN VE THU THAP THONG TIN 6

MQt s6 h~ th6ng cho phep nguai Slr d\illg xac dinh t6i da khoang cach gifra

cac dieu ki~n truy v~n MQt vai cong Clftim ki~m xem xet ca term promixity

va term ordering trong trich xu~t.

1.5 Toan tili li~u (Full document require)

Khi trUYv~n la toan bQ tai li~u, nguai dung mu6n tim nhfrng tai li~ukhac tuang t\f vai tai li~u truy v~n MQt vai cong Clftim ki~m (vi dlf: google)cho phep nguui dung dua ra cau truy v~n nhu cung c~p URL cua trang truyv~n, N goai ra, trong cac k~t qua tra ve cua mQt cong Clftim ki~m, m6i do~m

co th@co mQt lien k~t dugc gQi la "more like this" ho~c "similar pages", Khinguai dung nh~p vao lien k~t, mQt t?P hgp cac trang tuang t\f nhu cac trangtrong do~n rna dugc tra ve

1.6 Cau hoi ngon ngu' tl}'nhien (Natural language question)

Day hl truang hgp phuc t~p nh~t, va cling la truang hgp ly tuong nh~t.Nguui dung diSn d~t thong tin hQ cc1nmQt cau hoi cua ngon ngu tv nhien Sau

do h~ th6ng se tim ki~m va tra lai Tuy nhien, cac truy vfin nhu V?y thi vancon rat kho d@xu ly, do nhfrng kho khan trong vi~c hi@ungon ngu t\f nhien,M~c du V?y, day la mQt linh VlJCho~t dQng nghien cUu, dugc gQi la cau hoi

tra lai (question answering) MQt s6 h~ th6ng tim ki~m b~t dc1ucung c~p

dich Vlftra lui cau hoi d\fa tren mQt s6 lo~i cau hoi Clfth@,vi dlf, cau hoi dinhnghla, yeu cc1u dinh nghla cua thu?t ngu ky thu?t Cau hoi dinh nghla lathuang dS dang han d@tra lui boi vi co cac mo hinh ngon ngu m~nh me chi racau dinh nghla, vi dlf nhu, "defined as", "refers to" ,

Cac phuang thuc truy v~n co th@dao dQng tu rfit dan gian d~n rfit phuct~p Trong truung hgp dan gian, no khong lam gi chi cc1nchuy@ncac truy vfinqua d@cac cong Clftrich xufit sau mQt s6 tien xu ly dan gifm, vi dlf, lo~i tudUng (tu xufit hi~n dt thuang xuyen trong van ban rna it co y nghla, vi dlf

"the", "a", "in", v.v ) Chung ta se noi ve tien van ba truac khi xu ly trong

mlfc 5 Trang truang hgp phuc tl;lPhan, cc1nbi~n d6i cac ngon ngu truy v~n t\fnhien thanh cac truy v~n thvc thi

Trang 11

7cAc MO RiNH TRICR XUAT DULIJ;:U

_ _ _ • _.H .H _._ _._ • _._ _ _ _ _ M •••••••••••••••• _ ••••••••••••••••••

Chuo'ng 2 cAc MO HINH TRiCH XUAT DU LltU

MQt rna hinh IR leirnQt tai 1i~u va rnQt truy vfin duQ'c biSu diSn va S\Ilien quan Clla tai 1i~u do tai troy vfin rna nguoi dung dinh nghia Co b6n rnahinh IR chinh: rna hinh Boolean, rna hinh khang gian vector, rna hinh nganngfr va rna hinh xac sufit Cac rna hinh duQ'c su d\Ulg ph6 biSn nhfit trong h~th6ng IR va tren web 1a ba rna hinh dftu tien Chung ta se nghien Clm chungtrong chuang nay

M~c du cac rna hinh biSu diSn cho cac tai 1i~u va cac troy vfin khacnhau nhung chung dSu co chung rnQt khuan kh6 Chung xu 1y cac tai 1i~u haycac troy vfin nhu 1a rnQt cai "tui" chua tfit ca cac tu ho~c cac term Trinh tv va

vi tri trong rnQt cau ho~c rnQt tai 1i~u duQ'c b6 qua Co nghia 1a ffiQttai 1i~uduQ'c rna ta bO'i rnQt t?P hgp cac thu?t ngfr d~c bi~t.Thu?t ngfr dan gian chi 1arnQt tu co nghla se giup ghi nha cac chu dS chinh cua tai 1i~u Chung ta cftn

1uu y r~ng term & day khang thS 1a rnQt ngan tu tv nhien trong til diSn M6iterm co lien quan tai rnQt tr9ng s6 Cho rnQt t?P cac tai 1i~uD, cho V={tl,tZ tlvl}1a t?P hQ'pcac diSu ki~n d~c bi~t trong t?P tai 1i~u vai tj 1a rnQt term T?p

V thuong duQ'c g9i 1a t?P til v\Illg Clla bQ tai 1i~u va IVI 1a kich thuac Clla notuc 1a s6 1uQ'ngcac term trong V MQt tr9ng s6 Wij>0 duQ'c g~n vai rnQt tj Cllatai 1i~u dj E D MQt term rna khang xufit hi~n trong tai 1i~u dj thi wij=O M6itai 1i~udj duQ'cbiSu diSn b~ng vector,

M6i tr9ng s6 Wijling vai rnQt term tiE V, va dinh 1uQ'ngtftrn quan tr9ngcua tj trong tai 1i~udj. Thu tv Cllacac thanh phftn trong vetor 1akhang dang kS

Vai cach biSu diSn vector nhu V?y, rnQt t?P hgp cac tai 1i~u chi dangian 1a biSu diSn cac bang quan h~ (hay rna tr?n) M6i term 1arnQt thuQc tinh,rn6i tr9ng s6 1a rnQt gia tri Clla thuQc tinh Trong cac rna hinh trich xufit dfr1i~ukhac nhau, WijduQ'ctinh khac nhau

2.1 Mo hinh Boolean

Ma hinh Boolean 1a rnQt trong cac rna hinh trich xufit dfr li~u sam nhfit

va dan gian nhfit No su d\lng cac khai ni~rn vS kSt hQ'pva dQ chinh xac dS so

Trang 12

cAc MO RiNH TRICR XUAT DO' LIBu

khap vai cac tai li~u rna ngmJi dung truy v~n Vi~c truy v~n va trich xu~t d@ud\fa tren d?i s6 Bun

Bi~u di~n tai li~u: Trong mo hinh Boolean, tai li~u va cac troy v~n

duQ'cbieu diSn la t~p hgp cua cac term Cach su d\mg vector bieu diSn tai li~u

a tren thi trong s6 wij (E {O, I}) cua term t j trong tai li~u d j la I nSu t j xu~t

hi~n trong tai li~u d j, nguQ'c l?i thi b~ng 0 tuc la

I if t j appears in d j

Wij-o nguQ'c l?i

(1)

Truy vdn Boolean: Nhu dfi giai thi~u trong chuang I, ngon ngu truy

v~n duQ'c kSt hgp mQt cach hgp ly b~ng cach su d\1llg cac toan tu AND, OR,NOT co ngu nghla nhu trong logic Do do, truy v~n boolean thucYUgco dQ

chinh xac v@ngu nghla Vi d\l troy v~n (x AND y) AND(NOT z) cho ta biSt r~ng mQt tai li~u l~y ra phai co ca hai di@uki~n la phai co x va y , va khong co

z. MQt vi d\l khac, cac bieu thuc troy v~n(x OR y) co nghla la it nh~t la mQttrong hai phai co trong tai li~u trich xu~t a day chung ta gia dinh r~ng x,y va

z la cac term Noi chung chung co the chinh la cac bieu thuc boolean.

Trich xudt tai li~u: Cho mQt troy v~n boolean, h~ th6ng se rut trich ra

nhfrng tai li~u rna lam cho diu truy v~n logic dung Nhu v~y vi~c rut trich d\fatren cac quySt dinh nhi phan Nghla la, mQt tai li~u ho?c co ho?c khong colien quan Di@unay duQ'c g9i la mQt so khap chinh xac Khong co khai ni~m

so khap mQt ph:1n ho?c xSp h?ng cua cac tai li~u ~y Day la mQt trong nhfrngnhuQ'c diem Ian cua mo hinh boolean rna thucyug d~n tai kSt qua trich xu~tkern

Vi v~n d@nay nen mo hinh Boolean hiSm khi duQ'c su d\lng mQt minhtrong th\fc tS H:1uhSt cac cong C\ltim kiSm h6 trQ'mQt s6 hinh thuc giai h?ncua trich xu~t boolean su d\lng cac toan tu lo?i tru Vi d\l, troy v~n sau co theduQ'C danh vao Google 'mining -data + "equipment price" " where +

Trang 13

cAc MO RINH TRiCR XUAT DO'LIeU

(inclusion) and - (exclusion), chung tuang tmg to{m tir AND va NOT Toantir OR co th@h6 trg tat han.

2.2 Mo hlnb khong gian vector

Mo hinh nay co Ie la n6i ti~ng nh~t va dugc sir d\ffig r(>ngrai nh~t trongcac mo hinh IR

Bi~u di~n t~tili~u

M(>t tai li~u trong m(>tkhong gian vector thi dugc bi@u diSn nhu rn(>tvector tr<;mgsa, v6i m6i thanh phc1ntrQng sa dugc tinh dga tren m(>t sa bi~nth@cua TF ho?c TF-IDF TrQng sa Wij cua term tj trong tai li~u dj khong conn~m trong t~p{O,l} nhu trong rno hinh Boolean mla nhung no co th@la b~t ki,

so nao

Term Frequency (TF) Scheme: Trong phuang phap mly, trQng sa cua

term t j trong tai li~u dj la sa lc1nrna t j xu~t hi~n trong tai li~u dj, ki hi~u la);i'Binh thucmg ding co th@dugc ap d\lng (xem cong thuc (2))

Cac thi~u sot cua TF la khong xern xet cac truemg hgp rna m(>t termxu~t hi~n trong m(>tt~p hgp nhieu tai li~u

TF-IDF Scheme: Day la hc1uh~t cac cac chuang trinh trQng sa n6iti~ng, trong do TF vdn la vi~t t~t cua thu~t ngu tc1nsa va IDF la tc1nsa nghichdilO.Co m(>tvai d~mgbi~n the cua chuang trinh nay a day chung toi chi cungc~p m(>ttrong nhung cai Co' ban nh~t

Cho N la t6ng sa tai li~u trong h~ thang ho?c trong b(>suu t~p va d); la

sa tai li~u rna term tj xu~t hi~n it nh~t la m(>t lc1n');i la sa lc1nxu~t hi~n cuaterm tj trong tai li~u dj• Tc1nsa chu~n (ki hi~u tfij) cua t j trong tai li~u dj dugctinh boi

tai da dugc tinh tren t~t ca cac term xu~t hi~n trong tai li~u dj. N~u term

t j khong xu~t hi~n trong dj thi tf;}-0

Tc1nsa tai li~u nghich dao (ki hi~u la id); ) cua term t j dugc tinh boi:

Trang 14

cAc MO HINH TRiCH XUAT DO'LIBu

Truy vin

MQt truy vAn q duQ'cbieu diSn mQt cach chinh xac gi6ng nhu cach bieudiSn I tai li~u trong t?P tai li~u TrQng s6 wij cua m6i term t j trong q co theduQ'Ctinh theo mQt cach tuong t\1'trong mQt t?P tai li~u chuc1nho?c hoi khacnhau Vi d\l Salton va Buckley dS nghi cach tinh sau:

(5)

Rut trich tili li~u va x~p h~ng lien quan

Thuang rAt kho de dua ra quySt dinh nhi phan tren mQt tai li~u lien

quan dSn mQt troy vAn nhAt dinh Khong gi6ng nhu cac mo hinh Boolean, mohinh khong gian vector khong dua ra mQt quySt dinh nhU V?y Thay vao do,cac tai li~u duQ'c xSp hi;lngtheo muc dQ lien quan dSn truy vAn MQt cach detinh toan muc dQ lien quan la tinh toan s\1'gi6ng nhau cua truy vAn q v6i m6itai li~u dj trong bQSUll t?P tai li~u D Co rAtnhiSu phuong phap tuong t\1'nhuV?y MQt trong nhfrng phuong phap n6i tiSng nhAt la co-sin, dung de tinh gocgiua cac vector troy vAn q va cac vector tai li~u dj,

Trang 15

cAc MO RlNH TRiCR xuAT DO'LIeU

••••• -. - •• -.- ••••••••••• -.-.- •••• - •••••• - ••••••••••••••• - ••••••• - ••••••• ~ •••••••••• - • •• _ •••••••••• _ ••• •• _ ••••••••••••••••••••••••••••••••••• w •••••••••••••••••••••••••••••• _ •• •••••••••••••••••••••••••• _•••••••••••••• _ _ ••••••••• _ ••••• •• •••••••••••• _ ••••••••••••••••••••••••••••••••• 11

(7)XSp h,;mg cac ali li~u duqc thlJc hi~n b~ng cach su dVng cac gia tri

tuang duang Clla chung Cac teii li~u duqc xSp h?ng heing d~u duqc coi lei lienquan dSn truy vc1n

M9t cach khac dS danh gia rnuc d9 lien quan lei tinh toan trlJc tiSp s6diSm lien quan cho tUng teii li~u dS truy vc1n Phuang phap Okapi vei cac biSnthS clla no lei ky thu?t ph6 biSn trong ki thu?t neiy Vi~c rut trich Okapi dua racong thuc lei dlJa tren cac biSn thS No da: duqc chi ra r~ng biSn thS Clla Okapilei hi~u qua han so v6'i co-sin dS rut trich truy vc1n ng~n No d@ deing han dStrinh beiy cac cong thuc tflJC tiSp b~ng cach su dVng "tui" tu ky hi~u Clla vanban han lelvecta, teii li~u dj duqc ki hi~u b~ng dj vei truy vc1nq se duqc ky hi~ulei q Ky hi~u b6 sung nhu sau:

t i lei m9t term

Ii} lei s6 l~n xuc1thi~n Clla term t i trong teii li~u d j

fiq lei s6 l~n xuc1thi~n Clla term ti trong truy vc1nq

N lei t6ng s6 teii li~u trong b9 teii li~u

dfi lei s6 teii li~u co chua term t i

dl j lei chiSu deii Clla teii li~u d j (tinh b~ng byte)

avdl lei trung binh c9ng chiSu deii Clla tc1tca teii li~u

UiSm s6 lien quan Okapi Clla teii li~u d jcho m9t truy vc1nq lei:

Ok (d ) -" I N-dfi+O'S (k 1 +l)fij (kz+l)fiq

Trang 16

cAc MO RINH TRICR XUAT DULleU 12

Vai s hi m9t tham s6 (thucmg d?t hi 0.2) Luu '1 r~ng day 1anhfing chucnang thvc nghi~m dVa tren trvc giac va danh gia thu nghi~m Co nhiSu bi~nthS Clla cac chuc nang nay duQ'csu d\ll1gtrong thvc t~

2.3 Mo hinh ngon ngfr th8ng ke

Mo hinh ngon ngfr th6ng ke (ho?c chi dan gi~m 1a mo hinh ngon ngfr)

duQ'c dva tren xac su~t va co ca So' trong 1'1thuy~t th6ng ke Y tuang ca b~m

Clla phuang phap nay dS trich xu~t 1a dan gUm No 19n dgu tien uac tinh m9t

mo hinh ngon ngfr cho m6i tai 1i~u, va sau do x~p tai li~u theo kha nang Cllacac truy v~n duQ'c mo hinh ngon ngfr dua ra Y tuang tuang tv dfi tUng duQ'C

su dl)ng trong xu 1'1ngon ngfr tv nhien va nh?n d?ng gi<;mgnoi.Vi~c xay dvng

va thao 1u?n trong chuang nay duQ'c dva tren nhfing nguai trong nhfrng nam[595, 596] Trich xu~t thong tin su dl)ng cac mo hinh ngon ngfr 19n dgu tien

duQ'c dS xu~t bai Ponte va Croft Truy v~n q 1a m9t chu6i cac thu?t ngfr q =

q lq2 qm va b9 suu t?P tai li~u D 1a m9t t?P hgp cac tai li~u D = {d 1, d2, ,

d N}. Trong cach ti~p c?n mo hinh ngon ngfr, chung ta xem xet xac su~t cuam9t truy v~n q nhu duQ'c "t?O ra" bai m9t mo hinh xac su~t dVa tren m9t tai

1i~udj, ki hi~u Pr (q Idj).

DS x~p h?ng cac tai li~u trich xu~t, chung ta quan Him d~n uac tinh xac su~t

Pr (d) Iq) SU dl)ng quy t~c Bayes, chung ta co

Pr(d.1 )- Pr(qldj)Pr(dj) (10)

) q Pr(q)

D6i vai bang x~p h?ng Pr(q) 1a khong cgn thi~t vi no gi6ng nhau trong m6i tai 1i~u Pr(dj) thuang duQ'c coi 1a th6ng nh~t va do d6 se khong anh

huang d~n x~p h?ng Chung ta chi cgn phai tinh toan Pr(qldj).

Mo hinh ngon ngfr duQ'c su dl)ng trong cong vi~c hi~n t?i 1a dva trendan tu, tuc 1a chi ban than tu d6 duQ'c xem xet D6 1a rna hinh gia djnh r~ngm6i term (tu) duQ'c t?O ra d9C l?p va da thuc duQ'c phan ph6i chu y~u tren tu

Cac truang hQ'p d6 chung quy l?i 1a mo hinh n-grarn, truang hgp term thu n duQ'cbiSu diSn bai term truac d6 1an-l.

D\fa tren cac phan ph6i da thuc va rno hinh dan tu, chung ta co:

Pr(q =qlq2 qmldj)=rr~l Preqlldj) = rr:~~Pr(tddj)fi Q (11)

Trang 17

cAc MO RINH TRiCR XUAT DO' 13

Vai fig la s6 l~n xu~t hi~n cua term t i trong tai li~u q va

L~:llPretjldj) =1 V~n dS trong trich xu~t dfr li~u la rut g9n d~ tinh Pr(ti/d;),

hi~n trong tai li~u TruOng hgp nay tuang t\l' nhu phan lo~i van bfm b~ng cach

su d\mg rna hinh Bayesian "ngay tha" MQt sac xu~t khac khang dugc gancho cac term khong nhin th~y trong tai li~u, t~m g9i la lam min No diSuchinh d\l' toan xac su~t chinh xac han.KI thu~t nay d~ lam cho xac su~t co xuhuang d6ng d~u han, b~ng each diSu chinh xac su~t th~p len va diSu chinh

xac su~t cao xu6ng Khong chi cae phuang phap him tran nh~m ngan ch~n

xac su~t b~ng khang, nhung chung cling c6 g~ng d~ ccli thi~n tinh chinh xac

cua toan th~ mo hinh M& rQng phuang phap lam tran truySn th6ng Ia

(13)

Khi ') =1 no Ia Laplace smoothing, khi 0< A< 1 no la Lidstone

smoothing

Trang 18

Mac THONG TIN PHAN HOI 14

do t?O ra rnQt truy vftn rna rQng bfug cach chiSt xuftt rnQt s6 diSu ki~n b6 sung

tu cac tM li~u rnftu co lien quan va khong lien quan cho rnQt vong thu hai cuatrich xuftt H~ th6ng cung co thS san xuftt rnQt rno hinh phan lo?i b&ng cach sud\illg nguai dung d@xac dinh cac tai li~u lien quan va khong lien quan dSphan lo?i cac tai li~u trong bQ suu t~p tai li~u thanh cac tai li~u co lien quan

va khong lien quan Qua trinh thich hgp thong tin phan h6i co th@duqc l?p dil?p l?i cho dSn khi nguai dung hai long v&i kSt qua Ifty

Phu'O'ng pluip Rocchio

Day la rnQt trong cac thu~t toan phan h6i thong tin lien quan s&rn vahi~u qua No d\fa tren phuang phap tiSp c~n delu tien a pheln tren Do la, no sud\illg nguai dung xac dinh cac tai li~u lien quan va khong lien quan d@rnarQng truy vftn ban delu.Cac truy vftn rn&i (ho?c rna rQng) sau do duQ'c su d1;1ngd@thvc hi~n trich xuftt l?i

Vector truy vftn ban delu la q, t~p hgp cac tai li~u lien quan duQ'c Iva chQn bai nguai su d1;1ngla D" va t~p hgp cac tai li~u khong lien quan la D jr• Cac troy

vftn rna rQng q e duQ'ctinh nhu sau:

qe=aq II:rlLdrEDr dr - I~rlLdirEDtr dir (14)

V&ia,P, y la cac tharn s6 Phuang trinh (14) chi dan gian la tang them cac

vector truy vftn q ban delu v&i cac diSu ki~n b6 sung tu cac tai li~u co lien

quan.Cac truy vftn ban delu q vftn can celn thiSt vi no tf\fC tiSp phan anh nhuceluthong tin cua nguai dung Tai li~u lien quan duqc coi Ill.quan trQng han taili~u khong lien quan.Toan tu tru duqc su d1;1ngd@giarn anh huang cua nhungdiSu khoan rna khong phai Ill.phan bi~t (vi d1;1,chung xuftt hi~n trong cac taili~u lien quan va khong lien quan), va nhung thu~t ngu' chi xuftt hi~n trong cactai li~u khong lien quan Ba thong s6 duQ'c thiSt l~p theo kinh nghi~rn LUll Yr&ng rnQt biSn th@nh~ cua thu~t toan Ill.rnQt rna khong celn chuAn hoa IDrlva

Trang 19

Mac THONG TIN PHAN Hor 15

IDjrl. ea hai phuong phap r~t don gian va hi~u qua dS tinh toan va thuang t~lO

ra kSt qua t6t

Phu'ung pluip may h(Jc

KS tu khi chung ta co m<)tt?P hQ'pcac tai li~u lien quan va khong lienquan, chung ta co thS xay d\lng m<)tmo hinh phan lo~i tu chung Sau do, cac

v~n d~ v~ thong tin phan h6i lien quan tra thanh m<)t v~n d~ hQc t?p B~t ky

phuong phap hQc co giam sat nao cling co thS duQ'c sir d\lng, vi d\l nhu: phanlo~i Bayesian "ngay tho" va SVM(support vector machine) Tuong t\l so sanhv6i cac truy v~n ban dfiu khong con cfin thiSt

Trang th\lc tS, m<)tbiSn thS Cllaphuong phap Rocchio atren, duQ'c gQi

la phuong phap phan lo~i Rocchio, co thS duQ'c sir d\lng cho m\lc dichnay.M<)t phan lo~i Rocchio duQ'c th\lc hi~n b&ng cach xay d\lng m<)t vectornguyen m~u Cj cho m6i l6p i, ho~c la co lien quan ho~c khong lien quan trangtruang hQ'p nay (ySu t6 tieu C\lCho~c cac thanh phfin Clla vector Cj thuangduQ'c thiSt l?p la 0):

1 for each class i do

2 construct its prototype vector Cj using Equation (15)

3 endfor

4 for each test document d1do

5 the class of d1 is arg n1axi cosine( dt ,ci)

6 endfor

Hillh 2: Hutin luy?n va ki€m tra cua phan l6'p Rocchio

Trang 20

Ngoai cac phuang phap c6 dien tren, hQc t~p ky thu~t sau day cling cothe ap d\lng:

HQC til' vi d\l da dU'Q'cgan nhan va khong co nhan (LV Learning):Khi s6 lugng nguai su d\lng Iva chQn tai li~u co lien quan va khong lien quan

co the 000, no co the kho khan de xay d\fng mQt phan lo~i chinh xac TuyOOien, khong co OOanvi d\l : OOung tai li~u khong dugc chQn boi nguai sud\lng, co the la su d\lng de cai thi~n vi~c hQCde san xufit mQt phan lo~i chinhxac han Di~u nay phu hgp v6'i mo hiOOhQc t~p LU chinh xac Nguai su d\lngl\fa chQn cac tai li~u co lien quan va cac tai li~u khong lien quan til' t~p hufinluy~n co OOan000

HQc til' vi d\l tich C\l'Cva khong co nhan (PV Learning): hai mo hinhhQc t~p da d~ c~p 0 tren gia diOOr~ng nguai su d\lng co the t\f tin xac dinh ca

hai tai Ii~u lien quan va khong lien quan Tuy nhien, trong mQt s6 truang hgp,

nguai dung chi co l\fa chQn (ho?c oofip chuQt) tai li~u rna aOO/ co fiy camthfiy co lien quan d\fa tren tren nhung thong tin tieu d~ ho?c tom t~t, co OOi~ukha nang la cac Uti li~u th~t S\f co lien quan, nhung khong cho biSt tai li~ukhong lien quan Cac tai li~u khong dugc chQn boi nguai su d\lng co thekhong dugc coi la thich hgp boi vi aOO/ co fiy da khong OOinthfiy chung Viv~y, chung chi co the dugc coi la tai li~u khong co nhan Di~u nay dugc gQi la

y kiSn phan h6i ti~m ~n De tim hieu trong truang hgp nay, chung ta co the su

d\lng phuong phap PU learning, nghia la, hQCt~p til' cac vi d\l tlch C\fCvakhong co nhan Chung ta coi cac tai li~u dugc nguai su d\lng l\fa chQn OOucac vi d\l tlch C\fC,va cac van ban khong dugc chQn 1ftcac vi d\l khong conhan Cac nha nghien clfU da thl'r nghi~m v6'i cach tiSp c~n nay trong b6i canhtim kiSm web va thu dugc kSt qua t6t

Sfr d\lng Ranking SVM va rno hlnh ngon ngu': Trong cac thiSt I~pthong tin phftn h6i ng~m, illQt ky thu~t gQi Ia Ranking SVM dugc d~ xufitnam 260 de xSp h~ng cac tai li~u khong dugc chQn d\fa tren cac tai Ii~u dachQn MQt cach tiSp c~n d\fa tren mo hiOOngon ngu cling dugc d~ xufit nam487

Pseudo- Mu'c tip lien quan phiin hai

Pseudo- thong tin phan h6i lien quan 1ftillQt ky thu~t dugc sl'r d\lng denang cao hi~u qua thu h6i Y tuong ca ban cua no 1ftde trich xufit illQt s6 di~u

Trang 21

._MU'C_ • .• - •.THONG TIN PHAN HOI •.•• • • •• _ _ _ _._ - - _ _ • • • • _ - 17

:

ki~n (thucmg thucmg la tfin s6) tu cac tai li~u hang dfiu va them chung VaGcactruy vAn ban dfiu d~ t~o thanh m9t truy vAn m6i cho m9t vong thu hai cuatrich xuAt M9t lfin nua, qua trinh nay co th~ duQ'c l?p di l?p l~i cho dSn khinguai dung hai long v6i kSt qua cu6i cung Sv khac bi~t chinh giua phuongphap nay va phuong phap thong tin phan h6i lien quan la phuong phap naynguai su d\lng khong duQ'c tham gia VaG qua trinh nay each tiSp c?n dongian gia dinh r~ng cac tai li~u hang dfiu la co kha nang lien quan Thong qua

rna r9ng truy vAn, m9t s6 tai li~u co lien quan bi mAt trong vong ban dfiu coth~ duQ'c lAyra d~ cai thi~n hi~u suAt t6ng th~ R5 rang, hi~u qua cua phuongphap nay dva VaGchAt lUQ'ngcua cac di~u ki~n rna r9ng duQ'c Iva ch<;m

Trang 22

cAe Bn;:N PHAP DANH GIA

-Chuo'ng 4 cAc BI~N PHAp DANH GIA.

18

£><)chiOOxac va cac bi~n phap trich xu~t da: dugc mo ta trong chuang

3 hQc co giam sat, nai rna m6i tai li~u dugc phan lo~i vao m<)t16p hQc C\lth@.Trong IR va tim kiem Web, thuang la quyet diOOkhong dugc th\fc hi~n trenm<)ttai li~u co lien quan ho?c khong lien quan den m<)ttruy v~n Thay vao do,m<)tthu h~ng cua cac tai li~u dugc cung c~p cho nguai S11 d\lng Chuang naynghien cuu lam the nao d@daOOgia thu h~ng OOuv~y

M<)t l~n nfra, cho b<) suu t~p cac tai li~u trong ca So' dfr li~u la D, va

t6ng s6 tai li~u trong D la N V6i m<)tnguai su d\lng truy v~n q, cac thu~t toan trich xu~t d~u tien tiOOdi@mlien quan cho t~t ca cac tai li~u trong D va sau do

t~o ra m<)tbang xep h~ngR q cac tai li~u d\fa tren cac di@mlien quan, tuc la,

Dq (C D) la t~p hgp cac tai li~u th\fc te co lien quan cua cac troy v~n q

trong D. Chung ta co th@tinh toan cac gia tri chinh xac va thu h6i gia tri t~im6i d~ trong bang xep h~ng

Recall t~i vi tri ranh gi6i i hay tai li~u d~ (ki hi~u la r(i» la rn<)tph~ntrong s6 cac tai li~u lien quan tu d~ t6i d~ trong R q. £>?t 86 lugng cac tai li~ulien quan tu d~ t6i d~ trong R q Ia Si « IDq I) (IDqlla kich thu6c cua Dq)

(17)

Precision t~i vi tri ranh gi6i i hay tai li~u d; (ki hi~u la p(i» la ph~neua tai li~u tu d~ t6i d~ trong R q rna co lien quan:

Trang 23

cAe BIJ;:N PHAP DANH oIA

•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••• _ •••••••••• m •••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••• ' •••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••• ' •••• M ••••••• 19

Vi dl,l 1: Chung ta co mQt bQ suu t?P tai li~u D v6i 20 tai li~u Cho mQt

truy vfin q , chung ta biSt r~ng 8 tai li~u lien quan t6i q MQt thu?t tmin trichxufit cho ra bang xSp h~ng nhu sau( cua tfit ca tai li~u):

xip h(lngi +/- p(i) r(1)

ffi"h 3 Precision va recall gia tri h;lim6i vi trf ranh giai

Trong cQt thu nhfit cua hinh 3, 1 biSu diSn ranh gi6i cao nhfit va 20 biSudiSn ranh gi6i thfip nhfit "+" va "-" trong CQt2 chi ra tai li~u co lien quan vakhong lien quan tuang ung Gia tri precision (P(i)) va recall ( r(i)) t~i m6i vitri i duQ'ctinh & CQt3 va CQt4

Average Precision: voi iuc chung ta cc1nmQt gia tri precision dan dS

so sanh cac thu?t toan trich xufit dfr li~u v6i nhau trong mQt truy vfin q MQtgia tri precision trung binh co thS tinh duQ'c dVa vao precision tlilim6i tai li~utrich xufit trong bang xSp h~ng

Trang 24

cAe BrBN PHAP DANH GrA

Vi chung ta co th~ khong co duQ'c chinh xac cac rnuc dQ recall trongbang x~p h~ng nen phuong phap nQi suy la c<1nthi~t d~ chung ta co duQ'c dQchinh xac t~i nhfrng rnuc recall nay, no duQ'c tinh nhu sau: gQi ri la rnQt rnuc

recall, i E {O,1,2, ,10} va peri) la precision t~i recall rnuc ri, peri) duQ'C tinhnhu sau:

(21)

Do la nQi suy precision t~i rnuc recall ri Cl) th~, chung ta co precision t6i

da cua tflt ca recall n~rn giua rnuc ri va rIO.

Vi dl} 2: Ti~p thea vi dl) 1, chung ta co duQ'c cac nQi suy t~i tflt ca 11rnuc recall trong bang a hinh 4 Ta co duemg cong precision- recall nhu sau:

Trang 25

cAe BIBN PHAP DANE GIA

mil" 4.Duong cong precision-recall

21

So sanh S\f khae nhau giu'a eae thu~t toan: Thong thuOng, chung tac~n phai so sanh kSt qua trich xu~t cua cac thu~t toan khac nhau Chung ta cothS ve cac dUOng cong precision- recall cua cac thu~t toan trich xu~t trongcling rn9t biSu dB dS so sanh, Hinh 5 cho th~y cac dUOng cong cua 2 thu~ttoan tren cling rn9t truy v~n va cac b9 tai 1i~u gi6ng nhau Chung ta th~y r~ngd9 chinh xac cua rn9t thu~t toan 1a t6t han so vai nhfing thu~t toan khac a

rnuc recall th~p, va nguQ'c l?i 1arnuc recall cao,

rn9t sB 1uQ'ngIan cac truy v~n Toan b9 precision (ki hi~u 1aperi)) t?i rn6i

rnuc recall r; thi duQ'ctinh la trung binh cua precision t?i rnuc recall do

(22)

Vai Q la t~p t~t ca cac truy v~n va Pjeri) la precision cua truy v~n j t~i mtrc

recall rio Sir dVng precision trung binh t?i rn6i rnuc recall, chung ta co thS veduQ'c duang precision-recall

Trang 26

cAe Bli;:N PHAP UANH GIA 22

(23)

M?c du tren Iy thuYSt precision va recall kh6ng ph\! thuQc VaGnhau,nhung trong thlJc tS, mQt recall cao thi h~u nhu luon d?t duQ'c t?i cac chi phiprecision, va mQt precision cao d?t duQ'c t?i cac chi phi recall Vi V?y gifrarecall va precision co mQt SlJdin b~ng Tuy thuQc VaGtmg d\!ng, nguai ta cothS co muBn dQprecision cao ho?c recall cao

MQt vfin dS gifra cac bi~n phap precision va recall la trong nhiSu tmg

dl)llg, co thS rfit kho dS xac dinh t?P hgp cac tai li~u lien quan D q cho m6i troy

vfin q Vi d\!, Tren web, D q h~u nhu khong thS xac dinh vi co nhiSu trang qua

dan gi~mdS kiSm tra NSu khong co D q gia tri recall kh6ng thS tinh toan duQ'c.Trong thlJc tS, recall khong co y nghia nhiSu cho vi~c tim kiSm tren web vinguai dung it khi nhin VaG cac trang web xSp h?ng du6i 30 Tuy nhien,precision la rfit quan tr9ng va no co thS u6c tinh duQ'c cac tai li~u xSp h?ngdfru

X~p h~ng precision: chung ta tinh duQ'c gia tri precision t?i mQt vai vitri gi6i h?n Cho mQt cong C\! tim kiSm web, chung ta thuang tinh precisioncho top 5, 10, 15, 20, 25 va 30 nhung trang web duQ'c tra vS Chung ta giadinh r~ng cac trang co lien quan la han 30 TiSp theo vi d\! 1, chung ta cop(5)=805, p(lO)=70%, p(l5)=53%, va p(20)=40%

Chung ta nen luu y r~ng precision kh6ng phai la phuang phap duy nhfitxSp h?ng tim kiSm, dQ tin C?y va chfit lugng cua cac trang xSp hang dfru clingrfit quan tr9ng

F-score: MQt phuang phap danh gia khac cling thuang duQ'c su d\!ng

do la F-score Chung ta co thS tinh F-score t?i m6i vi tri gi6i h?n F-score lagia tri trung binh diSu hoa precision va recall

F(') = 2 = 2PCi)rCi)

1 -+-1 1 pIC.)+rC')I

ret) pet)

Trang 27

TIEN XU LY vAN BAN VATRANG WEB 23

••••••••••••••••••••••••••••••••••••••••• _ •••••••••••• _M ••••••••••••••• _._ , ••••••••••••••• _.~ ••••• _ •••••••••• , •••••••••••••••••••••••••• _ ••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••• _ •••••••••••••• _ ••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

ChU'O'ng 5 TIEN XULYVA.N BAN VA TRANG WEB

Truac khi cac t~tili~u trong bo suu t?P duQ'c su d\lng dS trich xufit, 1 s6cong vi~c ti~n xu ly thucmg duQ'c thvc hi~n D6i vai cac tai li~u van bimtruy~n th6ng ( khong g~n nhan HTML), cac cong vi~c lo~ti b6 til dUng, kSth<;ypcac til cling g6c, va xu ly ki tv s6, dfiu g~ch ngang, dfiu chfim, va cactruemg hQ'p cua cac ki tv D6i vai cac trang web, cac cong vi~c nhu lo~i b6nhan HTML va xac dinh cac kh6i nQi dung chinh cling doi h6i phai can nh~cc~n th?n Chung ta thao lu?n chung trong chuang nay

5.1. Lo~ibo tir du'ng

Tu dUng va cac til vo nghia thuemg xuyen xufit hi~n trong 1 ngon ngfrgiup xay dVng cac cau nhung khong d~i di~n cho bfit ki nQi dung cua cac taili~u Cac lo~i tu, giai tu, lien tu va 1 s6 d~i tu la Ung cu vien tv nhien Cac tudUng ph6 biSn trong tiSng Anh bao g6m: a, about, an, are, as, at, be, by, for,from, how, in, is, of, on, or, that, the, these, this, to, was, what, when, where,who, will, with Nhfrng tu nhu V?y cftn duQ'c lo~i b6 truac khi cac tai li~uduQ'c l?p chi m\lc va luu trfr Tu dUng trong truy vfin cling bi lo~i b6 truac khitrich xufit duQ'c thvc hi~n

5.2. K~thQ'p cae tir cung gBc

Trong nhi~u ngon ngfr, 1 tu co nhi~u cfiu truc cu phap khac nhau tliythuQc vao b6i canh rna no duQ'c su d\lng, Vi d\l, trong tiSng Anh, danh til cocfiu truc s6 nhi~u, dQng til co cfiu truc gerund (b~ng cach them ing) va cacdQng tu duQ'c su d\lllg trong thi qua khu khac nhau trong thi hi~n t~i Do duQ'cxem la cacbiSn thS cu phap cling 1 cfiu trUc g6c Cac biSn thS nay gay ra svl~p l~i cho 1 h~ th6ng trich xufit vi 1 tai li~u lien quan co thS chua biSn thS cua

1 truy vfin tu nhung khong chinh xac tu cua no Vfin d~ nay co thS la I phftn

xu ly b~ng cach kSt h<;ypcac tu cling g6c

K"the Q1Jcac u cung goc't" "d""e c~p en cae qua d" , 'tr'In•• glam •••leuh '? th'" cae't' ~U'co,

chung ngu6n g6c vai nhau G6c la 1 phftn cua 1 tu, co nghl'a la tu con l~i saukhi l~i b6 cac ti~n t6 va h?u t6 cua no Trang tiSng Anh, hftu hSt cac biSn thSduQ'c t~o ra til boi vi~c xufit hi~n cua cac h?u t6 (chu khong phai la ti~n t6).Nhu V?y, kSt h<;ypcac tu cling g6c thuong co nghia la lo~i b6 h?u t6 ho~c tach

Trang 28

TIEN XU LY vAN BAN VATRANG WEB 24

••••••••••••••••••••••••••••• _ •••••••••••••••••••••••••••••••••••••••••••••• H •••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

khuon m~u Vi d\l, "computer", "computing", va "compute" duQ'c rut g<;mthanh "comput" "Walks", "walking", "walker" duQ'c rut g<;mthanh "walk".K~t hgp cac tu cling g6c cho ph6p cac bi~n thS khac nhau cua tu duQ'c dinnh~c dS trich xufit, cai thi~n vi~c l~p l~i Co 1 s6 thu?t toan k~t hgp cac tucling g6c, con duQ'c gQi la stemmers Trong ti~ng Anh, thu?t toan ph6 bi~nnhfit co Ie la thu?t toan cua Martin Porter, sir d\lng 1 bQ quy t~c k~t hgp cac tu

,

cling goc

Trong nhung nam qua, nhiSu nha nghien Clm dil danh gia vSuu, nhuQ'cdiSm cua vi~c sir d\lng k~t hgp cac tir cling g6c R5 rang, k~t hgp cac tir clingg6c lam tang vi~c gQi l~i va rut gQn kich thu6c cfiu truc chi m\lc Tuy nhien

no co thS gay hu h~i vi nhiSu tai li~u khong lien quan co thS duQ'c xem la colien quan Vi d\l, ca "cop" (canh sat) va "cope" (d6i ph6) dSu duQ'c giamxu6ng g6c cop Tuy nhien, n~u 1 ai d6 tim ki~m cac tai li~u vS cop, 1 tai li~uchi c~n chua cope la khong co lien quan M~c dli rfit nhiSu thi nghi~m duQ'cti~n hanh boi cac nha nghien ctru, v~n khong co chUng cu thuy~t ph\lc nao

hay k~t lu?n khac Trong thlJc t~, nguai ta nen sir dvng cac bQ suu t?P tai li~u

b~ng tay dS xem m~c dli dil c6 SlJ trQ' giup cua phuong phap k~t hgp cac tu,cling goc

Lu?n van nay sir d\lng thu?t toan Porter Stemming dS dua cac tu vS tu,

cling goc

Cac leY tlJ A, E, I, 0, U duQ'c coi la mQt nguyen am Cac ky tlJ con l~i

duQ'cxem la ph\l am Vi d\l nhu tir TOY, ph\l am la T va Y Nguyen am la O

MQt ph\l am se duQ'c ki hi~u la c, ph\l am ki hi~u la v MQt danh sachph\l am ccc se duQ'c ki hi~u la C, danh sach nguyen am vvv duQ'c ki hi~u la V

V 6i bfit ki tu nao cling duQ'c cling duQ'c cfiu t~o tir 1 trong 4 d~ng sau day:

CVCV C

cvcv v

Trang 29

TIEN xV LY vAN BAN VATRANG WEB 25

m duqc gQihi measure (thuGe aD) cua bgt k5' ttl' ho~c mQt ph~n cua tu khi

biSu di~n b~ng hinh thuc nay TruOng hqp m =0 bao g6m cac tu khong co giatrio Duai day la mQt s6 vi d\l:

m =0 TR, EE, TREE, Y, BY

m = 1 TROUBLE, OATS, TREES, IVY

m =2 TROUBLES, PRIVATE, OATEN, ORRERY

Cac quy t~c dS 10?i b6 mQt h~u t6 se duqc dua ra duai hinh thuc

(di~u ki~n) S 1 -7 S2

f)i~u nay co nghla r~ng n~u mQt tu k~t thuc vai cac h~u t6 Siva cac g6c truac

khi S 1 dap ung cac di~u ki~n nhgt dinh, S 1 se duqc thay th~ b~ng S2 f)i~uki~n nay thmJng duqc dua ra trong cac di~u khoan cua m, vi d\l nhu:

(m> 1) EMENT-7

Co S 1 hi "EMENT" va S2 la khong co gia trio f)i~u nay se chuySnREPLACEMENT thanh REPLAC, REPLAC la mQt ph~n tu rna co m=2

MQt ph~n di~u ki~n cling bao g6m cac ph~n sau day:

*S - g6c k~t thuc b~ng S (va tuO'ng tv cho cac chfr cai khac)

*v* - g6c co chua nguyen am

*d - g6c k~t thuc b~ng mQt ph\l am kep (vi d\l: -'1'1', -SS)

*0 - g6c k~t thuc b~ng cvc, rna 6' chfr c thtl' 2 khong phai la cac tu W,

X ho~c Y (vi d\l: -WIL, -HOP)

Trang 30

TIEN XU LYvAN BAN VATRANG WEB 26

Trang 31

TIEN XU LY vAN BAN VA TRANG WEB 27

(m= 1 and *0) -7 E

-7 I kY tv hopp(ing) -7 hop

tann(ed) -7 tanfall(ing) -7 fallhiss(ing) -7 hissfizz(ing) -7 fizzfail(ing) -7 failfil(ing) -7 fileLu~t dS chuySn v~ m<?tki tv gay ra vi~c b6 m<?ttrong nhfrng C?P tir kep

E dugc d?t tr& l~i -AT, -BL, -IZ, dS cac h~u t6 -ATE, -BLE va -IZE co thSdugc chftp nh~n sau nay Ki tv E co thS dugc lo~i b6 &cac buac sau

Trang 32

TIEN xvLYvAN BAN VATRANG WEB

•••••••••••••••••• _••••••••• •• H •• M •••• •••••••••••• •• •• _ •••• _••••••••••• H •• _ •• _ ••••••••••••••••••••• H •••••• H._ •••• H • ••••••••••••••••••••••••••• H._._ • _.H •••• _ , •.• _••••••••••••••••••••••• _ ••

(m> 0) ATIONAL -7 ATE relational -7 relate

(m> 0) TIONAL -7 TION conditional -7 condition

rational -7 rational(m> 0) ENCI -7 ENCE valenci -7 valence

(m> 0) ANCI -7 ANCE hesitanci -7 hesitance

(m> 0) IZER -7IZE digitizer -7 digitize

(m> 0) ABLI -7 ABLE conformabli -7 conformable

(m> 0) ALLI -7 AL radicalli -7 radical

(m> 0) ENTLI -7 ENT differentli -7 different

(m> 0) OUSLI -70US analogousli -7 analogousli

(m> 0) IZATION -7IZE vietnamization -7 vietnamize(m> 0) ATION -7 ATE predication -7 predicate

(m> 0) ATOR -7 ATE operator -7 operate

(m> 0) ALISM -7 AL feudalism -7 feudal

(m> 0) IVENESS -7IVE decisiveness -7 decisive

(m> 0) FULNESS -7 FUL hopefulness -7 hopeful

(m> 0) OUSNESS -70US callousness -7 callous

(m> 0) ALITI -7 AL formaliti -7 formal

(m> 0) IVITI -7IVE sensitiviti -7 sensitive

(m> 0) BILITI -7 BLE sensibiliti -7 sensible

BU'O'c 3:

(m> 0) ICATE -7IC triplicate -7 triplic

28

Trang 33

TIEN XU LY vAN BAN VA TRANG WEB

•••• _ •••••••••••••••••••••••••••••••••• _ • •••••••••••••••••••••••••••••• _ •• ••• •• _ •••••• •••• • •••••••••••••••••••••••• _ ••• ~ •••••• _ •••••••••••••• H ••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••• _ •••••••••

(m> 0) ICITI ~ IC electriciti ~ electric

(m> 0) ICAL ~ IC electrical ~ electric

Brro'c 4:

(m> 1) EMENT -7 replacement ~ replac

(m> 1 and (*S or *T)) ION -7 adoption ~ adopt

29

Trang 34

TIEN XU LYvAN BAN VATRANG WEB 30

bowdlerize -7 bowdler

homologous -7 homolog(m> 1) OUS

(m> 1) lVE

(m> 1) lZE

-7-7-7

5.3 Cac cong vi~c ti~n xii'Iy khac cho van ban

Chfr s6: cac s6 va term co chua chfr s6 duQ'c lo~i bo trong h~ th6ng lRtruySn th6ng ngo~i trir 1 s6 lo~i C\lthS, vi d\l nhu ngay-thang-nam, gia, va cac10~i dinh s~n khac duQ'c thS hi~n v6i cac biSu thuc binh thuang Tuy nhien,trong cong ngh~ tim kiSm, hQ thuang l~p chi m\lc

D<1ug~ch ngang: g~ch n6i thuang duQ'c ap d\lng dS giai quySt v6i S\Ikhong nh<1tquan Vi d\l, 1 s6 nguai dung "state-of-the-art", nhung 1 s6 khacdung "state of the art" NSu d<1ug~ch ngang trong truang hQ'p dc1utien duQ'clo~i bo, chung ta lo~i trir v<1ndS khong nh<1tquan Tuy nhien, 1 s6 tu co d<1ug~ch ngang la 1 phc1ncua tir do, vi d\l "Y-21" Do v~y, nhin chung h~ th6ng

co thS theo 1 lu~t chung (vi d\l, lo~i bo t<1tca cac d<1ug~ch ngang) va cling co

1 s6 ngo~i l~ Luu y r~ng, co 2 d~ng lo~i bo, nghia la, (1) m6i d<1ug~ch ngangduQ'c thay thS b~ng 1 khoang tr~ng va (2) m6i d<1ug~ch ngang duQ'c lo~i bodan gian rna khong cc1nkhoang tr~ng thay thS, vi thS "state-of-the-art" co thSduQ'c thay thS bai "state of the art" ho~c "stateoftheart" Trang 1 s6 h~ th6ng

ca 2 hinh thuc dSu duQ'cl~p chi m\lc vi kho dS quySt dinh hinh thuc nao dung

Vi d\l, if "pre-processing" duQ'c chuySn thanh "pre processing", sau do 1 s6

Trang 35

TIEN xU' LY vAN BAN VA TRANG WEB 31

trang lien quan se khong duqc tim th~y nSu thu~t ngfr truy v~n hi

"preprocessing"

Pnnctntion Marks: d~u ch~m diu co thS giai quySt cac v~n d~ tuang

t\1'nhu d~u cach g~ch ngang

Truang hqp cua cac chfr cai: t~t ca cae chfr cai thuang duqc chuySnsang hoa ho?c thuang

5.4 Ti~n xu ly trang web

Cac trang web khac nhau til' cac tai Ii~u van ban truy~n th6ng Do v~y,them cac ti~n xu Iy Ia c~n thiSt Chung toi mo ta I s6 ti~n xu Iy sau day

5.4.1 Xac djnh cac trU'O'ng van ban khac nhan:

Trong HTML co nhi~u truang van ban khac nhau, vi d\l, tieu d~, nQidung Xac dinh chung cho phep h~ th6ng ti~n xu Iy, xu Iy cac terms trongcac truang khac nhau, khac nhau Vi d\l, trong cong ngh~ tim kiSm, term rnaxu~t hi~n trong tieu d~ trang web duqc coi Ia quan tr9ng han so v6i cac termkhac trong cac truang khac va duqc chi dinh tr9ng s6 cao han vi tieu d~thuang Ia mo ta ng~n g9n cua trang 6 ph~n nQi dung, I s6 term duqc nh~nm~nh (vi d\l nder header tags <h I>, <112>, , bold tag <b» cling duqc nh~ntr9ng s6 cao han

5.4.2 Xac djnh van ban anchor

Van ban anchor kSt hqp v6i I hyperlink duqc xu Iy d?c bi~t trong congngh~ tim kiSm vi cac van ban anchor d~i di~n cho I mo ta chinh xac cua

thong tin chua trong trang web tr6 dSn link cua no Trong truang hqp do,

hyperlink tr6 t6i I trang ben ngoai (khong phai trong cling I trang web), no Iagia tri d?c bi~t vi no Ia I mo ta tom t~t cua trang duqc dua ra b6i nhfrng nguaikhac chu khong phai Ia tac giaJchu sO'hiiu trang, va vi v~y dang tin c~y

5.4.3 Lo~i bo cac the HTML

Vi~c Io~i b6 cac the HTML co thS duqc xu Iy tuang t\1'nhu d~u ch~mdiu MQt v~n d~ c~n duqc xem xet c~n th~n, anh huang cac truy v~n Ian c~n

va c\lm troy v~n HTLM v6n Ia I ngon ngU' trinh bay tf\l'Cquan Trong I trangthuang m~i diSn hinh, thong tin duqc trinh bay trong nhi~u kh6i hinh chfrnh~t (hinh 6) Lo~i b6 cae the HTML dan gian co thS gay ra I s6 v~n d~ b~ng

Trang 36

TIEN xV LYvAN BAN VATRANG WEB 32

cach n6i van b~mdang Ie khong nen n6i Chung co thS gay ra 1 s6 v~n dS chocac c\lm troy v~n va troy v~n Ian c?n V~n dS nay da khong dugc xu ly thoadang boi cac cong ngh~ tim kiSm t~i thai diSm cu6n sach nay dugc viSt

FJip(jf(JC M, cultivated for ill fro Which Is lISU tly dlled

and used 8S a spiced seasoning 81 ck pepper Is

native 10 sou em India and is a1enslvely c II d

amaOdrop milUmtfr" In di m I f, d k red Wh n ullym ture, containing a slngt seed,Oried.snd ground pepper Is one oHM most , common spf S In European cuisIne nd Its descendants, haVIng been

Imown and pm chine antlqUi'tffOt bc Its1lavour d 1$useaa a

m d lne The 8p eln"i oft/lack p ppr Is due to the c m cal plperme.

OfOUttdb ackpeppereorn usuallyre(e d to simply as "pepper msy be

ound on n affy rvdlnn (tabl In som partsof e world, oftenatongs de lt$ fr qu t compnlon, table soil

Recentlyfi atured;Acetie acid - Ro~ P rks- Flag of Hong Kong

Archive - By -More fieattlroo

ffinh 6 M(jt vi dZjeua 1 trang web tit Wikipedia

5.4.4 Xac djnh cae kh6i n{)idung chinh

MQt trang web diSn hinh, d~c bi~t la web thuang m~i, chua 1 s6 lugngIan thong tin rna khong ph~lila 1 ph~n nQi dung chinh trang web Vi d\l, no cothS chua banner quang cao, thanh diSu hu6ng, thong bao ban quySn, co thSd~n dSn kSt qua tim kiSm it oi cho vi~c tim kiSm va khai thac a hinh 6, kh6inQi dung chinh cua trang web la kh6i chua "Today's featured article" No

khong mong mu6n dugc chi m\lc van ban anchor of cac link diSu huang nhu

1 ph~n nQi dung cua trang MQt s6 nha nghien cuu da nghien Clm v~n dS vS

Trang 37

TIEN xvLY vAN BAN VATRANG WEB

•••• ••• •••••••• _ •••••••••••••• H ••••••••••••••••••••• _•••••••• •• •••• _ •••••••••• _ ••• •••••••••••• _ •• _ •• •• H •• •• ••• M •• _ ••• H •••• H •••••••••••••••••••••••••••••••••••••••••••••••••••••••• ,.' ••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••.•.••••••••••••••••••••••••••••••••••••••••••••••••••••••• _ ••_ •••••••••••••••• 33

xac dinh cac kh6i nQi dung chinh HQ da chi ra r~ng cac k~t qua tim ki~m vakhai thac dfr li~u co thS duQ'c cai thi~n dang kS n~u chi cac kh6i nQi dungchinh duQ'c su d\IDg Chung ta thao lu~n tom t~t vS 2 ki thu~t cho vi~c timki~m cac kh6i do trong trang web

Phan vimg d1!a tren cac tin hi?u tr1!c quan: phuang phap nay su d\lng

thong tin tn,rc quan dS hB trQ'tim ki~m cac kh6i nQi dung chinh trong 1 trang.Thong tin tr\fC quan hay thong tin bi~n d6i cua mBi phAn tu HTML trong 1trang co thS duQ'c thu duQ'c til trinh duy~t web Vi d\l Internet Explore cungc~p 1 API co th~ xu~t ra tQa dQ X va Y cua mBi phAn tu

Cay kit h9P: phuang phap nay duQ'c d\fa tren quan sat r~ng trong hAu

h~t cac trang web thuang m~i duQ'c t~o ra b~ng cach su d\lng 1 s6 m~u c6dinh Vi th~ phuang phap nh~m m\lc dich tim th~y cac m~u ~n nhu v~y Tilkhi HTML co c~u truc l6ng nhau, no dS dang dS xay d\fllg 1 cay cho mBitrang Cay k~t hgp cua nhiSu trang til cling 1 trang web co thS hinh thanh dStim cac m~u nhu v~y Trong chuang 9, chung toi se mo ta thu~t toan cay k~thgp cho m\lc dich nay MQt khi m~u duQ'c tim th~y, chung ta co thS xac dinhcac kh6i co thS se la cac kh6i nQi dung chinh d\fa tren S\f quan sat sau day:cac van ban trong cac kh6i nQi dung chinh thuemg kha khac nhau tren kh~pcac trang khac nhau cua cling 1 m~u US xac dinh S\ftuang t\f van ban cua cackh6i tuang ung (trong do co cay con), phuang phap shingle mo ta trongchuang ti~p theo co thS duQ'c su d\lng

5.5 Phiit hi~n ban sao

Ban sao cua tai li~u ho?c cac trang khong phai 1a mQt v~n dS trong IRtruySn th6ng Tuy nhien, trong b6i canh cua web, no 1a mQt v~n dS quan trQng

Co nhiSu lo~i khac nhau cua vi~c nhan ban cac trang va nQi dung tren Web

Sao chep mQt trang hay con gQi 1a nhan rQng, sao chep toan bQ mQttrang web duQ'c gQi 1anhan ban web Ban sao cac trang va cac trang web nhanban thuang duQ'c su d\lng dS nang cao hi~u qua cua trinh duy~t va tai t~p tin

vS tren toan th~ gi6i, do bang thong h~n ch~ gifra cac vi tri dia 1y khac nhau.Vi~c phat hi~n cac trang web co thS lam giam kich thu6c chi m\lc va cai thi~nk~t qua tim ki~m

Trang 38

TIEN XU LY vAN BAN VATRANG WEB

".

MQt s6 phuang phap co thS duqc su d\lllg dS tim thong tin trimg I~p.Phuang phap dan gifm nh~t lei su d\lllg cac ham bam, vi d\l, b~ng cach sud\lllg thu?t toan MD5, ho~c tlnh toan mQt s6 luqng t6ng hqp Tuy nhien,nhfrng phuang phap nay chi hfru ich cho vi~c phat hi~n ban sao chinh xac.Tren Web, nguai ta hiSm khi tim th~y ban sao chinh xac.Vi d\l, ngay ca cactrang web nhan ban, khac nhau co thS la cac URL, trang chu Web khac nhau,thong tin lien I~c khac nhau, quang cao khac nhau cho phil hqp vai nhu cfiutung naL

MQt ki thu?t hi~u qua nua dS phat hi~n triIng I~p do la dva vao n-grams

MQt n-gram la mQt chu6i cac til' dan gian cua mQt kich thuac n c6 dinh.

Cho Sn(d) la bQ d~c bi~t cua n-gram chua trong tai li~u d M6i n-gram

co thS duqc rna hoa v6'i mQt s6 ho~c mQt bang bam MD5 Cho n-gram biSu

diSn 2 tai li~u d j va d 2 , Sn(d j) va Sn(d j) h~ s6 Jaccard co thS duqc su d\lng dStinh toan sv gi6ng nhau cua hai tai li~u

(24)

Nguang duqc su d\lng dS xac djnh xem d j va d 2 co thS la ban sao cua

nhau D6i vai mQt trng d\lng C\l thS, kich thuac cua s6 n va nguang tuang tv

duqc Iva ch<;mthong qua thvc nghi~m

Trang 39

CHi Ml)C NGHICH DAa VANEN

ChU'O'ng6 CHi MVC NGHICH DAo vA NEN

35

Phuong phap co ban cua web search va IR truy~n th6ng la tim cac taili~u co chua term trong cau truy vfrn cua nguai dung Cho mQt cau truy vfrn,mQt h,ra chQn do la duy~t qua tM ca cac tai li~u trong co sa dfr li~u mQt cachtufin t\f dS tim cac tai li~u co chua thu~t ngfr truy vfrn Tuy nhien, phuongphap nay ro rang la khong th\fc tS cho mQt bQ tai li~u IOn MQt l\fa chQn khac

do la xay d\fllg mQt s6 cfru trUc dfr li~u tir bQ suu t~p tai li~u dS tang t6c dQtrich xufrt van ban Co nhi~u phuong an cho vi~c danh dfru chi s6 cho van ban.Inverted Index la la mQt phuong phap dft thS hi~n dugc S\fvugt trQi so v6i hfiuhSt cac chuong trinh l~p chi m\lc khac, do la mQt phuong phap ph6 biSn Vi~cl~p chi m\lc nay khong chi cho phep trich xufrt hi~u qua cac tai li~u co chuathu~t ngfr truy vfrn rna con rfrt nhanh trong vi~c xay d\fllg

6.1 Chi sa dao ngU'Q'c(Inverted Index)

Cac chi s6 dao ngugc cua mQt bQ suu t~p tai li~u co ban la mQt cfru trUcdfr li~u g~n v6i tUng term d?c bi~t v6i mQt danh sach cua tfrt ca cac tai li~u cochua cac thu~t ngfr Nhu v~y,trich xufrt phai mfrt thai gian lien t\lC dS tim cactai li~u co chua mQt thu~t ngfr truy vfrn Tim tai li~u co chua nhi~u thu~t ngfrtruy vfrn cling dS dang nhu chung ta se thfry sau day

v6i mQt t~p hgp cac tai li~u,D = {d1, d2, • , d,zJ,va m6i tai li~u co mQt

dinh danh (ID) duy nhfrt MQt chi s6 dao ngugc bao g6m hai phfin: tir v\fllg V,

co chua tfrt ca cac di~u khoan rieng bi~t trong bQ tai li~u, va cho m6i term t j

phan bi~t cua inverted list M6i ID dang ki (ky hi~u la id j) cua tai li~u d j co

chua term t j va cac phfin khac cua thong tin v~ term t j trong tai li~u 0. TuythuQc vao S\f cfin thiSt cua vi~c trich xufrt ho?c thu~t toan xSp h~ng rna co thSbao g6m cac phfin thong tin khac nhau Vi d\l, dS h6 trg tim kiSm c\lm tir va

proximity, mQt bai viSt cho mQt term t j thuang bao g6m nhfrng di~u sau day

V 6i id j la ID cua tai li~u 0chu term tj , Ii} la tfin s6 cua tj trong d j,Ok la

vi tri Clla term t j trong d j •

Trang 40

CHi Ml)C NGHICH DAa VANEN

••••••••••••••••••••••••••••••••••••••• • ••••••••••••••• H •••_ •• •••_.H •• ••••• H ••••••••••••• _.•••••••••••••••••••••• • ••••••••••••••••••• H •••_ ••••••••.••• _" _ • • ••• •••• _ •• _••••••• _ ••• _,_ • 36

Posting clla mQt thu~t ngfr dlJa tren s~p xSp theo thu tlJ tang dfin clla id j

va nhu v~y la vi tri trong m6i lfin post DiSu nay t~o diSu ki~n nen clla chi s6nguQ'c

Vi d1]3: Chung ta co 3 tai li~u id], ida, id 3

id): Web mining is useful

Cac s6 phia du6i m6i tai li~u la vi tri Cllam6i tu Tu VlJllgla bQ:

{Web, mining, useful, applications, usage, structure, studies,

ffinh 7 Hai chi s6 dao ngu(Jc: M9t han dan gian va m9t him phuc tr;tp

Hinh 7(A) la ban dan gian, 7(B) la ban phuc t~p, m6i term duQ'c g~nv6i mQt danh sach dao nguQ'c Clla ca ID Clla cac tai li~u co chua thu~t ngfr

Danh sach dao nguQ'c hinh 7(B) phuc t~p han vi n6 chua thong tin b6 sung d6

la tfin s6 clla cac thu~t ngfr va vi tri Clla no trong tai li~u Luu y r~ng chung ta

S11d\mg id; nhu tfli li~u IDs d~ phan bi~t chung tu hi~u s6 Trong thlJc tS,

chung co th~ la s6 nguyen duang CUng luu y r~ng mQt bai co th~ chua caclo~i thong tin khac nhau tuy thuQc vao SlJcfin thiSt phai rut trich ho?c tuy vaocac thu~t toan tim kiSm

Ngày đăng: 01/09/2023, 22:02

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w