Luận văn cá nhân hóa tìm kiếm sử dụng các kỹ thuật học máy

Điều nảy liên quan chặt ch dễn tối ưu hóa công cụ tim kiếm SEO, thường duce goi là "quá trình cải thiện khã năng hiển thị của nội dung trang web trong kết quá tìm kiểm." “Tuy nhiên một k

Trang 1

TRƯỜNG DẠI HỌC BÁCH KIIOA IIÀ NỘI

LUẬN VĂN THẠC SĨ

Cá nhân hóa tìm kiếm sử dụng các kỹ

thuật học máy

CAO HÀ VĨNH

Ngành Công nghệ thông tin

Giảng viên hưởng din: TS, Tran Hải Anh

Công nghệ thông tin và truyền thng

HA NOI, 2021

Trang 2

TRUONG BAI HOC BACH KHOA HA NOT

LUAN VAN THAC Si

Cá nhân hóa tìm kiếm sử dụng các kỹ

thuật học máy

CAO HÀ VĨNH

Ngành Công nghệ thông tin

Giảng viên hưởng dẫn: 1S Trần Hải Anh

“Chủ ky cia GVHD

HÀ NỘI, 2021

Trang 3

CONG HOA XA HỘI CHỦ NGHĨA VIỆT NAM

Độc lập — Tự do — Hạnh phức

BẢN XÁC NHẬN CHÍNH SỬA LUẬN VĂN THẠC SĨ

Tio va tén tac giá luận văn: Cao Hà Vĩnh

4 nhân hóa tìm kiếm sử dụng các kỹ thuật học máy

Đề tài luận văn:

Chuyên ngành: Mạng máy tính và An toàn thông tin

Ma so HV: CBL80206

‘Tae gia, Người hướng dan khoa học và Héi déng chm luận văn xác nhận tác giả dã sửa chửa, bỗ sung luận vẫn theo biên bản họp Hội dồng ngày

27/04/2021 với các nội dụng sau:

nột số thuật loán học để xếp hạng khác nhan:

«© Bổ sung gidi th

«_ Bổ sung tham số cài đặt, mé ta dir ligu hudn Iuyén thuat toan SVM

«œ Bổ sung, chỉnh sửa các lưn chế và hưởng phát triển ở phần kết luận

Ngàp thẳng nềm 2021

CHỦ TỊCH HỘI ĐÓNG

PGS.TS Nguyễn Linh Giang

Trang 4

'Tôi cũng xim gửi lời cám ơn tới Trường Đại hoe Bach khoa Hà Nội, tới các

thầy cô tại Viên CNTTK&TT và bộ môn Truyền thông & Mạng máy tính đã truyền đạt cho tôi những kiến thức chuyên sáu về chuyên ngành trong suốt thời gian học tập đề tôi có những nên tảng kiến thức hỗ trợ cho tôi trong quá trình làm luận văn

thac si

Luan vin dược tải trợ bởi Qui Phát triển khoa học va công nghệ Quốc gia (NATOSTED) trong đề tài mã số 102.02-2019.314

Xin chan thanh câm ơn!

Hà Nội ngày thang năm 2021

Tae gid

Cao Ha Vink

Trang 5

MỤC LỤC

DANH MUC THUAT NGU VIET TAT

LOT NOT BAU

CHUONG 1, M6 BAU

11 Giới thiệt

1.2 Giới thiệu về hệ thống công cụ tìm kiếm -

1.3 Lich sử phát triển hệ thống tìm kiểm

1.4 Kiến trúc và các bộ phận cấu thành của hệ thống công cu tim

1.5 Giới thiệu về cá nhân hóa

1.5.1 Giới thiệu về cá nhân hỏa tìm kiếm -

CHUONG 2 TÔNG QUAN CÁC KỸ THUẬT TÌM KIEM Vi (Ngb DUNG CA

NLLAN HOA CO SỬ DỤNG HỌC MÁY óc sec "¬

2.1 Các mô hình xếp hạng thông thường, ọcrreereecevaoev Ð

2.3.3 Phương pháp Pairwise và thuật loán SVMRark - 20

3.3.6 Mô hình đặt ra cho hệ thống cá nhân hóa 23 CHUONG 3, PHAN TICH THIRT KR VA TRIFN KHAT HR THONG TIM

3.1 Mô hình tổng quan và kiến trúc hệ thông seo 26

3.2.2 Chức năng Indexing JGD ceeeeeeoeeoue.E

Trang 6

3.2.4 Chie nang Search slatishes 30

3.5 Thiết kế Runner (Crawler) cà niiiereeeiee "—

CHƯƠNG 4 KẾT QUẢ THỦ NGHIỆM VÀ ĐÁNH GIÁ ¬ 4.1 Triển khai hệ thống thử nghiệm cccecee ¬—-

4.1.1 Mô hình triển khai à.cncieeeeieeree _

4.1.2 Cầu hinh thứ nghiệm . o2 2 2v erertrrrrrrrrerrree Ad

4.2.1 Lập chỉ mục nội dung website hiện tại 49

Trang 8

DANH MUC HiNH VE Hình 1.1 Mô hình tham khảo kiến trúc của hệ thống tim kiếm Google, theo

Tình 1.2 Ví dụ về cá nhân hóa ni erriirriirrrrree ¬ TE

Hinh 2.1 Danh sách một số sân pham st dung Elasticscarch 14

Hình 2.3 Ví dụ vẻ kiến trúc của một Elasticscarch cluster " -

Hình 2.3 Ví dụ mô tã vẻ Elasticsearch shard va replicas ~ - TẾ

Hình 2.4 Sơ dễ dơn giản một hệ thống cá nhân hóa tìm kiểm wld

Tlinh 3.7 So dé hoạt động Request Arthentication icee 32 Linh 3.8 So dé hoat ding Request Traoking ~ee 34 Tinh 3.9 Mô hình theo dõi lịch sử truy vẫn của Personalization servioe 35 Linh 3.10 Mô hình học đề xếp hạng của Personalization serviee 35 Tĩỉnh 3.11 Ví đụ về danh sách đánh giá - -.36 Hình 3.12 Vector đặc trưng cho việc huấn luyện học để xếp hạng -.37

Hình 3.13 Một kết quả trọng số cáo đặc trưng cơ bản sau khi được huận lưyện bằng

Hình 3.14 Sơ đồ hoạt động Request routing forwarding - Al Hình 3.15 Sơ đã hoại động Surcam service - - S 42 Hinh 3.16 So dé hoat déng Ingest Function - AB

Hình 318 Sơ đã thiết slicseach cluster - 7

Hình 41 Kiến trúc hệ thống tìm kiếm triển khai thử nghiệm trên Avure 48

Hình 4.3 Kết quả 1 lần mdex toàn bộ website :s sec SỐ,

Hình 4.5 Kết quả thở ngÌiễm trên k6 io - 32

Tình 4.8 Kết quả tìm kiếm sau khi truy cập vào một số trang ngẫu nhiê

iv

Trang 9

DANH MUC THUAT NGU VIET TAT

IR Truy xuat thong tin — Information Retrieval

SaaS Phan mềm đạng địch vụ, là một mô hình điện toán đảm mây

— Software as a Service

SEO Tôi ưu hỏa céng cu tim kiém — Search Engine Optimization

L2R/LTR [Hoc đểxép hạng hoặc xếp hạng học mảy ~Leaming torank

VM Mây ảo, một trình giả lập một hệ thông máy tỉnh — Virtual

Machine VMSS Một tập hợp các máy ao giong nhau cd kha nang nhan ban

dé mo réng quy m6 — Virtual Machine scale set

BM25 Một hàm tỉnh thử hạng được sử dụng đề xếp hạng các văn

ban — Best matching CRUD Bon chute nang co ban ctia lu trit lién tue — Create, Read, Update, Delete

Trang 10

TÔI NÓI ĐẦU

doanh nghiệp, giữ khách truy cập ở đó và khiến họ hoán thành một hành động,

chẳng hạn như dăng ký hoặc mua sắm Điều nảy liên quan chặt ch dễn tối ưu hóa công cụ tim kiếm (SEO), thường duce goi là "quá trình cải thiện khã năng hiển thị của nội dung trang web trong kết quá tìm kiểm."

“Tuy nhiên một khỏ khăn của các đoanh nghiệp, đỏ là khả năng triển khai nhanh chóng một chức năng tim kiểm phủ hợp với mục dich sử dụng của doanh: nghiệp Những công cụ tìm kiểm phổ biến như Google, Bing là những hệ thống tin kiếm độc quyền thương mại, mã nguồn đông Các doanh nghiệp không thể tếp cận tới các giải pháp tìm kiểm độc quyền thương mại như vậy chỉ đề tích hợp với

hệ thông của chính minh Irong khi đỏ các nên tảng, thư viện tim kiểm miễn phi

và mã nguồn mở lại có yêu câu phúc tạp trong việc tích hợp và triển khai

VÌ vậy việc xây dựng một công cụ tìm kiếm dạng dịch vụ (SaaS) hỗ trợ khá

tràng tích hợp, cho phép các nha phát triển xây dụng các trải nghiệm tim kiểm trên

các trang web, các mang nội đun, các hệ thông bất kỳ nào có các đạng nội dung văn bản là nhụ câu thực tế Điều này mang đến trải nghiêm đồng nhất và tắt hơn

cho người dùng cuối, thú vị hơn chờ nhà phát triển, giầm bởi gánh nặng triển khai

và quản lý cho nhà quân trị, giúp chủ kỳ phát triển sản phẩm ngắn hơn vả tiết kiệm chỉ phí

Giải quyết vẫn đề

Luin vin đưa ra một số giải pháp và xây dựng mô hình thực tế một công eu tìm kiểm có ứng dung ca nhân hóa đạng dịch vụ, lần hiểu và kế! hợp các công trghệ như Blastie‹

Tnô tã và thiết kế một số tính năng hỗ trợ việo tối ưu hỏa trai nghiém tìm kiếm của

Trang 11

"Tên đề tải luận văn

Cá nhân hóa tìm kiếm sử dụng các kỹ thuật Học máy

Lua chon gidi phap

Sử dụng Elasticsearch kết hợp việc phát triển cac plugin, microservice va servicc của bên thứ 3 đẻ phát triển các tình năng chủ chốt cho hề thông dich vu tim kiếm có áp dụng cả nhân hoa

Các bước thực hiện

œ_ Từn hiểu về hệ truy suất thông tim, công cự tìm kiểm, các muô hình công cự tìm kiểm cơ bản, cá nhân hóa vả tng đụng của cá nhân hóa

* Gidi thiguvé Apache Lucene, Elasticsearch và một vài tìm hiểu về kỹ thuật

học máy cho cá nhàn hóa

«Thiết kế, xây dựng hệ thống dịch vụ tìm ki

« _ Triển khai và đánh giá thử nghiệm hệ thông tìm kiếm

Các công việc đã hoàn thành

có ứng dụng cá nhân hóa

«- Nghiên củu, lìm hiểu lý thuyết về hệ thông tim kiểm, kỹ thuật cá nhân hóa,

học để xếp hạng (leaming to rank), một số phương pháp học để xếp hạng

và mô hình ứng dụng học máy vào cá nhân hóa

« _ Xây dựng và phát triển một hệ thống tìm kiểm tích hợp dịch vụ cá nhân hóa

só sử dựng học máy

œ- Triển khi sẩn phẩm thực tế và thử rglriệm hiệu suất địch vụ

‘Luan văn dược chía ra làm 4 chương cụ thể như sau

Trang 12

CHUONG 1 M6 PAU

11 Giới thiệu vé Information Retrieval

Truy xuất thông lin hay truy vẫn thông tin là cách tổ chức trình bảy, lưu trữ

và tray cập các mục thông tin Vigo midu tả và tổ chức thông tin phải theo cách mà

người dừng có Ủ

truy cập thông tín đáp ứng nhủ câu của mình Hay nói cách

khác, truy xuất thông tin là hoạt động thu thập tài nguyên hệ thống thông tin có liên quan đến nhụ cầu thông tín từ tập hợp các nguồn lông tím Các tìm kiếm có

thể dựa trên từn kiếm toán văn bản hoặc các chỉ mục

TR là một khoa học tìm kiểm thông tin trong tài liệu, tìm kiểm tải liệu, siêu

dữ liệu mô tá dữ liệu và cho cơ sở đữ liệu văn bán, hình ảnh hoặc âm thanh

Một tính năng khác của truy xuất thông tin là nó không thực sự nạp tải liệu, zmà có thể chí thông báo cho người dùng về sự tên tại và nơi luu trữ các tài liệu liên quan dén câu truy vẫn

1Iệ thống truy xuất thông tín thường được thực hiện qua những giai đoạn sau: øCrawler: hệ thẳng tự động phân tích đữ liệu từ nguồn nội dung sau đó bóc

tách đữ liệu, thông tin cản thiết theo tiêu chí, y của hệ thống

Index: 6 giai đoạn này, người dung sir dung một câu truy vấn phi cầu trúc,

hệ thống phân tích cú pháp (tokenization) thành câu truy vấn hệ thông có thể hiểu

được Hệ thông truy xuất thông tin có thê chất văn, đối chiêu tìm ra thông tin tỉm

kiểm hoặc liên quan Các thủ tục được dừng đề quyết định cáo yếu tế thông tin có liên quan đền câu truy vấn đều đựa trên biểu diễn của các câu truy vẫn vả các yến

tổ thông tin có chúa các thành phân ngôn ngữ chỉ mụe (ndex)

eRanking: hệ thông trả về cho người dùng những tải liệu, chỉ raục iên quan được xếp theo mức độ liên quan, tâm quan trọng dựa vào câu truy vấn

øRelevance Feeđbaclc: là một trong những cách tính chính thứ hạng công cụ

tim kiếm một cách cỗ điển nhất Hệ thống đưa ra thử tự liên quan của truy vấn,

người đùng lựa chọn các bản ghỉ phù hợp với bản thân Hệ thống ghi nhận và cải

thiện bản xếp hạng của mình

Các công cụ từn kiếm trên web là các ứng đụng TR dễ thấy nhậL

1.2 Giới thiệu về hệ thống công cụ am kiếm

Trang 13

(đôi khi được gợi là lẫn truy cập) Cáu lần truy cập có thể bao gồm các trang: web, các loại tệp tin vả hình ânh khác”

T hiểu được lợi ích của các công cụ tim kiểm, cản nắm võ ruột số khái niệm

liên quan

& Thông tin (information): Thông tin là những gì con người thủ nhận được từ thể giới xung quanh như sự vật, sự kiện, Lhông tin dem lại nhiều kiến thức, sự hiểu biết cho con người VD: nội dưng hiện văn này cũng là thông tin

«Dữ liệu (đala): là thông Em dưới đang ký hiệu, chữ viết, chữ số, hình ảnh,

âm thanh hoặc đạng tương tự (theo diễu 4 Luật Giao dịch diện tử - VN) Ví đụ: sách báo là dữ liệu

«Try héi théng tin (information retrieval): La các giải pháp, hoạt động thu

thập thông tín, mô bình hóa, biểu điện, lưu zữ dữ liệu nhằm phục vụ quá trình tìm kiểm và truy xuất thông tin được thuận tiện, nhanh chẻng và chính xác nhất

1⁄3 Tịch sử phát triển hệ thống tìm kiếm

'Vào năm 1990, 3 sinh viên của trường Dai hoc McGill tại Montreal, Canada

là Alan Fintage, Bill Heelan va J Peler Deulach tạo ra công cụ tìm kiếm đầu Liên

được sử dụng trên irdernet và đặt lên cho nó là Archie Công cụ đứng để tim kiếm: tên tập lăn, hoại động bằng cách index các tập tin trên irternet để để dàng xác định

vị trí Tuy nhiên, Archie chưa có

nang index néi dung cia cdc trang web

Năm 1991, một công cụ tương tư Archic ra di, dé 1 céng cu Gopher cia

tac gia Mark MeCahill tai trường Đại học Mimtesota, với khã năng tìm kiếm theo

tên các tệp tín và tiêu dễ đã được lập chỉ mục và lưu trữ trong hệ thông Gopher

Năm 1995, đánh dấu các buớc tiển mới về lìm kiểm cho nền web Wanderer

la web robot dau tiễn, dược tạo ra bởi Matthew Gray tai trưởng, Đại học MIT, cho

phép cả việc mdex và tim kiếm trên web Tháng 11 năm 1993, Aliwcb ra dời, là

công cụ tìm kiểm thứ 2 được thiết kế cho web

Sau đó, lần lượt các công cụ tìm kiểm khác ra dời như: WebRobot (1994),

MetaRobot (1995), Altavista(1995), Excite (1995), Dogpile, Inktomi, & HotBot (1996), Ask Jeeves & Northern Light (1996-1997), Google (1998), Teoma,

Vivisimo (1999-2000), Yahoo! Search (2004), MSN Search & GoodSearch

(2005), Wikiseek, Guryji, Sproose And Blackle (2006-2007), Powerset, Picollator, Viewzi — (2008), Cuil, Leapl'ish, Forestle, Valdo — (2008), Bing — (2009), Sperse, Yebol, Goby (2009-2010)

Nam 1998, Google duoc phat trién béi Larry Page va Sergey Brin tai Dai hoc Stanford, dua ra khai niệm về PageRank (thir hang ctia mét trang web), danh diu

sư phát triển vượt bậc và hiện đang là công cu tim kiểm có thị phân lớn nhất hiện

nay.

Trang 14

1.4 — Kiến trúc và các bộ phận cấu thành của hệ thống công cu tìm kiếm

Hệ thống tìm kiểm thông tin chính là một hệ thông thông tin, có chức năng

lưu trữ, xử lý và tìm kiểm các yêu tỏ thông tin theo yêu câu của người dùng Hệ thong tim kiếm thông tin thưởng thao tác trên dữ liệu dạng văn bản va không cỏ giới hạn về các yếu tỏ thông tin trong văn bản

Hệ thống công cụ tìm kiểm có hai mục tiêu chính là

e Hiệu quả: Người dủng muôn tìm được thông tin liên quan nhất có thể khi truy vần, hay là chất lượng kết quả tìm kiếm

ø Tốc độ: Người dùng mong muốn quá trình xử lý truy vẫn cảng nhanh cảng,

tốt

Kiến trủe của một công cụ tìm kiếm thường được xây dung để đáp ứng hai mục tiêu trên Để một hệ thông có tốc độ truy vẫn cao, câu trúc dữ liệu cần được

tối ưu hóa cho truy hỏi thông tin nhanh Đề kết quả truy vẫn có chất lượng cao, dữ

liệu cần được xử lý và phân tích giúp cải thiên độ liên quan của kết quả tìm kiếm

Các thành phân của công cụ tìm kiếm hỗ trợ cho 3 thành phân chính đó là bộ

thu thap (crawler), bé lap chi muc (indexer), va bé tim kiem théng tin (searcher)

Hinh 1.1 M6 hinh tham khao kién trite cha hé théng tim kiếm Google, theo

Stanford University

Trang 15

Tộ thư thập (crawler): là một hệ thống thu thập, phân tích và lưu trữ các nội

dụng từ các nguồn thông tín, bao gồm bai thành phần chính sau

« Thành phân đề theo dõi và phát hiện các thay đổi nội

ø Thành phần dùng để dọc nổi đụng, phân tích, trích xuất nội dưng tai hiệu

để đánh chí mục:

®- Tạo ảnh xe từ tài liệu (document) dén thuat ngit (erm)

« _ Tạo ảnh xạ từ thuật ngữ (term) đến tải liệu (term), hay còn dược gợi là chỉ

Tục ngược inverted index

Bộ tìm kiếm thông tin (scarcher): thực hiện quá trình truy vấn Quá trình truy vấn thường gồm ba thành phân chính: tương tác người dùng, xếp hạng, đánh

giá

Tiệ phận truy vấn tìm kiếm các tài liệu từ yêu cầu của người đúng, trả ra danh sách tải liệu chỉnh xác nhất với yêu câu Dặc điểm thông thường của người dùng

là chỉ nhập vào một vải từ khóa trong câu truy vẫn, kết hợp với số lượng lớn tai

liêu có thể được lập chỉ mục, nên tập kết quả cũng thường rải lớn Module xếp

tạng (ranking) thực hiện sắp xếp các tài liệu này theo mức độ phủ hợp (relevanoe)

với yếu cầu tim kiếm, sau đó hiến thị kết quả tim kiểm cho người ding

Khi muốn tìm kiếm đữ liệu về một van để, người dùng đưa vào một số từ

khóa liên quan để tìm kiếm Hệ thông truy vấn dựa theo các từ khóa nay dé tim

kiểm trong bảng chỉ mục nội dưng các tài liệu có chứa từ khóa này Sau đó, hệ

thông truy vẫn chuyển các tài liệu cho hệ thống xếp hang đề sắp xép các kết quả theo mức độ giảm đần của lính phủ hợp giữa nội dụng tải liệu và câu truy vấn, rôi hiển thị kết quả cho người dùng

Trang 16

mô hình hảnh vi) Dủ bằng cách nảo, nó cũng dẫn đến việc tiếp cận tới ý định của

người dùng một cách chính xác hơn

Ca nhan hoa la mot thanh phan chinh trong hé thong goi y (recommendation system) va truyen thong mang xã hội

1.51 Giới thiệu về cá nhân hóa tìm kiểm

Tìm kiếm được cá nhân hóa (personalized search) lả kết quả tìm kiếm được

điều chỉnh cụ thể theo sở thích của một cá nhân bằng cách kết hợp thông tin vẻ cá nhân đỏ ngoài truy vấn tìm kiếm cụ thể được cung cấp Thực tế, cỏ thể coi ứng, dung tim kiếm được cá nhân hỏa là ứng dụng mở rộng của hệ thống gợi ý

(recommendation system)

Co hai cach tiếp cận chung để cá nhân hỏa kết quả tìm kiém, do la tac dong đến việc sửa đổi truy vẫn (autocomplete, suggestion, correction ) của người dùng

và xếp hạng lại (re-ranking) kết quả tìm kiểm

Các công cụ tìm kiếm ban đâu, như Google vả AltaVista, chỉ tìm kết quả dựa

trên các từ khóa Cá nhân hóa tìm kiểm được tiên phong bởi Google, đã trở nên

phức tạp hơn nhieu với mục tiêu "hiểu chính xác ÿ bạn vả cung cấp cho bạn chính

xác những gì bạn muốn" Google đã giới thiệu tìm kiếm được cả nhân hóa vào năm

2004 và bắt đầu được triển khai vào năm 2005 Google đã triển khai tìm kiếm được

cá nhân hóa cho tắt cả người ding, không chỉ những người có tải khoản Google Không có nhiều thông tin về cách chính xác vẻ cách Google cá nhân hóa các tìm kiểm của họ; tuy nhiên, người ta tin rằng họ sử dụng ngôn ngữ tìm kiểm của người

Trang 17

'Một trong những lợi ich quan trọng nhất mã cả nhậu hỏa thn kiểm mang lại

là cải thiện chất lượng cửa các quyết định mã người Liêu dùng đưa ra Inlernel đã Jam cho chi phi giao địch để có được thông tín thấp hơn bao giờ hếi Tuy nhiền,

khả năng xử lý thông tín của son người vẫn chưa được mở rộng nhiều Khi đối mặt

với lượng thông tin quá lớn, người tiêu dùng cần một công cụ tỉnh vị dễ giúp họ

đưa ra các quyết định tốt hơn Hai nghiên cứu để xem xét tác động của các công

cu sang lọc va đặt láng dược cá nhân hóa, và kết quả cho thấy mối tương quan thuận giữa tu kiếm được cá nhân hóa và chất lượng quyết định của người liêu

dung

Nghiên cứu đầu tiên được thực hiện bởi Kristin Dichl từ Đại học Sơuti

Carolina Nghiên cửu phát hiện ra rằng giám chỉ phí tìm kiếm dẫn đến các hựa chọn chất lượng thấp hon Ly do ding sau phat hién nay lả “người tiêu dùng dưa ra lựa chon téi hon vi chi phi tim kiếm thấp hơn khiến họ phải cân nhắc các lựa chọn kém chất lượng” Nó cũng cho thấy rằng néu người tiêu dùng có một mục tiêu cụ thê trong đâu, họ vẫn sẽ tiếp tục tìm kiểm, dẫn đến các quyết định thậm chỉ còn tôi

hơn nữa

Nghién ctu ctia Gerald Haubl tir Dai hoc Alberta va Benedict G.C, Dellaert

tit Dai hoc Maastricht chit yéu tap trung vao hé théng khuyến nghị Cá hai nghiên cứu đều kết luận rằng hệ thống đề xuất và tìm kiếm được cả nhân hóa đã cải thiện đáng kế chất lượng quyết định cửa người tiêu đùng và giảm số lượng sản nhằm

được đưyệt qua

Trang 18

CHƯƠNG 2 TONG QUAN CAC KY THUAT TIM KIEM VA UNG DUNG

Thông thường, mỏ hình xếp hạng được viết gọn trong 4 chirT, Q, F, R Trong

đó các chữ được định nghĩa như sau:

&D (Ðocument collection) lá bộ sưu tập tải liệu Mỗi tải liệu được mô hình

hóa như một nhóm các thuật ngữ chỉ mục trong đó các thuật ngữ chỉ mục được giả dink là độc lập với nhau

øQ (Query collecion) là bộ sưu tập truy vẫn Các truy vẫn được kích hoại

bởi người dùng thuộc về tập hợp này Nó cũng được mô hình hỏa như một tập các

thuật ngữ chí mục cho các trường hợp

1! là Lramework cho mô hình mô tấ tài liệu, các câu truy vẫn vả mỗi quan

hệ giữa chúng

«8 (Ranking function) la mét ham xếp hạng Hiên kết một điểm (số thực) với

c&p (y;, d;) trong dé q; € Q va d; € D Cho tray vẫn (q;) cac tai liệu được xếp hạng

theo điểm số

21.1 Mô hình Boolean

Là mô hình truy xuất thông tin lâu đời, phổ biển và đơn giản nhất Mô hình

b toán tử Booloan như KOT, ƠR, AND vả các

xảng buộc về củ pháp Các tải liệu được truy xuất là các tài liệu hoàn toàn khớp với truy vẫn đã cho, tuy nhiên các tải liệu Hên quan không được đề cập đến

Xét ví dụ Hệ thông có 4 bản ghu như sau:

« Docl : Nhad Cau Giấy

« Doc? : 20m2

« Doe3: 3 phòng ngũ

« Doc4: Nhà ở Câu giấy, 50m2

Dé trả lời cho câu query Nhà ở Cần Giấy, không phải 20m2 TIệ thông sẽ

phân tích thành Nhà AND Cầu Giấy AND NOT 20m2 Dưới đây là biểu diễn có

“hoặc không xuất hiện trong doc của các index

Trang 19

Bảng 2.1 Riéu dẫn có hoặc không xuất hiện trong doc của các index

Truy van vdi phép toan AND

1001 (NhaA)AND1 001 (Cau Gidy)ANDI011 (khong 20m2) 1001

=* kết quả hệ thống sẽ dưa ra cho bạn Doc4, Doc]

TƯ diễm:

«© Củ pháp truy vấn đễ

lên, đễ làm

œ- Tốc độ tìm kiếm nhanh với khối lượng dalabase không lớn

* _ Có thế được mở rộng để xếp hạng duoc output (ranking output)

«_ Thm kiểm chính xác những gì người đùng yêu cầu

œ_ Tương đổi hiệu quả về mặt tính toán cho những câu query thông thường,

« Chính vi thể thuật toán vẫn dược sử dụng rộng rãi trong, các quy mồ tim kiếm nhỏ như cmail, ở cứng,

Nhược điểm:

«Mô hình có tốc đồ tìm kiểm khá chậm với các khối lượng đữ liệu lớn

«- Không thể biểu diễn các cầu truy vấn phức tạp

« _ Nhĩmg tài liệu liên quan cũng không được đề cập

«- Hệ thống cũng không bắt được tải liệu chứa từ ding nghia

œ Thường các bản ghi khó được xếp hạng các bản ghi đã được truy vân

2.1.2 Mô hình không gian vector (Vector space model)

Vẫn đề của mô hình Boolean Ja khdng ca kha nang lita nap ede thanh phan

Văn bán này được biểu diễn như những điểm trong không gian l?uelid n-

chiều, mỗi chiều tương ứng với một từ trong tập hợp các từ Phân tử thứ ¿, là đ; của vector văn ban cho biết số lần mả tử thứ ý xuất hiện trong văn bản Su tương

10

Trang 20

đông của hai văn bên được coi là khoảng cách giữa các điểm, hoặc là góc giữa

những vector Irong không gian Mỗi từ trong không gïmm vector sé cd md [rong

số Có nhiều phương pháp xếp hạng khác nhau, nhưng LÈidf là phương pháp phố

biển để đánh giá và xếp hạng một từ trong lài liệu

Term Frequency (tf): 14 tin sé xudt hién của từ, hoặc cụm từ ¡ trong tài liệu

4; được biểu diễn bằng công thức dưới đây

freq ij

fi; = max( feq,,) j

‘Trong dé freq, ; 1a sé lan eum tu ¡, xuất hiện trona tải liệu đ;

Inverse Document Frequency (idf): 14 tan sudt nghịch đảo của tài liệu Nếu

tân số biểu hiện cho các từ xuất hiện nhiều trong van ban cho biết độ phô biển của

từ đó trong hệ thống của mình, thì tìm tân số nghịch đão cho ta cái nhìn về những

tử hiểm xuất hiện trong các tài liệu của minh đẻ mang thông tin đắt giá hon Tan

suất nghịch đão được biéu dién bang công thức đưới đây

idf,; = log ai

Trong đỏ, r là số các văn bản có tử hoặc cụm từ ¿ „ý là tổng số văn bản

"Thực tế việc tim kiểm một cụm từ (giống khi thực hiện một câu truy van full-

†exÐ, là việo sơ sánh cụm tir can tim (query) với các tài liêu trong cơ sở đữ liệu

‘Néu coi các câu truy vẫn là một vecter, ta có thể tiến hành xép hang (rank) cdc tai liêu đang có dua vao sur trong đồng (praximify) với câu truy vẫn (query)

Độ lương đồng giữa 2 vecLor (proximity, similarity): Dé xép hang ode lài liệu

(và trả về các tải liệu só hạng cao), thì cần so sảnh câu truy vấn với lập hợp tài liệu Vector của tài liệu càng gan voi vector eda edu truy vẫn thì có điểm xếp hạng cao hơn Có một vải phương pháp xem xét độ tương đồng giữa 2 veetor, bao gdm

*hoảng cách Euelid, khoảng cách Manhattan, độ tương tự cosin Người ta thường

sử dụng công thức độ tương tự cosin — cosine similarity dudi diy dé tinh 46 tuong đồng giữa 2 vector tai liệư và câu truy vẫn:

sim (d,,q) = cosd

‘Trong dé gc theta 0 la géc tao béi 2 vector dz, ¢

Ranking: M6 hinh xép hang cac tai liệu bằng việc đánh giá góc giữa tài liệu

Trang 21

M6 hinh xác suất trang ý tưởng cơ bản là lấy

cửu tái liệu có liên quan

Mô hình Okapi BM25 là mô hình mỡ rộng của mô hình xác suất Mô hình

BM25 (Best Match) được sử đụng lần dầu tiên trong hệ thông tìm kiểm Okapi

Điểm xếp hạng của BM25 được tính theo công thức dưới day

kn

score(D, 9) = > fdƒ(q) —— 20 619 Ta

'Trong đỏ, giá tri avgdl là độ dài trưng, binh của văn bản trong tập dữ liệu

Ki va b là tham số tự chọn dộc lập, thường thí kì thuộc [1.2, 2.0] va b = 0,75

Mô hình náy cái thiện được những điểm yếu của hai mô hình trên

2.2 Apachc Lucenc,Elastiesearch và kỹ thuật tìm kiếm trong Elastiescarch

Có nhiều công cụ để thực hiện lập chỉ mục va tim kiểm tai ligu nl Apache Sorl, Lucence, Sphimx Dối với bài toản trong luận vẫn nảy tôi sử dung Tilasticsearch, là nột bộ máy tìm kiếm và lập chỉ mục phát triển đụa trên nên tảng

Apache Lucence

221 Apache Lucene

Lucene 1a phan mém nguén mé duoc viét bằng Java, được tạo ra bởi Doug

Cutting, ra mắt lần đầu tiên vào thang 8 nim 2000 Nam 2001 Lucene tham gia

vào tổ chức Apache Luoene hễ trợ các chức năng phân tích, đánh chỉ mục và tìm kiểm thông tin

Tai thành phần chức năng chính của I.ucene và cũng la hai thành phan quan

trong chủ yêu cho một hệ thông từm kiêm thêng tin đó là: tạo chỉ mục và tim kiếm

Thank phan Tạo chỉ mục: Thực hiện chức nắng xử lý, phân tích dữ liệu

và sau đó đánh chí mục, Lucene hỗ trợ thiết lập các trường thông tin (field) cua tải

liệu được đánh chỉ mục phục vụ cho thành phần tìm kiếm Thành phân này bao gềm một số lớp đối tượng chỉnh:

2 Lớp Analyzer: chuẩn bị dữ liệu cho việc danh chỉ mục, thực hiện chức năng xử lỳ vả phân tích văn bản để lấy nội dung, chuẩn hóa, loại bỏ từ không cần

thiết

2 Lớp InđexWriter: thành phân chính trong việc tạo chỉ mục, thực hiện chức năng chính sửa, tạo mới hoặc xóa chí mục.

Trang 22

9 Tớp Document va Field: biéu điển các tài liệu và các trường của tài liệu,

sử đụng cho cà việc lập chỉ mục va cho việc lây két quả trã về ở thành phần Tùn kiểm

o Tiớp Direelory: pha phép người dùng định nghĩa vùng nhỏ, xác định nơi lưu trữ trên bộ nhớ trong quá trình tạo chỉ mục

« Thành phần Tìm kiểm: thực hiện chức năng tìm kiếm, trả về kết quả, so sánh đánh gia lây về kết quả tốt nhật

2 InđexSearcher: Thục hiện chức năng tìm kiểm dữ liệu trên các chỉ mục đo TnáewWriter tạo ra Lớp này chỉ đọc chỉ mục, không thục hiện chỉnh sửa

a TopDeœe: tủy chọn câu hình số lượng, bản ghi có thứ hạng cao nhất trong

kết quả trả về cho người đừng, Miẫi đôi tượng trong đanh sách này có một docID

tương từng liên kết tới tài liệu trả ra

ø Query: hỗ trợ khả năng lạo các tuy vận khác ren của riêng người dùng

thêng qua các API được cung cấp bái lop Query và được xử lý bối QueryParser

2.32 Elusticsearch và kỹ thuật tìm kiém trong Elasticsearch

Blasticsearch là một công cụ tìm kiếm với nhiều RBST API dơn giản có khả

Trảng phan tích, lau trữ và tìm kiếm toàn văn (fill-text scarch) khối lượng lớn tật

sã các dữ liệu cỏ dạng như textual, digital, gcospatial, structured va unstructured một cách nhanh chóng (noar roal-lime), Nó thường duợc sử dụng như công cụ,

công nghệ cơ bản mà đề các phát triển các tính năng tìm kiếm phức tạp mà các ứng dụng khác yêu câu

Elasticsearch ra mắt vào tháng 2 năm 3010, dược phát triển bỡi Shay Banon

đưa trên cdc dic ta API ofa Lucence, viét bang ngôn ngữ ƒava, là mã nguồn mở

theo giầy phép Apache 2.0 và phản tàn thời gian thực, có khả năng mở rộng cao

và hoat déng dua trén nén ting Apache Lucene

lilasticseareh có khả năng mở rộng không gian lưu trữ để đàng, lên tới

petabyte dung lương lưu trữ, hỗ trợ đữ liệu dạng có cầu trúc và không, câu trúc No cũng có thể được sử đụng thay thé cho các DI lưu trữ đữ hệu đocument như MongoDH hay Ravenl2B, Sứ dụng tỉnh không chuẩn hòa để cái thiện hiệu suất tim

kiểm,

Lilasticsearch la mét trong những công cụ tim kiếm doanh nghiệp rất phổ biển

và biện đang được sử đụng bởi nhiéu té chire lon nhu Wikipedia, The Guardian, StackOverflow, Gifllub, Theo dinh gia cla DB-Lngines thi Llasticsearch 1a

công cụ tìm kiếm đeanh nghiệp phé bién nhat, tép theo la Apache Solr cũng dưa

trén Lucene.

Trang 23

Cau hinh don gian

Hỗ trợ phát hiện một sỏ kiểu dữ liêu cơ bản Do đo chỉ cân tién hành index

tài liệu ngay sau khi cải đặt xong

Hỗ trợ các RESTful API và sử dụng các schema-free JSON documents gitip

việc sử dụng đễ đảng,

Đa ngôn ngữ

Tính sẵn sảng cao, để đảng mở rộng, hỗ trợ cluster, tính năng phân mảnh

và tạo bản sao (shards và replica)

Một số khái niệm và kiến trúc của Elasticsearch

Cluster: la một nhỏm gồm một hoặc nhiêu nút (nodes) được kết nổi với

nhau, nằm giữ toàn bộ dữ liệu Sức mạnh của một Elasticsearch cluster (cụm) nằm

ở việc phân phối các tác vụ, tìm kiếm và lập chỉ mục, trên tật cả các nút trong cụm Một cluster được định danh bởi một cluster name duy nhất, mặc định la

*elasticseareh” Khi các nút tham gia hoặc rời khỏi một cum, cum sẽ tự động tỏ chức lại đề phân phổi đồng đều đữ liệu trên các nút có sẵn

lưu trữ dữ liệu, tham gia vào việc lập chỉ mục vả tìm kiếm Theo n

đỉnh, mỗi

nút được tự động gản một định danh duy nhất, hay là node_name Mỗi node được

14

Trang 24

thiết lập đề liên kết với một eluster nhất định thông qua eluster name Trong một cluster thì không hạn chế số lượng các node Có 3 loại node khác nhau

tái sắp xếp shard, thêm hoặc xoả một Node Elasticsearch khỏi Cluster Bên cạnh

đỏ, nêu trạng thải cluster của ES cỏ sự thay đổi thì Master Node sẽ broadcast các

sự thay đổi đến toàn bộ các node hiện hành trong hệ thông cluster

6© Data node: chịu trách nhiệm cho việc lưu trữ dữ liệu ở các shard và thực

hiện các hoạt động liên quan đền dữ liêu như CRUD : tạo, đọc, cập nhật, xoá, tim kiếm, Bạn hoàn toàn cỏ thể có nhiều Data Node trong một cụm ES Cluster Nếu

mả một Data Node chết hoặc dùng hoạt động thì cụm cluster vẫn tiếp tục vận hành

và tiên hành tổ chức lại các shard Index trên các node khác

document, điều hưởng các truy vẫn hoặc cân bằng tải các truy vấn tủy theo chức năng trước khi gửi chủng đến các Master node hoặc Data node Co the mường

tuong Client Node cé céng nang nhw mot ‘router’ Client node sẽ không lưu trữ

bat ki dit liệu nào vả nó cũng không thẻ trở thành Master node

Hinh 2.2 Vi du vé kién trite ciia m6t Elasticsearch cluster

Shard va replicas: mot index có khả năng lưu trữ một lượng lớn dữ liệu có

thể vượt qua giới hạn phần cửng của một node Ví dụ: một index của một tỉ

documents chiếm 1TB không gian đĩa có thẻ không vừa với đĩa của một node hoặc

có thể quá châm đẻ phục vụ các yêu cau tìm kiếm từ một node duy nhất Đề giải quyết vẫn đề nảy, Elaticsearch cung cấp khả năng chia nhỏ chỉ mục của bạn thành nhiéu phan duge goi la shard, C6 2 loai shard: primary va replica

Trang 25

‘3 Shards - 1 Replica - 3 Nodes

Hình 2.3 Vi du mé ta vé Elasticsearch shard va replicas

® Trong môi trường mạng hoặc đảm mây nơi có thẻ xảy ra lôi bat kỳ lúc nảo, rất hữu ích và rất khuyên khich nên có cơ chế chuyên đổi dự phòng trong trường hợp shard / node bằng cách nào đó không hoạt động hoặc biên mat vi bat ky ly do

gì Để kết thúc này, Elaticsearch cho phép bạn tạo một hoặc nhiều bản sao chỉ mục

của bạn được gọi là replica shards hoặc viết tắt la replicas

eIndex: là một tập hợp các tải liệu cỏ một số đặc điểm tương tự Vi dụ: bạn

cỏ thể có một mdex cho dữ liệu khách hàng, một index khác cho danh mục sản

phẩm và một index khác cho dữ liệu đơn hàng Một index được xác định bằng một

tên (phải là chữ thường) vả tên này được sử dụng đề chỉ index khi thực hiên lập index, tìm kiểm, cập nhật và xóa các hoạt động đối với các tải liệu trong đỏ Một

cluster cé the chtra nhiéu indexes

« Type: vé co ban, type trong Elasticsearch dai dién cho mét lép tải liêu tương

tự nhau và có tên customers hoặc items Lucene không có khái niệm vé document

type, vi vay Elasticsearch sẽ lưu trữ type name của từng tải liệu trong trường, metadata của tải liệu, được gọi lả _type

® Document: là một đơn vị thông tin cơ bản có thẻ được lập index Ví dụ: bạn

có thể cỏ một document cho mét khach hảng, một document khac cho mét sản

phẩm và một document khác cho một đơn hàng Document nảy được thẻ hiện dưới

dang ISON

eMapping: lả cách mả các Doeument (và các Property bên trong) sẽ được

imdex vả lưu trữ như the nao Mapping giúp củng lúc khởi tạo 1 field và định nghĩa

cách field đó được index

dạng trình bảy chỉ mục eơ bản nhất (Tokens of Tenms), Các Token of Tenms này sau đó sẽ được thêm vao Inverted Index dé searching Qua trinh Analysis sé duoc thực hiện thông qua các Analyzer, các Analyzer nay cé thé la cac Built-in Analyzer

săn có của Elastiesearch hoặc là các Custom-Analyzer do chting ta dinh nghia Ta

có thể chỉ định Analyzer ngay khi khởi tạo Index vả trong khi thực hiện Searching

16

Trang 26

các ký tự, phân tách chủng thành từng đoken (thông thường sẽ là các từ riêng lẻ),

vả trả ra một chuỗi các token

Một số kỹ thuật truy vẫn cơ bản của Elasticsearch

Match query: Là một query cơ bản và nổi bật của elasticsearch, dùng đẻ thuc hién full text query Match query trả về kết quả nêu bắt kỳ document nào chứa query truyền lên

Match Phrase Query: Ciing giéng nhu match query nhung match_phrase

query 1a search chỉnh xác Nỏ chỉ trả về cac document nao chita chinh xác giống,

query truyền lên

Trang 27

cho phép tìm kiểm trên nhiều field khác nhau

text chúng ta nén str dung match query

Terms query: Ding dé search voi nhiéu query một lúc Kết quả truy vẫn lấy:

“must”: {"match": ("“content™: “ruby"}},

"must not": {“match" : {"content":

“rails"}}

}

)

Fuzzy search: hay con hay duge goi la Approximate search (tim kiếm xap

xi) la mét ky thuat tim kiểm một từ khóa “gan giéng” (thay vi “gidng hệt") so với

một từ khóa cho trước, giúp dễ dàng tìm thây với nội dung cân thiết, ngay cả khi người dùng khỏng nhớ được chính xác nội dung mình muốn tìm kiếm lả gỉ

Fuzzy search trong Elasticsearch sử dụng khoảng cách Levenstein Khoảng cách

Levenshtem giữa hai chuối S1 và S2 được định nghĩa là số bước ít nhất để biển chuối S1 thành S2, thông qua 3 phép biến đổi là

o Xoal ky tu

o Thém1 ky tw

o_ Thay kỷ tự này bằng ký tự khác

Fuzzy search hỗ trợ tuỳ chỉnh tham số fuzziness đẻ cho ra két quả phủ hợp

nhất với nhu cầu:

18

Trang 28

nêu bạn đặt fuzziness=3 thì “cân đường” sẽ không được tìm thây với từ khoá “con

Một hệ thông tìm kiếm được cá nhân hóa (personalized search) la hé thong

ma ket qua tim kiểm được điều chỉnh cụ thẻ theo các thông tin của cá nhân dang thực hiện tìm kiểm

'Nỗ lực cả nhân hỏa tìm kiếm trong luận văn này là việc xếp hạng lại kết quả tìm kiếm để cải thiện chất lượng tim kiếm, và cố gắng hợp nhất thành phân cả nhân

hóa vào trong hệ thông tìm kiểm

Sơ đồ hoạt động của hệ thông này sẽ giống như sau:

kiểm Dữ liệu đảo tạo cho mô hình học để xép hang bao gồm danh sách các kết

quả cho một truy vấn và xếp hang mức độ liên quan cho mỗi kết quả đó đối với truy vẫn Dữ liệu đảo tạo nảy thường được tạo ra bằng cách kiêm tra kết quả và quyết định đưa vào hoặc loại trừ từng kết quả khỏi tập dữ liệu

Trang 29

Có nhiều mô hình xếp hạng khác nhau, như đã giới thiệu ở mục 2.1 Một số

xnô hình này có chứa các tham số tự chọn, như tham số k1 và b trong BM25, tham

36 2 trong TMTR Các tham số này thường được tình chùnh 1 cách cảm tính, dựa

trên so sánh thả công hiệu suất tìm kiếm Cáo tham số nảy còn cho ra hiệu suất lim kiếm khác nhau dối với các truy vẫn khác nhau, vì vậy việc tình chỉnh các tham số xảy là một khó khăn Ngoài ra việc cô gắng kết hợp các mỗ hình xếp hạng khác nhau dé dua 1 mô hình mới tốt hơn cũng là một vẫn đẻ thực tế Việc sử dụng học máy dé xép hạng giúp việc tự điều chỉnh các tươn số, kết hợp với nhiều đặc trưng, siủp hiệu suất xếp hạng tốt hơn

Có 3 hưởng tiếp cân chính của mô hình học dễ xếp hang

Phương pháp Pointwise: Chi xem xét một tài liệu duy nhất tại một thời điểm bằng cách sử dụng phân loại hoặc phân tich hỏi quy dễ dự đoán diễm mức độ phú

hẹp của tải liệu đó Một số thuật toán ứng dụng phương pháp này: OPRIL , SLR

"Phương pháp Pairwise: Xem xét hai tải liệu với nhau, cũng sứ dụng phân loại

hoặc phân tích hỏi quy để quyết định tài liệu nảo trong 2 tài liệu được xếp hạng

cao hơn Một số thuật toán ứng dụng phương pháp nay: SVM-rank, RankRLS, Xpboost,

Phương pháp Listwise: Xem xét thứ tự tối ưu của toàn bộ danh sách tài liệu

.Một số thuật toán ứng dụng phương phap nay: PermuRank, ListMLE, Lismet, 2.33 Phương phip Listwise

Phương pháp Lástwise coi toàn bộ đanh sách tài liệu rihtr một tập đữ liệu đâu

vào và sử đụng các mô hình xác suất để tối tu lại thứ tự tài liệu Việc nảy có thế

khả phức tạp và khó khăn so vị

ListNet 1a thuat Loan foc my ndi bal trong phương pháp T.isLwise, được dùng,

các phương phán Pointwise hoặc Dairwise

để tối ru hóa chức năng sắp xếp danh sách dựa vào xác xuất xuất hiện trên cùng của tài liệu thứ j, được tính bằng tổng các xác xuất xây ra hoán vị mã tải Hệu thứ j được xếp hạng trên củng trong một truy van tai liéw ListNet siz dung mang noron

là mô hình huấn luyện và thuật toán Gradient, Descent, lar thuật (oán Lỗi tru hoá,

để tối trụ hóa hằm rất mát trên Loàn đanh sách

1isfMIE là một thuật loán học máy khác trong phương pháp Listwise, được chéng minh là hoạt động rất tối Nó xác định việc phan bố xác suất dựa trên rô hình Plackett-Luec theo kiểu từ trên xuống để tỉnh dến vị trí thông thì

2348 Phương pháp Pairwive và thuật toán SVRank

giải quyết bài Loán Pairwise, vẫn để xếp lạng (ranking) được đưa về bài toán phân lớp cho từng cắp đổi tượng tải liệu Giá trị của hàm phản lớp là giá trì xép hạng đối lượng,

Trang 30

SVM (Support Veutor Machine - may vée-tơ hỗ trợ) là môi nhóm thuật toán học máy phân lớp nhị phân có giám sát (chia các đối tượng thánh hai lớp) Tư

tưởng chính của SVM là xác định biên (siêu phẳng) chia không giam các đối Lượng

thành hạn nửa và tìm siêu phẳng lối nhất (tối ưu) mà khoảng cách từ siêu phẳng tới dối tượng gắn nhất trong cả 2 tập phân chúa lả lớn nhất

SVMRank là một thuật toán học máy dựa trên thuật toán SVM, nhầm giải

quyết văn để xép hạng tải liệu Đây là dạng thuật toán phan loai theo cặp tài liệu

(pairwise)

Giá sử đữ liệu dầu vào là tập tải liệu nằm trong không, gian n chiêu X € KR”

với w là số đặc trưng của lài liệu Tên lại một kết quả xếp hạng Ý — {ru,rz, ,72}

với q là số lượng các hạng có thễ, id sit dn tại mội thứ tự giữa các bang 79 7y_y) x7¡ trong đó "ì" thể hiện quam hệ ưu tiên giữa các tôi liệu Tên lại một tập œ

hàm xếp hạng £ € F mà mỗi hàm f có thế quyết định quan hệ tru tiên giữa cáo tải

liệu như sau:

i34 FO) > f(y)

Giả sử ta có mội lập các tài liệu đã được xếp hạng: 8 {(x;,#;)}¡ 1,Liừ không gian X > Y Ta cả

độ sai léch (loss value) voi mét ham tính đồ sai lệch cho trước (lost function) trén

hoc har xếp hạng Í* tốt nhất từ E sao cho cực tiểu hóa

Với Ví E{1, ,n}:y¡ : (Wf¡) > 1 —Ê¡

Dựa trên phương pháp SVMRank này, Joachims dua ra các công cụ

SVMLight, SVMRank hỗ trợ việc hoc dé xép hang

Mặc dù so với phương pháp Listwise, phương pháp Pairwise tỏ ra kém chính xác hon do việc xếp hạng chỉ dựa trên đánh gi

giữa cáo cặp tải liệu mà không phải

là toàn bộ đanh sách tải liệu, nhưng việc đảo tạo và đánh giá theo phương pháp

Listwise có xu hướng tên kém về mặt tỉnh toán vá tắc độ chậm hơn Phương pháp,

Tairwise cùng thuật toan SVMRank có tốc độ thực thì nhanh, dé dao tao và sử

dụng Vĩ thể trong luận văn này sẽ chọn cải đặt SVMTRauk bạn thuật Loám học máy trong xây đựng hệ thông thử nghiệm

234 Xúc định đặc tưng

Trong rất nhiều trường, hợp, điểm số ban dâu của hệ thống xếp hạng kết quả

có thể không lý tướng Để cãi thiện điểm số dé chúng ta có thể xáp định một tập

a1

Trang 31

hop cde die lung (features) bd simg (ngodi didm a6 Lim kiém ca bén), didundy sé

cho phép hệ thống xép hang tt hon Cac dic trumg way 66 thé

« Trọng sé tPidf

œ- Điểm xếp hang trang 141 héu (Document pagerank score)

« (ai ligu stt dung gin day (Document recency)

@) Thang tinnguéy drys

« Thông tin về phiên của người dùng

œ- Sân phẩm mua gần đây của người đùng (với các hệ thông econnnerce)

« Sản phẩm đang trong giỏ hàng của người dùng (với các hệ thống

ecommerce)

« Số ligu do heong Click-Through Rale

Cac dic trumg nay dêu có thẻ dược gán thủ công một giá trị dại điện thẻ hiện xuức đỏ liên quan của từng đặc trung tới kết quả tìm kiếm Tuy nhiên diễu này tốn nhiều thời gian vả không budng dé ligu (data driven)

Chúng ta có thể áp đựng vẻ sau một hệ thông học máy vào việc tính toán mức

ø Các đữ liệu cần được đán nhãn đựa trên truy vẫn, các cặp đứ liệu cho biết

mức độ liêu quan của dữ liêu đó với truy vấn, mã có thể thụ thập được thông qua

ø- Tác động bên ngoài: yêu cầu người đùng chủ thích đầy dit cho tray van và

đữ liệu về mức độ liên quan

2 Tác đông bên trong: suy điển mức độ liên quan của dữ liệu với truy vấn thông qua hành vi của người dùng, bằng cách phân tích lịch tìm kiếm, nhấp chudt, thoi gian dimg (dwell time)

ø Cáo đặc trưng đựa trên đánh piá về người tạo yêu cầu tim kiêm, nhật là các

Trang 32

235 Elosticseurch Learning to Rank

Flasticsearch Learning (o Rank 1a mdt plugin cita Flasticsearch, cung cap kia Trăng học máy trực liép cho Elasticsearch Plugin nay bao gdm các công cụ đề đào tạo và sử dụng các nô bình xép hang trong Elasticsearch

Plugin cho phép phat triển các “đặc trưng phụ thuộc vào truy vấn” (querv-

dependent fcatures) và lưu trữ chúng trong E arch Sau khi luu tri một lập hợp các dặc trưng, chúng ta có thể ghỉ lại các giá trị này cho các tài liệu được trả

về Irong kết quả tin kiểm dễ hỗ trợ phát triển mô hình ngoại tuyển (offline model)

Việc này dược thực hiện thông qua 4 bước cơ bản:

œPhát triển các “đặc trưng phụ thuộc vào truy vấn” (query-dependent

features), mã chính là các đặc trưng đã được xác định ở bên trên

sách đánh gid” (judgment list) dé tao ra tap huan luyện (training set)

« Sứ dụng các thư viện SVMRank, Ranklib hoặc Xgboost để đào tạo vá thứ nghiệm mồ hình xếp hạng

ø Triển khai và sử dụng mô bình khi tim kiếm

Danh sach đánh giá (udgruent is, đối khủ được gọi sắp xếp lý tưởng của các kết quả lim kiểm riêng lẻ cho 1 từ khỏa tìm kiếm VD: Khi người dùng lì

kiểm từ “Eambo”, chúng ta có thể chỉ ra nhiing phim nao nên được tã ra kết quả cho “Rambo” dua trén ky voug tim kiếm của người dùng,

236 Mô hình đặt ra cho hệ thẳng cả nhần how

Dựa vào các phân tích bên trên, phản nảy đặt ra mô hình tham khảo cho hệ

thông cả nhân hóa ru gau:

Trang 33

'Mô hình tham khảo này được chía thành các giai đoạn

« Thu thập đữ liệu người dùng; lịch sử từu kiếm, lịch sử click, lịch sử mua

« Thu thập thông từn tải liệu: xếp hạng tài ligu, Click-Through Rate, danh mục

phân loại, tiêu dễ, URT.Momain,

« Liên xứ lý đữ liệu bao gém viée chuẩn hỏa đữ liệu cho phù hợp với Tửasticsearch LTR plugin và tiến hành đánh chỉ mục/lưu trữ cha đữ liệu vào Tilasticsearch, tạo cáo đặc trưng phụ thuộc truy vân cho tài liệu liên quan

e Trích xuất các đặc trưng, sử dụng Elastiescarch để kết hợp các dặc trưng phụ thuộc tuy vẫn của tải liệu với danh sach dành giả được cung cấp ngoài thành

tập huấn luyện có dịnh dạng phủ hợp với thư viện SVMRank

ø Huân luyện và kiểm tra mô hình sử dụng thư viện SVIMRank

« Triển khai mỏ hin huan luyén vao Elasticsearch LTR

Mô hình nảy có ưu điểm là có thể tích hợp trực tiếp việc học để xếp hạng, vào cùng hệ thông Elasticsearch, giup dơn giãn hóa việc triển khai và xếp lạng, lại (re-

zanling) Tuy nhiên luận hệ thống thứ nghiệm trong luận văn này sử dụng dịch vụ

cả nhân hóa của bên ngoài, cho phép tích hợp nhanh chóng, kết hợp sử đụng tín:

sing query boosting có sẵn trong l/lasticsearch đề xếp hạng lại kết quả tìm kiểm

Tiêu đề	Cá nhân hóa tìm kiếm sử dụng các kỹ thuật học máy
Tác giả	Cao Hà Vĩnh
Người hướng dẫn	TS. Trần Hải Anh
Trường học	Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành	Công Nghệ Thông Tin
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2021
Thành phố	Hà Nội

Định dạng
Số trang	66
Dung lượng	1,44 MB