Điều nảy liên quan chặt ch dễn tối ưu hóa công cụ tim kiếm SEO, thường duce goi là "quá trình cải thiện khã năng hiển thị của nội dung trang web trong kết quá tìm kiểm." “Tuy nhiên một k
Trang 1TRƯỜNG DẠI HỌC BÁCH KIIOA IIÀ NỘI
LUẬN VĂN THẠC SĨ
Cá nhân hóa tìm kiếm sử dụng các kỹ
thuật học máy
CAO HÀ VĨNH Ngành Công nghệ thông tin
Giảng viên hưởng din: TS, Tran Hải Anh
Công nghệ thông tin và truyền thng
HA NOI, 2021
Trang 2TRUONG BAI HOC BACH KHOA HA NOT
LUAN VAN THAC Si
Cá nhân hóa tìm kiếm sử dụng các kỹ
thuật học máy
CAO HÀ VĨNH Ngành Công nghệ thông tin
Giảng viên hưởng dẫn: 1S Trần Hải Anh
“Chủ ky cia GVHD
HÀ NỘI, 2021
Trang 3CONG HOA XA HỘI CHỦ NGHĨA VIỆT NAM
Độc lập — Tự do — Hạnh phức
BẢN XÁC NHẬN CHÍNH SỬA LUẬN VĂN THẠC SĨ
Tio va tén tac giá luận văn: Cao Hà Vĩnh
4 nhân hóa tìm kiếm sử dụng các kỹ thuật học máy
Đề tài luận văn:
Chuyên ngành: Mạng máy tính và An toàn thông tin
Ma so HV: CBL80206
‘Tae gia, Người hướng dan khoa học và Héi déng chm luận văn xác nhận tác giả dã sửa chửa, bỗ sung luận vẫn theo biên bản họp Hội dồng ngày
27/04/2021 với các nội dụng sau:
nột số thuật loán học để xếp hạng khác nhan:
«© Bổ sung gidi th
«_ Bổ sung tham số cài đặt, mé ta dir ligu hudn Iuyén thuat toan SVM
«œ Bổ sung, chỉnh sửa các lưn chế và hưởng phát triển ở phần kết luận
© Chỉnh sửa định đạng clmản luận văn và sửa lỗi chính tả
Ngàp thẳng nềm 2021
CHỦ TỊCH HỘI ĐÓNG
PGS.TS Nguyễn Linh Giang
Trang 4MỤC LỤC
DANH MUC THUAT NGU VIET TAT
LOT NOT BAU
CHUONG 1, M6 BAU
11 Giới thiệt
1.2 Giới thiệu về hệ thống công cụ tìm kiếm -
1.3 Lich sử phát triển hệ thống tìm kiểm
1.4 Kiến trúc và các bộ phận cấu thành của hệ thống công cu tim
1.5 Giới thiệu về cá nhân hóa
1.5.1 Giới thiệu về cá nhân hỏa tìm kiếm -
CHUONG 2 TÔNG QUAN CÁC KỸ THUẬT TÌM KIEM Vi (Ngb DUNG CA
NLLAN HOA CO SỬ DỤNG HỌC MÁY óc sec "¬
2.1 Các mô hình xếp hạng thông thường, ọcrreereecevaoev Ð
2.3.3 Phương pháp Pairwise và thuật loán SVMRark - 20
2.3.5 Blasticsearch T.carning to Ranik - - 23 3.3.6 Mô hình đặt ra cho hệ thống cá nhân hóa 23 CHUONG 3, PHAN TICH THIRT KR VA TRIFN KHAT HR THONG TIM
3.1 Mô hình tổng quan và kiến trúc hệ thông seo 26
3.2.2 Chức năng Indexing JGD ceeeeeeoeeoue.E
Trang 7DANH MUC THUAT NGU VIET TAT
IR Truy xuat thong tin — Information Retrieval
SaaS Phan mềm đạng địch vụ, là một mô hình điện toán đảm mây
— Software as a Service
SEO Tôi ưu hỏa céng cu tim kiém — Search Engine Optimization
Machine VMSS Một tập hợp các máy ao giong nhau cd kha nang nhan ban
dé mo réng quy m6 — Virtual Machine scale set
BM25 Một hàm tỉnh thử hạng được sử dụng đề xếp hạng các văn
ban — Best matching CRUD Bon chute nang co ban ctia lu trit lién tue — Create, Read, Update, Delete
Trang 8
'Tôi cũng xim gửi lời cám ơn tới Trường Đại hoe Bach khoa Hà Nội, tới các
thầy cô tại Viên CNTTK&TT và bộ môn Truyền thông & Mạng máy tính đã truyền đạt cho tôi những kiến thức chuyên sáu về chuyên ngành trong suốt thời gian học tập đề tôi có những nên tảng kiến thức hỗ trợ cho tôi trong quá trình làm luận văn
thac si
Luan vin dược tải trợ bởi Qui Phát triển khoa học va công nghệ Quốc gia (NATOSTED) trong đề tài mã số 102.02-2019.314
Xin chan thanh câm ơn!
Hà Nội ngày thang năm 2021
Tae gid
Cao Ha Vink
Trang 9MỤC LỤC
DANH MUC THUAT NGU VIET TAT
LOT NOT BAU
CHUONG 1, M6 BAU
11 Giới thiệt
1.2 Giới thiệu về hệ thống công cụ tìm kiếm -
1.3 Lich sử phát triển hệ thống tìm kiểm
1.4 Kiến trúc và các bộ phận cấu thành của hệ thống công cu tim
1.5 Giới thiệu về cá nhân hóa
1.5.1 Giới thiệu về cá nhân hỏa tìm kiếm -
CHUONG 2 TÔNG QUAN CÁC KỸ THUẬT TÌM KIEM Vi (Ngb DUNG CA
NLLAN HOA CO SỬ DỤNG HỌC MÁY óc sec "¬
2.1 Các mô hình xếp hạng thông thường, ọcrreereecevaoev Ð
2.3.3 Phương pháp Pairwise và thuật loán SVMRark - 20
2.3.5 Blasticsearch T.carning to Ranik - - 23 3.3.6 Mô hình đặt ra cho hệ thống cá nhân hóa 23 CHUONG 3, PHAN TICH THIRT KR VA TRIFN KHAT HR THONG TIM
3.1 Mô hình tổng quan và kiến trúc hệ thông seo 26
3.2.2 Chức năng Indexing JGD ceeeeeeoeeoue.E
Trang 10DANH MUC HiNH VE Hình 1.1 Mô hình tham khảo kiến trúc của hệ thống tim kiếm Google, theo
Tình 1.2 Ví dụ về cá nhân hóa ni erriirriirrrrree ¬ TE
Hình 2.3 Ví dụ vẻ kiến trúc của một Elasticscarch cluster " -
Hình 2.4 Sơ dễ dơn giản một hệ thống cá nhân hóa tìm kiểm wld
Hình 3.4 Sơ đỗ hoạt dòng Indexing Job 8
Hình 3.6 Sơ đỗ hoạt động Search statistics os 31 Tlinh 3.7 So dé hoạt động Request Arthentication icee 32
Linh 3.8 So dé hoat ding Request Traoking ~ee 34 Tinh 3.9 Mô hình theo dõi lịch sử truy vẫn của Personalization servioe 35 Linh 3.10 Mô hình học đề xếp hạng của Personalization serviee 35 Tĩỉnh 3.11 Ví đụ về danh sách đánh giá - -.36 Hình 3.12 Vector đặc trưng cho việc huấn luyện học để xếp hạng -.37
Hình 3.13 Một kết quả trọng số cáo đặc trưng cơ bản sau khi được huận lưyện bằng
Hình 3.14 Sơ đồ hoạt động Request routing forwarding - Al Hình 3.15 Sơ đã hoại động Surcam service - - S 42 Hinh 3.16 So dé hoat déng Ingest Function - AB
Hình 318 Sơ đã thiết slicseach cluster - 7
Hình 41 Kiến trúc hệ thống tìm kiếm triển khai thử nghiệm trên Avure 48
Hình 4.3 Kết quả 1 lần mdex toàn bộ website :s sec SỐ,
Hình 4.5 Kết quả thở ngÌiễm trên k6 io - 32
Tình 4.8 Kết quả tìm kiếm sau khi truy cập vào một số trang ngẫu nhiê
iv
Trang 113.2.4 Chie nang Search slatishes 30
3.4 Thiết kế Strcam service và Ingest Fimetion 42
3.5 Thiết kế Runner (Crawler) cà niiiereeeiee "—
CHƯƠNG 4 KẾT QUẢ THỦ NGHIỆM VÀ ĐÁNH GIÁ ¬ 4.1 Triển khai hệ thống thử nghiệm cccecee ¬—-
4.1.1 Mô hình triển khai à.cncieeeeieeree _
4.1.2 Cầu hinh thứ nghiệm . o2 2 2v erertrrrrrrrrerrree Ad
4.2 Thủ nghiệm và kết quá 49 4.2.1 Lập chỉ mục nội dung website hiện tại 49 4.2.2 Lập chỉ mục nội dung bên ngoài -.]
Trang 12DANH MUC HiNH VE Hình 1.1 Mô hình tham khảo kiến trúc của hệ thống tim kiếm Google, theo
Tình 1.2 Ví dụ về cá nhân hóa ni erriirriirrrrree ¬ TE
Hình 2.3 Ví dụ vẻ kiến trúc của một Elasticscarch cluster " -
Hình 2.4 Sơ dễ dơn giản một hệ thống cá nhân hóa tìm kiểm wld
Hình 3.4 Sơ đỗ hoạt dòng Indexing Job 8
Hình 3.6 Sơ đỗ hoạt động Search statistics os 31 Tlinh 3.7 So dé hoạt động Request Arthentication icee 32
Linh 3.8 So dé hoat ding Request Traoking ~ee 34 Tinh 3.9 Mô hình theo dõi lịch sử truy vẫn của Personalization servioe 35 Linh 3.10 Mô hình học đề xếp hạng của Personalization serviee 35 Tĩỉnh 3.11 Ví đụ về danh sách đánh giá - -.36 Hình 3.12 Vector đặc trưng cho việc huấn luyện học để xếp hạng -.37
Hình 3.13 Một kết quả trọng số cáo đặc trưng cơ bản sau khi được huận lưyện bằng
Hình 3.14 Sơ đồ hoạt động Request routing forwarding - Al Hình 3.15 Sơ đã hoại động Surcam service - - S 42 Hinh 3.16 So dé hoat déng Ingest Function - AB
Hình 318 Sơ đã thiết slicseach cluster - 7
Hình 41 Kiến trúc hệ thống tìm kiếm triển khai thử nghiệm trên Avure 48
Hình 4.3 Kết quả 1 lần mdex toàn bộ website :s sec SỐ,
Hình 4.5 Kết quả thở ngÌiễm trên k6 io - 32
Tình 4.8 Kết quả tìm kiếm sau khi truy cập vào một số trang ngẫu nhiê
iv
Trang 14DANH MUC THUAT NGU VIET TAT
IR Truy xuat thong tin — Information Retrieval
SaaS Phan mềm đạng địch vụ, là một mô hình điện toán đảm mây
— Software as a Service
SEO Tôi ưu hỏa céng cu tim kiém — Search Engine Optimization
Machine VMSS Một tập hợp các máy ao giong nhau cd kha nang nhan ban
dé mo réng quy m6 — Virtual Machine scale set
BM25 Một hàm tỉnh thử hạng được sử dụng đề xếp hạng các văn
ban — Best matching CRUD Bon chute nang co ban ctia lu trit lién tue — Create, Read, Update, Delete
Trang 15
TÔI NÓI ĐẦU
doanh nghiệp, giữ khách truy cập ở đó và khiến họ hoán thành một hành động,
chẳng hạn như dăng ký hoặc mua sắm Điều nảy liên quan chặt ch dễn tối ưu hóa công cụ tim kiếm (SEO), thường duce goi là "quá trình cải thiện khã năng hiển thị của nội dung trang web trong kết quá tìm kiểm."
“Tuy nhiên một khỏ khăn của các đoanh nghiệp, đỏ là khả năng triển khai nhanh chóng một chức năng tim kiểm phủ hợp với mục dich sử dụng của doanh: nghiệp Những công cụ tìm kiểm phổ biến như Google, Bing là những hệ thống tin kiếm độc quyền thương mại, mã nguồn đông Các doanh nghiệp không thể tếp cận tới các giải pháp tìm kiểm độc quyền thương mại như vậy chỉ đề tích hợp với
hệ thông của chính minh Irong khi đỏ các nên tảng, thư viện tim kiểm miễn phi
và mã nguồn mở lại có yêu câu phúc tạp trong việc tích hợp và triển khai
VÌ vậy việc xây dựng một công cụ tìm kiếm dạng dịch vụ (SaaS) hỗ trợ khá
tràng tích hợp, cho phép các nha phát triển xây dụng các trải nghiệm tim kiểm trên
các trang web, các mang nội đun, các hệ thông bất kỳ nào có các đạng nội dung văn bản là nhụ câu thực tế Điều này mang đến trải nghiêm đồng nhất và tắt hơn
cho người dùng cuối, thú vị hơn chờ nhà phát triển, giầm bởi gánh nặng triển khai
và quản lý cho nhà quân trị, giúp chủ kỳ phát triển sản phẩm ngắn hơn vả tiết kiệm
Trang 16'Tôi cũng xim gửi lời cám ơn tới Trường Đại hoe Bach khoa Hà Nội, tới các
thầy cô tại Viên CNTTK&TT và bộ môn Truyền thông & Mạng máy tính đã truyền đạt cho tôi những kiến thức chuyên sáu về chuyên ngành trong suốt thời gian học tập đề tôi có những nên tảng kiến thức hỗ trợ cho tôi trong quá trình làm luận văn
thac si
Luan vin dược tải trợ bởi Qui Phát triển khoa học va công nghệ Quốc gia (NATOSTED) trong đề tài mã số 102.02-2019.314
Xin chan thanh câm ơn!
Hà Nội ngày thang năm 2021
Tae gid
Cao Ha Vink
Trang 17MỤC LỤC
DANH MUC THUAT NGU VIET TAT
LOT NOT BAU
CHUONG 1, M6 BAU
11 Giới thiệt
1.2 Giới thiệu về hệ thống công cụ tìm kiếm -
1.3 Lich sử phát triển hệ thống tìm kiểm
1.4 Kiến trúc và các bộ phận cấu thành của hệ thống công cu tim
1.5 Giới thiệu về cá nhân hóa
1.5.1 Giới thiệu về cá nhân hỏa tìm kiếm -
CHUONG 2 TÔNG QUAN CÁC KỸ THUẬT TÌM KIEM Vi (Ngb DUNG CA
NLLAN HOA CO SỬ DỤNG HỌC MÁY óc sec "¬
2.1 Các mô hình xếp hạng thông thường, ọcrreereecevaoev Ð
2.3.3 Phương pháp Pairwise và thuật loán SVMRark - 20
2.3.5 Blasticsearch T.carning to Ranik - - 23 3.3.6 Mô hình đặt ra cho hệ thống cá nhân hóa 23 CHUONG 3, PHAN TICH THIRT KR VA TRIFN KHAT HR THONG TIM
3.1 Mô hình tổng quan và kiến trúc hệ thông seo 26
3.2.2 Chức năng Indexing JGD ceeeeeeoeeoue.E
Trang 18'Tôi cũng xim gửi lời cám ơn tới Trường Đại hoe Bach khoa Hà Nội, tới các
thầy cô tại Viên CNTTK&TT và bộ môn Truyền thông & Mạng máy tính đã truyền đạt cho tôi những kiến thức chuyên sáu về chuyên ngành trong suốt thời gian học tập đề tôi có những nên tảng kiến thức hỗ trợ cho tôi trong quá trình làm luận văn
thac si
Luan vin dược tải trợ bởi Qui Phát triển khoa học va công nghệ Quốc gia (NATOSTED) trong đề tài mã số 102.02-2019.314
Xin chan thanh câm ơn!
Hà Nội ngày thang năm 2021
Tae gid
Cao Ha Vink
Trang 19DANH MUC HiNH VE Hình 1.1 Mô hình tham khảo kiến trúc của hệ thống tim kiếm Google, theo
Tình 1.2 Ví dụ về cá nhân hóa ni erriirriirrrrree ¬ TE
Hình 2.3 Ví dụ vẻ kiến trúc của một Elasticscarch cluster " -
Hình 2.4 Sơ dễ dơn giản một hệ thống cá nhân hóa tìm kiểm wld
Hình 3.4 Sơ đỗ hoạt dòng Indexing Job 8
Hình 3.6 Sơ đỗ hoạt động Search statistics os 31 Tlinh 3.7 So dé hoạt động Request Arthentication icee 32
Linh 3.8 So dé hoat ding Request Traoking ~ee 34 Tinh 3.9 Mô hình theo dõi lịch sử truy vẫn của Personalization servioe 35 Linh 3.10 Mô hình học đề xếp hạng của Personalization serviee 35 Tĩỉnh 3.11 Ví đụ về danh sách đánh giá - -.36 Hình 3.12 Vector đặc trưng cho việc huấn luyện học để xếp hạng -.37
Hình 3.13 Một kết quả trọng số cáo đặc trưng cơ bản sau khi được huận lưyện bằng
Hình 3.14 Sơ đồ hoạt động Request routing forwarding - Al Hình 3.15 Sơ đã hoại động Surcam service - - S 42 Hinh 3.16 So dé hoat déng Ingest Function - AB
Hình 318 Sơ đã thiết slicseach cluster - 7
Hình 41 Kiến trúc hệ thống tìm kiếm triển khai thử nghiệm trên Avure 48
Hình 4.3 Kết quả 1 lần mdex toàn bộ website :s sec SỐ,
Hình 4.5 Kết quả thở ngÌiễm trên k6 io - 32
Tình 4.8 Kết quả tìm kiếm sau khi truy cập vào một số trang ngẫu nhiê
iv
Trang 20'Tôi cũng xim gửi lời cám ơn tới Trường Đại hoe Bach khoa Hà Nội, tới các
thầy cô tại Viên CNTTK&TT và bộ môn Truyền thông & Mạng máy tính đã truyền đạt cho tôi những kiến thức chuyên sáu về chuyên ngành trong suốt thời gian học tập đề tôi có những nên tảng kiến thức hỗ trợ cho tôi trong quá trình làm luận văn
thac si
Luan vin dược tải trợ bởi Qui Phát triển khoa học va công nghệ Quốc gia (NATOSTED) trong đề tài mã số 102.02-2019.314
Xin chan thanh câm ơn!
Hà Nội ngày thang năm 2021
Tae gid
Cao Ha Vink
Trang 21TÔI NÓI ĐẦU
doanh nghiệp, giữ khách truy cập ở đó và khiến họ hoán thành một hành động,
chẳng hạn như dăng ký hoặc mua sắm Điều nảy liên quan chặt ch dễn tối ưu hóa công cụ tim kiếm (SEO), thường duce goi là "quá trình cải thiện khã năng hiển thị của nội dung trang web trong kết quá tìm kiểm."
“Tuy nhiên một khỏ khăn của các đoanh nghiệp, đỏ là khả năng triển khai nhanh chóng một chức năng tim kiểm phủ hợp với mục dich sử dụng của doanh: nghiệp Những công cụ tìm kiểm phổ biến như Google, Bing là những hệ thống tin kiếm độc quyền thương mại, mã nguồn đông Các doanh nghiệp không thể tếp cận tới các giải pháp tìm kiểm độc quyền thương mại như vậy chỉ đề tích hợp với
hệ thông của chính minh Irong khi đỏ các nên tảng, thư viện tim kiểm miễn phi
và mã nguồn mở lại có yêu câu phúc tạp trong việc tích hợp và triển khai
VÌ vậy việc xây dựng một công cụ tìm kiếm dạng dịch vụ (SaaS) hỗ trợ khá
tràng tích hợp, cho phép các nha phát triển xây dụng các trải nghiệm tim kiểm trên
các trang web, các mang nội đun, các hệ thông bất kỳ nào có các đạng nội dung văn bản là nhụ câu thực tế Điều này mang đến trải nghiêm đồng nhất và tắt hơn
cho người dùng cuối, thú vị hơn chờ nhà phát triển, giầm bởi gánh nặng triển khai
và quản lý cho nhà quân trị, giúp chủ kỳ phát triển sản phẩm ngắn hơn vả tiết kiệm
Trang 22MỤC LỤC
DANH MUC THUAT NGU VIET TAT
LOT NOT BAU
CHUONG 1, M6 BAU
11 Giới thiệt
1.2 Giới thiệu về hệ thống công cụ tìm kiếm -
1.3 Lich sử phát triển hệ thống tìm kiểm
1.4 Kiến trúc và các bộ phận cấu thành của hệ thống công cu tim
1.5 Giới thiệu về cá nhân hóa
1.5.1 Giới thiệu về cá nhân hỏa tìm kiếm -
CHUONG 2 TÔNG QUAN CÁC KỸ THUẬT TÌM KIEM Vi (Ngb DUNG CA
NLLAN HOA CO SỬ DỤNG HỌC MÁY óc sec "¬
2.1 Các mô hình xếp hạng thông thường, ọcrreereecevaoev Ð
2.3.3 Phương pháp Pairwise và thuật loán SVMRark - 20
2.3.5 Blasticsearch T.carning to Ranik - - 23 3.3.6 Mô hình đặt ra cho hệ thống cá nhân hóa 23 CHUONG 3, PHAN TICH THIRT KR VA TRIFN KHAT HR THONG TIM
3.1 Mô hình tổng quan và kiến trúc hệ thông seo 26
3.2.2 Chức năng Indexing JGD ceeeeeeoeeoue.E
Trang 233.2.4 Chie nang Search slatishes 30
3.4 Thiết kế Strcam service và Ingest Fimetion 42
3.5 Thiết kế Runner (Crawler) cà niiiereeeiee "—
CHƯƠNG 4 KẾT QUẢ THỦ NGHIỆM VÀ ĐÁNH GIÁ ¬ 4.1 Triển khai hệ thống thử nghiệm cccecee ¬—-
4.1.1 Mô hình triển khai à.cncieeeeieeree _
4.1.2 Cầu hinh thứ nghiệm . o2 2 2v erertrrrrrrrrerrree Ad
4.2 Thủ nghiệm và kết quá 49 4.2.1 Lập chỉ mục nội dung website hiện tại 49 4.2.2 Lập chỉ mục nội dung bên ngoài -.]
Trang 24DANH MUC HiNH VE Hình 1.1 Mô hình tham khảo kiến trúc của hệ thống tim kiếm Google, theo
Tình 1.2 Ví dụ về cá nhân hóa ni erriirriirrrrree ¬ TE
Hình 2.3 Ví dụ vẻ kiến trúc của một Elasticscarch cluster " -
Hình 2.4 Sơ dễ dơn giản một hệ thống cá nhân hóa tìm kiểm wld
Hình 3.4 Sơ đỗ hoạt dòng Indexing Job 8
Hình 3.6 Sơ đỗ hoạt động Search statistics os 31 Tlinh 3.7 So dé hoạt động Request Arthentication icee 32
Linh 3.8 So dé hoat ding Request Traoking ~ee 34 Tinh 3.9 Mô hình theo dõi lịch sử truy vẫn của Personalization servioe 35 Linh 3.10 Mô hình học đề xếp hạng của Personalization serviee 35 Tĩỉnh 3.11 Ví đụ về danh sách đánh giá - -.36 Hình 3.12 Vector đặc trưng cho việc huấn luyện học để xếp hạng -.37
Hình 3.13 Một kết quả trọng số cáo đặc trưng cơ bản sau khi được huận lưyện bằng
Hình 3.14 Sơ đồ hoạt động Request routing forwarding - Al Hình 3.15 Sơ đã hoại động Surcam service - - S 42 Hinh 3.16 So dé hoat déng Ingest Function - AB
Hình 318 Sơ đã thiết slicseach cluster - 7
Hình 41 Kiến trúc hệ thống tìm kiếm triển khai thử nghiệm trên Avure 48
Hình 4.3 Kết quả 1 lần mdex toàn bộ website :s sec SỐ,
Hình 4.5 Kết quả thở ngÌiễm trên k6 io - 32
Tình 4.8 Kết quả tìm kiếm sau khi truy cập vào một số trang ngẫu nhiê
iv
Trang 26TÔI NÓI ĐẦU
doanh nghiệp, giữ khách truy cập ở đó và khiến họ hoán thành một hành động,
chẳng hạn như dăng ký hoặc mua sắm Điều nảy liên quan chặt ch dễn tối ưu hóa công cụ tim kiếm (SEO), thường duce goi là "quá trình cải thiện khã năng hiển thị của nội dung trang web trong kết quá tìm kiểm."
“Tuy nhiên một khỏ khăn của các đoanh nghiệp, đỏ là khả năng triển khai nhanh chóng một chức năng tim kiểm phủ hợp với mục dich sử dụng của doanh: nghiệp Những công cụ tìm kiểm phổ biến như Google, Bing là những hệ thống tin kiếm độc quyền thương mại, mã nguồn đông Các doanh nghiệp không thể tếp cận tới các giải pháp tìm kiểm độc quyền thương mại như vậy chỉ đề tích hợp với
hệ thông của chính minh Irong khi đỏ các nên tảng, thư viện tim kiểm miễn phi
và mã nguồn mở lại có yêu câu phúc tạp trong việc tích hợp và triển khai
VÌ vậy việc xây dựng một công cụ tìm kiếm dạng dịch vụ (SaaS) hỗ trợ khá
tràng tích hợp, cho phép các nha phát triển xây dụng các trải nghiệm tim kiểm trên
các trang web, các mang nội đun, các hệ thông bất kỳ nào có các đạng nội dung văn bản là nhụ câu thực tế Điều này mang đến trải nghiêm đồng nhất và tắt hơn
cho người dùng cuối, thú vị hơn chờ nhà phát triển, giầm bởi gánh nặng triển khai
và quản lý cho nhà quân trị, giúp chủ kỳ phát triển sản phẩm ngắn hơn vả tiết kiệm
Trang 27DANH MUC HiNH VE Hình 1.1 Mô hình tham khảo kiến trúc của hệ thống tim kiếm Google, theo
Tình 1.2 Ví dụ về cá nhân hóa ni erriirriirrrrree ¬ TE
Hình 2.3 Ví dụ vẻ kiến trúc của một Elasticscarch cluster " -
Hình 2.4 Sơ dễ dơn giản một hệ thống cá nhân hóa tìm kiểm wld
Hình 3.4 Sơ đỗ hoạt dòng Indexing Job 8
Hình 3.6 Sơ đỗ hoạt động Search statistics os 31 Tlinh 3.7 So dé hoạt động Request Arthentication icee 32
Linh 3.8 So dé hoat ding Request Traoking ~ee 34 Tinh 3.9 Mô hình theo dõi lịch sử truy vẫn của Personalization servioe 35 Linh 3.10 Mô hình học đề xếp hạng của Personalization serviee 35 Tĩỉnh 3.11 Ví đụ về danh sách đánh giá - -.36 Hình 3.12 Vector đặc trưng cho việc huấn luyện học để xếp hạng -.37
Hình 3.13 Một kết quả trọng số cáo đặc trưng cơ bản sau khi được huận lưyện bằng
Hình 3.14 Sơ đồ hoạt động Request routing forwarding - Al Hình 3.15 Sơ đã hoại động Surcam service - - S 42 Hinh 3.16 So dé hoat déng Ingest Function - AB
Hình 318 Sơ đã thiết slicseach cluster - 7
Hình 41 Kiến trúc hệ thống tìm kiếm triển khai thử nghiệm trên Avure 48
Hình 4.3 Kết quả 1 lần mdex toàn bộ website :s sec SỐ,
Hình 4.5 Kết quả thở ngÌiễm trên k6 io - 32
Tình 4.8 Kết quả tìm kiếm sau khi truy cập vào một số trang ngẫu nhiê
iv
Trang 28'Tôi cũng xim gửi lời cám ơn tới Trường Đại hoe Bach khoa Hà Nội, tới các
thầy cô tại Viên CNTTK&TT và bộ môn Truyền thông & Mạng máy tính đã truyền đạt cho tôi những kiến thức chuyên sáu về chuyên ngành trong suốt thời gian học tập đề tôi có những nên tảng kiến thức hỗ trợ cho tôi trong quá trình làm luận văn
thac si
Luan vin dược tải trợ bởi Qui Phát triển khoa học va công nghệ Quốc gia (NATOSTED) trong đề tài mã số 102.02-2019.314
Xin chan thanh câm ơn!
Hà Nội ngày thang năm 2021
Tae gid
Cao Ha Vink
Trang 29'Tôi cũng xim gửi lời cám ơn tới Trường Đại hoe Bach khoa Hà Nội, tới các
thầy cô tại Viên CNTTK&TT và bộ môn Truyền thông & Mạng máy tính đã truyền đạt cho tôi những kiến thức chuyên sáu về chuyên ngành trong suốt thời gian học tập đề tôi có những nên tảng kiến thức hỗ trợ cho tôi trong quá trình làm luận văn
thac si
Luan vin dược tải trợ bởi Qui Phát triển khoa học va công nghệ Quốc gia (NATOSTED) trong đề tài mã số 102.02-2019.314
Xin chan thanh câm ơn!
Hà Nội ngày thang năm 2021
Tae gid
Cao Ha Vink
Trang 30MỤC LỤC
DANH MUC THUAT NGU VIET TAT
LOT NOT BAU
CHUONG 1, M6 BAU
11 Giới thiệt
1.2 Giới thiệu về hệ thống công cụ tìm kiếm -
1.3 Lich sử phát triển hệ thống tìm kiểm
1.4 Kiến trúc và các bộ phận cấu thành của hệ thống công cu tim
1.5 Giới thiệu về cá nhân hóa
1.5.1 Giới thiệu về cá nhân hỏa tìm kiếm -
CHUONG 2 TÔNG QUAN CÁC KỸ THUẬT TÌM KIEM Vi (Ngb DUNG CA
NLLAN HOA CO SỬ DỤNG HỌC MÁY óc sec "¬
2.1 Các mô hình xếp hạng thông thường, ọcrreereecevaoev Ð
2.3.3 Phương pháp Pairwise và thuật loán SVMRark - 20
2.3.5 Blasticsearch T.carning to Ranik - - 23 3.3.6 Mô hình đặt ra cho hệ thống cá nhân hóa 23 CHUONG 3, PHAN TICH THIRT KR VA TRIFN KHAT HR THONG TIM
3.1 Mô hình tổng quan và kiến trúc hệ thông seo 26
3.2.2 Chức năng Indexing JGD ceeeeeeoeeoue.E
Trang 31DANH MUC HiNH VE Hình 1.1 Mô hình tham khảo kiến trúc của hệ thống tim kiếm Google, theo
Tình 1.2 Ví dụ về cá nhân hóa ni erriirriirrrrree ¬ TE
Hình 2.3 Ví dụ vẻ kiến trúc của một Elasticscarch cluster " -
Hình 2.4 Sơ dễ dơn giản một hệ thống cá nhân hóa tìm kiểm wld
Hình 3.4 Sơ đỗ hoạt dòng Indexing Job 8
Hình 3.6 Sơ đỗ hoạt động Search statistics os 31 Tlinh 3.7 So dé hoạt động Request Arthentication icee 32
Linh 3.8 So dé hoat ding Request Traoking ~ee 34 Tinh 3.9 Mô hình theo dõi lịch sử truy vẫn của Personalization servioe 35 Linh 3.10 Mô hình học đề xếp hạng của Personalization serviee 35 Tĩỉnh 3.11 Ví đụ về danh sách đánh giá - -.36 Hình 3.12 Vector đặc trưng cho việc huấn luyện học để xếp hạng -.37
Hình 3.13 Một kết quả trọng số cáo đặc trưng cơ bản sau khi được huận lưyện bằng
Hình 3.14 Sơ đồ hoạt động Request routing forwarding - Al Hình 3.15 Sơ đã hoại động Surcam service - - S 42 Hinh 3.16 So dé hoat déng Ingest Function - AB
Hình 318 Sơ đã thiết slicseach cluster - 7
Hình 41 Kiến trúc hệ thống tìm kiếm triển khai thử nghiệm trên Avure 48
Hình 4.3 Kết quả 1 lần mdex toàn bộ website :s sec SỐ,
Hình 4.5 Kết quả thở ngÌiễm trên k6 io - 32
Tình 4.8 Kết quả tìm kiếm sau khi truy cập vào một số trang ngẫu nhiê
iv
Trang 33TÔI NÓI ĐẦU
doanh nghiệp, giữ khách truy cập ở đó và khiến họ hoán thành một hành động,
chẳng hạn như dăng ký hoặc mua sắm Điều nảy liên quan chặt ch dễn tối ưu hóa công cụ tim kiếm (SEO), thường duce goi là "quá trình cải thiện khã năng hiển thị của nội dung trang web trong kết quá tìm kiểm."
“Tuy nhiên một khỏ khăn của các đoanh nghiệp, đỏ là khả năng triển khai nhanh chóng một chức năng tim kiểm phủ hợp với mục dich sử dụng của doanh: nghiệp Những công cụ tìm kiểm phổ biến như Google, Bing là những hệ thống tin kiếm độc quyền thương mại, mã nguồn đông Các doanh nghiệp không thể tếp cận tới các giải pháp tìm kiểm độc quyền thương mại như vậy chỉ đề tích hợp với
hệ thông của chính minh Irong khi đỏ các nên tảng, thư viện tim kiểm miễn phi
và mã nguồn mở lại có yêu câu phúc tạp trong việc tích hợp và triển khai
VÌ vậy việc xây dựng một công cụ tìm kiếm dạng dịch vụ (SaaS) hỗ trợ khá
tràng tích hợp, cho phép các nha phát triển xây dụng các trải nghiệm tim kiểm trên
các trang web, các mang nội đun, các hệ thông bất kỳ nào có các đạng nội dung văn bản là nhụ câu thực tế Điều này mang đến trải nghiêm đồng nhất và tắt hơn
cho người dùng cuối, thú vị hơn chờ nhà phát triển, giầm bởi gánh nặng triển khai
và quản lý cho nhà quân trị, giúp chủ kỳ phát triển sản phẩm ngắn hơn vả tiết kiệm
Trang 34TÔI NÓI ĐẦU
doanh nghiệp, giữ khách truy cập ở đó và khiến họ hoán thành một hành động,
chẳng hạn như dăng ký hoặc mua sắm Điều nảy liên quan chặt ch dễn tối ưu hóa công cụ tim kiếm (SEO), thường duce goi là "quá trình cải thiện khã năng hiển thị của nội dung trang web trong kết quá tìm kiểm."
“Tuy nhiên một khỏ khăn của các đoanh nghiệp, đỏ là khả năng triển khai nhanh chóng một chức năng tim kiểm phủ hợp với mục dich sử dụng của doanh: nghiệp Những công cụ tìm kiểm phổ biến như Google, Bing là những hệ thống tin kiếm độc quyền thương mại, mã nguồn đông Các doanh nghiệp không thể tếp cận tới các giải pháp tìm kiểm độc quyền thương mại như vậy chỉ đề tích hợp với
hệ thông của chính minh Irong khi đỏ các nên tảng, thư viện tim kiểm miễn phi
và mã nguồn mở lại có yêu câu phúc tạp trong việc tích hợp và triển khai
VÌ vậy việc xây dựng một công cụ tìm kiếm dạng dịch vụ (SaaS) hỗ trợ khá
tràng tích hợp, cho phép các nha phát triển xây dụng các trải nghiệm tim kiểm trên
các trang web, các mang nội đun, các hệ thông bất kỳ nào có các đạng nội dung văn bản là nhụ câu thực tế Điều này mang đến trải nghiêm đồng nhất và tắt hơn
cho người dùng cuối, thú vị hơn chờ nhà phát triển, giầm bởi gánh nặng triển khai
và quản lý cho nhà quân trị, giúp chủ kỳ phát triển sản phẩm ngắn hơn vả tiết kiệm
Trang 35TÔI NÓI ĐẦU
doanh nghiệp, giữ khách truy cập ở đó và khiến họ hoán thành một hành động,
chẳng hạn như dăng ký hoặc mua sắm Điều nảy liên quan chặt ch dễn tối ưu hóa công cụ tim kiếm (SEO), thường duce goi là "quá trình cải thiện khã năng hiển thị của nội dung trang web trong kết quá tìm kiểm."
“Tuy nhiên một khỏ khăn của các đoanh nghiệp, đỏ là khả năng triển khai nhanh chóng một chức năng tim kiểm phủ hợp với mục dich sử dụng của doanh: nghiệp Những công cụ tìm kiểm phổ biến như Google, Bing là những hệ thống tin kiếm độc quyền thương mại, mã nguồn đông Các doanh nghiệp không thể tếp cận tới các giải pháp tìm kiểm độc quyền thương mại như vậy chỉ đề tích hợp với
hệ thông của chính minh Irong khi đỏ các nên tảng, thư viện tim kiểm miễn phi
và mã nguồn mở lại có yêu câu phúc tạp trong việc tích hợp và triển khai
VÌ vậy việc xây dựng một công cụ tìm kiếm dạng dịch vụ (SaaS) hỗ trợ khá
tràng tích hợp, cho phép các nha phát triển xây dụng các trải nghiệm tim kiểm trên
các trang web, các mang nội đun, các hệ thông bất kỳ nào có các đạng nội dung văn bản là nhụ câu thực tế Điều này mang đến trải nghiêm đồng nhất và tắt hơn
cho người dùng cuối, thú vị hơn chờ nhà phát triển, giầm bởi gánh nặng triển khai
và quản lý cho nhà quân trị, giúp chủ kỳ phát triển sản phẩm ngắn hơn vả tiết kiệm
Trang 36'Tôi cũng xim gửi lời cám ơn tới Trường Đại hoe Bach khoa Hà Nội, tới các
thầy cô tại Viên CNTTK&TT và bộ môn Truyền thông & Mạng máy tính đã truyền đạt cho tôi những kiến thức chuyên sáu về chuyên ngành trong suốt thời gian học tập đề tôi có những nên tảng kiến thức hỗ trợ cho tôi trong quá trình làm luận văn
thac si
Luan vin dược tải trợ bởi Qui Phát triển khoa học va công nghệ Quốc gia (NATOSTED) trong đề tài mã số 102.02-2019.314
Xin chan thanh câm ơn!
Hà Nội ngày thang năm 2021
Tae gid
Cao Ha Vink
Trang 373.2.4 Chie nang Search slatishes 30
3.4 Thiết kế Strcam service và Ingest Fimetion 42
3.5 Thiết kế Runner (Crawler) cà niiiereeeiee "—
CHƯƠNG 4 KẾT QUẢ THỦ NGHIỆM VÀ ĐÁNH GIÁ ¬ 4.1 Triển khai hệ thống thử nghiệm cccecee ¬—-
4.1.1 Mô hình triển khai à.cncieeeeieeree _
4.1.2 Cầu hinh thứ nghiệm . o2 2 2v erertrrrrrrrrerrree Ad
4.2 Thủ nghiệm và kết quá 49 4.2.1 Lập chỉ mục nội dung website hiện tại 49 4.2.2 Lập chỉ mục nội dung bên ngoài -.]