1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn cá nhân hóa tìm kiếm sử dụng các kỹ thuật học máy

75 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Luận văn cá nhân hóa tìm kiếm sử dụng các kỹ thuật học máy
Tác giả Cao Hà Vĩnh
Người hướng dẫn TS. Trần Hải Anh
Trường học Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành Công nghệ thông tin
Thể loại Luận văn
Năm xuất bản 2021
Thành phố Hà Nội
Định dạng
Số trang 75
Dung lượng 281,66 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Điều nảy liên quan chặt ch dễn tối ưu hóa công cụ tim kiếm SEO, thường duce goi là "quá trình cải thiện khã năng hiển thị của nội dung trang web trong kết quá tìm kiểm." “Tuy nhiên một k

Trang 1

TRƯỜNG DẠI HỌC BÁCH KIIOA IIÀ NỘI

LUẬN VĂN THẠC SĨ

Cá nhân hóa tìm kiếm sử dụng các kỹ

thuật học máy

CAO HÀ VĨNH Ngành Công nghệ thông tin

Giảng viên hưởng din: TS, Tran Hải Anh

Công nghệ thông tin và truyền thng

HA NOI, 2021

Trang 2

TRUONG BAI HOC BACH KHOA HA NOT

LUAN VAN THAC Si

Cá nhân hóa tìm kiếm sử dụng các kỹ

thuật học máy

CAO HÀ VĨNH Ngành Công nghệ thông tin

Giảng viên hưởng dẫn: 1S Trần Hải Anh

“Chủ ky cia GVHD

HÀ NỘI, 2021

Trang 3

CONG HOA XA HỘI CHỦ NGHĨA VIỆT NAM

Độc lập — Tự do — Hạnh phức

BẢN XÁC NHẬN CHÍNH SỬA LUẬN VĂN THẠC SĨ

Tio va tén tac giá luận văn: Cao Hà Vĩnh

4 nhân hóa tìm kiếm sử dụng các kỹ thuật học máy

Đề tài luận văn:

Chuyên ngành: Mạng máy tính và An toàn thông tin

Ma so HV: CBL80206

‘Tae gia, Người hướng dan khoa học và Héi déng chm luận văn xác nhận tác giả dã sửa chửa, bỗ sung luận vẫn theo biên bản họp Hội dồng ngày

27/04/2021 với các nội dụng sau:

nột số thuật loán học để xếp hạng khác nhan:

«© Bổ sung gidi th

«_ Bổ sung tham số cài đặt, mé ta dir ligu hudn Iuyén thuat toan SVM

«œ Bổ sung, chỉnh sửa các lưn chế và hưởng phát triển ở phần kết luận

© Chỉnh sửa định đạng clmản luận văn và sửa lỗi chính tả

Ngàp thẳng nềm 2021

CHỦ TỊCH HỘI ĐÓNG

PGS.TS Nguyễn Linh Giang

Trang 4

MỤC LỤC

DANH MUC THUAT NGU VIET TAT

LOT NOT BAU

CHUONG 1, M6 BAU

11 Giới thiệt

1.2 Giới thiệu về hệ thống công cụ tìm kiếm -

1.3 Lich sử phát triển hệ thống tìm kiểm

1.4 Kiến trúc và các bộ phận cấu thành của hệ thống công cu tim

1.5 Giới thiệu về cá nhân hóa

1.5.1 Giới thiệu về cá nhân hỏa tìm kiếm -

CHUONG 2 TÔNG QUAN CÁC KỸ THUẬT TÌM KIEM Vi (Ngb DUNG CA

NLLAN HOA CO SỬ DỤNG HỌC MÁY óc sec "¬

2.1 Các mô hình xếp hạng thông thường, ọcrreereecevaoev Ð

2.3.3 Phương pháp Pairwise và thuật loán SVMRark - 20

2.3.5 Blasticsearch T.carning to Ranik - - 23 3.3.6 Mô hình đặt ra cho hệ thống cá nhân hóa 23 CHUONG 3, PHAN TICH THIRT KR VA TRIFN KHAT HR THONG TIM

3.1 Mô hình tổng quan và kiến trúc hệ thông seo 26

3.2.2 Chức năng Indexing JGD ceeeeeeoeeoue.E

Trang 7

DANH MUC THUAT NGU VIET TAT

IR Truy xuat thong tin — Information Retrieval

SaaS Phan mềm đạng địch vụ, là một mô hình điện toán đảm mây

— Software as a Service

SEO Tôi ưu hỏa céng cu tim kiém — Search Engine Optimization

Machine VMSS Một tập hợp các máy ao giong nhau cd kha nang nhan ban

dé mo réng quy m6 — Virtual Machine scale set

BM25 Một hàm tỉnh thử hạng được sử dụng đề xếp hạng các văn

ban — Best matching CRUD Bon chute nang co ban ctia lu trit lién tue — Create, Read, Update, Delete

Trang 8

'Tôi cũng xim gửi lời cám ơn tới Trường Đại hoe Bach khoa Hà Nội, tới các

thầy cô tại Viên CNTTK&TT và bộ môn Truyền thông & Mạng máy tính đã truyền đạt cho tôi những kiến thức chuyên sáu về chuyên ngành trong suốt thời gian học tập đề tôi có những nên tảng kiến thức hỗ trợ cho tôi trong quá trình làm luận văn

thac si

Luan vin dược tải trợ bởi Qui Phát triển khoa học va công nghệ Quốc gia (NATOSTED) trong đề tài mã số 102.02-2019.314

Xin chan thanh câm ơn!

Hà Nội ngày thang năm 2021

Tae gid

Cao Ha Vink

Trang 9

MỤC LỤC

DANH MUC THUAT NGU VIET TAT

LOT NOT BAU

CHUONG 1, M6 BAU

11 Giới thiệt

1.2 Giới thiệu về hệ thống công cụ tìm kiếm -

1.3 Lich sử phát triển hệ thống tìm kiểm

1.4 Kiến trúc và các bộ phận cấu thành của hệ thống công cu tim

1.5 Giới thiệu về cá nhân hóa

1.5.1 Giới thiệu về cá nhân hỏa tìm kiếm -

CHUONG 2 TÔNG QUAN CÁC KỸ THUẬT TÌM KIEM Vi (Ngb DUNG CA

NLLAN HOA CO SỬ DỤNG HỌC MÁY óc sec "¬

2.1 Các mô hình xếp hạng thông thường, ọcrreereecevaoev Ð

2.3.3 Phương pháp Pairwise và thuật loán SVMRark - 20

2.3.5 Blasticsearch T.carning to Ranik - - 23 3.3.6 Mô hình đặt ra cho hệ thống cá nhân hóa 23 CHUONG 3, PHAN TICH THIRT KR VA TRIFN KHAT HR THONG TIM

3.1 Mô hình tổng quan và kiến trúc hệ thông seo 26

3.2.2 Chức năng Indexing JGD ceeeeeeoeeoue.E

Trang 10

DANH MUC HiNH VE Hình 1.1 Mô hình tham khảo kiến trúc của hệ thống tim kiếm Google, theo

Tình 1.2 Ví dụ về cá nhân hóa ni erriirriirrrrree ¬ TE

Hình 2.3 Ví dụ vẻ kiến trúc của một Elasticscarch cluster " -

Hình 2.4 Sơ dễ dơn giản một hệ thống cá nhân hóa tìm kiểm wld

Hình 3.4 Sơ đỗ hoạt dòng Indexing Job 8

Hình 3.6 Sơ đỗ hoạt động Search statistics os 31 Tlinh 3.7 So dé hoạt động Request Arthentication icee 32

Linh 3.8 So dé hoat ding Request Traoking ~ee 34 Tinh 3.9 Mô hình theo dõi lịch sử truy vẫn của Personalization servioe 35 Linh 3.10 Mô hình học đề xếp hạng của Personalization serviee 35 Tĩỉnh 3.11 Ví đụ về danh sách đánh giá - -.36 Hình 3.12 Vector đặc trưng cho việc huấn luyện học để xếp hạng -.37

Hình 3.13 Một kết quả trọng số cáo đặc trưng cơ bản sau khi được huận lưyện bằng

Hình 3.14 Sơ đồ hoạt động Request routing forwarding - Al Hình 3.15 Sơ đã hoại động Surcam service - - S 42 Hinh 3.16 So dé hoat déng Ingest Function - AB

Hình 318 Sơ đã thiết slicseach cluster - 7

Hình 41 Kiến trúc hệ thống tìm kiếm triển khai thử nghiệm trên Avure 48

Hình 4.3 Kết quả 1 lần mdex toàn bộ website :s sec SỐ,

Hình 4.5 Kết quả thở ngÌiễm trên k6 io - 32

Tình 4.8 Kết quả tìm kiếm sau khi truy cập vào một số trang ngẫu nhiê

iv

Trang 11

3.2.4 Chie nang Search slatishes 30

3.4 Thiết kế Strcam service và Ingest Fimetion 42

3.5 Thiết kế Runner (Crawler) cà niiiereeeiee "—

CHƯƠNG 4 KẾT QUẢ THỦ NGHIỆM VÀ ĐÁNH GIÁ ¬ 4.1 Triển khai hệ thống thử nghiệm cccecee ¬—-

4.1.1 Mô hình triển khai à.cncieeeeieeree _

4.1.2 Cầu hinh thứ nghiệm . o2 2 2v erertrrrrrrrrerrree Ad

4.2 Thủ nghiệm và kết quá 49 4.2.1 Lập chỉ mục nội dung website hiện tại 49 4.2.2 Lập chỉ mục nội dung bên ngoài -.]

Trang 12

DANH MUC HiNH VE Hình 1.1 Mô hình tham khảo kiến trúc của hệ thống tim kiếm Google, theo

Tình 1.2 Ví dụ về cá nhân hóa ni erriirriirrrrree ¬ TE

Hình 2.3 Ví dụ vẻ kiến trúc của một Elasticscarch cluster " -

Hình 2.4 Sơ dễ dơn giản một hệ thống cá nhân hóa tìm kiểm wld

Hình 3.4 Sơ đỗ hoạt dòng Indexing Job 8

Hình 3.6 Sơ đỗ hoạt động Search statistics os 31 Tlinh 3.7 So dé hoạt động Request Arthentication icee 32

Linh 3.8 So dé hoat ding Request Traoking ~ee 34 Tinh 3.9 Mô hình theo dõi lịch sử truy vẫn của Personalization servioe 35 Linh 3.10 Mô hình học đề xếp hạng của Personalization serviee 35 Tĩỉnh 3.11 Ví đụ về danh sách đánh giá - -.36 Hình 3.12 Vector đặc trưng cho việc huấn luyện học để xếp hạng -.37

Hình 3.13 Một kết quả trọng số cáo đặc trưng cơ bản sau khi được huận lưyện bằng

Hình 3.14 Sơ đồ hoạt động Request routing forwarding - Al Hình 3.15 Sơ đã hoại động Surcam service - - S 42 Hinh 3.16 So dé hoat déng Ingest Function - AB

Hình 318 Sơ đã thiết slicseach cluster - 7

Hình 41 Kiến trúc hệ thống tìm kiếm triển khai thử nghiệm trên Avure 48

Hình 4.3 Kết quả 1 lần mdex toàn bộ website :s sec SỐ,

Hình 4.5 Kết quả thở ngÌiễm trên k6 io - 32

Tình 4.8 Kết quả tìm kiếm sau khi truy cập vào một số trang ngẫu nhiê

iv

Trang 14

DANH MUC THUAT NGU VIET TAT

IR Truy xuat thong tin — Information Retrieval

SaaS Phan mềm đạng địch vụ, là một mô hình điện toán đảm mây

— Software as a Service

SEO Tôi ưu hỏa céng cu tim kiém — Search Engine Optimization

Machine VMSS Một tập hợp các máy ao giong nhau cd kha nang nhan ban

dé mo réng quy m6 — Virtual Machine scale set

BM25 Một hàm tỉnh thử hạng được sử dụng đề xếp hạng các văn

ban — Best matching CRUD Bon chute nang co ban ctia lu trit lién tue — Create, Read, Update, Delete

Trang 15

TÔI NÓI ĐẦU

doanh nghiệp, giữ khách truy cập ở đó và khiến họ hoán thành một hành động,

chẳng hạn như dăng ký hoặc mua sắm Điều nảy liên quan chặt ch dễn tối ưu hóa công cụ tim kiếm (SEO), thường duce goi là "quá trình cải thiện khã năng hiển thị của nội dung trang web trong kết quá tìm kiểm."

“Tuy nhiên một khỏ khăn của các đoanh nghiệp, đỏ là khả năng triển khai nhanh chóng một chức năng tim kiểm phủ hợp với mục dich sử dụng của doanh: nghiệp Những công cụ tìm kiểm phổ biến như Google, Bing là những hệ thống tin kiếm độc quyền thương mại, mã nguồn đông Các doanh nghiệp không thể tếp cận tới các giải pháp tìm kiểm độc quyền thương mại như vậy chỉ đề tích hợp với

hệ thông của chính minh Irong khi đỏ các nên tảng, thư viện tim kiểm miễn phi

và mã nguồn mở lại có yêu câu phúc tạp trong việc tích hợp và triển khai

VÌ vậy việc xây dựng một công cụ tìm kiếm dạng dịch vụ (SaaS) hỗ trợ khá

tràng tích hợp, cho phép các nha phát triển xây dụng các trải nghiệm tim kiểm trên

các trang web, các mang nội đun, các hệ thông bất kỳ nào có các đạng nội dung văn bản là nhụ câu thực tế Điều này mang đến trải nghiêm đồng nhất và tắt hơn

cho người dùng cuối, thú vị hơn chờ nhà phát triển, giầm bởi gánh nặng triển khai

và quản lý cho nhà quân trị, giúp chủ kỳ phát triển sản phẩm ngắn hơn vả tiết kiệm

Trang 16

'Tôi cũng xim gửi lời cám ơn tới Trường Đại hoe Bach khoa Hà Nội, tới các

thầy cô tại Viên CNTTK&TT và bộ môn Truyền thông & Mạng máy tính đã truyền đạt cho tôi những kiến thức chuyên sáu về chuyên ngành trong suốt thời gian học tập đề tôi có những nên tảng kiến thức hỗ trợ cho tôi trong quá trình làm luận văn

thac si

Luan vin dược tải trợ bởi Qui Phát triển khoa học va công nghệ Quốc gia (NATOSTED) trong đề tài mã số 102.02-2019.314

Xin chan thanh câm ơn!

Hà Nội ngày thang năm 2021

Tae gid

Cao Ha Vink

Trang 17

MỤC LỤC

DANH MUC THUAT NGU VIET TAT

LOT NOT BAU

CHUONG 1, M6 BAU

11 Giới thiệt

1.2 Giới thiệu về hệ thống công cụ tìm kiếm -

1.3 Lich sử phát triển hệ thống tìm kiểm

1.4 Kiến trúc và các bộ phận cấu thành của hệ thống công cu tim

1.5 Giới thiệu về cá nhân hóa

1.5.1 Giới thiệu về cá nhân hỏa tìm kiếm -

CHUONG 2 TÔNG QUAN CÁC KỸ THUẬT TÌM KIEM Vi (Ngb DUNG CA

NLLAN HOA CO SỬ DỤNG HỌC MÁY óc sec "¬

2.1 Các mô hình xếp hạng thông thường, ọcrreereecevaoev Ð

2.3.3 Phương pháp Pairwise và thuật loán SVMRark - 20

2.3.5 Blasticsearch T.carning to Ranik - - 23 3.3.6 Mô hình đặt ra cho hệ thống cá nhân hóa 23 CHUONG 3, PHAN TICH THIRT KR VA TRIFN KHAT HR THONG TIM

3.1 Mô hình tổng quan và kiến trúc hệ thông seo 26

3.2.2 Chức năng Indexing JGD ceeeeeeoeeoue.E

Trang 18

'Tôi cũng xim gửi lời cám ơn tới Trường Đại hoe Bach khoa Hà Nội, tới các

thầy cô tại Viên CNTTK&TT và bộ môn Truyền thông & Mạng máy tính đã truyền đạt cho tôi những kiến thức chuyên sáu về chuyên ngành trong suốt thời gian học tập đề tôi có những nên tảng kiến thức hỗ trợ cho tôi trong quá trình làm luận văn

thac si

Luan vin dược tải trợ bởi Qui Phát triển khoa học va công nghệ Quốc gia (NATOSTED) trong đề tài mã số 102.02-2019.314

Xin chan thanh câm ơn!

Hà Nội ngày thang năm 2021

Tae gid

Cao Ha Vink

Trang 19

DANH MUC HiNH VE Hình 1.1 Mô hình tham khảo kiến trúc của hệ thống tim kiếm Google, theo

Tình 1.2 Ví dụ về cá nhân hóa ni erriirriirrrrree ¬ TE

Hình 2.3 Ví dụ vẻ kiến trúc của một Elasticscarch cluster " -

Hình 2.4 Sơ dễ dơn giản một hệ thống cá nhân hóa tìm kiểm wld

Hình 3.4 Sơ đỗ hoạt dòng Indexing Job 8

Hình 3.6 Sơ đỗ hoạt động Search statistics os 31 Tlinh 3.7 So dé hoạt động Request Arthentication icee 32

Linh 3.8 So dé hoat ding Request Traoking ~ee 34 Tinh 3.9 Mô hình theo dõi lịch sử truy vẫn của Personalization servioe 35 Linh 3.10 Mô hình học đề xếp hạng của Personalization serviee 35 Tĩỉnh 3.11 Ví đụ về danh sách đánh giá - -.36 Hình 3.12 Vector đặc trưng cho việc huấn luyện học để xếp hạng -.37

Hình 3.13 Một kết quả trọng số cáo đặc trưng cơ bản sau khi được huận lưyện bằng

Hình 3.14 Sơ đồ hoạt động Request routing forwarding - Al Hình 3.15 Sơ đã hoại động Surcam service - - S 42 Hinh 3.16 So dé hoat déng Ingest Function - AB

Hình 318 Sơ đã thiết slicseach cluster - 7

Hình 41 Kiến trúc hệ thống tìm kiếm triển khai thử nghiệm trên Avure 48

Hình 4.3 Kết quả 1 lần mdex toàn bộ website :s sec SỐ,

Hình 4.5 Kết quả thở ngÌiễm trên k6 io - 32

Tình 4.8 Kết quả tìm kiếm sau khi truy cập vào một số trang ngẫu nhiê

iv

Trang 20

'Tôi cũng xim gửi lời cám ơn tới Trường Đại hoe Bach khoa Hà Nội, tới các

thầy cô tại Viên CNTTK&TT và bộ môn Truyền thông & Mạng máy tính đã truyền đạt cho tôi những kiến thức chuyên sáu về chuyên ngành trong suốt thời gian học tập đề tôi có những nên tảng kiến thức hỗ trợ cho tôi trong quá trình làm luận văn

thac si

Luan vin dược tải trợ bởi Qui Phát triển khoa học va công nghệ Quốc gia (NATOSTED) trong đề tài mã số 102.02-2019.314

Xin chan thanh câm ơn!

Hà Nội ngày thang năm 2021

Tae gid

Cao Ha Vink

Trang 21

TÔI NÓI ĐẦU

doanh nghiệp, giữ khách truy cập ở đó và khiến họ hoán thành một hành động,

chẳng hạn như dăng ký hoặc mua sắm Điều nảy liên quan chặt ch dễn tối ưu hóa công cụ tim kiếm (SEO), thường duce goi là "quá trình cải thiện khã năng hiển thị của nội dung trang web trong kết quá tìm kiểm."

“Tuy nhiên một khỏ khăn của các đoanh nghiệp, đỏ là khả năng triển khai nhanh chóng một chức năng tim kiểm phủ hợp với mục dich sử dụng của doanh: nghiệp Những công cụ tìm kiểm phổ biến như Google, Bing là những hệ thống tin kiếm độc quyền thương mại, mã nguồn đông Các doanh nghiệp không thể tếp cận tới các giải pháp tìm kiểm độc quyền thương mại như vậy chỉ đề tích hợp với

hệ thông của chính minh Irong khi đỏ các nên tảng, thư viện tim kiểm miễn phi

và mã nguồn mở lại có yêu câu phúc tạp trong việc tích hợp và triển khai

VÌ vậy việc xây dựng một công cụ tìm kiếm dạng dịch vụ (SaaS) hỗ trợ khá

tràng tích hợp, cho phép các nha phát triển xây dụng các trải nghiệm tim kiểm trên

các trang web, các mang nội đun, các hệ thông bất kỳ nào có các đạng nội dung văn bản là nhụ câu thực tế Điều này mang đến trải nghiêm đồng nhất và tắt hơn

cho người dùng cuối, thú vị hơn chờ nhà phát triển, giầm bởi gánh nặng triển khai

và quản lý cho nhà quân trị, giúp chủ kỳ phát triển sản phẩm ngắn hơn vả tiết kiệm

Trang 22

MỤC LỤC

DANH MUC THUAT NGU VIET TAT

LOT NOT BAU

CHUONG 1, M6 BAU

11 Giới thiệt

1.2 Giới thiệu về hệ thống công cụ tìm kiếm -

1.3 Lich sử phát triển hệ thống tìm kiểm

1.4 Kiến trúc và các bộ phận cấu thành của hệ thống công cu tim

1.5 Giới thiệu về cá nhân hóa

1.5.1 Giới thiệu về cá nhân hỏa tìm kiếm -

CHUONG 2 TÔNG QUAN CÁC KỸ THUẬT TÌM KIEM Vi (Ngb DUNG CA

NLLAN HOA CO SỬ DỤNG HỌC MÁY óc sec "¬

2.1 Các mô hình xếp hạng thông thường, ọcrreereecevaoev Ð

2.3.3 Phương pháp Pairwise và thuật loán SVMRark - 20

2.3.5 Blasticsearch T.carning to Ranik - - 23 3.3.6 Mô hình đặt ra cho hệ thống cá nhân hóa 23 CHUONG 3, PHAN TICH THIRT KR VA TRIFN KHAT HR THONG TIM

3.1 Mô hình tổng quan và kiến trúc hệ thông seo 26

3.2.2 Chức năng Indexing JGD ceeeeeeoeeoue.E

Trang 23

3.2.4 Chie nang Search slatishes 30

3.4 Thiết kế Strcam service và Ingest Fimetion 42

3.5 Thiết kế Runner (Crawler) cà niiiereeeiee "—

CHƯƠNG 4 KẾT QUẢ THỦ NGHIỆM VÀ ĐÁNH GIÁ ¬ 4.1 Triển khai hệ thống thử nghiệm cccecee ¬—-

4.1.1 Mô hình triển khai à.cncieeeeieeree _

4.1.2 Cầu hinh thứ nghiệm . o2 2 2v erertrrrrrrrrerrree Ad

4.2 Thủ nghiệm và kết quá 49 4.2.1 Lập chỉ mục nội dung website hiện tại 49 4.2.2 Lập chỉ mục nội dung bên ngoài -.]

Trang 24

DANH MUC HiNH VE Hình 1.1 Mô hình tham khảo kiến trúc của hệ thống tim kiếm Google, theo

Tình 1.2 Ví dụ về cá nhân hóa ni erriirriirrrrree ¬ TE

Hình 2.3 Ví dụ vẻ kiến trúc của một Elasticscarch cluster " -

Hình 2.4 Sơ dễ dơn giản một hệ thống cá nhân hóa tìm kiểm wld

Hình 3.4 Sơ đỗ hoạt dòng Indexing Job 8

Hình 3.6 Sơ đỗ hoạt động Search statistics os 31 Tlinh 3.7 So dé hoạt động Request Arthentication icee 32

Linh 3.8 So dé hoat ding Request Traoking ~ee 34 Tinh 3.9 Mô hình theo dõi lịch sử truy vẫn của Personalization servioe 35 Linh 3.10 Mô hình học đề xếp hạng của Personalization serviee 35 Tĩỉnh 3.11 Ví đụ về danh sách đánh giá - -.36 Hình 3.12 Vector đặc trưng cho việc huấn luyện học để xếp hạng -.37

Hình 3.13 Một kết quả trọng số cáo đặc trưng cơ bản sau khi được huận lưyện bằng

Hình 3.14 Sơ đồ hoạt động Request routing forwarding - Al Hình 3.15 Sơ đã hoại động Surcam service - - S 42 Hinh 3.16 So dé hoat déng Ingest Function - AB

Hình 318 Sơ đã thiết slicseach cluster - 7

Hình 41 Kiến trúc hệ thống tìm kiếm triển khai thử nghiệm trên Avure 48

Hình 4.3 Kết quả 1 lần mdex toàn bộ website :s sec SỐ,

Hình 4.5 Kết quả thở ngÌiễm trên k6 io - 32

Tình 4.8 Kết quả tìm kiếm sau khi truy cập vào một số trang ngẫu nhiê

iv

Trang 26

TÔI NÓI ĐẦU

doanh nghiệp, giữ khách truy cập ở đó và khiến họ hoán thành một hành động,

chẳng hạn như dăng ký hoặc mua sắm Điều nảy liên quan chặt ch dễn tối ưu hóa công cụ tim kiếm (SEO), thường duce goi là "quá trình cải thiện khã năng hiển thị của nội dung trang web trong kết quá tìm kiểm."

“Tuy nhiên một khỏ khăn của các đoanh nghiệp, đỏ là khả năng triển khai nhanh chóng một chức năng tim kiểm phủ hợp với mục dich sử dụng của doanh: nghiệp Những công cụ tìm kiểm phổ biến như Google, Bing là những hệ thống tin kiếm độc quyền thương mại, mã nguồn đông Các doanh nghiệp không thể tếp cận tới các giải pháp tìm kiểm độc quyền thương mại như vậy chỉ đề tích hợp với

hệ thông của chính minh Irong khi đỏ các nên tảng, thư viện tim kiểm miễn phi

và mã nguồn mở lại có yêu câu phúc tạp trong việc tích hợp và triển khai

VÌ vậy việc xây dựng một công cụ tìm kiếm dạng dịch vụ (SaaS) hỗ trợ khá

tràng tích hợp, cho phép các nha phát triển xây dụng các trải nghiệm tim kiểm trên

các trang web, các mang nội đun, các hệ thông bất kỳ nào có các đạng nội dung văn bản là nhụ câu thực tế Điều này mang đến trải nghiêm đồng nhất và tắt hơn

cho người dùng cuối, thú vị hơn chờ nhà phát triển, giầm bởi gánh nặng triển khai

và quản lý cho nhà quân trị, giúp chủ kỳ phát triển sản phẩm ngắn hơn vả tiết kiệm

Trang 27

DANH MUC HiNH VE Hình 1.1 Mô hình tham khảo kiến trúc của hệ thống tim kiếm Google, theo

Tình 1.2 Ví dụ về cá nhân hóa ni erriirriirrrrree ¬ TE

Hình 2.3 Ví dụ vẻ kiến trúc của một Elasticscarch cluster " -

Hình 2.4 Sơ dễ dơn giản một hệ thống cá nhân hóa tìm kiểm wld

Hình 3.4 Sơ đỗ hoạt dòng Indexing Job 8

Hình 3.6 Sơ đỗ hoạt động Search statistics os 31 Tlinh 3.7 So dé hoạt động Request Arthentication icee 32

Linh 3.8 So dé hoat ding Request Traoking ~ee 34 Tinh 3.9 Mô hình theo dõi lịch sử truy vẫn của Personalization servioe 35 Linh 3.10 Mô hình học đề xếp hạng của Personalization serviee 35 Tĩỉnh 3.11 Ví đụ về danh sách đánh giá - -.36 Hình 3.12 Vector đặc trưng cho việc huấn luyện học để xếp hạng -.37

Hình 3.13 Một kết quả trọng số cáo đặc trưng cơ bản sau khi được huận lưyện bằng

Hình 3.14 Sơ đồ hoạt động Request routing forwarding - Al Hình 3.15 Sơ đã hoại động Surcam service - - S 42 Hinh 3.16 So dé hoat déng Ingest Function - AB

Hình 318 Sơ đã thiết slicseach cluster - 7

Hình 41 Kiến trúc hệ thống tìm kiếm triển khai thử nghiệm trên Avure 48

Hình 4.3 Kết quả 1 lần mdex toàn bộ website :s sec SỐ,

Hình 4.5 Kết quả thở ngÌiễm trên k6 io - 32

Tình 4.8 Kết quả tìm kiếm sau khi truy cập vào một số trang ngẫu nhiê

iv

Trang 28

'Tôi cũng xim gửi lời cám ơn tới Trường Đại hoe Bach khoa Hà Nội, tới các

thầy cô tại Viên CNTTK&TT và bộ môn Truyền thông & Mạng máy tính đã truyền đạt cho tôi những kiến thức chuyên sáu về chuyên ngành trong suốt thời gian học tập đề tôi có những nên tảng kiến thức hỗ trợ cho tôi trong quá trình làm luận văn

thac si

Luan vin dược tải trợ bởi Qui Phát triển khoa học va công nghệ Quốc gia (NATOSTED) trong đề tài mã số 102.02-2019.314

Xin chan thanh câm ơn!

Hà Nội ngày thang năm 2021

Tae gid

Cao Ha Vink

Trang 29

'Tôi cũng xim gửi lời cám ơn tới Trường Đại hoe Bach khoa Hà Nội, tới các

thầy cô tại Viên CNTTK&TT và bộ môn Truyền thông & Mạng máy tính đã truyền đạt cho tôi những kiến thức chuyên sáu về chuyên ngành trong suốt thời gian học tập đề tôi có những nên tảng kiến thức hỗ trợ cho tôi trong quá trình làm luận văn

thac si

Luan vin dược tải trợ bởi Qui Phát triển khoa học va công nghệ Quốc gia (NATOSTED) trong đề tài mã số 102.02-2019.314

Xin chan thanh câm ơn!

Hà Nội ngày thang năm 2021

Tae gid

Cao Ha Vink

Trang 30

MỤC LỤC

DANH MUC THUAT NGU VIET TAT

LOT NOT BAU

CHUONG 1, M6 BAU

11 Giới thiệt

1.2 Giới thiệu về hệ thống công cụ tìm kiếm -

1.3 Lich sử phát triển hệ thống tìm kiểm

1.4 Kiến trúc và các bộ phận cấu thành của hệ thống công cu tim

1.5 Giới thiệu về cá nhân hóa

1.5.1 Giới thiệu về cá nhân hỏa tìm kiếm -

CHUONG 2 TÔNG QUAN CÁC KỸ THUẬT TÌM KIEM Vi (Ngb DUNG CA

NLLAN HOA CO SỬ DỤNG HỌC MÁY óc sec "¬

2.1 Các mô hình xếp hạng thông thường, ọcrreereecevaoev Ð

2.3.3 Phương pháp Pairwise và thuật loán SVMRark - 20

2.3.5 Blasticsearch T.carning to Ranik - - 23 3.3.6 Mô hình đặt ra cho hệ thống cá nhân hóa 23 CHUONG 3, PHAN TICH THIRT KR VA TRIFN KHAT HR THONG TIM

3.1 Mô hình tổng quan và kiến trúc hệ thông seo 26

3.2.2 Chức năng Indexing JGD ceeeeeeoeeoue.E

Trang 31

DANH MUC HiNH VE Hình 1.1 Mô hình tham khảo kiến trúc của hệ thống tim kiếm Google, theo

Tình 1.2 Ví dụ về cá nhân hóa ni erriirriirrrrree ¬ TE

Hình 2.3 Ví dụ vẻ kiến trúc của một Elasticscarch cluster " -

Hình 2.4 Sơ dễ dơn giản một hệ thống cá nhân hóa tìm kiểm wld

Hình 3.4 Sơ đỗ hoạt dòng Indexing Job 8

Hình 3.6 Sơ đỗ hoạt động Search statistics os 31 Tlinh 3.7 So dé hoạt động Request Arthentication icee 32

Linh 3.8 So dé hoat ding Request Traoking ~ee 34 Tinh 3.9 Mô hình theo dõi lịch sử truy vẫn của Personalization servioe 35 Linh 3.10 Mô hình học đề xếp hạng của Personalization serviee 35 Tĩỉnh 3.11 Ví đụ về danh sách đánh giá - -.36 Hình 3.12 Vector đặc trưng cho việc huấn luyện học để xếp hạng -.37

Hình 3.13 Một kết quả trọng số cáo đặc trưng cơ bản sau khi được huận lưyện bằng

Hình 3.14 Sơ đồ hoạt động Request routing forwarding - Al Hình 3.15 Sơ đã hoại động Surcam service - - S 42 Hinh 3.16 So dé hoat déng Ingest Function - AB

Hình 318 Sơ đã thiết slicseach cluster - 7

Hình 41 Kiến trúc hệ thống tìm kiếm triển khai thử nghiệm trên Avure 48

Hình 4.3 Kết quả 1 lần mdex toàn bộ website :s sec SỐ,

Hình 4.5 Kết quả thở ngÌiễm trên k6 io - 32

Tình 4.8 Kết quả tìm kiếm sau khi truy cập vào một số trang ngẫu nhiê

iv

Trang 33

TÔI NÓI ĐẦU

doanh nghiệp, giữ khách truy cập ở đó và khiến họ hoán thành một hành động,

chẳng hạn như dăng ký hoặc mua sắm Điều nảy liên quan chặt ch dễn tối ưu hóa công cụ tim kiếm (SEO), thường duce goi là "quá trình cải thiện khã năng hiển thị của nội dung trang web trong kết quá tìm kiểm."

“Tuy nhiên một khỏ khăn của các đoanh nghiệp, đỏ là khả năng triển khai nhanh chóng một chức năng tim kiểm phủ hợp với mục dich sử dụng của doanh: nghiệp Những công cụ tìm kiểm phổ biến như Google, Bing là những hệ thống tin kiếm độc quyền thương mại, mã nguồn đông Các doanh nghiệp không thể tếp cận tới các giải pháp tìm kiểm độc quyền thương mại như vậy chỉ đề tích hợp với

hệ thông của chính minh Irong khi đỏ các nên tảng, thư viện tim kiểm miễn phi

và mã nguồn mở lại có yêu câu phúc tạp trong việc tích hợp và triển khai

VÌ vậy việc xây dựng một công cụ tìm kiếm dạng dịch vụ (SaaS) hỗ trợ khá

tràng tích hợp, cho phép các nha phát triển xây dụng các trải nghiệm tim kiểm trên

các trang web, các mang nội đun, các hệ thông bất kỳ nào có các đạng nội dung văn bản là nhụ câu thực tế Điều này mang đến trải nghiêm đồng nhất và tắt hơn

cho người dùng cuối, thú vị hơn chờ nhà phát triển, giầm bởi gánh nặng triển khai

và quản lý cho nhà quân trị, giúp chủ kỳ phát triển sản phẩm ngắn hơn vả tiết kiệm

Trang 34

TÔI NÓI ĐẦU

doanh nghiệp, giữ khách truy cập ở đó và khiến họ hoán thành một hành động,

chẳng hạn như dăng ký hoặc mua sắm Điều nảy liên quan chặt ch dễn tối ưu hóa công cụ tim kiếm (SEO), thường duce goi là "quá trình cải thiện khã năng hiển thị của nội dung trang web trong kết quá tìm kiểm."

“Tuy nhiên một khỏ khăn của các đoanh nghiệp, đỏ là khả năng triển khai nhanh chóng một chức năng tim kiểm phủ hợp với mục dich sử dụng của doanh: nghiệp Những công cụ tìm kiểm phổ biến như Google, Bing là những hệ thống tin kiếm độc quyền thương mại, mã nguồn đông Các doanh nghiệp không thể tếp cận tới các giải pháp tìm kiểm độc quyền thương mại như vậy chỉ đề tích hợp với

hệ thông của chính minh Irong khi đỏ các nên tảng, thư viện tim kiểm miễn phi

và mã nguồn mở lại có yêu câu phúc tạp trong việc tích hợp và triển khai

VÌ vậy việc xây dựng một công cụ tìm kiếm dạng dịch vụ (SaaS) hỗ trợ khá

tràng tích hợp, cho phép các nha phát triển xây dụng các trải nghiệm tim kiểm trên

các trang web, các mang nội đun, các hệ thông bất kỳ nào có các đạng nội dung văn bản là nhụ câu thực tế Điều này mang đến trải nghiêm đồng nhất và tắt hơn

cho người dùng cuối, thú vị hơn chờ nhà phát triển, giầm bởi gánh nặng triển khai

và quản lý cho nhà quân trị, giúp chủ kỳ phát triển sản phẩm ngắn hơn vả tiết kiệm

Trang 35

TÔI NÓI ĐẦU

doanh nghiệp, giữ khách truy cập ở đó và khiến họ hoán thành một hành động,

chẳng hạn như dăng ký hoặc mua sắm Điều nảy liên quan chặt ch dễn tối ưu hóa công cụ tim kiếm (SEO), thường duce goi là "quá trình cải thiện khã năng hiển thị của nội dung trang web trong kết quá tìm kiểm."

“Tuy nhiên một khỏ khăn của các đoanh nghiệp, đỏ là khả năng triển khai nhanh chóng một chức năng tim kiểm phủ hợp với mục dich sử dụng của doanh: nghiệp Những công cụ tìm kiểm phổ biến như Google, Bing là những hệ thống tin kiếm độc quyền thương mại, mã nguồn đông Các doanh nghiệp không thể tếp cận tới các giải pháp tìm kiểm độc quyền thương mại như vậy chỉ đề tích hợp với

hệ thông của chính minh Irong khi đỏ các nên tảng, thư viện tim kiểm miễn phi

và mã nguồn mở lại có yêu câu phúc tạp trong việc tích hợp và triển khai

VÌ vậy việc xây dựng một công cụ tìm kiếm dạng dịch vụ (SaaS) hỗ trợ khá

tràng tích hợp, cho phép các nha phát triển xây dụng các trải nghiệm tim kiểm trên

các trang web, các mang nội đun, các hệ thông bất kỳ nào có các đạng nội dung văn bản là nhụ câu thực tế Điều này mang đến trải nghiêm đồng nhất và tắt hơn

cho người dùng cuối, thú vị hơn chờ nhà phát triển, giầm bởi gánh nặng triển khai

và quản lý cho nhà quân trị, giúp chủ kỳ phát triển sản phẩm ngắn hơn vả tiết kiệm

Trang 36

'Tôi cũng xim gửi lời cám ơn tới Trường Đại hoe Bach khoa Hà Nội, tới các

thầy cô tại Viên CNTTK&TT và bộ môn Truyền thông & Mạng máy tính đã truyền đạt cho tôi những kiến thức chuyên sáu về chuyên ngành trong suốt thời gian học tập đề tôi có những nên tảng kiến thức hỗ trợ cho tôi trong quá trình làm luận văn

thac si

Luan vin dược tải trợ bởi Qui Phát triển khoa học va công nghệ Quốc gia (NATOSTED) trong đề tài mã số 102.02-2019.314

Xin chan thanh câm ơn!

Hà Nội ngày thang năm 2021

Tae gid

Cao Ha Vink

Trang 37

3.2.4 Chie nang Search slatishes 30

3.4 Thiết kế Strcam service và Ingest Fimetion 42

3.5 Thiết kế Runner (Crawler) cà niiiereeeiee "—

CHƯƠNG 4 KẾT QUẢ THỦ NGHIỆM VÀ ĐÁNH GIÁ ¬ 4.1 Triển khai hệ thống thử nghiệm cccecee ¬—-

4.1.1 Mô hình triển khai à.cncieeeeieeree _

4.1.2 Cầu hinh thứ nghiệm . o2 2 2v erertrrrrrrrrerrree Ad

4.2 Thủ nghiệm và kết quá 49 4.2.1 Lập chỉ mục nội dung website hiện tại 49 4.2.2 Lập chỉ mục nội dung bên ngoài -.]

Ngày đăng: 22/06/2025, 01:25

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm