1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phần mềm tối ưu chí phí quảng cáo trực tuyến Easy – Op

39 493 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phần mềm tối ưu chí phí quảng cáo trực tuyến Easy – Op
Người hướng dẫn Ts. Phạm Hoàng Duy, Ths. Nguyễn Thị Ngọc Vinh
Trường học Học Viện Công Nghệ Bưu Chính Viễn Thông
Chuyên ngành Công Nghệ Thông Tin
Thể loại Báo cáo nghiên cứu khoa học
Năm xuất bản 2011
Thành phố Hà Nội
Định dạng
Số trang 39
Dung lượng 1,48 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Sự đổi mới không ngừng của khoa học kỹ thuật công nghệ, nhiều lĩnh vực đã và đang phát triển vượt bậc đặc biệt là lĩnh vực công nghệ thông tin

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

KHOA CÔNG NGHỆ THÔNG TIN

-o0o -Báo cáo nghiên cứu khoa học sinh viên

ĐỀ TÀI : Phần mềm tối ưu chí phí quảng cáo trực tuyến Easy – Op

GV Hướng dẫn : Ts Phạm Hoàng Duy

Ths Nguyễn Thị Ngọc Vinh

Trang 2

Table of Contents

LỜI MỞ ĐẦU 3

CHƯƠNG I :TỔNG QUAN VỀ E - MARKETING 4

CHƯƠNG II: GIỚI THIỆU CÔNG CỤ TÌM KIẾM 6

1 Công cụ tìm kiếm là gì? 6

2 Nguyên tắc hoạt động của công cụ tìm kiếm 6

2.1 Web crawler: 6

2.2 Indexing: 12

2.3 PageRank: 16

3 Google Search Engine 24

3.1 Kiến trúc tổng quan của Google 24

3.2 Cấu trúc dữ liệu chính 26

4 Lợi ích khi quảng cáo trên máy tìm kiếm Google 30

4.1 Lợi ích về góc nhìn của người dùng thường để ý đến 30

4.2 Lợi ích về chi phí 32

4.3 Lợi ích tăng Page Rank 32

CHƯƠNG III: PHẦN MỀM TỐI ƯU CHI PHÍ QUẢNG CÁO TRỰC TUYẾN EASY- OP 34

Tổng quan về phần mềm 34

FileLoader: Đọc file CSV để lấy dữ liệu đầu vào 34

KeywordProcess: Xử lý, chọn Keywords, tính toán cả bộ từ khóa, tìm ra keywords có clicks nhiều nhất, mức cost thấp nhất, liệt kê theo ngày, đưa ra mức bid hợp lý nhất 35

Chương IV : THỬ NGHIỆM KẾT QUẢ 38

Kết Luận 39

Tài liệu tham khảo : 40

Trang 3

LỜI MỞ ĐẦU

Sự đổi mới không ngừng của khoa học kỹ thuật công nghệ, nhiều lĩnh vực đã vàđang phát triển vượt bậc đặc biệt là lĩnh vực công nghệ thông tin Thành công lớnnhất có thể kể đến là sự ra đời của chiếc máy tính Máy tính được coi là mộtphương tiện trợ giúp đắc lực cho con người trong nhiều công việc đặc biệt là côngtác quản lý Mạng máy tính được sinh từ nhu cầu muốn chia sẻ và dùng chung dữliệu Máy tính cá nhân là công cụ tuyệt vời giúp tạo dữ liệu, bảng tính, hình ảnh, vànhiều dạng thông tin khác, nhưng không cho phép chia sẻ dữ liệu bạn đã tạo nên

Sự bùng nổ dịch vụ Internet cũng như bùng nổ số lượng người sử dụng khi côngnghệ trở nên thân thiện với con người, các cơ hội đã được mở ra với một thị trườngcực kì rộng lớn cho các doanh nghiệp, các sản phẩm, dịch vụ được phân phối vàcung cấp rộng khắp, nhanh chóng và cực kì tiện lợi Để thông tin về sản phẩm củamình, các doanh nghiệp thường sử dụng các hình thức quảng cáo, tuy nhiên với chiphí đắt đỏ, cho dù mang lại hiểu quả cao nhưng các hình thức quảng cáo trêntruyền hình, báo chí chưa thực sự tối ưu Từ thực tế đó, các hình thức quảng cáoqua thư điện tử, máy tìm kiếm thông tin trên mạng đã dần có được sự quan tâm đặcbiệt Với những doanh nghiệp mới thành lập, quảng cáo trực tuyến là một sự lựachọn hoàn hảo để cân bằng giá và hiệu quả Đã có rất nhiều doanh nghiệp sử dụngcác hình thức quảng cáo trực tuyến để mang sản phẩm và dịch vụ của mình đếnngười tiêu dung với chi phí thấp Điều quan trọng của loại hình quảng cáo qua máytìm kiếm là khi được lựa chọn kĩ càng và tối ưu, chi phí sẽ giảm xuống rất nhiều

Chính vì đó em đã chọn đề tài Xây dựng phầm mềm tối ưu hóa chi phí quảng cáo trực tuyến Nhưng do thời gian và kiến thức có hạn nên bài viết còn hạn chế,

rất mong được sự góp ý của các thầy cô giáo và chung em xin chân thành cảm ơnTS.Phạm Hoàng Duy, ThS Nguyễn Thị Ngọc Vinh đã giúp đỡ để em hoàn thành

đề tài này

Trang 4

CHƯƠNG I :TỔNG QUAN VỀ E - MARKETING

E-marketing (Internet marketing hay online marketing), hay tiếp thị qua

mạng, tiếp thị trực tuyến là hoạt động cho sản phẩm và dịch vụ thông qua mạng kếtnối toàn cầu Internet Sự xuất hiện của Internet đã đem lại nhiều lợi ích như chi phíthấp để truyền tải thông tin và truyền thông (media) đến số lượng lớn đối tượng tiếp nhận, thông điệp được truyền tải dưới nhiều hình thức khác nhau như văn bản, hình ảnh, âm thanh, phim, trò chơi, Với bản chất tương tác của E-marketing, đối tượng nhận thông điệp có thể phản hồi tức khắc hay giao tiếp trực tiếp với đối tượng gửi thông điệp Đây là lợi thế lớn của E-marketing so với các loại hình khác

E-marketing kết hợp tính sáng tạo và kỹ thuật của Internet, bao gồm thiết kế,phát triển, quảng cáo và bán hàng Các hoạt động của E-marketing bao

gồm: search engine marketing, web display advertising, e-mail marketing, affiliate marketing, interactive advertising, blog marketing và viral marketing

Một trong những lợi thế của E-marketing là sự sẵn sàng của lượng lớn thôngtin Người tiêu dùng có thể truy cập thông tin sản phẩm và thực hiện giao dịch, mua bán mọi lúc mọi nơi Doanh nghiệp sử dụng e-makerting có thể tiết kiệm đượcchi phí bán hàng như chi phí thuê mặt bằng, giảm số lượng nhân viên bán hàng, E-marketing còn giúp doanh nghiệp tiếp cận với thị trường rộng lớn cũng như phát triển ra toàn cầu Ngoài ra, so sánh với các phương tiện khác như in ấn, báo đài, truyền hình, e-marketing có lơi thế rất lớn về chi phí thấp

E-marketing đã và đang có ảnh hưởng rộng lớn với nhiều ngành công nghiệpnhư âm nhạc, ngân hàng, thương mại, cũng như bản thân ngành công nghiệp quảngcáo Trong ngành công nghiệp âm nhạc, nhiều khách hàng mua và tải các bản nhạcqua Internet thay vì mua CD Ngày càng nhiều ngân hàng cung cấp các dịch vụ trực tuyến Dịch vụ ngân hàng trực tuyến được cho rằng sẽ hấp dẫn khách hàng hơn khi họ không phải đến các chi nhánh ngân hàng để thực hiện Hiện tại, hơn

150 triệu người Mỹ sử dụng dịch vụ ngân hàng trực tuyến và tốc độ tăng trưởng ngày càng cao Sự cải thiện tốc độ kết nối Internet là nguyên nhân chính cho sự

Trang 5

ngân hàng qua Internet Đấu giá qua Internet cũng đang trở nên phổ biến Những mặt hàng hiếm trước đây chỉ có thể tìm ở các chợ trời nay đang được rao bán trên eBay Trang Web nay cũng có ảnh hưởng mạnh đến giá cả Người mua và người bán thường tham khảo giá trên eBay trước khi đến chợ trời và giá trên eBay thường trở thành giá mà sản phẩm được bán Ngày càng nhiều người bán hàng ở chợ trời rao bán hàng trên eBay và điều hành công việc kinh doanh ở nhà Sự ảnh hưởng của E-marketing lên nền công nghiệp quảng cáo ngày càng lớn Chỉ trong vài năm, quảng cáo trực tuyến tăng trưởng đều đặn đến hàng chục tỷ USD Theo báo cáo của Pricewaterhouse Coopers, thị trường E-marketing Mỹ trị giá tổng cộng16,9 tỷ USD trong năm 2006.

Trong tất cả các công cụ của E – Marketing, Seach Engine Marketing và thiết kế web là một trong những công cụ không thể thiểu đế tạo nên thành công củachiến dịch Marketing Trong xu thế phát triển của mạng Internet như hiện nay Mọithứ đều có thể được đưa lên mạng để cùng chia sẻ Người tiêu dùng đã mặc nhiên coi Google là một công cụ tìm kiếm hữu hiệu và với họ Họ mặc định rằng mọi thứmuốn tìm kiếm thì cứ lên trang Google tìm là có Do vậy việc đòi hỏi tối ưu hóa công cụ tìm kiếm cũng như các hình thức quảng cáo trên máy tìm kiếm là rất cần thiết trong môi trường đầy cạnh tranh hiện nay

Trang 6

CHƯƠNG II: GIỚI THIỆU CÔNG CỤ TÌM KIẾM

1 Công cụ tìm kiếm là gì?

Công cụ tìm kiếm(Search Engine) là một hệ thống thu thập thông tin đượcthiết kế để giúp cho việc tìm kiếm thông tin lưu trữ trên một hệ thống máy tính.Công cụ tìm kiếm tối thiểu hóa thời gian cần thiết để tìm kiếm thông tin bằng việclưu trữ và xử lý thông tin theo nhiều cách

Dạng phổ biến nhất của công cụ tìm kiếm đó là công cụ tìm kiếm Web (WebSearch Engine)

vd: Google Search, Yahoo Search, …

Công cụ tìm kiếm cung cấp một giao diện giúp cho người dùng có thể chọnthông tin cần tìm và có cơ chế xử lý và tìm được thông tin tương ứng Thông tincần tìm sẽ tương ứng với một câu truy vấn

2 Nguyên tắc hoạt động của công cụ tìm kiếm.

Một công cụ tìm kiếm được gọi là thành công nếu nó thỏa mãn được 3 điềukiện:

- Cho phép tìm kiếm trong một tập hợp lớn các trang web.

- Đưa ra kết quả gần với mong muốn của người sử dụng nhất.

- Tốc độ tìm kiếm chấp nhận được.

Để đạt được các mục đích trên, các công cụ tìm kiếm hiện đại đều tiến hànhlần lượt theo bốn bước: web crawler, indexing, rank page và searching Sau đây ta

sẽ đi chi tiết vào từng phần

2.1 Web crawler:

Web crawler là bộ phận chịu trách nhiệm download các trang web và lưu trữchúng dưới dạng nén ở trong kho dữ liệu Mục đích thiết kế của web crawler là làmcho nó download được số lượng trang web nhiều nhất trong khả năng đáp ứng củatài nguyên mạng và tốc độ, khả năng lưu trữ của máy

Trang 7

Hình1.2a - Hoạt động của web crawler

Tất cả các công cụ tìm kiếm đều dựa trên mô hình web crawler như hình1.2a Một Webcrawler sẽ sử dụng hai hàng đợi để quản lý các URL, đó làURLsToVisit (URL sẽ tới) và VisitedURLs (URL đã tới) Hàng đợi VisitedURLchứa danh sách các trang đã được download Danh sách này rất quan trọng đối vớicác crawler để tránh việc download một trang nhiều lần Trong khi đó hàng đợiURLsToVisit chứa danh sách các trang sẽ được download

Nội dung ban đầu của hàng đợi URLsToVisit được gọi là seed list (danhsách hạt giống) Danh sách này sẽ ngày càng mở rộng theo thời gian Trước khicrawler chạy lần đầu tiên, danh sách URLs hạt giống này sẽ được khởi tạo mộtcách thủ công hoặc có thể được lấy từ một số nguồn khác Danh sách khởi tạo nàylúc đầu có thể là một tập các web site bất kỳ, hoặc có thể là một tập các web site cóchủ đề nhất định do người khởi tạo quyết định

Webcrawler hoạt động dưới dạng các vòng lặp nối tiếp nhau Một vòng lặp

sẽ bắt đầu với việc lấy một URL từ hàng đợi URLsToVisit, tiếp đó webcrawler sẽdownload trang web tương ứng với URL đó, lưu trữ trang web đó vào trong kho vàđẩy URL đó vào trong hàng đợi VisitedURLs Trong mỗi vòng lặp, webcrawler sẽtrích tất cả các link mà trang web vừa được lấy về, chuyển nó từ dạng link tươngđối sang dạng link tuyệt đối, rồi kiểm tra ở hàng đợi VisitedURLs xem các trangnày đã được download về chưa Nếu URL nào đã được download về rồi, nó sẽ bỏ

Trang 8

Quá trình này sẽ được lặp đi lặp lại cho đến khi nào hàng đợi URLsToVisitrỗng hoặc nó được dừng lại một cách có mục đích bởi người điều khiển.

Nếu việc lấy về một URL thất bại, crawler sẽ chuyển URL đó ngược lại vàohàng đợi URLsToVisit để thử lại lần sau Nếu như việc lấy một URL thất bại trongnhiều lần, crawler sẽ bỏ qua nó vì rất có thể webserver chứa URL đó đã không cònhoạt động nữa

Theo cách này, một crawler có thể lấy về một số lượng lớn các trang web chỉ

từ một lượng rất nhỏ URL trong danh sách khởi tạo (seed list) Để có thể hiểu kỹhơn về webcrawler, ta sẽ tìm hiểu những thiết kế và những rủi ro tiềm ẩn có thểgặp phải trong việc cài đặt và điều hành một webcrawler mức độ lớn

Crawler song song

Hình 1.2a chỉ nêu nguyên tắc hoạt động chung của 1 crawler riêng biệt, nóchỉ sử dụng một hàng đợi URLsToVisit và một hàng đợi VisitedURLs Mô hìnhtrên là tổng quát cho các crawler nhưng có các nhược điểm sau:

- Dung lượng của bộ nhớ chính sẽ giới hạn kích thước của các hàng đợi URL, khi số trang web tăng lên rất lớn, một crawler riêng lẻ sẽ có thể bị quá tải và hiệu năng sẽ không cao.

- Tốc độ download các trang web về sẽ chậm do tiến trình download diễn ra một cách tuần tự.

Để giải quyết vấn đề trên, người ta đưa ra mô hình crawler song song(parallelism)

Web site – đơn vị cho quá trình crawler song song

Trước hết ta định nghĩa: một web site là một tập các trang web có cùng mộttên miền đầy đủ trong URL của nó

VD: các trang http://www.ptit.edu.vn/content/index.jsp và tranghttp://www.ptit.edu.vn/images/index.jsp sẽ thuộc cùng một website trong khi đótrang http://www.ptit.com/index.jsp sẽ không thuộc cùng một Site với hai trangtrên

Vì vậy các link tương đối chắc chắn sẽ nằm trên cùng một site với trangđang xét còn các link tuyệt đối sẽ cần phải kiểm tra trước

Trang 9

Hình 1.2b - Mô hình crawler song song

Tiếp theo ta sẽ làm rõ mô hình crawler song song Hình 1.2b cho chúng tathấy mô hình chung của một webcrawler song song Mô hình này thực chất là mộttập hợp các phần tử của mô hình crawler riêng biệt trong đó mỗi một crawler sẽchịu trách nhiệm lấy về các trang web của chỉ duy nhất một Site và tiến trình lấy vềcác trang web này sẽ được diễn ra một cách đồng thời giữa các crawler trong môhình

Một điểm đáng lưu ý là mô hình trên đưa ra một bộ phân phối các URL khởitạo (seed-URL dispenser) Bộ phân phối trên chứa danh sách tất cả các URL khởitạo cho tất cả các tiến trình crawl Mỗi một phần tử trong danh sách trên chứa cácURL khởi tạo cho chỉ một Website, thông thường nó chứa URL gốc của site đó

Trong mô hình trên, mỗi một site crawler sẽ bắt đầu bằng việc lấy về URLkhởi tạo cho một Website từ bộ phân phối URL và sử dụng nó để khởi tạo chohàng đợi URLsToVisit Crawler sẽ đẩy vào hàng đợi URLsToVisit các URL mà nólấy được trong site đó Nguyên tắc của nó là nếu gặp các link ở trong site đó, nó sẽlấy về còn nếu gặp các link ở ngoài site đó, nó sẽ bỏ qua

Việc sử dụng crawler song song có giải quyết được các nhược điểm củacrawler riêng biệt

- Dung lượng của bộ nhớ chính sẽ không còn là vấn đề vì mỗi một site

crawler chỉ lấy về các trang web có URL nằm trong site đó, do đó kích thước của các hàng đợi URLsToVisit và VisitedURLs không quá lớn.

Trang 10

- Tốc độ download các trang web lớn do việc lấy các trang web về diễn ra

đồng thời Các trang web không liên quan đến nhau sẽ được lấy về cùng một lúc.

Đó là nguyên tắc hoạt động chung của crawler, tất nhiên việc crawler khôngchỉ phụ thuộc vào nguyên tắc hoạt động, cấu trúc của nó mà còn phụ thuộc vào cácyêu tố khác trên các trang web mà nó cần phải giải quyết Một vấn đề điển hình đó

là việc lấy về các trang web sẽ sinh ra những lưu lượng lớn trên đường truyền, và

sẽ chẳng thú vị gì nếu những người chủ các site đó phải trả tiền cho băng thông củahọ

Một cách tự nhiên, có những luật đã được phát triển để quy định phươngthức hoạt động của crawler, tuy không có ai chịu trách nhiệm hay đứng ra bảo đảmcho những luật này nhưng các crawler tốt đều chấp nhận và thực hiện đúng theonó

và 20 giây cho các trang web nhỏ Tuy nhiên điều này không cố định, các chủ nhâncủa site đó có thể liên lạc và thỏa thuận với quản trị của search engine về thời giantrễ này

Các quy định đối với từng Server

Khi một quản trị web không muốn một số trang của họ bị crawl, họ sẽ sửdụng một công cụ đặc biệt đó là giao thức Robots Exclusion Giao thức này bắtbuộc tất cả các crawler sẽ phải tìm file robots.txt ở thư mục gốc của site đó Filenày sẽ liệt kê một danh sách các URL mà crawler không được lấy về và mộtcrawler tốt sẽ tuân theo quy định này

Trang 11

Một trong những nhược điểm của crawler song song đó là vấn đề các trang

cô lập địa phương Bởi vì các site crawler không theo các link tới các trang ở ngoàisite đó nên có thể có nhiều site sẽ không được lấy về

Hình 1.2c chỉ rõ vấn đề này Hai Website S1 và S2 được download bởi haisite crawler C1 và C2 Vì trang d chỉ có thể đến thông qua link từ site S2 nên cáctrang d và e sẽ không bao giờ được download bởi bất cứ crawler nào Bằng cáchkiểm tra các nhanh các trang có được trong lần crawl trước Nếu một trang tronglần kiểm tra trước có một link tới trang d, nhưng trang d không tồn tại trong lầnkiểm tra này, trang d sẽ được cho vào bộ phân phối URL khởi tạo cho lần crawltiếp theo

Hình 1.2c - Các site bị khuất

Crawler đơn tiến trình

Một cách tiếp cận thiết kế điển hình như trên là mô hình thiết kế một tiếntrình gắn với một site (process-per-site) Cách thiết kế này sẽ thực hiện mỗi sitecrawler như một tiến trình độc lập, nó sẽ trút gánh nặng quản lý song song vào bộphận điều khiển tiến trình của hệ điều hành

Trong khi đó, thiết kế crawl đơn tiến trình (single-crawl-process) gói tất cảcác site crawler vào một tiến trình duy nhất và quản lý các yêu cầu như một vònglặp sự kiện Trong thiết kế này, vòng lặp được tạo ra các sự kiện site request mộtcách tuần tự sau khi đã có thời gian trễ Cách tiếp cận này được chỉ ra trong hình1.2d

Trang 12

Hình 1.2d - Crawl nhiều site trên một tiến trình

Hình trên cho thấy 2 crawler chạy trên cùng một tiến trình Ngược lại vớithiết kế ở hình 1.2a, việc cài đặt crawl đơn tiến trình đưa ra một bộ đếm thời giantrước khi lấy về các trang từ URLsToVisit Bộ đếm thời gian này sẽ quyết định độtrễ trước mỗi một lần request trang đó Vòng lặp sự kiện trung tâm sẽ điều khiểnviệc đồng bộ các crawler

2.2 Indexing:

Khối Indexer được dùng để xây dựng và bảo trì các chỉ mục phục vụ cho cáctruy vấn Khối Indexer xây dựng 3 chỉ mục cơ bản: chỉ mục offset (offset index),chỉ mục text (text index) và chỉ mục link/graph (link/graph index) Offset index ghinhận vị trí vật lý của mỗi trang web trong cơ sở dữ liệu, nơi mà lưu trữ các trangweb đã được nén

Chỉ mục này cho phép truy xuất ngẫu nhiên tới 1 web cho phép trong cơ sở

dữ liệu Text index cho phép truy vấn hướng nội dung, sử dụng các chỉmục ngược

để sung cấp tìm kiếm theo từ khóa trong cơ sở dữ liệu Cuối cùng, link index cungcấp truy vấn hướng liên kết (VD: Gọi đến tập các trang mà trang X trỏ tới )

Sử dụng 3 chỉ mục cơ sở này và các trang web, khối Phân Tích sẽ xây dựnglên các chỉ mục gốc khác nhau Ví dụ, sử dụng chỉ mục liên kết và các thuật toán

Trang 13

lặp PageRank, khối phân tích sẽ tính toán và lưu trữ PageRank của mỗi trang trong

cơ sở dữ liệu ( chỉ mục PageRank )

Tương tự, bằng cách kết hợp thông tin liên kết và nội dung của trang web,khối phân tích có thể xây dựng một chỉ mục tương tự mà ánh xạ mỗi trang tới 1 tậpcác trang tương tự

Thiết kế chiến lược

Ảnh hưởng to lớn bởi số lượng khổng lồ các trang Web trên mạng, chúng taphải thiết kế một lược đồ xây dựng và cấu trúc biểu diễn mới cho rất nhiều chỉ mụcđược sử dụng Thiết kế này có các đặc điểm sau:

- Chỉ mục được xây dựng song song và phân tán Do kích cỡ khổng lồ của

mạng không cho phép thực hiện trực tiếp lược đồ xây dựng chỉ mục tuần tự đơn giản mà áp dụng rất tốt cho các tập hợp dữ liệu vừa và nhỏ ( khoảng vài triệu văn bản hoặc hình ảnh của vài nghìn node ) Cách thực hiện song song và phân tán các tính toán tích kiệm lớn chi phí và thời gian thực hiện.

- Nén và bộ đệm của cấu trúc chỉ mục Nhiều chỉ mục trên mạng quá đồ sộ

để có thể chứa trong bộ nhớ chính Vì vậy, chỉ mục được nén và lưu đệm là giải pháp nhằm giảm thiểu thời gian truy cập các chỉ mục.

- Định danh trang đặc tả chỉ mục Điều này cấn thiết cho mỗi cấu trúc chỉ

mục để tận dụng các định danh đặc tả chỉ mục của chính nó để giảm thiểu thời gian truy nhập và kích cỡ chỉ mục

Chỉ mục văn bản ( Text index)

Để cung cấp dịch vụ hướng văn bản cơ sở, chúng ta xây dựng các chỉ mụcngược thông qua tập các trang web trong cơ sở dữ liệu Kích cỡ của cơ sở dữ liệucác trang web lưu trữ và sự cần thiết của việc thu thập định kì và xây dựng lại chỉmục yêu cầu chúng ta xây dựng một lược đồ xây dựng chỉ mục tin cậy và hiệu quảcao

Việc xây dựng các chỉ mục ngược tăng tối đa tốc độ và khối lượng sử lýindex cho hệ thống Do đó các hệ thống hiện nay đều sử dụng phương pháp này đểtiết kiệm tài nguyên

Trang 14

Hình 1.2e - Chỉ mục văn bản

Chỉ mục ngược xây dựng hệ thống kiến trúc không chia sẻ phân tán nhưhình trên Chỉ mục ngược được xây dựng thành 2 giai đoạn Giai đoạn đầu tiên,mỗi một chỉ mục nhận một tập con tách rời của trang web Khối Indexer sẽ phântích và trích dẫn các đoạn từ trang web, sắp xếp các đoạn vào trong bộ nhớ, vàchuyển chúng vào cấu trúc hiện tại trên đĩa Trong giai đoạn thứ hai, các cấu trúcnày được trộn lẫn nhau để tạo ra một hoặc nhiều file phân tán

Hai chức năng chính của hệ thống là đánh chỉ mục song song mức độ cao vàviệc sử dụng hệ thống cơ sở dữ liệu nhúng để lưu trữ và quản lý các file chỉ mụcngược

Đánh chỉ mục song song mức độ cao

Chúng ta chia quá trình sắp xếp thành ba pha: pha tải (một số trang được đọc từ luồng đầu vào và được lưu trong bộ nhớ), pha xử lý (các trang được phân tích và đánh dấu để sinh ra các đoạn, mà sau đó được sắp xếp thứ tự), và pha ghi

(sắp xếp các đoạn và đĩa)

Khối đánh chỉ mục được thiết kế như là một phần mềm ống đa tiến trình mà

sử dụng một vài bộ nhớ đệm mỗi ống, với mỗi bộ đệm trong một pha Hình dướibiểu diễn ảnh hưởng của đường ống đến thời gian thực hiện tiến trình và sắp xếpvới một vài kích thước đầu vào

Trang 15

Hình 1.2f - Hiệu năng của xử lý đường ống

Chú ý rằng với một tập nhỏ các trang web thì hiệu năng thu được thông qua

xử lý đường ống là không đáng kể Bởi vì với một tập nhỏ thì chỉ yêu cầu một vàiđường ống và thời gian thực thi tổng thể bằng thời gian yêu cầu lúc khởi động vàkết thúc Với một tập lớn thì xử lý tuần tự chậm hơn khoảng 30-40% so với xử lýsong song

Lưu trữ chỉ mục ngược trong hệ thống cơ sở dữ liệu nhúng

Một số các hệ thống hiện nay có sử dụng hệ thống cơ sở dữ liệu nhúng gọi làBerkeley DB để lưu trữ và quản lý các file chỉ mục ngược Cơ sở dữ liệu nhúngcung cấp các phương thức truy nhập cơ sở dữ liệu bao gồm B-trees, bộ đệm vànhững cải tiến lưu vết so với hệ cơ sở dữ liệu client-server

Tuy nhiên, khó khăn là phải thiết kế một khuôn khổ lưu trữ chỉ mục ngược

mà cung cấp các đầy đủ các chức năng của một hệ cơ sở dữ liệu Tổ chức cơ bảncủa một B-tree dựa trên cơ sở file chỉ mục ngược bao gồm lưu trữ các chỉ mụctrong B-tree với những con trỏ trỏ tới danh sách các chỉ mục ngược được lưu trữriêng lẻ

Trang 16

2.3 PageRank:

PageRank là gì?

PageRank là một thuật toán được sử dụng trong công cụ tìm kiếm Google,được phát triển tại Đại học Stanford bởi Larry Page và Sergey Brin trong nghiên

cứu của họ “The Anatomy of a Large-Scale Hypertextual Web Search Engine”

Thuật toán dựa trên 1 giả thuyết phổ biến trong giới hàn lâm, đó là tầm quantrọng của một bài báo được quyết định bởi số các trích dẫn từ bài báo đó của cácbài báo khác Brin và Page đã đơn giản giả thuyết này để dùng cho trang Web:

“Tầm quan trọng của một trang Web được quyết định bởi số lượng các hyperlink trỏ đến nó từ các trang Web khác”.

Hình 1.2g - Minh họa liên kết giữa các site

sử dụng trong PageRank

Chỉ số PageRank của một trang web là kết quả bầu chọn của tất cả các trangweb khác trên toàn thế giới cho website đó về mức độ quan trọng của trang Mỗi 1liên kết ngược là 1 phiếu bầu Các phiếu bầu này có mức độ ảnh hưởng khác nhau,

sự khác nhau đó phụ thuộc vào chất lượng ( hay tính quan trọng ) của mỗi trang đặtliên kết ngược

Một trang được liên kết đến bởi các trang có PageRank cao sẽ nhận đượcPageRank cao Nếu 1 trang web không có liên kết nào đến thì sẽ không có phiếubầu nào

Google tính điểm cho các trang web trên mạng từ 0-10 Chỉ số PageRanknày cho biết trang web có quan trọng hay không theo cách nhìn nhận của Google.Website nào có chỉ số PageRank cao chứng tỏ website đó có chất lượng cao và

Trang 17

Tất nhiên khi tìm kiếm không phải cứ website có PageRank cao là sẽ đượcxếp ở trang đầu tiên, điều này còn phụ thuộc vào việc bạn muốn tìm kiếm gì vànhiều yếu tố khác Google kết hợp PageRank với một số heuristics khác để cho rakết quả phù hợp nhất

Thuật toán PageRank.

Trích từ Google, PageRank được định nghĩa như sau:

Coi trang A có các trang T1, T2, …, Tn trỏ tới nó Tham số cản d có thể được đặt giá trị trong khoảng 0 đến 1 Chúng ta thường đặt d= 0.85 C(A) được định nghĩa là số link mà trang A trỏ đến PageRank của trang A được tính theo công thức:

Chú ý rằng tổng tất cả PageRank của tất cả các trang web là một số cố định.

PageRank PR(A) có thể được tính toán bằng cách sử dụng 1 thuật toán lặp đơn giản.

Trong đó:

PR(A) - PageRank của trang A

PR(Tn) - PageRank của trang Tn

C(Tn) - Số các link đi ra của trang Tn

(1-d) - Thể hiện rằng tổng PageRank tất cả các trang web là một số cố định Ngoài ra còn có ý nghĩa là nếu 1 trang web mà không có trang nào trỏ tới nó thì nó sẽ có PR < 0.15

Ta thấy PageRank của một trang web được tính bằng tổng của PageRankcủa tất cả các trang trỏ tới nó (incoming links), chia cho số các link đi ra của trang

đó ( outgoing links)

PR(A) = (1-d) + d( PR(T1)/C(T1) + …+ PR(Tn)/C(Tn) )

Trang 18

Trên quan điểm của Search Engine, định nghĩa thuật toán PageRank cho tathấy có 2 yếu tố ảnh hưởng đến vị trí của trang web của bạn trên Google Đó là:

- Số lượng các link đi đến ( incoming links): Thông thường thì càng nhiều

link đi đến càng tốt Có 1 điểm đáng chú ý mà thuật toán chỉ ra đó là: Nếu 1 trang không có link trỏ đến có thể gây ra ảnh hưởng ngược lại đến PageRank của trang web mà nó trỏ tới ( C(T) = 0 ).

- Số lượng các link đi ra của các trang web trỏ tới ( outgoing links): Càng

ít càng tốt, có nghĩa là nếu có 2 trang web trỏ tới trang cần tính PageRank,

1 trang có 5 link đi ra và 1 trang có 10 link đi ra thì PageRank được tính từ trang có 5 link đi ra sẽ gấp đôi trang có 10 link đi ra.

Có thể thấy thuật toán PageRank không liên quan gì đến các câu truy vấntìm kiếm Nó chỉ đơn thuần là một phần của thuật toán xếp hạng của Google

Có lẽ cách tốt nhất để xem xét PageRank là coi nó như là 1 yếu tố bổ sung,được xử lý trên các kết quả tìm kiếm của Google sau khi tất cả các tính toán khác

đã hoàn tất

Thuật toán tìm kiếm của Google trước tiên sẽ tiến hành tìm kiếm trên cáctrang mà nó đã đánh chỉ mục, sau đó sẽ tính toán PageRank trên các trang kết quảtìm kiếm để đưa ra danh sách kết quả có sắp xếp cuối cùng Các trang có PageRankcao hơn sẽ được sắp xếp ở vị trí cao hơn

PageRank được tính toán như thế nào.

Đây là công việc khá phức tạp PageRank của mỗi trang phụ thuộc vàoPageRank của các trang trỏ tới nó Nhưng ta lại không thể biết PageRank của cáctrang đó cho đến khi tính được PageRank của các trang trỏ tới các trang đó…Cóthể thấy dường như thuật toán tạo thành 1 vòng lặp vô tận mà không thể tính toánđược

Nhưng thực tế chúng ta không làm như vậy Chúng ta sẽ tính toán PageRankcủa 1 trang mà không cần biết giá trị cuối cùng của PageRank của trang đó

Điều này nghe có vẻ không hợp lý, nhưng về cơ bản, mỗi lần chạy thuật toánchúng ta sẽ đến gần hơn với giá trị ước lượng cuối cùng Vì vậy tất cả công việcphải làm là ghi nhớ giá trị mỗi lần tính toán và lặp lại phép toán cho đến khi kếtquả thay đổi trong một giá trị đủ nhỏ cho phép

Hãy xem xét một ví dụ đơn giản nhất: có 2 trang web, mỗi trang lại trỏ đến

Trang 19

Mỗi trang có 1 link đi ra ( outgoing links) C(A) = C(B) = 1.

Trường hợp 1

Ban đầu chúng ta chưa biết được PageRank của từng trang, vì thế ta sẽ đặtbằng 1, sau đó thực hiện phép tính:

d = 0.85PR(A) = (1-d) + d(PR(B)/1)PR(B) = (1-d) + d(PR(A)/1)Theo ví dụ trên ta tính được:

PR(A) = 0.15 + 0.85*1

= 1PR(B) = 0.15 + 0.85*1

Ngày đăng: 25/04/2013, 19:12

HÌNH ẢNH LIÊN QUAN

Hình 1.2c chỉ rõ vấn đề này. Hai Website S1 và S2 được download bởi hai site crawler C1 và C2 - Phần mềm tối ưu chí phí quảng cáo trực tuyến Easy – Op
Hình 1.2c chỉ rõ vấn đề này. Hai Website S1 và S2 được download bởi hai site crawler C1 và C2 (Trang 11)
Hình trên cho thấy 2 crawler chạy trên cùng một tiến trình. Ngược lại với thiết kế ở hình 1.2a, việc cài đặt crawl đơn tiến trình đưa ra một bộ đếm thời gian trước khi lấy về các trang từ URLsToVisit - Phần mềm tối ưu chí phí quảng cáo trực tuyến Easy – Op
Hình tr ên cho thấy 2 crawler chạy trên cùng một tiến trình. Ngược lại với thiết kế ở hình 1.2a, việc cài đặt crawl đơn tiến trình đưa ra một bộ đếm thời gian trước khi lấy về các trang từ URLsToVisit (Trang 12)

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w