Phần mềm tối ưu chí phí quảng cáo trực tuyến Easy – Op

Sự đổi mới không ngừng của khoa học kỹ thuật công nghệ, nhiều lĩnh vực đã và đang phát triển vượt bậc đặc biệt là lĩnh vực công nghệ thông tin

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

KHOA CÔNG NGHỆ THÔNG TIN

-o0o -Báo cáo nghiên cứu khoa học sinh viên

ĐỀ TÀI : Phần mềm tối ưu chí phí quảng cáo trực tuyến Easy – Op

GV Hướng dẫn : Ts Phạm Hoàng Duy

Ths Nguyễn Thị Ngọc Vinh

Trang 2

Table of Contents

LỜI MỞ ĐẦU 3

CHƯƠNG I :TỔNG QUAN VỀ E - MARKETING 4

CHƯƠNG II: GIỚI THIỆU CÔNG CỤ TÌM KIẾM 6

1 Công cụ tìm kiếm là gì? 6

2 Nguyên tắc hoạt động của công cụ tìm kiếm 6

2.1 Web crawler: 6

2.2 Indexing: 12

2.3 PageRank: 16

3 Google Search Engine 24

3.1 Kiến trúc tổng quan của Google 24

3.2 Cấu trúc dữ liệu chính 26

4 Lợi ích khi quảng cáo trên máy tìm kiếm Google 30

4.1 Lợi ích về góc nhìn của người dùng thường để ý đến 30

4.2 Lợi ích về chi phí 32

4.3 Lợi ích tăng Page Rank 32

CHƯƠNG III: PHẦN MỀM TỐI ƯU CHI PHÍ QUẢNG CÁO TRỰC TUYẾN EASY- OP 34

Tổng quan về phần mềm 34

FileLoader: Đọc file CSV để lấy dữ liệu đầu vào 34

KeywordProcess: Xử lý, chọn Keywords, tính toán cả bộ từ khóa, tìm ra keywords có clicks nhiều nhất, mức cost thấp nhất, liệt kê theo ngày, đưa ra mức bid hợp lý nhất 35

Chương IV : THỬ NGHIỆM KẾT QUẢ 38

Kết Luận 39

Tài liệu tham khảo : 40

Trang 3

LỜI MỞ ĐẦU

Sự đổi mới không ngừng của khoa học kỹ thuật công nghệ, nhiều lĩnh vực đã vàđang phát triển vượt bậc đặc biệt là lĩnh vực công nghệ thông tin Thành công lớnnhất có thể kể đến là sự ra đời của chiếc máy tính Máy tính được coi là mộtphương tiện trợ giúp đắc lực cho con người trong nhiều công việc đặc biệt là côngtác quản lý Mạng máy tính được sinh từ nhu cầu muốn chia sẻ và dùng chung dữliệu Máy tính cá nhân là công cụ tuyệt vời giúp tạo dữ liệu, bảng tính, hình ảnh, vànhiều dạng thông tin khác, nhưng không cho phép chia sẻ dữ liệu bạn đã tạo nên

Sự bùng nổ dịch vụ Internet cũng như bùng nổ số lượng người sử dụng khi côngnghệ trở nên thân thiện với con người, các cơ hội đã được mở ra với một thị trườngcực kì rộng lớn cho các doanh nghiệp, các sản phẩm, dịch vụ được phân phối vàcung cấp rộng khắp, nhanh chóng và cực kì tiện lợi Để thông tin về sản phẩm củamình, các doanh nghiệp thường sử dụng các hình thức quảng cáo, tuy nhiên với chiphí đắt đỏ, cho dù mang lại hiểu quả cao nhưng các hình thức quảng cáo trêntruyền hình, báo chí chưa thực sự tối ưu Từ thực tế đó, các hình thức quảng cáoqua thư điện tử, máy tìm kiếm thông tin trên mạng đã dần có được sự quan tâm đặcbiệt Với những doanh nghiệp mới thành lập, quảng cáo trực tuyến là một sự lựachọn hoàn hảo để cân bằng giá và hiệu quả Đã có rất nhiều doanh nghiệp sử dụngcác hình thức quảng cáo trực tuyến để mang sản phẩm và dịch vụ của mình đếnngười tiêu dung với chi phí thấp Điều quan trọng của loại hình quảng cáo qua máytìm kiếm là khi được lựa chọn kĩ càng và tối ưu, chi phí sẽ giảm xuống rất nhiều

Chính vì đó em đã chọn đề tài Xây dựng phầm mềm tối ưu hóa chi phí quảng cáo trực tuyến Nhưng do thời gian và kiến thức có hạn nên bài viết còn hạn chế,

rất mong được sự góp ý của các thầy cô giáo và chung em xin chân thành cảm ơnTS.Phạm Hoàng Duy, ThS Nguyễn Thị Ngọc Vinh đã giúp đỡ để em hoàn thành

đề tài này

Trang 4

CHƯƠNG I :TỔNG QUAN VỀ E - MARKETING

E-marketing (Internet marketing hay online marketing), hay tiếp thị qua

mạng, tiếp thị trực tuyến là hoạt động cho sản phẩm và dịch vụ thông qua mạng kếtnối toàn cầu Internet Sự xuất hiện của Internet đã đem lại nhiều lợi ích như chi phíthấp để truyền tải thông tin và truyền thông (media) đến số lượng lớn đối tượng tiếp nhận, thông điệp được truyền tải dưới nhiều hình thức khác nhau như văn bản, hình ảnh, âm thanh, phim, trò chơi, Với bản chất tương tác của E-marketing, đối tượng nhận thông điệp có thể phản hồi tức khắc hay giao tiếp trực tiếp với đối tượng gửi thông điệp Đây là lợi thế lớn của E-marketing so với các loại hình khác

E-marketing kết hợp tính sáng tạo và kỹ thuật của Internet, bao gồm thiết kế,phát triển, quảng cáo và bán hàng Các hoạt động của E-marketing bao

gồm: search engine marketing, web display advertising, e-mail marketing, affiliate marketing, interactive advertising, blog marketing và viral marketing

Một trong những lợi thế của E-marketing là sự sẵn sàng của lượng lớn thôngtin Người tiêu dùng có thể truy cập thông tin sản phẩm và thực hiện giao dịch, mua bán mọi lúc mọi nơi Doanh nghiệp sử dụng e-makerting có thể tiết kiệm đượcchi phí bán hàng như chi phí thuê mặt bằng, giảm số lượng nhân viên bán hàng, E-marketing còn giúp doanh nghiệp tiếp cận với thị trường rộng lớn cũng như phát triển ra toàn cầu Ngoài ra, so sánh với các phương tiện khác như in ấn, báo đài, truyền hình, e-marketing có lơi thế rất lớn về chi phí thấp

E-marketing đã và đang có ảnh hưởng rộng lớn với nhiều ngành công nghiệpnhư âm nhạc, ngân hàng, thương mại, cũng như bản thân ngành công nghiệp quảngcáo Trong ngành công nghiệp âm nhạc, nhiều khách hàng mua và tải các bản nhạcqua Internet thay vì mua CD Ngày càng nhiều ngân hàng cung cấp các dịch vụ trực tuyến Dịch vụ ngân hàng trực tuyến được cho rằng sẽ hấp dẫn khách hàng hơn khi họ không phải đến các chi nhánh ngân hàng để thực hiện Hiện tại, hơn

150 triệu người Mỹ sử dụng dịch vụ ngân hàng trực tuyến và tốc độ tăng trưởng ngày càng cao Sự cải thiện tốc độ kết nối Internet là nguyên nhân chính cho sự

Trang 5

ngân hàng qua Internet Đấu giá qua Internet cũng đang trở nên phổ biến Những mặt hàng hiếm trước đây chỉ có thể tìm ở các chợ trời nay đang được rao bán trên eBay Trang Web nay cũng có ảnh hưởng mạnh đến giá cả Người mua và người bán thường tham khảo giá trên eBay trước khi đến chợ trời và giá trên eBay thường trở thành giá mà sản phẩm được bán Ngày càng nhiều người bán hàng ở chợ trời rao bán hàng trên eBay và điều hành công việc kinh doanh ở nhà Sự ảnh hưởng của E-marketing lên nền công nghiệp quảng cáo ngày càng lớn Chỉ trong vài năm, quảng cáo trực tuyến tăng trưởng đều đặn đến hàng chục tỷ USD Theo báo cáo của Pricewaterhouse Coopers, thị trường E-marketing Mỹ trị giá tổng cộng16,9 tỷ USD trong năm 2006.

Trong tất cả các công cụ của E – Marketing, Seach Engine Marketing và thiết kế web là một trong những công cụ không thể thiểu đế tạo nên thành công củachiến dịch Marketing Trong xu thế phát triển của mạng Internet như hiện nay Mọithứ đều có thể được đưa lên mạng để cùng chia sẻ Người tiêu dùng đã mặc nhiên coi Google là một công cụ tìm kiếm hữu hiệu và với họ Họ mặc định rằng mọi thứmuốn tìm kiếm thì cứ lên trang Google tìm là có Do vậy việc đòi hỏi tối ưu hóa công cụ tìm kiếm cũng như các hình thức quảng cáo trên máy tìm kiếm là rất cần thiết trong môi trường đầy cạnh tranh hiện nay

Trang 6

CHƯƠNG II: GIỚI THIỆU CÔNG CỤ TÌM KIẾM

1 Công cụ tìm kiếm là gì?

Công cụ tìm kiếm(Search Engine) là một hệ thống thu thập thông tin đượcthiết kế để giúp cho việc tìm kiếm thông tin lưu trữ trên một hệ thống máy tính.Công cụ tìm kiếm tối thiểu hóa thời gian cần thiết để tìm kiếm thông tin bằng việclưu trữ và xử lý thông tin theo nhiều cách

Dạng phổ biến nhất của công cụ tìm kiếm đó là công cụ tìm kiếm Web (WebSearch Engine)

vd: Google Search, Yahoo Search, …

Công cụ tìm kiếm cung cấp một giao diện giúp cho người dùng có thể chọnthông tin cần tìm và có cơ chế xử lý và tìm được thông tin tương ứng Thông tincần tìm sẽ tương ứng với một câu truy vấn

2 Nguyên tắc hoạt động của công cụ tìm kiếm.

Một công cụ tìm kiếm được gọi là thành công nếu nó thỏa mãn được 3 điềukiện:

- Cho phép tìm kiếm trong một tập hợp lớn các trang web.

- Đưa ra kết quả gần với mong muốn của người sử dụng nhất.

- Tốc độ tìm kiếm chấp nhận được.

Để đạt được các mục đích trên, các công cụ tìm kiếm hiện đại đều tiến hànhlần lượt theo bốn bước: web crawler, indexing, rank page và searching Sau đây ta

sẽ đi chi tiết vào từng phần

2.1 Web crawler:

Web crawler là bộ phận chịu trách nhiệm download các trang web và lưu trữchúng dưới dạng nén ở trong kho dữ liệu Mục đích thiết kế của web crawler là làmcho nó download được số lượng trang web nhiều nhất trong khả năng đáp ứng củatài nguyên mạng và tốc độ, khả năng lưu trữ của máy

Trang 7

Hình1.2a - Hoạt động của web crawler

Tất cả các công cụ tìm kiếm đều dựa trên mô hình web crawler như hình1.2a Một Webcrawler sẽ sử dụng hai hàng đợi để quản lý các URL, đó làURLsToVisit (URL sẽ tới) và VisitedURLs (URL đã tới) Hàng đợi VisitedURLchứa danh sách các trang đã được download Danh sách này rất quan trọng đối vớicác crawler để tránh việc download một trang nhiều lần Trong khi đó hàng đợiURLsToVisit chứa danh sách các trang sẽ được download

Nội dung ban đầu của hàng đợi URLsToVisit được gọi là seed list (danhsách hạt giống) Danh sách này sẽ ngày càng mở rộng theo thời gian Trước khicrawler chạy lần đầu tiên, danh sách URLs hạt giống này sẽ được khởi tạo mộtcách thủ công hoặc có thể được lấy từ một số nguồn khác Danh sách khởi tạo nàylúc đầu có thể là một tập các web site bất kỳ, hoặc có thể là một tập các web site cóchủ đề nhất định do người khởi tạo quyết định

Webcrawler hoạt động dưới dạng các vòng lặp nối tiếp nhau Một vòng lặp

sẽ bắt đầu với việc lấy một URL từ hàng đợi URLsToVisit, tiếp đó webcrawler sẽdownload trang web tương ứng với URL đó, lưu trữ trang web đó vào trong kho vàđẩy URL đó vào trong hàng đợi VisitedURLs Trong mỗi vòng lặp, webcrawler sẽtrích tất cả các link mà trang web vừa được lấy về, chuyển nó từ dạng link tươngđối sang dạng link tuyệt đối, rồi kiểm tra ở hàng đợi VisitedURLs xem các trangnày đã được download về chưa Nếu URL nào đã được download về rồi, nó sẽ bỏ

Trang 8

Quá trình này sẽ được lặp đi lặp lại cho đến khi nào hàng đợi URLsToVisitrỗng hoặc nó được dừng lại một cách có mục đích bởi người điều khiển.

Nếu việc lấy về một URL thất bại, crawler sẽ chuyển URL đó ngược lại vàohàng đợi URLsToVisit để thử lại lần sau Nếu như việc lấy một URL thất bại trongnhiều lần, crawler sẽ bỏ qua nó vì rất có thể webserver chứa URL đó đã không cònhoạt động nữa

Theo cách này, một crawler có thể lấy về một số lượng lớn các trang web chỉ

từ một lượng rất nhỏ URL trong danh sách khởi tạo (seed list) Để có thể hiểu kỹhơn về webcrawler, ta sẽ tìm hiểu những thiết kế và những rủi ro tiềm ẩn có thểgặp phải trong việc cài đặt và điều hành một webcrawler mức độ lớn

Crawler song song

Hình 1.2a chỉ nêu nguyên tắc hoạt động chung của 1 crawler riêng biệt, nóchỉ sử dụng một hàng đợi URLsToVisit và một hàng đợi VisitedURLs Mô hìnhtrên là tổng quát cho các crawler nhưng có các nhược điểm sau:

- Dung lượng của bộ nhớ chính sẽ giới hạn kích thước của các hàng đợi URL, khi số trang web tăng lên rất lớn, một crawler riêng lẻ sẽ có thể bị quá tải và hiệu năng sẽ không cao.

- Tốc độ download các trang web về sẽ chậm do tiến trình download diễn ra một cách tuần tự.

Để giải quyết vấn đề trên, người ta đưa ra mô hình crawler song song(parallelism)

Web site – đơn vị cho quá trình crawler song song

Trước hết ta định nghĩa: một web site là một tập các trang web có cùng mộttên miền đầy đủ trong URL của nó

VD: các trang http://www.ptit.edu.vn/content/index.jsp và tranghttp://www.ptit.edu.vn/images/index.jsp sẽ thuộc cùng một website trong khi đótrang http://www.ptit.com/index.jsp sẽ không thuộc cùng một Site với hai trangtrên

Vì vậy các link tương đối chắc chắn sẽ nằm trên cùng một site với trangđang xét còn các link tuyệt đối sẽ cần phải kiểm tra trước

Trang 9

Hình 1.2b - Mô hình crawler song song

Tiếp theo ta sẽ làm rõ mô hình crawler song song Hình 1.2b cho chúng tathấy mô hình chung của một webcrawler song song Mô hình này thực chất là mộttập hợp các phần tử của mô hình crawler riêng biệt trong đó mỗi một crawler sẽchịu trách nhiệm lấy về các trang web của chỉ duy nhất một Site và tiến trình lấy vềcác trang web này sẽ được diễn ra một cách đồng thời giữa các crawler trong môhình

Một điểm đáng lưu ý là mô hình trên đưa ra một bộ phân phối các URL khởitạo (seed-URL dispenser) Bộ phân phối trên chứa danh sách tất cả các URL khởitạo cho tất cả các tiến trình crawl Mỗi một phần tử trong danh sách trên chứa cácURL khởi tạo cho chỉ một Website, thông thường nó chứa URL gốc của site đó

Trong mô hình trên, mỗi một site crawler sẽ bắt đầu bằng việc lấy về URLkhởi tạo cho một Website từ bộ phân phối URL và sử dụng nó để khởi tạo chohàng đợi URLsToVisit Crawler sẽ đẩy vào hàng đợi URLsToVisit các URL mà nólấy được trong site đó Nguyên tắc của nó là nếu gặp các link ở trong site đó, nó sẽlấy về còn nếu gặp các link ở ngoài site đó, nó sẽ bỏ qua

Việc sử dụng crawler song song có giải quyết được các nhược điểm củacrawler riêng biệt

- Dung lượng của bộ nhớ chính sẽ không còn là vấn đề vì mỗi một site

crawler chỉ lấy về các trang web có URL nằm trong site đó, do đó kích thước của các hàng đợi URLsToVisit và VisitedURLs không quá lớn.

Trang 10

- Tốc độ download các trang web lớn do việc lấy các trang web về diễn ra

đồng thời Các trang web không liên quan đến nhau sẽ được lấy về cùng một lúc.

Đó là nguyên tắc hoạt động chung của crawler, tất nhiên việc crawler khôngchỉ phụ thuộc vào nguyên tắc hoạt động, cấu trúc của nó mà còn phụ thuộc vào cácyêu tố khác trên các trang web mà nó cần phải giải quyết Một vấn đề điển hình đó

là việc lấy về các trang web sẽ sinh ra những lưu lượng lớn trên đường truyền, và

sẽ chẳng thú vị gì nếu những người chủ các site đó phải trả tiền cho băng thông củahọ

Một cách tự nhiên, có những luật đã được phát triển để quy định phươngthức hoạt động của crawler, tuy không có ai chịu trách nhiệm hay đứng ra bảo đảmcho những luật này nhưng các crawler tốt đều chấp nhận và thực hiện đúng theonó

và 20 giây cho các trang web nhỏ Tuy nhiên điều này không cố định, các chủ nhâncủa site đó có thể liên lạc và thỏa thuận với quản trị của search engine về thời giantrễ này

Các quy định đối với từng Server

Khi một quản trị web không muốn một số trang của họ bị crawl, họ sẽ sửdụng một công cụ đặc biệt đó là giao thức Robots Exclusion Giao thức này bắtbuộc tất cả các crawler sẽ phải tìm file robots.txt ở thư mục gốc của site đó Filenày sẽ liệt kê một danh sách các URL mà crawler không được lấy về và mộtcrawler tốt sẽ tuân theo quy định này

Trang 11

Một trong những nhược điểm của crawler song song đó là vấn đề các trang

cô lập địa phương Bởi vì các site crawler không theo các link tới các trang ở ngoàisite đó nên có thể có nhiều site sẽ không được lấy về

Hình 1.2c chỉ rõ vấn đề này Hai Website S1 và S2 được download bởi haisite crawler C1 và C2 Vì trang d chỉ có thể đến thông qua link từ site S2 nên cáctrang d và e sẽ không bao giờ được download bởi bất cứ crawler nào Bằng cáchkiểm tra các nhanh các trang có được trong lần crawl trước Nếu một trang tronglần kiểm tra trước có một link tới trang d, nhưng trang d không tồn tại trong lầnkiểm tra này, trang d sẽ được cho vào bộ phân phối URL khởi tạo cho lần crawltiếp theo

Hình 1.2c - Các site bị khuất

Crawler đơn tiến trình

Một cách tiếp cận thiết kế điển hình như trên là mô hình thiết kế một tiếntrình gắn với một site (process-per-site) Cách thiết kế này sẽ thực hiện mỗi sitecrawler như một tiến trình độc lập, nó sẽ trút gánh nặng quản lý song song vào bộphận điều khiển tiến trình của hệ điều hành

Trong khi đó, thiết kế crawl đơn tiến trình (single-crawl-process) gói tất cảcác site crawler vào một tiến trình duy nhất và quản lý các yêu cầu như một vònglặp sự kiện Trong thiết kế này, vòng lặp được tạo ra các sự kiện site request mộtcách tuần tự sau khi đã có thời gian trễ Cách tiếp cận này được chỉ ra trong hình1.2d

Trang 12

Hình 1.2d - Crawl nhiều site trên một tiến trình

Hình trên cho thấy 2 crawler chạy trên cùng một tiến trình Ngược lại vớithiết kế ở hình 1.2a, việc cài đặt crawl đơn tiến trình đưa ra một bộ đếm thời giantrước khi lấy về các trang từ URLsToVisit Bộ đếm thời gian này sẽ quyết định độtrễ trước mỗi một lần request trang đó Vòng lặp sự kiện trung tâm sẽ điều khiểnviệc đồng bộ các crawler

2.2 Indexing:

Khối Indexer được dùng để xây dựng và bảo trì các chỉ mục phục vụ cho cáctruy vấn Khối Indexer xây dựng 3 chỉ mục cơ bản: chỉ mục offset (offset index),chỉ mục text (text index) và chỉ mục link/graph (link/graph index) Offset index ghinhận vị trí vật lý của mỗi trang web trong cơ sở dữ liệu, nơi mà lưu trữ các trangweb đã được nén

Chỉ mục này cho phép truy xuất ngẫu nhiên tới 1 web cho phép trong cơ sở

dữ liệu Text index cho phép truy vấn hướng nội dung, sử dụng các chỉmục ngược

để sung cấp tìm kiếm theo từ khóa trong cơ sở dữ liệu Cuối cùng, link index cungcấp truy vấn hướng liên kết (VD: Gọi đến tập các trang mà trang X trỏ tới )

Sử dụng 3 chỉ mục cơ sở này và các trang web, khối Phân Tích sẽ xây dựnglên các chỉ mục gốc khác nhau Ví dụ, sử dụng chỉ mục liên kết và các thuật toán

Trang 13

lặp PageRank, khối phân tích sẽ tính toán và lưu trữ PageRank của mỗi trang trong

cơ sở dữ liệu ( chỉ mục PageRank )

Tương tự, bằng cách kết hợp thông tin liên kết và nội dung của trang web,khối phân tích có thể xây dựng một chỉ mục tương tự mà ánh xạ mỗi trang tới 1 tậpcác trang tương tự

Thiết kế chiến lược

Ảnh hưởng to lớn bởi số lượng khổng lồ các trang Web trên mạng, chúng taphải thiết kế một lược đồ xây dựng và cấu trúc biểu diễn mới cho rất nhiều chỉ mụcđược sử dụng Thiết kế này có các đặc điểm sau:

- Chỉ mục được xây dựng song song và phân tán Do kích cỡ khổng lồ của

mạng không cho phép thực hiện trực tiếp lược đồ xây dựng chỉ mục tuần tự đơn giản mà áp dụng rất tốt cho các tập hợp dữ liệu vừa và nhỏ ( khoảng vài triệu văn bản hoặc hình ảnh của vài nghìn node ) Cách thực hiện song song và phân tán các tính toán tích kiệm lớn chi phí và thời gian thực hiện.

- Nén và bộ đệm của cấu trúc chỉ mục Nhiều chỉ mục trên mạng quá đồ sộ

để có thể chứa trong bộ nhớ chính Vì vậy, chỉ mục được nén và lưu đệm là giải pháp nhằm giảm thiểu thời gian truy cập các chỉ mục.

- Định danh trang đặc tả chỉ mục Điều này cấn thiết cho mỗi cấu trúc chỉ

mục để tận dụng các định danh đặc tả chỉ mục của chính nó để giảm thiểu thời gian truy nhập và kích cỡ chỉ mục

Chỉ mục văn bản ( Text index)

Để cung cấp dịch vụ hướng văn bản cơ sở, chúng ta xây dựng các chỉ mụcngược thông qua tập các trang web trong cơ sở dữ liệu Kích cỡ của cơ sở dữ liệucác trang web lưu trữ và sự cần thiết của việc thu thập định kì và xây dựng lại chỉmục yêu cầu chúng ta xây dựng một lược đồ xây dựng chỉ mục tin cậy và hiệu quảcao

Việc xây dựng các chỉ mục ngược tăng tối đa tốc độ và khối lượng sử lýindex cho hệ thống Do đó các hệ thống hiện nay đều sử dụng phương pháp này đểtiết kiệm tài nguyên

Trang 14

Hình 1.2e - Chỉ mục văn bản

Chỉ mục ngược xây dựng hệ thống kiến trúc không chia sẻ phân tán nhưhình trên Chỉ mục ngược được xây dựng thành 2 giai đoạn Giai đoạn đầu tiên,mỗi một chỉ mục nhận một tập con tách rời của trang web Khối Indexer sẽ phântích và trích dẫn các đoạn từ trang web, sắp xếp các đoạn vào trong bộ nhớ, vàchuyển chúng vào cấu trúc hiện tại trên đĩa Trong giai đoạn thứ hai, các cấu trúcnày được trộn lẫn nhau để tạo ra một hoặc nhiều file phân tán

Hai chức năng chính của hệ thống là đánh chỉ mục song song mức độ cao vàviệc sử dụng hệ thống cơ sở dữ liệu nhúng để lưu trữ và quản lý các file chỉ mụcngược

Đánh chỉ mục song song mức độ cao

Chúng ta chia quá trình sắp xếp thành ba pha: pha tải (một số trang được đọc từ luồng đầu vào và được lưu trong bộ nhớ), pha xử lý (các trang được phân tích và đánh dấu để sinh ra các đoạn, mà sau đó được sắp xếp thứ tự), và pha ghi

(sắp xếp các đoạn và đĩa)

Khối đánh chỉ mục được thiết kế như là một phần mềm ống đa tiến trình mà

sử dụng một vài bộ nhớ đệm mỗi ống, với mỗi bộ đệm trong một pha Hình dướibiểu diễn ảnh hưởng của đường ống đến thời gian thực hiện tiến trình và sắp xếpvới một vài kích thước đầu vào

Trang 15

Hình 1.2f - Hiệu năng của xử lý đường ống

Chú ý rằng với một tập nhỏ các trang web thì hiệu năng thu được thông qua

xử lý đường ống là không đáng kể Bởi vì với một tập nhỏ thì chỉ yêu cầu một vàiđường ống và thời gian thực thi tổng thể bằng thời gian yêu cầu lúc khởi động vàkết thúc Với một tập lớn thì xử lý tuần tự chậm hơn khoảng 30-40% so với xử lýsong song

Lưu trữ chỉ mục ngược trong hệ thống cơ sở dữ liệu nhúng

Một số các hệ thống hiện nay có sử dụng hệ thống cơ sở dữ liệu nhúng gọi làBerkeley DB để lưu trữ và quản lý các file chỉ mục ngược Cơ sở dữ liệu nhúngcung cấp các phương thức truy nhập cơ sở dữ liệu bao gồm B-trees, bộ đệm vànhững cải tiến lưu vết so với hệ cơ sở dữ liệu client-server

Tuy nhiên, khó khăn là phải thiết kế một khuôn khổ lưu trữ chỉ mục ngược

mà cung cấp các đầy đủ các chức năng của một hệ cơ sở dữ liệu Tổ chức cơ bảncủa một B-tree dựa trên cơ sở file chỉ mục ngược bao gồm lưu trữ các chỉ mụctrong B-tree với những con trỏ trỏ tới danh sách các chỉ mục ngược được lưu trữriêng lẻ

Trang 16

2.3 PageRank:

PageRank là gì?

PageRank là một thuật toán được sử dụng trong công cụ tìm kiếm Google,được phát triển tại Đại học Stanford bởi Larry Page và Sergey Brin trong nghiên

cứu của họ “The Anatomy of a Large-Scale Hypertextual Web Search Engine”

Thuật toán dựa trên 1 giả thuyết phổ biến trong giới hàn lâm, đó là tầm quantrọng của một bài báo được quyết định bởi số các trích dẫn từ bài báo đó của cácbài báo khác Brin và Page đã đơn giản giả thuyết này để dùng cho trang Web:

“Tầm quan trọng của một trang Web được quyết định bởi số lượng các hyperlink trỏ đến nó từ các trang Web khác”.

Hình 1.2g - Minh họa liên kết giữa các site

sử dụng trong PageRank

Chỉ số PageRank của một trang web là kết quả bầu chọn của tất cả các trangweb khác trên toàn thế giới cho website đó về mức độ quan trọng của trang Mỗi 1liên kết ngược là 1 phiếu bầu Các phiếu bầu này có mức độ ảnh hưởng khác nhau,

sự khác nhau đó phụ thuộc vào chất lượng ( hay tính quan trọng ) của mỗi trang đặtliên kết ngược

Một trang được liên kết đến bởi các trang có PageRank cao sẽ nhận đượcPageRank cao Nếu 1 trang web không có liên kết nào đến thì sẽ không có phiếubầu nào

Google tính điểm cho các trang web trên mạng từ 0-10 Chỉ số PageRanknày cho biết trang web có quan trọng hay không theo cách nhìn nhận của Google.Website nào có chỉ số PageRank cao chứng tỏ website đó có chất lượng cao và

Trang 17

Tất nhiên khi tìm kiếm không phải cứ website có PageRank cao là sẽ đượcxếp ở trang đầu tiên, điều này còn phụ thuộc vào việc bạn muốn tìm kiếm gì vànhiều yếu tố khác Google kết hợp PageRank với một số heuristics khác để cho rakết quả phù hợp nhất

Thuật toán PageRank.

Trích từ Google, PageRank được định nghĩa như sau:

Coi trang A có các trang T1, T2, …, Tn trỏ tới nó Tham số cản d có thể được đặt giá trị trong khoảng 0 đến 1 Chúng ta thường đặt d= 0.85 C(A) được định nghĩa là số link mà trang A trỏ đến PageRank của trang A được tính theo công thức:

Chú ý rằng tổng tất cả PageRank của tất cả các trang web là một số cố định.

PageRank PR(A) có thể được tính toán bằng cách sử dụng 1 thuật toán lặp đơn giản.

Trong đó:

PR(A) - PageRank của trang A

PR(Tn) - PageRank của trang Tn

C(Tn) - Số các link đi ra của trang Tn

(1-d) - Thể hiện rằng tổng PageRank tất cả các trang web là một số cố định Ngoài ra còn có ý nghĩa là nếu 1 trang web mà không có trang nào trỏ tới nó thì nó sẽ có PR < 0.15

Ta thấy PageRank của một trang web được tính bằng tổng của PageRankcủa tất cả các trang trỏ tới nó (incoming links), chia cho số các link đi ra của trang

đó ( outgoing links)

PR(A) = (1-d) + d( PR(T1)/C(T1) + …+ PR(Tn)/C(Tn) )

Trang 18

Trên quan điểm của Search Engine, định nghĩa thuật toán PageRank cho tathấy có 2 yếu tố ảnh hưởng đến vị trí của trang web của bạn trên Google Đó là:

- Số lượng các link đi đến ( incoming links): Thông thường thì càng nhiều

link đi đến càng tốt Có 1 điểm đáng chú ý mà thuật toán chỉ ra đó là: Nếu 1 trang không có link trỏ đến có thể gây ra ảnh hưởng ngược lại đến PageRank của trang web mà nó trỏ tới ( C(T) = 0 ).

- Số lượng các link đi ra của các trang web trỏ tới ( outgoing links): Càng

ít càng tốt, có nghĩa là nếu có 2 trang web trỏ tới trang cần tính PageRank,

1 trang có 5 link đi ra và 1 trang có 10 link đi ra thì PageRank được tính từ trang có 5 link đi ra sẽ gấp đôi trang có 10 link đi ra.

Có thể thấy thuật toán PageRank không liên quan gì đến các câu truy vấntìm kiếm Nó chỉ đơn thuần là một phần của thuật toán xếp hạng của Google

Có lẽ cách tốt nhất để xem xét PageRank là coi nó như là 1 yếu tố bổ sung,được xử lý trên các kết quả tìm kiếm của Google sau khi tất cả các tính toán khác

đã hoàn tất

Thuật toán tìm kiếm của Google trước tiên sẽ tiến hành tìm kiếm trên cáctrang mà nó đã đánh chỉ mục, sau đó sẽ tính toán PageRank trên các trang kết quảtìm kiếm để đưa ra danh sách kết quả có sắp xếp cuối cùng Các trang có PageRankcao hơn sẽ được sắp xếp ở vị trí cao hơn

PageRank được tính toán như thế nào.

Đây là công việc khá phức tạp PageRank của mỗi trang phụ thuộc vàoPageRank của các trang trỏ tới nó Nhưng ta lại không thể biết PageRank của cáctrang đó cho đến khi tính được PageRank của các trang trỏ tới các trang đó…Cóthể thấy dường như thuật toán tạo thành 1 vòng lặp vô tận mà không thể tính toánđược

Nhưng thực tế chúng ta không làm như vậy Chúng ta sẽ tính toán PageRankcủa 1 trang mà không cần biết giá trị cuối cùng của PageRank của trang đó

Điều này nghe có vẻ không hợp lý, nhưng về cơ bản, mỗi lần chạy thuật toánchúng ta sẽ đến gần hơn với giá trị ước lượng cuối cùng Vì vậy tất cả công việcphải làm là ghi nhớ giá trị mỗi lần tính toán và lặp lại phép toán cho đến khi kếtquả thay đổi trong một giá trị đủ nhỏ cho phép

Hãy xem xét một ví dụ đơn giản nhất: có 2 trang web, mỗi trang lại trỏ đến

Trang 19

Mỗi trang có 1 link đi ra ( outgoing links) C(A) = C(B) = 1.

Trường hợp 1

Ban đầu chúng ta chưa biết được PageRank của từng trang, vì thế ta sẽ đặtbằng 1, sau đó thực hiện phép tính:

d = 0.85PR(A) = (1-d) + d(PR(B)/1)PR(B) = (1-d) + d(PR(A)/1)Theo ví dụ trên ta tính được:

PR(A) = 0.15 + 0.85*1

= 1PR(B) = 0.15 + 0.85*1

Tiêu đề	Phần mềm tối ưu chí phí quảng cáo trực tuyến Easy – Op
Người hướng dẫn	Ts. Phạm Hoàng Duy, Ths. Nguyễn Thị Ngọc Vinh
Trường học	Học Viện Công Nghệ Bưu Chính Viễn Thông
Chuyên ngành	Công Nghệ Thông Tin
Thể loại	Báo cáo nghiên cứu khoa học
Năm xuất bản	2011
Thành phố	Hà Nội

Định dạng
Số trang	39
Dung lượng	1,48 MB