1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm hiểu phương pháp tối ưu hóa công cụ tìm kiếm cho một số ứng dụng cms

56 1,2K 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 56
Dung lượng 917,5 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Quá trình chỉ mục công cụ tìm kiếm search engine indexing, SEI đề cập đến các phương pháp và kỹ thuật được sử dụng bởi công cụ tìm kiếm để đọc và bao gồm nộidung và dữ liệu trong của một

Trang 1

ĐẠI HỌC HUẾ KHOA DU LỊCH …………

CHUYÊN ĐỀ TỐT NGHIỆP

Đề Tài:

Tìm hiểu phương pháp tối ưu hóa công cụ tìm kiếm cho một số ứng dụng

cms

Giảng viên hướng dẫn: Ts.Võ Viết Minh Nhật

Sinh viên thực hiện: Đào Thủy Tiên

K46_TMĐT

Huế, tháng 05 năm 2016

Trang 2

LỜI CAM ĐOAN

Tôi xin cam đoan Chuyên đề được thực hiện bằng công sức của mình, khôngsao chép từ công trình khác Mọi thông tin tham khảo đều được trích dẫn đầy đủ Nếu

có gì gian dối tôi xin chịu hoàn toàn trách nhiệm

Huế, tháng 05 năm 2016

Sinh viên

Đào Thủy Tiên

Trang 3

LỜI CẢM ƠN

Tôi xin chân thành cảm ơn các thầy cô giáo Khoa Du Lịch – Đại Học Huế đã hỗtrợ mọi điều kiện giúp tôi có được một môi trường học tập tốt nhất Cảm ơn tất cả cácquý thầy cô đã hết lòng quan tâm và dạy dỗ, trang bị cho tôi những kiến thức và hànhtrang quý báu

Đặc biệt tôi xin chân thành cảm ơn thầy giáo Ts.Võ Viết Minh Nhật – người đãtrực tiếp hướng dẫn tôi trong quá trình triển trai và thực hiện đề tài này Cảm ơn thầy

đã tận tình hướng dẫn, động viên và giúp đỡ tôi trong suốt thời gian thực hiện đề tài

Huế, tháng 05 năm 2016

Sinh viên

Đào Thủy Tiên

Trang 4

DANH MỤC TỪ VIẾT TẮT

CMS Content management system)

Hệ thống quản lý nội dungCSDL Cơ sở dữ liệu

HTML HyperText Markup Language

Ngôn ngữ Đánh dấu Siêu văn bản

Hệ thống xếp hạng

Công cụ tìm kiếm

SEO Search Engine Optimization

Tối ưu hóa công cụ tìm kiếm

SEOer Người thực hiện công việc tối ưu hóa WebsiteTraffic Lượng người truy cập vào website

ROI Return on Investment

Hiệu quả trên ngân sách đầu tƣ

URL Uniform Resource Locator

Tham chiếu tới tài nguyên trên Internet

Trang web

Webmaster Website administrator

Quản trị viên quản lý WebsiteRSS Really Simple Syndication

Là một định dạng tập tin thuộc họ XML

Trang 5

ĐỀ TÀI: TÌM HIỂU PHƯƠNG PHÁP TỐI ƯU HÓA CÔNG CỤ TÌM

KIẾM CHO MỘT SỐ ỨNG DỤNG CMS

Trang 6

PHẦN I: ĐẶT VẤN ĐỀ

1 Lý do chọn đề tài

Trong thời đại công nghệ thông tin, kinh doanh trực tuyến, tiếp thị và quảng cáotrên Internet đã tạo ra một tác động đáng kể Những doanh thu rất lớn đã được tạo rabằng cách tạo và quảng cáo các websites tốt Tuy nhiên, có hàng tỷ websites với mộtphạm vi rộng các thể loại và chủ đề trên toàn thế giới, với các loại ngôn ngữ khácnhau, trong các lĩnh vực và nội dung khác nhau Để tìm được thông tin hoặc website

về một chủ đề cụ thể, người dùng thường sử dụng một công cụ tìm kiếm và truy vấntìm kiếm với các từ, từ khoá hoặc cụm từ Các công cụ tìm kiếm phổ biến hiện nay baogồm Google, Yahoo, Bing MSN, AOL … Hiện đang có rất nhiều công trình nghiêncứu và phát triển trong suốt thập kỷ qua để làm cho công cụ tìm kiếm ngày càng hoànhảo đối với người dùng về tính tiện dụng, độ tin cậy và tìm đúng thông tin theo cácyêu cầu tìm kiếm Hơn nữa, công cụ tìm kiếm đã trở thành một nhu cầu quan trọng và

là công cụ hàng ngày cho người dùng Internet và phương tiện quảng cáo trực tuyến.Công cụ tìm kiếm đang mang lại lợi nhuận từ quảng cáo, giải trí, mạng truyền thông

xã hội, các ứng dụng sử dụng hàng ngày và bán hàng và dịch vụ trực tuyến Kinhdoanh trên Internet đang phát triển từng ngày với một sự tăng trưởng lớn trong lĩnhvực tiếp thị trên Internet và phát triển web

Có hàng tỷ website sống trên Internet Hầu hết chúng đều cho phép quản lý, bổ

sung và sửa đổi nội dung Một hệ thống quản lý nội dung (content management system, CMS) cho phép người dùng chia sẻ, kiểm soát truy cập, cập nhật dữ liệu và

tăng cường giao tiếp giữa người dùng trong một môi trường cộng tác Joomla, Drupal,WordPress là những ví dụ về các ứng dụng CMS phổ biến nhất hiện nay Hầu hết các

hệ thống CMS không được thiết kế và phát triển theo tất cả các tiêu chuẩn SEO Dovậy, có một số vấn đề cụ thể đối với nội dung được tạo ra bởi các CMS này

Quá trình chỉ mục công cụ tìm kiếm (search engine indexing, SEI) đề cập đến các

phương pháp và kỹ thuật được sử dụng bởi công cụ tìm kiếm để đọc và bao gồm nộidung và dữ liệu trong của một website vào kho dữ liệu của chúng Khám phá nội dungcác website cho việc chỉ mục tự động có một tầm quan trọng then chốt đối với thương

Trang 7

mại điện tử hiệu quả và các ứng dụng khác của Web Nó cho phép người dùng, baogồm khách hàng và doanh nghiệp, xác định vị trí các nguồn tốt nhất cho việc sử dụngcủa họ Điều quan trọng là giữ chỉ số để tất cả các website có được thứ hạng tối đa trêncông cụ tìm kiếm Nếu website không được lập chỉ mục bởi công cụ tìm kiếm, điềunày cũng giống như một cửa hàng lớn không có bảng chỉ dẫn.

Nhận thấy vấn đề cần thiết như vậy nên tôi đã đề ra vấn đề đó là : đánh giá vànghiên cứu chi tiết về các phương pháp tối ưu hóa công cụ tìm kiếm cho các ứng dụng

hệ thống quản lý nội dung và Web2.0 Nó cũng cung cấp một cái nhìn tổng quan củachỉ mục tìm kiếm và làm thế nào để cải thiện công cụ tìm kiếm lập chỉ mục cho cácứng dụng CMS

- Nghiên cứu và phân tích hành vi tìm kiếm của Google và các chuẩn tối ưu hóađối với các webmaster

- Đề xuất và kiến nghị các giải pháp cho các phân bố (layouts) hiện có của cácwebsites khác nhau dựa trên CMS theo các chuẩn Web 2.0 và SEO

3 Đối tượng và phạm vi nghiên cứu

a Đối tượng nghiên cứu

Các thành phần tối ưu hóa công cụ tìm kiếm bộ lập chỉ mục cho các ứng dụngCMS gồm các ứng dụng quản lý nội dung, web 2.0, WordPress, Joomla, Drupal

Trang 8

- Thời gian nghiên cứu: từ ngày 01/02/2016 đến ngày 01/04/2016

4 Phương pháp nghiên cứu

Phương pháp thống kê, phân tích tổng hợp và phương pháp so sánh: các phươngpháp này được sử dụng nhiều nhất trong quá trình nghiên cứu cách thức hoạt động củacông cụ tìm kiếm bộ lập chỉ mục cho các ứng dụng CMS

5 Kết cấu của đề tài

Phần 1: Đặt vấn đề

Phần 2: Nội dung và kết quả nghiên cứu

Bố cục của đề tài ngoài phần mở đầu, phần kết luận, tài liệu tham khảo, nội dunggồm 3 chương:

Chương I: Cơ sở lý luận về tối ưu hoá công cụ tìm kiếm.

Chương II: Phương pháp tối ưu hoá công cụ tìm kiếm cho một số ứng dụng cms Chương III: Một số kiến nghị ứng dụng SEO cho CMS

Phần 3: Kết luận

Trang 9

PHẦN II: NỘI DUNG VÀ KẾT QUẢ NGHIÊN CỨU CHƯƠNG I: CƠ SỞ LÝ LUẬN VỀ TỐI ƯU HOÁ CÔNG CỤ TÌM KIẾM 1.1 Tối ưu hóa công cụ tìm kiếm

Chương này sẽ trình bày một cái nhìn tổng quan chi tiết của chuyên đề của tôi vềcác chủ đề như phương pháp, công cụ, kỹ thuật tối ưu hóa công cụ tìm kiếm, cơ bảnquản lý nội dung và sẽ so sánh hiệu suất của chúng về tối ưu hóa công cụ tìm kiếm vàcũng sẽ xem xét các kỹ thuật lập chỉ mục và làm việc trên công cụ tìm kiếm Công cụtìm kiếm chính mà tôi tập trung là Google bởi vì bây giờ nó trở thành vua của cácdoanh nghiệp tìm kiếm và công cụ tìm kiếm được sử dụng nhiều nhất hàng này ngàycũng như các công cụ tìm kiếm phổ biến khác như Yahoo, Bing và AltaVista

Mỗi người trong chúng ta sử dụng Internet mở ra Google hay công cụ tìm kiếmkhác khi tìm kiếm thông tin trên internet Những người sử dụng Internet hoặc để tìmkiếm truyền thông, thông tin, giải trí hay một sản phẩm dịch vụ như mua và bán Tìmkiếm đã trở nên tích hợp vào trong cơ cấu xã hội và thời đại chúng ta TheocomSource, hơn 12 tỉ lượt tìm kiếm được thực hiện mỗi tháng từ tháng 1/2009, khoảng

400 triệu tìm kiếm web thực hiện mỗi ngày Tối ưu hóa công cụ tìm kiếm là một thuậtngữ rộng lớn bao gồm một khu vực rộng lớn trên internet Tìm kiếm có hệ thống làniêm yết trên công cụ tìm kiếm mà là các kết quả của các truy vấn tìm kiếm khi ngườidùng viết các từ khóa trong công cụ tìm kiếm khi tìm kiếm Và những danh sách nàykhông bao gồm các liên kết quảng cáo tài trợ (quảng cáo pay-per-click) Một websitechỉ có thể được tối ưu hóa và có thể nhìn thấy khi nó được xếp hạng tốt và được đặttrên trang đầu tiên trong kết quả công cụ tìm kiếm Tối ưu hóa công cụ tìm kiếm làmột quá trình và tập các lý thuyết, các công cụ và kỹ thuật áp dụng để làm cho websiteđược xếp hạng và được đặt trên trang đầu tiên của tìm kiếm có hệ thống Có nghĩa lànếu bất kỳ người dùng đang tìm kiếm một website có liên quan đến từ khóa / thuật ngữtìm kiếm của bạn để website của bạn có thể hiện trên trang đầu tiên (nhiều khả năngtrong ba vị trí đầu tiên) của danh sách tìm kiếm cho phép có cơ hội tối đa để có mộtnhấp chuột trên website

Trang 10

Cách hoàn hảo để website của bạn được tối ưu hóa là phải được hiển thị trêntrang đầu tiên với vị trí hàng đầu của kết quả/ danh sách tìm kiếm Điều đã đượcnghiên cứu và khảo sát là hầu hết mọi người nhấp chuột vào năm kết quả danh sáchtìm kiếm đầu tiên và không bỏ qua trang thứ ba nếu họ đến kết quả tìm kiếm tối đa Đó

là lý do tại sao những website đã chiếm năm vị trí đầu tiên có lượng truy cập tối đa vàchúng tạo ra nhiều lợi nhuận hơn Có một số cách và thực tiễn để đạt được tối ưu hóacông cụ tìm kiếm và hầu hết những người áp dụng chúng theo những cách phươngpháp và trình tự, khác nhau, nhưng các thông lệ và nguyên tắc của SEO là như nhaucho tất cả các loại chiến dịch website

1.1.1 Tại sao cần SEO?

Tối ưu hóa và tiếp thị công cụ tìm kiếm hiện đang trở thành nhu cầu quan trọngcủa mỗi doanh nghiệp, sản phẩm và dịch vụ trực tuyến Nhiều doanh nghiệp trực tuyếnkhông thành công vì họ không được tối ưu hóa tốt trên các công cụ tìm kiếm Sử dụngquảng cáo trả tiền như Google Adwords vẫn cần kỹ năng SEO để viết quảng cáo tối ưuhóa Người ưu hóa / thực hành công cụ tìm kiếm tối nhấn mạnh không chỉ cấu trúc ,nội dung, thiết kế và mã website mà còn chú ý đến việc xây dựng các liên kết bênngoài trên cơ sở thông thường Mục tiêu của công cụ tìm kiếm là để cung cấp nội dung

có chất lượng, kết quả tìm kiếm nhanh và các cơ hội quảng cáo dễ dàng đến nhữngngười tìm kiếm trên internet Càng nhiều lần kết quả tìm kiếm dẫn đến nội dung mongmuốn, càng có nhiều khả năng người dùng sử dụng công cụ tìm kiếm một lần nữa Nóichung, một website tối ưu hóa tốt phải thân thiện với người dùng, các cấu trúc tốt vàhiển thị trên trang đầu tiên với các từ khóa chính của nó Với toàn bộ những đặc điểmnày, website sẽ có nhiều lưu lượng mà nó tăng ROI tối ưu

Tối ưu hóa công cụ tìm kiếm phụ thuộc rất nhiều vào các yếu tố phát triểnwebsite bởi vì nếu website không phát triển đủ tốt theo hướng dẫn công cụ không thểđược tối ưu hóa tốt cho công cụ tìm kiếm Ngày nay sáng chế của hệ thống quản lý nộidung (CMS) lấy phần lớn sự phát triển web như hầu hết các doanh nghiệp trực tuyến

và website công ty dựa trên hệ thống quản lý nội dung Web2.0 là một nền tảng tiêuchuẩn thế hệ thứ hai cho việc thiết kế và phát triển Các ứng dụng Web làm cho việcgiao tiếp, khả năng tương tác, chia sẻ thông tin dễ dàng, phối hợp với người dùng làm

Trang 11

trung tâm và tích hợp trên World Wide Web Hầu hết mạng xã hội và các website lưulượng web cao dựa trên Web 2.0.

Các công cụ tìm kiếm được thiết kế cho những người tìm kiếm thông tin và tìmkiếm trên internet Công cụ tìm kiếm cung cấp một loạt các ứng dụng và các công cụcho các mục đích khác nhau như quảng cáo, tối ưu hóa công cụ tìm kiếm và cung cấpthông tin Mỗi công cụ tìm kiếm có ba phần Đó là crawler, indexer và giao diện tìmkiếm Điều quan trọng để nghiên cứu làm thế nào một công cụ tìm kiếm làm việc vàcác kỹ thuật chỉ mục chính nào được sử dụng bởi các công cụ tìm kiếm lớn nhưGoogle, Yahoo và Bing Có những kỹ thuật khác nhau và các công cụ để tối ưu hóamột website Điều cần thiết để tìm được các kỹ thuật và các công cụ SEO nào là quantrọng cho mỗi chiến dịch SEO và những tiêu chuẩn và hướng dẫn nào nên được theotrong khi phát triển một website dựa trên CMS Có phạm vi riêng biệt của các công cụCMS có sẵn trên thị trường nguồn mở internet Từ đó, Drupal, Joomla và WordPressđang dẫn đầu các cổ đông

1.1.2 Chiến lược SEO

Điều tốt hơn để thực hiện một chiến lược SEO ngắn gọn, làm việc cho phù hợp

và theo thứ tự, kịp thời và mục tiêu định hướng Nó cũng quan trọng để giữ cập nhậtbản thân về các chiến lược xếp hạng mới nhất và cập nhật các công cụ tìm kiếm Ảnhhưởng đến chiến lược SEO đòi hỏi thử nghiệm lặp đi lặp lại để tinh chỉnh nó Giốngnhư quảng cáo, SEO cần sự cống hiến lâu dài để nhìn thấy kết quả mong muốn nhất

Có bốn bước chung để một nỗ lực SEO tinh chế:

1 Chiến thuật

2 Thực hiện

3 Phân tích

4 Tối ưu hóa

Trong bước đầu tiên bạn thực hiện một chiến lược SEO cụ thể đó là một phầncủa quá trình lập kế hoạch SEO Trong bước thứ hai bạn thực hiện các bước cần thiếtđược xác định trước trong chiến lược Sau đó, bạn phân tích quá trình SEO và cuốicùng bạn nhận được trong quá trình tối ưu và xem kết quả Chiến lược SEO không

Trang 12

phải là duy nhất cho tất cả các loại website, cho loại website khác nhau chiến lượcSEO sẽ khác nhau và cũng có khung thời gian của chiến dịch SEO để hiển thị các kếtquả mong muốn Chiến lược SEO được chia thành các giai đoạn đối với các thànhphần SEO Tất cả những chiến lược có thể được cuộn lại để tạo vũ khí duy nhất là kếhoạch SEO Đây có thể là chiến lược nội dung, chiến lược xây dựng liên kết, chiếnlược tiếp thị công cụ tìm kiếm, chiến lược truyền thông xã hội, chiến lược mục tiêucông cụ tìm kiếm, chiến lược kỹ thuật…

1.1.3 Tên miền & Hosting

Để bắt đầu kinh doanh trực tuyến điều đầu tiên bạn cần làm là đăng ký một tênmiền Sau khi biết bạn nhắm khu vực mục tiêu và từ khóa mục tiêu, cố gắng đăng kýtên miền bao gồm từ khóa chính của bạn Ví dụ, nếu doanh nghiệp của bạn bán máytính xách tay thì tên miền với từ khóa máy tính xách tay (ví dụ: buylaptops.com) sẽ làmột tên miền tốt Lựa chọn webhost cũng là một vấn đề quan trọng vì trong khi chỉnhsửa website của bạn cho các yêu cầu SEO, webhost sẽ cung cấp sửa đổi tậptin htaccess, SEO add-ons (tích hợp SEO plugin) và cơ sở để mua một IP dành riêngcho tên miền của bạn

Sau đây là các yếu tố quan trọng khi đăng ký một tên miền:

- Tránh dấu gạch nối: Trong tên miền, dấu gạch nối làm giảm đi tín nhiệm và

được xem như một chỉ số thư rác

- Tránh chung chung, tên miền cấp cao hiếm gặp (TLD): Giống như dấu gạch

nối, tên miền cấp cao như info, cc, ws và name là các chỉ số thư rác

- Tên miền dài: Tránh tên miền dài hơn 15 ký tự

- Hãy coi chừng các hoán vị: Chủ sở hữu ExpertsEchange.com xây dựng được

một thương hiệu khá lớn và họ nhận ra tên miền của họ có thể bị hiểu sai nhưExpertsexchange.com (Danny, 2011) thì có nghĩa là expertsexchange.com cũng có thể

bị hiểu lầm bởi "chuyên gia thay đổi sex" mà có thể tham chiếu đến nội dung ngườilớn hoặc một số ngành công nghiệp khác có thể gây nhầm lẫn cho sự tương tác củangười dùng Đó là lý do tại sao các chuyên gia trao đổi một công ty CNTT hàng đầutrợ giúp có tên miền "experts-exchange.com"

Trang 13

Độ tuổi của tên miền có thể đóng một vai trò quan trọng trong việc phân bổ củaGoogle PageRank Tên miền trẻ thường được xếp hạng thấp; kết quả là tên miền lớntuổi luôn xếp hạng cao hơn Tuy nhiên, nếu bạn mua một tên miền hết hạn thời giangần đây có một PageRank cao vì tuổi tác và danh tiếng tích lũy, PageRank khôngchuyển giao cho chủ sở hữu mới Công cụ tìm kiếm có thể nhìn thấy khi tên miền thayđổi quyền sở hữu và sẽ thiết lập lại thứ hạng của họ trong tình huống như vậy

1.1.4 Nghiên cứu từ khóa

Trong quá trình nghiên cứu từ khóa cần phải đi qua các bước sau.:

- Thị trường mục tiêu và ghi chú thị trường đang nhắm đến

- Tạo một danh sách chung các từ khóa và cụm từ khóa

- Chiết xuất các từ khóa từ các website của đối thủ cạnh tranh và thị trường mụctiêu quan trọng theo quan điểm của bạn

- Sử dụng các công cụ nghiên cứu từ khóa thích hợp có sẵn trên internet nhưGoogle, Keyword Discovery, SEOBook và WordTracker có KEIs và KOIs tốt nhất

- Đánh giá sự phổ biến của sự lựa chọn từ khóa Có bao nhiêu website phù hợpvới từ khóa tìm kiếm? Từ 30 danh sách tìm kiếm hàng đầu, có bao nhiêu đã được tối

ưu hóa website của họ? Vậy làm thế nào để có thể làm tốt hơn?

- Đối với mỗi trang của website sử dụng các từ khóa độc đáo theo nội dungtrang

- Nghiên cứu từ khóa là rất quan trọng và giai đoạn đầu tiên trong một chiếndịch SEO

1.1.4.1 Chỉ mục hiệu lực của từ khoá (K.E.I)

Chỉ mục hiệu lực của từ khoá (K.E.I), trước tiên được tạo ra bởi Sumantra Roy.Đây là tỷ lệ số tìm kiếm (số lượng tìm kiếm được thực hiện bởi người sử dụng) trêntổng số lượng kết quả tìm kiếm trong khi tìm kiếm từ khóa đó Theo cách đơn giảnKEI so sánh số lượng tìm kiếm và số lượng các kết quả website tương ứng Khốilượng tìm kiếm có thể được biết đến bằng cách sử dụng các công cụ từ khóa nhưWordTracker, Google Keyword Tool, SEOBOOK và nhiều công cụ khác trên internet

Trang 14

Những công cụ này cung cấp cho con số ước tính của tìm kiếm được thực hiện bởingười sử dụng trong một thời gian nhất định trên công cụ tìm kiếm.

Hình 1.1: Công cụ nghiên cứu từ khoá SEOBook cho thấy tìm kiếm ước tính

hàng ngày trên từ khóa "web hosting" ( www.seobook.com )

Công thức tổng quát để tính toán KEI là:

KEI = (tìm kiếm hàng tháng) * 2 / cạnh tranh thô

Trong đó "tìm kiếm hàng tháng" đề cập đến số ước tính các truy vấn tìm kiếmđược thực hiện bởi mọi người trong một tháng Ví dụ, theo hình 2, tìm kiếm ước tínhhàng tháng cho từ khóa "web hosting" là khoảng 14.472 cạnh tranh thô là tổng sốSERPs cho một truy vấn tìm kiếm tương ứng Ví dụ, tổng SERPs cho từ khóa "webhosting" trên công cụ tìm kiếm của Google là 455 triệu website

1.1.4.2 Chỉ mục cơ hội của từ khóa (K.O.I )

Chỉ mục cơ hội của từ khóa (KOI) đề cập đến việc tìm ra những từ khóa có khảnăng thành công và đo sự hấp dẫn của từ khóa trên các website cạnh tranh trực tiếp

Để có được các website cạnh tranh trực tiếp, truy vấn cho công cụ tìm kiếm Google là

"allinanchor: từ khóa" trong đó anchor (neo) đại diện cho các website với các liên kếtneo văn bản có chứa từ khóa nhắm đến bạn Ví dụ cho từ khóa “web hosting” cácwebsite cạnh tranh trực tiếp là 193.000.000 Công thức của KOI là:

KOI = (Tìm kiếm hàng tháng) * 2 / Cạnh tranh trực tiếp (Keil, 2011)

Trang 15

1.1.4.3 Mật độ từ khoá

Mật độ từ khóa là các số liệu được sử dụng trong phân tích từ khoá mà xác định

tỷ lệ số lần xuất hiện của một từ khóa hoặc cụm từ trên tổng số tất cả các từ trên mộtwebsite nhất định Nếu một từ khóa hoặc cụm từ khóa xuất hiện nhiều lần trong mộttrang duy nhất (vd có mật độ từ khóa cao) thì công cụ tìm kiếm sẽ xem xét nó là thưrác Cách lý tưởng để sử dụng mật độ từ khóa là từ 4% đến 6%, đôi khi được cho làcao tới 10%, nhưng không được khuyến khích

1.1.5 Phân tích đối thủ cạnh tranh

Các yếu tố quan trọng trong việc phân tích đối thủ cạnh tranh là:

- lập chỉ mục website đối thủ cạnh tranh: Phân tích bao nhiêu trang trên websitecủa đối thủ cạnh tranh của bạn được lập chỉ mục bởi Google và các bộ máy tìm kiếmkhác?

- Tính phổ biến liên kết và Pagerank: Các liên kết trở lại và xếp hạng trang củawebsite của đối thủ cạnh tranh

- Từ khóa mục tiêu: từ khóa chính và tiêu đề trang chính và Meta tag của họ làgì?

- Lưu lượng Web ước tính: Phân tích lưu lượng web mà họ đang nhận được Để

có được dữ liệu lưu lượng có một số công cụ có sẵn trên internet Phổ biến nhất làAlexa.com và doubleclick.com

1.1.6 Khảo sát công cụ tìm kiếm và bộ lập chỉ mục

Thu thập dữ liệu được thực hiện bằng robot mà còn được gọi là nhện công cụ tìmkiếm Các chức năng chính của việc thu thập là để phân loại các trang có liên quan đếnchỉ mục và đánh giá xem chúng đã thay đổi Bộ thu thập và nhện công cụ tìm kiếmtruy cập vào các website và lấy một tham chiếu URL của trang để phân tích và lập chỉmục mục đích Các dữ liệu được thu thập bởi nhện và bộ thu thập được sử dụng đểhiển thị kết quả tìm kiếm và xếp hạng công cụ tìm kiếm của công cụ tìm kiếm Công

cụ tìm kiếm thu thập dữ liệu website trên cơ sở thường xuyên phụ thuộc vào sự tiến

bộ, chất lượng và xếp hạng của website Các Website mà thường xuyên cập nhật cáctrang với nội dung được cập nhật trên cơ sở hàng ngày được thu thập và ghi nhiều hơn

Trang 16

một nội dung không được cập nhật Web crawler sử dụng để lưu trữ một bản sao cácwebsite được thu thập Nó có thể được nhìn thấy bằng cách ghi cache: với địa chỉ URLsau cần được kiểm tra trong hộp tìm kiếm của Google, ví dụ: viết truy vấn sau tronghộp tìm kiếm của Google:

cache: www.yoururl.com

Hình 1.2: Quá trình thu thập dữ liệu trên Google

Một website khi được lưu trữ bởi công cụ tìm kiếm (ví dụ Google) được gọi làđược lập chỉ mục Indexer được thiết kế đặc biệt và tối ưu hóa cho các tập tin chỉ mục

Sử dụng chỉ số được xây dựng bởi indexer, công cụ tìm kiếm có thể truy cập gần nhưtrực tiếp đến các phần của cơ sở dữ liệu chứa thông tin mà người dùng đang tìm kiếm.Xếp hạng công cụ tìm kiếm phụ thuộc rất nhiều vào lập chỉ mục website Càng nhiềutrang của website bao gồm (lập chỉ mục) bởi công cụ tìm kiếm thì nó sẽ có thứ hạngcông cụ tìm kiếm cao Một trong những mục đích chính của những người thực hànhcông cụ tìm kiếm là lập chỉ mục website sao cho mọi trang web mong muốn có chỉ số.Chi tiết về chỉ mục công cụ tìm kiếm được thảo luận trong phần chỉ mục công cụ tìmkiếm

1.1.7 PageRank và tầm quan trọng của nó

PageRank là một thuật toán phân tích liên kết được sử dụng bởi công cụ tìm kiếmGoogle ban đầu được xây dựng bởi Larry Page và Sergey Brin Các giá trị PageRankđược tiền tính toán và lưu trữ đối với tất cả các trang được biết đến với hệ thống IR.Điều này có nghĩa là tất cả các trang trong các website có một số điểm PageRank là

Trang 17

hoàn toàn độc lập với thuật ngữ truy vấn Một tìm kiếm trả về điểm số PageRank làbáo cáo thứ bậc quan trọng của các trang có chứa các thuật ngữ truy vấn Đây là mộtgiá trị trong thang mười (10) mà Google toolbar cho trên cơ sở của rất nhiều yếu tố và

có thể được nhìn thấy bằng cách sử dụng Google toolbar hoặc công cụ SEO

PageRank là một cách đặc biệt để ưu tiên các kết quả của tìm kiếm từ khóa webtheo thứ tự Đối với các chủ đề được ngưỡng mộ nhất, một tìm kiếm phù hợp văn bảnđơn giản được giới hạn đến tiêu đề của website khi PageRank ưu tiên các kết quả Yếu

tố lớn PageRank phụ thuộc là các liên kết trở lại một website PageRank mở rộng ýtưởng này bằng cách không đếm các liên kết từ tất cả các trang như nhau và bằng cáchchuẩn hóa bởi số lượng của các liên kết trên một trang PageRank được định nghĩa nhưsau:

Hãy giả định rằng trang A có các trang T1 Tn tham chiếu đến nó (tức là tríchdẫn / liên kết trở lại) Tham số d là một yếu tố giảm xóc có thể dao động giữa 0 và 1.Nói chung, giá trị giả định của d được thiết lập 0,85 Ngoài ra C(A) được định nghĩa là

số lượng các liên kết đi ra khỏi trang A PageRank của trang A được cho như sau:(Page, 2001)

1 Nếu vào một trang, mà không có trong chỉ mục của nó, nhưng có một trang

mà rất gần với nó trong chỉ mục của Google, thì nó sẽ cung cấp một ước tínhPageRank Phỏng đoán này là vô giá trị đối với các mục đích của chúng ta bởi

vì nó không được đặc trưng trong bất kỳ tính toán PageRank Cách duy nhất

để biết nếu thanh công cụ đang sử dụng một phỏng đoán là nhập URL vàohộp tìm kiếm của Google

Trang 18

2 PageRank thực sự có thể được nhìn thấy bằng cách cài đặt Google toolbar (từtoolbar.google.com) trong trình duyệt web PageRank là tuyến tính, do đó,Google sử dụng một đồ thị phi tuyến tính để hiển thị nó Để nhận được từ mộtPageRank 2 đến một PageRank 3 cần ít hơn của một gia tăng để di chuyển từmột PageRank 3 đến một PageRank 4 Các số liệu thực tế của PageRank đượcgiữ bí mật tuy nhiên theo hình 7 là con số thực tế ước tính tương ứng vớithanh công cụ Google PageRank

Yếu tố PageRank có tầm quan trọng cao trong các liên kết mua / bán Cácwebsite với PageRank cao yêu cầu tiền tốt để cung cấp các liên kết bên trong, ví dụApple.com có PR 9 nên có back link từ apple.com giá trị rất nhiều cho công cụ tìmkiếm Tuy nhiên, không cần thiết nếu một website có PageRank cao có thể có xếphạng tìm kiếm tốt hơn và lưu lượng web cao so sánh một website có PageRank thấp.Google không bao giờ tiết lộ những tính toán thuật toán PageRank thực tế màquyết định bởi thanh công cụ Google PageRank tuy nhiên phụ thuộc vào các yếu tốsau đây

- Số lượng liên kết trở lại website, chất lượng và nội dung liên quan

- PageRank của các website được liên kết đến website của bạn

- Số lượng các liên kết ra trên trang được liên kết đến website của bạn Ví dụ,một website có 10 liên kết ra và có PageRank 4 Google chia PageRank cho tất cảmười website theo sự liên quan và các yếu tố uy tín của chúng

- Tuổi của tên miền

- Số lượng nhấp chuột thông qua tỷ lệ trên một website trong tìm kiếm truy vấn

1.2 Tối ưu hóa On-Page

Tối ưu hóa On-Page hay tối ưu hóa website là về việc làm thay đổi và những gìbạn làm trên website trong quá trình thiết kế và phát triển của mình để cải thiện và thửnghiệm trên SERPs Nó cũng bao gồm trong các bước lập kế hoạch quan trọng như sựhiểu biết thích hợp của bạn, nghiên cứu từ khóa và chiến lược web SEO Quá trình tối

ưu hóa on-page bao gồm những thành phần liên quan trực tiếp đến website :

Trang 19

- Mã tối ưu hóa: Nó đề cập về việc sửa đổi và bổ sung mã trang, tiêu đề và siêu

dữ liệu, alt, tiêu đề và thẻ linh tinh

- Nội dung: Đó là về nội dung website sẽ được hiển thị như thế nào? Bao gồmnội dung giàu từ khóa, tinh chỉnh và các yếu tố mật độ từ khóa

- Cấu trúc thư mục / liên kết: Nó bao gồm các cấu trúc thư mục / URL,breadcrumb trail, các yếu tố viết lại URL

1.2.1 Tối ưu hóa mã

1.2.1.1 Trang tiêu đề

Đối với xếp hạng công cụ tìm kiếm, thẻ tiêu đề là yếu tố quan trọng nhất cho sựphù hợp công cụ tìm kiếm Thẻ tiêu đề là trong phần <head> của tài liệu HTML vàđiều này chỉ một phần của "siêu" thông tin về một trang có ảnh hưởng đến sự liên quan

và xếp hạng nhất Nó đại diện cho chủ đề và từ các từ khóa chính của website cụ thể

Nó là sự kết hợp hoặc chuỗi các từ/văn bản định nghĩa bởi thẻ <title> trong tài liệuHTML Sau đây là cú pháp của thẻ tiêu đề trong HTML

<Title> Trang tiêu đề của Website </ title>

Tiêu đề của trang có thể nhìn thấy cả trong thanh tiêu đề trong trình duyệt web vàtrong tiêu đề của kết quả tìm kiếm Điều đó khuyến cáo rằng tiêu đề website phải ởtrong phạm vi tối đa 50-80 ký tự kể cả khoảng trắng Google cho thấy trung bìnhkhoảng 55-70 ký tự trong kết quả tìm kiếm hữu cơ Trong tiếp thị công cụ tìm kiếmtiêu đề trang web hoặc trang đích đóng một vai trò rất quan trọng để tăng CTR (tỷ lệnhấp) của website hoặc một quảng cáo cụ thể CTR của website được tính bằng cáchchia số lần nhấp chuột mà quảng cáo/trang có được cho tổng ấn tượng mua

Trang 20

vào danh sách của bạn so với đối thủ cạnh tranh nhấn Mô tả thẻ Meta là trong phần

<head> sau thẻ tiêu đề Cú pháp như sau:

<meta NAME = "description" CONTENT "mô tả website của bạn.">

Trong thẻ Meta mô tả, bạn có thể sử dụng các từ khóa nhắm mục tiêu của bạn làquan trọng để tăng CTR và SEO tốt hơn Nói chung, Google cho thấy khoảng 155 ký

tự trong SERPs thẻ mô tả Meta là lý tưởng cho các công cụ tìm kiếm khi nó có độ dài150-200 ký tự

1.2.1.3 Meta Keywords Tag

Thẻ meta từ khoá cung cấp cho bạn để trình bày các từ khóa hoặc văn bản bổsung cho công cụ tìm kiếm dựa để chỉ mục cùng với bản sao nội dung của bạn Khiviết thẻ từ khóa Meta, luôn viết các từ khóa quan trọng nhất đầu tiên, bởi vì chúng giữliên quan nhất cho công cụ tìm kiếm Nghiên cứu mới nhất cho biết thẻ từ khóa meta

có không nhiều tầm quan trọng đối với công cụ tìm kiếm lớn như Google, nhưng vẫncòn tình cảm đối với nhiều công cụ tìm kiếm thương mại và nhỏ khác như AltaVista,AOL, vv Đây là lý tưởng để bạn sử dụng 4-5 từ khóa trong thẻ từ khoá meta Cú phápnhư sau:

<meta NAME = "từ khóa" CONTENT = "danh sách các từ khóa cách nhau bởidấu phẩy (,) ">

1.2.1.4 Meta Robots Tag

Thẻ robot đặc biệt sử dụng để kiểm soát quá trình lập chỉ mục công cụ tìm kiếmcho một trang cụ thể Nó xác định xem một trang web của website nên hay không nênđược lập chỉ mục công cụ tìm kiếm và cũng kiểm soát các liên kết (liên kết văn bản)trong website cho dù chúng nên chỉ mục bởi nhện công cụ tìm kiếm và thu thập.Thông thường, trong thẻ Robot có hai tham số và cú pháp như sau:

<META NAME = "robot" CONTENT = "ALL | NONE | NOINDEX |NOFOLLOW">

default = empty = "ALL"

"NONE" = "NOINDEX, NOFOLLOW"

Trang 21

Trong đó:

- Index: cho phép GoogleBot chỉ mục trang đó

- noindex: bảo GoogleBot không chỉ mục trang đó

- follow: cho phép GoogleBot theo các liên kết neo văn bản từ các trang đích vàcác trang khác (liên kết bên ngoài đến các website khác)

- nofollow: cho phép nhện công cụ tìm kiếm không theo các liên kết từ trang đócho chỉ mục

- Noodp: Tránh các tìm kiếm từ việc sử dụng mô tả của trang

1.2.1.5 Nhóm khóa

Thẻ tiêu đề là rất quan trọng vì đây là những tiêu đề của các chủ đề của website.thẻ tiêu đề được cho giá trị bằng công cụ tìm kiếm hơn một copywriting thường xuyên.Việc sử dụng các từ khóa nhắm mục tiêu là rất quan trọng trong tiêu đề và thẻ tiêu đềcon Thông thường, các thẻ tiêu đề được viết từ H1 đến H6 thẻ tiêu đề nói với cácrobot công cụ tìm kiếm về chủ đề của website Thẻ H1 là quan trọng nhất và H6 là ítnhất Giữ mã từ H1 đến H3 là một phương pháp lý tưởng Cú pháp của nhóm thẻ nhưsau:

kể vào các thẻ alt trong thuật toán của nó Google cũng cung cấp cho chuỗi quan trọngđến các thẻ alt Điều tốt hơn là sử dụng các từ khóa và cụm từ trong các thẻ alt có liênquan đến hình ảnh và trang nội dung mà nó sẽ xuất hiện trong tìm kiếm hình ảnh vàthường xuyên Cú pháp của thẻ Alt là như sau:

Trang 22

<img src=”pic.jpg” width="100" height="78" alt=”keyword text”/>

Ví dụ, <img src=”images/SEO services.jpg” width="100" height="78" alt=”SEOservices”/>

1.2.1.7 Cấu trúc thư mục / URL

Một trong những chủ đề thảo luận nhất trong ngành công nghiệp tìm kiếm là tầmquan trọng và sử dụng cấu trúc URL của các trang web cho thứ hạng công cụ tìmkiếm Phương pháp tốt nhất là để phát triển các trang web là URL đơn giản và tĩnh.Nếu URL có chứa từ khóa liên quan đến nội dung trang của nó và điều đó có thể dễdàng được thu thập, sau đó sẽ tốt hơn để có được đầu xếp hạng công cụ tìm kiếm.Cấu trúc URL của website nên càng đơn giản càng tốt Suy nghĩ về tổ chức nộidung sao cho các URLs được phát triển một cách hợp lý và theo cách rõ ràng nhất đốivới con người (khi có thể, từ có thể đọc hơn là những số ID dài) Một URL như http://www.example.com/index.php?id_sezione=260&sid=4a6ebc123f22ada7gf49f521f1 là

ít hấp dẫn đối với người sử dụng Thứ hai sử dụng dấu chấm trong URL

Ví dụ, URL http://www.example.com/ford-cars.html là hữu dụng hơnhttp://www.example.com/fordcars.html Sử dụng (-) là tốt hơn so với gạch dưới (_)cũng như Google xem fordcars một từ duy nhất

Các yếu tố quan trọng cần xem xét khi phát triển một website như sau:

- Trang chủ liên kết đến tất cả các trang trên website

- Sự hiện diện của các liên kết xuất hiện trong các trang chuyên mục đến tất cảcác tiểu thể loại có liên quan không vượt quá giới hạn chuẩn của liên kết nội bộ

- Sự hiện diện của các liên kết trên các trang tiểu thể loại đến tất cả các trangnội dung liên quan

- Khả năng của cấu trúc URL để khớp với hệ thống phân cấp và bổ sung phùhợp

- Tránh các URLs động có chứa các biểu tượng (ví dụ, ID phiên,? =,%, &, * vàcác ký tự)

- Làm cho URL website đơn giản, tĩnh và theo hướng dẫn của W3C

Trang 23

- Điều được khuyến cáo rằng cấu trúc thư mục của website không nên nhiềuhơn 3 mức, có nghĩa là URL của website không nên vượt quá hơn ba dấu gạch chéo (/)nếu không sẽ khó khăn cho công cụ tìm kiếm đọc URL.

- Điều lý tưởng là cho phương pháp truy cập click về trang chủ từ các trang websâu hơn Trang chủ của website có giá trị tìm kiếm tối đa cho công cụ tìm kiếm Giữyếu tố này sẽ thúc đẩy quá trình chỉ mục của website

1.3 Tối ưu hóa off-page

Tối ưu hóa off-page hay tối ưu hóa off-site là đề cập đến những yếu tố có một kếtquả trên website của bạn xếp hạng trong kết quả tìm kiếm tự nhiên liên quan trực tiếpvới hoàn cảnh bên ngoài (bao gồm các yếu tố xếp hạng tìm kiếm không nằm trênwebsite của bạn) Nó được chia thành hai phần chính Đó là lịch sử website và liên kếttrở lại (outbound link) website Các yếu tố quan trọng nhất của tối ưu hóa off-page baogồm những điều sau đây:

- Số lượng các website mà liên kết đến website của bạn, vd liên kết ngoài

- PageRank và tính phổ biến liên kết của website liên kết đến website của bạn

- Liên quan tiêu biểu và nội dung của website liên kết đến website của bạn

- Neo văn bản được sử dụng trong các liên kết trở lại (outbound links)

- Chất lượng của các trang web liên kết đến website của bạn bao gồm tổng sốliên kết trên website, tiêu đề trang và nội dung

- Địa chỉ IP của website liên kết đến website của bạn

- Thư mục và các đệ trình công cụ tìm kiếm

- Có một tập tin robot.txt phù hợp

- Định dạng và đệ trình của Google Sitemap qua Google webmaster

- RSS Syndications và nhiều yếu tố khác

1.4 Google SEO Tools

Công cụ tìm kiếm Google giữ 65% thị trường tìm kiếm trên thế giới Có một sốcông cụ tìm kiếm hiệu quả được giới thiệu bởi Google Mỗi người thực hành công cụ

Trang 24

tìm kiếm phải hoạt động trên Google webmaster, Google analytics, Google trend,Google keyword tool trong quá trình tối ưu hóa công cụ tìm kiếm.

1.4.1 Google Webmaster Tool

Tất cả các công cụ tìm kiếm lớn như Google cung cấp công cụ miễn phí cho cácwebmaster và người thực hành SEO công cụ quản trị website của Google cơ bản là đểquản lý các website on-site và hiệu suất SEO off-site

Google webmaster có thể giúp hiệu suất website của bạn tốt hơn trong kết quảtìm kiếm cũng như cung cấp cho các thiết bị để cập nhật chỉ mục website của bạn vàcập nhật tiến trình liên quan đến URL của website Các chức năng chính được cungcấp bởi công cụ quản trị website của Google:

- Tải lên Sơ đồ website ở định dạng XML và xác minh website bỏi Google vớimột ID duy nhất

- Các đệ trình của tập tin robot.txt cho phép chặn các URL mà bạn không muốnlập chỉ mục bởi Google

- Loại bỏ các URL đã được thu thập bởi Google

- Chỉ ra các miền lựa chọn / ưa thích

- Xác định các vấn đề với tiêu đề và thẻ meta

- Báo cáo chi tiết chứa dữ liệu về hiển thị, từ khóa và CTR tương ứng

- Dữ liệu của tất cả các trang web được lập chỉ mục bởi Google hàng ngày

- liên kết trở lại (link inbound) đến website của bạn với thu thập hàng ngày củaGoogle

- Thu được thông báo về những vi phạm hướng dẫn chất lượng và tập tin chomột xem xét lại website

1.4.2 Google Analytics

Analytics là những chương trình phần mềm tạo ra số liệu Số liệu là các đo lường

mà có thể giúp bạn điểm chuẩn kết quả mong muốn Google analytics lấy dữ liệu thô(được thu thập bằng cách sử dụng một đoạn mã nhỏ của JavaScript) và sản xuất thông

Trang 25

tin từ dữ liệu đó mà dễ hiểu và có thể được sử dụng để cải thiện hiệu suất của mộtwebsite Do đó công cụ phân tích của Google được sử dụng để theo dõi lưu lượng web

và để đo lường hiệu suất website trực tuyến Bằng cách cài đặt công cụ Googleanalytics các chức năng sau có thể đạt được:

- Danh sách các từ khóa / truy vấn tìm kiếm được sử dụng bởi khách truy cập đểtiếp cận website của bạn với thông tin địa lý, internet và xem trang

- Nó giúp tìm ra các nội dung truy cập nhiều nhất của website và các trang webcủa bạn

- Nó cho thấy một tỷ lệ trả lại giới hạn trong đó mô tả thời gian và liên kết sâucủa website bạn được truy cập bởi người sử dụng

- Nó cho phép người sử dụng thiết lập mục tiêu trên trang cụ thể mà chủ sở hữucủa website muốn

- Nó cung cấp để phân tích xu hướng khách truy cập, lòng trung thành, khảnăng trình duyệt và các thuộc tính mạng

Trang 26

Chương 2: PHƯƠNG PHÁP TỐI ƯU HOÁ CÔNG CỤ TÌM KIẾM CHO

MỘT SỐ ỨNG DỤNG CMS 2.1 Tổng quan về lập chỉ mục và thực hiện công cụ tìm kiếm

Công cụ tìm kiếm thu thập và lập chỉ mục hàng tỷ trang web mỗi ngày Lập chỉmục đề cập đến quá trình công cụ tìm kiếm đưa các trang web vào cơ sở dữ liệu để tạothuận lợi cho quá trình tìm kiếm thông tin nhanh chóng và chính xác

Khám phá nội dung của các trang web nhằm lập chỉ mục tự động có tầm quantrọng cơ bản cho thương mại điện tử thành thạo và các ứng dụng khác của Web Nócho phép người sử dụng, bao gồm khách hàng và doanh nghiệp, thành lập các nguồntốt nhất cho nhu cầu của họ Đa số các công cụ tìm kiếm hiện nay sử dụng một tronghai phương pháp lập chỉ mục trang web Trong cách tiếp cận đầu, công cụ tìm kiếmchọn các thuật ngữ chỉ mục một website bằng cách phân tích tần số của các từ (sau khilọc những từ chung hoặc vô nghĩa) xuất hiện trong toàn bộ hoặc một phần văn bản củatrang web mục tiêu Thông thường, chỉ có tiêu đề, bản tóm tắt hay 300 từ đầu tiênđược phân tích Phương pháp thứ hai dựa trên thuật toán tinh vi mà sẽ tính đến các kếthợp các từ trong website được lập chỉ mục Trong cả hai trường hợp chỉ các từ xuấthiện trong trang web hiện thời là được sử dụng trong phân tích Thông thường, để tăng

sự liên quan của thuật ngữ lựa chọn cho các tìm kiếm tiềm năng, lập chỉ mục được tinhchế bằng cách xử lý của con người

2.1.1 Thu thập dữ liệu Web

Một trình thu thập web là một phần không thể thiếu của bất kỳ công cụ tìm kiếm.Nhiệm vụ cơ bản của một trình thu thập là để nạp các trang, phân tích các URLs này

để có nhiều URLs hơn và sau đó lấy các URLs này để có nhiều URLs hơn nữa Trongquá trình này trình thu thập cũng có thể đăng nhập các trang web hoặc thực hiện một

số hoạt động khác trên trang theo các yêu cầu của công cụ tìm kiếm Toàn bộ công cụtìm kiếm phổ biến sử dụng trình thu thập mà phải quy mô lên đến phần quan trọng củaweb, tuy nhiên do tính chất cạnh tranh của các doanh nghiệp công cụ tìm kiếm, cácmẫu thiết kế của các trình thu thập không được mô tả công khai

Trang 27

Công cụ tìm kiếm Google là một hệ thống phân tán sử dụng nhiều trình thu thập.Các trình thu thập bao gồm năm thành phần chức năng chạy trong các quá trình khácnhau Một quá trình máy chủ URL đọc URL ra khỏi một tập tin và chuyển cho nhiềuquá trình thu thập Mỗi quá trình thu thập chạy trên một máy tính khác nhau, đơnluồng, và sử dụng I/O không đồng bộ để lấy dữ liệu lên đến 100 máy chủ web songsong Trình thu thập truyền các trang tải được đến một quá trình máy chủ lưu trữ đơn,

mà nén các trang và lưu trữ chúng vào đĩa Các trang sau đó đọc lại từ đĩa bằng mộtquá trình chỉ mục, ở đó trích xuất đường dẫn từ các trang HTML và lưu chúng vào mộttập tin trên đĩa khác Một quá trình giải quyết URL đọc các tập tin liên kết,derelativizes các URL chứa trong đó, và lưu các URL tuyệt đối đến tập tin trên đĩađược đọc bởi các máy chủ URL

Nói chung, 3-4 trình thu thập được sử dụng lưu trữ internet cũng sử dụng nhiềumáy tính để thu thập dữ liệu web Mỗi quá trình thu thập được phân công lên đến 64website để thu thập và không có website nào được gán đến nhiều hơn một trình thuthập Mỗi trình thu thập đơn luồng đọc một danh sách các URL giống cho các websiteđược giao từ đĩa vào hàng đợi trên mỗi website, và sau đó sử dụng I/O không đồng bộ

để nạp các trang từ các hàng đợi song song Khi một trang được tải về, các trình thuthập chiết xuất từ các liên kết chứa trong nó Nếu một liên kết tham chiếu đến websitecủa trang đã được nêu ở đây, nó được thêm vào hàng đợi website phù hợp; nếu không

nó sẽ được ghi vào đĩa Định kỳ, một loạt quá trình kết hợp các đăng nhập "cross-site"URL vào bộ hạt giống cụ thể website, lọc ra các bản sao trong quá trình này

2.1.2 Lập chỉ mục & Tìm kiếm Web

Người sử dụng Internet thực hiện hàng tỷ truy vấn trên công cụ tìm kiếm webhàng ngày Hầu hết các công cụ tìm kiếm phổ biến như Yahoo, Google và Bing lấy kếtquả trong mili giây cho truy vấn cụ thể, tuy nhiên nó đã được nhìn thấy rằng kết quả từcác truy vấn tìm kiếm khác nhau trong công cụ tìm kiếm khác nhau Khả năng của cáccông cụ tìm kiếm web để tạo ra nhanh chóng và hàng triệu website trong thời gianngắn phụ thuộc vào nhiều yếu tố tìm kiếm Web liên quan đến một số quy trình thôngqua thu thập để hiển thị các kết quả URL

Trang 28

Mỗi công cụ tìm kiếm web phụ thuộc vào một hoặc nhiều trình thu thập để thểhiện các nội dung hoạt động của nó Các trình thu thập sử dụng một tập bắt đầu cácđịnh vị tài nguyên thống nhất (URL) Trình thu thập tìm lại nội dung trên các websiteđược chỉ định bởi URL Các trình thu thập trích xuất các URL xuất hiện trong cáctrang tìm được và truy cập một số hoặc tất cả các URL như vậy lặp đi lặp lại quá trìnhtìm lại Mỗi công cụ tìm kiếm sau thời gian biểu riêng của mình thu thập lại web vàcập nhật các bộ sưu tập nội dung của nó Các công cụ tìm kiếm web lưu trữ các nộidung web mà họ lấy trong quá trình thu thập trong kho lưu trữ

Trình lập chỉ mục xử lý các trang được thu thập bởi trình thu thập Nó đầu tiênchọn các trang cần lập chỉ mục, ví dụ, nó có thể loại bỏ các tài liệu trùng lặp Sau đó,

nó tạo các cấu trúc dữ liệu phụ trợ khác Hầu hết các công cụ tìm kiếm xây dựng một

số biến thể của một cấu trúc dữ liệu chỉ mục đảo ngược đối với các từ (chỉ số văn bản)

và các liên kết (chỉ số cấu trúc) Các chỉ số đảo ngược chứa mỗi từ cho một danh sáchđược sắp xếp của các cặp (như docID và vị trí tài liệu)

Kết quả nói chung là một lượng rất lớn các cơ sở dữ liệu cung cấp các URL trỏđến các trang mà một từ cụ thể xuất hiện Trong miền này, công cụ tìm kiếm có nhiềuđiểm chung với hệ thống IR (phục hồi thông tin) truyền thống về mặt kỹ thuật mà họ

sử dụng để tổ chức các nội dung Với khía cạnh hypermedia của nhiều nội dung web,tuy nhiên, các cơ sở dữ liệu cũng có thể chứa thông tin cấu trúc khác như liên kết giữacác văn bản, URL đến những văn bản, định dạng các khía cạnh của tài liệu và vị trí củacác thuật ngữ liên quan đến các thuật ngữ khác

Công cụ truy vấn Web thu được các yêu cầu tìm kiếm từ người dùng Nó lấy truyvấn được gửi bởi người dùng, chia tách các truy vấn vào các thuật ngữ và tìm kiếm cơ

sở dữ liệu được thực hiện bởi bộ chỉ mục để xác định vị trí các thuật ngữ và do đó cáctài liệu Web được tham chiêu bởi các URL được lưu trữ Sau đó nó lấy lại các tài liệuphù hợp với các thuật ngữ trong công cụ truy vấn sau đó lấy các tài liệu phù hợp vớicác thuật ngữ trong các truy vấn và truy cập lại các tài liệu này đến người dùng Sau đóngười dùng có thể nhấp vào một hoặc nhiều URL của tài liệu Web có thể truy cập

Ngày đăng: 28/06/2016, 15:20

HÌNH ẢNH LIÊN QUAN

Hình 1.1: Công cụ nghiên cứu từ khoá SEOBook cho thấy tìm kiếm ước tính - Tìm hiểu phương pháp tối ưu hóa công cụ tìm kiếm cho một số ứng dụng cms
Hình 1.1 Công cụ nghiên cứu từ khoá SEOBook cho thấy tìm kiếm ước tính (Trang 14)
Hình 1.2: Quá trình thu thập dữ liệu trên Google - Tìm hiểu phương pháp tối ưu hóa công cụ tìm kiếm cho một số ứng dụng cms
Hình 1.2 Quá trình thu thập dữ liệu trên Google (Trang 16)
Hình 2.4: So sánh của Web 1.0 và Web 2.0 - Tìm hiểu phương pháp tối ưu hóa công cụ tìm kiếm cho một số ứng dụng cms
Hình 2.4 So sánh của Web 1.0 và Web 2.0 (Trang 33)
Hình 2.5: SEO Setting Panel trong Joomla - Tìm hiểu phương pháp tối ưu hóa công cụ tìm kiếm cho một số ứng dụng cms
Hình 2.5 SEO Setting Panel trong Joomla (Trang 41)
Hình 3.6: Trình biên tập website CMS - Tìm hiểu phương pháp tối ưu hóa công cụ tìm kiếm cho một số ứng dụng cms
Hình 3.6 Trình biên tập website CMS (Trang 50)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w