Tại sao một trang web không được index trên Google? doc

Thỉng thoảng bạn sẽ đọc được những bài viết của những SEO-er mới vào nghề với một thắc mắc như: "tại sao trang web này lại không được index trên Google?”.. Chú thích: Orphaned page tạm h

Trang 1

Tại sao một trang web không được index trên

Google?

Trang 2

Thỉng thoảng bạn sẽ đọc được những bài viết của những

SEO-er mới vào nghề với một thắc mắc như: "tại sao trang web này lại không được index trên Google?”

Nếu câu hỏi đó sảy ra với chính bạn, thì bạn đang mắc những sai lầm ngớ ngẩn trong sự nghiệp SEO của mình Điều này cũng đã từng xảy ra với tôi và một vài đồng nghiệp của tôi, vì vậy tôi quyết định đăng bài viết này để bổ sung thêm kiến thức cho các bạn, hoặc sẽ tạo ra một nền tảng cơ bản với những ai chưa biết về vấn đề này Nếu một trang web không được index trên bộ máy tìm kiếm trong năm 2013, thì nguyên nhân là một trong những điều sau:

- Do chỉ thị 1 thuộc tính nào đó

- Do ảnh hưởng từ Google (do thuật toán hoặc các hình

phạt)

- Các vấn đề về cấu trúc trang web (do những orphaned page chưa được xử lý một cách triệt để)

Trang 3

Chú thích:

Orphaned page (tạm hiểu là trang bị tách rời ra một website,

mà không có liên kết với website ban đầu)

Trong bài viết này, chúng ta sẽ đi sâu tìm hiểu các thuộc tính

mà có thể làm một trang không được index trên Google, hoặc những thuộc tính với mục đích ngay từ đầu chỉ thị là không cho một trang xuất hiện trên trang tìm kiếm Trước hết, bạn phải cần biết làm thế nào để kiểm tra một trang web được index hay không được index trên Google:

- Copy URL cần kiếm tra

- Paste vào ô tìm kiếm của Google

- Nếu trang web đó được index, thì nó sẽ hiển thị ở ngay kết quả đầu tiên của Google, truy cập vào kết quả đó để đảm bảo: đó chính là trang mà bạn vưa paste URL vào để tìm kiếm

Trang 4

- Nếu URL đó không xuất hiện, bạn phải cần kiểm tra một cách thủ công để xác định ra nguyên nhân vấn đề

Dưới đây, là một vài điều bạn cần kiểm tra:

1.Meta robots NOINDEX trong <head>

- Cách dễ nhất để phát hiện: Nhìn vào code nguồn trong trình duyệt của bạn, trong phần <head>

- Dạng thuộc tính: <meta Name="robots"

content="noindex">

- Mục đích của thuộc tính: Thông báo cho Google rằng: bạn không muốn Google index trang này trên bộ máy tìm kiếm

Ví dụ: http://www.mattcutts.com/blog/2013/02/

- Thêm thông tin: http://www.robotstxt.org/meta.html

2 Rel = canonical trong phần <head>

Trang 5

- Cách dễ nhất để phát hiện: Nhìn vào code nguồn của trình duyệt của bạn, trong phần <head>

- Dạng thuộc tính: <link rel="canonical"

href="http://www.canonical-target.com"/> trong phần head của HTML

- Mục đích của thuộc tính: Bạn muốn thông báo cho Google: Các giá trị (PageRank, Authority của liên kết) của trang này cần được thông qua một trang khác Đó không phải là một thuộc tính chỉ thị, nhưng Google tin tưởng vào gợi ý “rel = canonical” và không index trang này, trong khi lại index trang mục tiêu canonical

- Thêm thông tin

: https://support.google.com/webmaster r/139394?hl=en

3 NOINDEX trong robots.txt

- Cách dễ nhất để phát hiện: Kiểm tra trong file Robots.txt

- Dạng thuộc tính: Noindex: / folder / Đặc biệt lưu ý ở đây,

Trang 6

tất cả những trang mà file robot.txt của nó được thiết lập thuộc tính NOINDEX (tất cả các chữ đều viết hoa) sẽ không được index trên trang kết quả Tuy nhiên, nó sẽ de-index một trang nếu bạn chỉ viết hoa chữ N trong Noindex (thay vì NOINDEX)

- Mục đích của thuộc tính: Tương tự như các thẻ noindex bình thường, nhưng đây là những thực hiện cho một file robot.txt lạ

Thêm thông

tin: http://www.bigmouthmedia.com/live/ar ffic.asp/6264/

4 NOINDEX trong tiêu đề của HTTP (hoặc None trong tiêu đề của HTTP)

- Cách dễ nhất để phát hiện: Kiểm tra tiêu đề HTTP với

Chrome hoặc kiểm tra với công cụ website này

(http://www.rexswain.com/httpview.html)

- Dạng thuộc tính:

Trang 7

Headers

CF-RAY:66cdb31ea060165 Connection:keep-alive Content-Encoding:gzip Content-Type:text/html Date:Mon, 29 Apr

2013 14:59:27 GMT

Server:cloudflare-nginxTransfer-Encoding:chunked X-Robots-Tag:noindex

- Mục tiêu của thuộc tính: Nó cũng giống như meta =

"robots" content = "noindex", nhưng khác là: nó được đặt trong các tiêu đề HTTP Bạn có thể thấy một ví dụ thực tế ở đây

(http://www.davidsottimano.com/http-noindex-example.php) Ian Macfarlane đã chỉ ra rằng "None" cũng có nghĩa là NOINDEX trong thuộc tính chỉ thị trong X-robot

- Thêm thông

tin: https://developers.google.com/webmas obots_meta_tag

5 Rel canonical trong tiêu đề HTTP

- Cách dễ nhất để phát hiện: Kiểm tra tiêu đề HTTP với

Trang 8

Chrome hoặc công cụ website sau

(http://www.rexswain.com/httpview.html)

- Dạng thuộc tính: Link: <http://www.davidsottimano.com>; rel = "canonical" bạn có thể xem một ví dụ ở

đây:http://www.davidsottimano.com/http-c al-example.php

- Mục đích thuộc tính: Tương tự như các thẻ canonical bình thường (trong <head>)

- Thêm thông

tin: https://support.google.com/webmaster r/139394?hl=en

6 Meta refresh với thời gian delay > 0 (ví dụ: 5)

- Cách dễ nhất để phát hiện: truy cập trang web, và xem xét

sự chuyển hướng hoặc xem xét code nguồn

- Dạng thuộc tính: <meta http-equiv="Refresh"

content="5;url=http://soliddelivery.co.uk/finsdanishpack.htm l"> trong phần <head> của HTML

- Mục đích thuộc tính: Sau một thời gian trì hoãn (delay),

Trang 9

trang web của bạn sẽ được chuyển hướng Google chỉ lập chỉ

cho trang (sau khi được chuyển hướng) khi thời gian delay

lớn hơn 0, tôi không chắc chắn lý do tại sao Đây là một thử

nghiệm thực

tế: http://soliddelivery.co.uk/feratsodaman.html (click vào

xem điều gì sảy ra)

7 Thông số canonicalization trong GWMT (Google

webmaster tools - công cụ quản trị trang web của Google)

- Cách dễ nhất để phát hiện: Bạn cần phải truy cập vào các

công cụ quản trị web hoặc có ai đó từng làm hướng dẫn cho

bạn

- Cách thức xem xét: Vào Configuration > phần URL

Paremetres

Trang 10

- Mục đích: Khi bạn thay đổi các thiết lập trong WMT,

Google thường đồng ý Tùy thuộc vào mỗi tham số, bạn có

thể yêu cầu Google không index nó Ví dụ: Nếu bạn yêu cầu

Googlebot không thu thập bất kỳ URL nào, Google có thể

loại bỏ các trang với các thông số ra khỏi chỉ mục Tương tự

như vậy, nếu bạn thông báo Googlebot không có nội dung

trang thay đổi, Google cũng có thể không index chúng Hãy

nhớ để kiểm tra cấu hình thông số URL khi bạn không thể

tìm ra lý do tại sao các trang này không được index

- Thêm thông

tin: https://support.google.com/webmaster /1235687?hl=en

Trang 11

8 Yêu cầu xoá URL trong WMT

- Cách dễ nhất để phát hiện: Bạn cần phải truy cập vào các

công cụ quản trị trang web hoặc nhờ sự hướng dẫn của ai đó

đã biết làm vấn đề này

- Thực hiện: Optimiztion > Phần remove URL của WMT

- Mục đích: Làm một trang không được index trên Google

trong vòng 24 giờ Theo kinh nghiệm cá nhân tôi, tôi không

cần phải bổ sung một thẻ noindex hoặc block file Robots.txt,

mà yêu cầu xoá URL vẫn thực thi và hiệu quả Vấn đề duy

nhất là bạn sẽ không bao giờ biết một trang đã bị block cho

đến khi bạn kiểm tra những báo cáo này:

- Thêm hông

Trang 12

tin: https://support.google.com/webmaster r/164734?hl=en

Những điều cần lưu ý thêm

- Tôi xin nhắc lại: block file Robots.txt không có tác dụng làm một file không được index

- Ban đầu, tôi đã nghĩ rằng: thuộc tính: rel = "next" / "prev"

là một nguyên nhân khiến Google de-index, nhưng tôi không thể liệt kê một ví dụ nào

- Chuyển hướng 301 chỉ làm index trang đích chuyển hướng, nhưng không phải luôn luôn và mãi mãi như thế Tôi để lại vấn đề này bởi vì các thử nghiệm tôi làm luôn luôn không ổn định – nhưng hãy vui lòng chờ đợi những kết quả sau này

- Chuyển hướng 302 và meta refresh với thời gian delay bằng

0 (thử nghiệm ở đây, ví dụ ở đây) sẽ làm hiển thị URL trong trang tìm kiếm với nội dung của trang mục tiêu của chuyển hướng

- Tương tự như chuyển hướng 302, và meta refresh với thời

Trang 13

gian delay bằng 0, Hreflang + canonical có thể làm một trang biến mất hoặc xuất hiện lại trên trang kết quả, phụ thuộc vào trang Google của các quốc gia khác nhau

Tiêu đề	Tại sao một trang web không được index trên Google?
Trường học	Trường Đại Học Công Nghệ Thông Tin
Chuyên ngành	Công Nghệ Thông Tin
Thể loại	Bài viết
Năm xuất bản	2013
Thành phố	Hà Nội

Định dạng
Số trang	13
Dung lượng	202,47 KB