Trong bài này, chúng ta sẽ được học về
Homepage Canonicalization
Giải pháp Canonicalization
Camel Casing
Subdomains, HTTPS và Relative Linking
Mirrored Sites
International Sites
Tag/Category Pages
Phiên bản để in
Mobile
Tham số URL
Các trang tìm kiếm
Sự phân trang
Tên sản phẩm tương tự
Chia nội dung theo khu vực địa lý
Trùng lặp nội dung là điều thường gặp ở các website.Trùng lặp nội dung xảy ra khi 2 trang web khác nhau có nội dung giống nhau. Thông thường, trùng lặp nội dung là do vô tình và gây ra bởi hệ thống quản trị nội dung (CMS) hoặc máy chủ hosting. Tuy vậy, cũng có những trường hợp người chủ web cố tình tạo ra những nội dung trùng lặp và điều này sẽ ảnh hưởng xấu đến thứ hạng website của họ.
Điều bạn cần biết là máy tìm kiếm không phạt bạn do trùng lặp nội dung. Trừ phi phần lớn nội dung của bạn bị trùng lặp một cách có chủ ý, một vài trang web trùng lặp sẽ không khiến bạn bị phạt bởi máy tìm kiếm. Tuy nhiên, nó có thể làm giảm lưu lượng truy cập đến trang web của bạn vì máy tìm kiếm buộc phải lựa chọn trang web nào phù hợp nhất với nội dung tìm kiếm trong số nhiều trang web của bạn. Dưới đây là những trường hợp trùng lặp nội dung hay gặp nhất và cách khắc phục.
Trùng lặp ở trang chủ
Đây là loại trùng lặp nội dung mà rất nhiều website mắc phải. Đó là khi trang chủ của bạn có thể truy cập từ nhiều hơn một địa chỉ URL
1. domain.com 2. www.domain.com 3. domain.com/index.html 4. www.domain.com/index.html
Với máy tìm kiếm, mỗi địa chỉ URL là một trang web riêng biệt. Nếu website bạn xảy ra tình trạng này, và bạn chưa nhận ra nó hoặc chưa biết cách xử lý nó (ví dụ redirect 3 trang về 1 trang chính duy nhất)máy tìm kiếm sẽ không biết nên show địa chỉ nào trong bảng kết quả tìm kiếm. Từ đó, sức mạnh trang chủ của bạn sẽ bị giảm đi.
Giải pháp
Có vài cách giúp bạn xử lý tình huống này.
Cách 1 là thiết lập redirect ở server hosting để đảm bảo sẽ chỉ có một trang chủ duy nhất được trả về. Cách cấu hình cụ thể còn phụ thuộc vào loại server bạn sử dụng. Liên hệ nhà cung cấp dịch vụ hosting của bạn để có câu trả lời thỏa đáng.
Cách 2 là thiết lập địa chỉ ưu tiên trong Google Webmaster Tools.
Subdomains, HTTPS và Relative Linking
Việc sử dụng subdomains nói chung không được khuyến khích vì không thân thiện trong SEO. Tuy nhiên, đôi khi bắt buộc phải có vì yêu cầu hoạt động của doanh nghiệp. Một trong những vấn đề mà subdomain có thể gây ra là việc trùng lặp nội dung.
Các trường hợp gây ra trùng lặp nội dung:
Sử dụng liên kết tương đối cùng với subdomain. Hậu quả: Trùng lặp giữa subdomain và domain chính
Sử dụng liên kết tương đối cùng với https. Hậu quả : Trùng lặp giữa phiên bản http và https
Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn Giải pháp
Khi xây dựng các liên kết nội bộ, chỉ sử dụng đường dẫn tương đối thay vì đường dẫn tuyệt đối.
Ngoài ra bạn có thể sử dụng canonical để tự trỏ về mình. Cách làm này ít nhất là hiệu quả với Google. Nó không chỉ có tác dụng ngăn ngừa trùng lặp nội dung mà còn có tác dụng ngăn ngừa trường hợp toàn bộ website bị copy mang đi nơi khác mà không được đặt link trỏ về bản gốc.
Trang Tag/Thư mục
Với các blog, việc sử dụng tag và category có thể gây ra trùng lặp nội dung khi một trang tag/category có nội dung giống với một/nhiều trang tag/category khác.
Ví du, bạn viết blog, và có 3 bài về chủ đề làm nội dung như ở dưới đây:
Tên bài: Làm thế nào để ngăn chặn trùng lặp nội dung o Tags: trùng lặp nội dung, seo, cách làm, bí kip o Category: SEO, Cách làm, Nội dung
Tên bài: Bạn không bị phạt nếu nội dung của bạn bị trùng lặp o Tags: nội dung trùng lặp, hình phạt, seo
o Category: SEO, Nội dung
Tên bài: Làm thế nào để viết được một nội dung tốt o Tags: nội dung, cách làm, bí kíp, sáng tạo o Category: SEO, Nội dung, Cách làm
Bạn có thể thấy sự trùng lặp nội dung của các trang tag và category qua bảng dưới đây
Làm thế nào để ngăn chặn trùng lặp nội dung
Bạn không bị phạt nếu nội dung của bạn bị trùng lặp
Làm thế nào để viết được một nội Tag: trùng lặp
nội dung X X
Tag: seo X X X
Tag: cách làm X X
Tag: bí kíp X X
Tag: hình phạt X
Tag: nội dung X
Tag: sáng tạo X
Category: SEO X X X
Category: Cách
làm X X
Category: Nội
dung X X X
Giải pháp
Giải pháp phụ thuộc vào cách bạn sử dụng tags và categories cũng như số lượng tags và categories bạn sử dụng cho mỗi bài viết. Nếu bạn sử dụng ít categories và nhiều tags (giống như phần lớn mọi người), sử dụng noindex, nofollow cho tất cả các trang tag. Trang categories có thể giúp nội dung của bạn được index đầy đủ. Ngược lại, nếu bạn sử dụng nhiều categories và ít tags, sử dụng noindex và nofollow cho tất cả các trang categories.
Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn Tóm lại, bạn muốn bọ tìm kiếm có thể tìm thấy và đọc hiểu nội dung của bạn và bạn cũng muốn người dùng có thể dễ dàng tìm ra nội dung của bạn theo từng chủ đề mà họ tìm kiếm. Nhưng bạn cũng không muốn có trùng lặp nội dung. Nếu bạn không áp dụng những hướng dẫn ở trên, điều này sẽ xảy ra với 2 trang web sau:
http://www.domain.com/blog/tag/seo and http://www.domain.com/blog/seo.
Phiên bản dành cho máy in
Đây là tình huống trùng lặp nội dung khá phổ biến nhưng ít người để ý. Chức năng in sẽ tạo ra một địa chỉ URL mới có nội dung gần giống với trang web chính.
Ví dụ:
1. www.domain.com/trang-1 2. www.domain.com/trang-1/print Giải pháp
Giải pháp đơn giản nhất là đặt thẻ rel=canonical vào trang dành cho việc in và trỏ nó về trang chính.
Nếu bạn sử dụng tham số để phân biệt trang in với trang thường, bạn có thể đặt thẻ rel=canonical trên trang chính và trỏ về chính nó. Giờ đây, tất cả những phiên bản khác của trang chính sẽ tự động trỏ về trang chính, trong đó bao gồm cả các phiên bản in ấn. Kết quả là www.domain.com/trang-1/id=print sẽ có một thẻ rel=canonical trỏ về trang chính www.domain.com/trang-1.
Thẻ rel=canonical là một phần của header của mỗi trang web, nơi bạn tìm thấy thẻ tiêu đề và thẻ mô tả.
Ví dụ:
<link rel="canonical" href="http://www.seomoz.org/blog" />
Các trang web có thẻ này sẽ được bọ tìm kiếm đối xử như là bản sao của trang web www.seomoz.org/blog. Từ đây, bọ tìm kiếm có thể biết đâu là phiên bản chính và phiên bản copy.
Di động
Điều tương tự cũng có thể xảy ra với phiên bản mobile của trang web (phiên bản dành cho các thiết bị di động như smartphone, máy tính bảng). Nếu nội dung giống nhau trong khi địa chỉ URL khác nhau, máy tìm kiếm sẽ bối rối không biết đâu là địa chỉ tốt nhất để cung cấp cho người dùng.
1. www.domain.com/page.html 2. m.domain.com/page.html 3. www.domain.com/m/page.html
2 trang web cuối có nội dung giống nhau, cùng phục vụ cho các thiết bị di động nhưng lại tồn tại trên 2 địa chỉ URL khác nhau.
Giải pháp
Có nhiều giải pháp, và bạn có thể lựa chọn cái nào phù hợp nhất với tài nguyên của mình. Giải pháp hoàn hảo nhất là sử dụng duy nhất một địa chỉ URL, và tận dụng tính năng tự động phát hiện trình duyệt (browser identifiers) để trả về những phiên bản web khác nhau với các phong cách CSS khác nhau, tùy thuộc vào thiết bị của người dùng.
Theo Wiki, CSS là một loại code, quy định cách trình bày các tài liệu viết bằng ngôn ngữ HTML và XHTML.
Nếu không thể làm được theo hướng này, bạn chắc chắn nên sử dụng thẻ rel=canonical trỏ từ trang dành cho mobile về trang chính. Đảm bảo phát hiện trình duyệt chuẩn xác để nếu người dùng sử dụng laptop hoặc máy để bàn truy cập vào địa chỉ URL cho thiết bị di động, họ sẽ được chuyển hướng sang địa chỉ URL chính.
Các trang tìm kiếm
Nhiều khi người dùng muốn tìm kiếm trên website của bạn. Ví dụ tìm kiếm tất cả những cuốn sách có chủ đề “Thuyết trình” trên website “Bán sách online” của bạn. Trang kết quả trả về có thể giống với trang kết quả khi họ tìm kiếm theo chủ đề “Trình bày”. Điều này sẽ gây ra sự trùng lặp nội dung. Ngoài ra, kết quả tìm kiếm cũng có thể giống với trang thư mục “Trình bày”. Thử tìm kiếm trên mediamart.vn với 2 từ khóa “máy xay” và “máy xay sinh tố”, bạn cũng sẽ thấy những kết quả tương tự.
Giải pháp
Giải pháp là thực hiện noindex, follow trong meta robot của các trang này. Hoặc sử dụng robots.txt để yêu cầu máy tìm kiếm không dò quét các trang này.
Bài viết hay nên đọc:
Nội dung trùng lặp: http://vietmoz.net/kien-thuc-co-ban/Noi-dung-trung-lap-Duplicate- Content-17/
Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn