Sử dụng Screaming Frog hoặc Deep Crawl kiểm tra các link bị loại bỏ bởi Penguin potx

Khi phân tích cấu hình của các liên kết trong các trang web bị ảnh hưởng bởi Penguin 2.0, bạn có thể thấy rất nhiều liên kết không tự nhiên trỏ đến một trang trong web, không chỉ trang c

Trang 1

Sử dụng Screaming Frog hoặc

Deep Crawl kiểm tra các link bị

loại bỏ bởi Penguin

Trang 2

Kỹ sư Matt Cutts của Google đã thông báo rằng Penguin 2.0

đã đã chính thức được đưa vào sử dụng vào ngày 22 tháng 5

và các webmaster hãy chuẩn bị tinh thần cho những điều thay

đổi sắp tới Với việc phát hành bản update thuật toán khiến

nhiều SEO-er đang tự hỏi rằng Google còn muốn gây ra

những cản trở gì cho SEO

Tôi đã làm rất nhiều phân tích với Google Penguin kể từ

ngày 24 tháng 4 năm 2012 khi Penguin 1.0 lần đầu được tiên

tung ra, vì vậy tôi luôn chuẩn bị sẵn sàng để bắt đầu phân tích

những update mới nhất của Penguin Tương tự như các

Trang 3

phương pháp tôi sử dụng để phân tích Penguin 1.0, tôi bắt đầu phân tích rất nhiều những site mà bị Penguin 2.0 tấn

công để tìm hiểu sâu hơn về bản cập nhật thuật toán mới này

Khi Penguin 2.0 được chính thức đưa vào sử dụng, Cutts giải thích rằng Penguin 1.0 chỉ phân tích homepage của một

website Và dựa trên phân tích của với 15 site bị tấn công bới Penguin 1.0, tôi đã hiểu rõ về điều này

Khi phân tích cấu hình của các liên kết trong các trang web bị ảnh hưởng bởi Penguin 2.0, bạn có thể thấy rất nhiều liên kết không tự nhiên trỏ đến một trang trong web, không chỉ trang chủ Hầu hết những trang tôi phân tích thì đều như thế

Nhiều liên kết không tự nhiên = nhiều liên kết bị loại bỏ

Nếu site của bạn từng bị tấn công bởi Penguin 2.0 (hoặc 1.0), bạn phải phân tích tất cả các cấu hình liên kết, xác định

Trang 4

những liên kết không tự nhiên đã loại bỏ Đối với một số trang web, đây là một điều hết sức khó khăn Có một số trang web tôi đã phân tích, thì có hàng trăm hàng ngàn liên kết để loại bỏ (thậm chí còn nhiều hơn) Và càng nhiều liên kết bạn cần phải loại bỏ, thì bạn càng gặp khó khăn để tạo nên một site chất lượng

Nhưng ngay cả khi bạn phân tích, download, và sắp xếp các liên kết này, thì làm thế nào để bạn biết những link mà đã bị loại bỏ? Chắc chắn, bạn có thể kiểm tra chúng một cách thủ

Trang 5

công, nhưng bạn có thể không thực hiện được điều này cho đến năm 2023

Sẽ không còn gì tuyệt với hơn nếu có một số cách tự động để kiểm tra các link inbound spam mà bạn đang cố gắng loại bỏ? Và ngay bây giờ, tôi sẽ tiết lộ cho cách bạn các cách đấy Trên thực tế, có hai công cụ SEO rất hữu ích và tiết kiệm thời gian khi thực hiện điều này

Công cụ Screaming Frog

Một trong những công cụ SEO ưa dùng của tôi là Screaming Frog Tôi thường sử dụng nó cho một số nhiệm vụ quan

trọng liên quan đến web về các vẫn đề thu thập dữ liệu, kiểm tra sitemap XML, đánh dấu lỗi thu nhập dữ liệu, kiểm tra sự tối ưu hóa on-page với số lượng lớn, vv Hầu như không

ngày nào là tôi không sử dụng Screaming Forg cho các công việc liên quan đến SEO của mình

Trang 6

Và kể từ khi Penguin 1.0 ra mắt, tôi đã sử dụng Frog

Screaming cho một nhiệm vụ quan trọng - kiểm tra xem liệu các liên kết spam inbound có còn hoạt động hay không Sử dụng Screaming Frog, bạn có thể sử dụng một bộ lọc tùy chỉnh để kiểm tra mã html cụ thể trên website mà bạn đang thu thập dư liệu Và sau khi thu thập dữ liệu, bạn có thể xem các trang nào vẫn dùng code đó (hoặc không dùng code đó) Điều này có thể giúp bạn tiết kiệm rất nhiều thời gian

Ngoài ra, phân tích các trang web ảnh bị hưởng bởi Penguin

Trang 7

1.0 và 2.0 cho tôi thấy rằng có nhiều trang web ảnh hưởng bởi phần mềm độc hại, bị đánh dấu là các trang web tấn

công, vv Khi kiểm tra các liên kết inbound spam, bạn chắc chắn sẽ giảm thiểu được nguy cơ bị ảnh hưởng bới các phần mềm độc hại đó

Sử dụng Screaming Frog có thể giúp bạn tránh truy cập vào các trang spam Nó là một lợi ích của việc sử dụng công cụ này

Lưu ý: Tuần trước, Cyrus Shepard đã có một bài viết rất hay

về các công cụ từ chối backlink và khẳng định rằng bạn có thể sử dụng Frog Screaming để kiểm tra việc loại bỏ các trang (nếu trang web chứa các liên kết spam dẫn đến lỗi 404) Bạn chắc chắn có thể làm điều đó, nhưng có những lúc các trang vẫn tồn tại và chỉ có các link được loại bỏ

Các phương pháp tôi đang cung cấp ở đây là về việc những

Trang 8

link đã được gỡ bỏ từ các trang mà vẫn tồn tại trên web Nói cách khác, webmaster đang loại bỏ các liên kết nhưng vẫn muốn giữ các trang đó hoạt động

Sử dụng Frog Screaming để kiểm tra các liên kết

inbound

Bây giờ tôi sẽ giải thích những gì bạn nên làm Tôi chắc rằng

có rất nhiều bạn đọc bài viết này có thể sử dụng một số cách

để tiết kiệm thời gian mà vẫn xác định được những liên kết bị loại bỏ Nhưng bây giờ chúng ta hãy cùng nhau tìm hiểu một cách chi tiết về các bước trong Screaming Frog

1 Phân tích, xuất, và sắp xếp liên kết của bạn

Bước đầu tiên là bước khó khăn nhất, và không có một

hưỡng dẫn cụ thể nào cho bước này Bạn sẽ cần phải phân tích cấu trúc liên kết, xác định các liên kết spam, và sau đó

Trang 9

chuyển định dạng sang Excel

Bạn có thể, và nên sử dụng một số công cụ để phân tích cấu trúc liên kết như: Majestic SEO, Open Site Explorer, Google Webmaster Tools, Bing Webmaster Tools, vv

Bạn nên download liên kết, đánh dấu các liên kết không tự nhiên, và sắp xếp chúng chúng bằng bảng Excel

Trang 10

2 Sao chép URL vào file text

Bạn có thể sử dụng Screaming Frog ở chế độ "List”, có nghĩa

là nó sẽ thu thập các url mà bạn cung cấp trong một file text

Đó là những gì bạn phải làm, việc copy các liên kết không tự nhiên của bạn từ Excel vào một trình soạn thảo văn bản là rất quan trọng Tôi sử dụng Textpad, nhưng bạn có thể sao chép các url của bạn vào bất kỳ trình soạn thảo văn bản nào Mỗi url trên 1 dòng riêng biệt

Trang 11

Mẹo: Nếu bạn đang làm việc với rất nhiều liên kết, dễ dàng

hơn nếu bạn tổ chức chúng theo loại Ví dụ, bạn có thể có

một worksheet cho các danh bạ, một cho các comment spam,

một cho các bài viết trên web… Điều đó sẽ giữ cho việc thu

thập thông tin chặt chẽ hơn so với việc cố gắng để thu thập

thông tin tất cả các link cùng một lúc

3 Khởi động Screaming Frog

Trang 12

Bây giờ bạn đã có file văn bản, hãy khởi đông Khởi động Screaming Frog và chọn "Mode" từ tab menu trên cùng, và sau đó chọn "List" Một lần nữa, bạn phải cung cấp danh sách các url cho Screaming Frog kiểm tra

4 Chọn File

Khi bạn chọn chế độ "List" trong Screaming Frog, bạn có thể nhấp vào "Select File" để chọn File văn bản của bạn Sau đó dẫn đến những file văn bản đầu tiên bạn muốn sử dụng

Trang 13

Screaming Frog sẽ đọc các file và preview các URL nó sẽ

phân tích Nhấn OK

5 Bộ lọc tùy chỉnh

Bạn có thể nghĩ ngay đến việc click vào nút "Start" trong lúc

này, nhưng đừng vội làm thế Chúng ta vẫn cần phải định

dạng các bộ lọc tùy chỉnh để xác định những URL mà vẫn có

Trang 14

một phần code HTML trên web

Nhấp vào "Configure" và sau đó nhấp tiếp "Custom" để mở

ra giao diện của bộ lọc tùy chỉnh Đây là nơi bạn có thể nhập

mã HTML để tìm kiếm trên mỗi trang nó thu thập Bạn có thể chọn đánh dấu URL có chứa hoặc không chứa mã html

Chúng ta sử dụng chức năng "Contain” cho quá trình lọc đầu tiên và nhập tên miền đầy đủ trang web (bao gồm cả giao thức) trong hộp văn bản cho mã HTML (ví

dụ, http://www.example.com) Nếu trang đó vẫn chứa tên miền đầy đủ trong mã nguồn, đó có một cơ hội tốt cho các liên kết vẫn còn hoạt động Nhấn "OK" khi bạn đã làm xong

Trang 15

6 Thu thập thông tin của những trang đã được đanh dấu

Click "Start" và Screaming Frog sẽ kiểm tra từng url để tìm kiếm các mã HTML trong danh dách mà chúng ta đã add ở bước trước Nếu có nhiều liên kết cần phải thu thập thông tin, bạn có thể thu nhỏ cửa sổ và làm việc khác trong việc thu thập dữ liệu đang diễn ra, nhưng hãy chú ý đến thời gian

Kết quả của bạn sẽ xuất hiện trong tab "Custom" ở phần bên phải của giao diện Screaming Frog Đó là nơi các url phù hợp với bộ lọc tùy chỉnh sẽ hiển thị

Trang 16

7 Xuất kết quả

Sau khi bạn đã thu thập thông tin của từng trang để biết link

trang đó còn tồn tại không, bạn có thể dễ dàng nhìn thấy

được những link nào vẫn còn hoạt đông được cho ra bởi

Screaming Frog Sau đó, bạn có thể dễ dàng xuất kết quả vào

một tập tin csv, và có thể được mở file đó trong Excel Xem

xét các url mà vẫn còn link đến trang web của bạn, và theo

dõi với chúng Bạn cần phải làm đi làm lại quá trình này

nhiều lần

Trang 17

Xin chúc mừng, bạn đã hoàn thành việc kiểm tra các liên kết

Cập nhập worksheet và tiếp tục loại bỏ

Bây giờ bạn đã nhận được thông tin phản hồi ngay lập tức từ Screaming Frog về những liên kết này được thực sự loại bỏ,

và đến lúc bạn phải cập nhật bảng tính Hãy tổ chức

worksheet một cách rõ ràng theo ngày, do đó bạn có thể theo dõi sự tiến bộ của bạn theo thời gian Hãy nhớ rằng, bạn nên ghi lại tất cả các việc làm của bạn để chắc chắn rằng bạn đang theo dõi được sự loại bỏ link

Trang 18

Điều quan trọng là có một file Excel có cấu trúc tốt liên kết tới những link mà bạn đánh dấu, và những link bạn muốn từ chối (nếu bạn cần phải sử dụng các công cụ từ chối backlink cho bất kỳ các liên kết còn lại) Và đúng như thế, có thể bạn

sẽ cần phải sử dụng các công cụ từ chối backlink Hãy cố gắng và loại bỏ các link đó bằng cách thủ công

Kiểm tra page kĩ hơn với Deep Crawl

Như tôi đã đề cập ở trên, có một số trang web với những liên kết vô cùng tinh vi và phức tạp Ví dụ, có một số trang web tôi đã phân tích với hàng trăm hàng ngàn các liên kết spam (hoặc hơn) Đối với tình huống như thế này, danh sách các liên kết không tự nhiên có thể làm Screaming Frog hoạt động chậm lại và phải phân tích trong một thời gian dài Và đó là khi tôi sử dụng một công cụ mới mà tôi cũng rất ưu dùng Đó

là công cụ Deep Crawl

Trang 19

Deep Crawl là một giải pháp dựa trên mô hình đám mây để thực hiện thu thập thông tin ở quy mô lớn Đối với SEO-er,

đó là một giải pháp nhiệm vụ nặng nề Bạn cũng có thể sử dụng regEx (biểu thức hính quy) để kiểm tra sự hiện diện của nội dung trên một trang web trong Deep Crawl để xem xét kỹ lưỡng một trang web hơn

Điều tôi thích ở Deep Crawl là thu thập thông tin rất hiệu quả Ngoài ra, vì Deep Crawl dựa trên mô hình đám mây, tôi

có thể tùy chỉnh các thiết lập để thu thập dữ liệu, lập bảng biểu Sau đó, Deep Crawl sẽ gửi email cho tôi khi việc thu thập dữ liệu đã được hoàn thành

Dưới đây là một ảnh chụp màn hình của bộ lọc "Extraction", bạn có thể áp dụng cho Deep Crawl

Trang 20

Bạn có thể nhập một biểu thức chính quy (RegEx) để áp dụng cho mỗi trang được thu thập thông tin Và tương tự như Screaming Frog, bạn có thể tải lên file tin văn bản của URL

để thu thập thông tin Nhưng vì Deep Crawl là dựa trên mô hình đám mây, nên một số lượng lớn các url vẫn được Deep Crawl thu thập và phân tích một cách nhanh chóng hiệu quả

Tóm tắt:

Đối phó với Penguin là một việc khó khăn, đặc biệt là trường hợp khi bạn có hàng chục ngàn các liên kết không tự nhiên

Trang 21

trỏ đến site của bạn Các công cụ SEO có thể tự động hóa một số nhiệm vụ khó khắn, giúp bạn làm việc với website hiệu quả hơn Screaming Frog và Deep Crawl đều có thể giúp bạn rất nhiều trong các tình huống mà Penguin gây ra

Hy vọng rằng bài viết này đã giúp bạn nắm rõ cách sử dụng Screaming Frog và Deep Crwal để thu thập thông tin, kiểm tra các liên kết bị loại bỏ mà không cần phải xem xét lại từng trang

Tiêu đề	Sử Dụng Screaming Frog Hoặc Deep Crawl Kiểm Tra Các Link Bị Loại Bỏ Bởi Penguin
Trường học	Trường Đại Học Công Nghệ Thông Tin
Chuyên ngành	Công Nghệ Thông Tin
Thể loại	bài viết
Năm xuất bản	2023
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	21
Dung lượng	479,24 KB